SlideShare a Scribd company logo
1 of 26
Download to read offline
大規模な論文対訳データを
利用した高精度な中日、英日
ニューラル機械翻訳の開発
機械翻訳の飛躍的な発展
~増え続ける国外文献からの
スピーディーな情報収集への貢献~
2017/12/1@INFOPRO2017
中澤 敏明
科学技術文献データベース
2
• JSTは長きに渡って科学技術文献データベースを構
築してきた
– 日本国内の文献だけでなく、主要な英語および中国語
誌についても抄録の日本語訳を作成し、搭載
– 日本人の利用者が、日本語で文献の検索・閲覧が可能
– 搭載件数は6000万件以上 (国内最大)
• 収録する文献の数は毎年増え続けている
– 人手で全てを翻訳することは、時間的にも金銭的にも現
実的ではなくなっている
世界の科学技術論文数
4
https://data.worldbank.org/indicator/IP.JRN.ARTC.SC?end=2013&
locations=CN-DE-FR-JP-GB-US-1W&start=2000&view=chart
• JDream IIIで提供する外国文献のカバー率を高
め、さらに即時性も確保するために、数年前から
一部の翻訳に統計的な手法による機械翻訳
(Statistical Machine Translation, SMT)を利用
– 精度は満足のいくものではなかった
• 科学技術論文を高精度に翻訳できるエンジンが
必要
5
機械翻訳の利用
• 2013年から5年間 (今年度が最終年度)
• 参加機関
– 日本: JST、京都大学(黒橋・河原研究室)
– 中国: ISTIC (過去の協力機関: CAS, BJTU, HIT)
• 科学技術論文翻訳に特化した機械翻訳エンジン
の開発、日中の言語資源データの整備
• 機械翻訳技術により日中間の言語障壁を取り除
き、科学技術交流の促進を目指す
• エンジンは他の言語対でも利用可能
日中・中日機械翻訳実用化プロジェ
クト
6
プロジェクトの目標
7
言語資源の構築
機械翻訳エンジンの開発
言語解析器の精度向上
Japanese Chinese
機械翻訳 机器翻译
アルゴリズム 算法
蓄積 积累
アセトン 丙酮
… …
専門用語辞書
400万語
ja: 原言語の意味を正しく目的言語
に再現するためには,原言語表現
の意味に適した訳語の選択が必
要である。
zh: 为了能够正确的再现原来语言
的意思,选择适合表现原来语言
意思的译语是很重要的。
対訳コーパス
500万文対
开发机器翻译技术
开发 机器 翻译 技术
开发
机器
翻译
技术
単語分割
依存構造解析
作为
测量
器械
使用
了
秒表
Input:
作为测量器械使用
了秒表
Translation Examples
Output:
測定機器としては
ストップウォッチを用いた
作为
使用
了
变位
操作者
オペレータ
して
は
変位
と
を
用いた
機器
して
は
ストップウォッチ
と
を
用いた
測定
使用
秒表
ストップウォッチ
を
使った
输入
器械
入力
機器
测量
频率
測定
頻度
・・・・・ ・・・・・
用例ベース機械翻訳システム
特に中国語
• 2014年に提案されたニューラル機械翻訳
(Neural Machine Translation, NMT)が統計翻訳の
精度を大きく上回ってきた
• その後MicrosoftやGoogleもNMTに移行
– 現在のGoogle翻訳は英語と全ての言語との間で
NMT(英語以外の言語間は、おそらく英語を介したブ
リッジング)
• 日中・中日MTプロジェクトでもNMTのエンジンを
独自開発
– 機械翻訳の国際評価ワークショップWAT2016および
2017の日中・中日科学技術翻訳タスクで1位
8
ニューラル機械翻訳
どれぐらい進化したのか? (GNMTの例)
9
• d
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
JST/京大NMTの人手評価
10
• 相対評価
– 中国語の科学技術文献(生物、化学、電気工学など)か
らランダムに選定した100文を4つのエンジンで翻訳
1. 商用ルールベースMT
2. JST/京大 NMT
3. Google Translate (旧: SMT)
4. Google Translate (新: NMT)
– 各文について、3名の評価者が最も良い翻訳結果を選択
• 絶対評価
– JST/京大 NMTの翻訳結果を1名の評価者が5段階評価
評価結果
11
5%
2%
11%
4%
77%
76%
75%
79%
3%
6%
2%
3%
14%
17%
12%
14%
0% 20% 40% 60% 80% 100%
計
評価者C
評価者B
評価者A
高電社 RBMT JST・京大 NMT
Google SMT Google NMT
35
1411
36
4
5:原文の内容と一致
4:ほぼ原文の内容と一致
3:誤字、脱字レベル
2:一部誤訳、訳抜けあり
1:誤訳、訳抜けが多い
絶対評価相対評価
RBMT
Google SMT Google NMT
JST/京大 NMT
SMT VS. NMT
12
訓練データ 開発データ 試験データ
翻訳知識 / ルール
フレーズテーブル
素性の重み
言語
モデル
最終
翻訳結果
チューニング
リランキング/
リライティング
デコーダー / 翻訳エンジン
一般的な統計翻訳(SMT)の枠組み
13
単語/句
アライメント
N-best
翻訳結果
N-best
翻訳結果
正解翻訳
GIZA++
MGIZA
FastAlign
Nile
SRILM
KenLM
RNNLM
Moses, Joshua
Travatar, KyotoEBMT
MERT
MIRA
PRO
フレーズベースSMTのデコーディング
14
新たな 翻訳 手法 を 提案 する
new
novel
translation method
a method the
propose is
do
we propose
a
an approach
approach
suggestdecode
we proposetranslation algorithm
a new translation method
of the
novel translation
Phrase
table
we propose a novel translation method
訓練データ 開発データ 試験データ
最終
翻訳結果
NMT
一般的なニューラル翻訳(NMT)の枠組み
15
余計な前処理、後処理がなく
文から文へ直接翻訳されるので
end-to-endの翻訳とも呼ばれる
新たな 翻訳 手法 を 提案 する
embedding
forward RNN
backward RNN
we propose a novel translationmethod
attention
decoder RNN
softmax
input
output
<EOS>
<EOS>
Attention-based Neural Machine Translation
16
[Bahdanau et al., 2014]
• SMTよりも平均的に高精度
• SMTのような複雑なステップがない
• SMTのように入力文を「置き換える」ことで翻訳す
るのではなく、入力文を見ながら翻訳文を生成
– <EOS>が(どこかで)出力されたら完了
• 入口(入力文)と出口(翻訳文)以外は全て数値
計算(行列の積など)だけで動いている(end-to-
end)
• embeddingのおかげで柔軟な翻訳が可能
17
NMTの特徴
NMTの短所
18
• 既存の(SMT用の)前処理・後処理が使えない
• 対訳辞書を利用することが難しい
• モデルの訓練にGPUが必須
• なぜこの翻訳結果が出てきたのかを説明することが
できない
• 入力文を過不足なく翻訳することができない
NMTの課題
19
• 扱える語彙サイズが小さい
– 計算コストの問題から、NMTでは頻度上位の語(例えば5
万語とか)のみしか扱うことができない
– 語彙サイズの問題の解決を試みた様々な研究
• 低頻度語を全て特別な記号<UNK>に置き換えて翻訳し、訳文中
の<UNK>を辞書等で後から翻訳
• 単語ではなく文字を使ったり、その両方をハイブリッドに
• サブワードを利用 (byte pair encoding, BPEやsentecepiece)
• 訳抜けと繰り返し
– 単語、句、節など様々な単位での訳抜けが発生
– 単語や句が繰り返し出現
中→日翻訳例
20
IN
使用由高取向热解石墨(HOPG)制成的单色器702作为X射线的单色化单
元以便提取Mo的特征X射线。
REF
X線の単色化手段としては高配向性熱分解黒鉛(HOPG)のモノクロメータ
702を用いMoの特性X線部分を抽出する。
SMT
X線として高配向熱分解黒鉛(HOPG)からなるモノクロメータ702の単色
化ユニットを用いてMoの特性X線を抽出することができる。 (3, 3)
NMT
高配向熱分解黒鉛(HOPG)からなるの702は、X線を用いてX線を抽出する
ために、X線を使用する。 (1, 2)
IN “聚合酶链反应”(“PCR”)是本领域技术人员熟知的。
REF 「ポリメラーゼ連鎖反応」(「PCR」)は、当業者によく知られている。
SMT 「ポリメラーゼ連鎖反応(PCR)」は、当業者に周知である。 (5, 5)
NMT 「重反応」(「PCR」)は当業者に周知である。 (4, 2)
英→日翻訳例
21
IN
Using Hartree-Fock-Bogoliubov method, pairing density distribution of the
deformed nuclei was investigated.
REF
Hartree−Fock−Bogoliubov法を用いて変形した原子核の対密度分布を
調べた。
SMT
Hartree ‐ Fock ‐ Bogoliubov法を用いて,変形した核の対密度分布を
調べた。(5, 5)
NMT 標記の方法を用いて,変形核の対密度分布を調べた。 (4, 3)
IN 食事については,全介助から半介助となった。
REF On the meal, changing from all support to half support was realized.
SMT The meal became half assistance from the assistance. (1, 4)
NMT
On the meal, it became the assistance from all assistance assistance. (1,
2)
JDreamIIIにおける実用化
http://jdream3.com
22
23
英日についても
来年度より置き換え予定
まとめ
24
世界最高性能の科学技術論文翻訳
25
• 巨大な対訳コーパス
– 日中400万対訳文 (ISTICと共同でプロジェクト内で構築)
– 日英1000万対訳文
• 高精度な科学技術論文用のニューラル翻訳
– 国際的な機械翻訳の評価ワークショップで1位
• 実用化
– 中国文献 (LCAS, Wanfang) をNMTで日本語に翻訳し、
JSTChinaデータベースに搭載し、日本人ユーザーに提供
– 英日についても今年度末から来年度にNMTに移行
世界の特許文献数
26
http://www.meti.go.jp/press/2014/11/20141112003/20141112003.html
Ohters
China
Korea
Europe
USA
Japan
27
ご静聴ありがとうございました

More Related Content

大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発