2021年03月06日
グーグル・リサーチ: 言語翻訳 2021年1月12日⑨
言語翻訳
効果的な言語翻訳は、異なる言語を話しているにもかかわらず、すべての人がコミュニケーションを取れるようにすることで、世界をより身近なものにします。現在までに、世界中で10億人以上の人々がグーグル翻訳を利用しており、昨年は新たに5つの言語(キンヤルワンダ語、オディア語、タタール語、トルクメン語、ウイグル語、合計7,500万人が使用している言語)のサポートを追加しました。翻訳品質は改善を続けており、2019年5月から2020年5月までに100以上の言語で平均+5 BLEUポイントの向上を示し、モデルアーキテクチャとトレーニングの改善、データセット内のノイズの取り扱いの改善、多言語転送とマルチタスク学習の改善、低リソース言語(ウェブ上の公開コンテンツがあまり書かれていない言語)を改善するための単言語データの活用の改善など、さまざまなテクニックを駆使して、可能な限り多くの人にメリットを提供するために機械学習システムの「機械学習の公平性」を改善するという私達の目標に直接沿ったものとなっています。


私達は、多言語翻訳モデルのスケーリングを継続することで、特に世界中の数十億人の低リソース言語を話す人々にさらなる品質向上をもたらすと確信しています。GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(条件付き計算と自動シャーディングを用いた巨大モデルのスケーリング)では、グーグルの研究者は、最大6,000億個のパラメータでまばらに動作する多言語翻訳モデルを学習することで、100言語の翻訳品質が、各言語について個別の400Mパラメータの単言語ベースラインモデルのベースラインよりもBLEUスコアで大幅に改善されることを示しました。本研究では、3つの傾向が際立っており、以下に再現された論文の図6に示されています(完全な議論は論文を参照)。


多言語トレーニングによるBLEUスコアの改善は、すべての言語で高いが、世界で最も周縁化されたコミュニティに住む何十億人もの人々の話者がいる低リソース言語(グラフの右側が左側よりも高い)では、さらに高くなっています。図の各矩形は、話者数が10億の言語を表しています。モデルが大きくて深いほど、すべての言語でBLEUスコアの改善が大きくなっています(線が交差することはほとんどありません)。
また、大規模でまばらなモデルは、大規模で密なモデルを学習するよりもモデル学習の計算効率が10倍から100倍向上し、同時に大規模で密なモデルのBLEUスコアと一致したり、大幅に上回ったりします(計算効率は論文で議論されています)。
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(条件付き計算と自動シャーディングを用いた巨大モデルのスケーリング)に記載されている、大規模で疎活性化された言語モデルの100言語にわたる翻訳品質の大幅な向上の例。


私達は、このGShard研究で実証された利点をグーグル翻訳に反映させることに積極的に取り組んでいます。また、ディベヒ語やスーダンのアラビア語などの言語を含む1,000の言語をカバーする単一モデルをトレーニングしています(途中で解決が必要な課題を共有しながら)。
私達はまた、BERTモデルのための文の言語にとらわれない表現を作成する技術を開発し、より良い翻訳モデルの開発に貢献しました。翻訳品質をより効果的に評価するために、翻訳のようなタスクのための言語生成を評価するための新しいメトリックであり、下の表に示すように、グランドトゥルースデータとの単語の重なりの量だけではなく、生成されたテキストのセマンティクスを考慮したBLEURTを導入しました。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html

効果的な言語翻訳は、異なる言語を話しているにもかかわらず、すべての人がコミュニケーションを取れるようにすることで、世界をより身近なものにします。現在までに、世界中で10億人以上の人々がグーグル翻訳を利用しており、昨年は新たに5つの言語(キンヤルワンダ語、オディア語、タタール語、トルクメン語、ウイグル語、合計7,500万人が使用している言語)のサポートを追加しました。翻訳品質は改善を続けており、2019年5月から2020年5月までに100以上の言語で平均+5 BLEUポイントの向上を示し、モデルアーキテクチャとトレーニングの改善、データセット内のノイズの取り扱いの改善、多言語転送とマルチタスク学習の改善、低リソース言語(ウェブ上の公開コンテンツがあまり書かれていない言語)を改善するための単言語データの活用の改善など、さまざまなテクニックを駆使して、可能な限り多くの人にメリットを提供するために機械学習システムの「機械学習の公平性」を改善するという私達の目標に直接沿ったものとなっています。

私達は、多言語翻訳モデルのスケーリングを継続することで、特に世界中の数十億人の低リソース言語を話す人々にさらなる品質向上をもたらすと確信しています。GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(条件付き計算と自動シャーディングを用いた巨大モデルのスケーリング)では、グーグルの研究者は、最大6,000億個のパラメータでまばらに動作する多言語翻訳モデルを学習することで、100言語の翻訳品質が、各言語について個別の400Mパラメータの単言語ベースラインモデルのベースラインよりもBLEUスコアで大幅に改善されることを示しました。本研究では、3つの傾向が際立っており、以下に再現された論文の図6に示されています(完全な議論は論文を参照)。

多言語トレーニングによるBLEUスコアの改善は、すべての言語で高いが、世界で最も周縁化されたコミュニティに住む何十億人もの人々の話者がいる低リソース言語(グラフの右側が左側よりも高い)では、さらに高くなっています。図の各矩形は、話者数が10億の言語を表しています。モデルが大きくて深いほど、すべての言語でBLEUスコアの改善が大きくなっています(線が交差することはほとんどありません)。
また、大規模でまばらなモデルは、大規模で密なモデルを学習するよりもモデル学習の計算効率が10倍から100倍向上し、同時に大規模で密なモデルのBLEUスコアと一致したり、大幅に上回ったりします(計算効率は論文で議論されています)。
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding(条件付き計算と自動シャーディングを用いた巨大モデルのスケーリング)に記載されている、大規模で疎活性化された言語モデルの100言語にわたる翻訳品質の大幅な向上の例。

私達は、このGShard研究で実証された利点をグーグル翻訳に反映させることに積極的に取り組んでいます。また、ディベヒ語やスーダンのアラビア語などの言語を含む1,000の言語をカバーする単一モデルをトレーニングしています(途中で解決が必要な課題を共有しながら)。
私達はまた、BERTモデルのための文の言語にとらわれない表現を作成する技術を開発し、より良い翻訳モデルの開発に貢献しました。翻訳品質をより効果的に評価するために、翻訳のようなタスクのための言語生成を評価するための新しいメトリックであり、下の表に示すように、グランドトゥルースデータとの単語の重なりの量だけではなく、生成されたテキストのセマンティクスを考慮したBLEURTを導入しました。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html

【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/10582155
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック