2021年02月20日
グーグル・リサーチ: 自然言語理解 2021年1月12日G
自然言語理解
言語のより良い理解は、今年大きな進展が見られた分野です。この分野でのグーグルやその他の研究の多くは、もともと言語問題のために開発された特定のスタイルのニューラル・ネットワーク・モデルであるトランスフォーマーに依存しています(しかし、画像、ビデオ、スピーチ、タンパク質の折りたたみ、その他の様々な分野でも有用であるという証拠が増えてきています)。
興奮する分野の一つは、興味のあることについてユーザーとチャットすることができる対話システムで、多くの場合、複数回のやり取りを含みます。この分野でのこれまでの成功例としては、特定のトピックに特化したシステム(例:Duplex)がありますが、これらのシステムでは一般的な会話を行うことはできません。2020年には、よりオープン・エンドな対話が可能なシステムを作るという一般的な研究目標を達成するために、私達は意欲的に何でも話せる学習型会話エージェントMeenaを開発しました。MeenaはSSAと呼ばれる対話システムの応答の感度と特異性の両方を測定する指標で高いスコアを達成しています。Meenaのモデル・サイズをスケールアップすると、より低いパープレクシティ(困惑)を達成することができ、論文で示されているように、パープレクシティ(困惑)の低下はSSAの改善と非常に密接に相関していることがわかりました。
<コロナ環境下で健康に気を使われたい方に>
生成的言語モデルと対話システムのよく知られた問題の一つは、事実に基づいたデータを議論するときに、モデルの能力がトピックについてのすべての特定の詳細を記憶するのに十分ではない場合があり、そのため、もっともらしいが不正確な言語を生成してしまうということです(これは機械に限ったことではなく、人間もこのようなエラーを犯すことがあります)。対話システムでこの問題に対処するために、我々は会話エージェントに外部の情報源(例えば、大規模な文書の集積や検索エンジンのAPI)へのアクセスを与えて会話エージェントを増強する方法を模索し、検索されたテキストと一致する言語を生成するための追加リソースとして、これを利用する学習技術の開発も行っています。この分野の研究には、検索を言語表現モデルに統合することが含まれています(これをうまく機能させるための重要な基礎技術は、テキストの集積内の情報と目的の情報を効率的に一致させるための効率的なベクトル類似性検索であるScaNNのようなものです)。適切なコンテンツが見つかれば、ニューラル・ネットワークを使って表の中から答えを見つけたり、テンプレート化された文書から構造化データを抽出したりするなどのアプローチで、よりよく理解することができます。抽象的なテキスト要約のための最先端モデルであるPEGASUSに関する私達の研究は、会話や検索システムなど様々な場所で有用な一般的な技術である、任意のテキストからの自動要約の作成にも役立ちます。
<コロナ環境下での安心生活に>
NLPモデルの効率化もまた、2020年の私達の研究の重要な焦点でした。転移学習やマルチタスク学習のような技術は、一般的なNLPモデルを適度な計算量で新しいタスクで使えるようにするのに劇的に役立ちます。この分野の作業には、T5での転移学習の探索、モデルのスパース活性化(後述のGShardの作業のように)、ELECTRAによるより効率的なモデルの事前訓練などがあります。基本的なTransformerのアーキテクチャを改善しようとする作業もいくつかあります。その中には、より効率的に大きな注目ウィンドウをサポートするために、ローカリティに依存したハッシュと可逆計算を使用するReformer、2次的ではなく線形的にスケーリングする注目のアプローチを使用するPerformers、(タンパク質モデリングの文脈での使用について述べています)、大規模で構造化されたシーケンスの線形スケーリングを可能にするために、大域的でスパースなランダム接続を利用するETCとBigBirdなどがあります。また、大規模なBERTモデルよりも100倍小さいが、いくつかのタスクではほぼ同等の性能を発揮する、非常に軽量なNLPモデルを作成するための技術についても模索しました。Encode, Tag and Realize では、完全に一般的なテキスト生成ではなく編集操作を使用する生成的テキスト・モデルのための新しいアプローチも模索しました。これらは、生成のための計算要件、生成されたテキストに対するより多くの制御、およびより少ないトレーニング・データを必要とするという利点を持つことができます。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
言語のより良い理解は、今年大きな進展が見られた分野です。この分野でのグーグルやその他の研究の多くは、もともと言語問題のために開発された特定のスタイルのニューラル・ネットワーク・モデルであるトランスフォーマーに依存しています(しかし、画像、ビデオ、スピーチ、タンパク質の折りたたみ、その他の様々な分野でも有用であるという証拠が増えてきています)。
興奮する分野の一つは、興味のあることについてユーザーとチャットすることができる対話システムで、多くの場合、複数回のやり取りを含みます。この分野でのこれまでの成功例としては、特定のトピックに特化したシステム(例:Duplex)がありますが、これらのシステムでは一般的な会話を行うことはできません。2020年には、よりオープン・エンドな対話が可能なシステムを作るという一般的な研究目標を達成するために、私達は意欲的に何でも話せる学習型会話エージェントMeenaを開発しました。MeenaはSSAと呼ばれる対話システムの応答の感度と特異性の両方を測定する指標で高いスコアを達成しています。Meenaのモデル・サイズをスケールアップすると、より低いパープレクシティ(困惑)を達成することができ、論文で示されているように、パープレクシティ(困惑)の低下はSSAの改善と非常に密接に相関していることがわかりました。
<コロナ環境下で健康に気を使われたい方に>
生成的言語モデルと対話システムのよく知られた問題の一つは、事実に基づいたデータを議論するときに、モデルの能力がトピックについてのすべての特定の詳細を記憶するのに十分ではない場合があり、そのため、もっともらしいが不正確な言語を生成してしまうということです(これは機械に限ったことではなく、人間もこのようなエラーを犯すことがあります)。対話システムでこの問題に対処するために、我々は会話エージェントに外部の情報源(例えば、大規模な文書の集積や検索エンジンのAPI)へのアクセスを与えて会話エージェントを増強する方法を模索し、検索されたテキストと一致する言語を生成するための追加リソースとして、これを利用する学習技術の開発も行っています。この分野の研究には、検索を言語表現モデルに統合することが含まれています(これをうまく機能させるための重要な基礎技術は、テキストの集積内の情報と目的の情報を効率的に一致させるための効率的なベクトル類似性検索であるScaNNのようなものです)。適切なコンテンツが見つかれば、ニューラル・ネットワークを使って表の中から答えを見つけたり、テンプレート化された文書から構造化データを抽出したりするなどのアプローチで、よりよく理解することができます。抽象的なテキスト要約のための最先端モデルであるPEGASUSに関する私達の研究は、会話や検索システムなど様々な場所で有用な一般的な技術である、任意のテキストからの自動要約の作成にも役立ちます。
<コロナ環境下での安心生活に>
NLPモデルの効率化もまた、2020年の私達の研究の重要な焦点でした。転移学習やマルチタスク学習のような技術は、一般的なNLPモデルを適度な計算量で新しいタスクで使えるようにするのに劇的に役立ちます。この分野の作業には、T5での転移学習の探索、モデルのスパース活性化(後述のGShardの作業のように)、ELECTRAによるより効率的なモデルの事前訓練などがあります。基本的なTransformerのアーキテクチャを改善しようとする作業もいくつかあります。その中には、より効率的に大きな注目ウィンドウをサポートするために、ローカリティに依存したハッシュと可逆計算を使用するReformer、2次的ではなく線形的にスケーリングする注目のアプローチを使用するPerformers、(タンパク質モデリングの文脈での使用について述べています)、大規模で構造化されたシーケンスの線形スケーリングを可能にするために、大域的でスパースなランダム接続を利用するETCとBigBirdなどがあります。また、大規模なBERTモデルよりも100倍小さいが、いくつかのタスクではほぼ同等の性能を発揮する、非常に軽量なNLPモデルを作成するための技術についても模索しました。Encode, Tag and Realize では、完全に一般的なテキスト生成ではなく編集操作を使用する生成的テキスト・モデルのための新しいアプローチも模索しました。これらは、生成のための計算要件、生成されたテキストに対するより多くの制御、およびより少ないトレーニング・データを必要とするという利点を持つことができます。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/10550515
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック