2021年03月26日
グーグル・リサーチ: 機械学習アルゴリズムとモデルの理解 2021年1月12日L
グーグル・リサーチ: 機械学習アルゴリズムとモデルの理解 2021年1月12日L
機械学習のアルゴリズムやモデルをより深く理解することは、より効果的なモデルを設計・学習したり、モデルが失敗する可能性を理解したりする上で非常に重要です。昨年は、表現力、最適化、モデルの一般化、ラベル・ノイズなどに関する基本的な問題に焦点を当てました。この記事の冒頭で述べたように、トランスフォーマー・ネットワークは、言語、音声、視覚の問題のモデル化に大きな影響を与えていますが、これらのモデルが表現する機能のクラスはどのようなものでしょうか?最近、私達は、トランスフォーマーが配列対配列の関数の普遍的な近似器であることを示しました。さらに、疎なトランスフォーマーは、トークン間の線形数の相互作用だけを使用する場合でも、普遍的な近似器のままです。私達は、トランスフォーマーの収束速度を向上させるために、層別適応学習率に基づく新しい最適化技術を開発しています。例えば、Large batch optimization for deep learning (LAMB、深層学習のための大規模一括最適化)などです。76分でBERTを学習します。
ニューラル・ネットワークをより広く、より深くすると、多くの場合、より速く学習し、よりよく一般化します。古典的な学習理論では、大きなネットワークはよりオーバー・フィットするはずなので、これは深層学習の核心的な謎です。私達は、このオーバー・パラメータ化された領域におけるニューラル・ネットワークの理解に取り組んでいます。無限の幅の限界では、ニューラル・ネットワークは驚くほどシンプルな形になり、ニューラル・ネットワーク・ガウス過程(NNGP)またはニューラル・タンジェント・カーネル(NTK)で記述されます。私達は、この現象を理論的・実験的に研究し、無限幅のニューラル・ネットワークを構築・学習するためのJAXで書かれたオープンソースのソフトウェア・ライブラリ「Neural Tangents」を公開しました。
左:深層ニューラル・ネットワークが無限幅になると単純な入出力マップになることを示す模式図。右:ニューラル・ネットワークの幅が大きくなると、ネットワークの異なるランダムなインスタンスにおける出力の分布がガウス型になることがわかります。
有限幅のネットワークを大きくすると、幅が大きくなるにつれて、一般化が良くなったり、悪くなったり、また良くなったりする特異な二重下降現象が見られます。私達は、この現象が新しいバイアス・分散分解によって説明できることを示し、さらに、三重降下として現れることもあることを示しました。
最後に、実世界の問題では、しばしば大きなラベル・ノイズを扱う必要があります。例えば、大規模な学習シナリオでは、弱いラベルのデータが大量にあり、大きなラベル・ノイズがあります。私達は、深刻なラベル・ノイズから効果的な監視を抽出するための新しい技術を開発し、最先端の結果を得ました。さらに、ランダムなラベルを用いてニューラル・ネットワークを学習することの効果を分析し、ネットワークのパラメータと入力データの間に整合性を持たせることで、ゼロから初期化するよりも高速に下流の学習を行うことができることを示しました。また、ラベル・スムージングやグラジエント・クリッピングがラベル・ノイズを軽減できるかどうかといった問題についても検討し、ノイズの多いラベルに対してロバストな学習技術を開発するための新たな知見を得ました。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
機械学習のアルゴリズムやモデルをより深く理解することは、より効果的なモデルを設計・学習したり、モデルが失敗する可能性を理解したりする上で非常に重要です。昨年は、表現力、最適化、モデルの一般化、ラベル・ノイズなどに関する基本的な問題に焦点を当てました。この記事の冒頭で述べたように、トランスフォーマー・ネットワークは、言語、音声、視覚の問題のモデル化に大きな影響を与えていますが、これらのモデルが表現する機能のクラスはどのようなものでしょうか?最近、私達は、トランスフォーマーが配列対配列の関数の普遍的な近似器であることを示しました。さらに、疎なトランスフォーマーは、トークン間の線形数の相互作用だけを使用する場合でも、普遍的な近似器のままです。私達は、トランスフォーマーの収束速度を向上させるために、層別適応学習率に基づく新しい最適化技術を開発しています。例えば、Large batch optimization for deep learning (LAMB、深層学習のための大規模一括最適化)などです。76分でBERTを学習します。
ニューラル・ネットワークをより広く、より深くすると、多くの場合、より速く学習し、よりよく一般化します。古典的な学習理論では、大きなネットワークはよりオーバー・フィットするはずなので、これは深層学習の核心的な謎です。私達は、このオーバー・パラメータ化された領域におけるニューラル・ネットワークの理解に取り組んでいます。無限の幅の限界では、ニューラル・ネットワークは驚くほどシンプルな形になり、ニューラル・ネットワーク・ガウス過程(NNGP)またはニューラル・タンジェント・カーネル(NTK)で記述されます。私達は、この現象を理論的・実験的に研究し、無限幅のニューラル・ネットワークを構築・学習するためのJAXで書かれたオープンソースのソフトウェア・ライブラリ「Neural Tangents」を公開しました。
左:深層ニューラル・ネットワークが無限幅になると単純な入出力マップになることを示す模式図。右:ニューラル・ネットワークの幅が大きくなると、ネットワークの異なるランダムなインスタンスにおける出力の分布がガウス型になることがわかります。
有限幅のネットワークを大きくすると、幅が大きくなるにつれて、一般化が良くなったり、悪くなったり、また良くなったりする特異な二重下降現象が見られます。私達は、この現象が新しいバイアス・分散分解によって説明できることを示し、さらに、三重降下として現れることもあることを示しました。
最後に、実世界の問題では、しばしば大きなラベル・ノイズを扱う必要があります。例えば、大規模な学習シナリオでは、弱いラベルのデータが大量にあり、大きなラベル・ノイズがあります。私達は、深刻なラベル・ノイズから効果的な監視を抽出するための新しい技術を開発し、最先端の結果を得ました。さらに、ランダムなラベルを用いてニューラル・ネットワークを学習することの効果を分析し、ネットワークのパラメータと入力データの間に整合性を持たせることで、ゼロから初期化するよりも高速に下流の学習を行うことができることを示しました。また、ラベル・スムージングやグラジエント・クリッピングがラベル・ノイズを軽減できるかどうかといった問題についても検討し、ノイズの多いラベルに対してロバストな学習技術を開発するための新たな知見を得ました。
英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/10623546
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック