アフィリエイト広告を利用しています
ファン
検索
<< 2021年04月 >>
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  
最新記事
写真ギャラリー
最新コメント
タグクラウド
カテゴリーアーカイブ
月別アーカイブ
プロフィール
macau0123さんの画像
macau0123
プロフィール
日別アーカイブ

広告

posted by fanblog

2021年03月18日

グーグル・リサーチ: 強化学習 2021年1月12日J

グーグル・リサーチ: 強化学習 2021年1月12日J

限られた経験から長期的に良い判断をすることを学習する強化学習(RL)は、私達にとって重要な焦点となっている分野です。強化学習の重要な課題は、少ないデータ・ポイントから意思決定を学習することです。私達は、固定データ・セットからの学習、他のエージェントからの学習、探索の改善により、強化学習アルゴリズムの効率を改善してきました。

ふとんクリーナーのパイオニア[レイコップ公式オンラインストア]
とりあえず、見てください!
【レイコップ】安心の2年保障は公式ストアだけ!


今年の主な焦点は、オフライン強化学習にあります。オフライン強化学習は、過去に収集された固定のデータセット(例えば、以前の実験や人間によるデモンストレーションから得られたもの)のみに依存し、リアルタイムでトレーニング・データを収集できないアプリケーションに強化学習を拡張します。私達は、強化学習に二元性アプローチを導入し、オフ・ポリシー評価、信頼区間の推定、オフライン・ポリシー最適化のための改良されたアルゴリズムを開発しました。さらに、オープン・ソースのベンチマーク・データや、AtariのDQNデータを公開することで、これらの問題に取り組むために幅広いコミュニティと協力しています。

もう一つの研究は,見習い学習によって他のエージェントから学ぶことで,サンプルの効率を向上させるものです。情報を持ったエージェントからの学習、他のエージェントの分布とのマッチング、敵対的な例からの学習などの手法を開発しました。強化学習での探索を改善するために、ボーナス・ベースの探索方法を研究しています。これには、環境についての事前知識を持つエージェントに生じる構造化された探索を模倣する技術が含まれます。





また、強化学習の数学的理論にも大きな進歩がありました。私達の主な研究分野の1つは、強化学習を最適化プロセスとして研究することでした。私達は、フランク・ウルフ・アルゴリズム、モメンタム法、KLダイバージェンス正則化、作用素理論、収束分析などとの関連を発見しました。これらの洞察により、強化学習の困難なベンチマークで最先端の性能を達成するアルゴリズムや、多項式伝達関数が強化学習と教師付き学習の両方でソフト・マックスに関連する収束問題を回避することを発見しました。安全な強化学習というテーマでは、実験上の重要な制約を尊重しながら最適な制御ルールを発見するというエキサイティングな進展がありました。これには、安全なポリシー最適化のためのフレームワークも含まれています。モバイル・ネットワークから電力網まで、多数の意思決定者が存在するシステムをモデルとする平均場ゲームと呼ばれる問題群を解くための効率的な強化学習ベースのアルゴリズムを研究しました

私達は、複雑な現実世界の問題に強化学習をスケール・アップするための重要な課題である、新しいタスクや環境への一般化に向けたブレークスルーを実現しました。2020年の重点分野は、集団ベースのLearning-to-Learn法で、別の強化学習エージェントや進化的エージェントが強化学習エージェントの集団を訓練して、差し迫った複雑さを持つカリキュラムを作成し、新しい最先端の強化学習アルゴリズムを発見しました。トレーニング・セット内のデータ・ポイントや視覚入力の一部の重要性を選択的に推定する学習を行った結果、強化学習エージェントのスキルが格段に向上しました。

水まわりのトラブルに緊急駆けつけ【水のトラブル救急車】


AttentionAgentの手法とデータ処理の流れの概要。上段「入力の変換」 - スライディングウィンドウを用いて入力画像を小さなパッチに分割し、後の処理のために「平坦化」しています。中段「パッチの選択」:自己注目モジュールがパッチ間の投票を行い、パッチの重要度を表すベクトルを生成します。下段「アクションの生成」: AttentionAgentは、最も重要なパッチを選び、それに対応する特徴を抽出し、それに基づいて判断を下します。さらに、モデル・ベース強化学習では、予測行動モデルの学習が強化学習の学習を加速させ、多様なチームでの分散型協調マルチ・エージェント・タスクや、長期的な行動モデルの学習を可能にすることを示し、進歩を遂げました。スキルが環境に予測可能な変化をもたらすことを観察し、監督なしでスキルを発見します。より良い表現は強化学習の学習を安定させ、階層的な潜在空間と価値向上経路はより良いパフォーマンスをもたらします。

私達は、強化学習のスケール・アップや生産化のためのオープンソース・ツールを共有しました。ユーザーが取り組む範囲や問題を拡大するために、超並列強化学習エージェントであるSEEDを導入し、強化学習アルゴリズムの信頼性を測定するためのライブラリをリリースし、分散強化学習、TPUサポート、バンディット・アルゴリズムのフルセットを含むTF-Agentsの新バージョンをリリースしました。さらに、強化学習アルゴリズムの大規模な実証研究を行い、ハイパー・パラメータの選択やアルゴリズムの設計を改善しました。

最後に、Loon社とのコラボレーションにより、成層圏の気球をより効率的に制御するための強化学習のトレーニングと配備を行い、電力使用量とナビゲート能力の両方を改善しました。

英語原文はこちら
https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html




この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/10607482
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
×

この広告は30日以上新しい記事の更新がないブログに表示されております。