アフィリエイト広告を利用しています

広告

posted by fanblog

2021年06月05日

私を模倣しないAI(ゲーム編)その2(強化学習その2)

主な開発環境
・Ubuntu 18.04
・python 3.7.10
・tensorflow 1.14
・gym 0.15.7
・baselines

前回の環境とモデルで学習させた結果、
結局、reward=10程度までしか、上達しませんでした。

もう少し、優秀な人工知能をつくろうと、
モデルをA2Cに、環境をmake_atari_envに、BreakoutのバージョンをNoFrameskip-v4に変えてみました。
学習時間は同じsteptimes=5000000です。。
私のノートPCで、学習に24時間ほどかかりました。
from stable_baselines.common.cmd_util import make_atari_env
from stable_baselines.common.policies import CnnPolicy
from stable_baselines.common.vec_env import VecFrameStack
from stable_baselines import A2C

env = make_atari_env('BreakoutNoFrameskip-v4', num_env=1, seed=0)
env = VecFrameStack(env, n_stack=4)

model = A2C(CnnPolicy, env, lr_schedule='constant', verbose=1, tensorboard_log="/tmp/a2c_breakout_tensorboard")
model.learn(total_timesteps=5000000)

model.save("breakout_a2c")


平均score=60まで上達しました。
私を模倣した人工知能よりは上手ですが、完全クリアまでに至りませんでした。
test6.gif

人工知能の能力は、アタリのゲームの半数以上において、人間が2時間プレー後に20回プレーした平均のスコアをこえるまでになっているそうです(https://qiita.com/ikeyasu/items/67dcddce088849078b85より)。
検索

私が見た動画紹介コーナー

素敵です

プロフィール
もう一人の自分さんの画像
もう一人の自分
好きなことを仕事にしなかった
プロフィール
最新記事
カテゴリーアーカイブ
ファン
写真ギャラリー
×

この広告は30日以上新しい記事の更新がないブログに表示されております。