私を模倣しないAI（ゲーム編）その２（強化学習その２）: もう一人の自分

2021年06月05日

私を模倣しないAI（ゲーム編）その２（強化学習その２）

主な開発環境
・Ubuntu 18.04
・python 3.7.10
・tensorflow 1.14
・gym 0.15.7
・baselines

前回の環境とモデルで学習させた結果、
結局、reward=10程度までしか、上達しませんでした。

もう少し、優秀な人工知能をつくろうと、
モデルをA2Cに、環境をmake_atari_envに、BreakoutのバージョンをNoFrameskip-v4に変えてみました。
学習時間は同じsteptimes=5000000です。。
私のノートPCで、学習に24時間ほどかかりました。

from stable_baselines.common.cmd_util import make_atari_env
from stable_baselines.common.policies import CnnPolicy
from stable_baselines.common.vec_env import VecFrameStack
from stable_baselines import A2C

env = make_atari_env('BreakoutNoFrameskip-v4', num_env=1, seed=0)
env = VecFrameStack(env, n_stack=4)

model = A2C(CnnPolicy, env, lr_schedule='constant', verbose=1, tensorboard_log="/tmp/a2c_breakout_tensorboard")
model.learn(total_timesteps=5000000)

model.save("breakout_a2c")

平均score=60まで上達しました。
私を模倣した人工知能よりは上手ですが、完全クリアまでに至りませんでした。

人工知能の能力は、アタリのゲームの半数以上において、人間が2時間プレー後に20回プレーした平均のスコアをこえるまでになっているそうです（https://qiita.com/ikeyasu/items/67dcddce088849078b85より）。

Share on Tumblr

【このカテゴリーの最新記事】

posted by もう一人の自分 at 12:46| 人工知能（AI）