簡単な迷路探索でQ学習を使ってみた

簡単な迷路探索でQ学習を使ってみた

dfdfadfasdfa

Q学習(強化学習の一種)を用いて,固定迷路を解くエージェントを実装する.

迷路は固定で,大きさは8×3.左上がスタート,右下がゴールとして.ゴールに到達した時報酬をもらい,イテレーション終了.これを難度も繰り返す.

実験結果はこのようになりました.↓

100イテレーションおきにを動画で出力してあります.

スタートからゴールに行くまでにかかったターン数をグラフにしてみると,次のようになった.

fdasfasdfas

このグラフを見るとわかると思うが,約1500ターンを境目に逆にかかるターン数が増加している.これがなぜなのか調査する必要があると考える.

調査項目

alpha = 学習率 gamma = 割引率 goal = ゴール時報酬

alpha = 0.01 gamma = 0.99 goal=1.0 10000itersで全然学習せず

alpha = 0.01 gamma = 0.99 goal=100 1500がピーク

Posted on