強化学習メモ(統一)

・エージェント

動作する主体

・環境

エージェントが行動を行ったり,報酬を受け取ったり,観測をしたりする空間.

.状態

環境内でエージェントの置かれている状態,時刻で変化する.

・観測

状態をエージェントが知るために行う動作.

状態を観測で完全に把握できるとは限らない.

・行動

エージェントが環境に対して行う物.

・報酬

行動をした後に受け取るもの.

エージェントの行動により受け取る報酬が変わる.

エージェントの行動の良さを直接的に示すものではない.

今までに行ってきた行動にも影響される.

・方策

状態が与えられたときのエージェントの行動規則.

強化学習では一般的に確立で表される.

・強化学習

強化学習では,報酬の総和を最大化する最適な方策を求めたい.

・マルコフ性

有限回の連続した観測で現在の状態が把握できるような性質.

・マルコフ決定過程

状態の観測がマルコフ性を持つとき,エージェントが観測・行動・報酬の受け取りを行うというのを繰り返し行い,割引率に基づいた総和報酬を最大化する方策を求める過程.

このとき,状態,行動は有限である.

・状態価値

エージェントにとっての,ある状態の価値.

割引率と未来報酬,方策によって決定される.

エージェントがいなければ状態の価値は存在しない.

・行動価値

エージェントにとっての,ある状態においてのある行動の価値.

割引率と未来報酬,方策によって決定される.

エージェントがいなければ行動の価値は存在しない.

行動の価値を方策に基づき行動を周辺化すれば,状態価値を求めることができる.

・Bellman方程式

状態価値・行動価値をエージェントが計算するための方程式

・Bellman方程式の解法

動的計画法,モンテカルロ法,TD法.

・動的計画法

エージェントが,環境のモデルを完全に把握しているとき,Bellman方程式を方策反復,価値反復により求める事ができる.

方策価値,行動価値を方策改善定理に基づき改善する.

・モンテカルロ法

エージェントが,環境のモデルを把握していないとき,Bellman方程式を求める方法.時間がかかる.

方策価値,行動価値を方策改善定理に基づき改善する.

・TD法

エージェントが,環境のモデルを把握していないときに適用できる.

逐次的に学習するので早い.方策価値の推定と方策の改善を同時に行う.

TD法には,方策オン方式のSarsa法,方策オフ方式のQ学習がある.

・Q学習

強化学習でよく聞く学習法.

[Q(s_t,a)←Q(s_t,a)+\alpha [\gamma  \max_p Q(s_{t+1},p)-Q(s_t,a)]]

で行動価値を変化させることで学習する.挙動方策はソフトマックス法を用いる.

Posted on