【書評】ITエンジニアのための強化学習理論入門

中井さんのITエンジニアのための強化学習理論入門を読んだので、感想。中井さんの書籍は数式や文章のストーリー展開がわかりやすくて、その期待も込みで購入。教育用の書籍になると思うので。

中井さんの新刊気付いてなくて連休中にポチった。
強化学習の導入にはめちゃくちゃいい。練習問題があるのは最高。理解度を測れるので。 pic.twitter.com/OqgD11eAAD
— くろたんく@激しく多忙 (@black_tank_top) 2020年7月26日

本書の概要
- 第1章
- 第2章
- 第3章
- 第4章
- 第5章
必要な前提知識
おすすめの人
その他参考図書
- Pythonで学ぶ強化学習（久保さんの書籍）
終わりに
お願い（欲しい書籍リスト）

本書の概要

第1章

強化学習の考え方についてはじまり、バンディットアルゴリズムの内容である。いつも中井さんの本を見ているとわかりやすいなぁと思うが、定常状態の平均の求め方から、非定常状態の学習率への流れは秀逸だなと思った。

定常状態において、真の平均値 $\mu$ を点数の平均の計算で推定するので以下の様になる（メモリー対策のために直前の平均を戻して、新しいデータを足すということを行なっている。）

$\bar{r}_n = \frac{1}{n}\lbrace(n-1)\bar{r}_{n-1}+ r_n\rbrace$

これを以下の様に変形する。

$\bar{r}_n = \bar{r}_{n-1} + \frac{1}{n}(r_n - \bar{r}_{n-1})$

ここで、この後に非定常状態について真の平均値 $\mu$ が変化することを考えると、上の計算のままでは直近のデータの影響が小さくなる（定常状態の平均値としては正しい）ので $\mu$ が変化する様な非定常状態では、その $\mu$ の変化を追従する必要があるので以下の様に考える。

$\bar{q}_n = {q}_{n-1} + \alpha(r_n - q_{n-1})$

この様にすると、 $\alpha$ は新しいデータをどれだけ重み付けるかということになる。 $\alpha = 1$ の時、新しいデータを $\mu$ の推定値と考える、 $\alpha = 0$ の時は新しいデータを取り込まず、初期値のままということになる。ここは非常にわかりやすく展開されていた。（書籍はもっと丁寧に書かれている。）

第2章

マルコフ決定過程の説明と具体的な定義をわかりやすく説明されている。条件付き確率で示されたものだけではなく遷移確率を表で示しているので非常にわかりやすい。環境モデルはこれだっていう言い切りではっきりと理解できる。
さらに、バックアップ図を用いて、状態価値関数を示してしていて、一つ先の状態の状態価値関数がわかればその前の状態の状態価値関数がわかるという説明がわかりやすかった。加えて、1次元と2次元のmapを使って動的計画法による状態価値関数の値を描画されており、結構計算過程でイメージをつかむのが大変なこととして、どういう順番でどの様に計算されているのかがよくわかる様になっている。（小数点は第3位くらいまでは表示した方がいいと思うけど）

第3章

「総報酬を最大化する行動ポリシーを発見する」アルゴリズムとしてポリシー反復法・その発展系として価値反復法を紹介しておりその違いがしっかり図解されていてよく理解できた。さらに、よくある例である三目並べのようなゲームっぽいものだけでなくビジネス的な最適化問題として「レンタカー問題」という例題があり、面白かった。

第4章

これまで状態遷移を表す条件付き確率 $P(r, s' \mid s, a)$ を事前に定義できるものを扱ってきたが、第4章では、現実ではこれらは事前にわからないこともあり、その時にはシミュレーションによりサンプリングを行う。そのサンプリングデータを用いた学習法として、モンテカルロ法とTD法の違いを明確にして説明されており理解が深まった。さらにオンポリシーとオフポリシーの違いが詳しく書かれているので同じTD法でもQ-learningとSARSAの違いがよく理解できた。

第5章

いよいよニューラルネットを使った方法の解説が始まる。DQNの話なので強化学習に興味があれば聞いたことがあるだろう。これまでやってきたこととニューラルネットを結びつける内容で、特にExperience Replayについて詳しく書かれている印象だった。モンテカルロ・ツリーリサーチの言及はあったものの、実装はなかったのは少し残念だったが、「１手先読み」の実装がありそれによって壁にぶち当たるという動きがなくなるというところまでが内容になっている。モンテカルロ・ツリーリサーチの実装・解説に関してはAlphaZeroなどの解説本などを見る方がいい。