エピソード（思い出）を記録し、呼び起こす強化学習

強化学習について（私が知識を増やすために）学んでいますが、Value Iteration と Q-Learning の違いを書く前に（この後書こうと思っています。）
一つ昔に高校時代の友人から教えてもらった、エピソードに紐づく知識というものとの組み合わせを思いつきました。
simplestar-tech.hatenablog.com

↑この時に友人に教わった。

強化学習は状態とその時選択できる行動に評価値が与えられるというだけで、エピソードまでは思い起こせません。
これから行われるだろう未来は、強化学習時に無数に調べてきたわけですが、実行時は結果的に評価値という数字しか知識に残っていません。

行動選択はできるようになりますが、どうして？と尋ねられても、評価値が高いからという答えしか返せないのです。
そこで、その行動の評価値を大きく変動させた強烈なエピソードを思い出として記録し、未来予測として、どうして？と尋ねられた時に答える。
という、人工知能を作ってみたら、AIからその時の気持ちのようなものを教えてもらえるような気がしてきました。

という、アイディアを忘れないように書き留めておくという記事でした。