強化学習には Value Iteration と Q-Learning の2通りの学習方法が存在します。
Value Iteration で登場する Model が既知か、未知かを見て
未知の場合は、試行錯誤を繰り返す Q-Learning しか選べません。
Value Iteration にて登場する報酬は人間のさじ加減で決めます。
行動と結果の組み合わせを示す Model もまた、人間のさじ加減で決めます。
Model の見当がつかない場合は Q-Learning に逃げます。
Q-Learning とは試行錯誤を続けて、ずっとずっと試行錯誤を続けて、いつの日か人間のさじ加減で決めた報酬が得られたなら、それまでの行動経路の評価値をちょっとだけ上げるという学習方法です。
このときの評価値のちょっとした上げ方も人間のさじ加減で決めます。
いくつか解説を見てきましたが、ハンザツなままとらえている人が多いですね。
私はこんな風に、すっきりととらえてみました。
間違えたら、その行動を避けるようになり
当たったら、それまでの行動を取りやすくなる
これなら確かに、経験から学ぶ人にそっくりな行動を取るのかもしれませんね。