2017-01-01から1ヶ月間の記事一覧
表題の通り、今回は3目ならべで最強のAIを作りました。 最も勝利確率の高いマスを赤く示してくれるツールとなっています。具体的にどうしたかというと 前回作った強化学習のコードの一部を次の通り、変更してみました。 変更の意図としてはBellman方程式のMo…
前回の記事ははじめての強化学習ということで、Bellman方程式を使ってきわめて単純な経路分岐問題を解いてみました。 今回はもう少し複雑な経路問題を解いてみたいと思います。お題は「3目ならべ」です。先攻後攻が決まったら、まずは 3x3 のマス目の 9つの…
強化学習とは? それは、行動の結果得られる報酬が最も大きくなる行動を選択する仕組みにおいて その報酬を計算して求めることです。例えば「働けばお金がもらえる」という場合は「お金」が報酬となります。 報酬の設定のしかたは問題によって、また設定する…
強化学習には Value Iteration と Q-Learning の2通りの学習方法が存在します。Value Iteration で登場する Model が既知か、未知かを見て 未知の場合は、試行錯誤を繰り返す Q-Learning しか選べません。Value Iteration にて登場する報酬は人間のさじ加減…
強化学習について(私が知識を増やすために)学んでいますが、Value Iteration と Q-Learning の違いを書く前に(この後書こうと思っています。) 一つ昔に高校時代の友人から教えてもらった、エピソードに紐づく知識というものとの組み合わせを思いつきまし…