3目ならべ（〇×ゲーム）で最強のAIを作る

AI

表題の通り、今回は3目ならべで最強のAIを作りました。最も勝利確率の高いマスを赤く示してくれるツールとなっています。具体的にどうしたかというと前回作った強化学習のコードの一部を次の通り、変更してみました。変更の意図としてはBellman方程式のMo…

2017-01-22

3目ならべで強化学習すると、どうなる？→こうなる

AI

前回の記事ははじめての強化学習ということで、Bellman方程式を使ってきわめて単純な経路分岐問題を解いてみました。今回はもう少し複雑な経路問題を解いてみたいと思います。お題は「3目ならべ」です。先攻後攻が決まったら、まずは 3x3 のマス目の 9つの…

2017-01-14

とっても簡単！強化学習の実践

AI

強化学習とは？それは、行動の結果得られる報酬が最も大きくなる行動を選択する仕組みにおいてその報酬を計算して求めることです。例えば「働けばお金がもらえる」という場合は「お金」が報酬となります。報酬の設定のしかたは問題によって、また設定する…

2017-01-09

強化学習の Value Iteration と Q-Learning の違い

AI

強化学習には Value Iteration と Q-Learning の2通りの学習方法が存在します。Value Iteration で登場する Model が既知か、未知かを見て未知の場合は、試行錯誤を繰り返す Q-Learning しか選べません。Value Iteration にて登場する報酬は人間のさじ加減…