読者です 読者をやめる 読者になる 読者になる

simplestarの技術ブログ

目的を書いて、思想と試行、結果と考察、そして具体的な手段を記録します。

人工知能:歴史から学んでみる 3

1950年代から、1990年代前半くらいまで見てきました。
その後の人工知能研究で注目されるようになった手法というものを見ていきたいと思います。

【決定ツリー(決定木)】
これだけだと、ただの木構造のグラフになってしまいますが、ここではID3 - Wikipediaのことを指します。
初出は1979年ころで、対象の分類を最もよく説明する条件分岐を、機械が自分で設計して、具体的な switch 構文を作る技術です。
情報理論エントロピーという尺度があるのですが、このエントロピーが最も小さくなるような条件分岐を探すアルゴリズム
理解しなければいけない所は、このエントロピーが対象の分類の尺度に使えるということです。
クロード・シャノンさんがこの情報理論を確立させたとのことです。
で、そのエントロピーってどうイメージしたらよいかについてですが、私はクラスの数と理解しています。
分類した時にそれぞれの集団内でクラス数が多い分け方だった場合はエントロピーが高く、逆にクラス数が一つまたは少ないとエントロピーが低くなります。
素早くエントロピーが小さくなる分岐を探しだして採用するのがこのID3アルゴリズムです。

そろそろ人工知能の歴史から外れ始めたので、以降は機械学習について一望してみたいと思います。

まずはキーワード拾いに
情報処理学会第78回全国大会
を視察(初めて行きました。論文集もゲット!)

そして、関連記事を読んでみます。

まずはここを読み

www.slideshare.net

今人気の10選を知り
d.hatena.ne.jp

どんなものがあるかを眺めてから
Category:分類アルゴリズム - Wikipedia

簡易説明を聞いて
postd.cc

腰を据えて読みふける
gihyo.jp

すると
どうなるか

少しずつ学んだことを書いていきます。

機械学習にはモデルが存在する】
モデルというのは、対象をモデル化したもので…
こうなっていたらうれしいな!とか、こういう風に説明できるだろうとか、勝手に人間が予測して与えるものがモデルです。
そのモデルにはパラメータが必ず付いていて、そのパラメータをデータから求めるのが「学習」や「推定」と呼ばれる処理です。

【確率の加法定理と乗法定理】
条件付き確率のすべての条件を足し合わせると、周辺確率になる、これが加法定理
同時確率は、条件付き確率と条件の周辺確率をかけたものと等しくなる、これが乗法定理
統計的機械学習はこの確率の加法定理と乗法定理を繰り返し用いることになる。

【確率に対するイメージを改める】
どれくらい起こりうるか、と習ったけど、一旦それを忘れて
どれくらいもっともらしいか、というイメージに置き換えて考えていく
そうすると、世の中の様々な不確かさが確率という形で表現できるようになります。
どれくらいもっともらしいか、このイメージがベイズの考え方だそうです。

【独立じゃないのに独立とみなす】
コインとサイコロのように、互いに独立であれば計算は簡単になるのに
基本的に世の中の出来事は宇宙の果てまで相関を持っています。(観測できないという事象自体からも影響を受けると考えれば、そもそも宇宙に果てなど定義できないという知見でいますが…)
完全に独立はあり得ません。
しかし、独立とみなします。
もう間違っている計算をすることが見え見えですが、現在の計算機パワーを考えると、独立とみなさなければ計算できないのです。
そう、間違っている前提を用いて、計算できることにフォーカスした研究が統計的機械学習なのです。

【ナイーブベイズ
確率の加法定理と乗法定理の式を使うと、ベイズの定理が導けるのですが
このベイズの定理と、独立じゃないのに独立とみなす考え方を使うと(この矛盾を導入しないといけないことを意識できなかったので、ずっと理解できなかったよ!)
例の事後確率の計算が、尤度と事前確率と周辺確率からできるわけですよ。
この手法がナイーブベイズと呼ばれるやり方で、この判定を使ったフィルタをベイジアンフィルタと呼びます。
おお、一度に2つの専門用語に概念が結びつきましたよ。

続きは、次の記事でまとめていきたいと思います。

人工知能の歴史について、今の自分の知識を確認するのに良いページを見つけたので、共有します。
blog.btrax.com