人工知能/機械学習

国内最大人工知能の拠点、AIPセンターは何をめざすのか~日本の機械学習研究

杉山将先生

理化学研究所 革新知能統合研究センター(AIPセンター)センター長

第2回 最近の人工知能研究のブームは「強化学習」

2つめの教師なし学習を説明しましょう。文字通りすべての過程において人手が入らず機械自ら学習することを指します。この場合、人間は機械に最初からデータの意味付けや正解を一切教えません。文字どおり機械がすべてを考え、正解を出していくのです。

 

いかにも人工知能って感じがしますね。AI研究のめざす最終的な目標はこのようなところにあるのかもしれませんが、残念ながら教師なし学習はそれほど実用的ではありません。なぜならば、何を学習すべきか、学習のゴールは人間が決めてやる必要があるからです。

 

3つめの機械学習の方法は、強化学習です。まったくの教師なし学習というわけではありません。かと言って最初から機械に明確に正解を教えもしません。代わりに、機械が予想した答えが良さそうか悪そうかを教えます。つまり強化学習とは、教師付き学習と教師なし学習の中間のイメージですね。

 

最近の人工知能ブームはディープラーニングという言葉が一人歩きしている感がありますが、実はこの強化学習が大きく注目されています。話題になった、人間の棋士に勝った囲碁AIを例に説明してみましょう。

 

囲碁AIは自分の打った一手が、人間が教えた良さそうか悪そうなのかという基準に従って判断し、できるだけ最善に近い手を少しずつ獲得していきます。盤面が刻一刻と変わる状況で、機械がどのような行動をとるべきなのか、試行錯誤しながら、学習して行くわけです。この強化学習で重要なのは、膨大な棋譜データです。これは、これまでの囲碁の歴史で蓄積された棋士の対戦データのことです。囲碁では、次に打つ手の選択肢は10の400乗通りもあります。これはとんでもなく巨大な天文学的な数で、人間にはこんな計算は到底不可能です。でも膨大なデータを活用しながら、機械が自らを「強化」していくことによって学習ができるようになるわけです。

 

その他、強化学習はロボットの制御などにも用いられています。このように強化学習では、徐々に人手の介在を少なくしながら、応用面でも面白いことが実現できるようになってきています。