人工知能/機械学習

国内最大人工知能の拠点、AIPセンターは何をめざすのか~日本の機械学習研究

杉山将先生

理化学研究所 革新知能統合研究センター(AIPセンター)センター長

第6回 ビッグデータを正しく分類する画期的な新手法とは

ここでいよいよ私たちが見出した、低コストのデータから高精度に学習できる革新的な方法を紹介しましょう。これまでの一般的な機械学習の方法だと、人間が、赤のデータ、青のデータというふうに、ラベル付けし分類する作業が必要でした。

 

例えば、老化した橋梁の危険な部分を機械学習を使って自動的に見つける状況を考えてみましょう。それには、まず調べたい橋梁の写真を撮ってくることが必要ですが、これは今やドローンを使えば膨大な数の写真を撮ってくることくらい簡単にできます。問題はその後、膨大な写真を選り分け、ラベル付けする作業です。つまり、この写真に写っている傷は危険(赤データ)、この写真の傷は問題ない(青データ)と、人間が分類し、ラベルを付けていかなければならないのです。何千枚、何万枚もの写真をラベル付けする作業はそれだけでへとへとになってしまいます。

 

これに対し私たちは、ラベルの付いていない2セットのデータだけから正しく学習できる画期的な手法を考案しました。異なる状況から集めてきた2セットを用いるというアイデアがミソです。

 

 

また、ネット広告などのクリック率の予測をする場合には、赤と青のデータ両方を集めることは困難です。クリックログから実際に抽出した、確かにクリックしたというデータは手元にあります。これはそのユーザが興味のある広告であり、青のデータとみなすことにしましょう。一方、そのユーザが興味のない広告、つまり赤のデータを集めるのは簡単ではありません。なぜならば、クリックしなかったからといって、そのユーザがその広告に興味がなかったとは限らず、興味はあるが時間がなくてクリックしなかったのかもしれません。私たちは、このように興味があるかないかわからないラベルなしの灰色のデータと、青のデータだけから正しく学習できる手法を開発しました。

 

このように革新的な機械学習手法を開発することにより、AIPセンターは、世界的な競争に勝ち抜くための大きな一歩を踏み出しました。今後のさらなる研究の進展にご期待ください!

 

おわり