人工知能/機械学習

国内最大人工知能の拠点、AIPセンターは何をめざすのか~日本の機械学習研究

杉山将先生

理化学研究所 革新知能統合研究センター(AIPセンター)センター長

第5回 ビッグデータの盲点とは~人の地道な作業が支えている現状

世界中のAI研究の主な流れは確かにディープラーニング+ビッグデータに向かっていると言って良いでしょう。しかしここで水を差すようですが、世間で言うほどビッグデータは実は万能ではありません。私たちは逆にそこに活路を見出し、新たな技術開発を行っています。

 

それを語る前に、ビッグデータの盲点とは何かという話をしましょう。まずビッグデータを処理するコンピュータの容量には限界があります。例えば、ヘルスケアのために身長のデータを取るとn個で済むとしますと、体重データも取って2種類のデータを集めることにするとnの2乗、血圧データも取って3種類にするとnの3乗…とデータの種類(センサー数)の増加とともに学習に必要なデータ数は指数関数的に増えていくのです。いくら集積回路の集積技術が上がっても、膨大なデータ処理に必要なコンピュータの容量はそれを上回り、全然追いつかないのです。

 

さらにもう1つの重大問題があります。それはデータのラベル付けの問題です。ラベル付けとは、機械の学習のために、まず人間がデータを1つ1つ分類しておくことであり、第1回、第2回で述べた教師付き学習における、地道な人的作業のことです。人間の棋士に勝ったアルファ碁では、大量の棋譜データを用いていますが、それは囲碁の対戦の歴史のなかで蓄積されていたのです。

 

しかし、世の中にあるビッグデータは、大半が答えのないデータです。それを意味のあるデータにするためには、ラベル付けという地道な作業が必要です。実のところ、多くのAI企業は、このデータのラベル付けに巨額の投資をしています。

 

人工知能の最先端企業と言えば、何もかも機械が自動的にやってくれるとイメージしがちですが、実は、投じているコストの大半は人的な作業への巨額の投資と言っていい。今、人工知能の応用開発で自動運転の開発が目立って急速に進んでいるのは、ラベル付けに巨額の投資をしても折り合いがつくぐらい大きな世界的なマーケットだからなのです。

 

日本のAI企業が世界で勝ち抜くためには、いかに人的作業を省き低コストのデータから高精度な学習を実現するか、その革新的な新手法の発見にかかっています。

 

革新知能統合研究センター(AIPセンター)
革新知能統合研究センター(AIPセンター)

つづく