コンピュータービジョン(知覚情報処理)

まるで画家。コンピュータが、言葉から想像して、優れた描写絵を描いた!〜深層学習=ディープラーニングの挑戦

牛久祥孝さん オムロンサイニックエックス株式会社

コンピュータによる画像/映像認識や画像処理、映像処理など、コンピュータビジョンと呼ばれる研究分野があります。牛久先生は現在めざましい発展を見せている深層学習を使って、画像や映像を認識し理解させるだけでなく、それを言葉に置き換えることで、コンピュータに説明させたり、逆にまず言葉を理解させて、続いて新しい画像を作り上げたり、という言語の世界も取り込んだ、最先端のコンピュータ研究に挑んでいます。

2010年以降、コンピュータによる画像認識、音声認識、自動翻訳の3つの分野で、それまでどう頑張っても減らなかったエラーの数が劇的に減るという大事件が起きました。この3つの事件すべてに関わっていたのが、私の研究に用いている「深層学習」(ディープラーニング)という技術でした。深層学習とは人間の脳のしくみに着想のきっかけを得たニューラルネットワークと呼ばれる計算方法を使って、人間が学習して覚えるようなものを、コンピュータも学習できるようにする方法です。膨大な量の画像や映像データをコンピュータに学習させることによって、画像や映像に写った物の名前や動きを理解できるように なりました。

 

これまで、画像認識、音声認識、翻訳はそれぞれ全く違う技術を使って、それぞれの分野を発展させてきました。しかし深層学習という共通のツールで、既にあるタスクをこれまでよりも高い精度でこなせるようになり、さらに3つの分野の良いところを集結させて、全く新しいことができるようになったのです。

 

現在は、Instagram やFacebook、YouTubeなど、ウェブ上には数えきれないほどの画像や動画のデータがあり、それらの多くには人間がキャプション(説明文)をつけています。しかし深層学習を使えば、コンピュータが写真の内容を自動で認識し、理解し、写真の内容を説明する文章まで考え出してくれます。しかも、適切な言葉を選び、文法的にも正しい文章を作りだすという、ハードルの高いことをやってのけるようになろうとしています。

 

例えば、砂漠の中に旅行者が立っている写真には、“Tourists are standing on the middle of a flat dessert”(旅行者が砂漠の真ん中に立っています)という文を新規生成してくれます。この技術は動画にも活用することができ、場面の変化に応じてストーリーを説明するようにキャプションを生成することもできるようになりました。

 

また、機械翻訳に応用させることで、翻訳レベルをあげられるようになりました。通常、翻訳は言葉を入力して別の言語を出力するというものですが、関連する画像も入れることで、コンピュータは言葉と画像の両方から判断して翻訳をするので、誤訳を防げるようになります。

 

 

また、犬が野菜を噛んでいる画像が入力され、ユーザーが「犬が噛んでいる野菜は何?」という質問をすると、AIのシステムは犬が噛んでいるものを自分で見つけ出し「これはキャロットです」と答えてくれるようにもなりました。写真の中ではあまりにも小さすぎて、人間にはとても見えないような箇所でも、コンピュータに見つけ出してもらい、それが何かを答えてもくれるのです。これをするためには、「犬」が一体何なのか、噛むという行為がどういう行為なのかを理解する力と、画像の中からそれを見つけ出す力が必要なのですが、今の深層学習はこのハードルを軽々と越えられるようになりました 。

 

画像や動画からキャプションを作り出すだけでなく、その逆に、キャプションから新たに画像を作り出すということもできます。例えば、”This bird is blue with white and has a very short beak.”(この鳥は白の入った青色で、とても短いくちばしを持っています)という文章をコンピュータに入力すると、コンピュータがその画像を新規生成できるようになりました。ネット検索して持ってくるのではなく、自分で画像を生み出してくれるのです。それも、子供が書いた絵のようにシンプルなつくりではなく、花や鳥の繊細なつくりまで表現することができるようになっています。まるでコンピュータが、写実画家 になったかのようにです。

 

興味がわいたら

『人工知能は人間を超えるか』

松尾豊(角川EPUB選書)

「人工知能」と呼ばれる分野は、ありがたいことに現在ではニュース等でよく見かける単語になっています。しかし、実は高校生のみなさんが生まれる前にも、大々的に人工知能がもてはやされた時期がありました。本書は、「人工知能」という言葉とその研究分野の歴史(とはいえ100年も経っていない新しい分野ですが)と、そのブームおよび冬の時代について教えてくれます。また、現在の人工知能ブームのきっかけとなっている深層学習についても、正しくわかりやすく書かれている本だと思います。

[amazonへ]


『素人のように考え、玄人として実行する 問題解決のメタ技術』

金出武雄(PHP文庫)

著者はコンピュータビジョンと呼ばれる研究分野で日本を代表する先生です。この本はご自身の研究者半生から得られた研究スタイルを述べられたものです。

書籍のタイトルにもありますが、新しいことを考える時にはまず素人のように着想し、これを玄人として実行することが重要であるというのが根幹のメッセージです。時として玄人であるほど自分自身の知識に囚われ、新しいことを考えようとしてもちょっとだけしか新しくないようなタコツボの思考に陥りがちです。それを打破するための「素人」としての視座と「玄人」としての見識を両立させる方法が得られると思います。これは何も研究者の仕事のみならず、創造性のある仕事すべてに共通する処方箋であると思いますし、本書にはそのような金言が詰まっています。

[amazonへ]


『ショート・ショート1001』

星新一(新潮社)

短編SF作家として昭和を代表する作家の短編集です。現在の人工知能分野でも、ずっと前の研究がヒントとなることがよくあります。星新一の短編はずっと前に書かれたものであるにも関わらず、今でも新しい研究へのヒントに満ちています。本書は非常に分厚いので、同氏の単行本を集めるのも良いと思います。

[amazonへ]


牛久さんインタビュー

人の視覚と言葉を行き来できる人工知能技術の開発を目指して

牛久祥孝さん オムロンサイニックエックス株式会社