音声/音楽処理(統計的音声合成)

10年後に必要となる研究、研究ファンができる研究を目指して

高道慎之介先生インタビュー

東京大学 工学部 計数工学科 システム情報工学コース/情報理工学系研究科 システム情報学専攻

◆先生の研究分野についてご説明ください。

人間にとっての音声は、他者との単なる音声言語コミュニケーション手段に留まりません。特に日本では、日本語の表現の豊かさ、多様な地方文化、また、アニメ文化の発展等に起因して、声のキャラクタ性と文化が強く根付いています。

 

このように、音声は、情報を伝えるための正確性のみならず、音としての芸術性を伴います。私の研究対象である音声合成・変換技術は、この正確性と芸術性をいかに人工的に満たすかを成立させるための技術です。そして、この研究分野は、あなたなりの音声芸術性(もしくは音声フィロソフィー、哲学)をいかに定義して、どうやってそれを実現するかが重要な分野です。

 

◆先生が研究を通じて目指しているものは、どのようなことでしょうか。

 

2018年の時点で、声を使ったコミュニケーションは、ヒトそれぞれの身体や精神に強く制限されています。また、言語性を伴った音声コミュニケーションは、同じ言語を話すヒト同士だけに限られています。私の研究の目的は、この制限を解放し、ヒトとヒト、ヒトとコンピュータ間のコミュニケーションを拡張することです。言い換えると、身体・時間・文化の違いを超えてあらゆるヒト・コンピュータが、お互いの違いを気にせずに、目的に応じた音声言語でコミュニケーションができる社会を目指しています。 

 

私は現在、東京大学 猿渡研究室 音声合成グループのまとめ役として、上記の目的に向けて研究しています。そのために、「5~10年後の音声コミュニケーションに必要とされる研究」、また、「未だ我々だけしか気づいていなくて、我々が発表した後に研究ファンができるような研究」を目指しています。

 

◆研究テーマをどのように見つけたのかを教えてください。

 

「素人のように考え、玄人のように実行せよ」は、研究者の中で有名なフレーズです。高校生の皆さんは、研究に関して素人ですので、考えることに優れています。私は、技術の中身を知ってしまうと頭が凝り固まって凡案しか出てこないので、一旦研究分野を忘れてテーマを考えるようにしています。その時、「それはホントに10年後に必要な技術なのか、自己満足したいだけじゃないのか」などを振り返りつつ、最終的なテーマを決めています。

 

◆この分野に関心を持った高校生が、より深く知るためのアドバイスをお願いします。

 

私は今までに、高校の文化祭や大学のサークルなどへの技術提供を行っており、これからも積極的に交流したいと思っております。ツイッターのメッセージ(もしくはメール)を送っていただければ日程を調整しますので、研究室に遊びに来てください。

 

これからは「音声合成・音声変換を使って何ができるのか」が重要になってきます。これらのプログラム・データは無償で公開されておりますので、ぜひお試しください。

 

◆先生ご自身の高校時代は、何に熱中していたかを教えてください。

 

朝と夕方にバイトをしていたこともあり、バイトでお金を稼ぐことに熱中していました。当時は保育園でバイトをしていて保育士を目指していたのですが、気付いたら大学教員になっていました。

 

◆指導に関わってきた研究室の卒業生は、どのような就職先で、どのような仕事をされていますか。

 

私は現在、博士後期課程を終え現職に着任して2年目になります。2018年3月に初めて修士学生1名を輩出しました。その学生は、現在博士後期課程に進学し、この分野の海外の有名企業に招待されて講演会を行うなど、世界的に活躍しております。

 

◆研究室での学生指導はどのようにされていますか。

 

前述した通り私は指導者として若輩ですが、「世界で未だ君しかやっていないけど、君の発表後に研究ファンができるような研究」を目指しています。

 

                

◆研究室のHP

(高道先生の所属する)猿渡・小山研究室HP

高道慎之介先生のHP

 

興味がわいたら

『音声言語の自動翻訳(音響サイエンスシリーズ18)』

中村哲:編著 Sakriani Sakti、Graham Neubig、戸田智基、高道慎之介:共著(コロナ社)

この本では、音声合成変換などの音声処理に加えて、音声に含まれる情報(セリフ、感情、話者など)の情報をどのように計算機で処理するかを説明しています。また、それを使ってどのように音声翻訳を実現するかを説明しています。 

[amazonへ] 


『おしゃべりなコンピュータ 音声合成技術の現在と未来』

山岸順一、徳田恵一、戸田智基、みわよしこ(丸善出版)

今の機械学習・音声合成技術で何ができるのか、どんな未来を実現しようとしているのかを書いた本です。

[amazonへ]


音声/音楽処理(統計的音声合成)を知る

騙し騙され音声合成

高道慎之介先生

東京大学 工学部 計数工学科 システム情報工学コース/情報理工学系研究科 システム情報学専攻