Science Newsサイエンスニュース

口パク動作を行うだけで発話内容を認識

2019.6.10

顎の下に装着したプローブからのデータをディープラーニング技術で解析することにより、口パクを音声に変換できる。
©lab.rekimoto.org
顎の下に装着したプローブからのデータをディープラーニング技術で解析することにより、口パクを音声に変換できる。

音声認識を使ったユーザーインターフェイスは、私たちの日常にずいぶん浸透してきた。スマホやパソコンで文字入力する時などに音声認識を使うケースは増えているし、スマートスピーカーも世界的にベストセラー商品になっている。少なくとも家の中であれば、スマートスピーカーのようなデバイスに対して話しかけることも抵抗はなくなってきているといえるだろう。
とはいっても、スマホに話しかけているプライベートな内容を、他人に知られてもいいという人は少数派なのではないだろうか。音声認識がユーザーインターフェイスのメインストリームにならない理由として、この点が大きいように思われる。
東京大学とソニーコンピュータサイエンス研究所からなる研究チームが開発した技術「SottoVoce」(ソット・ヴォーチェ)は、音声ユーザーインターフェイスに一石を投じることになりそうだ。
SottoVoceは、超音波エコー映像とディープラーニングを組み合わせた技術である。利用者の顎の下に超音波イメージングプローブを取り付けて口腔内の情報を取得。利用者が声帯を振動させずに発話した、発生内容を認識するようになっている。
超音波画像からディープラーニング技術によって音響特徴ベクトルを生成。さらにこの音響特徴ベクトルを実際の音声波形に復元して、オーディオスピーカーから再生する。声を出さずに発話した内容が実際の音声として出力されるわけだ。こうして出力された音声を使い、実際の発話と同様にAmazon Echoなどのスマートスピーカーをコントロールすることにも成功した。
実用化されれば、声帯を損傷して声を出せなくなった人にとっての福音になるのは間違いない。また、音のない「声」で自由にデバイスをコントロールできるようになれば、これまでの音声ユーザーインターフェイスの課題が解決される可能性もある。
イヤホンを耳に付け、ファッショナブルなスマートチョーカーを首に巻くのが、数年後にはトレンドになっているかもしれない。

(文/山路達也)

Cross Talk

心のスポーツ、ゴルフはAIでどう進化するのか

心のスポーツ、ゴルフはAIでどう進化するのか

前編 後編

Visiting Laboratories

工学院大学 工学部機械工学科 スポーツ流体研究室

生物をまねて高速泳法を創出、バレーボールの最適なボールも実現 ~ 流体力学をスポーツに応用

第1部 第2部

Series Report

連載01

ダウンサイジングが進む社会システムの新潮流

「発電所のダウンサイジング」で、エネルギーの効率的利用を可能に

第1回 第2回 第3回

連載02

アスリートを守り、より公平な判定を下すスポーツテクノロジー

「働くクルマのダウンサイジング」で農業と建設、物流に革新を

第1回 第2回 第3回

TELESCOPE Magazineから最新情報をお届けします。TwitterTWITTERFacebookFACEBOOK