音声認識技術はどこに向かうのか？ (5/5)

Japanese
English

また、防衛省・防衛医科大学校との共同研究では、東日本大震災に派遣された自衛隊員の抑鬱状態の診断に血液成分検査とSTが用いられた。両方の検査結果は近似していたという。

現在AGIでは、従来の手法にSTの技術を取り込んだ音声認識システムを開発中だ。
「従来の音声認識では例え完璧で巨大な辞書を作ったとしても、辞書が大規模になればそれだけエラーも自然に増えます。また、コギャルが未知語（辞書に存在しない言葉）を作ったらそれを認識することはできません。しかし、STであれば感情を判断して自動学習したり、それに近い意味の言葉を想定することもできるでしょう。」（光吉氏）

[図表2] STを利用したiPhoneアプリ「ココロミルミル」

さらに光吉氏によれば、3年後を目処に、人間の感情を理解して適切な応答を行う仮想自我システムの開発も進めるという。
「今の世界は、人が人を信頼できなくなっています。人の感情を理解できる優しい機械と触れ合うことで、人が人らしさを取り戻してほしいと考えています」（光吉氏）

音声認識は、ユーザーインターフェイスを超えて進化する

研究者達が夢見てきた、人工知能としての音声認識は未だ実現したとは言いがたい。音声認識は、補助的なユーザーインターフェイスに甘んじているのが現状だ。利用する分野を絞れば、実用的な認識率を実現できているにもかかわらず、普及しなかったのはキラーアプリケーションを提示できなかったことによる面も大きそうだ。

その意味で、iPhoneのSiriが注目を集めるようになってきたことは、たんにメーカーのイメージ戦略以上の意味を持っているように思う。これまでの音声認識は、すでに存在するソフトウェアやサービスを使うための、キーボードやマウスの代替的なユーザーインターフェイスだった。しかし、音声認識をたんなるユーザーインターフェイスと捉えてきたことに問題があったのかもしれない。

隠れマルコフといった基礎的な原理については、数十年にわたりほとんど進化しなかったが、膨大なデータをネットワーク経由でサンプリングできるようになったことで、認識率も向上してきている。

さらにスマートフォンでは、音声以外のさまざまなデータを取り込めるのも強みだ。GPSや加速度センサーを用いた位置情報、画面のタッチから得られる補助的な指示、カメラが撮影する外の景色などによって、音声だけでは得られなかったユーザーの置かれた詳細な状況を把握できるようになってきた。今後は、NIKE+Fuelbandのようにユーザーの生活パターンを記録する機器からのデータも併用されることになるだろう。

つまり、音声認識はユーザーインターフェイスであるだけでなく、ユーザーの現状データを得るための1チャンネルという見方もできる。種々のセンサーや感情認識技術を組み合わせれば、ユーザーの置かれた文脈に沿った、より適切な応答を返せるようになる可能性もある。

単体の技術としては普及しなかった音声認識だが、ユーザーが肌身離さずに使う端末に組み込まれることで、ようやく人工知能的なエージェントへと進化していくことになるのではないだろうか。