人間の脳をヒントに音声認識が向上した例

音声認識の向上

音声認識はスマホなどで皆さん利用されていると思いますが、この音声認識をグーグルが脳をヒントに向上させたという事をご存知でしょうか。
グーグルはAndroid OS最新版の開発を行う際、OSがユーザーの音声コマンドを解釈する方法について、複数の変化を与えています。
新たな追加となったのは、「人間の脳のようにふるまうコンピュータの学習システム」で、ニュートラルネットワークによるものです。

この開発に参加したヴィンセント・ヴァンホウケさんという研究者によると、この新たな変更によってもたらされた効果は劇的ともいえる事だったといいます。
モデルを変更するという事で、これほどの精度を向上させることができたのは、驚きだったという事です。

最新版Android における音声に認識のエラー率

Android最新版における音声認識のエラー率は、以前のバージョンと比較すると実に25%も低くなったのです。
ユーザーは以前よりもずっと快適にこの音声コマンド機能を利用できるようになり、ユーザーがスマホに話しかける際、ロボットに話しかけるようにしていたものが、より自然に話しかける事が可能になったことは画期的です。

音声認識が向上したことで、人の振る舞い、行動が劇的に変化していくことにつながると考えられているのです。
ニュートラルネットワーク・アルゴリズムが、人のテクノロジーの働きを替え、さらに人が便利に利用できるようになったという事の一例です。
この研究については、1980年代という早い時期から行われ、停滞期間があったものの、アプリ開発を積極的に模索するグーグルだからこそ、できたことなのかもしれません。

脳のような仕組み

ユーザーが音声認識ソフトに話しかけるとこの音声スペクトルが細かく切り刻まれて、世界に広がっているグーグルのサーバーネットワークにある8つのコンピュータに伝送されます。
すると開発されたニュートラルネットワークモデルが活用され、音声コマンドがしっかりと処理されるのです。

高速処理で大規模、こうした処理についてはグーグルの得意分野なのですが、この方法を見つけるためデータ革新が必要で、ジェフ・ディーンらのチームに依頼されたのです。
大量なパターンをニュートラルネットワークが分析することで、未知のパターン予測にも利用されます。
たとえば、体内の神経細胞がほかの細胞とネットワークを構築し、特殊な方法で信号を送り神経伝達を行っているという事をヒントに作られています。
人の脳のシステムが音声情報のソフトに利用されたという事です。

グーグルお得意の大量データの分析、これによって言語の働きについて多数のモデルを作りあげたのは画期的なことです。
ヒトの脳の構造は、体内の中でももっとも複雑な構造を持っています。
そこにヒントが隠されていて、デジタル素材に活かされたという事は素晴らしい事です。