京都新聞TOP > 情報技術最前線
インデックス

[24]コンピューターによる音声の認識

立命館大情報理工学部教授 教授山下洋一氏
音声における感情の認識

 1870年代の電話機や蓄音機の登場以来、音声を扱うさまざまな機器が開発されています。1950年代からは、コンピューターを使って音声を自動的に認識・合成する装置の開発が国内外で進められてきました。80年頃の音声認識では、単語音声認識の研究が主流でした。人が発声する音声は一つの単語に制限され、それを事前に収録しておいた複数の候補単語音声と比較する方式が採られていました。単語数も数十程度の限られた小規模なものでした。現在では、連続した単語列を発声した文音声を順次認識する連続音声認識が実用化されるに至っています。スマートフォンなどの情報端末で音声認識のサービスが受けられ、また、スマートスピーカーと呼ばれる装置でも音声認識機能が組み込まれています。

 音声認識の性能向上を支えたものは何でしょうか。一つはハードウエアの進歩です。現在のスマートフォンなどの小型機器でも、数十年前のデスクトップコンピューターを上回るだけの計算速度を持っており、搭載されているメモリも大容量となっています。これによって、複雑な計算手法も短時間で処理できるようになりました。

 もう一つは、大量データの活用です。80年台中頃から、音声のデータベースの整備が進められました。音声を比較して類似性を判断する当初の手法に代わって、大量のデータを用いて数学的なモデルを作成して音声を認識する統計的手法が考案され、音声認識の性能が大きく向上しました。

 この手法では、皆さんが高校などで学習した確率の考え方に基づいた計算が使われています。「確率って何の役にたつのだろう」と思いながらサイコロの目の出る確率を計算した人もいるでしょうが、コンピューターを使った情報処理では、確率に基づいた考え方が重要な役割を果たすことも少なくありません。

 ここ数年では、深層学習と呼ばれる手法が画像処理や音声認識・合成などさまざまな情報処理の分野で用いられています。これは80年頃に考案されたニューラルネットワークを大規模化した情報処理の仕組みで、内部に多数のパラメータを持っています。個々のパラメータの値は大量の訓練データ(例えば、音声認識では、話している内容がわかっている音声データ)を使って自動的に決定され、深層学習ではこの処理が学習と呼ばれます。このパラメータ決定の計算には、微分に基づいた考え方が使われています。先ほど述べた確率の例もそうですが、画像や音声など情報処理の基礎は数学が支えています。深層学習では、内部でのパラメータ数が膨大で、数千万以上になることも珍しくありません。このため、大量の訓練データを集めることが重要な課題となっています。音声認識の性能は、確率に基づいた統計的手法によって向上し、深層学習の利用によってさらに改善が図られました。現在では、コンピューターへの入力手段として利用できるまで性能が向上しています。

話し手の感情をも推測する

 人が音声を聞くと、話す内容だけでなく、話し手の気分や年齢・性別などさまざまな情報を推測することができます。コンピューターによる音声認識の研究でも、話す内容を文字化するだけではなく、話し手の感情など音声の伝えるさまざまな情報を取り出す試みがされており、私の研究室でもその課題に取り組んでいます。感情の認識が可能になれば、図に示すように話す内容は同じでも話し手の感情によって応答を変更することで、コンピューターがより適切に応答できると考えています。今後、音声認識の用途がさまざまに広がることが期待されます。=おわり

やました・よういち

 1959年生まれ。84年大阪大学大学院工学研究科電子工学専攻前期課程修了。博士(工学)。大阪大産業科学研究所文部技官や講師など、立命館大学理工学部准教授を経て2004年より現職。

【2019年03月27日掲載】