音声認識とは?基本的な仕組みと事例を解説

 2020.09.30  コンタクトセンターの森

音声をテキストに変換する音声認識技術は、スマートスピーカーやAIアシスタントなどで使われる技術として知られています。個人用途だけでなく、ビジネス用途でもコールセンターの補助などで活用が進んでおり、今や大企業だけでなく中小企業での導入も増えています。そこで当記事では、音声認識の仕組みと活用事例について解説します。

what-is-voice-recognition

AI技術の進化「音声認識」とは?

「音声認識」とは、人間の発話を記録した音声データに対して、コンピューターが音と文字とをパターンマッチングし、テキストに変換する技術をいいます。「人間が行っている文字起こしをコンピューターが自動で行ってくれる技術」と考えるとわかりやすいでしょう。

音声認識技術そのものは古くから研究されており、1990年代頃からゲームなどで実用化され始めました。2010年代に入り、Appleの「Siri」や「Googleアシスタント」が登場、2014年にはAmazonがスマートスピーカー「Amazon Echo」を発表したことから、急激に音声認識が一般に知られるようになりました。

ビジネス分野に目を向けると、1990年代後半にIBMが音声認識ソフトウェア「via voice」を発表し、音声入力や音声コマンド操作を行えるようになりました。しかし日本語の複雑な構造ゆえ、英語と比べて認識率の向上が困難だったため、当時はそれほど普及しませんでした。ところが近年、AI(人工知能)、特にディープラーニングの進化に伴い、音声認識技術の精度が飛躍的に向上したため、現在ではコールセンターなどで活用が進んでいます。

今や、音声認識技術は一定品質の音声であれば認識率90%を超えるまでに進歩しており、人間と同等のレベルにまで達しています。画像認識と並び、実利用が進んでいる技術のひとつです。

音声認識を利用するメリット

音声認識技術を利用するメリットとしては、文字入力を半自動化することで、業務効率化やミスの軽減を期待できる点が挙げられます。

例えば、議事録作成において、従来では録音された音声を聞いて手動でタイピングし、テキスト化していました。音声認識技術を使えば、音声データを半自動でテキスト化したものを整形すればよいので、時間削減・負担軽減につながります。政府内でも、省庁で実施される会議や打ち合わせに必要な議事録の作成作業を効率化するため、音声認識サービスの実証実験を行うなど、導入が検討されています。

また、音声認識技術を用いた音声入力を利用するメリットは、手が濡れている、荷物を持っているといった手が使えないシチュエーションでもテキスト入力が可能なことや、キーボード操作に慣れていない人でも入力ミスを減らせるといったことも挙げられます。

コンサルティングサービスのご紹介
ベルシステム24ソリューションのご紹介

音声認識技術の仕組み

では、音声認識技術はどのような仕組みになっているのでしょうか。まず、音声認識がどのような流れで行われるのか、わかりやすいようディープラーニングを用いない仕組みを例に見てみましょう。

1)録音した音声データをコンピューターが理解しやすいように整形する

2)切り取った波形がどの音と近いかをパターン認識する

3)その音がどの単語に近いかを照合する

4)単語と単語の関係性を考慮して文章を組み立てる

大まかな流れは上記の通りです。このように音声データをテキスト化することを「デコーディング」と呼びます。以下、それぞれの工程について詳しく解説します。

音声のデジタル化

まずは、元の音声データから特徴量を抽出し、AIが認識しやすいデータに整形します。この作業を「音響分析」といい、具体的にはアナログ信号である音声をデジタル信号の波形に変換し、音素を抽出し、ノイズを除去します。

音響モデル〜音素を抽出〜

続いて、元の音声から抽出された特徴量が、どの音素に近いのかを見つけ出します。この作業を「音響モデル」といいます。音響モデルでは主に、時間経過で変化する特徴量をモデル化した「隠れマルコフモデル」という手法が使われます。

辞書によるパターンマッチ

次に、音素を発音辞書と連結して、単語単位に組み立てます。「発音辞書」とは、音響モデルから導き出された音素が、どの単語と近いかを照らし合わせるためのデータベースのことです。

言語モデル〜適切な文章の組み立て〜

「言語モデル」とは、発音辞書で特定した単語と単語、品詞などの出現頻度をモデル化したものです。文章をN個の文字または単語に区切る「N-gramモデル」がよく利用されます。ここでは、文章の学習データを大量に蓄積・処理して出現頻度を記録し、認識したいデータと照合して、出現する確率が高い文章に整形します。

なお、現在ではディープラーニングが導入されており、音響モデルでは「ディープニューラルネットワーク(DNN)」を組み入れた「DNN-HMM」が、また言語モデルではN-gramと「リカレントニューラルネットワーク(RNN)」との併用が広がっています。

さらに、音響モデルや言語モデルを組み合わせるのではなく、ひとつのニューラルネットワークで音声認識を実現する「End-to-End」モデルも登場しており、今後の主流になる可能性が高いともいわれています。

業界を支える「音声認識」の活用事例

音声認識技術は、多様な業界で利活用が進んでいます。3つの活用事例についてご紹介します。

金融業(クレジットカード事業)

あるクレジットカード会社では、コールセンター業務にリアルタイム音声認識技術を導入しています。従来は、オペレーターがお客様との会話内容を手入力していましたが、入力に時間がかかるうえ、入力ミスも少なくありませんでした。

音声認識技術の導入により、通話しながらリアルタイムで音声をテキストに変換・表示できるようになったため、オペレーターがゼロから入力する手間がなくなり、時間削減と業務効率化を実現しました。

なお、電話の場合は伝送時の帯域を制限しているため、通常の音声よりも認識しにくい特殊な信号となります。そのため、電話音声用に学習した専用のモデルを使用すると、認識精度が高くなります。

医療・病院

ある病院では、音声認識技術を活用した音声入力を業務に導入しています。キーボード入力をせずに済むので、高齢でPC操作が苦手な先生でもスムーズにテキストを入力できるようになりました。変換ミスを減らしつつ入力スピードも速くなったことから、電子カルテのほか紹介状や報告書作成にも活用されています。

製造業

ある自動車工場では、完成した製品の監査業務を行う際の入力ミスや、担当者の負担軽減などを目的に、音声入力でテキスト入力できるシステムを導入しました。

従来は、人が計測した情報を紙へ転記し、さらにそれをPCへと入力していたため、時間がかかるうえ転記ミスも発生していました。

音声認識システムの導入によって、100以上ある測定業務の結果を音声で入力できるようになり、転記プロセスそのものが削減できたほか、計測中に記入のため作業を中断しなくて済むようになるなど、大幅に業務時間を短縮できるようになりました。

導入から3ヶ月後には、従来の手法と比較して、業務時間がおよそ3分の2にまで効率化できたそうです。

音声認識の現状の課題

音声認識は、前項でご紹介したようなプロセスを経て音声からテキストへと変換されるため、プロセスを阻害する事象が含まれると、途端に認識精度が下がってしまいます。

例えば、方言や独特の言葉遣い(若者言葉・スラングなど)は、発音辞書でマッチングすることが困難です。また、雑音が多い環境で録音された音声も、特徴量を抽出しにくくなります。ほかにも、複数人が同時に発話する環境で録音された音声も同様です。

現状、音声認識技術を利用する際は、こうした課題を踏まえ「録音環境を整備する」「複数人が話す場ではマイクを分ける」「雑音が入りにくいように工夫する」などの対策が必要です。

まとめ

音声認識技術は、一定品質の音声でないと認識精度が下がるなどの制約こそありますが、応用範囲の広さから普及が進んでいます。

音声認識の基本的な仕組みを理解することは、自社での活用の可能性を把握するために重要です。これから音声認識技術を導入する場合は、事前によく理解を深めておくとよいでしょう。

New call-to-action

RECENT POST「コンタクトセンター」の最新記事


音声認識とは?基本的な仕組みと事例を解説
BellCloud+ご紹介資料

RANKING人気資料ランキング

RECENT POST 最新記事

ブログ無料購読のご案内

RANKING人気記事ランキング


OFFICIAL SUPPORTER