音声認識とは、人間の発話を記録した音声データをテキストに変換する技術のことです。
現在、AI技術の進化に伴い音声認識技術の精度は飛躍的に進歩しており、コールセンターなどビジネス用途でも活用が進んでいます。当記事では、音声認識の仕組みやビジネスで活用するメリット、事例について解説します。
AI技術の進化「音声認識」とは?
「音声認識」とは、人間の発話を記録した音声データに対して、コンピューターが音と文字とをパターンマッチングし、テキストに変換する技術をいいます。「人間が行っている文字起こしをコンピューターが自動で行ってくれる技術」と考えるとわかりやすいでしょう。
昨今では、AI技術の進化により「音声を文字に変換する技術」にとどまらず、「人の言葉を理解し、行動するシステム」にまで発展しています。
音声認識の歴史
音声認識技術そのものは古くから研究されており、1990年代頃からゲームなどで実用化され始めました。
- 2010年代…Appleの「Siri」や「Googleアシスタント」が登場
- 2014年…Amazonがスマートスピーカー「Amazon Echo」を発表
このような流れから急激に音声認識が一般に知られるようになりました。
ビジネス分野に目を向けると、1990年代後半にIBMが音声認識ソフトウェア「via voice」を発表し、音声入力や音声コマンド操作を行えるようになりました。しかし日本語の複雑な構造ゆえ、英語と比べて認識率の向上が困難だったため、当時はそれほど普及しませんでした。
ところが近年、AI(人工知能)、特にディープラーニングの進化に伴い、音声認識技術の精度が飛躍的に向上したため、現在ではコールセンターなどで活用が進んでいます。
今や、音声認識技術は一定品質の音声であれば認識率90%を超えるまでに進歩しており、人間と同等のレベルにまで達しています。画像認識と並び、実利用が進んでいる技術のひとつです。
音声認識技術の仕組み
では、音声認識技術はどのような仕組みになっているのでしょうか。まず、音声認識がどのような流れで行われるのか、わかりやすいようディープラーニングを用いない仕組みを例に見てみましょう。
大まかな流れは上記の通りです。
1)音声のデジタル化(音響分析)…録音した音声データをコンピューターが理解しやすいように整形する 2)音素を抽出(音響モデル)…切り取った波形がどの音と近いかをパターン認識する 3)発音辞書によるパターンマッチ…その音がどの単語に近いかを照合する 4)適切な文章の組み立て(言語モデル)…単語と単語の関係性を考慮して文章を組み立てる |
このように音声データをテキスト化することを「デコーディング」と呼びます。以下、それぞれの工程について詳しく解説します。
1. 音声のデジタル化(音響分析)
まずは、元の音声データから特徴量を抽出し、AIが認識しやすいデータに整形します。この作業を「音響分析」といい、具体的にはアナログ信号である音声をデジタル信号の波形に変換し、音素を抽出し、ノイズを除去します。
2. 音素を抽出(音響モデル)
続いて、元の音声から抽出された特徴量が、どの音素に近いのかを見つけ出します。この作業を「音響モデル」といいます。音響モデルでは主に、時間経過で変化する特徴量をモデル化した「隠れマルコフモデル」という手法が使われます。
3. 発音辞書によるパターンマッチ
次に、音素を発音辞書と連結して、単語単位に組み立てます。「発音辞書」とは、音響モデルから導き出された音素が、どの単語と近いかを照らし合わせるためのデータベースのことです。
4. 適切な文章の組み立て(言語モデル)
「言語モデル」とは、発音辞書で特定した単語と単語、品詞などの出現頻度をモデル化したものです。文章をN個の文字または単語に区切る「N-gramモデル」がよく利用されます。ここでは、文章の学習データを大量に蓄積・処理して出現頻度を記録し、認識したいデータと照合して、出現する確率が高い文章に整形します。
ディープラーニングを取り入れた手法
なお、現在ではディープラーニングが導入されており、音響モデルでは「ディープニューラルネットワーク(DNN)」を組み入れた「DNN-HMM」が、また言語モデルではN-gramと「リカレントニューラルネットワーク(RNN)」との併用が広がっています。
さらに、音響モデルや言語モデルを組み合わせるのではなく、ひとつのニューラルネットワークで音声認識を実現する「End-to-End」モデルも登場しており、今後の主流になる可能性が高いともいわれています。
関連記事:機械学習/ディープラーニングが音声認識を進化させる!?深層学習との違いも解説
音声認識をビジネスに活用するメリット
ここまで解説したように、従来の音声認識の仕組みにAIのディープラーニングが活用されるようになったことで、音声認識技術の精度が飛躍的に向上しました。
では、音声認識技術をビジネスに活用することで、どんなメリットがあるのか見ていきましょう。
メリット
|
業務効率化や入力ミスの軽減
文字入力を半自動化することができるため、業務効率化やミスの軽減などのメリットが期待できます。
例えば、議事録作成において、従来では録音された音声を聞いて手動でタイピングし、テキスト化していました。音声認識技術を使えば、音声データを半自動でテキスト化したものを整形すればよいので、時間削減・負担軽減につながります。
政府内でも、省庁で実施される会議や打ち合わせに必要な議事録の作成作業を効率化するため、音声認識サービスの実証実験を行うなど、導入が検討されています。
参照:AI を活用した音声認識技術による自動文字起こし及び自動要約の実証実験|総務省
ハンズフリー入力が可能
また、音声認識技術を用いた音声入力を利用するメリットは、手が濡れている、荷物を持っているといった手が使えないシチュエーションでもテキスト入力が可能なことです。キーボード操作に慣れていない人でも入力ミスを減らせるといったことも挙げられます。
業界を支える「音声認識」の活用事例
音声認識技術は、多様な業界で利活用が進んでいます。ここでは、3つの活用事例をご紹介します。
金融業(クレジットカード事業)
あるクレジットカード会社では、コールセンター業務にリアルタイム音声認識技術を導入しています。従来は、オペレーターがお客様との会話内容を手入力していましたが、入力に時間がかかるうえ、入力ミスも少なくありませんでした。
音声認識技術の導入により、通話しながらリアルタイムで音声をテキストに変換・表示できるようになったため、オペレーターがゼロから入力する手間がなくなり、時間削減と業務効率化を実現しました。
なお、電話の場合は伝送時の帯域を制限しているため、通常の音声よりも認識しにくい特殊な信号となります。そのため、電話音声用に学習した専用のモデルを使用すると、認識精度が高くなります。
医療・病院
ある病院では、音声認識技術を活用した音声入力を業務に導入しています。キーボード入力をせずに済むので、高齢でPC操作が苦手な先生でもスムーズにテキストを入力できるようになりました。変換ミスを減らしつつ入力スピードも速くなったことから、電子カルテのほか紹介状や報告書作成にも活用されています。
製造業
ある自動車工場では、完成した製品の監査業務を行う際の入力ミスや、担当者の負担軽減などを目的に、音声入力でテキスト入力できるシステムを導入しました。
従来は、人が計測した情報を紙へ転記し、さらにそれをPCへと入力していたため、時間がかかるうえ転記ミスも発生していました。
音声認識システムの導入によって、100以上ある測定業務の結果を音声で入力できるようになり、転記プロセスそのものが削減できたほか、計測中に記入のため作業を中断しなくて済むようになるなど、大幅に業務時間を短縮できるようになりました。
導入から3ヶ月後には、従来の手法と比較して、業務時間がおよそ3分の2にまで効率化できたそうです。
[SMART_CONTENT]
音声認識の現状の課題と導入する際の留意点
最後に、音声認識を適切に活用するため現状の技術課題を把握しておきましょう。
音声認識は、先ほどご紹介したようなプロセスを経て音声からテキストへと変換されるため、プロセスを阻害する事象が含まれると、途端に認識精度が下がってしまうという課題があります。
例えば、方言や独特の言葉遣い(若者言葉・スラングなど)は、発音辞書でマッチングすることが困難です。また、雑音が多い環境で録音された音声も、特徴量を抽出しにくくなります。ほかにも、複数人が同時に発話する環境で録音された音声も同様です。
こうした課題を踏まえ音声認識技術を利用する際は、
- 録音環境を整備する
- 複数人が話す場ではマイクを分ける
- 雑音が入りにくいように工夫する
などの対策を講じる必要があるでしょう。
まとめ
音声認識技術は、一定品質の音声でないと認識精度が下がるなどの制約こそありますが、応用範囲の広さから普及が進んでいます。
音声認識の基本的な仕組みを理解することは、自社での活用の可能性を把握するために重要です。これから音声認識技術を導入する場合は、事前によく理解を深めておくとよいでしょう。
[RELATED_POSTS]
- カテゴリ:
- 課題・ソリューション
- キーワード:
- 音声認識
- 業務改善・高度化
- 運用ノウハウ・ヒント