音声認識とは?AIを使った仕組みや活用事例、おすすめの音声認識ソフトを紹介

 2022.05.20  2023.07.19

音声認識とは、人間の発話を記録した音声データをテキストに変換する技術のことです。

現在、AI技術の進化に伴い音声認識技術の精度は飛躍的に進歩しており、コールセンターなどビジネス用途でも活用が進んでいます。当記事では、音声認識の仕組みやビジネスで活用するメリット、事例について解説します。

VOC(Voice of Customer)の取得から分析までの方法とは?

AI技術の進化「音声認識」とは?

昨今では、AI技術の進化により「音声を文字に変換する技術」にとどまらず、「人の言葉を理解し、行動するシステム」にまで発展しています。

音声認識の歴史

音声認識技術そのものは古くから研究されており、1990年代頃からゲームなどで実用化され始めました。

  • 2010年代…Appleの「Siri」や「Googleアシスタント」が登場
  • 2014年…Amazonがスマートスピーカー「Amazon Echo」を発表

このような流れから急激に音声認識が一般に知られるようになりました。

ビジネス分野に目を向けると、1990年代後半にIBMが音声認識ソフトウェア「via voice」を発表し、音声入力や音声コマンド操作を行えるようになりました。しかし日本語の複雑な構造ゆえ、英語と比べて認識率の向上が困難だったため、当時はそれほど普及しませんでした。

ところが近年、AI(人工知能)、特にディープラーニングの進化に伴い、音声認識技術の精度が飛躍的に向上したため、現在ではコールセンターなどで活用が進んでいます。

今や、音声認識技術は一定品質の音声であれば認識率90%を超えるまでに進歩しており、人間と同等のレベルにまで達しています。画像認識と並び、実利用が進んでいる技術のひとつです。

BellCloud+ご紹介資料
VOCソリューションのご紹介

音声認識技術の仕組み

では、音声認識技術はどのような仕組みになっているのでしょうか。まず、音声認識がどのような流れで行われるのか、わかりやすいようディープラーニングを用いない仕組みを例に見てみましょう。

大まかな流れは上記の通りです。

1)音声のコンピュータ分析…録音した音声データをコンピューターが理解しやすいように整形する

2)音素を抽出(音響モデル)…切り取った波形がどの音と近いかをパターン認識する

3)発音辞書によるパターンマッチ…その音がどの単語に近いかを照合する

4)適切な文章の組み立て(言語モデル)…単語と単語の関係性を考慮して文章を組み立てる

このように音声データをテキスト化することを「デコーディング」と呼びます。以下、それぞれの工程について詳しく解説します。

1. 音声のデジタル化(音響分析)

まずは、元の音声データから特徴量を抽出し、AIが認識しやすいデータに整形します。この作業を「音響分析」といい、具体的にはアナログ信号である音声をデジタル信号の波形に変換し、音素を抽出し、ノイズを除去します。

2. 音素を抽出(音響モデル)

続いて、元の音声から抽出された特徴量が、どの音素に近いのかを見つけ出します。この作業を「音響モデル」といいます。音響モデルでは主に、時間経過で変化する特徴量をモデル化した「隠れマルコフモデル」という手法が使われます。

3. 発音辞書によるパターンマッチ

次に、音素を発音辞書と連結して、単語単位に組み立てます。「発音辞書」とは、音響モデルから導き出された音素が、どの単語と近いかを照らし合わせるためのデータベースのことです。

4. 適切な文章の組み立て(言語モデル)

「言語モデル」とは、発音辞書で特定した単語と単語、品詞などの出現頻度をモデル化したものです。文章をN個の文字または単語に区切る「N-gramモデル」がよく利用されます。ここでは、文章の学習データを大量に蓄積・処理して出現頻度を記録し、認識したいデータと照合して、出現する確率が高い文章に整形します。

ディープラーニングを取り入れた手法

なお、現在ではディープラーニングが導入されており、音響モデルでは「ディープニューラルネットワーク(DNN)」を組み入れた「DNN-HMM」が、また言語モデルではN-gramと「リカレントニューラルネットワーク(RNN)」との併用が広がっています。

さらに、音響モデルや言語モデルを組み合わせるのではなく、ひとつのニューラルネットワークで音声認識を実現する「End-to-End」モデルも登場しており、今後の主流になる可能性が高いともいわれています。

関連記事:機械学習/ディープラーニングが音声認識を進化させる!?深層学習との違いも解説

音声認識をビジネスに活用するメリット

ここまで解説したように、従来の音声認識の仕組みにAIのディープラーニングが活用されるようになったことで、音声認識技術の精度が飛躍的に向上しました。

次に、音声認識技術をビジネスに活用することで、どんなメリットがあるのかお伝えします。

メリット

  • 業務効率化や入力ミスが軽減
  • ハンズフリー入力が可能

業務効率化や入力ミスの軽減

文字入力を半自動化することができるため、業務効率化やミスの軽減などのメリットが期待できます。

例えば、議事録作成において、従来では録音された音声を聞いて手動でタイピングし、テキスト化していました。音声認識技術を使えば、音声データを半自動でテキスト化したものを整形すればよいので、時間削減・負担軽減につながります。

政府内でも、省庁で実施される会議や打ち合わせに必要な議事録の作成作業を効率化するため、音声認識サービスの実証実験を行うなど、導入が検討されています。

参照:AI を活用した音声認識技術による自動文字起こし及び自動要約の実証実験|総務省

ハンズフリー入力が可能

また、音声認識技術を用いた音声入力を利用するメリットは、手が濡れている、荷物を持っているといった手が使えないシチュエーションでもテキスト入力が可能なことです。キーボード操作に慣れていない人でも入力ミスを減らせるといったことも挙げられます。

業界を支える「音声認識」の活用事例

業界を支える「音声認識」の活用事例

音声認識技術は、多様な業界で利活用が進んでいます。ここでは、3つの活用事例をご紹介します。

金融業(クレジットカード事業)

あるクレジットカード会社では、コールセンター業務にリアルタイム音声認識技術を導入しています。従来は、オペレーターがお客様との会話内容を手入力していましたが、入力に時間がかかるうえ、入力ミスも少なくありませんでした。

音声認識技術の導入により、通話しながらリアルタイムで音声をテキストに変換・表示できるようになったため、オペレーターがゼロから入力する手間がなくなり、時間削減と業務効率化を実現しました。

なお、電話の場合は伝送時の帯域を制限しているため、通常の音声よりも認識しにくい特殊な信号となります。そのため、電話音声用に学習した専用のモデルを使用すると、認識精度が高くなります。

医療・病院

ある病院では、音声認識技術を活用した音声入力を業務に導入しています。キーボード入力をせずに済むので、高齢でPC操作が苦手な先生でもスムーズにテキストを入力できるようになりました。変換ミスを減らしつつ入力スピードも速くなったことから、電子カルテのほか紹介状や報告書作成にも活用されています。

製造業

ある自動車工場では、完成した製品の監査業務を行う際の入力ミスや、担当者の負担軽減などを目的に、音声入力でテキスト入力できるシステムを導入しました。

従来は、人が計測した情報を紙へ転記し、さらにそれをPCへと入力していたため、時間がかかるうえ転記ミスも発生していました。

音声認識システムの導入によって、100以上ある測定業務の結果を音声で入力できるようになり、転記プロセスそのものが削減できたほか、計測中に記入のため作業を中断しなくて済むようになるなど、大幅に業務時間を短縮できるようになりました。

導入から3カ月後には、従来の手法と比較して、業務時間がおよそ3分の2にまで効率化できたそうです。

[SMART_CONTENT]

音声認識ソフトの選び方

音声認識ソフトを選ぶ際には、音声認識の精度を確認しましょう。製品によって音声認識の精度は異なります。精度が低い製品を導入してしまうと、結局手作業で修正する手間が増えてしまいます。無料で利用できるトライアル期間を設けている製品であれば、事前に精度を確認したうえで導入できます。トライアルがないのなら、インターネット上の口コミなどをチェックしてみましょう。

また、十分な数の単語が登録されている製品を選ぶのも大事なポイントです。音声認識ソフトは、音声を聞きとったうえで、登録されている単語のなかからベストな語彙を使用します。つまり、より多くの単語を登録した製品であれば、違和感のない自然な文章の作成が可能です。特定の業界に特化し、専門用語を豊富に登録した製品などもあります。

製品の操作性も確認が必要です。操作が複雑で難しい場合は従業員が使いこなせないかもしれません。そのような場合は、もしかすると導入前よりも業務効率が低下してしまうおそれがあります。操作性は実際に試してみなければ分からないため、なるべくトライアル利用できる製品で事前にチェックしたうえで、導入の可否を検討しましょう。

どのような機能が実装されているのかも、事前の確認が必要です。製品によって実装されている機能は大きく異なります。辞書登録機能や自動学習機能、翻訳機能などを備えた製品が多いものの、独自の機能を実装したものもあります。自社が求める機能を備えているかどうかを確認しましょう。

予算の範囲内で導入できるかどうかも大切なポイントです。気になる製品をいくつかピックアップし、価格や機能などを比較しつつ検討してみましょう。

おすすめの音声認識サービス無料3選・有料3選

音声認識サービスは、大きく分けて無料と有料の製品があります。音声認識がどのような技術で、どういったことができるのかをまず知りたいのなら無料版を利用してみましょう。無料サービスでは物足りなくなった、といったタイミングで有料版へ切り替えるのがおすすめです。そこで、ここではおすすめの無料、有料の音声認識サービスを6つ紹介します。

【無料】会議の文字起こし用アプリ Group Transcribe

「Group Transcribe」は、AI技術を採用した音声認識アプリケーションです。Microsoft社が2021年にリリースしたアプリで、音声の文字起こしと翻訳をリアルタイムで実行できる点が特徴です。また、利用のしやすさに着目した設計が採用されており、誰でも手軽に利用できる操作性を実現しているのも魅力です。

無料とは思えないほど音声認識の精度が高く、80カ国以上の言語に対応しているのも魅力です。そのため、さまざまな地域の言語をテキスト化したい、といった場合に適しています。なお、同時に対応できる人数は4名までです。

ただし、同時に対応できる人数は4名まで、オンライン会議には使用できない、そして一回のセッションは30分まで、という点に注意が必要です。

【無料】対面/オンラインの会議に対応 Notta

「Notta」は、対面形式の会議やオンライン会議などにおいて、文字起こしが可能なアプリです。オフラインとオンラインの会議を行うケースが多く、どちらの議事録も取得したいといった企業・団体に適しています。

リアルタイムで音声をテキスト化できるだけでなく、外部データや音声ファイルからの文字起こしも可能です。さらに、Webページの画面収録やオンライン会議の自動文字起こしも行えます。機能にも優れ、カスタム単語登録や多言語テキスト翻訳、自動校正など便利な機能を多々実装しています。

音声をテキスト化できるだけでなく、重要ポイントを抽出した要約文をスピーディーに作成できる点も魅力です。実装されたAI要約機能と高度な音声認識技術により、わずか5分の短時間で1時間の音声をテキスト化、要約できます。

無料プランでは、月に120分までの文字起こしが可能ですが、リアルタイムやオンライン会議の1回の文字起こしは3分までの制限があります。文字起こしは104までの言語に対応し、画面収録や話者識別といった機能を利用できます。無料プランで物足りなくなったら、プレミアムやビジネスといった有料プランへの移行を検討してみましょう。

【無料】音声/動画の文字起こし Texter

「Texter」は、最新のAI音声認識技術を実装したツールであり、さまざまなメディアファイルからの文字起こしができます。画像や動画から抽出したデータをもとにテキスト化でき、さまざまな言語(iOSでサポートしているすべての言語)にも対応しています。

リアルタイム翻訳機能も備えているため、言語が異なる相手とコミュニケーションをとっているときもスムーズな対応が可能です。なお、翻訳サービスは DeepL、Googleオンライン翻訳、Googleオフライン翻訳の3つから選択できます。また、SNS共有機能を使えば、テキスト化したデータを他のアプリと共有できます。

無料版ではリアルタイムな文字起こしは1分まで、画像の文字起こしは1日に3回まで、動画などからの文字起こしも短時間にしか対応していないので注意が必要です。
有料プランのPremium Mに申し込むと、1週間のお試し期間があります。より高度な機能を利用できるのはもちろん、長時間の利用も可能です。

無料のソフトに物足りなさを感じたら

無料利用できる音声認識サービスの多くは、利用期間や使える機能が限定的です。そのため、もっと高度な機能を使いたい、長時間の音声をテキスト化したいときは有料サービスへのシフトを検討してみましょう。

ビジネスで使用するのなら、信頼できるサービスの選定が必須です。また、自社が求める機能や音声認識のクオリティが十分かどうかも確認しましょう。

【有料】高い認識率のAmiVoice(アミボイス)

「AmiVoice(アミボイス)」は、20年以上のノウハウとデータを活用した音声認識技術です。高度な音声認識精度には定評があり、さまざまな企業が導入しています。

AmiVoiceは、ビジネスユースに特化したサービスである点にも注目です。業務で使用しない用語を極力省くことで、ビジネスシーンにおける高精度な音声認識を実現しました。また、医療や保険、金融など特定の業界に特化した音声認識エンジンもあり、専門用語への対応も万全です。

また、AmiVoiceには高度なノイズキャンセルの技術も使用されています。騒音や雑音が多い場所では音声の認識率が低下しがちですが、AmiVoiceならその心配がありません。高度なノイズキャンセル機能により音声をクリアに認識するため、周りが騒がしくても正確な文字起こしが可能です。

普段通りの自然な会話であっても、AmiVoiceは正確に音声を認識します。AmiVoiceが音声を認識できるよう、イントネーションや会話のスピードなどを調整する必要はありません。年齢や性別、話し方のクセなどを問わず、正確な音声のテキスト化が可能です。

AmiVoice

【有料】誰でも使いやすいVoice Code(ボイスコード)

「Voice Code(ボイスコード)」は、文字入力の効率化を目的に開発された音声認識ソフトです。パソコンでソフトを起動し、接続したマイクで音声を入力すればテキスト化してくれます。

テキスト化した音声はクリップボードへ保管され、そのまま各種エディタやメールなどへの貼り付けが可能です。キーボードで長文を打つのが苦手な人や、送り状など何度も同じ内容を書くのが面倒な人、議事録を作成したい人などに適しています。

【有料】Web会議の議事録作成にVoiceRep スマート議事録 for テレワーク

「VoiceRep スマート議事録 for テレワーク」は、簡単にテレビ会議の議事録を作成できるツールです。Google社の音声認識エンジンを使用したツールであり、わずか2ステップで音声をテキスト化できる点が魅力です。

テレワークへシフトした企業の多くが、ウェブ会議システムなどを利用したオンライン会議でコミュニケーションをとっています。こうした、テレワーク環境下におけるオンライン会議の議事録も、同ツールを利用すれば容易に作成できます。手軽かつ効率的に議事録を作成でき、あとから会議内容の振り返りが可能です。

音声認識の現状の課題と導入する際の留意点

最後に、音声認識を適切に活用するため現状の技術課題を把握しておきましょう。

音声認識は、先ほどご紹介したようなプロセスを経て音声からテキストへと変換されるため、プロセスを阻害する事象が含まれると、途端に認識精度が下がってしまうという課題があります。

例えば、方言や独特の言葉遣い(若者言葉・スラングなど)は、発音辞書でマッチングすることが困難です。また、雑音が多い環境で録音された音声も、特徴量を抽出しにくくなります。ほかにも、複数人が同時に発話する環境で録音された音声も同様です。

こうした課題を踏まえ音声認識技術を利用する際は、

  • 録音環境を整備する
  • 複数人が話す場ではマイクを分ける
  • 雑音が入りにくいように工夫する

などの対策を講じる必要があります。

コンタクトセンターとは?今求められる理由と必要なシステムを解説

企業と顧客が直接コミュニケーションをとるコンタクトセンター。多様化する連絡手段や顧客の価値観の変化から重要性が増しています。こちらでは、コンタクトセンターの概要や必要な機能、コールセンターとの違いなどについて紹介します。

コンタクトセンターとは?今求められる理由と必要なシステムを解説

ブログ記事を見る

まとめ

音声認識技術は、一定品質の音声でないと認識精度が下がるなどの制約こそありますが、応用範囲の広さから普及が進んでいます。

音声認識の基本的な仕組みを理解することは、自社での活用の可能性を把握するために重要です。これから音声認識技術を導入する場合は、事前によく理解を深めておかねばなりません。

コンタクトセンターを高度化し顧客満足度・業務改善を実現する 音声認識技術の活用方法とは?

RECENT POST「課題・ソリューション」の最新記事


課題・ソリューション

音声認識のAPI連携でコンタクトセンター業務を効率化するには?

課題・ソリューション

音声認識でコンタクトセンターは自動化されるのか?

課題・ソリューション

機械学習/ディープラーニングが音声認識を進化させる!?深層学習との違いも解説

課題・ソリューション

コンタクトセンター業務に役立つ音声認識アプリ5選!導入メリットや選び方も解説

音声認識とは?AIを使った仕組みや活用事例、おすすめの音声認識ソフトを紹介
VOC(Voice of Customer)の取得から分析までの方法とは?
コンタクトセンターの最新トレンドまるわかりガイド ~今、おさえておきたいコンタクトセンターの最新トレンドと テクノロジーとは?~

RECENT POST 最新記事

ブログ無料購読のご案内

RANKING人気記事ランキング

AUTHOR執筆者

OFFICIAL SUPPORTER