音声合成とは?AIによりどのように活用されるのか?

 2021.01.28  コンタクトセンターの森

音声合成はAI技術の発展により大きく進化した技術のひとつです。かつては機械的な声色で、利用シーンも限られていましたが、今では人間と遜色ないほど自然な発話ができるようになり医療福祉分野やビジネス分野でも活用が期待されています。そこで今回は中小企業の経営者・管理職クラスの方に音声合成とは何かを解説します。

音声合成とは?AIによりどのように活用されるのか?

音声合成とは何か

音声合成技術とは、テキストと対応する音声を自動生成する技術のことです。歴史は古く、18世紀末には既にロシアやオーストリアで音声合成器が作成されたという記録があります。しかしこの時代のものはアナログ音声を再現するもので、母音だけしか発音できない、または母音と一部の子音が発音できるというレベルのものでした。

その後、電子的には1968年に英語音声合成システムが日本で開発されたのを皮切りに英語での音声合成システム開発が進み、1981年には開発者の名を取ったKlattalk systemとして実用レベルに近いシステムが登場しました。

その後普及したのが、「録音編集方式」と「規則合成方式」です。単語や短いフレーズ単位で録音してつなぎ合わせる録音編集方式は、作成できる文章は限定的という弱点はあるもののシンプルな考え方で早くから実用化され、現在でも駅の構内放送などで導入されています。

規則合成方式はtext to speechとも言い、テキストから音声を生成するものです。録音編集方式と比較して新しい単語にも対応できる利点があるものの、肉声とはほど遠い機械的な音声でした。そのためWebページやメールの読み上げなどの、アクセシビリティツールとして使用される以外は発展しませんでした。しかし後述するコーパスベースの音声合成技術の登場により、様相は一変します。

現在はAI(人工知能)の発展によって技術進化が進み、規則合成方式のひとつであるコーパスベースを使った音声合成技術が広がっています。日常でも利用が進み、スマートフォンのAIアシスタントの音声や、コンタクトセンターの自動音声などで利用されています。

音声合成が音声認識と発展してきた背景

よく音声合成とあわせて利用される技術が音声認識です。これはコンピューターにより、音声からテキストデータに変換する技術を指します。音響モデルや言語モデルを用いてコンピューターが音声を解析してテキスト化するものです。

利用シーンでは両方を一緒に使うことが多いですが、技術そのものは別々の要素技術に基づいて、それぞれ発展してきました。しかし現在は大量の学習データを用いる「隠れマルコフモデル(Hidden Markov Model)」をどちらも採用し、研究者同士の交流が進んだことから相乗効果が生まれています。

マルコフモデルとは、時系列の確率モデルのひとつです。過去に起きた事象(条件)に基づき、時間と共に変化する確率変数を予測できるという特性を持ちます。隠れマルコフモデルとは、過去の条件がわからないまま出力だけが明らかになっているマルコフモデルを指します。この隠れマルコフモデルを関数として導入することによってルールベースでなく自動で学習できるようになり、音声合成、音声認識技術が格段に進化しました。

また音声合成・音声認識の発展にはスマートフォンの普及も影響しています。「スマートフォンにより音声入力がしやすくなったこと」や「大量の音声データを収集できるようになったことによりコーパスの量が増大したこと」が背景となり、先述したような音声技術の発展が起こってきました。

音声合成(コーパスベース合成方式)の仕組み

音声合成技術は前述の録音編集方式と規則合成方式とに分かれますが、ここからは代表的な音声合成の仕組みである、「コーパスベース合成方式」を紹介します。

コーパスとは、ラテン語で身体を意味するcorpusが由来の言葉で、テキストと発話(音声として発生すること)をセットにしたデータベースを指します。書籍やテレビ、インターネットなどさまざまなメディアから収集したデータに、読み方や品詞などの情報を付加します。

このコーパスを利用した音声合成の仕組みがコーパスベース合成方式です。コーパスベース合成方式は、さらに波形の生成方法別に「波形接続型合成方式」と「統計モデル型音声合成方式」の2つに分かれます。

波形接続型合成方式

音声は波形の連続データで表せます。このデータは音素と呼ばれる最小単位にまで分割することができ、それを繋ぎ合わせるとまた音声になります。

学習用の音声を、音声合成に使う単位の波形(音声素片)に区切ってデータベースに保存してから、必要なパーツを組み合わせて音声を作るのが波形接続型合成方式です。

大まかな流れとしては、まずシステム内で音声コーパスから得た音声データを、音声認識技術を用いて分析し、音声素片単位へ分けて、データベースに保存しておきます。そして音声化したいテキストを用意したら、そのテキストを言語解析して音素に分割し、アクセントや構文などの情報を導出します。この情報に合致する音声波形の候補を、上記の音声素片データベースから選択し、最適な組み合わせを見つけ、音声を生成します。

注意点としては、データベース内のデータを組み合わせる方式のため、材料になる音声素片が大量に必要になることです。また接続する点が多くなるほど人間の声から遠くなり、発声が不自然な印象になりやすい、という特徴もあります。

統計モデル型合成方式

統計モデル型の合成方式では、事前に音声コーパスから取得した音声波形を、音声認識を用いて音素にばらし、区切り位置や特徴量などの情報を求めます。次に隠れマルコフモデル(Hidden Markov Model)や、ディープニューラルネットワーク(Deep Neural Network)などの機械学習によって音響特徴量の統計モデル辞書を作成します。

音声化したいテキストの、音素ごとの言語特徴量を求めてから、統計モデル辞書と言語特徴量を使用してテキストに対応する音響特徴量を持つ音声波形を生成します。

AIにおける音声合成の活用例

音声合成技術の活用例として、医療や福祉分野で大きく役割を果たしています。

そのひとつが声帯を切除して喋れなくなった人に対する活用です。食道がんや咽頭がんなどの病気で喉頭を切除した人は発声ができなくなります。そのため、のどの食道を振動させて発声する食道発声と呼ばれる発声方法や、電動式人工喉頭(EL)という発声補助器具を用い器械的に振動を発声させて発声します。

発声できるという点では問題ありませんが、やはり本来の自分自身の声で話したいと思う人は多いです。音声合成技術ならば、健康だった時期の録音データから、元の声に近い音声が合成できます。

またALS(筋萎縮性側索硬化症)やパーキンソン病になったことで、正しく発音できなくなる構音障害が起こる人もいます。しかし会話支援器を使い、元気な頃の録音データを用いて音声合成を行うと、上手に発音しづらい音声を補正して出力できます。

どちらも、技術進化により元になるデータの量が少なくても音声合成ができるようになったことで実用化が進みました。このように患者さんが豊かに生活するための手段としても役立っています。

人工知能と人間が自然に対話できる時代へ

音声認識と音声合成の技術進化は著しく、かつては不自然な機械音声という印象が強かった音声合成ですが、今では病気の人の声代わりになるほど自然な発生ができるようになりました。

前述の隠れマルコフモデルを使った音声合成技術は、人間と同様の品質があると評価されています。まだスマートスピーカーやスマートフォンのAIアシスタントと会話する際の音声には不自然さが伴うことは否めませんが、近い将来、人間と話しているのと遜色ない精度で会話できるようになると予測されています。

まとめ

テキストから音声を合成する音声合成技術は、音声認識技術と同じ要素技術を用いるようになってから著しく進化しています。

活用範囲が広く、大企業だけでなく中小企業にとっても活用のチャンスが大きい分野のため、基本的な仕組みについて理解を深めることは今後のビジネスにとって大いに役立つでしょう。


RECENT POST「音声認識」の最新記事


音声合成とは?AIによりどのように活用されるのか?

OFFICIAL SUPPORTER