Japan

トップページ > 学ぶ(ヒストリー・サイエンス) > 1号機ものがたり > 世界初の高音質音声合成方式を実用化

世界初の高音質音声合成方式を実用化

音声符号化の発想により、音声データから自動学習する「閉ループ学習法」を
世界で初めて開発、世界一の音声合成方式を実現。

世界初の高音質音声合成方式を実用化

音声合成の研究は、音声認識と同様にコンピューターとのインタラクションを実現するヒューマン・インターフェース技術としてスタートした。1982(昭和57)年に音節単位の音声を文字に変換する音声ワープロを開発、銀行向け音声認識応答システムに適用された。その後、方式の改善とともに専用ハードウェア、ワークステーション上の音声合成ソフトを開発、1995(平成7)年にはパソコン上で動作する音声合成ソフトを製品化した。しかし、合成音の音質や自然性は「鼻声」「ロボット声」に代表されるように、とても満足できるものではなかった。合成音の音質は、波形生成のための素片辞書を大きくすれば改善する。しかし、辞書のサイズが増大し、小型のハードウェアでの実現が困難になる。また、素片辞書の作成は熟練した技術者による試行錯誤に頼っており、開発に時間がかかる問題もあった。これらの問題は、多くの研究機関で種々の解決策が検討されていたが決定打はなかった。

この状況が、1994(平成6)年に音声符号化の研究者が参画して一変した。音声合成の常識にとらわれず、ゼロから問題を洗い直したのである。既存の知識やノウハウに依らず、音声データから音声合成のパラメーターを自動学習することを基本方針に掲げ、「鼻声」「ロボット声」の原因分析に基づいて、音質の問題を学習データとの誤差という形で定式化することに成功した。続いて、その定式化に基づいて合成音の誤差を最小化する素片辞書の学習方式を世界で初めて開発、「閉ループ学習法」と命名した。本方式は、最小の素片で音質を最大化するものであり、省メモリーで人間並みの高音質・自然な合成音を実現し、音質と辞書サイズの二律背反問題を解決した。しかも、学習データを用意すれば自動的に短期間で合成辞書を作成でき、学習データに用いた人間の音声に近い合成音が作成できるという特徴を持つ。当時は、音声合成の開発には長年の知識とノウハウが必須で、技術者の耳に頼った試行錯誤が避けられないというのが常識であったので、「閉ループ学習法」は従来の常識を破る画期的な方式となった。

これらの研究成果を実用化するため、研究者自ら顧客を訪問して市場を開拓し、1998(平成10)年、音声合成ミドルウェアが大手自動車メーカーに採用された。その後、他のメーカーにも採用され、2006(平成18)年には国内カーナビ市場で94%のシェアを占めるまでになった。2002(平成14)年には英国と中国にも研究開発拠点を設立して多言語化を推進、欧米市場、中国市場でも東芝の音声合成および音声認識技術が採用されている。さらに、音声合成のコンテンツ作成応用など新たなサービスの開拓にも取り組んでいる。また、特定の話者や話し方を合成する話者適応・話調適応技術や感情的な音声を合成する感情音声合成技術の開発も進めており、応用分野の拡大に努めている。

閉ループ学習法による音声合成
閉ループ学習法による音声合成

関連リンク

1号機ものがたり一覧へ

学ぶ(ヒストリーサイエンス)トップページ

東芝未来科学館 〒212-8585 神奈川県川崎市幸区堀川町72番地34 スマートコミュニティセンター(ラゾーナ川崎東芝ビル)2F

このページのトップへ