進化するヒトと機械の音声コミュニケーション Vol.2
〜AIの活用と感情に寄り添う音声認識・合成の新展開〜
■概要■
・人工知能の発展に伴い、飛躍的に進歩している音声認識・合成技術!
・聴覚・発声のメカニズムから音声の認識・合成の最新技術、今後の展望まで網羅&詳解!
・娯楽・情報・福祉等、実用化事例も満載!より豊かな生活に向けたコミュニケーションの実現へ!!
【序論 音声処理研究の動向と今後の展望】
・音声処理研究の変遷の概観
・音声の分析合成
・音声認識
・音声合成
・今後の展望
【第1編 聴覚・発声のメカニズムと音声認識・合成の最新技術】
<1>聴覚・発声のメカニズム
1.聴覚のメカニズム
・はじめに
・振動の伝達と電気信号への変換
・情報の抽出
・情報の統合
・まとめ
2.音声生成のメカニズム
・音声生成のメカニズムの基礎
・発声
・調音運動
・言語情報・パラ言語情報・非言語情報
<2>音声認識の最新技術
1.End-to-Endモデルによる音声認識
・はじめに
・音声認識のための End-to-End モデルの分類
・Connectionist Temporal Classification(CTC)
・RNN トランスデューサ(RNN transducer)
・アテンションモデル(Attention model)
・トランスフォーマ(Transformer)
・自己教師付き学習に基づく大規模事前学習モデル
・主な大規模事前学習モデル
・おわりに
2.骨導デバイスを利用した音声コミュニケーション:人と機械による音声認識
・はじめに
・骨導音声の伝搬
・集音した骨導音声の認識
・骨導提示した音声の認識
・おわりに
3.読唇技術:音声情報を利用せずに映像情報のみを用いた音声認識技術
・はじめに
・関連研究
・基本モデル
・検討モデル
・評価実験
・おわりに
<3>音声合成の最新技術
1.脳活動信号を用いた言語情報の抽出と音声合成技術の動向
・はじめに
・脳活動信号の計測方法
・意思伝達を目的としたブレイン・マシン・インタフェース(BMI)
・脳活動信号を用いた音声・言語情報の抽出
・脳活動信号を用いた言語情報抽出と音声合成の展望
2.口真似による模倣音声からの効果音合成技術
・はじめに
・非音声・非音楽な音響合成関連技術
・擬音的模倣音声のみに基づく効果音合成
・おわりに
3.視覚障害者の映像鑑賞における音声合成利用
・はじめに
・視覚障害者の映像鑑賞の歴史と音声合成の導入
・音声合成を用いた音声ガイドの心理学的評価
・音声合成を用いた音声ガイド制作の課題と音の作用
・音声ガイドの自動生成技術の発展
・課題と展望
【第2編 音声認識・合成・コミュニケーションの応用技術】
<1>音声認識の応用技術
1.ロボット聴覚のためのオープンソースソフトウェアHARK とPyHARK
・はじめに
・ロボット聴覚オープンソースソフトウェアHARK
・HARKの課題とPython化
・PyHARKアーキテクチャ
・PyHARKを用いた実装例
・PyHARKの性能
・おわりに
2.叫び声から危機を検知するための音声コーパス構築
・はじめに
・叫び声コーパスRISCの構築
・RISCを用いた評価実験
・おわりに
3.聴覚障がい者向け音声認識システムの開発
・Honda CAシステム
・従来の音声認識技術の課題
・語彙拡張を実現する音声認識モデル
・性能評価
・まとめと今後の展望
4.世界最高水準の高精度音声認識AI「shirushi」の開発
・はじめに
・音声認識の課題と昨今の技術発展
・Whisper実用化のための取り組み
・大規模言語モデル(LLM)との組み合わせによるさらなる性能向上
・今後の展望
5.音声認識AIを搭載したティーチングレスロボットシステムの開発
・概要
・ティーチングレスロボットシステム
・音声認識AI 技術の特徴
・まとめ
<2>音声合成の応用技術
1.生成AI時代の音声合成プロダクト「FutureVoice Crayon」
・はじめに
・会社紹介
・FutureVoice Crayon のプロダクト構成と技術動向
・FutureVoice Crayon の導入事例
・今後の適用業界の拡大
・今後の課題
2.落語を演じる音声合成
・はじめに
・情報伝達を超えた音声合成としての落語を演じる音声合成
・落語
・リサーチ・クエスチョンと技術的課題
・落語を演じる音声合成を作る
・落語の音声合成は前座・二ツ目・真打ならどの水準に相当するのか
・おわりに
3.日本放送協会における音声合成の研究開発と実用化
・はじめに
・研究開発
・NHKにおける音声合成の実用化
・おわりに
<3>音声によるコミュニケーション技術
1.音声による感情認識の開発
・はじめに
・感情音声コーパス
・言語特徴と音響特徴を併用した音声感情認識
・まとめと今後の展望
2.共感的な傾聴対話ロボットの開発
・はじめに
・傾聴対話システム
・高齢者との対話実験
・同調笑いの生成
・おわりに
3.聞き手の反応によって発話タイミングを変える音声ガイダンス
・はじめに
・聞き手反応の実時間検出
・聞き手アウェアな音声ガイドシステムの開発
・音声ガイドシステムとのインタラクション実験
・考察
・おわりに
4.ろう・難聴者や盲ろう者のコミュニケーションを支援する音声処理
・はじめに
・音声認識を用いた字幕による情報保障
・ろう・難聴者を対象とした音声認識
・盲ろう者のための音声点訳
・ろう・難聴者の聞き取り支援
・おわりに
5.音声認識AI を搭載したコミュニケーションロボットの開発
・はじめに
・音声認識技術とは
・音声認識技術の実装上の課題
・おわりに