ComfyUI9d の履歴(No.2)

画像生成AI「ComfyUI」９（音声編）　== 編集中 ==†

　「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する

▲　目　次

※ 最終更新:2026/05/18　

「Qwen3-TTS」を使って音声合成・音声認識を試す

Qwen3-TTS とは
- Alibaba Cloud の Qwen チームが開発した高性能なオープンソース音声合成（TTS：Text-to-Speech）モデル
- テキストを人間のように自然な音声へ変換するだけでなく、わずか数秒の音声サンプルからその人の声質や話し方を再現するボイスクローン機能を備えている

特徴

わずか3秒のボイスクローン：数時間分のデータを用意しての追加学習（ファインチューニング）が不要
3〜10秒程度の短い参照音声があれば、その人物の声色をゼロショットで忠実に再現できる。
ボイスデザイン機能：「楽しそうに話す関西弁の青年」「怒りを含んだ声」など言葉によるプロンプト(指示) だけでオリジナルの声色や感情を自由にデザインできる。
多言語対応：日本語を含む10言語に対応しており、別言語のテキストであっても同じ声質で喋らせる(クロスリンガルクローン)ことが可能

ローカル環境で動作：オープンソースで公開されているため、自身のPC環境に構築して完全無料で利用できる
処理効率を重視した軽量モデル（0.6B）と高品質なモデル（1.7B）の2種類が用意されている

特徴	詳細
3秒でボイスクローン	わずか3秒の参照音声で声質を再現
10言語対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語
97msの超低遅延	リアルタイム対話に対応可能なストリーミング生成
感情・抑揚制御	自然言語での指示で感情表現をコントロール