私的AI研究会 > ComfyUI9d
画像生成AI「ComfyUI」9(音声編) == 編集中 ==†
「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する
▼ 目 次
▲ 目 次
※ 最終更新:2026/05/18
「ComfyUI」Qwen3-TTS による音声合成†
| 「Qwen3-TTS」を使って音声合成・音声認識を試す |
- Qwen3-TTS とは
- Alibaba Cloud の Qwen チームが開発した高性能なオープンソース音声合成(TTS:Text-to-Speech)モデル
- テキストを人間のように自然な音声へ変換するだけでなく、わずか数秒の音声サンプルからその人の声質や話し方を再現するボイスクローン機能を備えている
- 特徴
- わずか3秒のボイスクローン:数時間分のデータを用意しての追加学習(ファインチューニング)が不要
3〜10秒程度の短い参照音声があれば、その人物の声色をゼロショットで忠実に再現できる。
- ボイスデザイン機能:「楽しそうに話す関西弁の青年」「怒りを含んだ声」など言葉によるプロンプト(指示) だけでオリジナルの声色や感情を自由にデザインできる。
- 多言語対応:日本語を含む10言語に対応しており、別言語のテキストであっても同じ声質で喋らせる(クロスリンガルクローン)ことが可能
- ローカル環境で動作:オープンソースで公開されているため、自身のPC環境に構築して完全無料で利用できる
処理効率を重視した軽量モデル(0.6B)と高品質なモデル(1.7B)の2種類が用意されている
| 特徴 | 詳細 |
| 3秒でボイスクローン | わずか3秒の参照音声で声質を再現 |
| 10言語対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |
| 97msの超低遅延 | リアルタイム対話に対応可能なストリーミング生成 |
| 感情・抑揚制御 | 自然言語での指示で感情表現をコントロール |
- モデルの種類
| モデル | 用途 | パラメータ数 |
| CustomVoice | 9種類のプリセット音声 + 感情制御 | 0.6B / 1.7B |
| VoiceDesign | 自然言語で声質を設計 | 1.7B |
| Base | 3秒ボイスクローン | 0.6B / 1.7B |
音声合成・音声認識のための環境構築†
更新履歴†
参考資料†