私的AI研究会 > ComfyUI9d
画像生成AI「ComfyUI」9(音声編) == 編集中 ==†
「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する
▼ 目 次
▲ 目 次
※ 最終更新:2026/05/19
「ComfyUI」Qwen3-TTS による音声合成†
| 「Qwen3-TTS」を使って音声合成・音声認識を試す |
- Qwen3-TTS とは
- Alibaba Cloud の Qwen チームが開発した高性能なオープンソース音声合成(TTS:Text-to-Speech)モデル
- テキストを人間のように自然な音声へ変換するだけでなく、わずか数秒の音声サンプルからその人の声質や話し方を再現するボイスクローン機能を備えている
- 特徴
- わずか3秒のボイスクローン:数時間分のデータを用意しての追加学習(ファインチューニング)が不要
3〜10秒程度の短い参照音声があれば、その人物の声色をゼロショットで忠実に再現できる。
- ボイスデザイン機能:「楽しそうに話す関西弁の青年」「怒りを含んだ声」など言葉によるプロンプト(指示) だけでオリジナルの声色や感情を自由にデザインできる。
- 多言語対応:日本語を含む10言語に対応しており、別言語のテキストであっても同じ声質で喋らせる(クロスリンガルクローン)ことが可能
- ローカル環境で動作:オープンソースで公開されているため、自身のPC環境に構築して完全無料で利用できる
処理効率を重視した軽量モデル(0.6B)と高品質なモデル(1.7B)の2種類が用意されている
| 特徴 | 詳細 |
| 3秒でボイスクローン | わずか3秒の参照音声で声質を再現 |
| 10言語対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |
| 97msの超低遅延 | リアルタイム対話に対応可能なストリーミング生成 |
| 感情・抑揚制御 | 自然言語での指示で感情表現をコントロール |
- モデルの種類 引用: https://qiita.com/GeneLab_999/items/79d8020799c6f9e329dc
| モデル | 用途 | パラメータ数 |
| CustomVoice | 9種類のプリセット音声 + 感情制御 | 0.6B / 1.7B |
| VoiceDesign | 自然言語で声質を設計 | 1.7B |
| Base | 3秒ボイスクローン | 0.6B / 1.7B |
- Qwen3-TTSモデル 引用: https://github.com/QwenLM/Qwen3-TTS
| トークナイザー名 | 概要 |
| Qwen3-TTS-Tokenizer-12Hz | Qwen3-TTS-Tokenizer-12Hzモデルで、入力音声をコードに符号化し、再び音声に復号できる。 |
| モデル | 特徴 | 言語サポート | ストリーミング | 命令制御 |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | ユーザーが提供した説明に基づいて音声デザインを行う。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | ユーザー指示を通じてターゲット音色のスタイル制御を提供する。性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色に対応している。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | 性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色をサポートする。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
- サポートされたスピーカーリスト 引用: https://github.com/QwenLM/Qwen3-TTS
最高の品質を得るために、各話者の母語を使うことを推奨。各話者はモデルが支持するあらゆる言語を話すことができる。
| Speaker | 声の説明(Voice Description) | 母語(Native language) |
| Vivian | 明るく、少し尖った若い女性の声。 Bright, slightly edgy young female voice. | 中国語 |
| Serena | 温かく穏やかな若い女性の声。 Warm, gentle young female voice. | 中国語 |
| Uncle_Fu | 低く穏やかな音色の熟練男性の声。 Seasoned male voice with a low, mellow timbre. | 中国語 |
| Dylan | 澄んだ自然な音色を持つ若々しい北京の男性の声。 Youthful Beijing male voice with a clear, natural timbre. | 中国語(北京方言) |
| Eric | 生き生きとした成都の男性の声で、少しハスキーな明るさが混じっている。 Lively Chengdu male voice with a slightly husky brightness. | 中国語(四川方言) |
| Ryan | ダイナミックな男性の声で、強いリズム感を持っています。 Dynamic male voice with strong rhythmic drive. | 英語 |
| Aiden | 明るいアメリカン男性の声で、澄んだ中音域。 Sunny American male voice with a clear midrange. | 英語 |
| Ono_Anna | 軽やかで軽やかな音色の遊び心のある日本語女性の声。 Playful Japanese female voice with a light, nimble timbre. | 日本語 |
| Sohee | 豊かな感情を持つ温かみのある韓国女性の声。 Warm Korean female voice with rich emotion. | 韓国語 |
音声合成・音声認識のための環境構築†
Qwen3-TTS は「transformers」パッケージ 4.XX を必要とする。バージョン 5.XX とは互換性がない このため transformers $.XX で実行できる別の「ComfyUI_tf4」を用意することを推奨する |
※「transformers」は Ver 5.XX から互換性のない新たな APPI が導入されたようで、エラーで実行不可の拡張ノードが多数ある(『paint-by-example_comfyUI』など)
- 専用の環境設定をする
・現在使用している ComfuUIパッケージ最新環境のコピーを作成する → 検証済みパッケージ環境の複製
- 新しい環境 ComfyUI_tf4 に拡張ノードをインストールする
・拡張ノードのインストール『Qwen3-TTL』『Qwen3-ASR』
- 「transformers」について
・『Qwen3-ASR』をインストールすると「transformers」は自動的に 4.57.6 にダウングレードされる
・その後、ComfyUI のアップデートを実行すると 5.XX バージョンに更新されてしまうことがある
変更を避けるため「アップデートチェックを無効にする」を選択しておくことが望ましい
・5.XX に更新されてしまった場合は尾のままでは『Qwen3-TTL』エラーとなるので変更が必要 → Pythonパッケージのバージョン確認・変更
プロジェクトで作成するワークフロー†
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
- ワークフローと動作環境による生成時間(分:秒) 軽量版 推奨ワークフロー 軽量 GGUF版 推奨ワークフロー
Step 1:「テキストから音声合成」基本ワークフロー†
- ノード添付のワークフロー「custom_voice.json」を参考に作成
| テキストから音声合成 Text to Speech |
| ワークフロー | プロンプト | 生成された音声 |
 6001_Qwen3_custom_voice.json |
こんにちは、これはクエン スリー T T L の日本語の発話テストです。
| |
Step 2:「参照音声を話し手(Speaker)としてテキストから音声合成」†
- ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成
| 参照音声を話し手(Speaker)として テキストから音声合成 Voice clone Text to Speech |
| ワークフロー | 参照音声 | 入力する 参照音声の内容 |
 6002_Qwen3_voice_clone.json | |
いらっしゃいます。足元にお気をつけてお入りください。お待たせいたしました。お忘れ物のないようお気をつけてお帰りくださいませ。
|
| プロンプト | 生成された音声 |
|
これはテストです。クエン3 T T L を使ったワークフローで日本語を発話します。
| |
Step 3:「参照音声を話し手(Speaker)として発話内容を解析して テキストから音声合成」†
- ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成
| 参照音声を話し手(Speaker)として発話内容を解析しテキストから音声合成 Voice clone Text to Speech with ASR |
| ワークフロー | 参照音声 | 参照音声の内容 |
 6003_Qwen3_simple_voice_clone.json | | 自動的に解析して入力 |
| プロンプト | 生成された音声 |
|
これはテストです。音声認識により、サンプル音声の内容を解析する、クエン3 T T L を使ったワークフローで日本語を発話します。
| |
Step 4:「プロンプトで指定した話し手(Speaker)の声で テキストから音声合成」†
- ノード添付のワークフロー「voice_design.json」を参考に作成
| プロンプトで指定した話し手(Speaker)の声で テキストから音声合成 Text to Speech with Voise Design |
| ワークフロー | プロンプト | 話し手の声のプロンプト |
 6004_Qwen3_voice_design.json |
クエン3 T T L を使ったワークフローをテストしています。今日はテキストツウスピーチの検証をします。
|
何かを教えるような落ち着いた少し声の低い若い女性の声
|
| 生成された音声 |
|
Step 5:「参照音声から発話内容を解析して テキストとして表示(出力)」†
- ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成
| 参照音声から発話内容を解析して テキストとして表示 Automatic Speech Recognition |
| ワークフロー | 参照音声 | 解析された発話内容 |
 6005_Qwen3_speech_recog.json | | いらっしゃいませ。足元に気をつけてお入りください。お待たせいたしました。お忘れ物のないよう気をつけてお帰りくださいませ。 |
Step 6:「プロンプトで話し手(Speaker)の声を設計 / 設計した話し手(Speaker)の声で テキストから音声合成」†
- ノード添付のワークフロー「voice_design.json」を参考に作成
| プロンプトで話し手(Speaker)の声を設計 Voise Design |
| ワークフロー | プロンプト | 話し手の声のプロンプト |
 6010_Qwen3_voice_design.json |
今日はテキストツウスピーチの検証をしてみます。
|
明るく元気なトーンで話す、30代のアナウンサーの女性。
|
| 生成された音声 |
|
| 設計した話し手(Speaker)の声で テキストから音声合成 Text to Speech |
| ワークフロー | プロンプト | 生成された音声 |
 6010_Qwen3_voice_design.json |
明日はイメージツウビデオとビデオツウビデオの検証をしましょう。
| |
- AI で生成した話し手(Speaker)の静止画
| Speaker 静止画 | プロンプト | 生成に使用したワークフロー |
 |
若い女性がラジオスタジオのマイクの前に座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女の表情は繊細で自然で、視線は柔らかく、自然光が彼女の顔を均一に照らしています。
| 2101_z_image_turbo_simple.json |
 | 4201_ernie_image_turbo_t2i_simple.json |
 |
オフィイスで、正面を見て、胸に'LTX-2.3'のロゴマークの入った白いTシャツを着て明るく熱心に話す表情豊かな女性のミディアムショット、上半身が映り、胸と肩が画面内に収まっている。
| 2101_z_image_turbo_simple.json |
 | 4201_ernie_image_turbo_t2i_simple.json |
忘備録†
品質向上のためのテクニック†
| Qwen3-TTSは、自然言語によるテキストの読み上げだけでなく、instructパラメータを使用して「感情」「トーン」「話し方」を細かく指定できるのが最大の特徴 |
- instruct(指示)の指定
APIや実行コード(Python等)の instruct 引数に、英語または日本語でキャラクターの口調や背景情報を自然言語で記述する
・指定できる要素と具体例
| 項目 | 指定内容 |
| 一般 | 「怒って」「明るく」と指定するよりも、多角的な情報を盛り込むとクオリティが上がる |
| 感情・トーン | 喜び、悲しみ、怒り、冷静、皮肉、恥ずかしそうに |
| 発話スタイル | ニュースキャスターのように、アニメ声で、おっとりと、早口で |
| キャラクター・背景 | 「50歳の疲れた父親」「少し高圧的な上司」「親しみやすい友人」など |
・instruct 指定の記述例
| 項目 | 指定内容 |
| 指定例 1 (ニュース風) | Read this like a news anchor, speaking calmly and intellectually. |
| 指定例 2 (感情とキャラクター設定) | ニュースキャスターのように知的で正確な発音だが、少し親しみやすさを込めて。 |
| 指定例 3 (口調の制御) | 怒った口調で、少し早口に、相手を非難するように。 |
・さらに品質を高めるテクニック
| 項目 | 指定内容 |
| 読点の活用 | 句読点の位置をAIが深く理解するため、意図的に「読点(、)」を増やすと自然な「ため」や息継ぎを表現できる |
| プロンプトの調整 | クローン元の音声(Voice Design / ICL)や speaker の指定と合わせて instruct を調整する |
・参考 URL
Qwen3-TTS に自分の声でしゃべらせる
Qwen3-TTS:論文を読んで実験してわかった日本語調教術
検証済みパッケージ環境の複製†
ComfyUI で動作確認済みのパッケージを今の環境のまま別の名前で複製する手順。 新しいパッケージのテストやバックアップとして利用できるほか、バージョンの異なる環境を必須とする拡張ノードなどを安定して利用できる |
- パッケージをコピーする(例: ComfyUI_gpu → ComfyUI_tf4 )
① コピー元のパッケージ右上のメニューボタンを押す
③「共有フォルダ」のチェックを外す
・StabilityMatrix を終了する
④ エクスプローラなどで「ComfyUI_gpu」を複製(コピー)して名前を「ComfyUI_tf4」とする
- コピーしたパッケージを設定する
・StabilityMatrix を起動する
⑤「不明なパッケージ」として認識される
⑥「インポート」ボタンを押す
⑦ ダイアログでパッケージタイプを「ComfyUI」Version Type をコピー元と同じにする
・右端のVersion と Python Version は適切なものが表示されるのでそのままでよい
・ダイアログ上の「インポート」ボタンを押す
⑧ 新しいパッケージ右上のメニューボタンを押す
⑩「アップデートチェックを無効にする」「共有フォルダ」のチェックを入れる
・「Pythonパッケージ」を押す
⑪ 検索窓に「
transform
」と入れ transformer のバージョンを確認しておく
⑫「設定」(歯車のアイコン) ボタンを押す
⑬「Auto-Launch」のチェックを外し「Enable-Manager」のチェックを入れる
⑭「保存」を押す
- 新しいパッケージを起動する
① 画面上部の「Manager」ボタンを押す
②「Custom Node Manager」を選択する
③「Check Update」を押して拡張ノードのアップデートを確認する
④ アップデートがある場合は「Update All」を実行する
- 新しいパッケージを更新する
⑤ 更新には時間がかかる コンソール出力に以下の表示が出るまで待つ
・「After restarting ComfyUI, please refresh the browser」
⑥ へ往時を確認後「RESTART」ボタンを押す
⑦ ブラウザとの接続が切れコンソール出力に更新状況が逐次表示される
・コンソール左上緑の「Launch」ボタンは絶対押さないこと
⑧ 更新が完了するとブラウザ上に新しいページが追加される
⑨ 追加されたページを閉じる
・前記の手順で「Custom Node Manager」で拡張ノードの確認をする
⑩「Check Updete」を押して拡張ノードの表示がなくなれば更新完了
- ブラウザのページを閉じ「StabilityMatrix」を終了する(重要)
拡張ノードのインストール『Qwen3-TTL』『Qwen3-ASR』†
- 拡張ノード『Qwen3-TTL』をインストールする
・「Custom Node Manager」を開く
① 検索窓に「
Qwen3-TTS
」と入力
② いくつか候補が出るので「Author」項目の「Dario Fernandez Torre」を探す
③「Install」ボタンを押す
④ 最も新しいバージョンを選択して「Select」ボタンを押す
⑤「Restart」ボタンを押す
・再起動が完了して表示された新しいページを閉じ、もう一度「Custom Node Manager」で検索する
⑥ 拡張ノードがインストールされていることを確認する
- 拡張ノード『Qwen3-ASR』をインストールする
・「Custom Node Manager」を開く
・前記と同じ手順で、検索窓に「
ComfyUI-Qwen3-ASR
」と入力
・ いくつか候補が出るので「Author」項目の「Dario Fernandez Torre」を探す
⑦「Install」ボタンを押す
・ 最も新しいバージョンを選択して「Select」ボタンを押す
・「Restart」ボタンを押す
・再起動が完了して表示された新しいページを閉じ、もう一度「Custom Node Manager」で検索する
⑩ 拡張ノードがインストールされていることを確認する
- ブラウザのページを閉じ「StabilityMatrix」を終了する(重要)
Pythonパッケージのバージョン確認・変更†
StabilityMatrix 環境では安全に Pythonパッケージの導入・更新・削除ができる手段が用意されている この機能を使うことで実行時の仮想環境内の ythonパッケージの管理を容易に行うとができる |
- 「transformas」バージョン確認
①「StabilityMatrix」上で該当パッケージの右上のメニューボタンを押す
② 検索窓に「
transform
」を入力する
・現在インストールされているバージョンが表示される
- 「transformas」バージョン変更
③「+」ボタンを押す
④ 表示された入力欄の pip install の後に「
transformers==4.57.6
」と入力
⑤「OK」ボタンを押す
・指定のバージョンがインストールできる
更新履歴†
参考資料†