ComfyUI9d の履歴(No.10)

私的AI研究会 > ComfyUI9d

画像生成AI「ComfyUI」９（音声編）　== 編集中 ==†

　「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する

▲　目　次

画像生成AI「ComfyUI」９（音声編）　== 編集中 ==
参考資料

※ 最終更新:2026/05/19　

↑

「ComfyUI」Qwen3-TTS による音声合成†

「Qwen3-TTS」を使って音声合成・音声認識を試す

↑

概要†

Qwen3-TTS とは
- Alibaba Cloud の Qwen チームが開発した高性能なオープンソース音声合成（TTS：Text-to-Speech）モデル
- テキストを人間のように自然な音声へ変換するだけでなく、わずか数秒の音声サンプルからその人の声質や話し方を再現するボイスクローン機能を備えている

特徴

わずか3秒のボイスクローン：数時間分のデータを用意しての追加学習（ファインチューニング）が不要
3〜10秒程度の短い参照音声があれば、その人物の声色をゼロショットで忠実に再現できる。
ボイスデザイン機能：「楽しそうに話す関西弁の青年」「怒りを含んだ声」など言葉によるプロンプト(指示) だけでオリジナルの声色や感情を自由にデザインできる。
多言語対応：日本語を含む10言語に対応しており、別言語のテキストであっても同じ声質で喋らせる(クロスリンガルクローン)ことが可能

ローカル環境で動作：オープンソースで公開されているため、自身のPC環境に構築して完全無料で利用できる
処理効率を重視した軽量モデル（0.6B）と高品質なモデル（1.7B）の2種類が用意されている

特徴	詳細
3秒でボイスクローン	わずか3秒の参照音声で声質を再現
10言語対応	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語
97msの超低遅延	リアルタイム対話に対応可能なストリーミング生成
感情・抑揚制御	自然言語での指示で感情表現をコントロール

モデルの種類　引用： https://qiita.com/GeneLab_999/items/79d8020799c6f9e329dc

モデル用途パラメータ数

CustomVoice 9種類のプリセット音声 + 感情制御 0.6B / 1.7B

VoiceDesign 自然言語で声質を設計 1.7B

Base 3秒ボイスクローン 0.6B / 1.7B

モデル	用途	パラメータ数
CustomVoice	9種類のプリセット音声 + 感情制御	0.6B / 1.7B
VoiceDesign	自然言語で声質を設計	1.7B
Base	3秒ボイスクローン	0.6B / 1.7B

Qwen3-TTSモデル　引用： https://github.com/QwenLM/Qwen3-TTS

トークナイザー名	概要
Qwen3-TTS-Tokenizer-12Hz	Qwen3-TTS-Tokenizer-12Hzモデルで、入力音声をコードに符号化し、再び音声に復号できる。

モデル	特徴	言語サポート	ストリーミング	命令制御
Qwen3-TTS-12Hz-1.7B-VoiceDesign	ユーザーが提供した説明に基づいて音声デザインを行う。	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語	✅	✅
Qwen3-TTS-12Hz-1.7B-CustomVoice	ユーザー指示を通じてターゲット音色のスタイル制御を提供する。性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色に対応している。	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語	✅	✅
Qwen3-TTS-12Hz-1.7B-Base	基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語	✅
Qwen3-TTS-12Hz-0.6B-CustomVoice	性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色をサポートする。	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語	✅
Qwen3-TTS-12Hz-0.6B-Base	基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。	中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語	✅

サポートされたスピーカーリスト　引用： https://github.com/QwenLM/Qwen3-TTS
最高の品質を得るために、各話者の母語を使うことを推奨。各話者はモデルが支持するあらゆる言語を話すことができる。

Speaker	声の説明(Voice Description)	母語(Native language)
Vivian	明るく、少し尖った若い女性の声。 Bright, slightly edgy young female voice.	中国語
Serena	温かく穏やかな若い女性の声。 Warm, gentle young female voice.	中国語
Uncle_Fu	低く穏やかな音色の熟練男性の声。 Seasoned male voice with a low, mellow timbre.	中国語
Dylan	澄んだ自然な音色を持つ若々しい北京の男性の声。 Youthful Beijing male voice with a clear, natural timbre.	中国語(北京方言)
Eric	生き生きとした成都の男性の声で、少しハスキーな明るさが混じっている。 Lively Chengdu male voice with a slightly husky brightness.	中国語(四川方言)
Ryan	ダイナミックな男性の声で、強いリズム感を持っています。 Dynamic male voice with strong rhythmic drive.	英語
Aiden	明るいアメリカン男性の声で、澄んだ中音域。 Sunny American male voice with a clear midrange.	英語
Ono_Anna	軽やかで軽やかな音色の遊び心のある日本語女性の声。 Playful Japanese female voice with a light, nimble timbre.	日本語
Sohee	豊かな感情を持つ温かみのある韓国女性の声。 Warm Korean female voice with rich emotion.	韓国語

↑

音声合成・音声認識のための環境構築†

　Qwen3-TTS は「transformers」パッケージ 4.XX を必要とする。バージョン 5.XX とは互換性がない
　このため transformers $.XX で実行できる別の「ComfyUI_tf4」を用意することを推奨する

　※「transformers」は Ver 5.XX から互換性のない新たな APPI が導入されたようで、エラーで実行不可の拡張ノードが多数ある（『paint-by-example_comfyUI』など）

専用の環境設定をする
・現在使用している ComfuUIパッケージ最新環境のコピーを作成する → 検証済みパッケージ環境の複製
新しい環境 ComfyUI_tf4 に拡張ノードをインストールする
・拡張ノードのインストール『Qwen3-TTL』『Qwen3-ASR』
環境変数を設定する
① Windowsキー + R を同に押す
② 「ファイル名を指定して実行」ウィンドウに sysdm.cpl と入力して OK をクリック
③ 新規に、変数： QWEN3_PROMPT , 値： D:\StabilityMatrix\Data\Packages\ComfyUI_tf4\models\Qwen3-TTS\prompts を追加
「transformers」について
・『Qwen3-ASR』をインストールすると「transformers」は自動的に 4.57.6 にダウングレードされる
・その後、ComfyUI のアップデートを実行すると 5.XX バージョンに更新されてしまうことがある
　変更を避けるため「アップデートチェックを無効にする」を選択しておくことが望ましい
・5.XX に更新されてしまった場合は尾のままでは『Qwen3-TTL』エラーとなるので変更が必要 → Pythonパッケージのバージョン確認・変更

必要なモデルと配置
・ワークフローの実行時に必要なモデルは自動的にダウンロード、以下の場所に配置される

📂ComfyUI_tf4
└─📂models
        ├─📂Qwen3-ASR
                ├─📂Qwen3-ASR-0.6B
                └─📂Qwen3-ASR-1.7B
        :
        └─📂Qwen3-TTS
                ├─📂prompts　　　　　　　　　　　　　← 拡張ノードの作業フォルダ QWEN3_PROMPT
                ├─📂Qwen3-TTS-12Hz-0.6B-Base
                ├─📂Qwen3-TTS-12Hz-0.6B-CustomVoice
                ├─📂Qwen3-TTS-12Hz-1.7B-Base
                ├─📂Qwen3-TTS-12Hz-1.7B-CustomVoice
                └─📂Qwen3-TTS-12Hz-1.7B-VoiceDesign

↑

プロジェクトで作成するワークフロー†

このプロジェクトで作成するワークフローと関連データは下記にアップロードしている（更新されている場合は再度ダウンロードのこと）

ComfyUI_ex_proj.zip をダウンロード（随時更新中）※2026/05/19更新
・解凍してできるフォルダ

📂ComfyUI
  ├─📂input　　　　　　　　　　　　　　← ワークフローに含まれる入力画像
  └─📂user
        └─📂default
              └─📂workflows　　　　　　　　← ワークフローの保存場所
                    ├─📂_audio　　　　　　 ← この章で作成するワークフロー
                    :

・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする

ワークフローの分類

分類	内容	説明
	Text to Speech	テキストから音声合成基本ワークフロー
	Voice clone Text to Speech	参照音声を話し手（Speaker）としてテキストから音声合成
	Voice clone Text to Speech with ASR	参照音声を話し手（Speaker）として発話内容を解析しテキストから音声合成
	Text to Speech with Voise Design	プロンプトで指定した話し手（Speaker）の声でテキストから音声合成
	Automatic Speech Recognition	参照音声から発話内容を解析してテキストとして表示
	Voise Design / Text to Speech	プロンプトで話し手（Speaker）の声を設計 / 設計した話し手（Speaker）の声でテキストから音声合成

ワークフローと動作環境による生成時間（分：秒）　　軽量版推奨ワークフロー　　　軽量 GGUF版推奨ワークフロー　

機能分類	ワークフロー (.json)	機　能	CPU					CPU
機能分類	ワークフロー (.json)	機　能	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
	6001_Qwen3_custom_voice	Text to Speech
	6002_Qwen3_voice_clone	Voice clone Text to Speech
	6003_Qwen3_simple_voice_clone	Voice clone Text to Speech with ASR
	6004_Qwen3_voice_design	Text to Speech with Voise Design
	6005_Qwen3_speech_recog	Automatic Speech Recognition
	6010_Qwen3_voice_design	Voise Design / Text to Speech

↑

Step 1:「テキストから音声合成」基本ワークフロー†

ノード添付のワークフロー「custom_voice.json」を参考に作成

テキストから音声合成　Text to Speech
ワークフロー	プロンプト	生成された音声
6001_Qwen3_custom_voice.json	こんにちは、これはクエンスリー T T L の日本語の発話テストです。

↑

Step 2:「参照音声を話し手（Speaker）としてテキストから音声合成」†

ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成

参照音声を話し手（Speaker）としてテキストから音声合成　Voice clone Text to Speech
ワークフロー	参照音声	入力する参照音声の内容
6002_Qwen3_voice_clone.json		いらっしゃいます。足元にお気をつけてお入りください。お待たせいたしました。お忘れ物のないようお気をつけてお帰りくださいませ。
	プロンプト	生成された音声
	これはテストです。クエン3 T T L を使ったワークフローで日本語を発話します。

↑

Step 3:「参照音声を話し手（Speaker）として発話内容を解析してテキストから音声合成」†

ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成

参照音声を話し手（Speaker）として発話内容を解析しテキストから音声合成　Voice clone Text to Speech with ASR
ワークフロー	参照音声	参照音声の内容
6003_Qwen3_simple_voice_clone.json		自動的に解析して入力
	プロンプト	生成された音声
	これはテストです。音声認識により、サンプル音声の内容を解析する、クエン3 T T L を使ったワークフローで日本語を発話します。

↑

Step 4:「プロンプトで指定した話し手（Speaker）の声でテキストから音声合成」†

ノード添付のワークフロー「voice_design.json」を参考に作成

プロンプトで指定した話し手（Speaker）の声でテキストから音声合成　Text to Speech with Voise Design
ワークフロー	プロンプト	話し手の声のプロンプト
6004_Qwen3_voice_design.json	クエン3 T T L を使ったワークフローをテストしています。今日はテキストツウスピーチの検証をします。	何かを教えるような落ち着いた少し声の低い若い女性の声
	生成された音声

↑

Step 5:「参照音声から発話内容を解析してテキストとして表示（出力）」†

ノード添付のワークフロー「simple_voice_clone-REQUIRES-ASR.json」を参考に作成

参照音声から発話内容を解析してテキストとして表示　Automatic Speech Recognition
ワークフロー	参照音声	解析された発話内容
6005_Qwen3_speech_recog.json		いらっしゃいませ。足元に気をつけてお入りください。お待たせいたしました。お忘れ物のないよう気をつけてお帰りくださいませ。

↑

Step 6:「プロンプトで話し手（Speaker）の声を設計 / 設計した話し手（Speaker）の声でテキストから音声合成」†

ノード添付のワークフロー「voice_design.json」を参考に作成

プロンプトで話し手（Speaker）の声を設計　Voise Design
ワークフロー	プロンプト	話し手の声のプロンプト
6010_Qwen3_voice_design.json	今日はテキストツウスピーチの検証をしてみます。	明るく元気なトーンで話す、30代のアナウンサーの女性。
	生成された音声

設計した話し手（Speaker）の声でテキストから音声合成　Text to Speech
ワークフロー	プロンプト	生成された音声
6010_Qwen3_voice_design.json	明日はイメージツウビデオとビデオツウビデオの検証をしましょう。

↑

番外編：『LTX2.3』と組み合わせて動画生成†

AI で生成した話し手（Speaker）の静止画

プロンプト → ↓ ワークフロー	若い女性がラジオスタジオのマイクの前に座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女の表情は繊細で自然で、視線は柔らかく、自然光が彼女の顔を均一に照らしています。	オフィイスで、正面を見て、胸に'LTX-2.3'のロゴマークの入った白いTシャツを着て明るく熱心に話す表情豊かな女性のミディアムショット、上半身が映り、胸と肩が画面内に収まっている。
2101_z_image_turbo_simple.json
4201_ernie_image_turbo_t2i_simple.json

AI で生成した会話の動画

プロンプト → ↓ ワークフロー	若い女性がラジオスタジオのマイクの前に座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女の唇の動きは自然に同期しています。彼女の表情は繊細で自然で、視線は柔らかく、頭はわずかに動き、テーブルの上では小さな手の動きが見られます。カメラの動きは最小限で、誇張された動きはありません。自然光が彼女の顔を均一に照らしています。	カメラを見て、真ん中に'LTX-2.3'のロゴマークの入った白いTシャツを着て明るく話す表情豊かな女性のミディアムショット、上半身が映り、胸と肩が画面内に収まっている。彼女はほほ笑んで話します。
5411_LTX-2.3_ia2v_distilled_simple.json

↑

忘備録†

↑

品質向上のためのテクニック†

　Qwen3-TTSは、自然言語によるテキストの読み上げだけでなく、instructパラメータを使用して「感情」「トーン」「話し方」を細かく指定できるのが最大の特徴

instruct（指示）の指定
APIや実行コード（Python等）の instruct 引数に、英語または日本語でキャラクターの口調や背景情報を自然言語で記述する

・指定できる要素と具体例

項目	指定内容
一般	「怒って」「明るく」と指定するよりも、多角的な情報を盛り込むとクオリティが上がる
感情・トーン	喜び、悲しみ、怒り、冷静、皮肉、恥ずかしそうに
発話スタイル	ニュースキャスターのように、アニメ声で、おっとりと、早口で
キャラクター・背景	「50歳の疲れた父親」「少し高圧的な上司」「親しみやすい友人」など

・instruct 指定の記述例

項目	指定内容
指定例 1 (ニュース風)	Read this like a news anchor, speaking calmly and intellectually.
指定例 2 (感情とキャラクター設定)	ニュースキャスターのように知的で正確な発音だが、少し親しみやすさを込めて。
指定例 3 (口調の制御)	怒った口調で、少し早口に、相手を非難するように。

・さらに品質を高めるテクニック

項目	指定内容
読点の活用	句読点の位置をAIが深く理解するため、意図的に「読点（、）」を増やすと自然な「ため」や息継ぎを表現できる
プロンプトの調整	クローン元の音声（Voice Design / ICL）や speaker の指定と合わせて instruct を調整する

・参考 URL
　Qwen3-TTS に自分の声でしゃべらせる
　Qwen3-TTS：論文を読んで実験してわかった日本語調教術

Voice Design（声のデザイン）プロンプト
参照音声を使わず、テキストプロンプトだけで理想の声や話し方を生成できる。
性別、年齢、トーン、感情などを自然言語で詳細に記述することで、モデルがそのキャラクター像を再現する。
・Voice Design プロンプトの構成要素

項目	指定内容
基本属性	性別（女性、男性）、年齢（16歳、30代など）
音域・音質	高音、低音、ハスキー、透き通った声、震える声など
感情・トーン	落ち着いた、活発な、高揚した、切迫した、優しげななど
キャラクター背景	「内気なアニメの少女」「落ち着いた中年男性」「少し威圧的な上司」のように設定を付与すると精度が上がる。

・プロンプト例（日本語・英語対応）

項目	指定内容
可愛いアニメ風の少女	A young girl with a cute, high-pitched voice, speaking in a cheerful and energetic tone. （明るく元気なトーンで話す、可愛らしい高音の若い女の子）
落ち着いた低音の男性	落ち着いた低い声の中年男性。ゆっくりと穏やかに話すトーン。
切迫感・感情を込めた声	高揚した女性の声で、切迫感を出すために少し叫ぶようなトーン。
厳格な上司のキャラクター	A strict male boss in his 40s, with a deep, commanding, and calm voice. （深く、威厳があり、落ち着いた声の40代の厳格な男性上司）

・実践時のヒント

項目	指定内容
モデルの選択	Voice Design には 1.7B モデルが必要（初回に約3GBのモデルダウンロードが発生する）。
英語プロンプトの活用	Qwen3-TTS は多言語対応だが、英語でより細かなニュアンス（pitch, tone, emotion）を指定するほうがプロンプトへの忠実度が高くなる傾向がある。

・参考 URL
　Qwen3-TTS Sample

↑

検証済みパッケージ環境の複製†

　ComfyUI で動作確認済みのパッケージを今の環境のまま別の名前で複製する手順。
　新しいパッケージのテストやバックアップとして利用できるほか、バージョンの異なる環境を必須とする拡張ノードなどを安定して利用できる

パッケージをコピーする（例： ComfyUI_gpu → ComfyUI_tf4 ）

① コピー元のパッケージ右上のメニューボタンを押す
③「共有フォルダ」のチェックを外す

・StabilityMatrix を終了する
④ エクスプローラなどで「ComfyUI_gpu」を複製（コピー）して名前を「ComfyUI_tf4」とする
コピーしたパッケージを設定する
・StabilityMatrix を起動する

⑤「不明なパッケージ」として認識される
⑥「インポート」ボタンを押す
⑦ ダイアログでパッケージタイプを「ComfyUI」Version Type をコピー元と同じにする
・右端のVersion と Python Version は適切なものが表示されるのでそのままでよい
・ダイアログ上の「インポート」ボタンを押す

⑧ 新しいパッケージ右上のメニューボタンを押す
⑩「アップデートチェックを無効にする」「共有フォルダ」のチェックを入れる
・「Pythonパッケージ」を押す

⑪ 検索窓に「 transform 」と入れ transformer のバージョンを確認しておく

⑫「設定」(歯車のアイコン) ボタンを押す
⑬「Auto-Launch」のチェックを外し「Enable-Manager」のチェックを入れる
⑭「保存」を押す
新しいパッケージを起動する

① 画面上部の「Manager」ボタンを押す
②「Custom Node Manager」を選択する

③「Check Update」を押して拡張ノードのアップデートを確認する
④ アップデートがある場合は「Update All」を実行する
新しいパッケージを更新する

⑤ 更新には時間がかかるコンソール出力に以下の表示が出るまで待つ
・「After restarting ComfyUI, please refresh the browser」
⑥ へ往時を確認後「RESTART」ボタンを押す

⑦ ブラウザとの接続が切れコンソール出力に更新状況が逐次表示される
・コンソール左上緑の「Launch」ボタンは絶対押さないこと
⑧ 更新が完了するとブラウザ上に新しいページが追加される
⑨ 追加されたページを閉じる
・前記の手順で「Custom Node Manager」で拡張ノードの確認をする

⑩「Check Updete」を押して拡張ノードの表示がなくなれば更新完了
ブラウザのページを閉じ「StabilityMatrix」を終了する（重要）

↑

拡張ノードのインストール『Qwen3-TTL』『Qwen3-ASR』†

拡張ノード『Qwen3-TTL』をインストールする
・「Custom Node Manager」を開く

① 検索窓に「 Qwen3-TTS 」と入力
② いくつか候補が出るので「Author」項目の「Dario Fernandez Torre」を探す
③「Install」ボタンを押す

④ 最も新しいバージョンを選択して「Select」ボタンを押す

⑤「Restart」ボタンを押す
・再起動が完了して表示された新しいページを閉じ、もう一度「Custom Node Manager」で検索する

⑥ 拡張ノードがインストールされていることを確認する
拡張ノード『Qwen3-ASR』をインストールする
・「Custom Node Manager」を開く

・前記と同じ手順で、検索窓に「 ComfyUI-Qwen3-ASR 」と入力
・いくつか候補が出るので「Author」項目の「Dario Fernandez Torre」を探す
⑦「Install」ボタンを押す
・最も新しいバージョンを選択して「Select」ボタンを押す
・「Restart」ボタンを押す
・再起動が完了して表示された新しいページを閉じ、もう一度「Custom Node Manager」で検索する

⑩ 拡張ノードがインストールされていることを確認する
ブラウザのページを閉じ「StabilityMatrix」を終了する（重要）

↑

Pythonパッケージのバージョン確認・変更†

　StabilityMatrix 環境では安全に Pythonパッケージの導入・更新・削除ができる手段が用意されている
　この機能を使うことで実行時の仮想環境内の ythonパッケージの管理を容易に行うとができる

「transformas」バージョン確認

①「StabilityMatrix」上で該当パッケージの右上のメニューボタンを押す
② 検索窓に「 transform 」を入力する

・現在インストールされているバージョンが表示される
「transformas」バージョン変更

③「＋」ボタンを押す
④ 表示された入力欄の pip install の後に「 transformers==4.57.6 」と入力
⑤「OK」ボタンを押す

・指定のバージョンがインストールできる