私的AI研究会 > ComfyUI9d
「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する
| 「Qwen3-TTS」を使って音声合成・音声認識を試す |
| 特徴 | 詳細 |
| 3秒でボイスクローン | わずか3秒の参照音声で声質を再現 |
| 10言語対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |
| 97msの超低遅延 | リアルタイム対話に対応可能なストリーミング生成 |
| 感情・抑揚制御 | 自然言語での指示で感情表現をコントロール |
| モデル | 用途 | パラメータ数 |
| CustomVoice | 9種類のプリセット音声 + 感情制御 | 0.6B / 1.7B |
| VoiceDesign | 自然言語で声質を設計 | 1.7B |
| Base | 3秒ボイスクローン | 0.6B / 1.7B |
| トークナイザー名 | 概要 |
| Qwen3-TTS-Tokenizer-12Hz | Qwen3-TTS-Tokenizer-12Hzモデルで、入力音声をコードに符号化し、再び音声に復号できる。 |
| モデル | 特徴 | 言語サポート | ストリーミング | 命令制御 |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | ユーザーが提供した説明に基づいて音声デザインを行う。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | ユーザー指示を通じてターゲット音色のスタイル制御を提供する。性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色に対応している。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | 性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色をサポートする。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ |
| Speaker | 声の説明(Voice Description) | 母語(Native language) |
| Vivian | 明るく、少し尖った若い女性の声。 Bright, slightly edgy young female voice. | 中国語 |
| Serena | 温かく穏やかな若い女性の声。 Warm, gentle young female voice. | 中国語 |
| Uncle_Fu | 低く穏やかな音色の熟練男性の声。 Seasoned male voice with a low, mellow timbre. | 中国語 |
| Dylan | 澄んだ自然な音色を持つ若々しい北京の男性の声。 Youthful Beijing male voice with a clear, natural timbre. | 中国語(北京方言) |
| Eric | 生き生きとした成都の男性の声で、少しハスキーな明るさが混じっている。 Lively Chengdu male voice with a slightly husky brightness. | 中国語(四川方言) |
| Ryan | ダイナミックな男性の声で、強いリズム感を持っています。 Dynamic male voice with strong rhythmic drive. | 英語 |
| Aiden | 明るいアメリカン男性の声で、澄んだ中音域。 Sunny American male voice with a clear midrange. | 英語 |
| Ono_Anna | 軽やかで軽やかな音色の遊び心のある日本語女性の声。 Playful Japanese female voice with a light, nimble timbre. | 日本語 |
| Sohee | 豊かな感情を持つ温かみのある韓国女性の声。 Warm Korean female voice with rich emotion. | 韓国語 |
| Qwen3-TTS は「transformers」パッケージ 4.XX を必要とする。バージョン 5.XX とは互換性がない このため transformers $.XX で実行できる別の「ComfyUI_tf4」を用意することを推奨する |
※「transformers」は Ver 5.XX から互換性のない新たな APPI が導入されたようで、エラーで実行不可の拡張ノードが多数ある(『paint-by-example_comfyUI』など)
📂ComfyUI_tf4 └─📂models ├─📂Qwen3-ASR ├─📂Qwen3-ASR-0.6B └─📂Qwen3-ASR-1.7B : └─📂Qwen3-TTS ├─📂prompts ← 拡張ノードの作業フォルダ QWEN3_PROMPT ├─📂Qwen3-TTS-12Hz-0.6B-Base ├─📂Qwen3-TTS-12Hz-0.6B-CustomVoice ├─📂Qwen3-TTS-12Hz-1.7B-Base ├─📂Qwen3-TTS-12Hz-1.7B-CustomVoice └─📂Qwen3-TTS-12Hz-1.7B-VoiceDesign
📂ComfyUI_tf4 └─📂custom_nodes ├─📂comfyui-qwen3-tts ├─📂example_workflows ← サンプル・フォルダ ├─custom_voice.json ├─finetuning.json ├─Qwen3-TTS-Finetune-and-Benchmark.json ├─simple_voice_clone-REQUIRES-ASR.json └─voice_design.json
| ワークフロー | 機能 | 種別 |
| custom_voice.json | speakerを指定して、text2speech | 推論 |
| finetuning.json | ファインチューニング用ワークフロー | 学習 |
| Qwen3-TTS-Finetune-and-Benchmark.json | 運用を想定したファインチューニング用ワークフロー | 学習 |
| simple_voice_clone-REQUIRES-ASR.json | 参照音声をspeakerとして、text2speech | 推論 |
| voice_design.json | プロンプトで設計したspeakerで、text2speech | 推論 |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 ├─📂_audio ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| 機能 分類 | ワークフロー (.json) | 機 能 | CPU | CPU | |||||
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 | |||
| 6001_Qwen3_custom_voice | Text to Speech | 00:12.23 | 00:22.25 | 00:47.40※ | |||||
| 6002_Qwen3_voice_clone | Voice clone Text to Speech | 00:31.24 | 00:30.23 | 02:22.80 | |||||
| 6003_Qwen3_simple_voice_clone | Voice clone Text to Speech with ASR | 01:18.47 | 01:57.77 | 03:29.41※ | |||||
| 6004_Qwen3_voice_design | Text to Speech with Voise Design | 00:37.40 | 00:37.43 | 01:56.58 | |||||
| 6005_Qwen3_speech_recog | Automatic Speech Recognition | 00:09.42 | 01:49.57 | 00:07.47 | |||||
| 6010_Qwen3_voice_design | Voise Design / Text to Speech | 00:25.74 | 01:02.34 | 01:00.51 | |||||
| 00:19.74 | 00:28.91 | 00:38.02 | |||||||
| パラメータ | 設定値 | 内容 |
| speaker | Ono_anna | 組み込み日本語ネイティブ話者(Speaker) |
| language | Auto | 発話する言語 |
| text | 任意のテキスト | 発話する日本語テキスト |
| instruct | 指定なし | 英語または日本語でキャラクターの口調や感情表現・背景情報を自然言語で記述 |
| テキストから音声合成 Text to Speech | ||
| ワークフロー | プロンプト | 生成された音声 |
![]() 6001_Qwen3_custom_voice.json | こんにちは、これはクエン スリー T T L の日本語の発話テストです。 | |
| サンプル・データ | 生成した音声を LTX-3 で動画生成 |
| プロンプト: クエン スリー T T L とは アリババクラウドのクエンチームが開発した 高性能なオープンソース音声合成モデルです。テキストを人間のように自然な音声へ変換するだけでなく、わずか数秒の音声サンプルからその人の声質や話し方を再現するボイスクローン機能を備えています。 | |
| ワークフロー: 音声合成 → 6001_Qwen3_custom_voice.json 動画生成 → 5411_LTX-2.3_ia2v_distilled_simple.json |
| ・話し手(speaker)の好きな声をテキストで指示することができる ・指示は日本語で可能(ただし、英語の方が安定するとされている) ・シード値を変更すると同じ指示でも声が変わる |
| 参照音声から発話内容を解析して テキストとして表示 Automatic Speech Recognition | ||
| ワークフロー | 参照音声 | 解析された発話内容 |
![]() 6005_Qwen3_speech_recog.json | いらっしゃいませ。足元に気をつけてお入りください。お待たせいたしました。お忘れ物のないよう気をつけてお帰りくださいませ。 | |
| ・左側のワークフローで、話し手(speaker)のプロンプトを設計 ・右側のワークフローでそのプロンプトを使うことで、設計した speaker で text2speech する ・上段中央のノードで左右の有効・無効状態を切り替えて使用する |
| 項目 | 内容 |
| 1 回あたりの生成文字数 | 最大2048文字。これ以上の長文を入力すると、途中で音声が途切れたり、処理がハングアップする原因になる。 |
| 長文生成時のベストプラクティス | 情報を詰め込みすぎず、短く区切る(数文ずつ処理する)ことで、高品質かつ安定した音声出力が得られる。 |
| ボイスクローン時の参照音声 (リファレンス) | 話者の声を複製(クローン)する際の参照音声は約 3秒(長くても十数秒)を推奨。 参照時間が長すぎるとループエラーを引き起こす可能性がある。 |
| モデルサイズ | 用途に合わせて、ストリーミングや速度重視の『0.6B(6億パラメータ)』と、品質重視の『1.7B(17億パラメータ)』の2サイズが提供されてる |
| Qwen3-TTSは、自然言語によるテキストの読み上げだけでなく、instructパラメータを使用して「感情」「トーン」「話し方」を細かく指定できるのが最大の特徴 |
| 項目 | 指定内容 |
| 一般 | 「怒って」「明るく」と指定するよりも、多角的な情報を盛り込むとクオリティが上がる |
| 感情・トーン | 喜び、悲しみ、怒り、冷静、皮肉、恥ずかしそうに |
| 発話スタイル | ニュースキャスターのように、アニメ声で、おっとりと、早口で |
| キャラクター・背景 | 「50歳の疲れた父親」「少し高圧的な上司」「親しみやすい友人」など |
| 項目 | 指定内容 |
| 指定例 1 (ニュース風) | Read this like a news anchor, speaking calmly and intellectually. |
| 指定例 2 (感情とキャラクター設定) | ニュースキャスターのように知的で正確な発音だが、少し親しみやすさを込めて。 |
| 指定例 3 (口調の制御) | 怒った口調で、少し早口に、相手を非難するように。 |
| 項目 | 指定内容 |
| 読点の活用 | 句読点の位置をAIが深く理解するため、意図的に「読点(、)」を増やすと自然な「ため」や息継ぎを表現できる |
| プロンプトの調整 | クローン元の音声(Voice Design / ICL)や speaker の指定と合わせて instruct を調整する |
| 項目 | 指定内容 |
| 基本属性 | 性別(女性、男性)、年齢(16歳、30代など) |
| 音域・音質 | 高音、低音、ハスキー、透き通った声、震える声など |
| 感情・トーン | 落ち着いた、活発な、高揚した、切迫した、優しげななど |
| キャラクター背景 | 「内気なアニメの少女」「落ち着いた中年男性」「少し威圧的な上司」のように設定を付与すると精度が上がる。 |
| 項目 | 指定内容 |
| 可愛いアニメ風の少女 | A young girl with a cute, high-pitched voice, speaking in a cheerful and energetic tone. (明るく元気なトーンで話す、可愛らしい高音の若い女の子) |
| 落ち着いた低音の男性 | 落ち着いた低い声の中年男性。ゆっくりと穏やかに話すトーン。 |
| 切迫感・感情を込めた声 | 高揚した女性の声で、切迫感を出すために少し叫ぶようなトーン。 |
| 厳格な上司のキャラクター | A strict male boss in his 40s, with a deep, commanding, and calm voice. (深く、威厳があり、落ち着いた声の40代の厳格な男性上司) |
| 項目 | 指定内容 |
| モデルの選択 | Voice Design には 1.7B モデルが必要(初回に約3GBのモデルダウンロードが発生する)。 |
| 英語プロンプトの活用 | Qwen3-TTS は多言語対応だが、英語でより細かなニュアンス(pitch, tone, emotion)を指定するほうがプロンプトへの忠実度が高くなる傾向がある。 |
| ComfyUI で動作確認済みのパッケージを今の環境のまま別の名前で複製する手順。 新しいパッケージのテストやバックアップとして利用できるほか、バージョンの異なる環境を必須とする拡張ノードなどを安定して利用できる |
| StabilityMatrix 環境では安全に Pythonパッケージの導入・更新・削除ができる手段が用意されている この機能を使うことで実行時の仮想環境内の ythonパッケージの管理を容易に行うとができる |