私的AI研究会 > ComfyUI9d
「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する
| 「Qwen3-TTS」を使って音声合成・音声認識を試す |
| 特徴 | 詳細 |
| 3秒でボイスクローン | わずか3秒の参照音声で声質を再現 |
| 10言語対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |
| 97msの超低遅延 | リアルタイム対話に対応可能なストリーミング生成 |
| 感情・抑揚制御 | 自然言語での指示で感情表現をコントロール |
| モデル | 用途 | パラメータ数 |
| CustomVoice | 9種類のプリセット音声 + 感情制御 | 0.6B / 1.7B |
| VoiceDesign | 自然言語で声質を設計 | 1.7B |
| Base | 3秒ボイスクローン | 0.6B / 1.7B |
| トークナイザー名 | 概要 |
| Qwen3-TTS-Tokenizer-12Hz | Qwen3-TTS-Tokenizer-12Hzモデルで、入力音声をコードに符号化し、再び音声に復号できる。 |
| モデル | 特徴 | 言語サポート | ストリーミング | 命令制御 |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | ユーザーが提供した説明に基づいて音声デザインを行う。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | ユーザー指示を通じてターゲット音色のスタイル制御を提供する。性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色に対応している。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | 性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色をサポートする。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ |
| Speaker | 声の説明(Voice Description) | 母語(Native language) |
| Vivian | 明るく、少し尖った若い女性の声。 Bright, slightly edgy young female voice. | 中国語 |
| Serena | 温かく穏やかな若い女性の声。 Warm, gentle young female voice. | 中国語 |
| Uncle_Fu | 低く穏やかな音色の熟練男性の声。 Seasoned male voice with a low, mellow timbre. | 中国語 |
| Dylan | 澄んだ自然な音色を持つ若々しい北京の男性の声。 Youthful Beijing male voice with a clear, natural timbre. | 中国語(北京方言) |
| Eric | 生き生きとした成都の男性の声で、少しハスキーな明るさが混じっている。 Lively Chengdu male voice with a slightly husky brightness. | 中国語(四川方言) |
| Ryan | ダイナミックな男性の声で、強いリズム感を持っています。 Dynamic male voice with strong rhythmic drive. | 英語 |
| Aiden | 明るいアメリカン男性の声で、澄んだ中音域。 Sunny American male voice with a clear midrange. | 英語 |
| Ono_Anna | 軽やかで軽やかな音色の遊び心のある日本語女性の声。 Playful Japanese female voice with a light, nimble timbre. | 日本語 |
| Sohee | 豊かな感情を持つ温かみのある韓国女性の声。 Warm Korean female voice with rich emotion. | 韓国語 |
| Qwen3-TTS は「transformers」パッケージ 4.XX を必要とする。バージョン 5.XX とは互換性がない このため transformers $.XX で実行できる別の「ComfyUI_tf4」を用意することを推奨する |
※「transformers」は Ver 5.XX から互換性のない新たな APPI が導入されたようで、エラーで実行不可の拡張ノードが多数ある(『paint-by-example_comfyUI』など)
📂ComfyUI_tf4 └─📂models ├─📂Qwen3-ASR ├─📂Qwen3-ASR-0.6B └─📂Qwen3-ASR-1.7B : └─📂Qwen3-TTS ├─📂prompts ← 拡張ノードの作業フォルダ QWEN3_PROMPT ├─📂Qwen3-TTS-12Hz-0.6B-Base ├─📂Qwen3-TTS-12Hz-0.6B-CustomVoice ├─📂Qwen3-TTS-12Hz-1.7B-Base ├─📂Qwen3-TTS-12Hz-1.7B-CustomVoice └─📂Qwen3-TTS-12Hz-1.7B-VoiceDesign
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 ├─📂_audio ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| ComfyUI で動作確認済みのパッケージを今の環境のまま別の名前で複製する手順。 新しいパッケージのテストやバックアップとして利用できるほか、バージョンの異なる環境を必須とする拡張ノードなどを安定して利用できる |