私的AI研究会 > ComfyUI9d
「ComfyUI」を使ってローカル環境でのAI音楽生成を検証する
| 「Qwen3-TTS」を使って音声合成・音声認識を試す |
| 特徴 | 詳細 |
| 3秒でボイスクローン | わずか3秒の参照音声で声質を再現 |
| 10言語対応 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 |
| 97msの超低遅延 | リアルタイム対話に対応可能なストリーミング生成 |
| 感情・抑揚制御 | 自然言語での指示で感情表現をコントロール |
| モデル | 用途 | パラメータ数 |
| CustomVoice | 9種類のプリセット音声 + 感情制御 | 0.6B / 1.7B |
| VoiceDesign | 自然言語で声質を設計 | 1.7B |
| Base | 3秒ボイスクローン | 0.6B / 1.7B |
| トークナイザー名 | 概要 |
| Qwen3-TTS-Tokenizer-12Hz | Qwen3-TTS-Tokenizer-12Hzモデルで、入力音声をコードに符号化し、再び音声に復号できる。 |
| モデル | 特徴 | 言語サポート | ストリーミング | 命令制御 |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | ユーザーが提供した説明に基づいて音声デザインを行う。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | ユーザー指示を通じてターゲット音色のスタイル制御を提供する。性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色に対応している。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | 性別、年齢、言語、方言のさまざまな組み合わせをカバーする9種類のプレミアム音色をサポートする。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ | |
| Qwen3-TTS-12Hz-0.6B-Base | 基本モデルはユーザーの音声入力から3秒間の高速音声クローンが可能。他のモデルのファインチューニング(FT)にも使用できる。 | 中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語 | ✅ |
| Speaker | 声の説明(Voice Description) | 母語(Native language) |
| Vivian | 明るく、少し尖った若い女性の声。 Bright, slightly edgy young female voice. | 中国語 |
| Serena | 温かく穏やかな若い女性の声。 Warm, gentle young female voice. | 中国語 |
| Uncle_Fu | 低く穏やかな音色の熟練男性の声。 Seasoned male voice with a low, mellow timbre. | 中国語 |
| Dylan | 澄んだ自然な音色を持つ若々しい北京の男性の声。 Youthful Beijing male voice with a clear, natural timbre. | 中国語(北京方言) |
| Eric | 生き生きとした成都の男性の声で、少しハスキーな明るさが混じっている。 Lively Chengdu male voice with a slightly husky brightness. | 中国語(四川方言) |
| Ryan | ダイナミックな男性の声で、強いリズム感を持っています。 Dynamic male voice with strong rhythmic drive. | 英語 |
| Aiden | 明るいアメリカン男性の声で、澄んだ中音域。 Sunny American male voice with a clear midrange. | 英語 |
| Ono_Anna | 軽やかで軽やかな音色の遊び心のある日本語女性の声。 Playful Japanese female voice with a light, nimble timbre. | 日本語 |
| Sohee | 豊かな感情を持つ温かみのある韓国女性の声。 Warm Korean female voice with rich emotion. | 韓国語 |
| Qwen3-TTS は「transformers」パッケージ 4.XX を必要とする。バージョン 5.XX とは互換性がない このため transformers $.XX で実行できる別の「ComfyUI_tf4」を用意することを推奨する |
※「transformers」は Ver 5.XX から互換性のない新たな APPI が導入されたようで、エラーで実行不可の拡張ノードが多数ある(『paint-by-example_comfyUI』など)
📂ComfyUI_tf4 └─📂models ├─📂Qwen3-ASR ├─📂Qwen3-ASR-0.6B └─📂Qwen3-ASR-1.7B : └─📂Qwen3-TTS ├─📂prompts ← 拡張ノードの作業フォルダ QWEN3_PROMPT ├─📂Qwen3-TTS-12Hz-0.6B-Base ├─📂Qwen3-TTS-12Hz-0.6B-CustomVoice ├─📂Qwen3-TTS-12Hz-1.7B-Base ├─📂Qwen3-TTS-12Hz-1.7B-CustomVoice └─📂Qwen3-TTS-12Hz-1.7B-VoiceDesign
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 ├─📂_audio ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| 分類 | 内容 | 説明 |
| 6001_Qwen3_custom_voice |
| 機能 分類 | ワークフロー (.json) | 機 能 | モデル | CPU | CPU | |||||
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 | ||||
| 6001_Qwen3_custom_voice | ||||||||||
| 6002_Qwen3_voice_clone | ||||||||||
| 6003_Qwen3_simple_voice_clone | ||||||||||
| 6004_Qwen3_voice_design | ||||||||||
| 6005_Qwen3_speech_recog | ||||||||||
| 6010_Qwen3_voice_design | ||||||||||
| Qwen3-TTSは、自然言語によるテキストの読み上げだけでなく、instructパラメータを使用して「感情」「トーン」「話し方」を細かく指定できるのが最大の特徴 |
| 項目 | 指定内容 |
| 一般 | 「怒って」「明るく」と指定するよりも、多角的な情報を盛り込むとクオリティが上がる |
| 感情・トーン | 喜び、悲しみ、怒り、冷静、皮肉、恥ずかしそうに |
| 発話スタイル | ニュースキャスターのように、アニメ声で、おっとりと、早口で |
| キャラクター・背景 | 「50歳の疲れた父親」「少し高圧的な上司」「親しみやすい友人」など |
| 項目 | 指定内容 |
| 指定例 1 (ニュース風) | Read this like a news anchor, speaking calmly and intellectually. |
| 指定例 2 (感情とキャラクター設定) | ニュースキャスターのように知的で正確な発音だが、少し親しみやすさを込めて。 |
| 指定例 3 (口調の制御) | 怒った口調で、少し早口に、相手を非難するように。 |
| 項目 | 指定内容 |
| 読点の活用 | 句読点の位置をAIが深く理解するため、意図的に「読点(、)」を増やすと自然な「ため」や息継ぎを表現できる |
| プロンプトの調整 | クローン元の音声(Voice Design / ICL)や speaker の指定と合わせて instruct を調整する |
| ComfyUI で動作確認済みのパッケージを今の環境のまま別の名前で複製する手順。 新しいパッケージのテストやバックアップとして利用できるほか、バージョンの異なる環境を必須とする拡張ノードなどを安定して利用できる |
| StabilityMatrix 環境では安全に Pythonパッケージの導入・更新・削除ができる手段が用意されている この機能を使うことで実行時の仮想環境内の ythonパッケージの管理を容易に行うとができる |