私的AI研究会 > ComfyUI10
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 今話題の最新モデル『Z-Image-Turbo』『Z-Image-base』『FLUX.1』『SDXL』『FLUX.2』を検証する |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 : ├─📂etc └─📂z_imzge ← この章で作成するワークフロー・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| ワークフロー | 機 能 | CPU | CPU | |||||
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 | ||
| 1111_sdxl_t2i_base.json | SDXLモデル T2I基本ワークフロー | 00:36.48 | 00:50.17 | 00:44.20 | 02:36.31 | 03:29.06 | 26:12.80 | 21:03.79 |
| image_z_image_turbo.json | 標準テンプレートによる生成 | 00:05.62 | 00:13.96 | 00:21.22 | 00:26.36 | 03:15.97 | 17:20.62 | 17:06.47 |
| 2101_z_image_turbo_simple.json | Z-Image-Turbo 基本ワークフロー | 00:07.46 | 00:18.99 | 00:27.22 | 00:39.74 | 05:05.45 | 34:09.71 | 27:47.87 |
| 2102_z_image_turbo_controlnet.json | Z-Image-Turbo コントロールネット | 00:07.22 | 00:21.02 | 00:29.68 | 00:43.61 | 05:38.72 | 41:15.66 | 31:09.73 |
| image_z_image_base.json | 標準テンプレートによる生成 | 00:44.88 | 01:51.22 | 01:58.97 | 03:06.63 | 32:52.39 | 201:29.30 | 139:19.53 |
| 2111_z_image_base_simple.json | Z-Image-Base 基本ワークフロー | 00:48.62 | 01:28.12 | 02:32.88 | 04:10.93 | 22:57.94 | 283:57.25 | 199:24.86 |
| 3111_flux1_schnell_simple.json | FLUX.1 モデル 基本ワークフロー | 00:21.34 | 01:23.28 | 01:19.99 | 05:37.47 | 04:07.18 | 32:22.73 | × |
| 3121_flux2_klein_distilled.json | FLUX.2モデル 基本(蒸留版) | 00:12.28 | 01:01.89 | 02:03.69 | ||||
| 3122_flux2_klein_base.json | FLUX.2モデル 基本(base版) | 00:30.16 | 01:46.46 | 18:14.99 | ||||
| 高速かつ高品質な画像を生成することができると評価の高い最新の画像生成AIモデル『Z-Image-Turbo』を検証する |
| 項目 | 仕様 |
| 必要VRAM | 16GB未満(<16GB VRAM)で動作 |
| 推奨解像度 | 1024×1024(学習時の標準解像度) |
| 対応解像度範囲 | 512×512〜2048×2048まで生成可能 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| Z-Image-Turbo本体 diffusion_models | z_image_turbo_nvfp4 | /StabilityMatrix/Data/ Models/ | diffusion_models/ | https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/diffusion_models |
| z_image_turbo_bf16 | ||||
| テキストエンコーダー text_encoders | qwen_3_4b_fp4_mixed | text_encoders/ | https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/text_encoders | |
| qwen_3_4b_fp8_mixed | ||||
| qwen_3_4b | ||||
| vae | ae | VAE/ | https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/vae | |
| ControlNet | Z-Image-Turbo-Fun-Controlnet-Union | /StabilityMatrix/Data/ Packages/ComfyUI/models/ | model_patches/ | https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union/tree/main |

| プロンプト |
|
Close-up portrait of a young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face. |
| 20代の若い女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。 85mmレンズ、f/1.4、浅い被写界深度、背景のボケ。 左から差し込む柔らかな窓の光、ゴールデンアワーの輝き、温かみのある肌色。 映画のような、リアルな、細部までこだわった、プロフェッショナルな写真。 注意点:彩度過度、アニメ調、低解像度、歪んだ顔。 |
| ワークフロー:「z_image/」 | |
![]() |
| プロンプト |
|
A luxury-style bilingual (Japanease + English) poster advertisement for a minimalist wireless earphone. Show the product on a matte black surface with premium studio lighting, soft highlights on metal edges, deep controlled shadows, and flawless color accuracy. Textures should appear refined and tactile, with micro-detail clarity and a high-end commercial finish. Design the poster in an elegant, high-fashion aesthetic: generous negative space, balanced composition, and minimal visual noise. Use a sophisticated monochrome palette with subtle gold or silver accents to emphasize the premium feel. Include a minimal English headline: “Pure Sound. Perfect Silence.” Add the Japanease counterpart in refined typography: “純粋な音 · 静寂の極み”. Place a small bilingual tagline beneath: “Wireless Crafted Quality · 職人技が宿る仕上り”. Ensure the text integrates naturally with the design without distracting from the product. Background should be a smooth gradient charcoal black with a luxury ambiance. Use centered composition, vertical 3:4 aspect ratio, no logo, no watermark. |
| ミニマルなワイヤレスイヤホンの、高級感あふれるバイリンガル(日本語+英語)ポスター広告です。 マットブラックの表面に、プレミアムスタジオ照明、金属エッジの柔らかなハイライト、深くコントロールされた陰影、そして完璧な色彩精度で製品を映し出します。 テクスチャは洗練され、触感があり、微細なディテールまで鮮明で、高級感のある商業的な仕上がりを実現します。 ポスターは、エレガントでハイファッションな美学に基づき、十分なネガティブスペース、バランスの取れた構成、そして最小限の視覚的ノイズでデザインします。 洗練されたモノクロパレットに、さりげないゴールドまたはシルバーのアクセントを加え、高級感を強調します。 簡潔な英語の見出し「Pure Sound. Perfect Silence.」を記載します。 洗練されたタイポグラフィで日本語の見出し「純粋な音・静寂の極み」を追加します。 その下に、小さなバイリンガルのタグライン「Wireless Crafted Quality・職人技が宿る仕上り」を配置します。 テキストは、製品から気を散らすことなく、デザインに自然に溶け込むようにしてください。 背景は、高級感のある滑らかなグラデーションのチャコールブラックにしてください。 中央配置、縦長の3:4アスペクト比、ロゴや透かしは使用しないでください |
| ワークフロー:「z_image/」 | |
![]() |
| ワークフロー:「z_image/」 | 入力画像 | プロンプト |
![]() | ![]() |
Close-up portrait of a young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face. |
| ワークフロー:「z_image/」 | 改良点 |
![]() | ・それぞれの「ControlNet」ノード出力を切り替えることで、ワークフローを接続し直す必要がないようにした → ノードをスイッチで切り替える「rgthree-comfy」 ・「Fast Muter」ノードの該当項目をクリックすることで「ControlNet」の各機能を実行することができる |
| 基本モデル『Z-Image-base』を検証する |
| 特徴 | Z-Image-Base | Z-Image-Turbo |
| サンプリングステップ | 30-50ステップ | 8ステップ |
| 生成速度 | 遅い | 非常に速い |
| 視覚的ディテール | より豊か | 優秀 |
| 芸術的上限 | より高い | 高い |
| 生成多様性 | より強い | 良好 |
| ファインチューニング適性 | 優秀 | 普通 |
| ネガティブプロンプト応答 | 高応答性 | 良好な応答性 |
| 使用ケース | プロフェッショナル創作、ファインチューニング開発 | 迅速なプロトタイピング、日常創作 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| Z-Image-Base本体 diffusion_models | z_image_bf16 | /StabilityMatrix/Data/ Models/ | diffusion_models/ | https://huggingface.co/Comfy-Org/z_image/tree/main/split_files/diffusion_models |
| text_encoders | ※ z_image_turbo と同じ | text_encoders/ | ||
| vae | VAE/ | |||

| プロンプト |
|
Close-up portrait of a Japanease young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face. |
| 20代の日本の若い女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。 85mmレンズ、f/1.4、浅い被写界深度、背景のボケ。 左から差し込む柔らかな窓の光、ゴールデンアワーの輝き、温かみのある肌色。 映画のような、リアルな、細部までこだわった、プロフェッショナルな写真。 注意点:彩度過度、アニメ調、低解像度、歪んだ顔。 |
| ワークフロー:「z_image/」 | |
![]() |
| 『FLUX.1』の計量モデル「schnell(シュネル)」を検証する |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| FLUX.1「schnell」 | flux1-schnell-fp8 | /StabilityMatrix/Data/ Models/ | diffusion_models/ | https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors |
| text_encoders | t5xxl_fp8_e4m3fn | text_encoders/ | https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main | |
| vae | ae | VAE/ | https://huggingface.co/lovis93/testllm/blob/ed9cf1af7465cebca4649157f118e331cf2a084f/ae.safetensors | |
| プロンプト |
| a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it |
| モダンなキッチンの真ん中にある木製のテーブルの上に、美しい虹の銀河が描かれたボトルがあり、その横には野菜とキノコの皿と地球が描かれたワイングラスがあり、その上には食べかけのアップルパイが乗った皿がある。 |
| ワークフロー:「FLUX/」 | |
![]() |
| 『SDXL』を新しいモデルで検証する |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| SDXL model | realvisxlV50_v50LightningBakedvae | /StabilityMatrix/Data/ Models/ | diffusion_models/ | https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors |
| LoRA | add-detail-xl | Lora/ | https://civitai.com/models/122359/detail-tweaker-xl | |
| プロンプト |
| beautiful scenery nature glass bottle landscape, purple galaxy bottle, |
| 美しい風景の自然のガラス瓶の風景、紫色の銀河の瓶、 |
| worst quality, low quality, normal quality |
| 最悪品質、低品質、通常品質 |
| ワークフロー:「SDXL/」 | |
![]() |
| 『FLUX.2』の超高速・軽量モデル「klein(クライン)」を検証する |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| FLUX.2「klein」 (蒸留版) | flux-2-klein-4b | /StabilityMatrix/Data/ Models/ | diffusion_models/ | https://huggingface.co/black-forest-labs/FLUX.2-klein-4B/blob/main/flux-2-klein-4b.safetensors |
| FLUX.2「klein」 (base版) | flux-2-klein-base-4b | diffusion_models/ | https://huggingface.co/black-forest-labs/FLUX.2-klein-base-4B/tree/main | |
| text_encoders | qwen_3_4b_fp4_mixed | text_encoders/ | https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/text_encoders | |
| vae | flux2-vae | VAE/ | https://huggingface.co/Comfy-Org/flux2-dev/resolve/main/split_files/vae/flux2-vae.safetensors | |
| ワークフロー:image_flux2_klein_text_to_image.json | 蒸留版 | base版 |
![]() | ![]() | ![]() |
| ※ このワークフローは 蒸留版(下側) / base版(上側) 2つのモデルに対応する。いずれかを有効にして実行する | ||