ComfyUI10 の履歴(No.39)

私的AI研究会 > ComfyUI10

画像生成AI「ComfyUI」１０（実践編）　== 編集中 ==†

　「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲　目　次

画像生成AI「ComfyUI」１０（実践編）　== 編集中 ==
- プロジェクトで作成するワークフロー
参考資料

※ 最終更新:2026/03/21　

　今話題の最新モデル『Z-Image-Turbo』『Z-Image-base』『FLUX.1』『SDXL』『FLUX.2』を検証する

↑

プロジェクトで作成するワークフロー†

このプロジェクトで作成するワークフローと関連データは下記にアップロードしている（更新されている場合は再度ダウンロードのこと）

ComfyUI_ex_proj.zip をダウンロード（随時更新中）※2026/03/21更新
・解凍してできるフォルダ

📂ComfyUI
  ├─📂input　　　　　　　　　　　　　　← ワークフローに含まれる入力画像
  └─📂user
        └─📂default
              └─📂workflows　　　　　　　　← ワークフローの保存場所
                    :
                    ├─📂etc
                    └─📂z_imzge　　　　　　← この章で作成するワークフロー

・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする

ワークフローと動作環境による生成時間（分：秒）

ワークフロー	機　能	CPU					CPU
ワークフロー	機　能	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
1111_sdxl_t2i_base.json	SDXLモデル T2I基本ワークフロー	00:36.48	00:50.17	00:44.20	02:36.31	03:29.06	26:12.80	21:03.79
1112_sdxl_t2i_hires.json	SDXLモデル T2I高解像度 (hires.fix)	01:08.33	01:52.59	02:13.50	05:00.20	23:54.44	223:14.65	160:42.34
1113_sdxl_i2i_base.json	SDXLモデル I2I基本ワークフロー	00:14.06	00:19.43	00:41.96	02:51.50	03:33.91	29:21.72	21:38.96
1114_sdxl_i2i_inpaint.json	SDXLモデル Inpaintワークフロー	00:14.06	00:20.58	00:55.78	00:40.58	03:20.98	20:13.70	21:33.10
1115_sdxl_i2i_outpaint.json	SDXL モデル Outpaintワークフロー	0015.52		00:52.09		04:25.00	44:40.18	30:17.81
1116_sdxl_t2i_controlnet.json	SDXL モデル ControlNet フロー	00:11.26		00:48.39		04:35.38	40:35.98	×
1117_sdxl_ipadapter_base.json	SDXL モデル IPAdapter フロー	00:13.18		00:38.42		03:19.39	26:18.35	51:42.41
1118_sdxl_illust_to_real.json	SDXL モデル画像のスタイル変換	00:20.24		00:64.68		05:58.73	51:26.70	96:59.36
image_z_image_turbo.json	標準テンプレートによる生成	00:05.62	00:13.96	00:21.22	00:26.36	03:15.97	17:20.62	17:06.47
2101_z_image_turbo_simple.json	Z-Image-Turbo 基本ワークフロー	00:07.46	00:18.99	00:27.22	00:39.74	05:05.45	34:09.71	27:47.87
2102_z_image_turbo_controlnet.json	Z-Image-Turbo コントロールネット	00:07.22	00:21.02	00:29.68	00:43.61	05:38.72	41:15.66	31:09.73
image_z_image_base.json	標準テンプレートによる生成	00:44.88	01:51.22	01:58.97	03:06.63	32:52.39	201:29.30	139:19.53
2111_z_image_base_simple.json	Z-Image-Base 基本ワークフロー	00:48.62	01:28.12	02:32.88	04:10.93	22:57.94	218:58.48	199:24.86
3111_flux1_schnell_simple.json	FLUX.1 モデル基本ワークフロー	00:21.34	01:23.28	01:19.99	05:37.47	04:07.18	38:20.44	×
3112_flux1_schnell_controlnet.json	FLUX.1 モデル ControlNet フロー	00:21.70		02:32.81		04:57.35	×	×
3211_flux2_klein_distilled.json	FLUX.2モデル基本（蒸留版 fp8）	00:05.82		00:21.59		01:57.55	09:13.29
3230_flux2_klein_image_edit_distilled	FLUX.2 klein　画像編集 (1 画像)	00:10.99				04:32.78
3231_flux2_klein_image_edit_distilled	FLUX.2 klein　画像編集 (2 画像)	00:06.98				07:24.12
3311_flux2_klein_base.json	FLUX.2モデル基本（base版 fp8）	00:18.64		01:01.81		18:09.73	102:41.80
3330_flux2_klein_image_edit_base	FLUX.2 klein　画像編集 (1 画像)	00:36.51				41:44.93
3331_flux2_klein_image_edit_base	FLUX.2 klein　画像編集 (2 画像)	00:57.32				70:20.92

↑

『Z-Image-Turbo』を検証する†

　高速かつ高品質な画像を生成することができると評価の高い最新の画像生成AIモデル『Z-Image-Turbo』を検証する

↑

概要†

「Z-Image-Turbo」とは
- 2025年11月27日、Alibaba グループの Tongyi Lab が発表した最新の画像生成AIモデル
- Apache ライセンスで公開されたオープンソースモデル
- Z-Image-Turbo は、Z-Image 本体に対して蒸留と強化学習を施すことで高速化を実現した派生モデル。「distilled（ディスティルド）」
  ・蒸留モデルは純度高く綺麗なものしか生成できない
  ・蒸留は汎用を犠牲にして特定用途に特化したもの

主な特徴
- 6B という軽量なパラメータ数ながら、わずか8ステップでの高速生成と、一般的なコンシューマー向け GPU（VRAM 16GB）での動作が可能
- 写真表現だけでなくポスター制作などで求められる文字レンダリング（中国語と英語の両方）で自然な文字描画ができる

VRAM容量別の動作目安

項目仕様

必要VRAM 16GB未満（<16GB VRAM）で動作

推奨解像度 1024×1024（学習時の標準解像度）

対応解像度範囲 512×512〜2048×2048まで生成可能

項目	仕様
必要VRAM	16GB未満（<16GB VRAM）で動作
推奨解像度	1024×1024（学習時の標準解像度）
対応解像度範囲	512×512〜2048×2048まで生成可能

オフィシャルサイト
- GitHub: Z-Image
- Z-Image Introduction

↑

画像生成のための環境構築†

必要モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
Z-Image-Turbo本体 diffusion_models	z_image_turbo_nvfp4	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/diffusion_models
Z-Image-Turbo本体 diffusion_models	z_image_turbo_bf16		diffusion_models/
テキストエンコーダー text_encoders	qwen_3_4b_fp4_mixed		text_encoders/	https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/text_encoders
	qwen_3_4b_fp8_mixed
	qwen_3_4b
vae	ae		VAE/	https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/vae
ControlNet	Z-Image-Turbo-Fun-Controlnet-Union	/StabilityMatrix/Data/ Packages/ComfyUI/models/	model_patches/	https://huggingface.co/alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union/tree/main

↑

Step 1：標準テンプレートによる生成†

ワークフローを選ぶ

① 左端のメニューから「Template」を選択
② 検索欄に「Z-Image-Turbo」を入力する
③「Z-Image-Turbo Text to Image」を選ぶ
④ アラートダイアログが出るが無視して閉じる
⑤ ワークフローを拡大して「clip_name」をクリック
⑥ 表示されるリストから「qwen_3_4b_fp4_mixed.safetensors」を指定する
ワークフローを実行する

①「Run」を押して画像を生成する
ワークフローを整理する

　※ ワークフロー：「z_image/」image_z_image_turbo.json

↑

Step 2：ComfyUI_examples サイトのワークフローによる生成†

サイトからワークフローをダウンロード

① ダウンロードしたワークフローに「Preview Image」ノードを追加
② ネガティブ・プロンプトは不要なので「ConditioningZeroOut」に置き換える
③ プロンプトを変更する
④ イメージサイズを 1024x768 / 768x1024 / 1024x1024 ピクセルを選択できるようにする
⑤ ノード配置を整理する

ワークフローを実行する

プロンプト
Close-up portrait of a young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face.
20代の若い女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。 85mmレンズ、f/1.4、浅い被写界深度、背景のボケ。左から差し込む柔らかな窓の光、ゴールデンアワーの輝き、温かみのある肌色。映画のような、リアルな、細部までこだわった、プロフェッショナルな写真。注意点：彩度過度、アニメ調、低解像度、歪んだ顔。

ワークフロー：「z_image/」2101_z_image_turbo_simple.json

日本語文字の入ったカタログを生成してみる

プロンプト
A luxury-style bilingual (Japanease + English) poster advertisement for a minimalist wireless earphone. Show the product on a matte black surface with premium studio lighting, soft highlights on metal edges, deep controlled shadows, and flawless color accuracy. Textures should appear refined and tactile, with micro-detail clarity and a high-end commercial finish. Design the poster in an elegant, high-fashion aesthetic: generous negative space, balanced composition, and minimal visual noise. Use a sophisticated monochrome palette with subtle gold or silver accents to emphasize the premium feel. Include a minimal English headline: “Pure Sound. Perfect Silence.” Add the Japanease counterpart in refined typography: “純粋な音 · 静寂の極み”. Place a small bilingual tagline beneath: “Wireless Crafted Quality · 職人技が宿る仕上り”. Ensure the text integrates naturally with the design without distracting from the product. Background should be a smooth gradient charcoal black with a luxury ambiance. Use centered composition, vertical 3:4 aspect ratio, no logo, no watermark.
ミニマルなワイヤレスイヤホンの、高級感あふれるバイリンガル（日本語＋英語）ポスター広告です。マットブラックの表面に、プレミアムスタジオ照明、金属エッジの柔らかなハイライト、深くコントロールされた陰影、そして完璧な色彩精度で製品を映し出します。テクスチャは洗練され、触感があり、微細なディテールまで鮮明で、高級感のある商業的な仕上がりを実現します。ポスターは、エレガントでハイファッションな美学に基づき、十分なネガティブスペース、バランスの取れた構成、そして最小限の視覚的ノイズでデザインします。洗練されたモノクロパレットに、さりげないゴールドまたはシルバーのアクセントを加え、高級感を強調します。簡潔な英語の見出し「Pure Sound. Perfect Silence.」を記載します。洗練されたタイポグラフィで日本語の見出し「純粋な音・静寂の極み」を追加します。その下に、小さなバイリンガルのタグライン「Wireless Crafted Quality・職人技が宿る仕上り」を配置します。テキストは、製品から気を散らすことなく、デザインに自然に溶け込むようにしてください。背景は、高級感のある滑らかなグラデーションのチャコールブラックにしてください。中央配置、縦長の3:4アスペクト比、ロゴや透かしは使用しないでください

ワークフロー：「z_image/」2101_z_image_turbo_simple.json

↑

Step 3：コントロールネットで画像を制御する†

ControlNet とは
・参照画像から構造的な特徴を抽出し、それを生成時に反映できるもの
・構造を維持したまま、スタイルや人物、背景を変えたりすることができる
・Fun-Controlnet-Union は、Z-Image Turbo で Contronet を使えるようにするためのパッチファイル
　Canny、HED、Depth、Pose、MLSD に対応する

ワークフローを作成する

ワークフロー：「z_image/」2102_z_image_turbo_controlnet.json	入力画像	プロンプト
		Close-up portrait of a young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face.

ワークフローを実行する

種類ワークフロー（変更部分）コントロール画像生成画像

Canny

Pose

Depyh

HED
LineArt

MLSD

ワークフローを改良する（V2）

ワークフロー：「z_image/」2102_z_image_turbo_controlnet_v2.json	改良点
	・それぞれの「ControlNet」ノード出力を切り替えることで、ワークフローを接続し直す必要がないようにした　→ ノードをスイッチで切り替える「rgthree-comfy」・「Fast Muter」ノードの該当項目をクリックすることで「ControlNet」の各機能を実行することができる

↑

『Z-Image-base』を検証する†

　基本モデル『Z-Image-base』を検証する

↑

概要†

「Z-Image-base」とは
- 2025年末に公開され「Z-Image Turbo」に続いて 2026年1月27日にベースモデルが公開された
- Z-Image-Base Z-Imageモデルファミリーの Base バージョン
- 速度を優先する蒸留版の Z-Image-Turbo とは異なり、アーキテクチャの完全な生成能力を保持している
- 最適な品質を得るには 30〜50 ステップのサンプリング (CFG 3-5) が必要で、生成時間は長くなる
- ネガティブプロンプトが利用でき詳細な調整により豊かな視覚的ディテールとより高品質画像を生成できる

「Z-Image-Base」/「Z-Image-Turbo」比較

特徴	Z-Image-Base	Z-Image-Turbo
サンプリングステップ	30-50ステップ	8ステップ
生成速度	遅い	非常に速い
視覚的ディテール	より豊か	優秀
芸術的上限	より高い	高い
生成多様性	より強い	良好
ファインチューニング適性	優秀	普通
ネガティブプロンプト応答	高応答性	良好な応答性
使用ケース	プロフェッショナル創作、ファインチューニング開発	迅速なプロトタイピング、日常創作

　　引用 → https://comfyui-wiki.com/ja/news/2026-01-28-alibaba-z-image-base-release

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
Z-Image-Base本体 diffusion_models	z_image_bf16	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/Comfy-Org/z_image/tree/main/split_files/diffusion_models
text_encoders	※ z_image_turbo と同じ		text_encoders/
vae	※ z_image_turbo と同じ		VAE/

↑

Step 1：標準テンプレートによる生成†

ワークフローを選ぶ

① 左端のメニューから「Template」を選択
② 検索欄に「Z-Image」を入力する
③「Z-Image Text to Image」を選ぶ
④ アラートダイアログが出るが無視して閉じる
⑤ ワークフローを拡大して「clip_name」をクリック
⑥ 表示されるリストから「qwen_3_4b_fp4_mixed.safetensors」を指定する
ワークフローを実行する

①「Run」を押して画像を生成する
ワークフローを整理する

　※ ワークフロー：「z_image/」image_z_image_base.json

↑

Step 2：基本ワークフローを作成†

Step 1 のワークフローを修正する
① Subgraph を展開して元に戻す
② Group は不要なので削除する ③ 画像サイズを選択できるようにノードを追加してレイアウト全体を再配置
④ 必要なときのみ生成画像を記録できるように変更する

ワークフローを実行する

プロンプト
Close-up portrait of a Japanease young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face.
20代の日本の若い女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。 85mmレンズ、f/1.4、浅い被写界深度、背景のボケ。左から差し込む柔らかな窓の光、ゴールデンアワーの輝き、温かみのある肌色。映画のような、リアルな、細部までこだわった、プロフェッショナルな写真。注意点：彩度過度、アニメ調、低解像度、歪んだ顔。

ワークフロー：「z_image/」2111_z_image_base_simple.json

・シード値を変更した場合（z-image-turbo はほとんど同じになる）

228533163497426	965272908476212	577359144257283	937350415573337

↑

『FLUX.1』「schnell（シュネル）」を検証する†

　『FLUX.1』の軽量モデル「schnell（シュネル）」を検証する

↑

概要†

「FLUX.1」とは
- Black Forest Labs が開発した画像生成 AI 技術
- 「pro」「dev」「schnell」の３バージョンが提供されていて、それぞれに用途やライセンスが異なる
- 「schnell」はローカル開発と個人利用に特化したモデル

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
FLUX.1「schnell」	flux1-schnell-fp8	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors
text_encoders	t5xxl_fp8_e4m3fn		text_encoders/	https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
vae	ae		VAE/	https://huggingface.co/lovis93/testllm/blob/ed9cf1af7465cebca4649157f118e331cf2a084f/ae.safetensors
ControlNet	FLUX.1-dev-ControlNet-Union-Pro-2.0		ControlNet/	https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0/tree/main
ControlNet	FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8		ControlNet/	https://huggingface.co/ABDALLALSWAITI/FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8

↑

Step 1：標準テンプレートによる生成†

ワークフローを選ぶ

① 左の画像または下記からダウンロードする
　・ComfyUI_examples/flux/flux_schnell_example.png
② キャンバスへドラッグ＆ドロップ
③ モデル / VAE / テキスト・エンコーダを設定したものに変更する ④ ワークフローを整理して保存する

ワークフローを実行する

プロンプト
a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it
モダンなキッチンの真ん中にある木製のテーブルの上に、美しい虹の銀河が描かれたボトルがあり、その横には野菜とキノコの皿と地球が描かれたワイングラスがあり、その上には食べかけのアップルパイが乗った皿がある。

ワークフロー：「FLUX/」3111_flux1_schnell_simple.json

↑

Step 2：コントロールネットで画像を制御する†

『FLUX.1』「schnell（シュネル）」での ControlNet
・「SamplerCustumAdvanced」ノードで ControlNet のワークフローが見当たらないので、従来モデルの手法でアレンジして作成する
・正解かどうかは不明だがとりあえずは動作して生成画像ができる

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
ControlNet	FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8	/StabilityMatrix/Data/ Models/	ControlNet/	https://huggingface.co/ABDALLALSWAITI/FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8

ワークフローを実行する

プロンプト
Close-up portrait of a Japanease young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography. NOT: oversaturated, anime style, low resolution, distorted face.
20代の日本の若い女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。 85mmレンズ、f/1.4、浅い被写界深度、背景のボケ。左から差し込む柔らかな窓の光、ゴールデンアワーの輝き、温かみのある肌色。映画のような、リアルな、細部までこだわった、プロフェッショナルな写真。注意点：彩度過度、アニメ調、低解像度、歪んだ顔。

ワークフロー：「z_image/」3112_flux1_schnell_controlnet.json	入力画像	ControlNet なし

↑

『FLUX.2』「klein（クライン）」を検証する†

　『FLUX.2』の超高速・軽量モデル「klein（クライン）」を検証する

↑

概要†

「FLUX.2」とは
- Stable Diffusionの開発チームが立ち上げた「Black Forest Labs」が 2025年11月に発表した、最新の高性能画像生成AIモデル
- 従来の FLUX.1 から大幅に進化し、最高峰の画質、プロンプトへの追従性、驚異的な生成速度を兼ね備えたオープンウェイトの画像生成AI

FLUX.2の主な特徴
- 最高峰の画質と忠実度:
  　フォトリアル（実写）な画像において、現行の画像生成AIで最高レベルの品質を誇る
- 驚異的な速度と効率:
  　特に軽量モデル「FLUX.2 [klein]」は、NVIDIAコンシューマーGPU環境で1秒未満（約0.5秒）での画像生成が可能
- 高いプロンプト追従性:
  　複雑な指示や文章を理解し、意図通りに描画する能力が向上
- 高性能な画像編集機能:
  　マルチリファレンス編集や4MP（4メガピクセル）出力に標準対応している
- ローカル実行可能:
  　一部のモデルは一般的な高性能ゲーミングPC（VRAM 6GB〜）でローカル環境でも動作する

FLUX.2のモデルファミリー
- [pro]: 最高の画質と忠実度を誇るフラッグシップモデル。API経由で提供される
- [dev]: 自由度が高く、クリエイター向け。APIとオープンウェイトで提供される
- [klein]: 1秒未満で生成可能な超高速・軽量モデル。6GB程度の VRAM でも動作し、コンシューマー GPU に最適化されている

FLUX.1との違い
- 技術的には、Mistral VLM（ビジョン言語モデル）とRectified Flow Transformer（整流フロートランスフォーマー）を組み合わせた新しい構造を採用
- 推論（生成）の効率化と品質向上が最大化されている
- NVIDIA の最新ハードウェアに最適化されている

モデルのダウンロードと配置

モデル名		ファイル名（.safetensors）	配置先		ダウンロード URL
FLUX.2「klein」（蒸留版）	-	flux-2-klein-4b	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/black-forest-labs/FLUX.2-klein-4B/blob/main/flux-2-klein-4b.safetensors
	fp8	flux-2-klein-4b-fp8			https://huggingface.co/black-forest-labs/FLUX.2-klein-4b-fp8
	nvfp4	flux-2-klein-4b-nvfp4			https://huggingface.co/black-forest-labs/FLUX.2-klein-4b-nvfp4
FLUX.2「klein」（base版）	-	flux-2-klein-base-4b			https://huggingface.co/black-forest-labs/FLUX.2-klein-base-4B/tree/main
	fp8	flux-2-klein-base-4b-fp8			https://huggingface.co/black-forest-labs/FLUX.2-klein-base-4b-fp8
	nvfp4	flux-2-klein-base-4b-nvfp4			https://huggingface.co/black-forest-labs/FLUX.2-klein-base-4b-nvfp4
text_encoders		qwen_3_4b_fp4_mixed		text_encoders/	https://huggingface.co/Comfy-Org/z_image_turbo/tree/main/split_files/text_encoders
vae		flux2-vae		VAE/	https://huggingface.co/Comfy-Org/flux2-dev/resolve/main/split_files/vae/flux2-vae.safetensors

量子化モデルの違い

	蒸留版			base版
	-	fp8	nvfp4	-	fp8	nvfp4
モデル名 (.savtensors)	flux-2-klein-4b	flux-2-klein-4b-fp8	flux-2-klein-4b-nvfp4	flux-2-klein-base-4b	flux-2-klein-base-4b-fp8	flux-2-klein-base-4b-nvfp4
サイズ (GB)	7.21	3.79	2.29	7.21	3.80	2.31
生成画像

生成時間 (分：秒)		蒸留版			base版
生成時間 (分：秒)		-	fp8	nvfp4	-	fp8	nvfp4
GPU	RTX-4070	00:11.28	00:05.82	00:05.03	00:29.35	00:18.64	00:23.32
	RTX-4060
	RTX-4060L	01:03.09	00:21.59	00:15.87	01:48.41	01:01.81	01:13.79
	RTX-3050
	GTX-1050	02:17.61	01:57.55	01:59.87	18:12.50	18:09.73	18:40.80
CPU	i7-1260P	09:40.72	09:13.29	09:29.20	84:28.84	102:41.80	121:37.23

「fp8」モデルを選択する理由
・通常モデルよりサイズが小さい（およそ半分）
・速度が倍近く早い
・「nvfp4」モデルは GPU によっては高速になるがハードウェアに存性が高い
・CPU 環境でも動作する
・通常版に比べ画像品質（特に文字表現）は若干低下する

↑

Step 1：標準テンプレートによる生成†

ワークフローを選ぶ

① 左端のメニューから「Template」を選択
② 検索欄に「FLUX2」を入力する
③「Flux.2[klein] Text to Image」を選ぶ
④ アラートダイアログが出るが無視して閉じる
⑤「clip_name」に「qwen_3_4b_fp4_mixed.safetensors」を指定する（上下 2 か所）
⑥ 上側「unet_name」に「flux-2-klein-base-4b.safetensors」を指定する
⑦ 下側「unet_name」に「flux-2-klein-4b.safetensors」を指定する
⑧「vae_name」に「flux2-vae.safetensors」を指定する（上下 2 か所）

ワークフローを実行する

ワークフロー：image_flux2_klein_text_to_image.json	蒸留版	base版

※ このワークフローは蒸留版（下側） / base版（上側） 2つのモデルに対応する。いずれかを有効にして実行する

ワークフローを整理する

プロンプト
A hedgehog wearing a tiny party hat surrounded by confetti, early digital camera style, slight noise, flash photography, candid moment, 2000s digicam aesthetic, festive birthday celebration atmosphere	A vintage motorcycle parked in front of a retro diner at sunset, warm orange and pink sky, neon signs glowing, 80s vintage photo style, film grain, warm color cast
紙吹雪に囲まれた小さなパーティーハットをかぶったハリネズミ、初期のデジタルカメラスタイル、わずかなノイズ、フラッシュ撮影、自然な瞬間、2000年代のデジカメの美学、お祭り気分の誕生日のお祝い	夕暮れ時、レトロなダイナーの前に停められたビンテージバイク、温かみのあるオレンジとピンクの空、ネオンサインが光る、80年代風のビンテージ写真スタイル、フィルムグレイン、温かみのある色調
ワークフロー (蒸留版)：「FLUX/」3211_flux2_klein_distilled.json	ワークフロー (base版)：「FLUX/」3311_flux2_klein_base.json

↑

Step 2：参照画像による生成１（distilled 蒸留版）†

テンプレート・ライブラリからワークフローを選ぶ

① 左端のメニューから「Template」を選択
② 検索欄に「FLUX2」を入力する
③「Flux.2[klein] 4B Distilled:Image Edit」を選ぶ

・ワークフローで使われている画像データのダウンロード先
　→ GitHub: ComfyUI-Org workflow_templates

ワークフロー：image_flux2_klein_image_edit_4b_distilled.json	入力画像

ワークフローの修正点	問題点と対策~

① モデル「quen_3_4b.safetensors」がない
　→「qwen_3_4b_fp4_mixed.safetensors」
② バイパスしているノードを有効化する
③ 上側のノードのプロンプトが適当でないので変更
　→ Please change the bag color to bright red.
④「Run」を押して実行する（ ← 結果）

・ワークフローを保存して読み込むと一部の接続が切れる
・「SubGraph」機能の問題のようなので、展開したワークフローを作成する
・参照画像が 1枚・2枚の場合を分けたワークフローにしてノードを整理する

ワークフローを整理する

プロンプト
Please change the bag color to bright red.	stylize the handbag in image1 with the colours and logo from image 2
バッグの色を鮮やかな赤色に変更してください。	画像1のハンドバッグを、画像2の色とロゴでスタイリッシュにアレンジしてください。
ワークフロー (蒸留版)：「FLUX/」3230_flux2_klein_image_edit_distilled.json	ワークフロー (base版)：「FLUX/」3231_flux2_klein_image_edit_distilled.json

生成例１：画像の視点を変える

入力画像	プロンプト	生成画像
	Change the camera angle to a first-person driver's perspective looking through the steering wheel at the dashboard and windshield, maintaining the same white minimalist interior style and lighting
	カメラアングルを、ステアリングホイール越しにダッシュボードとフロントガラスを見る一人称ドライバー視点に変更し、同じ白を基調としたミニマルなインテリアスタイルと照明を維持する。

生成例２：対象物にロゴをはめ込む

入力画像１	入力画像２ / プロンプト	生成画像

	Apply the yellow "C" logo to the center hub of the steering wheel, and change the steering wheel color to royal blue matching the logo background, while maintaining the same interior style, lighting, camera angle, and all other elements unchanged
	ステアリングホイールの中央ハブに黄色の「C」ロゴを適用し、ステアリングホイールの色をロゴの背景に合わせたロイヤルブルーに変更します。インテリアスタイル、照明、カメラアングル、その他の要素はすべて変更せずに維持します。

↑

Step 3：参照画像による生成２（base版）†

テンプレート・ライブラリからワークフローを選ぶ

① 左端のメニューから「Template」を選択
② 検索欄に「FLUX2」を入力する
③「Flux.2[klein] 4B Image Edit」を選ぶ

・ワークフローで使われている画像データのダウンロード先
　→ GitHub: ComfyUI-Org workflow_templates

ワークフロー：image_flux2_klein_image_edit_4b_base.json	ワークフローの修正点
	① モデル「quen_3_4b.safetensors」がない　→「qwen_3_4b_fp4_mixed.safetensors」 ② バイパスしているノードを有効化する ③「Run」を押して実行する（ ← 結果）問題点と対策・ワークフローを保存して読み込むと一部の接続が切れる・「SubGraph」機能の問題のようなので、展開したワークフローを作成する・参照画像が 1枚・2枚の場合を分けたワークフローにしてノードを整理する

ワークフロー：image_flux2_klein_image_edit_4b_base.json

ワークフローの修正点

① モデル「quen_3_4b.safetensors」がない
　→「qwen_3_4b_fp4_mixed.safetensors」
② バイパスしているノードを有効化する
③「Run」を押して実行する（ ← 結果）

問題点と対策
・ワークフローを保存して読み込むと一部の接続が切れる
・「SubGraph」機能の問題のようなので、展開したワークフローを作成する
・参照画像が 1枚・2枚の場合を分けたワークフローにしてノードを整理する

ワークフローを整理する

プロンプト
Change the background to a cozy, softly lit interior space with warm beige tones, soft natural window light filtering through, and a relaxed, intimate atmosphere similar to the original image's mood. Keep the person in the exact same position, scale, and pose. Maintain identical camera angle, framing, and perspective. The lighting should be soft, even, and warm - not harsh or bright. Only replace the room environment, preserving all facial features, hairstyle, expression, clothing, and pose exactly as they are.	A stylish young woman with dark skin wearing a plush deep emerald green bathrobe, light pink towel turban, and red heart-shaped sunglasses, seated on a light-colored rattan chair with soft pink cushions, positioned in front of a textured dusty rose pink wall with an arched alcove, large tropical plants with broad dark green leaves framing both sides, woven straw baskets on the floor, remove any existing shoes from the background, only the woman's beige woven sandals visible in the foreground, soft natural lighting casting gentle shadows, warm bohemian chic aesthetic, professional fashion photography
背景を、温かみのあるベージュトーンで、柔らかな自然光が差し込む、リラックスした親密な雰囲気の、居心地の良い室内空間に変更してください。これは、元の画像の雰囲気に似ています。人物の位置、サイズ、ポーズは元の写真と全く同じにしてください。カメラアングル、フレーミング、遠近法も元の写真と全く同じにしてください。照明は柔らかく、均一で、温かみのあるものにしてください。強すぎたり明るすぎたりしないようにしてください。部屋の環境だけを変更し、顔の特徴、髪型、表情、服装、ポーズはすべて元の写真と全く同じにしてください。	濃いエメラルドグリーンの豪華なバスローブ、淡いピンクのタオルターバン、赤いハート型のサングラスを身に着けた、肌の黒いスタイリッシュな若い女性が、柔らかなピンクのクッションが置かれた淡い色の籐椅子に座っている。椅子の前には、アーチ型のくぼみのある、質感のあるダスティローズピンクの壁があり、両側には幅広の濃い緑の葉を持つ大きな熱帯植物が植えられている。床には編み込みの麦わらかごが置かれている。背景にある靴はすべて取り除かれ、前景には女性のベージュの編み込みサンダルだけが見える。柔らかな自然光が優しい影を落とし、温かみのあるボヘミアンシックな美学が感じられる。プロのファッション写真。
ワークフロー (蒸留版)：「FLUX/」3330_flux2_klein_image_edit_base.json	ワークフロー (base版)：「FLUX/」3331_flux2_klein_image_edit_base.json

生成例１：対象物にイラスト画像をはめ込む

プロンプト

Apply the design from Reference Image 1 onto objects in Reference Image 2.

参照画像1のデザインを、参照画像2のオブジェクトに適用します。

入力画像１入力画像２

プロンプト
Apply the design from Reference Image 1 onto objects in Reference Image 2.
参照画像1のデザインを、参照画像2のオブジェクトに適用します。

生成例２：参照画像と同じポーズで生成

プロンプト
In the pose shown in the reference image Close-up portrait of a Japanease young woman in her 20s, natural makeup, soft expression. 85mm lens, f/1.4, shallow depth of field, bokeh background. Soft window light from the left, golden hour glow, warm skin tones. Cinematic, realistic, high detail, professional photography.
参考画像に示されているポーズで撮影。 20代の日本人女性のクローズアップポートレート。ナチュラルメイク、柔らかな表情。85mmレンズ、F1.4、浅い被写界深度、背景のボケ。左側からの柔らかな窓からの光、夕暮れ時の黄金色の輝き、温かみのある肌色。映画のようなリアルさ、高精細、プロフェッショナルな写真。

入力画像	生成画像

↑

『SDXL』を新しいモデルで検証する†

　『SDXL』を新しいモデルで検証する

↑

概要†

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
SDXL model	realvisxlV50_v50LightningBakedvae	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors
LoRA	add-detail-xl		Lora/	https://civitai.com/models/122359/detail-tweaker-xl
ControlNet	ダウンロード後ファイル名を下記に変更 controlnet-union-sdxl-1.0-pro		ControlNet/	https://huggingface.co/xinsir/controlnet-union-sdxl-1.0
IPAdapter	ip-adapter-plus_sdxl_vit-h		IpAdapter/	https://huggingface.co/h94/IP-Adapter/blob/main/sdxl_models/ip-adapter-plus_sdxl_vit-h.safetensors

↑

Step 1：基本ワークフローの作成†

もとになるワークフローを選ぶ
① 「_base/」base.json 基本ワークフローを読み出す
②「CLIP Text Encoder」ノードを1つにする
③「Load Checkpoint」ノードの ckpt_name「realvisxlV50_v50LightningBakedvae.safetensors」を選択
④「Load LoRA」の LoRA を「add-detail-xl.safetensors」に変更する
⑤ ワークフローを整理して保存する

ワークフローを実行する

プロンプト
beautiful scenery nature glass bottle landscape, purple galaxy bottle,
美しい風景の自然のガラス瓶の風景、紫色の銀河の瓶、
worst quality, low quality, normal quality
最悪品質、低品質、通常品質

ワークフロー：「SDXL/」1111_sdxl_t2i_base.json

↑

Step 2： Inpaint ワークフローの作成†

もとになるワークフローを選ぶ
① 「_base/」base.json 基本ワークフローを読み出す
②「CLIP Text Encoder」ノードを1つにする
③「Load Checkpoint」ノードの ckpt_name「realvisxlV50_v50LightningBakedvae.safetensors」を選択
④「Load LoRA」の LoRA を「add-detail-xl.safetensors」に変更する
⑤「Latent Image」ノードを「VAE Encoder (for Inpainting)」に変更する
⑥「Load Image」ノードを追加して「IMAGE」「MASK」を「VAE Encoder (for Inpainting)」に接続する
⑦「Load Image」ノード上で右クリックしますくえでぃたでマスク画像を作成する
⑧ ワークフローを整理して保存する

ワークフローを実行する

Prompt	realistic, photograph, 8k, high quality, masterpiece, 1girl, smile, 20 years old, portrait,
	リアル、写真、8k、高品質、傑作、女の子1人、笑顔、20歳、ポートレート、
Negative Prompt	worst quality, low quality, normal quality, text,
	最低品質、低品質、通常品質、テキスト、

入力画像	マスク画像	生成画像

ワークフロー：「SDXL/」1114_sdxl_i2i_inpaint.json

↑

Step 3： Outpaint ワークフローの作成†

もとになるワークフローを選ぶ
① 「SDXL/」1114_sdxl_i2i_inpaint.json Inpaint ワークフローを読み出す
②「Load Image」と「VAE Encoder (for Inpainting)」ノードの間に「Pad Image for Outpainting」を追加する
③ ワークフローを整理して保存する

ワークフローを実行する

Prompt	bright and clear blue sky, light but saturated blue, vibrant sky, no deep blues, white clouds, abundant clouds, detailed clouds, dramatic clouds, cumulus clouds, summertime brightness, clear atmosphere, soft light, vast blue sky
	明るく澄んだ青空、淡いが彩度の高い青、鮮やかな空、深い青がない、白い雲、豊かな雲、細かい雲、ドラマチックな雲、積雲、夏の明るさ、澄んだ空気、柔らかな光、広大な青空
Negative Prompt	worst quality, low quality, normal quality, text,
	最低品質、低品質、通常品質、テキスト、

入力画像	上に 128 pixel 追加生成画像	上に 128+128 pixel 追加生成画像

ワークフロー：「SDXL/」1115_sdxl_i2i_outpaint.json

↑

Step 4： ControlNet を使用する†

ControlNet とは
・ControlNetは、既存の画像生成モデルに「制御」の要素を加える技術
・ControlNetを使用すると、プロンプトに加えて、追加の情報をAIに与えることができる
・画像の輪郭線、深度情報、ポーズ、セグメンテーションマップなど、様々な追加情報をもとに、より意図に合致した画像を生成することができるようになる

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
ControlNet	ダウンロード後ファイル名を下記に変更 controlnet-union-sdxl-1.0-pro	/StabilityMatrix/Data/ Models/	ControlNet/	https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

ワークフローを実行する

Prompt	a japanease woman with a short haircut and a white shirt is posing for a picture with a white background, perfect face, a character portrait, precisionism
	ショートヘアで白いシャツを着た日本人女性が白い背景の前でポーズをとっている。完璧な顔立ち、人物像、精密さ
Negative Prompt	worst quality,low quality,painting,sketch,flat color,monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
	最低品質、低品質、絵画、スケッチ、フラットカラー、モノクロ、グレースケール、醜い顔、悪い顔、解剖学的に悪い、変形した目、指の欠損、ニキビ、肌のシミ、NSFW、ヌード、乳首

text to image	入力画像	canny	pose	depth	line art

ワークフロー：「SDXL/」1116_sdxl_t2i_controlnet.json

「Scribｂle」を追加して実行する

ワークフロー：「SDXL/」1116_sdxl_t2i_controlnet.json 手書き線画生成画像

↑

Step 5： IPAdapter でスタイルを検出して画像を生成†

IPAdapter とは
・IPAdapterは、テキストベースのプロンプトと視覚的な参照画像を組み合わせることで、より詳細で正確な指示を与えることを可能にする技術
・生成される画像の品質、スタイルの一貫性、特定の視覚要素の再現性が大幅に向上する

モデルのダウンロードと配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
SDXL model	realvisxlV50_v50LightningBakedvae	/StabilityMatrix/Data/ Models/	diffusion_models/	https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors
Clip Vision	CLIP-ViT-H-14-laion2B-s32B-b79K		ClipVision/	https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k
IPAdapter	ip-adapter-plus_sdxl_vit-h		IpAdapter/	https://huggingface.co/h94/IP-Adapter/blob/main/sdxl_models/ip-adapter-plus_sdxl_vit-h.safetensors

ワークフローを実行する

Prompt	a japanease woman with a short haircut and a white shirt is posing for a picture with a white background, perfect face, a character portrait, precisionism
	ショートヘアで白いシャツを着た日本人女性が白い背景の前でポーズをとっている。完璧な顔立ち、人物像、精密さ
Negative Prompt	worst quality,low quality,painting,sketch,flat color,monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
	最低品質、低品質、絵画、スケッチ、フラットカラー、モノクロ、グレースケール、醜い顔、悪い顔、解剖学的に悪い、変形した目、指の欠損、ニキビ、肌のシミ、NSFW、ヌード、乳首

ワークフロー：「SDXL/」1117_sdxl_ipadapter_base.json	入力画像

パラメータを調整する

weight_type	参照する内容	特徴
linear	形状＋スタイル	参照画像の全体的特徴を均等に適用する
ease in, ease out, ease in-out, reverse in-out, weak input, weak output, weak middle, strong middle	形状＋スタイル（時間変化）	参照画像の全体的特徴を、それぞれ weight_type の名前通りに、サンプリングの経過に合わせて影響力を変化させて適用する
style transfer	スタイル	形状は維持しつつ、参照画像の色調や質感を適用する
composition	構図	参照画像のレイアウトやバランスを適用する
strong style transfer	スタイル（強）	style transfer より強くスタイルを適用する

weight_type:style transfer, weight:0.5	weight_type:style transfer, weight:0.78	weight_type:style transfer, weight:0.9	weight_type:style transfer, weight:1.0

weight_type:linear, weight:0.3	weight_type:linear, weight:0.5	weight_type:linear, weight:0.68	weight_type:linear, weight:0.8

↑

Step 6：ControlNet で画像のスタイルを変換する†

　アニメ調の参照画像を入力して、その詳細な特徴を反映した写実的な画像を img2img で生成する
ControlNet の使用により、入力画像の構造が出力に強く反映され、同時にプロンプトとモデルの力を借りることで現実感のある詳細な描写が付加され、元のイラストに描写されている情報を保ちつつ、より写実的な画像が描かれることが期待できる

ワークフローの構成
・ControlNet の「Depth」「Lineart」を組み合わせて使用する
・「Depth」は被写体と背景の関係を明示し「Lineart」は参照画像に描写されている細かな形状を維持する目的で利用する
・ControlNet を複数組み合わせる場合「Apply ControlNet」を直列に接続する
・それぞれの ControlNet の「strength」の値や、サンプリングのタイミングをずらすことで過剰な条件付けによる生成画像の破綻を防ぐ

ワークフローを実行する

Prompt	realistic, photorealistic, profile picture, japanease 1girl, standing, happy , long brown hair, outside, sunny park, trees, background, digital art
	リアル、フォトリアル、プロフィール写真、日本人少女1人、立っている、幸せ、長い茶色の髪、屋外、晴れた公園、木々、背景、デジタルアート
Negative Prompt	anime, illustration,
	アニメ、イラスト、