私的AI研究会 > ComfyUI14
画像生成AI「ComfyUI」14(実践編Ⅳ) == 編集中 ==†
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
▼ 目 次
▲ 目 次
※ 最終更新:2026/05/22
『HiDream-01-Image』を検証する†
| 2026年5月 中国のAIスタートアップ「HiDream.ai」からオープンソースとして正式に発表・公開されされた画像生成モデル「HiDream-01-Image」を検証してみる |
- 「HiDream-01-Image」とは
- 中国の HiDream.ai が2026年5月に公開した、最新の画像生成AIモデル
- 外部のVAEなどを介さず、共有トークン空間へ直接マッピングする新しい手法(UiT:画素レベル統一トランスフォーマー)を採用している
- オープンソース(オープンウェイト)のモデル
- 主な特徴
- 独自のアーキテクチャ:VAE(変分自己符号化器)や分離型のテキストエンコーダを外部で組み合わせず、「画素レベル統一トランスフォーマー(UiT)」を採用
これによりピクセルの詳細を忠実に再現する
- デザイン・タイポグラフィに強い:高コントラストなシャープな画像や、ポスター、UIモックアップ、画像内の正確な文字(タイポグラフィ)のレイアウトを得意としている
- マルチモーダルな画像編集:最大 10枚までの参照画像を入力し、それに基づいた画像編集やインペインティング(塗りつぶし)が可能
- ローカル環境対応:オープンウェイトで公開されており、「ComfyUI」などのツールを使い、自身のパソコン環境に導入してローカルで動作させることが可能
用途に合わせて汎用性の高い「Full」モデルと、軽量・高速な「Dev」モデルが用意されている
- ラインナップ(2つのバージョン)
| モデル名 | 特徴 |
| HiDream-01-Image full | 標準モデル 50 steps, guidance scale 5.0, shift 3.0 |
| HiDream-01-Image dev | 蒸留モデル(dev)は 28 steps, guidance scale 0, shift 1.0 |
プロジェクトで作成するワークフロー†
画像生成のための環境構築†
- 必要モデルのダウンロードと配置
Step 1:標準テンプレート による生成†
忘備録†
UiT(Pixel-level Unified Transformer)とは†
| 画像ピクセル、テキストタグ、およびタスク条件を1つの共有連続空間に統合する、最先端の画像生成基盤モデル(例:HiDream-O1-Imageなど)のアーキテクチャ |
- UiTアーキテクチャの主な特徴
・完全なモダリティの統一: ピクセルパッチ、テキストトークン、タスク条件を区別せず、すべて「単一のシーケンス(共有タグ空間)」のメンバーとして同じ次元で処理する
・外部コンポーネントの排除: 従来のモデルで必要とされていた外部のVAE(変分オートエンコーダ)や分離されたテキストエンコーダを必要としない
・優れた柔軟性: 単一の Transformerバックボーンのみで、テキストから画像への生成や、指示に基づく画像編集といった高度なタスクをネイティブに実行できる
・スケーラビリティ: 効率的な8Bパラメータモデルから、200Bパラメータを超える超大規模モデルへのスケールアップが可能
モデル「fp8 」「fp8_scaled」の違い†
| AIモデルにおける「fp8」と「fp8_scaled」の主な違いは、量子化(データの圧縮)を行う際に「スケール係数」を用いて精度低下を防ぐ工夫がされているかどうか |
- データの表現方法の違い
・FP8 (標準的な8ビット浮動小数点):
モデルの重みを単純に8ビットに圧縮したもの。VRAMを大幅に節約できるが、表現できる数値の範囲が狭まるため、元の高精度なモデル(FP16やBF16など)と比べて画質や出力結果に劣化(誤差)が生じやすい傾向がある。
・FP8_scaled (スケール化されたFP8):
・モデル全体またはレイヤーごとに「スケール係数」と呼ばれる値を掛け合わせることで、8ビットという低精度の中でも表現できる数値の範囲(ダイナミックレンジ)を最適化する仕組み。
- メリット・デメリットの比較
| 特徴 | FP8 | FP8_scaled |
| VRAM節約 | 大幅に節約可能 | 大幅に節約可能 |
| 生成品質・精度 | 誤差がやや出やすい | 品質劣化が抑えられ、より元のモデルに近い結果が出やすい |
| 処理速度 | 高速 | 高速(対応GPUでは最適化によりFP8より速い場合もある) |
- どちらを選ぶべきか?
・AIの生成品質や精度を最優先する場合は、基本的に fp8_scaled を選択するのがおすすめ
・特に近年の画像生成モデル(FLUXなど)や動画生成モデル(Wan2.2など)では、単純なFP8だとディテールが潰れたり顔が崩れたりすることがあるため、
Reddit などのコミュニティでも品質改善が図られている fp8_scaled が主流として推奨されている
モデル「fp8 」「mxfp8 」の違い†
| AIモデルにおける「FP8」と「MXFP8」の最大の違いは、数値データの拡大縮小(スケーリング)を行う範囲の細かさ。MXFP8はFP8の進化版であり、メモリ使用量を抑えつつ、モデルの推論・学習精度をより高く維持できる |
| 項目 | FP8 | MXFP8 |
| スケーリング(拡大縮小)の粒度 | テンソル(データのかたまり)全体に対して「1つの共通のスケール値」を適用する。そのため、非常に大きな値と小さな値が混在するデータでは、一部の精度が落ちることがある | データを 32個などの「小さなブロック」に分割し、ブロックごとに異なるスケール値を適用(マイクロスケーリング)する |
| 表現できる精度と範囲 | データ全体でスケールを合わせる必要があるため、精度を優先する形式(E4M3)と、表現できる数値の範囲を優先する形式(E5M2)を使い分ける必要がある | ブロックごとに細かくスケールを調整できるため、精度が高いE4M3形式をネットワーク全体で使いやすくなり、数値の表現力と安定性が向上しする |
| ハードウェアの対応 | NVIDIA の Hopperアーキテクチャ(H100など)や Ada Lovelace 世代などでサポートされている | NVIDIA の Blackwellアーキテクチャ以降で本格的にサポートされる最新のフォーマット |
更新履歴†
参考資料†