私的AI研究会 > ComfyUI13
画像生成AI「ComfyUI」13(実践編Ⅲ) == 編集中 ==†
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
▼ 目 次
▲ 目 次
※ 最終更新:2026/04/21
『ERNIE-Image』を検証する†
| 2026年4月 中国 Baidu(百度)(バイドゥ)から発表された 日本語文字に対応できる画像生成モデル「ERNIE-Image(アーニー・イメージ)」を検証してみる |
- 「ERNIE-Image(アーニー・イメージ)」とは
- 中国の Baidu(百度)が2026年4月に公開した、最新の画像生成AIモデル
- 既存の画像生成AIが苦手としていた「画像内への正確な文字描画」や「複雑なレイアウトの構成」に非常に強い
- オープンソース(オープンウェイト)のモデル
- 主な特徴と強み
- 驚異的な文字描画能力:多くのモデルが文字化けを起こしやすい中、ERNIE-Image は英語だけでなく、日本語や中国語のテキストも極めて正確に画像内へ配置できる
ポスター制作やUIデザイン、インフォグラフィックの作成に最適
- 構造化されたレイアウト:単一の画像だけでなく、マンガのようなマルチパネル(コマ割り)構成や、ストーリーボード、ポスターなどの複雑なレイアウトを指示通りに生成する能力に優れている
- Prompt Enhancer(プロンプト拡張):短い入力文から、AIが自動で詳細な構成や背景を補完して高品質なプロンプトに拡張してくれる機能が統合されている
- 軽量かつ高性能:パラメータ数は約 80億(8B)と、コンパクトだが、Diffusion Transformer (DiT) 構造を採用し、商用レベルの高品質な画像を生成できる
- ラインナップ(2つのバージョン)
| モデル名 | 特徴 | 生成ステップ数 |
| ERNIE-Image | 高い忠実度と汎用性を持つ標準モデル。複雑な指示に正確に応答する。 | 50ステップ前後 |
| ERNIE-Image-Turbo | 高速生成に特化した蒸留モデル。画質を維持しつつ圧倒的に速い。 | 8ステップ前後 |
- 導入と活用
- ComfyUI などの主要なローカル生成環境にも対応しており、24GB 程度の VRAM(RTX 3090/4090など)があれば、個人のPC環境でも動作可能
- これまで「AIで文字を入れるのは難しいので後で画像ソフトで加工する」という工程が必要だったが、このモデルの登場により、文字を含めたデザインの大部分を AIで完結させられる可能性が広る
プロジェクトで作成するワークフロー†
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
- ワークフローと動作環境による生成時間(分:秒) 軽量版 推奨ワークフロー 軽量 GGUF版 推奨ワークフロー
| ワークフロー | 機 能 | モデル | CPU | CPU |
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 |
| 4100_ernie_image_t2i | Text to Image + Prompt Enhancer | 通常版 | | | | | | | |
| 4101_ernie_image_t2i_simple | Text to Image 展開版 | | | | | | | |
| 4200_ernie_image_turbo_t2i | Text to Image + Prompt Enhancer | 蒸留版 | | | | | | | |
| 4201_ernie_image_turbo_t2i_simple | Text to Image 展開版 | | | | | | | |
画像生成のための環境構築†
- 必要モデルのダウンロードと配置
※「ernie-image-turbo-fp8.safetensors」は低メモリー環境の場合「ernie-image-turbo.safetensors」の代わりに使用する
Step 1:オフィシャルサイトの標準テンプレートからワークフローを作成†
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する |
更新履歴†
参考資料†