私的AI研究会 > Diffusion
画像生成 AI「Stable-Diffusion」とは?
「拡散モデル(Diffusion Model)」あらゆる画像はノイズが加わってゆくといずれ完全なノイズになるが、逆にノイズを取り除いてゆけば画像があらわれるという発想から、ノイズを取り除く過程をAIに学習させ、その過程をテキストなどで制御し新たに画像を生成できるようにしたもの。 |
「Stable Diffusion」のローカルマシンでの稼働は速度・環境・メンテナンス性などあらゆる面で 統合環境 StabilityMatrix 上の reForge「Stable Diffusion WebUI reForge」を強く推奨する 「reForge」は操作面や生成結果にについて「Automatic1111」とほぼ同じで共存も可能 |
SD_sample ├─no-meta_images 参照用画像(メタデータなし) └─outputs_images 生成画像サンプル(生成時のメタデータを含む「PNG Info」で利用可)・解凍してできる「SD_sample/」フォルダ内を適当な場所へコピーする
引用サイト → https://jp.aiarty.com/image-generator/stable-diffusion-beginners-guide.htm
■ 出力画像から生成パラメータを得る■ 出力画像から生成時のパラメータを取得し再生性を行うことができる |
→ 詳しくは 「Stable Diffusion」パラメータ
プロンプト Prompt | |
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),shiny skin,detailed skin,detailed face,detailed eyes,1girl,Japanese idol,beautiful face, | |
(傑作、最高品質: 1.4)、(8k、生写真、フォトリアル: 1.2)、光沢のある肌、詳細な肌、詳細な顔、詳細な目、1人の女の子、日本のアイドル、美しい顔、 |
ネガティブ・プロンプト Negative prompt | ||
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples | ||
(最悪の品質、低品質:2)、(絵画、スケッチ、フラットカラー)、モノクロ、グレースケール、醜い顔、悪い顔、悪い解剖学、変形した目、欠けている指、ニキビ、皮膚の傷、nsfw、ヌード、乳首 |
■ 拡散モデルによる画像生成でノイズを除去する回数 ■ サンプリング回数が多いほど繊細な画像が出力されるが画像の生成に時間がかかる |
推奨値:20~100 デフォールト値:20 |
■ 画像を生成する際に、どのような数値計算法を使用するかを指定するオプション ■ 数値計算法の違いは、画像の生成速度や品質に影響がある。最適なサンプリング方法は画像生成モデルやプロンプトなどの様々な条件による |
・DPM++ 2M SDE, DPM++ 2M SDE Heun, DPM++ 3M SDE, LMS, DPM fast, PLM,LCM デフォールト値では正常な生成ができないので 他のパラメータを調整する必要がある モデルによって差はあるがおおむね Steps 80~100 が適当 LMS の場合は回数を増やしたほうが結果は良い 80 ~ 200 |
・LCM は CFG scale を 2.0~4.0 の範囲とすることで概ね良好な画像が生成できる |
■ ノイズの除去をステップごとに増やしていき最終的にノイズをゼロにする曲線比率 ■ バージョン1.90以降デフォルトスケジュール以外のスケジュールも適用できるよう追加された 「Automatic」を選択するとサンプリングメソッドのデフォルトスケジュールが自動的に選択される |
推奨値:Automatic デフォールト値:Automatic |
■ プロンプトに対してどれだけ忠実な画像を生成するかを指定する数値 ■ 数値が大きいほど、プロンプトに忠実な画像を生成。一般的に 7〜11 の範囲で数値を指定 |
推奨値:3.0~11.0 デフォールト値:7.0 |
■ プロンプトをどれだけ正確に反映してほしいかを設定する指標 ■ プロンプト解釈の途中で生成を止め、ある程度プロンプトを無視した抽象的な画像を出力するもの 1〜12 の範囲で数値を指定 |
推奨値:1~6 デフォールト値:1 |
■ 比較画像の作成 ■ 比較対象の要素を3軸まで指定できる。比較画像の保存先「stable-diffusion-webui/outputs/txt2img-grids/XXXX-XX-XX/」(XX… は日付) |
パラメータの違いによる生成画像の出力結果を簡単に比較できる便利機能 |
■「Stable Diffusion」の学習中に生成された画像の特徴を保存した訓練済みモデルファイル ■ 画像のスタイルに関する特徴を持ったファイル。複数のファイルを用意して切り替えることで、さまざまな特徴を持つ画像を生成できる |
生成画像の品質は モデルの設定によって大きく変わるので 用途に合った適切なモデルを選ぶ必要がある |
モデル | ファイル名 (.safetensors) | 用途 | 紹介 URL |
Anime Pastel Dream | animePastelDream_softBakedVae | アニメ風イラストを生成するモデル 商用利用可能 VAEは既に焼き込まれている | 【Stable Diffusionモデル】Anime Pastel Dreamの使い方 |
architecture_Exterior_ SDlife_Chiasedamme | architectureExterior_v60 | 建築物の外観や都市の情景が得意 | architectureExterior_v60 |
Deliberate for Invoke | deliberateForInvoke_v08.ckpt | ディテールが緻密で、リアルなプロダクトデザイン向け | Deliberate for Invoke |
DreamShaper | dreamshaper_8 | コンセプトアートや未来的なデザインを描くのに適している | DreamShaper |
Beautiful Realistic Asians | beautifulRealistic_brav5 Brav6 beautifulRealistic_v7 | アジア人の造形をリアルに再現することを目的に作られたモデル 商用利用可能 リアル系AI美女に適したモデル VAEは指定されていない | beautifulRealistic_brav5 Brav6.safetensors beautifulRealistic_v7 |
chilled_remix | chilled_remix_v2 | リアル系AI美女に適したモデル 商用利用可能 VAEは既に焼き込まれている | 【Stable Diffusionモデル】chilled_remixの使い方 |
ChilloutMix | chilloutmix_NiPrunedFp32Fix | アジア系美少女を生成 商用利用が禁止&br商用利用は「chilled_remix」など&br現在Civitaiでダウンロード可能 (要ログイン) | 大人気モデル『ChilloutMix』のダウンロード方法や使い方を紹介!商用利用についても解説 |
Disney Pixar Cartoon Type A | disneyPixarCartoon_v10 | ピクサー映画のような3Dカートゥーンスタイルの人物画像を生成するモデル 商用利用一部可能 VAE:YOZORA | Disney Pixar Cartoon Type A VAE;YOZORA |
Ether Blu Mix | etherBluMix_etherBluMix7 | パステル調の鮮やかな色彩を持つキャラクターイラストの生成モデル 商用利用一部可能 VAE:Waifu Diffusion VAE kl-f8-anime2 | Ether Blu Mix |
OpenBra | OpenBra | アジア美女リアル系 | OpenBra |
Realism Engine | realismEngine_v10 | リアルな画像の生成 日本人の画像を生成するなら ChilloutMix 人物以外の画像はRealism Engineがかなり使えそう | 【Stable Diffusion 2.1】リアル画像ならRealism Engine realismEngine_v10 |
Realistic Vision | realisticVisionV60B1_v20Novae | リアルな人物の画像を生成 多人数の実写系画像を生成 多人数を描くことにおいては最も優秀なモデル Realistic Vision V2.0は日本人の描画が下手 | 【Stable Diffusion】Realistic Vision V2.0の利用方法 |
Stability AI公式モデル | v1-5-pruned-emaonly Stable Diffusion 2.1 | stable diffsuionデフォールト学習モデル 人物生成には向いているとは言えない 汎用的なモデル | 【stable diffusion】学習モデルによって生成される画像はどう変わるのか? Stable Diffusion 2.1 |
yayoi_mix | yayoiMix_v25 | yayoi_mixはリアル系AI美女に適したモデル 商用利用可能 VAEは指定されていない | 【Stable Diffusionモデル】yayoi_mixの使い方 |
モデルの設置場所:./models/Stable-diffusion/ |
プロンプト Prompt | |
P1 | best quality,masterpiece,ultra high res,(photo realistic:1.4),8K,RAW photo,real human skin,real human face,detailed face,detailed clothes,young beautiful girl, grin, morning glow, pastel sky, cool tones, sun rays, soft light, peaceful atmosphere, early morning serenity, white t shirt, short pants |
最高品質、傑作、超高解像度、(フォトリアル:1.4)、8K、RAW写真、本物の人間の肌、本物の人間の顔、詳細な顔、詳細な服、若い美しい女の子、笑顔、朝焼け、パステルカラーの空、クールなトーン、太陽光線、柔らかな光、平和な雰囲気、早朝の静けさ、白いTシャツ、ショートパンツ | |
P2 | profile picture of a happy middle aged woman with long brown hair standing outside in a sunny park with trees in the background, digital art |
背景に木がある日当たりの良い公園の外に立つ、長い茶色の髪を持つ幸せな中年女性のプロフィール写真、デジタルアート | |
P3 | masterpiece, best quality, ultra high res, extremely realistic,1girl, 1 beautiful woman, look at viewer, tank top, upper body,a mountain in background,beautiful sunset,beautiful eyes, detailed eyes, detailed hair,light on face, |
傑作、最高品質、超高解像度、非常にリアル、女の子 1 人、美しい女性 1 人、ビューアを見る、タンクトップ、上半身、背景の山、美しい夕日、美しい目、詳細な目、詳細な髪、顔の光、 |
ネガティブ・プロンプト Negative prompt | ||
N1 | painting,sketches,(worst quality:2),lowers,(monochrome),(grayscale),illustration,3d,skin spots,acnes,skin blemishes,age spot, ugly face, fat,missing fingers, extra fingers, (extra arms:1.4), open chest,(looking at viewer:1.4),(nipples),(naked),nsfw | |
絵画、スケッチ、(最悪の品質: 2)、下半身、(モノクロ)、(グレースケール)、イラスト、3D、肌のシミ、ニキビ、肌のシミ、シミ、醜い顔、脂肪、欠けた指、余分な指、(余分な腕) :1.4)、開いた胸、(ビューアを見て:1.4)、(乳首)、(裸)、nsfw |
Steps: 20, Sampler: DPM++ 2M, CFG scale: 7, Seed: 614577574, Size: 512x512, Clip skip: 1 |
→ 詳しくは 環境による生成画像の違い
GPU | NVIDIA | Intel® | |||||
RTX-4070Ti | RTX-4060 | RTX-4060L | RTX-3050 | GTX-1050Ti | Iris® Xe Graphics | ||
機種名 | HP-ENVY | HP-VICTUS | MSI-CYBORG | HP-EliteDesk 800 | HP-EliteDesk 800 | DELL XPS 9320 | DELL Latitude 7520 |
1回目(分:秒) | 00:01 | 00:01 | 00:02 | 00:06 | 02:53 | 01:16 | 03:50 |
2回目(分:秒) | 00:01 | 00:01 | 00:02 | 00:06 | 01:15 | 00:20 | 00:59 |
引用 → Stable Diffusionのバージョン解説とWebUIの種類について
バージョン | 基本画像サイズ | 特徴 | 長所 | 短所 |
SD1.5 (Stable Diffusion v1.5) | 512x512 | 最初期の安定したバージョンで多くのユーザーが利用しているモデル 多様なチェックポイントやLoRAが公開され、リアルな画像からアニメ調の画像まで、幅広いStyleに対応する汎用性の高いバージョン | 軽量であり、初心者でも使いやすい。多くのチェックポイントやLoRAとの互換性が高い。(計算リソース目安:GooglecolabのT4GPUハイメモリで1.84/hで十分に生成可能) | 単純な生成結果だと顔の品質が低く、品質を確保するには拡張機能(Adetailerなど)を使わなければいけない。指は崩れやすい |
SDXL (Stable Diffusion XL) | 1024x1024 | 大規模で高解像度の画像を生成するために最適化されたバージョン。特に細かいディテールや複雑な構図の画像を生成する際に力を発揮する | 使いこなせると質の高い画像を生成できる | Refinerを使った再生成などにより、計算量はSD1.5から明らかに増加している。指が相変わらず崩れやすい。 |
Flux1 | 1024x1024 | 現時点最新のモデル、生成スピード重視の schnell、高バランスの dev、と Proの3種がある。Proが最高品質、Local環境で使えるのはschnellとdevのみ | 簡単なプロンプトでも驚異的な品質での生成が可能な上、プロンプトに対する反応や忠実度、再現度も高い、ネガティブプロンプトが原則不要 | チェックポイントのファイルサイズが、通常で20GB程度にもなり非常に大きい。軽量化されたチェックポイントでも10GB程度は必要で、更に計算量も多く、生成には高いGPU能力とメモリが必要(計算リソース目安:GooglecolabのL4GPUハイメモリで4.82/hで生成可能、T4GPUではメモリ不足で生成不可) |
種類 | 特徴 |
Automatic1111 | 最もポピュラーな WebUI、多くのカスタム機能や拡張が利用可能。特に初心者にとっては使いやすく、コミュニティも活発でサポートが充実している。拡張機能が豊富で、カスタマイズ性が高い。安定したパフォーマンスが期待できる https://github.com/AUTOMATIC1111/stable-diffusion-webui |
WebUI Forge | パフォーマンスの最適化、メモリ処理に優れた WebUI。生成速度が早く、大量の生成や連続処理に強いのが特徴。UIも使いやすく、生成プロセスを効率化できる 2024/6 以降は実験的ブランチになっており、一般的な使用は非推奨 → 「Stable Diffusion webUI」の今 |
WebUI reForge | Forge の後継。軽量化と生成速度の速さなどの Forge の特徴を引き継ぎ活動も活発(2025/3 現在) https://github.com/Panchovix/stable-diffusion-webui-reForge |
SD.Next | AUTOMATIC1111のフォーク版。主要な拡張機能が事前インストールされている。PyTorch 2.0 に最適化されていて、生成が速い https://github.com/vladmandic/sdnext |
Fooocus | 難しいパラメーターの調整が不要で、プロンプトを入力したり作りたい画像スタイルをボタンで選んだりするだけで簡単にハイクオリティ画像が作れる画像生成AIツール(SDXLモデル専用) https://github.com/lllyasviel/Fooocus |
ComfyUI | ビジュアルプログラミングに近い操作性を持つ WebUIで、画像生成の各ステップを細かく制御できる。ノードベースで、複雑なプロンプトや生成プロセスを視覚的に管理できるのが特徴です。高度なカスタマイズが可能で、細かい生成パラメータを視覚的に調整でき、プロフェッショナル向けの高度な生成に向いている https://github.com/comfyanonymous/ComfyUI |
種類 | 特徴 |
StabilityMatrix | 「Automatic1111」「reForge」「SDNext」「Fooocus」「ComfyUI」など多数の Stable Diffusion 環境に対応し、事前のパッケージ・インストールや環境構築が不要。複数の Stable Diffusion 環境間でモデルファイルを共有することができる https://github.com/LykosAI/StabilityMatrix |