AI_Program9 のバックアップ(No.33)

私的AI研究会 > AI_Program9

生成 AI プログラミング９ == 編集中 == †

　これまで検証してきた結果をもとに、Python で生成 AI プログラムを書く

▲　目　次

生成 AI プログラミング９ == 編集中 ==
参考資料

※ 最終更新:2025/07/17　

↑

diffusersではじめめる Stable Diffusion （実践編） †

　画像生成のプログラムを書く

↑

概要 †

この章で作成するプログラム一覧と実行速度の目安

Step		プログラム	GPU					CPU
Step		プログラム	RTX 4070Ti	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P
80	テキストから画像生成（txt2img）」	sd_080.py	00:03	00:08	00:11	00:18	03:59	05:58
81	～コマンドラインからパラメータ入力～	sd_081.py	00:09	00:09	00:22	00:14	00:38	06:22
82	～ GUI プログラム～	sd_082.py	※
90	画像から画像生成（img2img）」	sd_090.py	00:05	00:08	00:23	00:37	03:06	23:42
91	～コマンドラインからパラメータ入力～	sd_091.py	00:08	00:07	00:16	00:12	00:17	05:20
92	～ GUI プログラム～	sd_092.py	※

　・単位　（時：）分：秒
　※ 画像1枚の生成時間は入力条件による

コマンドオプション

コマンドオプション	引数	初期値	意味
--result_image	str	'./sd_results/sd.png'	保存するファイルパスとヘッダ名の指定
--cpu	bool	False	cpu mode の時に設定する（パラメータ不要）
--log	int	3	Log level(-1/0/1/2/3/4/5)
--model_dir	str	'/StabilityMatrix/Data/Models/StableDiffusion'	モデルフォルダのパス
--model_path	str	'SD1.5/beautifulRealistic_brav5.safetensors'	モデルファイル
--ctrl_model_dir	str	'/StabilityMatrix/Data/Models/ControlNet'	コントロールネット・モデルフォルダのパス
--ctrl_model_path	str	'control_v11e_sd15_ip2p_fp16.safetensors'	コントロールネット・モデルファイル
--image_path	str	'images/StableDiffusion_247.png'	入力画像のファイル・パス名
--max_size	int	0	入力画像リサイズの最大値（0=入力画像サイズ）
--prompt	str	'黒髪で短い髪の女性'	画像生成のためのプロンプト（日本語/英語）
--seed	int	-1	シード値（-1の時はランダムに生成）
--width	int	512	画像サイズの横幅
--height	int	512	画像サイズの高さ
--step	int	30	生成ステップ数
--scale	float	7.0	ガイダンススケール値
--image_scale	float	1.5	イメージ・ガイダンススケール値
--cc_scale	float	1.0	controlnet conditioning scale
--strength	float	0.5	変化の強さを表すパラメータ

　・オプション定義・初期値はプログラムによって異なる
　・モデルは --model_dir パラメータで指定したフォルダに配置する
　・モデル名は --model_path パラメータで指定する
　・SD1.5 モデルのモデル名の先頭は「SD15/」でなければならない（「モデルフォルダ/SD15」に配置されていること）

↑

動作環境 †

このプロジェクトは以下の Anaconda 仮想環境とプロジェクト・フォルダで動作する
```
(base) PS > conda activate sd_test
(sd_test) PS > cd workspace_3/sd_test
```

↑

Step 80：テキストから画像を生成する †

　「Stable Diffusion」txt2img 機能を使う最低限の基本サンプル・コード

「sd_080.py」

## sd_080.py【SD1.5】　テキストから画像生成（txt2img）サンプル・ソースコード
##  Ver 0.00    2025/06/16
##  Ver 0.02    2025.07.13  汎用コードを sd_tools に分離

import torch
from diffusers import StableDiffusionPipeline, logging
from translate import Translator
import sd_tools as sdt

logging.set_verbosity_error()

# フォルダーのパス
model_path = "/StabilityMatrix/Data/Models/StableDiffusion/SD1.5/v1-5-pruned-emaonly.safetensors"   # モデル
save_path = 'results/image_080.png'                                                                 # 生成画像

# プロンプト
prompt_jp = '満開の蘭'                                                                              # プロンプト
prompt = sdt.trans_jp2en(prompt_jp)

# GPUを使う場合は"cuda" 使わない場合は"cpu"
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# seed 値
seed = 12345678

# パイプラインを作成
pipeline = StableDiffusionPipeline.from_single_file(model_path).to(device)

# Generatorオブジェクト作成
generator = torch.Generator(device).manual_seed(seed)

print(f'Seed: {seed}, Model: {model_path}')
print(f'prompt : {prompt_jp} → {prompt}')

# 画像を生成
image = pipeline(
                    prompt=prompt,
                    num_inference_steps = 30,
                    guidance_scale = 7.5,
                    width = 512,
                    height = 512,
                    generator = generator,
                    ).images[0]

sdt.image_save2(image, save_path, save_path)

プログラムを実行する（実行時間：約 3秒 RTX 4070 Ti 12GB）

 python sd_080.py

(sd_test) PS > python sd_080.py
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:00<00:00, 10.98it/s]
Seed: 12345678, Model: /StabilityMatrix/Data/Models/StableDiffusion/SD1.5/v1-5-pruned-emaonly.safetensors
prompt : 満開の蘭 → Orchid in full bloom
100%|██████████████████████████████████████████| 30/30 [00:03<00:00,  8.35it/s]

画像ファイル「sd_080.png」が生成される

↑

Step 81：「テキストから画像生成（txt2img）」～コマンドラインからパラメータ入力～ †

主な機能
・コマンドラインから「diffusers」の各種パラメータにアクセスできる
・パラメータを付けない場合は初期値で動作する（すべてつけない場合はシード値がランダムで他のパラメータは sd_080.py と同じ）
・SD1.5 と SDXL のモデルに対応する（SD1.5 モデルは「SD1.5/」ディレクトリ名のフォルダに配置されていることを前提にする）
・日本語/英語のプロンプト入力に対応（日本語の場合は自動翻訳で対応）
・以後のプログラムからアクセスできることを意識してできるだけ API 関数とした

出力ファイルの保存場所とファイル名（--result_image ' デフォールト指定の時）
・「./sd_results」フォルダに保存される（無ければ作られる）
・ファイル名「sd_5桁の連番_シード値.png」

コマンドオプション一覧

コマンドオプション	引数	初期値	意味
--result_image	str	'./sd_results/sd.png'	保存するファイルパスとヘッダ名の指定
--cpu	bool	False	cpu mode.
--log	int	3	Log level(-1/0/1/2/3/4/5)
--model_dir	str	'/StabilityMatrix/Data/Models/StableDiffusion'	モデルフォルダのパス
--model_path	str	'SD1.5/v1-5-pruned-emaonly.safetensors'	モデルファイル
--prompt	str	'満開の蘭'	画像生成のためのプロンプト（日本語/英語）
--seed	int	-1	シード値（-1の時はランダムに生成）
--width	int	512	生成画像サイズの幅
--height	int	512	生成画像サイズの高さ
--step	int	30	生成ステップ数
--scale	float	7.0	ガイダンススケール値

コマンド実行例

 python sd_081.py

(sd_test) PS > python sd_081.py

Stable Diffusion with diffusers(081)  Ver 0.02: Starting application...

 --result_image             :   ./sd_results/sd.png
 --cpu                      :   False
 --log                      :   3
 --model_dir                :   /StabilityMatrix/Data/Models/StableDiffusion
 --model_path               :   SD1.5/v1-5-pruned-emaonly.safetensors
 --prompt                   :   満開の蘭
 --seed                     :   -1
 --width                    :   512
 --height                   :   512
 --step                     :   30
 --scale                    :   7.0

prompt: Orchid in full bloom
width: 512, height: 512
seed: 4135585706
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:01<00:00,  3.54it/s]
100%|██████████████████████████████████████████| 30/30 [00:01<00:00, 15.44it/s]
result_file: ./sd_results/sd_00007_4135585706.png

Finished.

モジュール・ソースコード

▼「sd_081.py」

# -*- coding: utf-8 -*-
##--------------------------------------------------
##  Stable Diffusion with diffusers(081)   Ver 0.02
##
##               2025.06.17 Masahiro Izutsu
##--------------------------------------------------
## sd_081.py
##  Ver 0.01    2025.06.17  SD1.5/SDXL 対応版
##  Ver 0.02    2025.07.13  汎用コードを sd_tools に分離

# タイトル
title = 'Stable Diffusion with diffusers(081)  Ver 0.02'

import warnings
warnings.simplefilter('ignore')

# インポート＆初期設定
import os
import torch
from diffusers import StableDiffusionPipeline, logging          # SD1.5
from diffusers import StableDiffusionXLPipeline                 # SDXL

import my_logging
import sd_tools as sdt

logging.set_verbosity_error()                                   # 不要なエラー出力の抑制

# コマンドライン定義
opt_list = [
            ['result_image', './sd_results/sd.png', 'path to output image file'],
            ['cpu', 'store_true', 'cpu mode'],
            ['log', '3', 'Log level(-1/0/1/2/3/4/5) Default value is \'3\''],
            ['model_dir', '/StabilityMatrix/Data/Models/StableDiffusion', 'Model directory'],
            ['model_path', 'SD1.5/v1-5-pruned-emaonly.safetensors', 'Model Path'],
            ['prompt', '満開の蘭', 'Prompt text'],
            ['seed', -1, 'Seed parameter (-1 = rundom)'],
            ['width', 512, 'image size width'],
            ['height', 512, 'image size height'],
            ['step', 30, 'infer step'],
            ['scale', 7.0, 'gaidanse scale'],
           ]

# 画像生成
def image_generation(model, prompt, seed, num_inference_steps = 50, guidance_scale = 7.0, width = 512, height = 512, device = 'cpu'):
    # パイプラインを作成
    if device == 'cpu':
        if sdt.is_sd15(model):
            pipeline = StableDiffusionPipeline.from_single_file(model).to(device)
        else:
            pipeline = StableDiffusionXLPipeline.from_single_file(model).to(device)
    else:
        if sdt.is_sd15(model):
            pipeline = StableDiffusionPipeline.from_single_file(model, torch_dtype = torch.float16).to(device)
        else:
            pipeline = StableDiffusionXLPipeline.from_single_file(model, torch_dtype = torch.float16).to(device)

    # Generatorオブジェクト作成
    generator = torch.Generator(device).manual_seed(seed)

    # 画像を生成
    img = pipeline(
                    prompt = prompt,
                    num_inference_steps = num_inference_steps,
                    guidance_scale = guidance_scale,
                    width = width,
                    height = height,
                    generator = generator
                    ).images[0]
    return img

# メモリー開放
def device_empty_cache(device):
    if device == 'cuda':
        torch.cuda.empty_cache()
    elif device == 'mps':
        torch.mps.empty_cache()


# ** main関数 **
def main(opt):
    # パラメータ設定
    device = sdt._get_device(opt, logger)
    result_path = sdt._get_result_path(opt, logger)
    result_file = sdt._get_result_file(opt, logger)
    prompt = sdt._get_prompt(opt, logger)
    model_path = sdt._get_model_path(opt, logger)
    height, width = sdt._get_image_size(opt, logger)
    seed = sdt._get_seed_value(opt, logger)
    num_inference_steps = sdt._get_inference_steps(opt, logger)
    guidance_scale = sdt._get_guidance_scale(opt, logger)

    # 出力フォルダ
    os.makedirs(result_path, exist_ok = True)

    # 画像生成
    image = image_generation(model_path, prompt, seed, num_inference_steps, guidance_scale, width, height, device)
    filename = result_path + '/' + sdt.make_filename_by_seq(result_path, result_file, seq_digit = 5, ex = seed)
    sdt.image_save2(image, filename, filename)
    logger.info(f'result_file: {filename｝')


# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    parser = sdt.parse_args(None, opt_list)
    opt = parser.parse_args()
    sdt._get_device(opt)
    sdt.display_info(opt, title)

    # アプリケーション・ログ設定
    module = os.path.basename(__file__)
    module_name = os.path.splitext(module)[0]
    logger = my_logging.get_module_logger_sel(module_name, int(opt.log))

    main(opt)

    logger.info('\nFinished.\n')

　※ 上記ソースコードは表示の都合上、半角コード '}' が全角 '｝'になっていることに注意

↑

Step 82：「テキストから画像生成（txt2img）」～ GUI プログラム～ †

GUI 処理のために足りないパッケージをインストールする

(sd_test) PS > pip install opencv-python ffmpeg-python imageio scikit-image pyaudio

インストール確認

(sd_test) PS > python -c 'import cv2;print(cv2.__version__)'
4.11.0

主な機能と使い方
・コマンドライン入力プログラム（sd_081.py）を GUI インターフェースで実行する
・生成のための主要なパラメータを GUI インターフェースで指定・変更できる
・生成結果画像からパラメータを設定可能

・使い方

　① 生成画像表示エリア（クリックすると過去の生成画像を選択することができる）
　② 生成画像のファイルパス名
　③ モデル名（パス名は起動パラメータによる）
　④「モデル選択ボタン」（モデルのパスは変更不可）
　⑤ プロンプト入力エリア（日本語/英語）
　⑥ 生成に使用するプロンプト（日本語入力の場合自動翻訳）
　⑦ 生成画像サイズ
　⑧ シード値入力エリア（-1 = ランダム生成）
　⑨ 生成に使用するシード値
　⑩ 生成ステップ数（10～150）
　⑪ ガイダンススケール（1～10）
　⑫ デバイス選択（CPU/GPU）
　⑬ 画像生成枚数（繰り返しの値：1～50）
　⑭「画像生成開始」ボタン
　⑮「終了」ボタン

コマンド実行例

 python sd_082.py

(sd_test) PS > python sd_082.py

Stable Diffusion with diffusers(082)  Ver 0.01: Starting application...

   - result_image            :  ./sd_results/sd.png
   - cpu                     :  False
   - log                     :  3
   - model_dir               :  /StabilityMatrix/Data/Models/StableDiffusion
   - model_path              :  SD1.5/v1-5-pruned-emaonly.safetensors
   - prompt                  :  満開の蘭
   - seed                    :  -1
   - width                   :  512
   - height                  :  512
   - step                    :  30
   - scale                   :  7.5

prompt: Orchid in full bloom
size: 512, 512
** Start 1 **
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:00<00:00, 20.38it/s]
100%|██████████████████████████████████████████| 30/30 [00:03<00:00,  8.51it/s]
result_file: ./sd_results/sd_00023_3411634370.png
** Complete ** 00:00:11

Finished.

モジュール・ソースコード

▼「sd_082.py」

# -*- coding: utf-8 -*-
##--------------------------------------------------
##  Stable Diffusion with diffusers(082)   Ver 0.03
##      GUI interface
##               2025.06.17 Masahiro Izutsu
##--------------------------------------------------
## sd_082.py
##  Ver 0.00    2025.06.17  GUI 対応版
##  Ver 0.01    2025.06.20  Loop count
##  Ver 0.02    2025.06.24  model 変更対応
##  Ver 0.03    2025.06.26  cpu 対応
##  Ver 0.04    2025.07.13  汎用コードを sd_tools に分離

# タイトル
title = 'Stable Diffusion with diffusers(082)  Ver 0.04'

import warnings
warnings.simplefilter('ignore')

# インポート＆初期設定
import os
import numpy as np
import time
import csv
import cv2
import PySimpleGUI as sg
import sd_081 as sd
import my_logging
import my_csv
import my_thumbnail
import my_dialog
import my_imagetool
import sd_tools as sdt

# 定数定義
DEF_THEME = 'BlueMono'
CANVAS_SIZE = 512
KEY_CANCEL = '-Cancel-'

KEY_IMAGE = '-Image-'
KEY_OUTPATH = '-Output-'
KEY_MODEL = '-Model-'
KEY_MODELSEL = '-Model_sel-'
KEY_PROMPT_JP = '-PromptJP-'
KEY_PROMPT = '-Prompt-'
KEY_WIDTH = '-Width-'
KEY_HEIGHT = '-Height-'
KEY_SEED_INPUT = '-Seed_input-'
KEY_SEED = '-Seed-'
KEY_STEP = '-Step-'
KEY_SCALE = '-Scale-'
KEY_CPU = '-CPU-'
KEY_GPU = '-GPU-'
KEY_DEVICE = '-Device-'
KEY_EXIT = '-Exit-'
KEY_GENERATE = '-Generate-'
KEY_LOOP = '-Loop-'

SKEY_RESULT_PATH = '-result_path-'
SKEY_RESULT_FILE = '-result_file-'
SKEY_MODEL_DIR = '-model_dir-'
SKEY_DEF_OUTPATH = '-default_image-'

KEY_TIME = '-Time-'

DEF_IMAGE = './sd_results/sd_00000_12345678.png'
CSV_LOG_FILE = 'result.csv'

# ウィジェットのデータの取得（1回目）
def get_paramlist(window, values, param):
    param[KEY_MODEL] = window[KEY_MODEL].DisplayText
    param[KEY_WIDTH] = int(values[KEY_WIDTH])
    param[KEY_HEIGHT] = int(values[KEY_HEIGHT])
    param[KEY_SEED] = sdt.get_random_seed_value(values[KEY_SEED_INPUT])
    param[KEY_STEP] = int(values[KEY_STEP])
    param[KEY_SCALE] = float(values[KEY_SCALE])
    param[KEY_DEVICE] = 'cpu' if values[KEY_CPU] == True else 'cuda'
    param[KEY_PROMPT_JP] = values[KEY_PROMPT_JP]
    param[KEY_PROMPT] = sdt.trans_jp2en(param[KEY_PROMPT_JP])

    param[KEY_LOOP] = int(values[KEY_LOOP])
    if param[KEY_LOOP] < 1:
        param[KEY_LOOP] = 1
    if param[KEY_LOOP] > 50:
        param[KEY_LOOP] = 50

# ウィジェットのデータの取得（2回目以降）
def get_paramlist2(window, values, param):
    if int(values[KEY_SEED_INPUT]) > 0:
        param[KEY_SEED] = param[KEY_SEED] + 1
    else:
        param[KEY_SEED] = sdt.get_random_seed_value(values[KEY_SEED_INPUT])

# 結果を CSV ファイルに残す
def result_csv(csvfile, param, logger):
    my_csv_treatment = my_csv.CSVtreatment(csvfile, 'utf_8_sig')
    s = my_csv_treatment.read_csv()
    if len(s) ==0:
        data = []
        data.append(KEY_OUTPATH)
        data.append(KEY_SEED)
        data.append(KEY_PROMPT_JP)
        data.append(KEY_PROMPT)
        data.append(KEY_WIDTH)
        data.append(KEY_HEIGHT)
        data.append(KEY_STEP)
        data.append(KEY_SCALE)
        data.append(SKEY_MODEL_DIR)
        data.append(KEY_MODEL)
        data.append(KEY_DEVICE)
        data.append(KEY_TIME)
        data.append(KEY_LOOP)
        my_csv_treatment.write_csv(data)
        logger.debug(data)

    data = []
    data.append(param[KEY_OUTPATH])
    data.append(str(param[KEY_SEED]))
    data.append(param[KEY_PROMPT_JP])
    data.append(param[KEY_PROMPT])
    data.append(str(param[KEY_WIDTH]))
    data.append(str(param[KEY_HEIGHT]))
    data.append(str(param[KEY_STEP]))
    data.append(str(param[KEY_SCALE]))
    data.append(param[SKEY_MODEL_DIR])
    data.append(param[KEY_MODEL])
    data.append(param[KEY_DEVICE])
    data.append(param[KEY_TIME])
    data.append(param[KEY_LOOP])
    my_csv_treatment.append_csv(data)
    logger.debug(data)

# 結果ログからパラメータを取得
def read_result_csv(csvfile, param, logger, imgfile = '0' ):
    bf = False

    try:
        with open(csvfile, 'r', encoding = 'utf_8_sig') as f:
            reader = csv.DictReader(f)
            if imgfile == '0':                                  # 最初の行
                for dd in reader:
                    bf = True
                    break

            elif imgfile == '1':                                # 最後の行
                for dd in reader:
                    bf = True
                    continue

            else:                                               # 出力ファイルの行
                for dd in reader:
                    if dd[KEY_OUTPATH] == imgfile:
                        bf = True
                        break

    except FileNotFoundError as e:
        pass
    except csv.Error as e:
        logger.debug(e)

    if bf:
        param[KEY_OUTPATH] = dd[KEY_OUTPATH]
        param[KEY_SEED_INPUT] = int(dd[KEY_SEED])               # シード値を固定
        param[KEY_PROMPT_JP] = dd[KEY_PROMPT_JP]
        param[KEY_PROMPT] = dd[KEY_PROMPT]
        param[KEY_WIDTH] = int(dd[KEY_WIDTH])
        param[KEY_HEIGHT] = int(dd[KEY_HEIGHT])
        param[KEY_STEP] = int(dd[KEY_STEP])
        param[KEY_SCALE] = float(dd[KEY_SCALE])
        param[KEY_MODEL] = dd[KEY_MODEL]
        logout_data(dd, logger)

    elif os.path.isfile(imgfile):
        seed = sdt.path2seed(imgfile)                           # ファイル名に含まれるシード値
        param[KEY_OUTPATH] = dd[KEY_OUTPATH] = imgfile
        param[KEY_SEED_INPUT] = dd[KEY_SEED] = seed
        logout_data(dd, logger)
        bf = True

    return bf

# 動的パラメータの出力
def logout_data(dd, logger):
    logger.debug('---------------------------------------------')
    logger.debug(dd[KEY_OUTPATH])
    logger.debug(int(dd[KEY_SEED]))
    logger.debug(dd[KEY_PROMPT_JP])
    logger.debug(dd[KEY_PROMPT])
    logger.debug(int(dd[KEY_WIDTH]))
    logger.debug(int(dd[KEY_HEIGHT]))
    logger.debug(int(dd[KEY_STEP]))
    logger.debug(float(dd[KEY_SCALE]))
    logger.debug(dd[SKEY_MODEL_DIR])
    logger.debug(dd[KEY_MODEL])
    logger.debug(dd[KEY_DEVICE])
    logger.debug('---------------------------------------------')

# 画像生成
def generate_image(param):
    model = param[SKEY_MODEL_DIR] + '/' + param[KEY_MODEL]
    prompt = param[KEY_PROMPT]
    width = param[KEY_WIDTH]
    height = param[KEY_HEIGHT]
    seed = param[KEY_SEED]
    num_inference_steps = param[KEY_STEP]
    guidance_scale = param[KEY_SCALE]
    device = param[KEY_DEVICE]
    out_path = param[SKEY_RESULT_PATH] + '/' + sdt.make_filename_by_seq(param[SKEY_RESULT_PATH], param[SKEY_RESULT_FILE], seq_digit = 5, ex = seed)
    param[KEY_OUTPATH] = out_path

    logger.debug(f'model: {model｝')
    logger.debug(f'prompt: {prompt｝')
    logger.debug(f'width: {width｝')
    logger.debug(f'height: {height｝')
    logger.debug(f'seed: {seed｝')
    logger.debug(f'num_inference_steps: {num_inference_steps｝')
    logger.debug(f'guidance_scale: {guidance_scale｝')
    logger.debug(f'device: {device｝')
    logger.debug(f'loop: {param[KEY_LOOP]｝')
    logger.debug(f'out_path: {out_path｝')

    image = sd.image_generation(model, prompt, seed, num_inference_steps, guidance_scale, width, height, device)
    image.save(out_path)
    logger.info(f'result_file: {out_path｝')

    sd.device_empty_cache(device)                               # メモリー開放


# ** main関数 **
def main(opt, logger):
    # ------------------------------------------
    # キャンバスをクリア
    def clear_canvas(key, msg, color):
        frame = np.zeros((CANVAS_SIZE, CANVAS_SIZE, 3), np.uint8)
        frame[:,:,] = 0xf0
        return msg_out_canvas(key, frame, msg, color)

    def msg_out_canvas(key, frame, msg, color):
        x0,y0,x1,y1 = cv2_putText(img=frame, text=msg, org=(CANVAS_SIZE//2, CANVAS_SIZE//2), fontFace=font_face, fontScale=16,  color=color, mode=2,areaf=True)
        cv2.rectangle(frame,(x0-8, y0), (x1+8, y1), (0xf0,0xf0,0xf0), -1)
        img = cv2_putText(img=frame, text=msg, org=(CANVAS_SIZE//2, CANVAS_SIZE//2), fontFace=font_face, fontScale=16,  color=color, mode=2)
        img = cv2.imencode('.png', frame)[1].tobytes()
        window[key].update(img)
        return frame

    # キャンバスへ画像の表示
    def update_canvas(key, imgfile):
        if os.path.isfile(imgfile):
            frame = cv2.imread(imgfile)
            frame = my_imagetool.frame_square(frame)
            frame = cv2.resize(frame, dsize = (CANVAS_SIZE, CANVAS_SIZE))
            img = cv2.imencode('.png', frame)[1].tobytes()
            window[key].update(img)
        else:
            frame = clear_canvas(key, 'Generate Image', (0,0,0))

        return frame

    # ウイジェットの更新
    def update_widget():
        frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])
        window[KEY_OUTPATH].update(param[KEY_OUTPATH])
        window[KEY_SEED].update(param[KEY_SEED_INPUT])          # シード値の表示
        window[KEY_PROMPT_JP].update(param[KEY_PROMPT_JP])
        window[KEY_PROMPT].update(param[KEY_PROMPT])
        window[KEY_MODEL].update(param[KEY_MODEL])
        window[KEY_WIDTH].update(param[KEY_WIDTH])
        window[KEY_HEIGHT].update(param[KEY_HEIGHT])
        window[KEY_STEP].update(param[KEY_STEP])
        window[KEY_SCALE].update(param[KEY_SCALE])
        window[KEY_CPU].update(param[KEY_DEVICE] == 'cpu')
        window[KEY_GPU].update(param[KEY_DEVICE] == 'cuda')
        return frame

    # ウイジェットの禁止・許可
    def set_enb_dis(disabled):
        window[KEY_MODELSEL].update(disabled = disabled)
        window[KEY_GENERATE].update(disabled = disabled)
        window[KEY_LOOP].update(disabled = disabled)
        window[KEY_EXIT].update(disabled = disabled)

    # ------------------------------------------

    # パラメータ設定
    device = sdt._get_device(opt, logger)
    result_path = sdt._get_result_path(opt, logger)
    result_file = sdt._get_result_file(opt, logger)
    prompt = sdt._get_prompt(opt, logger)
    model_path = sdt._get_model_path(opt, logger)
    height, width = sdt._get_image_size(opt, logger)
    seed = sdt.path2seed(DEF_IMAGE)                             # 初期ファイル名に含まれるシード値
    num_inference_steps = sdt._get_inference_steps(opt, logger)
    guidance_scale = sdt._get_guidance_scale(opt, logger)

    param = {｝
    param[KEY_OUTPATH] = DEF_IMAGE
    param[KEY_PROMPT_JP] = opt.prompt
    param[KEY_PROMPT] = prompt
    param[KEY_MODEL] = opt.model_path
    param[KEY_WIDTH] = width
    param[KEY_HEIGHT] = height
    param[KEY_SEED_INPUT] = opt.seed
    param[KEY_SEED] = seed
    param[KEY_STEP] = num_inference_steps
    param[KEY_SCALE] = guidance_scale
    param[KEY_DEVICE] = device
    param[KEY_LOOP] = 1
    param[KEY_TIME] = sdt.elapsed_time_str(0)
    param[SKEY_RESULT_PATH] = result_path
    param[SKEY_RESULT_FILE] = result_file
    param[SKEY_MODEL_DIR] = opt.model_dir
    logout_data(param, logger)
    csvfile = param[SKEY_RESULT_PATH]+ '/' + CSV_LOG_FILE       # 出力画像ログファイル名

    # 出力フォルダ
    os.makedirs(result_path, exist_ok = True)

    # フォント取得
    from my_puttext import get_font, cv2_putText
    font_face = get_font()

    # ウィンドウのテーマ
    sg.theme(DEF_THEME)

    canvas_img = sg.Image(size = (CANVAS_SIZE, CANVAS_SIZE), key=KEY_IMAGE)

    # ウィンドウのレイアウト
    col_right = [[sg.Text('Stable Diffusion with diffusers', size=(30, 1), justification='center', font='Helvetica 20')],
              [sg.Text("", size=(10, 1))],
              [sg.Text("Output File", size=(14, 1)), sg.Text(param[KEY_OUTPATH], size=(48,1), key=KEY_OUTPATH)],
              [sg.Text("Model", size=(14, 1)), sg.Text(param[KEY_MODEL], size=(38,1), text_color='#008800', background_color='LightSteelBlue1', key=KEY_MODEL),sg.Button('Model', size=(6, 1), key=KEY_MODELSEL)],
              [sg.Text("Prompt input", size=(14, 1)), sg.Multiline(param[KEY_PROMPT_JP], size=(52,4), key=KEY_PROMPT_JP)],
              [sg.Text("Prompt", size=(14, 1)), sg.Multiline(param[KEY_PROMPT], size=(52,4), text_color='#008800', background_color='LightSteelBlue1', key=KEY_PROMPT)],
              [sg.Text("Image size (pixel)", size=(14, 1)), sg.Text("Width: ", size=(4, 1)), sg.Input(param[KEY_WIDTH], size=(10,1), key=KEY_WIDTH), sg.Text("Height: ", size=(4, 1)), sg.Input(param[KEY_HEIGHT], size=(10,1), key=KEY_HEIGHT)],

              [sg.Text("Seed  (-1=Random)", size=(14, 1)), sg.Input(param[KEY_SEED_INPUT], size=(20,1), key=KEY_SEED_INPUT), sg.Text(param[KEY_SEED], size=(20,1), text_color='#008800', background_color='LightSteelBlue1', key=KEY_SEED)],
              [sg.Text("Detail (Steps)", size=(14, 1)), sg.Slider((10, 150), float(param[KEY_STEP]), 1, orientation='h', size=(42, 5), key=KEY_STEP)],
              [sg.Text("Guidance Scale", size=(14, 1)), sg.Slider((1, 50), float(param[KEY_SCALE]), 0.1, orientation='h', size=(42, 5), key=KEY_SCALE)],
              [sg.Text("Device", size=(14, 1)), sg.Radio('CPU', group_id='device', default=(device == 'cpu'), key=KEY_CPU), sg.Radio("GPU", group_id='device', default=(device == 'cuda'), key=KEY_GPU)],
              [sg.Text("", size=(10, 3))],
              [sg.Text("Loop count (1-50)", size=(14, 1)), sg.Input(param[KEY_LOOP], size=(2,1), justification='right', key=KEY_LOOP), sg.Text("", size=(4, 1)), sg.Button('Generate', size=(10, 1), key=KEY_GENERATE), sg.Text("", size=(10, 1)), sg.Button('Exit', size=(10, 1), key=KEY_EXIT)]
    ]

    layout = [[canvas_img, sg.Column(col_right, vertical_alignment='top')]]

    # ウィンドウオブジェクトの作成
    window = sg.Window(title, layout, finalize=True, return_keyboard_events=True)

    # ユーザーイベントの定義
    canvas_img.bind('<ButtonPress>', '_click_on')

    # キャンバス初期化
    ss = param[KEY_SEED_INPUT]                                  # 最初のシード入力値
    bf = read_result_csv(csvfile, param, logger, '1')
    if bf:
        frame = update_widget()
        param[KEY_SEED] = param[KEY_SEED_INPUT]
        param[KEY_SEED_INPUT] = ss
        window[KEY_SEED].update(param[KEY_SEED])
        window[KEY_SEED_INPUT].update(param[KEY_SEED_INPUT] )
    else:
        frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])

    param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]                # 現在の画像パス

    new_make_f = False
    window[KEY_PROMPT].update(disabled = True)

    # イベントのループ
    while True:
        event, values = window.read(timeout = 30)

        # 画像生成
        if new_make_f:
            # 処理プロセス
            logger.info(f'{sdt.CYAN｝** Start {param[KEY_LOOP]｝ **{sdt.NOCOLOR｝')
            start_time = time.time()
            generate_image(param)
            param[KEY_TIME] = sdt.elapsed_time_str(time.time() - start_time)
            result_csv(csvfile, param, logger)

            frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])
            param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]        # 現在の画像パス
            window[KEY_OUTPATH].update(param[KEY_OUTPATH])
            param[KEY_LOOP] = param[KEY_LOOP] - 1
            window[KEY_LOOP].update(param[KEY_LOOP])

            if param[KEY_LOOP] < 1:
                param[KEY_LOOP] = 1
                window[KEY_LOOP].update(param[KEY_LOOP])
                set_enb_dis(False)
                new_make_f = False
            else:
                get_paramlist2(window, values, param)
                window[KEY_SEED].update(param[KEY_SEED])

            logger.info(f'{sdt.CYAN｝** Complete **{sdt.NOCOLOR｝ {param[KEY_TIME]｝')

        # 終了
        if event == KEY_EXIT or event == sg.WIN_CLOSED:
            break

        # KEY_IMAGE
        if event == KEY_IMAGE + '_click_on':
            logger.debug(f'{event｝')
            set_enb_dis(True)
            def_file = param[SKEY_DEF_OUTPATH]
            if os.path.isfile(def_file):
                imgfile = my_thumbnail.image_dialog(def_file, 'Image file select', my_thumbnail.DEF_THEME, 10, 4, ret = '', logger = logger)
                if os.path.isfile(imgfile):
                    logger.debug(f'Output select: {imgfile｝')
                    bf = read_result_csv(csvfile, param, logger, imgfile)
                    if bf:
                        frame = update_widget()
                        param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]
            set_enb_dis(False)

        # Model ボタン
        if event == KEY_MODELSEL:
            logger.debug(f'{event｝')
            set_enb_dis(True)

            s0 = param[KEY_MODEL]
            id = s0.find('/')
            s1 = '/' + s0[:id] if id > 0 else ''
            s2 = param[SKEY_MODEL_DIR] + s1
            ttl = 'モデルファイルを選択'
            types = [("Model file", ".safetensors .pt"), ("model", ".safetensors"), ("pt file", ".pt") ]
            filename = my_dialog.file_dialog(ttl, types, s2)
            if len(filename) > 0:
                s3 = os.path.basename(filename)         # ファイル名
                s4 = os.path.dirname(filename)          # ディレクトリ名
                id = s4.find('SD1.5')
                if id >= 0 and id == len(s4) - 5:       # SD1.5
                    s5 = s4[:id - 1]
                    s3 = 'SD1.5/' + s3
                else:                                   # SDXL
                    s5 = s4
                param[KEY_MODEL] = s3

                s6 = os.path.abspath(param[SKEY_MODEL_DIR])
                s7 = s6.replace('\\', '/')
                if s7 == s5:                                    # モデルディレクトリは変更不可
                    window[KEY_MODEL].update(param[KEY_MODEL])
                    logger.debug(f'{param[SKEY_MODEL_DIR]｝/{param[KEY_MODEL]｝')
                else:
                    my_dialog.warning_dialog(ttl, 'モデルディレクトリは変更できません')

            set_enb_dis(False)

        # Genarate ボタン
        if event == KEY_GENERATE:
            logger.debug(f'{event｝')
            set_enb_dis(True)
            get_paramlist(window, values, param)
            frame = msg_out_canvas(KEY_IMAGE, frame, 'Generating ...', (240,0,0))
            window[KEY_OUTPATH].update('')
            window[KEY_PROMPT].update(param[KEY_PROMPT])
            window[KEY_SEED].update(param[KEY_SEED])
            new_make_f = True

    # ウィンドウ終了処理
    window.close()


# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    parser = sdt.parse_args(None, sd.opt_list)
    opt = parser.parse_args()

    # アプリケーション・ログ設定
    module = os.path.basename(__file__)
    module_name = os.path.splitext(module)[0]
    logger = my_logging.get_module_logger_sel(module_name, int(opt.log))

    sdt._get_device(opt)
    sdt.display_info(opt, title)

    main(opt, logger)

    logger.info('\nFinished.\n')

　※ 上記ソースコードは表示の都合上、半角コード '}' が全角 '｝'になっていることに注意

↑

Step 90：画像から画像を生成する †

　基本のサンプル・コード

img2img 画像から画像生成

「sd_090.py」

## sd_090.py【SD1.5】　画像から画像生成（img2img）サンプル・ソースコード
##  Ver 1.00    2025/07/01
##  Ver 0.02    2025.07.13  汎用コードを sd_tools に分離

import torch
from PIL import Image
from diffusers import StableDiffusionImg2ImgPipeline,DPMSolverMultistepScheduler, logging
import sd_tools as sdt

logging.set_verbosity_error()

# フォルダーのパス
model_path = "/StabilityMatrix/Data/Models/StableDiffusion/SD1.5/v1-5-pruned-emaonly.safetensors"   # モデル
image_path = "images/kamo.jpg"                                                                      # 元画像
save_path = 'results/image_090.png'                                                                 # 生成画像

# プロンプト
prompt_jp = '兎'                                                                                    # プロンプト
prompt = sdt.trans_jp2en(prompt_jp)

# GPUを使う場合は"cuda" 使わない場合は"cpu"
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# seed 値
seed = 12345678

# パイプラインを作成
if device == 'cpu':
    pipeline = StableDiffusionImg2ImgPipeline.from_single_file(model_path).to(device)
else:
    pipeline = StableDiffusionImg2ImgPipeline.from_single_file(
                    model_path,
                    torch_dtype = torch.float16,
                    ).to(device)

# スケジューラ設定
pipeline.scheduler = DPMSolverMultistepScheduler.from_config(pipeline.scheduler.config)

# Generatorオブジェクト作成
generator = torch.Generator(device).manual_seed(seed)

src_image = Image.open(image_path)

print(f'Seed: {seed}, Model: {model_path}')
print(f'prompt : {prompt_jp} → {prompt}')

# 画像を生成
image = pipeline(
                    prompt = prompt,
                    image = src_image,
                    num_inference_steps = 30,
                    guidance_scale = 7,
                    strength = 0.6,
                    generator = generator
                    ).images[0]

sdt.image_save2(image, save_path, save_path)

プログラムを実行する（実行時間：約 5秒 RTX 4070 Ti 12GB）
※ CPU でも時間はかかるが実行できる（例：23分 i7-1260P）

 python sd_090.py

(sd_test) PS > python sd_090.py
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:01<00:00,  3.51it/s]
Seed: 12345678, Model: /StabilityMatrix/Data/Models/StableDiffusion/SD1.5/v1-5-pruned-emaonly.safetensors
prompt : 兎 → Domestic Rabbit
100%|██████████████████████████████████████████| 18/18 [00:04<00:00,  3.78it/s]

画像ファイル「sd_090.png」が生成される

↑

Step 91：「画像から画像生成（img2img）」～コマンドラインからパラメータ入力～ †

主な機能
・コマンドラインから「diffusers」の各種パラメータにアクセスできる
・パラメータを付けない場合は初期値で動作する（すべてつけない場合はシード値がランダムで他のパラメータは sd_040.py と同じ）
・SD1.5 と SDXL のモデルに対応する（SD1.5 モデルは「SD1.5/」ディレクトリ名のフォルダに配置されていることを前提にする）
・日本語/英語のプロンプト入力に対応（日本語の場合は自動翻訳で対応）
・以後のプログラムからアクセスできることを意識してできるだけ API 関数とした

出力ファイルの保存場所とファイル名（--result_image ' デフォールト指定の時）
・「./sd_results2」フォルダに保存される（無ければ作られる）
・ファイル名「sd_5桁の連番_シード値.png」

コマンドオプション一覧

コマンドオプション	引数	初期値	意味
--result_image	str	'./sd_results2/sd.png'	保存するファイルパスとヘッダ名の指定
--cpu	bool	False	cpu mode.
--log	int	3	Log level(-1/0/1/2/3/4/5)
--model_dir	str	'/StabilityMatrix/Data/Models/StableDiffusion'	モデルフォルダのパス
--model_path	str	'SD1.5/beautifulRealistic_brav5.safetensors'	モデルファイル
--prompt	str	'黒髪で短い髪の女性'	画像生成のためのプロンプト（日本語/英語）
--image_path	str	'images/StableDiffusion_247.png'	入力画像のファイル・パス名
--seed	int	-1	シード値（-1の時はランダムに生成）
--max_size	int	0	入力画像リサイズの最大値（0=入力画像サイズ）
--step	int	30	生成ステップ数
--scale	float	7.0	ガイダンススケール値
--strength	float	0.5	変化の強さを表すパラメータ

コマンド実行例

 python sd_091.py

(sd_test) PS D:\anaconda_win\workspace_3\sd_test> python sd_091.py

Stable Diffusion with diffusers(091)  Ver 0.02: Starting application...

 --result_image             :   ./sd_results2/sd.png
 --cpu                      :   False
 --log                      :   3
 --model_dir                :   /StabilityMatrix/Data/Models/StableDiffusion
 --model_path               :   SD1.5/beautifulRealistic_brav5.safetensors
 --image_path               :   images/StableDiffusion_247.png
 --prompt                   :   黒髪で短い髪の女性
 --seed                     :   -1
 --max_size                 :   0
 --step                     :   30
 --scale                    :   7.0
 --strength                 :   0.5

prompt: a woman with short black hair
seed: 2247926825
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:00<00:00,  9.41it/s]
100%|██████████████████████████████████████████| 15/15 [00:02<00:00,  7.02it/s]
result_file: ./sd_results2/sd_00004_2247926825.png

Finished.

モジュール・ソースコード

▼「sd_091.py」

# -*- coding: utf-8 -*-
##--------------------------------------------------
##  Stable Diffusion with diffusers(091)   Ver 0.01
##      img2img
##               2025.07.02 Masahiro Izutsu
##--------------------------------------------------
## sd_091.py
##  Ver 0.01    2025.07.02  SD1.5/SDXL 対応版
##  Ver 0.02    2025.07.13  汎用コードを sd_tools に分離

# タイトル
title = 'Stable Diffusion with diffusers(091)  Ver 0.02'

import warnings
warnings.simplefilter('ignore')

# インポート＆初期設定
import os
import torch
from PIL import Image
from diffusers import StableDiffusionImg2ImgPipeline, DPMSolverMultistepScheduler, logging      # SD1.5
from diffusers import StableDiffusionXLImg2ImgPipeline          # SDXL

import my_logging
import my_imagetool
import sd_tools as sdt

logging.set_verbosity_error()                                   # 不要なエラー出力の抑制

# コマンドライン定義
opt_list = [
            ['result_image', './sd_results2/sd.png', 'path to output image file'],
            ['cpu', 'store_true', 'cpu mode'],
            ['log', '3', 'Log level(-1/0/1/2/3/4/5) Default value is \'3\''],
            ['model_dir', '/StabilityMatrix/Data/Models/StableDiffusion', 'Model directory'],
            ['model_path', 'SD1.5/beautifulRealistic_brav5.safetensors', 'Model Path'],
            ['image_path', 'images/StableDiffusion_247.png', 'Sourcs image file path'],
            ['prompt', '黒髪で短い髪の女性', 'Prompt text'],
            ['seed', -1, 'Seed parameter (-1 = rundom)'],
            ['max_size', 0, 'image max size (0=source)'],
            ['step', 30, 'infer step'],
            ['scale', 7.0, 'gaidanse scale'],
            ['strength', 0.5, 'strength value'],
           ]

# 画像生成
def image_generation(model, prompt, image, seed, num_inference_steps=30, guidance_scale=7.0, strength=0.6, device='cpu'):
    # パイプラインを作成
    if device == 'cpu':
        if sdt.is_sd15(model):
            pipeline = StableDiffusionImg2ImgPipeline.from_single_file(model).to(device)
        else:
            pipeline = StableDiffusionXLImg2ImgPipeline.from_single_file(model).to(device)
    else:
        if sdt.is_sd15(model):
            pipeline = StableDiffusionImg2ImgPipeline.from_single_file(model, torch_dtype = torch.float16).to(device)
        else:
            pipeline = StableDiffusionXLImg2ImgPipeline.from_single_file(model, torch_dtype = torch.float16).to(device)

    # スケジューラ設定
    pipeline.scheduler = DPMSolverMultistepScheduler.from_config(pipeline.scheduler.config)

    # Generatorオブジェクト作成
    generator = torch.Generator(device).manual_seed(seed)

    # 画像を生成
    img = pipeline(
                    prompt = prompt,
                    image = image,
                    num_inference_steps = num_inference_steps,
                    guidance_scale = guidance_scale,
                    strength = strength,
                    generator = generator
                    ).images[0]
    return img

# メモリー開放
def device_empty_cache(device):
    if device == 'cuda':
        torch.cuda.empty_cache()
    elif device == 'mps':
        torch.mps.empty_cache()


# ** main関数 **
def main(opt):
    # パラメータ設定
    device = sdt._get_device(opt, logger)
    result_path = sdt._get_result_path(opt, logger)
    result_file = sdt._get_result_file(opt, logger)
    prompt = sdt._get_prompt(opt, logger)
    image = sdt._get_source_image(opt, logger)
    model_path = sdt._get_model_path(opt, logger)
    seed = sdt._get_seed_value(opt, logger)
    num_inference_steps = sdt._get_inference_steps(opt, logger)
    guidance_scale = sdt._get_guidance_scale(opt, logger)
    strength = sdt._get_strength(opt, logger)

    # 出力フォルダ
    os.makedirs(result_path, exist_ok = True)

    # 画像生成
    image = image_generation(model_path, prompt, image, seed, num_inference_steps, guidance_scale, strength, device)
    filename = result_path + '/' + sdt.make_filename_by_seq(result_path, result_file, seq_digit = 5, ex = seed)
    sdt.image_save2(image, filename, filename)
    logger.info(f'result_file: {filename｝')


# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    parser = sdt.parse_args(None, opt_list)
    opt = parser.parse_args()
    sdt._get_device(opt)
    sdt.display_info(opt, title)

    # アプリケーション・ログ設定
    module = os.path.basename(__file__)
    module_name = os.path.splitext(module)[0]
    logger = my_logging.get_module_logger_sel(module_name, int(opt.log))

    main(opt)

    logger.info('\nFinished.\n')

　※ 上記ソースコードは表示の都合上、半角コード '}' が全角 '｝'になっていることに注意

↑

Step 92：「画像から画像生成（img2img）」～ GUI プログラム～ †

主な機能と使い方
・コマンドライン入力プログラム（sd_091.py）を GUI インターフェースで実行する
・生成のための主要なパラメータを GUI インターフェースで指定・変更できる
・生成結果画像からパラメータを設定可能

・使い方

① 生成画像表示エリア（クリックすると過去の生成画像を選択することができる）
② 生成画像のファイルパス名
③ 入力元画像表示エリア
④ 入力元画像ファイルパス名（「Image」ボタンを押すと画像を選択して指定できる）
⑤ モデル名（パス名は起動パラメータによる）「モデル選択ボタン」（モデルパスの変更不可）
⑥ プロンプト入力エリア（日本語/英語）
⑦ 生成に使用するプロンプト（日本語入力の場合自動翻訳）
⑧ 生成画像の最大値（0= 元画像のサイズ）
⑨ シード値入力エリア（-1 = ランダム生成）
⑩ 生成に使用するシード値
⑪ 生成ステップ数（10～150）
⑫ ガイダンススケール（1～10）
⑬ 変化の強さを strength（0～1）
⑭ デバイス選択（CPU/GPU）
⑮ 画像生成枚数（繰り返しの値：1～50）
⑯「画像生成開始」ボタン
⑰「終了」ボタン

コマンド実行例

 python sd_092.py

(sd_test) PS > python sd_092.py

Stable Diffusion with diffusers(092)  Ver 0.00: Starting application...

   - result_image            :  ./sd_results2/sd.png
   - cpu                     :  False
   - log                     :  3
   - model_dir               :  /StabilityMatrix/Data/Models/StableDiffusion
   - model_path              :  SD1.5/beautifulRealistic_brav5.safetensors
   - prompt                  :  黒髪で短い髪の女性
   - image_path              :  images/StableDiffusion_247.png
   - seed                    :  -1
   - max_size                :  0
   - step                    :  30
   - scale                   :  7.0
   - strength                :  0.5

source image: images/StableDiffusion_247.png
prompt: a woman with short black hair
** Start 1 **
Fetching 11 files: 100%|███████████████████████████████| 11/11 [00:00<?, ?it/s]
Loading pipeline components...: 100%|████████████| 6/6 [00:00<00:00, 15.64it/s]
100%|██████████████████████████████████████████| 15/15 [00:01<00:00, 10.89it/s]
result_file: ./sd_results2/sd_00000_369254691.png
** Complete ** 00:00:04

Finished.

モジュール・ソースコード

▼「sd_092.py」

# -*- coding: utf-8 -*-
##--------------------------------------------------
##  Stable Diffusion with diffusers(092)   Ver 0.00
##      img2img     GUI interface
##               2025.07.03 Masahiro Izutsu
##--------------------------------------------------
## sd_092.py
##  Ver 0.00    2025.07.03  GUI 対応版
##  Ver 0.01    2025.07.13  汎用コードを sd_tools に分離

# タイトル
title = 'Stable Diffusion with diffusers(092)  Ver 0.01'

import warnings
warnings.simplefilter('ignore')

# インポート＆初期設定
import os
import numpy as np
#import random
import time
import csv
import cv2
import PySimpleGUI as sg
import sd_091 as sd
import my_logging
import my_csv
import my_thumbnail
import my_dialog
import my_imagetool
import sd_tools as sdt

# 定数定義
DEF_THEME = 'BlueMono'
CANVAS_SIZE = 512
KEY_CANCEL = '-Cancel-'

KEY_IMAGE = '-Image-'
KEY_INPUT_IMAGE = '-Input_Image-'
KEY_INPUTPATH = '-Input-'
KEY_OUTPATH = '-Output-'
KEY_MODEL = '-Model-'
KEY_IMAGE_SEL = '-Image_sel-'
KEY_MODELSEL = '-Model_sel-'
KEY_PROMPT_JP = '-PromptJP-'
KEY_PROMPT = '-Prompt-'
KEY_MAXSIZE = '-MaxSize-'
KEY_SEED_INPUT = '-Seed_input-'
KEY_SEED = '-Seed-'
KEY_STEP = '-Step-'
KEY_SCALE = '-Scale-'
KEY_STRENGTH = '-strength-'
KEY_CPU = '-CPU-'
KEY_GPU = '-GPU-'
KEY_DEVICE = '-Device-'
KEY_EXIT = '-Exit-'
KEY_GENERATE = '-Generate-'
KEY_LOOP = '-Loop-'

SKEY_RESULT_PATH = '-result_path-'
SKEY_RESULT_FILE = '-result_file-'
SKEY_MODEL_DIR = '-model_dir-'
SKEY_DEF_OUTPATH = '-default_image-'

KEY_TIME = '-Time-'

DEF_IMAGE = './sd_results/sd_00000_12345678.png'
DEF_INPUT_IMAGE = './images/kaisendon.jpg'
CSV_LOG_FILE = 'result.csv'

# ウィジェットのデータの取得（1回目）
def get_paramlist(window, values, param):
    param[KEY_MODEL] = window[KEY_MODEL].DisplayText
    param[KEY_MAXSIZE] = int(values[KEY_MAXSIZE])
    param[KEY_SEED] = sdt.get_random_seed_value(values[KEY_SEED_INPUT])
    param[KEY_STEP] = int(values[KEY_STEP])
    param[KEY_SCALE] = float(values[KEY_SCALE])
    param[KEY_STRENGTH] = float(values[KEY_STRENGTH])
    param[KEY_DEVICE] = 'cpu' if values[KEY_CPU] == True else 'cuda'
    param[KEY_PROMPT_JP] = values[KEY_PROMPT_JP]
    param[KEY_PROMPT] = sdt.trans_jp2en(param[KEY_PROMPT_JP])

    param[KEY_LOOP] = int(values[KEY_LOOP])
    if param[KEY_LOOP] < 1:
        param[KEY_LOOP] = 1
    if param[KEY_LOOP] > 50:
        param[KEY_LOOP] = 50

# ウィジェットのデータの取得（2回目以降）
def get_paramlist2(window, values, param):
    if int(values[KEY_SEED_INPUT]) > 0:
        param[KEY_SEED] = param[KEY_SEED] + 1
    else:
        param[KEY_SEED] = sdt.get_random_seed_value(values[KEY_SEED_INPUT])

# 結果を CSV ファイルに残す
def result_csv(csvfile, param, logger):
    my_csv_treatment = my_csv.CSVtreatment(csvfile, 'utf_8_sig')
    s = my_csv_treatment.read_csv()
    if len(s) ==0:
        data = []
        data.append(KEY_OUTPATH)
        data.append(KEY_SEED)
        data.append(KEY_PROMPT_JP)
        data.append(KEY_PROMPT)
        data.append(KEY_INPUTPATH)
        data.append(KEY_MAXSIZE)
        data.append(KEY_STEP)
        data.append(KEY_SCALE)
        data.append(KEY_STRENGTH)
        data.append(SKEY_MODEL_DIR)
        data.append(KEY_MODEL)
        data.append(KEY_DEVICE)
        data.append(KEY_TIME)
        data.append(KEY_LOOP)
        my_csv_treatment.write_csv(data)
        logger.debug(data)

    data = []
    data.append(param[KEY_OUTPATH])
    data.append(str(param[KEY_SEED]))
    data.append(param[KEY_PROMPT_JP])
    data.append(param[KEY_PROMPT])
    data.append(param[KEY_INPUTPATH])
    data.append(str(param[KEY_MAXSIZE]))
    data.append(str(param[KEY_STEP]))
    data.append(str(param[KEY_SCALE]))
    data.append(str(param[KEY_STRENGTH]))
    data.append(param[SKEY_MODEL_DIR])
    data.append(param[KEY_MODEL])
    data.append(param[KEY_DEVICE])
    data.append(param[KEY_TIME])
    data.append(param[KEY_LOOP])
    my_csv_treatment.append_csv(data)
    logger.debug(data)

# 結果ログからパラメータを取得
def read_result_csv(csvfile, param, logger, imgfile = '0' ):
    bf = False

    try:
        with open(csvfile, 'r', encoding = 'utf_8_sig') as f:
            reader = csv.DictReader(f)
            if imgfile == '0':                                  # 最初の行
                for dd in reader:
                    bf = True
                    break

            elif imgfile == '1':                                # 最後の行
                for dd in reader:
                    bf = True
                    continue

            else:                                               # 出力ファイルの行
                for dd in reader:
                    if dd[KEY_OUTPATH] == imgfile:
                        bf = True
                        break

    except FileNotFoundError as e:
        pass
    except csv.Error as e:
        logger.debug(e)

    if bf:
        param[KEY_OUTPATH] = dd[KEY_OUTPATH]
        param[KEY_SEED_INPUT] = int(dd[KEY_SEED])               # シード値を固定
        param[KEY_PROMPT_JP] = dd[KEY_PROMPT_JP]
        param[KEY_PROMPT] = dd[KEY_PROMPT]
        param[KEY_INPUTPATH] = dd[KEY_INPUTPATH]
        param[KEY_MAXSIZE] = int(dd[KEY_MAXSIZE])
        param[KEY_STEP] = int(dd[KEY_STEP])
        param[KEY_SCALE] = float(dd[KEY_SCALE])
        param[KEY_STRENGTH] = float(dd[KEY_STRENGTH])
        param[KEY_MODEL] = dd[KEY_MODEL]
        logout_data(dd, logger)

    elif os.path.isfile(imgfile):
        seed = path2seed(imgfile)                                # ファイル名に含まれるシード値
        param[KEY_OUTPATH] = dd[KEY_OUTPATH] = imgfile
        param[KEY_SEED_INPUT] = dd[KEY_SEED] = seed
        logout_data(dd, logger)
        bf = True

    return bf

# 動的パラメータの出力
def logout_data(dd, logger):
    logger.debug('---------------------------------------------')
    logger.debug(dd[KEY_OUTPATH])
    logger.debug(int(dd[KEY_SEED]))
    logger.debug(dd[KEY_PROMPT_JP])
    logger.debug(dd[KEY_PROMPT])
    logger.debug(dd[KEY_INPUTPATH])
    logger.debug(int(dd[KEY_MAXSIZE]))
    logger.debug(int(dd[KEY_STEP]))
    logger.debug(float(dd[KEY_SCALE]))
    logger.debug(float(dd[KEY_STRENGTH]))
    logger.debug(dd[SKEY_MODEL_DIR])
    logger.debug(dd[KEY_MODEL])
    logger.debug(dd[KEY_DEVICE])
    logger.debug('---------------------------------------------')

# 画像生成
def generate_image(param):
    model = param[SKEY_MODEL_DIR] + '/' + param[KEY_MODEL]
    image_path = param[KEY_INPUTPATH]
    prompt = param[KEY_PROMPT]
    max_size = param[KEY_MAXSIZE]
    seed = param[KEY_SEED]
    num_inference_steps = param[KEY_STEP]
    guidance_scale = param[KEY_SCALE]
    strength = param[KEY_STRENGTH]
    device = param[KEY_DEVICE]
    out_path = param[SKEY_RESULT_PATH] + '/' + sdt.make_filename_by_seq(param[SKEY_RESULT_PATH], param[SKEY_RESULT_FILE], seq_digit = 5, ex = seed)
    param[KEY_OUTPATH] = out_path

    logger.debug(f'model: {model｝')
    logger.debug(f'prompt: {prompt｝')
    logger.debug(f'image_path: {image_path｝')
    logger.debug(f'max_size: {max_size｝')
    logger.debug(f'seed: {seed｝')
    logger.debug(f'num_inference_steps: {num_inference_steps｝')
    logger.debug(f'guidance_scale: {guidance_scale｝')
    logger.debug(f'strength: {strength｝')
    logger.debug(f'device: {device｝')
    logger.debug(f'loop: {param[KEY_LOOP]｝')
    logger.debug(f'out_path: {out_path｝')

    image = sdt._get_resize_image(image_path, max_size, logger) # 元画像リサイズ
    image = sd.image_generation(model, prompt, image, seed, num_inference_steps, guidance_scale, strength, device)
    image.save(out_path)
    logger.info(f'result_file: {out_path｝')

    sd.device_empty_cache(device)                               # メモリー開放


# ** main関数 **
def main(opt, logger):
    # ------------------------------------------
    # キャンバスをクリア
    def clear_canvas(key, msg, color):
        frame = np.zeros((CANVAS_SIZE, CANVAS_SIZE, 3), np.uint8)
        frame[:,:,] = 0xf0
        return msg_out_canvas(key, frame, msg, color)

    def msg_out_canvas(key, frame, msg, color):
        x0,y0,x1,y1 = cv2_putText(img=frame, text=msg, org=(CANVAS_SIZE//2, CANVAS_SIZE//2), fontFace=font_face, fontScale=16,  color=color, mode=2,areaf=True)
        cv2.rectangle(frame,(x0-8, y0), (x1+8, y1), (0xf0,0xf0,0xf0), -1)
        img = cv2_putText(img=frame, text=msg, org=(CANVAS_SIZE//2, CANVAS_SIZE//2), fontFace=font_face, fontScale=16,  color=color, mode=2)
        img = cv2.imencode('.png', frame)[1].tobytes()
        window[key].update(img)
        return frame

    # キャンバスへ画像の表示
    def update_canvas(key, imgfile):
        if os.path.isfile(imgfile):
            frame = cv2.imread(imgfile)
            frame = my_imagetool.frame_square(frame, (240, 240, 240))
            frame = cv2.resize(frame, dsize = (CANVAS_SIZE, CANVAS_SIZE))
            img = cv2.imencode('.png', frame)[1].tobytes()
            window[key].update(img)
        else:
            frame = clear_canvas(key, 'Generate Image', (0,0,0))

        return frame

    # ウイジェットの更新
    def update_widget():
        frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])
        frame_input = update_canvas(KEY_INPUT_IMAGE, param[KEY_INPUTPATH])
        window[KEY_OUTPATH].update(param[KEY_OUTPATH])
        window[KEY_SEED].update(param[KEY_SEED_INPUT])          # シード値の表示
        window[KEY_PROMPT_JP].update(param[KEY_PROMPT_JP])
        window[KEY_PROMPT].update(param[KEY_PROMPT])
        window[KEY_INPUTPATH].update(param[KEY_INPUTPATH])
        window[KEY_MODEL].update(param[KEY_MODEL])
        window[KEY_MAXSIZE].update(param[KEY_MAXSIZE])
        window[KEY_STEP].update(param[KEY_STEP])
        window[KEY_SCALE].update(param[KEY_SCALE])
        window[KEY_STRENGTH].update(param[KEY_STRENGTH])
        window[KEY_CPU].update(param[KEY_DEVICE] == 'cpu')
        window[KEY_GPU].update(param[KEY_DEVICE] == 'cuda')
        return frame

    # ウイジェットの禁止・許可
    def set_enb_dis(disabled):
        window[KEY_IMAGE_SEL].update(disabled = disabled)
        window[KEY_MODELSEL].update(disabled = disabled)
        window[KEY_GENERATE].update(disabled = disabled)
        window[KEY_LOOP].update(disabled = disabled)
        window[KEY_EXIT].update(disabled = disabled)

    # ------------------------------------------

    # パラメータ設定
    device = sdt._get_device(opt, logger)
    result_path = sdt._get_result_path(opt, logger)
    result_file = sdt._get_result_file(opt, logger)
    image_path = sdt._get_source_image_path(opt, logger)
    prompt = sdt._get_prompt(opt, logger)
    model_path = sdt._get_model_path(opt, logger)
    max_size = opt.max_size
    seed = sdt.path2seed(DEF_IMAGE)                             # 初期ファイル名に含まれるシード値
    num_inference_steps = sdt._get_inference_steps(opt, logger)
    guidance_scale = sdt._get_guidance_scale(opt, logger)
    strength = sdt._get_strength(opt, logger)

    param = {｝
    param[KEY_OUTPATH] = ''
    param[KEY_PROMPT_JP] = opt.prompt
    param[KEY_PROMPT] = prompt
    param[KEY_INPUTPATH] = image_path
    param[KEY_MODEL] = opt.model_path
    param[KEY_MAXSIZE] = max_size
    param[KEY_SEED_INPUT] = opt.seed
    param[KEY_SEED] = seed
    param[KEY_STEP] = num_inference_steps
    param[KEY_SCALE] = guidance_scale
    param[KEY_STRENGTH] = strength
    param[KEY_DEVICE] = device
    param[KEY_LOOP] = 1
    param[KEY_TIME] = sdt.elapsed_time_str(0)
    param[SKEY_RESULT_PATH] = result_path
    param[SKEY_RESULT_FILE] = result_file
    param[SKEY_MODEL_DIR] = opt.model_dir
    logout_data(param, logger)
    csvfile = param[SKEY_RESULT_PATH]+ '/' + CSV_LOG_FILE       # 出力画像ログファイル名

    # 出力フォルダ
    os.makedirs(result_path, exist_ok = True)

    # フォント取得
    from my_puttext import get_font, cv2_putText
    font_face = get_font()

    # ウィンドウのテーマ
    sg.theme(DEF_THEME)

    canvas_input_img = sg.Image(size = (CANVAS_SIZE, CANVAS_SIZE), key=KEY_INPUT_IMAGE)
    canvas_img = sg.Image(size = (CANVAS_SIZE, CANVAS_SIZE), key=KEY_IMAGE)

    col_left = [
              [canvas_input_img],
              [sg.Text("Input File", size=(14, 1)), sg.Text(param[KEY_INPUTPATH], size=(38,1), text_color='#008800', background_color='LightSteelBlue1', key=KEY_INPUTPATH), sg.Button('Image', size=(6, 1), key=KEY_IMAGE_SEL)],
              [sg.Text("Model", size=(14, 1)), sg.Text(param[KEY_MODEL], size=(38,1), text_color='#008800', background_color='LightSteelBlue1', key=KEY_MODEL), sg.Button('Model', size=(6, 1), key=KEY_MODELSEL)],
              [sg.Text("Prompt input", size=(14, 1)), sg.Multiline(param[KEY_PROMPT_JP], size=(52,4), key=KEY_PROMPT_JP)],
              [sg.Text("Prompt", size=(14, 1)), sg.Multiline(param[KEY_PROMPT], size=(52,4), text_color='#008800', background_color='LightSteelBlue1', key=KEY_PROMPT)],
    ]

    col_right = [
              [canvas_img],
              [sg.Text("Output File", size=(14, 1)), sg.Text(param[KEY_OUTPATH], size=(48,1), key=KEY_OUTPATH)],
              [sg.Text("Max size (0= full)", size=(14, 1)), sg.Input(param[KEY_MAXSIZE], size=(10,1), key=KEY_MAXSIZE)],

              [sg.Text("Seed  (-1=Random)", size=(14, 1)), sg.Input(param[KEY_SEED_INPUT], size=(20,1), key=KEY_SEED_INPUT), sg.Text(param[KEY_SEED], size=(20,1), text_color='#008800', background_color='LightSteelBlue1', key=KEY_SEED)],
              [sg.Text("Detail (Steps)", size=(14, 1)), sg.Slider((10, 150), float(param[KEY_STEP]), 1, orientation='h', size=(42, 5), key=KEY_STEP)],
              [sg.Text("Guidance Scale", size=(14, 1)), sg.Slider((1, 50), float(param[KEY_SCALE]), 0.1, orientation='h', size=(42, 5), key=KEY_SCALE)],
              [sg.Text("Strength", size=(14, 1)), sg.Slider((0, 1), float(param[KEY_STRENGTH]), 0.1, orientation='h', size=(42, 5), key=KEY_STRENGTH)],
              [sg.Text("Device", size=(14, 1)), sg.Radio('CPU', group_id='device', default=(device == 'cpu'), key=KEY_CPU), sg.Radio("GPU", group_id='device', default=(device == 'cuda'), key=KEY_GPU)],
              [sg.Text("Loop count (1-50)", size=(14, 1)), sg.Input(param[KEY_LOOP], size=(2,1), justification='right', key=KEY_LOOP), sg.Text("", size=(4, 1)), sg.Button('Generate', size=(10, 1), key=KEY_GENERATE), sg.Text("", size=(10, 1)), sg.Button('Exit', size=(10, 1), key=KEY_EXIT)]
    ]

    # ウィンドウのレイアウト
    layout = [[sg.Column(col_left, vertical_alignment='top'), sg.Column(col_right, vertical_alignment='top')]]

    # ウィンドウオブジェクトの作成
    window = sg.Window(title, layout, finalize=True, return_keyboard_events=True)

    # ユーザーイベントの定義
    canvas_img.bind('<ButtonPress>', '_click_on')

    # キャンバス初期化
    ss = param[KEY_SEED_INPUT]                                  # 最初のシード入力値
    bf = read_result_csv(csvfile, param, logger, '1')
    if bf:
        frame = update_widget()
        param[KEY_SEED] = param[KEY_SEED_INPUT]
        param[KEY_SEED_INPUT] = ss
        window[KEY_SEED].update(param[KEY_SEED])
        window[KEY_SEED_INPUT].update(param[KEY_SEED_INPUT] )
    else:
        frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])

    frame_input = update_canvas(KEY_INPUT_IMAGE, param[KEY_INPUTPATH])

    param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]                # 現在の画像パス

    new_make_f = False
    window[KEY_PROMPT].update(disabled = True)

    # イベントのループ
    while True:
        event, values = window.read(timeout = 30)

        # 画像生成
        if new_make_f:
            # 処理プロセス
            logger.info(f'{sdt.CYAN｝** Start {param[KEY_LOOP]｝ **{sdt.NOCOLOR｝')
            start_time = time.time()
            generate_image(param)
            param[KEY_TIME] = sdt.elapsed_time_str(time.time() - start_time)
            result_csv(csvfile, param, logger)

            frame = update_canvas(KEY_IMAGE, param[KEY_OUTPATH])
            param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]        # 現在の画像パス
            window[KEY_OUTPATH].update(param[KEY_OUTPATH])
            param[KEY_LOOP] = param[KEY_LOOP] - 1
            window[KEY_LOOP].update(param[KEY_LOOP])

            if param[KEY_LOOP] < 1:
                param[KEY_LOOP] = 1
                window[KEY_LOOP].update(param[KEY_LOOP])
                set_enb_dis(False)
                new_make_f = False
            else:
                get_paramlist2(window, values, param)
                window[KEY_SEED].update(param[KEY_SEED])

            logger.info(f'{sdt.CYAN｝** Complete **{sdt.NOCOLOR｝ {param[KEY_TIME]｝')

        # 終了
        if event == KEY_EXIT or event == sg.WIN_CLOSED:
            break

        # KEY_IMAGE
        if event == KEY_IMAGE + '_click_on':
            logger.debug(f'{event｝')
            set_enb_dis(True)
            def_file = param[SKEY_DEF_OUTPATH]
            if os.path.isfile(def_file):
                imgfile = my_thumbnail.image_dialog(def_file, 'Image file select', my_thumbnail.DEF_THEME, 10, 4, ret = '', logger = logger)
                if os.path.isfile(imgfile):
                    logger.debug(f'Output select: {imgfile｝')
                    bf = read_result_csv(csvfile, param, logger, imgfile)
                    if bf:
                        frame = update_widget()
                        param[SKEY_DEF_OUTPATH] = param[KEY_OUTPATH]
            set_enb_dis(False)

        # 画像選択ボタン
        if event == KEY_IMAGE_SEL:
            logger.debug(f'{event｝')
            set_enb_dis(True)
            filename = my_dialog.select_image_file(initdir=os.path.dirname(param[KEY_INPUTPATH]))
            if len(filename) > 0:
                param[KEY_INPUTPATH] = filename
                frame_input = update_canvas(KEY_INPUT_IMAGE, param[KEY_INPUTPATH])
                window[KEY_INPUTPATH].update(param[KEY_INPUTPATH] )

            set_enb_dis(False)

        # Model ボタン
        if event == KEY_MODELSEL:
            logger.debug(f'{event｝')
            set_enb_dis(True)

            s0 = param[KEY_MODEL]
            id = s0.find('/')
            s1 = '/' + s0[:id] if id > 0 else ''
            s2 = param[SKEY_MODEL_DIR] + s1
            ttl = 'モデルファイルを選択'
            types = [("Model file", ".safetensors .pt"), ("model", ".safetensors"), ("pt file", ".pt") ]
            filename = my_dialog.file_dialog(ttl, types, s2)
            if len(filename) > 0:
                s3 = os.path.basename(filename)         # ファイル名
                s4 = os.path.dirname(filename)          # ディレクトリ名
                id = s4.find('SD1.5')
                if id >= 0 and id == len(s4) - 5:       # SD1.5
                    s5 = s4[:id - 1]
                    s3 = 'SD1.5/' + s3
                else:                                   # SDXL
                    s5 = s4
                param[KEY_MODEL] = s3

                s6 = os.path.abspath(param[SKEY_MODEL_DIR])
                s7 = s6.replace('\\', '/')
                if s7 == s5:                                    # モデルディレクトリは変更不可
                    window[KEY_MODEL].update(param[KEY_MODEL])
                    logger.debug(f'{param[SKEY_MODEL_DIR]｝/{param[KEY_MODEL]｝')
                else:
                    my_dialog.warning_dialog(ttl, 'モデルディレクトリは変更できません')

            set_enb_dis(False)

        # Genarate ボタン
        if event == KEY_GENERATE:
            logger.debug(f'{event｝')
            set_enb_dis(True)
            get_paramlist(window, values, param)
            frame = msg_out_canvas(KEY_IMAGE, frame, 'Generating ...', (240,0,0))
            window[KEY_OUTPATH].update('')
            window[KEY_PROMPT].update(param[KEY_PROMPT])
            window[KEY_SEED].update(param[KEY_SEED])
            new_make_f = True

    # ウィンドウ終了処理
    window.close()


# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    parser = sdt.parse_args(None, sd.opt_list)
    opt = parser.parse_args()

    # アプリケーション・ログ設定
    module = os.path.basename(__file__)
    module_name = os.path.splitext(module)[0]
    logger = my_logging.get_module_logger_sel(module_name, int(opt.log))

    sdt._get_device(opt)
    sdt.display_info(opt, title)

    main(opt, logger)

    logger.info('\nFinished.\n')

　※ 上記ソースコードは表示の都合上、半角コード '}' が全角 '｝'になっていることに注意

↑

Step 100：統合した『私的 AI 生成プログラム』 †

         == 準備中 ==

↑

汎用共通プログラム「sd_tools.py」 †

コマンドライン・オプション (argparse) の定義リスト
・「名前 / 初期値 / ヘルプ」の順にオプションパラメータのリストを定義する
```
 opt_list = [
             ['cpu', 'store_true', 'cpu mode'],
             ['log', '3', 'Log level(-1/0/1/2/3/4/5) Default value is \'3\''],
                    :
            ]
```
・初期値が「''（空文字列）」の場合、パラメータは登録するが「基本情報の表示」で表示されない

関数メソッド (パラメータ詳細はソースコード参照)

機能	戻り値	関数
コマンド入力関連
コマンドライン・オプションの設定	parser	parse_args(parser, pars_list):
基本情報の表示	-	display_info(opt, title)
画像関連
イメージ変換 PIL → OpenCV	image	pil2cv(image)
イメージ変換 PIL → OpenCV	image	pil2cv_np(image)
イメージ変換 OpenCV → PIL	image	cv2pil(image)
イメージ変換 OpenCV → PIL	image	cv2pil_np(image)
OpenCV イメージ結果の保存と表示	-	image_save(image, save_path = '', dispname = '', maxsize = 1000, wait_s = 0)
PIL イメージ結果の保存と表示	-	image_save2(image, save_path = '', dispname = '', maxsize = 1000, wait_s = 0)
その他
モデルを調べる（SD1.5 モデルは SD1.5/フォルダ内にある前提）	bool	is_sd15(model)
フォルダ内で連番のファイル名を得る	filenale	make_filename_by_seq(dirname, filename, seq_digit = 3, ex = '')
生成画像のファイル名からシード値を得る	seed	path2seed(filepath)
経過時間(秒)を hh:mm:ssフォーマットに変換	hh:mm:ss	elapsed_time_str(seconds)
ランダムなシード値を得る	seed	get_random_seed_value(n)
日本語から英語に翻訳	英語文字列	trans_jp2en(str)
diffusers parameter
log 出力	-	log_debug(msg, logger)
log 出力	-	log_info(msg, logger)
--device	device	_get_device(opt, logger = None)
--result_image_path	result_image_path	_get_result_image_path(opt, logger = None)
--result_path	result_path	_get_result_path(opt, logger = None)
--result_file	result_file	_get_result_file(opt, logger = None)
--prompt（日本語）	prompt（英語）	_get_prompt(opt, logger = None)
--model_path	model_path	_get_model_path(opt, logger = None)
--ctrl_model_path	ctrl_model_path	_get_controlnet_model_path(opt, logger = None)
--image_path	image_path	_get_source_image_path(opt, logger = None)
--image_path から PIL画像オブジェクトを得る	image	_get_source_image(opt, logger = None)
--ctrl_image_path から PIL画像オブジェクトを得る	image	_get_control_image(opt, logger = None)
パスから画像を読んでリサイズする	image	_get_resize_image(image_path, max_size, logger)
--height, --width	height, width	_get_image_size(opt, logger = None)
--seed（-1 の時は乱数生成）	seed	_get_seed_value(opt, logger = None)
--num_inference_steps	num_inference_steps	_get_inference_steps(opt, logger = None)
--guidance_scale	guidance_scale	_get_guidance_scale(opt, logger = None)
--image_guidance_scale	image_guidance_scale	_get_image_guidance_scale(opt, logger = None)
--strength	strength	_get_strength(opt, logger = None)
--cc_scale	cc_scale	_get_controlnet_conditioning_scale(opt, logger = None)

モジュール・ソースコード

▼「sd_tools.py」

# -*- coding: utf-8 -*-
##--------------------------------------------------
##  sd_test basic tools                Ver 0.01
##
##               2025.07.13 Masahiro Izutsu
##--------------------------------------------------
## sd_tools.py
##  Ver 0.00    2025.07.13  Trial version
##  Ver 0.01    2025.07.14  diffusers parameter 追加

# タイトル
title = 'sd_test basic tools  Ver 0.00'

# Color Escape Code
GREEN = '\033[1;32m'
RED = '\033[1;31m'
NOCOLOR = '\033[0m'
YELLOW = '\033[1;33m'
CYAN = '\033[1;36m'
BLUE = '\033[1;34m'

# インポート＆初期設定
import os
import re
import glob
import random
import argparse
import numpy as np
import cv2
from PIL import Image
from torch.cuda import is_available
import my_imagetool

## ----- コマンド入力関連 --------------

# コマンドライン・オプション (argparse) 名前/初期値/ヘルプ
opt_list = [
            ['cpu', 'store_true', 'cpu mode'],
            ['log', '3', 'Log level(-1/0/1/2/3/4/5) Default value is \'3\''],
           ]

# コマンドライン・オプションの設定
def parse_args(parser, pars_list):
    if parser == None:
        parser = argparse.ArgumentParser()

    for pars in pars_list:
        p = '--' + pars[0]
        if pars[1] == 'store_true' or pars[1] == 'store_false':
            parser.add_argument(p, dest = pars[0], action = pars[1], help = pars[2])
        else:
            parser.add_argument(p, default = pars[1], help = pars[2])
    return parser

# 基本情報の表示
def display_info(opt, title):
    if title != '':
        print('\n' + GREEN + title + ': Starting application...' + '\n' + NOCOLOR)

    opt_dict = vars(opt)                                                        # NameSpace型を辞書型に変換
    keys = opt_dict.keys()                                                      # key一覧取得
    for key in keys:
        if opt_dict[key] != '':
            s = key + ' ' * 24
            s0 = s[:24]
            print(f' --{YELLOW｝{s0｝ : {NOCOLOR｝  {opt_dict[key]｝')

    if title != '':
        print(' ')

## ----- 画像関連 ----------------------

# イメージ変換 PIL → OpenCV
def pil2cv(image):
    new_image = np.array(image, dtype=np.uint8)
    if new_image.ndim == 2:                                                     # モノクロ
        pass
    elif new_image.shape[2] == 3:                                               # カラー
        new_image = cv2.cvtColor(new_image, cv2.COLOR_RGB2BGR)
    elif new_image.shape[2] == 4:                                               # 透過
        new_image = cv2.cvtColor(new_image, cv2.COLOR_RGBA2BGRA)
    return new_image

def pil2cv_np(image):
    new_image = np.array(image, dtype=np.uint8)
    if new_image.ndim == 2:                                                     # モノクロ
        pass
    elif new_image.shape[2] == 3:                                               # カラー
        new_image = new_image[:, :, ::-1]
    elif new_image.shape[2] == 4:                                               # 透過
        new_image = new_image[:, :, [2, 1, 0, 3]]
    return new_image

# イメージ変換 OpenCV → PIL
def cv2pil(image):
    new_image = image.copy()
    if new_image.ndim == 2:                                                     # モノクロ
        pass
    elif new_image.shape[2] == 3:                                               # カラー
        new_image = cv2.cvtColor(new_image, cv2.COLOR_BGR2RGB)
    elif new_image.shape[2] == 4:                                               # 透過
        new_image = cv2.cvtColor(new_image, cv2.COLOR_BGRA2RGBA)
    new_image = Image.fromarray(new_image)
    return new_image

def cv2pil_np(image):
    new_image = image.copy()
    if new_image.ndim == 2:                                                     # モノクロ
        pass
    elif new_image.shape[2] == 3:                                               # カラー
        new_image = cv2.cvtColor(new_image, cv2.COLOR_BGR2RGB)
    elif new_image.shape[2] == 4:                                               # 透過
        new_image = cv2.cvtColor(new_image, cv2.COLOR_BGRA2RGBA)
    new_image = Image.fromarray(new_image)
    return new_image

# イメージファイルの表示
def image_disp(image_path = '', dispname = '', maxsize = 800, wait_s = 0):
    image = cv2.imread(image_path)
    dispf = dispname != ''
    my_imagetool.image_disp(image, winname = dispname, dispf = dispf, save_path = '', maxsize = maxsize, wait_s = wait_s)

# OpenCV イメージ 結果の保存と表示
def image_save(image, save_path = '', dispname = '', maxsize = 800, wait_s = 0):
    dispf = dispname != ''
    my_imagetool.image_disp(image, winname = dispname, dispf = dispf, save_path = save_path, maxsize = maxsize, wait_s = wait_s)

# PIL イメージ 結果の保存と表示
def image_save2(image, save_path = '', dispname = '', maxsize = 800, wait_s = 0):
    image = pil2cv(image)
    dispf = dispname != ''
    my_imagetool.image_disp(image, winname = dispname, dispf = dispf, save_path = save_path, maxsize = maxsize, wait_s = wait_s)

## -------------------------------------

# モデルを調べる（SD1.5 モデルは SD1.5/フォルダ内にある前提）
#   in:     model       モデル名
#   out:    bool        True = SD1.5, False = SDXL
def is_sd15(model):
    return ('SD1.5' in model)

# フォルダ内で連番のファイル名を得る（ヘッダ + 連番 で検索）
#   in:     filename    ヘッダー名.拡張子
#           seq_digit   連番桁数
#           ex          追加文字列
#   out:    新しいファイル名

def make_filename_by_seq(dirname, filename, seq_digit = 3, ex = ''):
    filename_without_ext, ext = os.path.splitext(filename)
    pattern = f"{filename_without_ext｝_([0-9]*){ext｝"
    prog = re.compile(pattern)
    files = glob.glob(
        os.path.join(dirname, f"{filename_without_ext｝_[0-9]*{ext｝")
    )

    max_seq = -1
    kn = len(filename_without_ext) + seq_digit + 1                  # ヘッダ + 連番桁数 + 1 (_)
    for f in files:
        fn0, _ = os.path.splitext(os.path.basename(f))
        fn1 = fn0[: min(len(fn0), kn)] + ext
        m = prog.match(os.path.basename(fn1))                       # ファイル名 kn まで比較
        if m:
            max_seq = max(max_seq, int(m.group(1)))

    new_filename = f"{filename_without_ext｝_{max_seq+1:0{seq_digit｝｝_{ex｝{ext｝"
    
    return new_filename

# 生成画像のファイル名からシード値を得る
def path2seed(filepath):
    s = os.path.splitext(os.path.basename(filepath))[0]
    n = s.rfind('_')
    return int(s[n + 1:])

# 経過時間(秒)を hh:mm:ssフォーマットに変換
def elapsed_time_str(seconds):
    seconds = int(seconds + 0.5)                                    # 秒数を四捨五入
    h = seconds // 3600                                             # 時の取得
    m = (seconds - h * 3600) // 60                                  # 分の取得
    s = seconds - h * 3600 - m * 60                                 # 秒の取得
    return f"{h:02｝:{m:02｝:{s:02｝"                                  # hh:mm:ss形式の文字列で返す

# ランダムなシード値を得る
def get_random_seed_value(n):
    seed = int(n)
    if seed == -1:
        seed = random.randint(0, 2**32-1)
    return seed

# 日本語から英語に翻訳
def trans_jp2en(str):
    from translate import Translator

    if len(str) != len(str.encode('utf-8')):
        trans = Translator('en','ja').translate
        prompt = trans(str)                                         # 日本語→英語
    else:
        prompt = str
    return prompt

## ----- diffusers parameter -----------

# log 出力
def log_debug(msg, logger):
    if logger is not None:
        logger.debug(msg)

def log_info(msg, logger):
    if logger is not None:
        logger.info(msg)

# -- device --
def _get_device(opt, logger = None):
    gpu_d = is_available()                                          # GPU 確認
    if not opt.cpu and not gpu_d:
        opt.cpu = True
    device = 'cpu' if opt.cpu else 'cuda'
    log_debug(f'device: {device｝', logger)
    return device

# -- result_image_path --
def _get_result_image_path(opt, logger = None):
    result_image_path = opt.result_image
    log_debug(f'result_image_path: {result_image_path｝', logger)
    return result_image_path

# -- result_path --
def _get_result_path(opt, logger = None):
    result_path = os.path.dirname(opt.result_image)
    log_debug(f'result_path: {result_path｝', logger)
    return result_path

# -- result_file --
def _get_result_file(opt, logger = None):
    result_file = os.path.basename(opt.result_image)
    log_debug(f'result_file: {result_file｝', logger)
    return result_file

# -- prompt --
def _get_prompt(opt, logger = None):
    prompt = trans_jp2en(opt.prompt)
    log_info(f'prompt: {prompt｝', logger)
    return prompt

# -- model_path --
def _get_model_path(opt, logger = None):
    model_path = opt.model_path if opt.model_dir == '' else opt.model_dir + '/' + opt.model_path
    log_debug(f'model_path: {model_path｝', logger)
    return model_path

# -- controlnet model_path --
def _get_controlnet_model_path(opt, logger = None):
    ctrl_model_path = opt.ctrl_model_path if opt.ctrl_model_dir == '' else opt.ctrl_model_dir + '/' + opt.ctrl_model_path
    log_debug(f'controlnet model_path: {ctrl_model_path｝', logger)
    return ctrl_model_path

# -- source image path --
def _get_source_image_path(opt, logger = None):
    image_path = opt.image_path
    log_debug(f'image_path: {image_path｝', logger)
    return image_path

# -- source image --
def _get_source_image(opt, logger = None):
    image = _get_resize_image(opt.image_path, int(opt.max_size), logger)
    log_debug(f'image_path: {opt.image_path｝', logger)
    return image

# -- control source image --
def _get_control_image(opt, logger = None):
    image = _get_resize_image(opt.ctrl_image_path, int(opt.max_size), logger)
    log_debug(f'ctrl_image_path: {opt.ctrl_image_path｝', logger)
    return image

# -- resize image --
def _get_resize_image(image_path, max_size, logger):
    image = Image.open(image_path)
    w, h = image.size
    bf, h, w = my_imagetool.check_size(h, w, maxsize = max_size)
    if bf:
        image = image.resize((w, h), resample=Image.BICUBIC)

    log_debug(f'image size: width = {w｝, height = {h｝', logger)
    return image

# -- height, width --
def _get_image_size(opt, logger = None):
    width = int(opt.width)
    height = int(opt.height)
    log_info(f'width: {width｝, height: {height｝', logger)
    return height, width

# -- seed --
def _get_seed_value(opt, logger = None):
    seed = get_random_seed_value(opt.seed)
    log_info(f'seed: {seed｝', logger)
    return seed

# -- num_inference_steps --
def _get_inference_steps(opt, logger = None):
    num_inference_steps = int(opt.step)
    log_debug(f'step: {num_inference_steps｝', logger)
    return num_inference_steps

# -- guidance_scale --
def _get_guidance_scale(opt, logger = None):
    guidance_scale = float(opt.scale)
    log_debug(f'scale: {guidance_scale｝', logger)
    return guidance_scale

# -- image guidance_scale --
def _get_image_guidance_scale(opt, logger = None):
    image_guidance_scale = float(opt.image_scale)
    log_debug(f'image guidance scale: {image_guidance_scale｝', logger)
    return image_guidance_scale

# -- strength  --
def _get_strength(opt, logger = None):
    strength = float(opt.strength) if opt.strength != '' else None
    log_debug(f'strength: {strength｝', logger)
    return strength

# -- controlnet conditioning scale  --
def _get_controlnet_conditioning_scale(opt, logger = None):
    cc_scale = float(opt.cc_scale)
    log_debug(f'controlnet conditioning scale: {cc_scale｝', logger)
    return cc_scale

## -------------------------------------


#-----Test routine-----
# $ python sd_tools.py
if __name__ == "__main__":
    source_path = './images/kamo.jpg'

    opt_list = [
            ['result_image', './sd_results/sd.png', 'path to output image file'],
            ['cpu', 'store_true', 'cpu mode'],
            ['log', '3', 'Log level(-1/0/1/2/3/4/5) Default value is \'3\''],
            ['model_dir', '/StabilityMatrix/Data/Models/StableDiffusion', 'Model directory'],
            ['model_path', 'SD1.5/v1-5-pruned-emaonly.safetensors', 'Model Path'],
            ['prompt', '満開の欄', 'Prompt text'],
            ['seed', -1, 'Seed parameter (-1 = rundom)'],
            ['width', 512, 'image size width'],
            ['height', 512, 'image size height'],
            ['step', 30, 'infer step'],
            ['scale', 7.0, 'gaidanse scale'],
           ]

    parser = parse_args(None, opt_list)
    opt = parser.parse_args()

    display_info(opt, title)

    #------------
    print('*** 画像表示 test ***')
    image_disp(source_path, source_path)

    '''
    # OpenCV 保存と表示
    img = cv2.imread(source_path)
    image_save(img, 'test1.png', dispname = title)

    # PIL 保存と表示
    img = Image.open(source_path)
    image_save2(img, 'test2.png', dispname = title)
    '''

    #------------
    print('*** diffusers parameter test ***')
    print(f'device : {_get_device(opt)｝')
    #------------

　※ 上記ソースコードは表示の都合上、半角コード '}' が全角 '｝'になっていることに注意

↑