ComfyUI9a の履歴(No.15)

私的AI研究会 > ComfyUI9 > ComfyUI9a

画像生成AI「ComfyUI」９（続動画編２）　== 編集中 ==†

　「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲　目　次

画像生成AI「ComfyUI」９（続動画編２）　== 編集中 ==
参考資料

※ 最終更新:2026/02/10

↑

LTX-2 による音声付き動画生成２＜Confy(快適)に使うConfyUI＞†

　LTX-2 ワークフローは複雑で理解しにくい。いろいろ調査していく過程で日本人の方の作成したわかりやすいサイトを見つけた。
このサイトをお手本にLTX-2 ワークフローの検証を進める

↑

プロジェクトで作成するワークフロー†

ComfyUI_proj.zip をダウンロード（ワークフローの改訂に伴い随時更新中）※2026/02/04更新
・解凍してできるフォルダ

📂ComfyUI
  ├─📂input　　　　　　　　　　　　　　← ワークフローに含まれる入力画像
  └─📂user
        └─📂default
              └─📂workflows　　　　　　　　← ワークフローの保存場所
                    ├─📂_audio
                    ├─📂_base
                    ├─📂_base_i2i
                    ├─📂_base_t2i
                    ├─📂_prompt
                    ├─📂_utility
                    ├─📂_video
                    ├─📂_video2
                    └─📂test

・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする

ワークフローと動作環境による生成時間（分：秒）

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
LTX-2_text2video_V2_004.json	text2video	通常版 fp4	05:39.55	11:44.47	14:18.25	26:41.94	×	×	×
LTX-2_text2video_distilled_005.json	text2video 8ステップ		02:31.52	13:36.94	23:55.01	16:45.69	×	×	×
LTX-2_image2video_distilled_V2_007.json	image2video		01:43.82	31:50.14	23:10.95	29:10.14	×	×	×
203_T2V_LTX2_base_dev.json	text2video(改訂)		04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
204_I2V_LTX2_base_dev.json	image2video(改訂)		03:08.69	07:47.42	09:45.00	16:52.34	×	×	×
206_A2V_LTX2_base_dev.json	audio2video		02:53.31	07:30.21	09:20.69	16:34.97	×	×	×
207_V2A_LTX2_base_dev.json	video2audio		01:55.79	06:00.17	07:08.73	17:43.18	×	×	×
208_A-I2V_LTX2_base_dev.json	audio+image2video		02:43.83	08:16.86	09:04.70	17:06.41	×	×	×
210_IC-LoRA_pose_LTX2_dev.json	IC-LoRA (Pose)		10:00.20		19:49.19		×	×	×
211_IC-LoRA_depth_LTX2_dev.json	IC-LoRA (Depth)		03:09.71		13:06.03		×	×	×
212_IC-LoRA_canny_LTX2_dev.json	IC-LoRA (Canny)		02:13.21		08:02.74		×	×	×

↑

環境設定†

引用サイトの推奨設定値

解像度	640×640（1:1）	出力	1280x1280
	768×512（3:2）		1536x1024
	704×512（4:3）		1408x1024
	※後処理で 2倍にアップスケールするので実際の出力は倍のサイズになる
	※32の倍数である必要がある
FPS	24 / 25 / 30
フレーム	最大：257 frames（25fpsで約10秒）
	推奨：121–161（品質とメモリのバランス）
	※8n+1 になる必要がある

モデルの配置（適合するように変更）

📂StabilityMatrix/Data/
 └ 📂Models/
    ├ 📂StableDiffusion/
    │   └── ltx-2-19b-dev-fp4.safetensors
    └ 📂Lora/
         └── ltx-2-19b-distilled-lora-384.safetensors

📂ComfyUI/
 └ 📂models/
    ├ 📂latent_upscale_models/
    │   └── ltx-2-spatial-upscaler-x2-1.0.safetensors
    └ 📂text_encoders/
         └── gemma_3_12B_it_fp4_scaled.safetensors

　※ より軽量化へ 4bit量子化モデルに変更する
　　・ltx-2-19b-dev-fp8.safetensors → ltx-2-19b-dev-fp4.safetensors
　　・gemma_3_12B_it_fp8_scaled.safetensors → gemma_3_12B_it_fp4_mixed.safetensors
　※ StabilityMatrix 環境のため共有モデルを配置変更

↑

テキストから音声＋動画を生成「text2video」†

基本ワークフローを読み込む
・サイトのワークフロー LTX-2_text2video_V2.json をダウンロード
・「checkpoints」「text_encoders」モデルを 4bit軽量版に変更する
・左右のレイアウトを詰めて画面全体を表示しながら実行できるようにする
基本的な処理の流れ

Step1: text2video + audio
　・ベースとなる動画（+ 音声）を生成する

Step2: Upscale（Hires.fix）
　・できた動画を 2 倍にアップスケールし、
　　video2video でもう一度リファイン
　・品質は低下するが Uopscale をパスすることもできる

Step3: Decode
　・動画と音声を別々にデコードして出力する
修正した「text2video 基本」ワークフロー（右は Upscale をパスした場合）

　※ ワークフロー：「_video/」LTX-2_text2video_V2_004.json

処理の流れ
1. 動画解像度・長さ・FPSの設定

生成したい動画と音声のパラメータを決定する

・「EmptyLTXVLatentVideo」「 LTXV Empty Latent Audio」に、
　解像度・フレーム数・FPS を入力（推奨設定値に従って設定）

・Upscale 処理の場合は設定する解像度は出力動画の半分の値にする

2. プロンプト入力

・LTXシリーズの特徴で、プロンプトは多少こだわらないと大した動画が作れない

・細かいフォーマットが決まっているわけではない

・小説を書くように、生成したい動画を記述してみる
　参考 → Prompting Guide for LTX-2

　Prompt:
A stylized 3D cartoon shot at the entrance of an upscale restaurant at night, warm lantern light spilling onto a polished stone doorway as soft city ambience hums in the background. The camera starts low and close to the front steps and slowly pushes forward toward the door, emphasizing glossy reflections and the cozy golden glow inside. A panda waiter in a crisp red vest and black bow tie steps into frame, grips the handle with a gentle motion, and opens the door wide with a welcoming flourish. The panda’s round face, bright expressive eyes, and friendly smile read clearly as it leans forward in a small polite bow and speaks in a warm, inviting voice: “Welcome to Restaurant Shanghai.” The camera continues its smooth push-in to a medium close-up on the panda’s face and upper body, with the softly lit interior behind it. Ambient audio includes a subtle door chime, quiet restaurant chatter, and the panda’s clear line delivery.

高級レストランの入り口を捉えた、スタイリッシュな3Dアニメ風の映像。温かみのあるランタンの光が、磨き上げられた石造りの扉に降り注ぎ、背景には柔らかな都会の雰囲気が漂っている。カメラは低い位置から玄関の階段付近からゆっくりとドアへと近づき、光沢のある反射と店内の心地よい金色の輝きを強調する。鮮やかな赤いベストと黒い蝶ネクタイを身に着けたパンダのウェイターがフレームに入り、軽くハンドルを握り、歓迎の意を示すようにドアを大きく開ける。パンダの丸顔、明るく表情豊かな瞳、そして人懐っこい笑顔は、パンダが身を乗り出し、小さく丁寧にお辞儀をしながら、温かく招き入れるような声で「上海レストランへようこそ」と語りかける様子から読み取れる。カメラは、柔らかな光に照らされた店内を背景に、パンダの顔と上半身をミディアムクローズアップで捉える。環境音には、かすかなドアチャイムの音、レストランの静かな会話、そしてパンダの明瞭なセリフが含まれている。

　Negative Prompt:
blurry, out of focus, overexposed, underexposed, low contrast, washed out colors, excessive noise, grainy texture, poor lighting, flickering, motion blur, distorted proportions, unnatural skin tones, deformed facial features, asymmetrical face, missing facial features, extra limbs, disfigured hands, wrong hand count, artifacts around text, unreadable text on shirt or hat, incorrect lettering on cap (“PNTR”), incorrect t-shirt slogan (“JUST DO IT”), missing microphone, misplaced microphone, inconsistent perspective, camera shake, incorrect depth of field, background too sharp, background clutter, distracting reflections, harsh shadows, inconsistent lighting direction, color banding, cartoonish rendering, 3D CGI look, unrealistic materials, uncanny valley effect, incorrect ethnicity, wrong gender, exaggerated expressions, smiling, laughing, exaggerated sadness, wrong gaze direction, eyes looking at camera, mismatched lip sync, silent or muted audio, distorted voice, robotic voice, echo, background noise, off-sync audio, missing sniff sounds, incorrect dialogue, added dialogue, repetitive speech, jittery movement, awkward pauses, incorrect timing, unnatural transitions, inconsistent framing, tilted camera, missing door or shelves, missing shallow depth of field, flat lighting, inconsistent tone, cinematic oversaturation, stylized filters, or AI artifacts.

ぼやけている、焦点が合っていない、露出オーバー、露出不足、コントラストが低い、色が褪せている、ノイズが多すぎる、粒状の質感、照明が悪い、ちらつき、モーションブラー、歪んだプロポーション、不自然な肌の色、変形した顔の特徴、非対称の顔、顔の特徴がない、余分な手足、変形した手、間違った手のカウント、文字の周囲のアーティファクト、シャツや帽子の判読できない文字、帽子の間違った文字（「PNTR」）、間違ったTシャツのスローガン（「JUST DO IT」）、マイクがない、マイクの位置が間違っている、一貫性のない遠近感、カメラの揺れ、間違った被写界深度、背景が鮮明すぎる、背景が乱雑、気が散る反射、強い影、一貫性のない照明方向、色の縞模様、漫画のようなレンダリング、3D CGI の外観、非現実的なマテリアル、不気味の谷効果、間違った民族、間違った性別、誇張された表情、笑顔、笑い、誇張された悲しみ、間違った視線方向、カメラを見ている目、歪んだ音声、ロボットのような声、エコー、バックグラウンドノイズ、同期していないオーディオ、スニフ音の欠落、不正確なセリフ、追加されたセリフ、繰り返しのスピーチ、ぎこちない動き、不自然な間、不正確なタイミング、不自然な遷移、一貫性のないフレーミング、傾いたカメラ、ドアまたは棚の欠落、浅い被写界深度の欠落、平坦な照明、一貫性のないトーン、映画のような過飽和、様式化されたフィルター、または AI アーティファクト。

3. サンプリング（1段目）

・基本は「ステップ数と CFG を決めてサンプリングする」
　この workflow では、20 steps / CFG 4.0 で 1段目を回している

・LTXVScheduler という専用スケジューラーを使用している
　動きとしては linear_quadratic に似たもの

・LTX-2 は動画と音声を同時に扱う
　🟫LTXVConcatAVLatentで、動画 latent と音声 latent を 1本にする

4. latent のアップスケール（x2）

・動画latent の解像度を 2倍にアップスケールする
　専用のモデル (ltx-2-spatial-upscaler-x2)を使用する

5. サンプリング（2段目 / video2video）

アップスケール後の latent を短いステップでリファインする
・ここでは 4～8 ステップで生成できるようになる distilled-loraを使用する
　他のモデルでいうところの Lightning / Turbo のようなもの
　この workflow では 3 steps で回している
　これに合わせて、CFGは 1.0 に変更する

・Manual Sigma を使っているため少し分かりにくいが、Simple 相当では
　denoise = 0.47 前後に近い挙動

6. デコード

最後に、動画と音声をそれぞれデコードして書き出す
・latent を動画用 / 音声用に分け、適切な VAE でデコードする
・VRAM に余裕が無いため Tiled VAE を使っている

生成結果動画（音声付き）

2X Upscale (1408x1024 pixel) Upscale なし (704x512 pixel)

生成時間（分：秒）11:38.87 生成時間（分：秒）08:43.00

2X Upscale (1408x1024 pixel)	Upscale なし (704x512 pixel)

生成時間（分：秒）11:38.87	生成時間（分：秒）08:43.00

↑

テキストから音声＋動画を生成（軽量化）「text2video Step 8」†

　Distilled-LoRA（蒸留LoRA）で軽量化
Distilled-LoRA は主に画像生成や動画生成の分野で、モデルの軽量化・高速化技術（知識蒸留）と低ランク適応（LoRA）を組み合わせた手法
膨大な知識を持つ「教師モデル」の能力を、少ない推論ステップ（通常4〜8ステップ）で再現できるよう訓練された軽量な追加モデル（LoRA）を使用する

基本ワークフローを読み込む
・サイトのワークフロー LTX-2_text2video_distilled をダウンロード
・「checkpoints」「text_encoders」モデルを 4bit軽量版に変更する
・左右のレイアウトを詰めて画面全体を表示しながら実行できるようにする
修正した「text2video 8ステップ」ワークフロー

　※ ワークフロー：「_video/」LTX-2_text2video_distilled_005.json

生成結果動画（音声付き）

ltx-2-19b-dev-fp4.safetensors	ltx-2-19b-distilled-fp8.safetensors

生成時間（分：秒）24:46.75	生成時間（分：秒）08:46.19
Step数を 20 → 8 に減らしたにもかかわらず生成速度は倍以上かかっている。VRAM 容量不足で効果が出ないのかもしれない。 fp8 → fp4 のモデルについては同じワークフローで問題がないようだ。	蒸留版を通常版と同じワークフローで使用するのは問題があるようで、生成品質が良くない。対応方法は調査の必要がある。

↑

静止画像から音声＋動画を生成「image2video」†

基本ワークフローを読み込む
・サイトのワークフロー LTX-2_image2video_distilled_V2.json をダウンロード
・「checkpoints」「text_encoders」モデルを 4bit軽量版に変更する
・左右のレイアウトを詰めて画面全体を表示しながら実行できるようにする

基本的な処理の流れ
・基本は「1フレーム目を入力画像で固定して、残りを生成」
　例えば 121フレームの動画を作る場合の流れ

　1. 121 frames の枠を作る（8n+1）
　　🌫️ 🌫️ 🌫️ 🌫️ 🌫️ ... 🌫️

　2. 1フレーム目だけ入力画像で上書き
　　🖼️ 🌫️ 🌫️ 🌫️ 🌫️ ... 🌫️

　3. 残りの120フレームを生成
　　🖼️ ✨ ✨ ✨ ✨ ... ✨

　🖼️ を起点に、後ろのフレーム（✨）が埋まっていくイメージ

修正した「image2video 基本」ワークフロー

　※ ワークフロー：「_video/」LTX-2_image2video_distilled_V2_007.json

処理の流れ
1. 入力画像のリサイズ（2系統作る）

・最終出力したい解像度に合わせたフル解像度版を作る
　任意のサイズにリサイズ (ここでは 1MP メガピクセル)
　幅・高さは 64 の倍数にする
　1段目は 1/2 解像度で回すため、半分にしても 32 の倍数になるように 64 の倍数にする

・1段目（半解像度）用に、上の画像を縦横 1/2 にした版も作る
　EmptyLTXVLatentVideo には、この半解像度側の width/height を入力する

2. 画像の下処理

LTX-Video からの特徴で、動画は静止画と違い、少し圧縮されて劣化しているため
綺麗すぎる画像を使うと、全く動かない動画が生成されることがある

・これを回避するため、LTXVPreprocess でわざと動画の圧縮っぽく劣化させる

3. LTXVImgToVideoInplace（1段目の差し込み）

ここが image2video の本体

・1段目（半解像度）の video latent に対して、1フレーム目を画像で差し込む

4.アップスケール側（2段目）にも同じことをする

2段目も同様に画像を差し込む

・必ず spatial ノードのあとにこのノードを接続すること
・strength は 1.0 にする
　これを小さくすると、差し込んだ画像自体も image2image されるような挙動になる
　入力画像と1フレーム目を完全一致させたい場合は 1.0 にする

5. プロンプト入力

　Prompt:
The woman is briskly walking from deep in the street toward the foreground with sharp, rhythmic boot steps clicking on the stone pavement, while the camera is smoothly backing up to keep her centered as she advances. The steady footfalls and light coat-fabric rustle sit under a quiet city bed of distant traffic hiss and occasional muffled voices bouncing off the stone walls. As she comes closer, a British public telephone box appears along the sidewalk; the camera continues retreating as she angles toward it, the footsteps tightening in pace and echo. She pulls the door open and steps inside, the door creaking and closing with a hollow thud that slightly muffles the outside ambience. She lifts the receiver, a soft plastic scrape and cord shift audible, then inserts coins with distinct metallic clinks and dials the number with crisp clicks, followed by a steady dial tone turning into a faint ringback as she holds the handset to her ear and waits, breathing quietly.

女性は通りの奥から手前に向かって、石畳をカチカチと音を立てながら、鋭くリズミカルなブーツの足音を響かせながら早足で歩いている。カメラは彼女が前進する間、彼女の視線を中央に留めるために滑らかに後退する。一定の足音と軽いコートの布地の擦れる音は、遠くの交通騒音と時折石壁に反響するくぐもった声といった静かな街の床に静まり返っている。彼女が近づくと、歩道沿いにイギリスの公衆電話ボックスが現れ、カメラは彼女がその方へと角度を変えながら後退し続けると、足音は速度と反響を増していく。彼女はドアを開けて中に入ると、ドアはきしみ、空洞の音を立てて閉まり、外の空気をわずかにかき消した。彼女は受話器を持ち上げ、柔らかいプラスチックの擦れる音とコードが動く音が聞こえる。そして、はっきりとした金属的なカチカチという音とともに硬貨を挿入し、カチッとした音とともに番号をダイヤルする。続いて、一定のダイヤルトーンがかすかな呼び出し音に変わり、彼女は受話器を耳に当て、静かに呼吸しながら待つ。

生成結果動画（音声付き）

入力静止画像生成動画

生成画像のサイズ

入力画像サイズ（pixel）サイズ指定（MP:メガピクセル）生成画像サイズ（Pixel）

1280x720 0.4 832 x 448

0.6 1024 x 576

0.8 1152 x 704

1.0 1280 x 768

↑

「text2video」（改訂版）†

　ComfyUI オフィシャルサイトの標準ワークフロー（通常版）を整理した「103_T2V_LTX2_base_dev.json」に比較しtて 4割程度生成に時間がかかっているのを調査して同レベルの時間で生成できるワークフローに改良する

text2video ワークフロー「LTX-2_text2video_distilled_005.json」からの変更点
・生成画像の解像度を変更
　1408x1024（設定値：704×512）→ 1280x704（設定値：640x352）

・「RandomNoise」ノードを1つにして共通化
　seed 値の入力を1か所で行えるようにまとめる

・ノードのレイアウトを変更して、「Upscale」グループの有効/無効を指定しやすくする
　Full HD 画面サイズ（1920×1080）でワークフロー全体を見通せる配置とする

プロンプト

　Prompt:
A man in practical jungle trekking clothes—lightweight long-sleeve shirt, durable cargo pants, sturdy boots, and a small backpack—walks through a dense, overgrown jungle, filmed from a low angle with a cinematic feel. Leaves and vines crowd the frame as he pushes past ferns and branches, boots sinking softly into damp ground with wet footfalls and occasional twig snaps, while insects buzz and distant birds call under a constant humid forest hush. Dappled light flickers across his clothing as the canopy shifts, and he keeps moving forward at a steady pace, breathing quietly with no dialogue.

薄手の長袖シャツ、丈夫なカーゴパンツ、頑丈なブーツ、そして小さなバックパックという、実用的なジャングルトレッキングウェアを身につけた男が、生い茂ったジャングルを歩く。ローアングルから撮影された、まるで映画のような映像だ。シダや枝をかき分け、葉や蔓が画面いっぱいに広がる。濡れた足音と時折小枝が折れる音とともに、ブーツは湿った地面に静かに沈み込む。湿った森の静寂の中、虫の羽音や遠くの鳥のさえずりが絶えず響く。木漏れ日が変化するにつれ、服の上から木漏れ日がちらつく。男は静かに呼吸をしながら、セリフもなく一定のペースで進み続ける。

生成結果（音声付き）とワークフロー

生成動画ワークフロー

　※ ワークフロー：「_video2/」203_T2V_LTX2_base_dev.json

text to video ワークフローによる生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
video_ltx2_t2v_dev_003.json	テキストから動画生成	通常版 fp4	02:54.28	07:31.23	09:44.48	17:50.15	×	×	×
LTX-2_text2video_V2_004.json	text2video		05:39.55	11:44.47	14:18.25	26:41.94	×	×	×
103_T2V_LTX2_base_dev.json	テキストから動画(改訂)		03:36.68	07:17.85	10:26.00	19:36.78	×	×	×
203_T2V_LTX2_base_dev.json	text2video(改訂)		04:42.13	09:08.95	10:46.57	19:55.23	×	×	×

↑

「image2video」（改訂版）†

　ComfyUI オフィシャルサイトの標準ワークフロー（通常版）を整理した「103_I2V_LTX2_base_dev.json」に比較しtて 2倍以上生成に時間がかかっているのを調査して同レベルの時間で生成できるワークフローに改良する

image2video ワークフロー「LTX-2_image2video_distilled_V2_007.json」からの変更点
・１段目の distilled-lora 適用をやめる
　参照サイトによれば '画質向上と速度アップのため1段目から追加' とあるがこの環境では生成に時間がかかるので、Upscale の 2段目のみ適用する

・生成画像の解像度を変更
　1408x1024（設定値：704×512）→ 1280x704（設定値：640x352）

・「RandomNoise」ノードを1つにして共通化
　seed 値の入力を1か所で行えるようにまとめる

・ノードのレイアウトを変更して、「Upscale」グループの有効/無効を指定しやすくする
　Full HD 画面サイズ（1920×1080）でワークフロー全体を見通せる配置とする

プロンプト

　Prompt:
A woman stands still amid a busy neon-lit street at night. The camera slowly dollies in toward her face as people blur past, their motion emphasizing her calm presence. City lights flicker and reflections shift across her denim jacket.

ネオンがきらめく夜の賑やかな通りで、女性がじっと立っている。カメラはゆっくりと彼女の顔に近づいていく。人々がぼんやりと通り過ぎる中、その動きが彼女の落ち着いた存在感を強調する。街の明かりが揺らめき、デニムジャケットに映る光が揺れ動く。

入力画像

入力静止画像

city_girl.jpg

入力静止画像

city_girl.jpg

生成結果（音声付き）とワークフロー

生成動画ワークフロー

　※ ワークフロー：「_video2/」204_I2V_LTX2_base_dev.json

image to video ワークフローによる生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
video_ltx2_i2v_dev_003.json	静止画から動画生成	通常版 fp4	03:14.28	07:22.89	09:11.15	19:17.54	×	×	×
LTX-2_image2video_distilled_V2_007.json	image2video		01:43.82	31:50.14	23:10.95	29:10.14	×	×	×
104_I2V_LTX2_base_dev.json	静止画から動画(改訂)		03:14.42	08:21.71	10:09.20	19:12.19	×	×	×
204_I2V_LTX2_base_dev.json	image2video(改訂)		03:08.69	07:47.42	09:45.00	16:52.34	×	×	×

↑

音声ファイルから動画生成「audio2video」†

　音声を入力として渡して音に追従する動画を作る

参照サイトのワークフロー「LTX-2_audio2video_distilled_V2.json」からの変更点
・１段目の distilled-lora 適用をやめる
　生成に時間がかかるので、Upscale の 2段目のみ適用する

・生成画像の解像度を変更
　1408x1024（設定値：704×512）→ 1280x704（設定値：640x352）

・「RandomNoise」ノードを1つにして共通化
　seed 値の入力を1か所で行えるようにまとめる

・ノードのレイアウトを変更して、「Upscale」グループの有効/無効を指定しやすくする
　Full HD 画面サイズ（1920×1080）でワークフロー全体を見通せる配置とする

プロンプト

　Prompt:
A warm, intimate cinematic performance inside a cozy, wood-paneled bar, lit with soft amber practical lights and shallow depth of field that creates glowing bokeh in the background. The shot opens in a medium close-up on a japanease young female singer in her 20s with short brown hair and bangs, singin in japanease into a microphone while strumming an acoustic guitar, her eyes closed and posture relaxed. The camera slowly arcs left around her, keeping her face and mic in sharp focus as two male band members playing guitars remain softly blurred behind her. Warm light wraps around her face and hair as framed photos and wooden walls drift past in the background. Ambient live music fills the space, led by her clear vocals over gentle acoustic strumming.

温かく親密な映画のようなパフォーマンスは、居心地の良い木製パネルのバー内で行われ、柔らかな琥珀色の実用的な照明と浅い被写界深度が背景に輝くボケを作り出している。ショットは、短い茶色の髪に前髪のある20代の日本人の若い女性歌手のミディアムクローズアップで始まる。彼女はアコースティックギターをかき鳴らしながらマイクに向かって日本語で歌っており、目は閉じられ、姿勢はリラックスしている。カメラは彼女の顔とマイクを鮮明に捉えたまま、彼女の背後でギターを弾く男性バンドメンバー2人が柔らかくぼやけている。暖かい光が彼女の顔と髪を包み込み、額縁に入った写真と木の壁が背景を流れていく。穏やかなアコースティックギターのかき鳴らしに乗せた彼女の透き通った歌声に導かれるように、アンビエントなライブミュージックが空間を満たす。

入力音声

入力音声

tabi.mp3

入力音声

tabi.mp3

生成結果（音声付き）とワークフロー

生成動画ワークフロー

　※ ワークフロー：「_video2/」206_A2V_LTX2_base_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
206_A2V_LTX2_base_dev.json	audio2video	通常版 fp4	02:53.31	07:30.21	09:20.69	16:34.97	×	×	×

↑

動画に音をつける「video2audio」†

　動画を入力してそれに合う音（効果音や環境音）を生成する

参照サイトのワークフロー「LTX-2_video2audio_distilled.json」からの変更点
・１段目の distilled-lora 適用をやめる
　生成に時間がかかるので、Upscale の 2段目のみ適用する

・生成画像の解像度を変更
　1408x1024（設定値：704×512）→ 1280x704（設定値：640x352）

・「RandomNoise」ノードを1つにして共通化
　seed 値の入力を1か所で行えるようにまとめる

・ノードのレイアウトを変更して、「Upscale」グループの有効/無効を指定しやすくする
　Full HD 画面サイズ（1920×1080）でワークフロー全体を見通せる配置とする

プロンプト

　Prompt:
Female singer playing guitar.

ギターを弾く女性歌手。

生成結果（音声付き）とワークフロー

生成動画ワークフロー

　※ ワークフロー：「_video2/」207_V2A_LTX2_base_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
207_V2A_LTX2_base_dev.json	video2audio	通常版 fp4	01:55.79	06:00.17	07:08.73	17:43.18	×	×	×

↑

音に合わせた動画を生成「audio + image2video」†

　「audio2video」と「image2video」のワークフローを組み合わせる。顔画像に喋っている音声を組み合わせてみる

参照サイトのワークフロー「LTX-2_audio-image2video_distilled_V2.json」からの変更点
・１段目の distilled-lora 適用をやめる
　生成に時間がかかるので、Upscale の 2段目のみ適用する

・生成画像の解像度を変更
　1408x1024（設定値：704×512）→ 1280x704（設定値：640x352）

・「RandomNoise」ノードを1つにして共通化
　seed 値の入力を1か所で行えるようにまとめる

・ノードのレイアウトを変更して、「Upscale」グループの有効/無効を指定しやすくする
　Full HD 画面サイズ（1920×1080）でワークフロー全体を見通せる配置とする

プロンプト

　Prompt:
A tight talking-head close-up with a static camera and shallow depth of field. She looks directly into the lens and speaks clearly, her lips and jaw articulating natural syllable shapes that match the provided voice track timing. While she keeps speaking, she brushes her hair back with one hand, strands sliding through her fingers and settling away from her face. She maintains steady eye contact with subtle blinking and small facial micro-expressions that follow the cadence of her speech. Audio: intimate speech in English, “Sleep can wait, but progress cannot.” with faint nighttime ambience under her voice.

静止したカメラと浅い被写界深度で撮影された、語り手のクローズアップ。彼女はレンズをまっすぐ見つめ、はっきりと話す。唇と顎は、音声トラックのタイミングに合わせて自然な音節の形をとっている。彼女は話を続けながら、片手で髪を後ろにかき上げる。髪の束は指の間を滑り、顔から離れて落ちていく。彼女はアイコンタクトをしっかりと保ち、かすかな瞬きや、話すリズムに合わせた小さな表情で視線を捉えている。音声：親密な英語のセリフ「眠りは待てる、だが進歩は待てない」。かすかな夜の空気が彼女の声に漂う。

入力画像と音声

入力静止画像入力音声

ComfyUI_2026-02-04_00002_.png sample.mp3

入力静止画像	入力音声

ComfyUI_2026-02-04_00002_.png	sample.mp3

生成結果（音声付き）とワークフロー

生成動画ワークフロー

　※ ワークフロー：「_video2/」208_A-I2V_LTX2_base_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
208_A-I2V_LTX2_base_dev.json	audio+image2video	通常版 fp4	02:43.83	08:16.86	09:04.70	17:06.41	×	×	×

↑

生成動画を制御する１（ポーズ）「IC-LoRA (Pose)」†

　IC-LoRA (Pose) は、ポーズの制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

プロンプト

　Prompt:
A poised japanease girl in a long-sleeved, high-neck white dress with a modest flowing skirt is dancing on an indoor stair landing, her movements refined and controlled as the fabric drapes and sways with quiet elegance. Her hair is styled in a sleek low bun or smooth shoulder-length bob, and her expression stays calm and composed as she traces precise steps and slow turns, occasionally placing a hand lightly on the railing before returning to centered, balanced poses. The camera remains fixed while warm sunset light streams through a side window, casting soft, elongated window-frame shadows across the walls and steps and creating a gently hazy, dreamlike glow. BGM sound to accompany the dance, faint cloth movement, soft shoe taps on the floor, a quiet indoor room tone, and a light breeze whispering at the window, with no dialogue and no camera movement.

長袖でハイネックの白いドレスに控えめな流れるようなスカートをまとった、落ち着きのある日本人女性が、屋内の階段の踊り場で踊っている。彼女の動きは洗練されていて、布地が静かな優雅さでドレープし揺れている。彼女の髪は、低い位置でまとめたなだんごか、肩までの滑らかなボブにスタイリングされており、正確なステップとゆっくりとしたターンを描きながら、表情は落ち着いていて落ち着いている。時折、手すりに軽く手を置き、中心のバランスの取れたポーズに戻る。カメラは固定されたまま、暖かい夕焼けの光が横の窓から差し込み、壁や階段に柔らかく細長い窓枠の影を落とし、ややぼんやりとした夢のような輝きを作り出している。ダンスに合わせてBGMが流れ、かすかな布の動き、床を叩く柔らかい靴の音、静かな室内の音、窓辺でささやくそよ風の音が聞こえる。セリフやカメラの動きはない。

IC-LoRA (Pose)

入力動画ポーズ生成動画生成動画

ワークフロー

ワークフロー

　※ ワークフロー：「_video2/」210_IC-LoRA_pose_LTX2_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
210_IC-LoRA_pose_LTX2_dev.json	IC-LoRA (Pose)	通常版 fp4	10:00.20		19:49.19		×	×	×

Comfy-Org: workflow_templates より

　Prompt:
In a realistic cinematic style, a woman sits in a hospital waiting room, holding a medical report with both hands. The harsh fluorescent lights cast a cold, clinical glow on her pale face. She reads the document in silence, her brows furrowing deeper with each line. The camera starts wide, showing the empty waiting room with its sterile white walls and patterned teal wallpaper, then slowly pushes in to a close-up of her face. A melancholic, piano-driven melody plays softly in the background—a gentle, emotional piece with strings that swell and fade, echoing the weight of the moment. The distant sounds of hospital activity—muffled voices, the beep of machines, footsteps in the hallway, the rustle of medical papers—drift in and out, blending with the music. After a long pause, she lifts her gaze from the paper, staring forward with tears welling in her eyes. "I need to tell him," she says quietly, her voice breaking slightly. The camera pulls back as she carefully folds the paper, stands up, and walks toward the hallway, her figure growing smaller as she disappears around the corner.

映画のような写実的なスタイルで、女性が病院の待合室に座り、両手に診断書を抱えている。強烈な蛍光灯の光が、彼女の青白い顔に冷たく、医療的な輝きを放っている。彼女は黙って診断書を読み、一行ごとに眉をひそめていく。カメラはワイドショットから始まり、殺風景な白い壁と模様のある青緑色の壁紙が敷かれた、誰もいない待合室を映し出す。そしてゆっくりと彼女の顔のクローズアップへと近づいていく。メランコリックなピアノを基調としたメロディーが、BGMとして静かに流れる。優しく情感あふれるメロディーに、弦楽器の音が響き渡り、この瞬間の重みを響かせている。病院の喧騒――くぐもった声、機械のビープ音、廊下の足音、診断書の擦れる音――が、音楽と溶け合うように、かすかに流れ込んでは消えていく。長い沈黙の後、彼女は診断書から視線を上げ、目に涙を浮かべながら前を見つめる。「彼に伝えなくちゃ」と、かすかに声を詰まらせながら、彼女は静かに言った。彼女が紙を丁寧に折り、立ち上がり、廊下に向かって歩くと、カメラは引いて、彼女の姿は小さくなりながら角を曲がって消えていく。

入力動画	ポーズ生成動画	生成動画

↑

生成動画を制御する２（深度）「IC-LoRA (Depth)」†

　IC-LoRA (Depth) は、深度の制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

プロンプト

　Prompt:
A modern, open office space on a high floor with spacious windows overlooking the cityscape.
It features a sophisticated industrial interior design. Quiet jazz piano music plays in the room.

広々とした窓から街並みを見下ろす高層階にある、モダンで開放的なオフィススペース。
洗練されたインダストリアルな内装デザインが特徴。部屋には静かなジャズピアノの音楽が流れています。

IC-LoRA (Depth)

入力動画深度生成動画生成動画

ワークフロー

ワークフロー

　※ ワークフロー：「_video2/」211_IC-LoRA_depth_LTX2_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
211_IC-LoRA_depth_LTX2_dev.json	IC-LoRA (Depth)	通常版 fp4	03:09.71		13:06.03		×	×	×

↑

生成動画を制御する３（エッジ）「IC-LoRA (Canny)」†

　IC-LoRA (Canny) は、エッジの制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

プロンプト

　Prompt:
A wide shot reveals a whimsical outdoor scene with a decorative tree-like structure crafted from brown branches. Golden spherical ornaments and delicate white artificial flowers adorn the branches, catching bright daylight. A small grey and white squirrel stands on a round, light-colored wooden platform at the base, its bushy tail slightly raised. The squirrel dips its head down, nibbling at something on the platform. The camera slowly pushes in, focusing on the squirrel's gentle movements. Soft forest sounds fill the air—rustling leaves, distant birdsong, and a gentle breeze. The golden ornaments shimmer in the sunlight as the squirrel continues to eat.

ワイドショットで、茶色の枝で作られた木のような装飾のある、幻想的な屋外風景が映し出されます。金色の球状の飾りと繊細な白い造花が枝を飾り、明るい日光を浴びています。灰色と白の小さなリスが、丸くて明るい色の木製の台の上に立っており、ふさふさした尻尾を少し立てています。リスは頭を下げ、台の上の何かをかじっています。カメラはゆっくりと近づき、リスの穏やかな動きに焦点を合わせます。かすかな森の音が辺りを満たします。葉のざわめき、遠くの鳥のさえずり、そよ風。リスが食べ続ける間、金色の飾りが太陽の光にきらめきます。

IC-LoRA (Canny)

入力動画深度生成動画生成動画

ワークフロー

ワークフロー

　※ ワークフロー：「_video2/」212_IC-LoRA_canny_LTX2_dev.json

text to video ワークフローとの生成時間（分：秒）の比較

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
203_T2V_LTX2_base_dev.json	text2video(改訂)	通常版 fp4	04:42.13	09:08.95	10:46.57	19:55.23	×	×	×
212_IC-LoRA_canny_LTX2_dev.json	IC-LoRA (Canny)	通常版 fp4	02:13.21		08:02.74		×	×	×

↑

生成動画を制御する４（ディテーラー）「IC-LoRA (Detailer)」†

　IC-LoRA (Detailer)は、低解像度の動画のディテールや質感を修復する。基本は IC-LoRA(Detailer) を適用した video2video

カスタムノードのインストール

・「ComfyUI Manager」から「ComfyUI-LTXVideo」をインストールする
　ComfyUI-LTXVideo

IC-LoRA (Detailer)

C入力動画	生成動画

　古い 8mmビデオで撮影した動画をデジタル化したもの（640x480 pixel）を 640x360 pixel サイズの動画に変換して入力画像とした
　出力サイズは 1280x720 pixel に設定。動画のアップスケールが簡単にできる

ワークフロー

ワークフロー

　※ ワークフロー：「_video2/」213_IC-LoRA_detaler_LTX2_dev.json

↑

忘備録†

↑

torch.OutOfMemoryError: メモリー不足エラー†

発生時の状況

・生成途中で左のダイアログを表示して停止する
・再度「Run」を押すと何事もなく生成終了となる場合がある

ComfyUIで「メモリ不足（Out of Memory / OOM）」エラーが発生しても、再実行（Queueボタンをもう一度押す）すると成功する、あるいは2回に1回は成功するような現象は、VRAM（ビデオメモリ）がギリギリの状態で動作している際によく発生する「不安定なメモリ管理」の症状

▼　エラー・ログ

    :
!!! Exception during processing !!! Allocation on device 0 would exceed allowed memory. (out of memory)
Currently allocated     : 5.62 GiB
Requested               : 54.00 MiB
Device limit            : 8.00 GiB
Free (according to CUDA): 0 bytes
PyTorch limit (set by user-supplied memory fraction)
                        : 17179869184.00 GiB
Traceback (most recent call last):
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\execution.py", line 518, in execute
    output_data, output_ui, has_subgraph, has_pending_tasks = await get_output_data(prompt_id, unique_id, obj, input_data_all, execution_block_cb=execution_block_cb, pre_execute_cb=pre_execute_cb, v3_data=v3_data)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\execution.py", line 329, in get_output_data
    return_values = await _async_map_node_over_list(prompt_id, unique_id, obj, input_data_all, obj.FUNCTION, allow_interrupt=True, execution_block_cb=execution_block_cb, pre_execute_cb=pre_execute_cb, v3_data=v3_data)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\execution.py", line 303, in _async_map_node_over_list
    await process_inputs(input_dict, i)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\execution.py", line 291, in process_inputs
    result = f(**inputs)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\comfy_extras\nodes_lt_upsampler.py", line 53, in upsample_latent
    upscale_model.to(device)  # TODO: use the comfy model management system.
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 1381, in to
    return self._apply(convert)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 933, in _apply
    module._apply(fn)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 933, in _apply
    module._apply(fn)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 933, in _apply
    module._apply(fn)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 964, in _apply
    param_applied = fn(param)
  File "D:\StabilityMatrix\Data\Packages\ComfyUI\venv\lib\site-packages\torch\nn\modules\module.py", line 1367, in convert
    return t.to(
torch.OutOfMemoryError: Allocation on device 0 would exceed allowed memory. (out of memory)
Currently allocated     : 5.62 GiB
Requested               : 54.00 MiB
Device limit            : 8.00 GiB
Free (according to CUDA): 0 bytes
PyTorch limit (set by user-supplied memory fraction)
                        : 17179869184.00 GiB

Memory summary: 
|===========================================================================|
|                  PyTorch CUDA memory summary, device ID 0                 |
|---------------------------------------------------------------------------|
|            CUDA OOMs: 0            |        cudaMalloc retries: 0         |
|===========================================================================|
|        Metric         | Cur Usage  | Peak Usage | Tot Alloc  | Tot Freed  |
|---------------------------------------------------------------------------|
| Allocated memory      |   5475 MiB |   5752 MiB |      0 B   |      0 B   |
|       from large pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|       from small pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|---------------------------------------------------------------------------|
| Active memory         |   5475 MiB |   5752 MiB |      0 B   |      0 B   |
|       from large pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|       from small pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|---------------------------------------------------------------------------|
| Requested memory      |      0 B   |      0 B   |      0 B   |      0 B   |
|       from large pool |      0 B   |      0 B   |      0 B   |      0 B   |
|       from small pool |      0 B   |      0 B   |      0 B   |      0 B   |
|---------------------------------------------------------------------------|
| GPU reserved memory   |   8000 MiB |   8064 MiB |      0 B   |      0 B   |
|       from large pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|       from small pool |      0 MiB |      0 MiB |      0 B   |      0 B   |
|---------------------------------------------------------------------------|
| Non-releasable memory |      0 B   |      0 B   |      0 B   |      0 B   |
|       from large pool |      0 B   |      0 B   |      0 B   |      0 B   |
|       from small pool |      0 B   |      0 B   |      0 B   |      0 B   |
|---------------------------------------------------------------------------|
| Allocations           |       0    |       0    |       0    |       0    |
|       from large pool |       0    |       0    |       0    |       0    |
|       from small pool |       0    |       0    |       0    |       0    |
|---------------------------------------------------------------------------|
| Active allocs         |       0    |       0    |       0    |       0    |
|       from large pool |       0    |       0    |       0    |       0    |
|       from small pool |       0    |       0    |       0    |       0    |
|---------------------------------------------------------------------------|
| GPU reserved segments |       0    |       0    |       0    |       0    |
|       from large pool |       0    |       0    |       0    |       0    |
|       from small pool |       0    |       0    |       0    |       0    |
|---------------------------------------------------------------------------|
| Non-releasable allocs |       0    |       0    |       0    |       0    |
|       from large pool |       0    |       0    |       0    |       0    |
|       from small pool |       0    |       0    |       0    |       0    |
|---------------------------------------------------------------------------|
| Oversize allocations  |       0    |       0    |       0    |       0    |
|---------------------------------------------------------------------------|
| Oversize GPU segments |       0    |       0    |       0    |       0    |
|===========================================================================|

Got an OOM, unloading all loaded models.
Prompt executed in 329.08 seconds
got prompt
Requested to load VideoVAE
loaded completely; 5625.68 MB usable, 2331.69 MB loaded, full load: True
Requested to load LTXAV
loaded partially; 5264.00 MB usable, 5103.96 MB loaded, 8675.30 MB offloaded, 160.04 MB buffer reserved, lowvram patches: 1264
100%|██████████| 3/3 [00:44<00:00, 14.76s/it]
Requested to load AudioVAE
loaded completely; 519.71 MB usable, 415.20 MB loaded, full load: True
Requested to load VideoVAE
0 models unloaded.
loaded partially; 0.00 MB usable, 0.00 MB loaded, 2331.69 MB offloaded, 648.02 MB buffer reserved, lowvram patches: 0
Prompt executed in 95.35 seconds
    :

↑

module 'comfy.model_management' has no attribute 'load_model_gpu'†

発生時の状況：
・突然実行途中の特定ノードで発生するようになる

原因（AI による）：

このエラーは、ComfyUIの本体（コア）がアップデートされたことにより、旧バージョンのコードに基づいた「カスタムノード（追加機能）」が使えなくなっていることが原因です。 
comfy.model_management.load_model_gpu は新しいバージョンのComfyUIで削除または変更されたため、該当するカスタムノードを更新または修正する必要があります。

対処法1：
「ComfyUI-Manager」を使用して、すべてのカスタムノードを最新版に更新する

1. ComfyUIの画面で「Manager」ボタンをクリック
2.「Update All」をクリック
3.アップデートが完了したら、ComfyUI を再起動（ブラウザを閉じて「StabilityMatrix」を一旦終了して再起動する）

↑

動画編集 Tips†

「ffmpeg」を利用して動画を編集する → Tips

conda activate py38_learn

cd workspace_pylearn/learn

608x342 pixel サイズにトリミング

ffmpeg -i mayu199103.mp4 -vf crop=608:342:8:50 mayu199103_1.mp4

640x360 pixel サイズにする

ffmpeg -i mayu199103_1.mp4 -vf scale=640:-1 mayu199103_2.mp4

フレームレートを 24fps にする

ffmpeg -i mayu199103_2.mp4 -r 24 mayu199103_3.mp4

最初から５秒間だけ切り出す

ffmpeg -ss 00:00 -i mayu199103_3.mp4 -to 00:05 -c copy mayu199103_4.mp4

参考サイト

↑

更新履歴†

2026/02/04 初版

↑

参考資料†

ComfyUI LTX-2

ComfyUI LTX-2 workflow
- Comfy-Org: workflow_templates
- ComfyUI Blog: LTX-2 is natively supported in ComfyUI on Day 0

ComfyUI LTX-2 省メモリー
- LTX-2 環境構築トレンド1/21版

入力画像サイズ（pixel）	サイズ指定（MP:メガピクセル）	生成画像サイズ（Pixel）
1280x720	0.4	832 x 448
	0.6	1024 x 576
	0.8	1152 x 704
	1.0	1280 x 768

ComfyUI9a の履歴(No.15)

画像生成AI「ComfyUI」９（続動画編２） == 編集中 ==†

LTX-2 による音声付き動画生成２ ＜Confy(快適)に使うConfyUI＞†

プロジェクトで作成するワークフロー†

環境設定†

テキストから音声＋動画を生成「text2video」†

テキストから音声＋動画を生成（軽量化）「text2video Step 8」†

静止画像から音声＋動画を生成「image2video」†

「text2video」（改訂版）†

「image2video」（改訂版）†

音声ファイルから動画生成「audio2video」†

動画に音をつける「video2audio」†

音に合わせた動画を生成「audio + image2video」†

生成動画を制御する１（ポーズ）「IC-LoRA (Pose)」†

生成動画を制御する２（深度）「IC-LoRA (Depth)」†

生成動画を制御する３（エッジ）「IC-LoRA (Canny)」†

生成動画を制御する４（ディテーラー）「IC-LoRA (Detailer)」†

忘備録†

torch.OutOfMemoryError: メモリー不足エラー†

module 'comfy.model_management' has no attribute 'load_model_gpu'†

動画編集 Tips†

更新履歴†

参考資料†

画像生成AI「ComfyUI」９（続動画編２）　== 編集中 ==†

LTX-2 による音声付き動画生成２＜Confy(快適)に使うConfyUI＞†