私的AI研究会 > ComfyUI9 > ComfyUI9a
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| LTX-2 ワークフローは複雑で理解しにくい。いろいろ調査していく過程で日本人の方の作成したわかりやすいサイトを見つけた。 このサイトをお手本にLTX-2 ワークフローの検証を進める |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 ├─📂_audio ├─📂_base ├─📂_base_i2i ├─📂_base_t2i ├─📂_prompt ├─📂_utility ├─📂_video └─📂test・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| ワークフロー | 機 能 | モデル | CPU | CPU | |||||
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 | |||
| LTX-2_text2video_V2_004.json | text2video | 通常版 fp4 | 11:44.47 | 14:18.25 | 26:41.94 | × | × | × | |
| LTX-2_text2video_distilled_005.json | text2video 8ステップ | 13:36.94 | 23:55.01 | 16:45.69 | × | × | × | ||
| LTX-2_image2video_distilled_V2_007.json | image2video | 31:50.14 | 23:10.95 | 29:10.14 | × | × | × | ||
| 203_T2V_LTX2_base_dev.json | text2video(改訂) | 09:08.95 | 10:46.57 | 19:55.23 | × | × | × | ||
| 204_I2V_LTX2_base_dev.json | image2video(改訂) | 07:47.42 | 09:45.00 | 16:52.34 | × | × | × | ||
| 206_A2V_LTX2_base_dev.json | audio2video | 07:30.21 | 09:20.69 | 16:34.97 | × | × | × | ||
| 207_V2A_LTX2_base_dev.json | video2audio | 06:00.17 | 07:08.73 | 17:43.18 | × | × | × | ||
| 208_A-I2V_LTX2_base_dev.json | audio+image2video | 08:16.86 | 12:09.69 | 23:15.64 | × | × | × | ||
| 解像度 | 640×640(1:1) | 出力 | 1280x1280 |
| 768×512(3:2) | 1536x1024 | ||
| 704×512(4:3) | 1408x1024 | ||
| ※後処理で 2倍にアップスケールするので実際の出力は倍のサイズになる | |||
| ※32の倍数である必要がある | |||
| FPS | 24 / 25 / 30 | ||
| フレーム | 最大:257 frames(25fpsで約10秒) | ||
| 推奨:121–161(品質とメモリのバランス) | |||
| ※8n+1 になる必要がある | |||
📂StabilityMatrix/Data/ └ 📂Models/ ├ 📂StableDiffusion/ │ └── ltx-2-19b-dev-fp4.safetensors └ 📂Lora/ └── ltx-2-19b-distilled-lora-384.safetensors 📂ComfyUI/ └ 📂models/ ├ 📂latent_upscale_models/ │ └── ltx-2-spatial-upscaler-x2-1.0.safetensors └ 📂text_encoders/ └── gemma_3_12B_it_fp4_scaled.safetensors※ より軽量化へ 4bit量子化モデルに変更する
| Prompt: A stylized 3D cartoon shot at the entrance of an upscale restaurant at night, warm lantern light spilling onto a polished stone doorway as soft city ambience hums in the background. The camera starts low and close to the front steps and slowly pushes forward toward the door, emphasizing glossy reflections and the cozy golden glow inside. A panda waiter in a crisp red vest and black bow tie steps into frame, grips the handle with a gentle motion, and opens the door wide with a welcoming flourish. The panda’s round face, bright expressive eyes, and friendly smile read clearly as it leans forward in a small polite bow and speaks in a warm, inviting voice: “Welcome to Restaurant Shanghai.” The camera continues its smooth push-in to a medium close-up on the panda’s face and upper body, with the softly lit interior behind it. Ambient audio includes a subtle door chime, quiet restaurant chatter, and the panda’s clear line delivery. |
| 高級レストランの入り口を捉えた、スタイリッシュな3Dアニメ風の映像。温かみのあるランタンの光が、磨き上げられた石造りの扉に降り注ぎ、背景には柔らかな都会の雰囲気が漂っている。カメラは低い位置から玄関の階段付近からゆっくりとドアへと近づき、光沢のある反射と店内の心地よい金色の輝きを強調する。鮮やかな赤いベストと黒い蝶ネクタイを身に着けたパンダのウェイターがフレームに入り、軽くハンドルを握り、歓迎の意を示すようにドアを大きく開ける。パンダの丸顔、明るく表情豊かな瞳、そして人懐っこい笑顔は、パンダが身を乗り出し、小さく丁寧にお辞儀をしながら、温かく招き入れるような声で「上海レストランへようこそ」と語りかける様子から読み取れる。カメラは、柔らかな光に照らされた店内を背景に、パンダの顔と上半身をミディアムクローズアップで捉える。環境音には、かすかなドアチャイムの音、レストランの静かな会話、そしてパンダの明瞭なセリフが含まれている。 |
| Negative Prompt: blurry, out of focus, overexposed, underexposed, low contrast, washed out colors, excessive noise, grainy texture, poor lighting, flickering, motion blur, distorted proportions, unnatural skin tones, deformed facial features, asymmetrical face, missing facial features, extra limbs, disfigured hands, wrong hand count, artifacts around text, unreadable text on shirt or hat, incorrect lettering on cap (“PNTR”), incorrect t-shirt slogan (“JUST DO IT”), missing microphone, misplaced microphone, inconsistent perspective, camera shake, incorrect depth of field, background too sharp, background clutter, distracting reflections, harsh shadows, inconsistent lighting direction, color banding, cartoonish rendering, 3D CGI look, unrealistic materials, uncanny valley effect, incorrect ethnicity, wrong gender, exaggerated expressions, smiling, laughing, exaggerated sadness, wrong gaze direction, eyes looking at camera, mismatched lip sync, silent or muted audio, distorted voice, robotic voice, echo, background noise, off-sync audio, missing sniff sounds, incorrect dialogue, added dialogue, repetitive speech, jittery movement, awkward pauses, incorrect timing, unnatural transitions, inconsistent framing, tilted camera, missing door or shelves, missing shallow depth of field, flat lighting, inconsistent tone, cinematic oversaturation, stylized filters, or AI artifacts. |
| ぼやけている、焦点が合っていない、露出オーバー、露出不足、コントラストが低い、色が褪せている、ノイズが多すぎる、粒状の質感、照明が悪い、ちらつき、モーションブラー、歪んだプロポーション、不自然な肌の色、変形した顔の特徴、非対称の顔、顔の特徴がない、余分な手足、変形した手、間違った手のカウント、文字の周囲のアーティファクト、シャツや帽子の判読できない文字、帽子の間違った文字(「PNTR」)、間違ったTシャツのスローガン(「JUST DO IT」)、マイクがない、マイクの位置が間違っている、一貫性のない遠近感、カメラの揺れ、間違った被写界深度、背景が鮮明すぎる、背景が乱雑、気が散る反射、強い影、一貫性のない照明方向、色の縞模様、漫画のようなレンダリング、3D CGI の外観、非現実的なマテリアル、不気味の谷効果、間違った民族、間違った性別、誇張された表情、笑顔、笑い、誇張された悲しみ、間違った視線方向、カメラを見ている目、歪んだ音声、ロボットのような声、エコー、バックグラウンド ノイズ、同期していないオーディオ、スニフ音の欠落、不正確なセリフ、追加されたセリフ、繰り返しのスピーチ、ぎこちない動き、不自然な間、不正確なタイミング、不自然な遷移、一貫性のないフレーミング、傾いたカメラ、ドアまたは棚の欠落、浅い被写界深度の欠落、平坦な照明、一貫性のないトーン、映画のような過飽和、様式化されたフィルター、または AI アーティファクト。 |
| 2X Upscale (1408x1024 pixel) | Upscale なし (704x512 pixel) |
| 生成時間(分:秒)11:38.87 | 生成時間(分:秒)08:43.00 |
| ltx-2-19b-dev-fp4.safetensors | ltx-2-19b-distilled-fp8.safetensors |
| 生成時間(分:秒)24:46.75 | 生成時間(分:秒)08:46.19 |
| Step数を 20 → 8 に減らしたにもかかわらず生成速度は倍以上かかっている。VRAM 容量不足で効果が出ないのかもしれない。 fp8 → fp4 のモデルについては同じワークフローで問題がないようだ。 | 蒸留版を通常版と同じワークフローで使用するのは問題があるようで、生成品質が良くない。対応方法は調査の必要がある。 |
| 1. 121 frames の枠を作る(8n+1) 🌫️ 🌫️ 🌫️ 🌫️ 🌫️ ... 🌫️ |
| 2. 1フレーム目だけ入力画像で上書き 🖼️ 🌫️ 🌫️ 🌫️ 🌫️ ... 🌫️ |
| 3. 残りの120フレームを生成 🖼️ ✨ ✨ ✨ ✨ ... ✨ |
| Prompt: The woman is briskly walking from deep in the street toward the foreground with sharp, rhythmic boot steps clicking on the stone pavement, while the camera is smoothly backing up to keep her centered as she advances. The steady footfalls and light coat-fabric rustle sit under a quiet city bed of distant traffic hiss and occasional muffled voices bouncing off the stone walls. As she comes closer, a British public telephone box appears along the sidewalk; the camera continues retreating as she angles toward it, the footsteps tightening in pace and echo. She pulls the door open and steps inside, the door creaking and closing with a hollow thud that slightly muffles the outside ambience. She lifts the receiver, a soft plastic scrape and cord shift audible, then inserts coins with distinct metallic clinks and dials the number with crisp clicks, followed by a steady dial tone turning into a faint ringback as she holds the handset to her ear and waits, breathing quietly. |
| 女性は通りの奥から手前に向かって、石畳をカチカチと音を立てながら、鋭くリズミカルなブーツの足音を響かせながら早足で歩いている。カメラは彼女が前進する間、彼女の視線を中央に留めるために滑らかに後退する。一定の足音と軽いコートの布地の擦れる音は、遠くの交通騒音と時折石壁に反響するくぐもった声といった静かな街の床に静まり返っている。彼女が近づくと、歩道沿いにイギリスの公衆電話ボックスが現れ、カメラは彼女がその方へと角度を変えながら後退し続けると、足音は速度と反響を増していく。彼女はドアを開けて中に入ると、ドアはきしみ、空洞の音を立てて閉まり、外の空気をわずかにかき消した。彼女は受話器を持ち上げ、柔らかいプラスチックの擦れる音とコードが動く音が聞こえる。そして、はっきりとした金属的なカチカチという音とともに硬貨を挿入し、カチッとした音とともに番号をダイヤルする。続いて、一定のダイヤルトーンがかすかな呼び出し音に変わり、彼女は受話器を耳に当て、静かに呼吸しながら待つ。 |
| 入力画像サイズ(pixel) | サイズ指定(MP:メガピクセル) | 生成画像サイズ(Pixel) |
| 1280x720 | 0.4 | 832 x 448 |
| 0.6 | 1024 x 576 | |
| 0.8 | 1152 x 704 | |
| 1.0 | 1280 x 768 |
| Prompt: A man in practical jungle trekking clothes—lightweight long-sleeve shirt, durable cargo pants, sturdy boots, and a small backpack—walks through a dense, overgrown jungle, filmed from a low angle with a cinematic feel. Leaves and vines crowd the frame as he pushes past ferns and branches, boots sinking softly into damp ground with wet footfalls and occasional twig snaps, while insects buzz and distant birds call under a constant humid forest hush. Dappled light flickers across his clothing as the canopy shifts, and he keeps moving forward at a steady pace, breathing quietly with no dialogue. |
| 薄手の長袖シャツ、丈夫なカーゴパンツ、頑丈なブーツ、そして小さなバックパックという、実用的なジャングルトレッキングウェアを身につけた男が、生い茂ったジャングルを歩く。ローアングルから撮影された、まるで映画のような映像だ。シダや枝をかき分け、葉や蔓が画面いっぱいに広がる。濡れた足音と時折小枝が折れる音とともに、ブーツは湿った地面に静かに沈み込む。湿った森の静寂の中、虫の羽音や遠くの鳥のさえずりが絶えず響く。木漏れ日が変化するにつれ、服の上から木漏れ日がちらつく。男は静かに呼吸をしながら、セリフもなく一定のペースで進み続ける。 |
| Prompt: A woman stands still amid a busy neon-lit street at night. The camera slowly dollies in toward her face as people blur past, their motion emphasizing her calm presence. City lights flicker and reflections shift across her denim jacket. |
| ネオンがきらめく夜の賑やかな通りで、女性がじっと立っている。カメラはゆっくりと彼女の顔に近づいていく。人々がぼんやりと通り過ぎる中、その動きが彼女の落ち着いた存在感を強調する。街の明かりが揺らめき、デニムジャケットに映る光が揺れ動く。 |
| Prompt: A warm, intimate cinematic performance inside a cozy, wood-paneled bar, lit with soft amber practical lights and shallow depth of field that creates glowing bokeh in the background. The shot opens in a medium close-up on a japanease young female singer in her 20s with short brown hair and bangs, singin in japanease into a microphone while strumming an acoustic guitar, her eyes closed and posture relaxed. The camera slowly arcs left around her, keeping her face and mic in sharp focus as two male band members playing guitars remain softly blurred behind her. Warm light wraps around her face and hair as framed photos and wooden walls drift past in the background. Ambient live music fills the space, led by her clear vocals over gentle acoustic strumming. |
| 温かく親密な映画のようなパフォーマンスは、居心地の良い木製パネルのバー内で行われ、柔らかな琥珀色の実用的な照明と浅い被写界深度が背景に輝くボケを作り出している。ショットは、短い茶色の髪に前髪のある20代の日本人の若い女性歌手のミディアムクローズアップで始まる。彼女はアコースティックギターをかき鳴らしながらマイクに向かって日本語で歌っており、目は閉じられ、姿勢はリラックスしている。カメラは彼女の顔とマイクを鮮明に捉えたまま、彼女の背後でギターを弾く男性バンドメンバー2人が柔らかくぼやけている。暖かい光が彼女の顔と髪を包み込み、額縁に入った写真と木の壁が背景を流れていく。穏やかなアコースティックギターのかき鳴らしに乗せた彼女の透き通った歌声に導かれるように、アンビエントなライブミュージックが空間を満たす。 |
| 入力音声 |
| tabi.mp3 |
| Prompt: Female singer playing guitar. |
| ギターを弾く女性歌手。 |
| Prompt: A tight talking-head close-up with a static camera and shallow depth of field. She looks directly into the lens and speaks clearly, her lips and jaw articulating natural syllable shapes that match the provided voice track timing. While she keeps speaking, she brushes her hair back with one hand, strands sliding through her fingers and settling away from her face. She maintains steady eye contact with subtle blinking and small facial micro-expressions that follow the cadence of her speech. Audio: intimate speech in English, “Sleep can wait, but progress cannot.” with faint nighttime ambience under her voice. |
| 静止したカメラと浅い被写界深度で撮影された、語り手のクローズアップ。彼女はレンズをまっすぐ見つめ、はっきりと話す。唇と顎は、音声トラックのタイミングに合わせて自然な音節の形をとっている。彼女は話を続けながら、片手で髪を後ろにかき上げる。髪の束は指の間を滑り、顔から離れて落ちていく。彼女はアイコンタクトをしっかりと保ち、かすかな瞬きや、話すリズムに合わせた小さな表情で視線を捉えている。音声:親密な英語のセリフ「眠りは待てる、だが進歩は待てない」。かすかな夜の空気が彼女の声に漂う。 |
| ComfyUIで「メモリ不足(Out of Memory / OOM)」エラーが発生しても、再実行(Queueボタンをもう一度押す)すると成功する、あるいは2回に1回は成功するような現象は、VRAM(ビデオメモリ)がギリギリの状態で動作している際によく発生する「不安定なメモリ管理」の症状 |