私的AI研究会 > ComfyUI9b
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 2026年3月発表された音声対応の動画生成モデル。 1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 : ├─📂_video ├─📂_video2 ├─📂LTX ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| 「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| checkpoints | ltx-2.3-22b-dev-fp8 | /StabilityMatrix/Data/ Models/ | StableDiffusion/ | ltx-2.3-22b-dev-fp8.safetensors.safetensors |
| ltx-2.3-22b-distilled-fp8 | ltx-2.3-22b-distilled-fp8.safetensors | |||
| ltx-2.3-22b-dev-Q4_K_M.gguf | diffusion_models/ | ltx-2.3-22b-dev-Q4_K_M.gguf | ||
| ltx-2.3-22b-distilled-Q4_K_M.gguf | ltx-2.3-22b-distilled-Q4_K_M.gguf | |||
| LoRA | ltx-2.3-22b-distilled-lora-384 | Lora/ | ltx-2.3-22b-distilled-lora-384.safetensors | |
| ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16 | ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors | |||
| text_encoders | gemma_3_12B_it_fp4_mixed | text_encoders | gemma_3_12B_it_fp4_mixed.safetensors | |
| gemma_3_12B_it_fp8_scaled | gemma_3_12B_it_fp8_scaled.safetensors | |||
| ltx-2.3_text_projection_bf16 | ltx-2.3_text_projection_bf16 | |||
| VAE | LTX23_audio_vae_bf16 | VAE/ | LTX23_audio_vae_bf16.safetensors | |
| LTX23_video_vae_bf16 | LTX23_video_vae_bf16.safetensors | |||
| UP Scale | ltx-2.3-spatial-upscaler-x2-1.1 | /StabilityMatrix/Data/ Packages/ComfyUI/models/ | latent_upscale_models/ | ltx-2.3-spatial-upscaler-x2-1.1.safetensors |
| ltx-2.3-spatial-upscaler-x2-1.0 | ||||
| Name | Notes |
| ltx-2.3-22b-dev-fp8 | The full model, flexible and trainable, in fp8 |
| ltx-2.3-22b-distilled-fp8 | The distilled version of the full model, 8 steps, CFG=1, in fp8 |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する |

| video_ltx2_3_t2v_org.json | |
入力画像![]() ダミー画像 | Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | |
![]() ↑ video_ltx2_3_t2v_org.json SubGraph 展開 → | ![]() |
| video_ltx2_3_i2v_org.json | |
入力画像![]() egyptian_queen.png | Prompt: Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in. |
| 青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。 | |
![]() ↑ video_ltx2_3_i2v_org.json SubGraph 展開 → | ![]() |
| < 内部で生成されたプロンプトの例 > Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus. |
| スタイル:映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。 |
| 5302_LTX-2.3_T2V_simple.json | 5303_LTX-2.3_I2V_simple.json |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルでは VRAM 8GB 以下の環境ではメモリー不足のようなので GGUF 量子化モデルにしてみる |
| LTX-2.3-dev GGUF モデル | |||
| タイプ | ビット数 | モデルサイズ | 内容 |
| Q2_K | 2 | 8.28 GB | 2ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり2.5625ビットになる |
| Q3_K_M | 3 | 18.8 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる |
| Q3_K_S | 9.95 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる | |
| Q4_K_M | 4 | 14.3 GB | 4ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり4.5ビットになる |
| Q4_K_S | 13.1 GB | ||
| Q5_K_M | 5 | 16.1 GB | 5ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり5.5ビットになる |
| Q5_K_S | 16.2 GB | ||
| Q6_K | 6 | 17.8 GB | 6ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり6.5625ビットになる |
| Q8_0 | 8 | 22.8 GB | 8ビット近似値に量子化。各ブロックは32のウェイトを持つ |
| F16 | 16 | 42.0 GB | 16ビット 標準IEEE754 半精度浮動小数点数 |
| 5340_LTX-2.3_t2v_dev_GGUF.json | 5341_LTX-2.3_i2v_dev_GGUF.json |
| 基本的に標準テンプレート (dev) のワークフローで LoRA (ltx-2.3-22b-distilled-lora-384) ノードをバイパスして、モデルを変更することで機能する 「Text to Video 基本ワークフロー」については若干の修正を加える(後述) |
| オリジナルのワークフロー | プロンプト生成をバイパス |
| Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. | Prompt: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling in midair, precision robotic parts and magnetic connectors click together with glowing circuits. Subtle smoke and light flares create dramatic effects as the titanium textures display extreme detail. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed. The scene’s sharp focus highlights 8K photorealism. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | 映画のようなライティングによるリアルな描写。クローズアップでは、ハイテクなモジュール式機械が空中で自己組み立てされ、精密なロボット部品と磁気コネクタが光る回路と共にカチッと嵌合する様子が描かれています。かすかな煙と光のフレアがドラマチックな効果を生み出し、チタンの質感は極めて精緻なディテールを際立たせています。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮るものなく配置された、すっきりとしたクリアな表面を呈しています。シーンのシャープなフォーカスが8Kフォトリアリズムを際立たせています。 |
| ComfyUI サイトとは別に LTX2.3 開発元の Lightricks オフィシャルサイトにもワークフローのサンプルが用意されているので検証する → PSA: 公式のLTX 2.3ワークフローを使ってください。ComfyUIに含まれているものではなく、こちらの方がかなり良いです。 |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 2 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 標準版(dev) / 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Single_Stage_Distilled_Full_org.json |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 1 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Two_Stage_Distilled_org_org.json |
| ノード | 通常モデル 対応 | GGUF 対応 |
| Checkpoint | ![]() Load Checkpoint | ![]() Unet Loader (GGUF) / VAE Loder KJ |
| VAE | ![]() Load Audio VAE | ![]() VAE Encoder KJ |
| Text Encoder | ![]() LTXV Audio Text Encoder Loader | ![]() Dual CLIP Loader |
| ① |
| Prompt: The woman gently tilts the can and takes a refreshing sip, her eyes closing slightly with pleasure. A light breeze makes her hair and t-shirt flutter The camera slowly pans and tilts upward as the sunlight flares more intensely behind her, creating a dreamy golden shimmer. Light lens flares, soft wind movement in the wheat field, subtle camera shake for realism. Warm and radiant motion, smooth transitions, soft glowing ambiance, cinematic light bloom, 16:9 aspect ratio. |
| 女性は缶をそっと傾け、爽やかな一口を飲み、満足げに目を少し閉じます。そよ風が彼女の髪とTシャツをひらひらと揺らめかせます。カメラはゆっくりとパンし、上向きに傾けます。彼女の背後で太陽の光がより強く輝き、夢のような黄金色のきらめきを生み出します。軽いレンズフレア、麦畑の柔らかな風の動き、リアリティを追求するための微妙なカメラの揺れ。暖かく輝く動き、滑らかなトランジション、柔らかな光の雰囲気、映画のような光のブルーム、16:9のアスペクト比。 |
| ② |
| Prompt: The camera tracks the sleek black sports car as it races down a wet, neon-lit city street at night. Reflections of magenta, cyan, and red lights shimmer on the car’s glossy surface and the wet asphalt. The car accelerates slightly as the lights streak past in the background, with a subtle motion blur and tire spray. Its headlights flare and cast sharp beams forward, illuminating the wet road ahead. The camera rotates around the front-left side of the car, highlighting its curves and aggressive stance. Soft raindrops hit the windshield in slow motion. Soundless, but with cinematic tension. High contrast lighting, futuristic tone, slow motion elements, hyper-realistic motion, 16:9 aspect ratio |
| カメラは、夜の濡れたネオンライトに照らされた街路を疾走する、流線型の黒いスポーツカーを捉える。マゼンタ、シアン、赤の光が車の光沢のある表面と濡れたアスファルトにきらめく。背景を光が駆け抜ける中、車はわずかに加速し、かすかなモーションブラーとタイヤの飛沫が加わる。ヘッドライトが閃光を放ち、前方の濡れた路面を鋭く照らす。カメラは車の左前部を回り込み、その曲線美とアグレッシブな姿勢を強調する。柔らかな雨粒がスローモーションでフロントガラスに当たる。音はないが、映画的な緊張感がある。高コントラスト照明、未来的なトーン、スローモーション要素、超リアルな動き、16:9のアスペクト比 |
| ③ |
| Prompt: The woman runs steadily forward, her steps rhythmic and powerful. Her ponytail bounces with each stride as warm morning light ripples across her body and the bridge. Subtle camera shake adds realism as the scene follows her from a side angle. A light breeze moves her clothing naturally. The sun rises behind her, casting golden flares through the bridge cables. Drops of sweat glisten and roll down her skin in slow motion. The video closes with her stopping to catch her breath, turning toward the camera with a confident smile. Realistic motion, slow-to-normal pacing blend, dynamic light transitions, motivational mood, cinematic tone, 16:9 format |
| 女性は力強くリズミカルに、着実に前進する。温かい朝の光が彼女の体と橋に波紋のように広がる中、彼女のポニーテールは一歩ごとに揺れる。横からのアングルで彼女を追うシーンでは、わずかなカメラの揺れがリアリティを増している。そよ風が彼女の衣服を自然に揺らす。太陽が彼女の背後から昇り、橋のケーブルを通して黄金色の光の筋を投げかける。汗の滴が光り輝き、ゆっくりと彼女の肌を伝って流れ落ちる。ビデオは、彼女が息を整えるために立ち止まり、自信に満ちた笑顔でカメラの方を向くところで終わる。リアルな動き、スローからノーマルへのテンポのブレンド、ダイナミックな光の遷移、モチベーションを高める雰囲気、映画のようなトーン、16:9フォーマット |
| ④ |
| Prompt: The woman slowly lifts and puts on her sunglasses as the golden sun sets behind her. Her hair moves gently in the wind, and the reflection in the lenses captures the glowing city skyline. As the glasses settle on her face, the light subtly shifts, casting a cinematic flare across the lens. The camera slowly pushes in toward her face, enhancing the cool, composed mood. Lens flares, soft camera movement, golden hour light, confident tone, 16:9 aspect ratio |
| 女性は、背後に黄金色の夕日が沈む中、ゆっくりとサングラスを上げてかける。風に髪が優しく揺れ、レンズに映る光り輝く街のスカイラインが捉えられる。サングラスが顔に落ち着くと、光が微妙に変化し、レンズに映画のようなフレアが映る。カメラはゆっくりと彼女の顔に近づき、クールで落ち着いた雰囲気を際立たせる。レンズフレア、ソフトなカメラワーク、ゴールデンアワーの光、自信に満ちたトーン、16:9のアスペクト比 |
| ⑤ |
| Prompt: A young woman sits in a cozy modern café, facing the camera at eye level. She smiles gently and speaks directly to the viewer in a calm, friendly tone. Her lips sync naturally as she says: “It’s kind of amazing… with the release of LTX-2, I can finally talk to you like this. It feels more real, more alive. If you want to see what I create next, follow me and stay with me.” Her facial expressions are subtle and natural, with soft eye contact, slight head movements, and small hand gestures near a coffee cup on the table. The motion is smooth and coherent, with stable facial structure and consistent identity throughout the clip. The café background remains steady and realistic, with minimal camera movement, no exaggerated motion, and no stylization. Natural daylight illuminates her face evenly, maintaining photorealistic skin texture, realistic lip movement, and believable human timing. The overall mood is warm, intimate, and conversational, as if she is casually talking to the viewer in real life. |
| 若い女性が居心地の良いモダンなカフェに座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女は「LTX-2が発売されて、ようやくこうしてあなたと話せるようになったなんて、本当に素晴らしいわ。もっとリアルで、もっと生き生きしている感じ。私が次に何を作るか見たいなら、私をフォローして、一緒にいてください」と言いながら、唇の動きは自然に同期しています。彼女の表情は繊細で自然で、視線は柔らかく、頭はわずかに動き、テーブルの上のコーヒーカップの近くでは小さな手の動きが見られます。動きは滑らかで一貫性があり、顔の構造は安定しており、クリップ全体を通して一貫したアイデンティティが保たれています。カフェの背景は安定していてリアルで、カメラの動きは最小限で、誇張された動きや様式化はありません。自然光が彼女の顔を均一に照らし、フォトリアルな肌の質感、リアルな唇の動き、そして信憑性のある人間のタイミングを維持しています。全体的な雰囲気は温かく、親密で、会話的で、まるで彼女が現実世界で視聴者と気軽に話しているかのようです。 |