私的AI研究会 > ComfyUI9b
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 2026年3月発表された音声対応の動画生成モデル。 1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 : ├─📂_video ├─📂_video2 ├─📂LTX ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| NVIDIA GPU VRAM 8GB 以下の環境で、およそ 10分以内 の生成時間で完了するものを基本として検証する |
| 分類 | 内容 | 説明 |
| A | Text to Video | テキスト(文章・プロンプト)から動画を生成 (プロンプト・エンハンサー付き) |
| B | Image to Video | 静止画像(写真やイラスト)から動画を生成 |
| C | Text to Video (展開版) | A の subgraph を展開 |
| D | Image to Video (展開版) | B の subgraph を展開 |
| E | Text/Image to Video Single stage | 1 ステップでテキスト・静止画像から動画を生成 |
| E1 | Text/Image to Video Two stage | 2 ステップでテキスト・静止画像から動画を生成 ※ |
| E2 | Text to Video Three stage | 3 ステップでテキストから動画を生成 ※ |
| E3 | Image to Video Three stage | 3 ステップで静止画像から動画を生成 ※ |
| E4 | Image/Audio to Video Two stage | 3 ステップで音声・静止画像から動画を生成 ※ |
| F | Image Audio to Video | 静止画像(写真やイラスト)と音声ファイル から動画を生成 |
| G | Image Audio to Video (展開版) | F の subgraph を展開 |
| H | FLF2V | 最初と最後のフレーム 2枚の画像から動画生成 |
| I | FLF2V (展開版) | H の subgraph を展開 |
| J | Style Transition | 2枚の画像からシーン間の切り替え動画生成 |
| K | Style Transition (展開版) | J の subgraph を展開 |
| L | ID LoRA | 1枚の画像と短い音声クリップから動画を生成 |
| M | ID LoRA (展開版) | L の subgraph を展開 |
| Z | Text/Image to Video Auto | テキスト・静止画像から自動でプロンプト入力して動画生成 ※ |
| モデル | 内容 | 説明 |
| dev | 通常版 (標準) | オープンウェイトの動画・音声生成のためのベースモデル。22B(220億)パラメータを採用 |
| distilled | 蒸留版 | 低 VRAM 環境下の動作のための蒸留版 8 ステップで動作し大幅な高速化が可能 |
| fp8 | 8ビット量子化モデル | 推論の高速化のためサイズをに縮小したモデル → 量子化モデルとは |
| GGUF | GGUF 量子化モデル | 低 VRAM環境に合わせて混合精度量子化技術により、サイズを削減したモデル → GGUF モデルについて |
| 「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| checkpoints | ltx-2.3-22b-dev-fp8 | /StabilityMatrix/Data/ Models/ | StableDiffusion/ | ltx-2.3-22b-dev-fp8.safetensors.safetensors |
| ltx-2.3-22b-distilled-fp8 | ltx-2.3-22b-distilled-fp8.safetensors | |||
| ltx-2.3-22b-dev-Q4_K_M.gguf | diffusion_models/ | ltx-2.3-22b-dev-Q4_K_M.gguf | ||
| ltx-2.3-22b-distilled-Q4_K_M.gguf | ltx-2.3-22b-distilled-Q4_K_M.gguf | |||
| LoRA | ltx-2.3-22b-distilled-lora-384 | Lora/ | ltx-2.3-22b-distilled-lora-384.safetensors | |
| ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16 | ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors | |||
| text_encoders | gemma_3_12B_it_fp4_mixed | text_encoders | gemma_3_12B_it_fp4_mixed.safetensors | |
| gemma_3_12B_it_fp8_scaled | gemma_3_12B_it_fp8_scaled.safetensors | |||
| ltx-2.3_text_projection_bf16 | ltx-2.3_text_projection_bf16 | |||
| VAE | LTX23_audio_vae_bf16 | VAE/ | LTX23_audio_vae_bf16.safetensors | |
| LTX23_video_vae_bf16 | LTX23_video_vae_bf16.safetensors | |||
| UP Scale | ltx-2.3-spatial-upscaler-x2-1.1 | /StabilityMatrix/Data/ Packages/ComfyUI/models/ | latent_upscale_models/ | ltx-2.3-spatial-upscaler-x2-1.1.safetensors |
| ltx-2.3-spatial-upscaler-x2-1.0 | ||||
| Name | Notes |
| ltx-2.3-22b-dev-fp8 | The full model, flexible and trainable, in fp8 |
| ltx-2.3-22b-distilled-fp8 | The distilled version of the full model, 8 steps, CFG=1, in fp8 |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する |

| ワークフロー | ダウンロード URL | 保存ワークフロー名 | |
| ④ | LTX-2.3 Text to Video | video_ltx2_3_t2v.json | video_ltx2_3_t2v_org.json |
| ⑤ | LTX-2.3 Image to Video | video_ltx2_3_i2v.json | video_ltx2_3_i2v_org.json |
| ⑥ | LTX-2.3 Image Audio to Video | video_ltx2_3_ia2v.json | video_ltx2_3_ia2v_org.json |
| ⑦ | LTX-2.3 FLF2V | video_ltx2_3_flf2v.json | video_ltx2_3_flf2v_org.json |
| ⑧ | LTX-2.3 Style Transition | template_ltx2_3_style_transition.json | template_ltx2_3_style_transition_org.json |
| ⑨ | LTX-2.3 ID LoRA | video_ltx2_3_id_lora.json | video_ltx2_3_id_lora_org.json |
| ④ テキストから動画生成 Text to Video | |
入力画像![]() ダミー画像 | Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | |
![]() ↑ video_ltx2_3_t2v_org.json SubGraph 展開 → | ![]() |
| ⑤ 静止画像から動画生成 Image to Video | |
入力画像![]() egyptian_queen.png | Prompt: Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in. |
| 青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。 | |
![]() ↑ video_ltx2_3_i2v_org.json SubGraph 展開 → | ![]() |
| ⑥ 静止画像と音声データから動画生成 Image Audio to Video | |
入力画像![]() cactus_man.png 入力音声 ltx_23_audio.mp3 | Prompt: The fuzzy cactus creature is talking to the viewer as it grips the steering wheel with one hand, the other hand gestures naturally as it speaks. The car is moving, revealing the sunlit coastal background, static camera fixed on character, smooth side-tracking shot matching the car speed scene: Sunlit coastal road trip, clear coastal background character: Fuzzy cactus creature with big square sunglasses and a Hawaiian shirt action: One hand grips the steering wheel, the other gestures naturally while talking to the camera camera: Fixed on character, smooth side-tracking shot matching car speed |
| 毛むくじゃらのサボテンのような生き物が、片手でハンドルを握りながら、もう片方の手で自然なジェスチャーを交え、カメラに向かって話しかけています。車は動き、陽光に照らされた海岸線を背景に映し出しています。カメラはキャラクターに固定され、車の速度に合わせて滑らかな横移動ショットが用いられています。 シーン:陽光に照らされた海岸沿いのドライブ、澄んだ海岸線の背景 キャラクター:大きな四角いサングラスとハワイアンシャツを着た毛むくじゃらのサボテンのような生き物 動作:片手でハンドルを握り、もう片方の手で自然なジェスチャーを交えながらカメラに向かって話す カメラ:キャラクターに固定され、車の速度に合わせて滑らかな横移動ショット | |
![]() ↑ video_ltx2_3_ia2v_org.json SubGraph 展開 → | ![]() |
| ⑦ 最初と最後のフレーム 画像から動画生成 FLF2V | ||
最初のフレーム画像![]() high_view_classic_car.png | 最後のフレーム画像![]() low_view_classic_car.png | Prompt: The camera move from a high position to a low position, keeping the character in the frame centered. Music: Synthwave cyberpunk music with calm ambient synths and driving 80s beats.. |
| カメラは高い位置から低い位置へと移動し、常に画面中央に人物を捉える。 音楽:シンセウェーブ・サイバーパンク調の音楽。穏やかなアンビエントシンセと、力強い80年代風のビートが特徴。 | ||
![]() ↑ video_ltx2_3_flf2v_org.json SubGraph 展開 → | ![]() | |
| ⑧ 2枚の画像からシーン間の切り替え Style Transition | ||
最初のフレーム画像![]() ltx23_flf2v_first_frame.png | 最後のフレーム画像![]() ltx23_flf2v_last_frame.png | Prompt: The red hair wizard girl looks up as the magical flame burns in her palm. Camera dollys out. The scene turns from a professional photography to a wet pastel watercolor painting. zhuanchang |
| 赤毛の魔法使いの少女が、手のひらで燃える魔法の炎を見上げる。カメラがドリーアウトする。場面はプロの写真撮影から、濡れたパステル水彩画へと変化する。zhunchang | ||
![]() ↑ template_ltx2_3_style_transition_org.json SubGraph 展開 → | ![]() | |
| ⑨ 1枚の画像と短い音声クリップから動画を生成 ID LoRA | ||
入力画像![]() vintage_thinker.png | 入力音声 ltx23_reference_audio.mp3 | Prompt: [VISUAL]: Opens with a medium shot, camera slowly pushes in toward the character. A man with short dark hair and round glasses, wearing a retro orange floral shirt, looks directly at the camera, his mouth opens and closes naturally as he speaks, tilts his head playfully. [SPEECH]: Hey, what do you think of this vibe? Feels like we’re back in the 90s. [SOUNDS]: Playful and upbeat tone, moderate volume, close to the microphone. |
| 【映像】:ミディアムショットで始まり、カメラがゆっくりとキャラクターに近づいていく。黒髪で丸眼鏡をかけた男性が、レトロなオレンジ色の花柄シャツを着て、カメラをまっすぐ見つめている。口は自然に開閉し、楽しそうに首を傾げながら話す。 【セリフ】:なあ、この雰囲気どう思う?まるで90年代に戻ったみたいだろ? 【音声】:楽しげで明るいトーン、適度な音量、マイクに近い。 | ||
![]() ↑ video_ltx2_3_id_lora_org.json SubGraph 展開 → | ![]() | |
| < 内部で生成されたプロンプトの例 > Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus. |
| スタイル:映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。 |
| 5302_LTX-2.3_T2V_simple.json | 5303_LTX-2.3_I2V_simple.json |
| 5310_LTX-2.3_ia2v_dev.json.json | |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルでは VRAM 8GB 以下の環境ではメモリー不足のようなので GGUF 量子化モデルにしてみる |
| LTX-2.3-dev GGUF モデル | |||
| タイプ | ビット数 | モデルサイズ | 内容 |
| Q2_K | 2 | 8.28 GB | 2ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり2.5625ビットになる |
| Q3_K_M | 3 | 18.8 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる |
| Q3_K_S | 9.95 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる | |
| Q4_K_M | 4 | 14.3 GB | 4ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり4.5ビットになる |
| Q4_K_S | 13.1 GB | ||
| Q5_K_M | 5 | 16.1 GB | 5ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり5.5ビットになる |
| Q5_K_S | 16.2 GB | ||
| Q6_K | 6 | 17.8 GB | 6ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり6.5625ビットになる |
| Q8_0 | 8 | 22.8 GB | 8ビット近似値に量子化。各ブロックは32のウェイトを持つ |
| F16 | 16 | 42.0 GB | 16ビット 標準IEEE754 半精度浮動小数点数 |
| 5340_LTX-2.3_t2v_dev_GGUF.json | 5341_LTX-2.3_i2v_dev_GGUF.json |
| 5350_LTX-2.3_ia2v_dev.json.json | |
| 基本的に標準テンプレート (dev) のワークフローで LoRA (ltx-2.3-22b-distilled-lora-384) ノードをバイパスして、モデルを変更することで機能する 「Text to Video 基本ワークフロー」については若干の修正を加える(後述) |
| オリジナルのワークフロー | プロンプト生成をバイパス |
| Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. | Prompt: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling in midair, precision robotic parts and magnetic connectors click together with glowing circuits. Subtle smoke and light flares create dramatic effects as the titanium textures display extreme detail. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed. The scene’s sharp focus highlights 8K photorealism. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | 映画のようなライティングによるリアルな描写。クローズアップでは、ハイテクなモジュール式機械が空中で自己組み立てされ、精密なロボット部品と磁気コネクタが光る回路と共にカチッと嵌合する様子が描かれています。かすかな煙と光のフレアがドラマチックな効果を生み出し、チタンの質感は極めて精緻なディテールを際立たせています。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮るものなく配置された、すっきりとしたクリアな表面を呈しています。シーンのシャープなフォーカスが8Kフォトリアリズムを際立たせています。 |
| 静止画像と音声データから動画生成 Image Audio to Video | ||
| 入力画像 | 入力音声 | プロンプト |
![]() woman4.png | seikai.mp3 | カメラを見て、真ん中に'LTX-2.3'のロゴマークの入った白いTシャツを着て明るく話す表情豊かな女性のミディアムショット、上半身が映り、胸と肩が画面内に収まっている。「セイカイ。いいカンジだよ。」とほほ笑んで話します。 |
| 5410 Image Audio to Video 基本ワークフロー (distilled) | 5410 SubGraph |
![]() | ![]() |
| 「LTX/」5410_LTX-2.3_ia2v_distilled.json | |
| 5411 Image Audio to Video 基本ワークフロー (distilled/simple) | |
![]() | |
| 「LTX/」5411_LTX-2.3_ia2v_distilled_simple.json | |
| 5410_LTX-2.3_ia2v_distilled.json.json | |
| 5412_LTX-2.3_flf2v_distilled.json | |
| 5414_LTX-2,3_trans_distilled.json | |
| 5416_LTX-2.3_id_lora_distilled.json | |
| ComfyUI サイトとは別に LTX2.3 開発元の Lightricks オフィシャルサイトにもワークフローのサンプルが用意されているので検証する → PSA: 公式のLTX 2.3ワークフローを使ってください。ComfyUIに含まれているものではなく、こちらの方がかなり良いです。 |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 2 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 標準版(dev) / 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Single_Stage_Distilled_Full_org.json |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 1 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Two_Stage_Distilled_org_org.json |
| 通常 2stage の生成では、一度低解像度で生成したものを Hires.fix する。これを拡張して 3 Stage の生成をする 非常に小さな解像度で生成したものを 2 倍 Hires.fix、さらにそれをもう 2 倍 Hires.fix する。コミュニティでは明確に結果が良いとされている → Comfy with ComfyUI: LTX-2.3 |
| ノード | 通常モデル 対応 | GGUF 対応 |
| Checkpoint | ![]() Load Checkpoint | ![]() Unet Loader (GGUF) / VAE Loder KJ |
| VAE | ![]() Load Audio VAE | ![]() VAE Encoder KJ |
| Text Encoder | ![]() LTXV Audio Text Encoder Loader | ![]() Dual CLIP Loader |
| 5491 Image to Video 自動プロンプト 基本ワークフロー | 5491 SubGraph |
![]() | ![]() |
| 「LTX/」5491_LTX-2.3_i2v_distilled_auto.json | |
| プロンプトなしで入力画像から生成された動画 |
| 「dev」と「distilled」の主な違いは、モデルの用途、速度、生成品質にある LTX 2.3 や FLUX などの画像・動画生成AIにおいて、これらは「標準的な高品質モデル(dev)」と「高速化された軽量モデル(distilled)」という位置付け |
| 特徴 | Dev (Development) | Distilled (蒸留モデル) |
| 位置づけ | ベース/フルモデル | 高速化モデル (Distilled) |
| 生成速度 | 遅い (標準) | 非常に速い (4-8ステップ) |
| 品質/描写力 | 非常に高い (詳細) | 高い (devに準ずる) |
| ステップ数 | 20 - 50+ ステップ | 4 - 8 ステップ |
| 適した用途 | LoRA学習、高品質な静止画/動画 | 速さを求める生成、プレビュー |
| AI生成モデル(画像生成の Stable Diffusion や Fluxなど)において、FP8 と GGUF はどちらも「モデルの軽量化(量子化)」を目的としてるが、仕組みと目的が異る。速度とVRAM(GPUメモリ)の容量なら FP8、環境の柔軟性と精度の高さなら GGUF(Q8) が推奨される |
| FP8 (Floating Point 8-bit) | GGUF (GPT-Generated Unified Format) | |
| 特徴 | 8ビットの浮動小数点数で計算 | CPUとGPUを連携して動作させるため(llama.cpp系)、量子化精度が非常に高い |
| メリット | 精度低下を比較的抑えつつ、FP16(16ビット)に比べて速度が速く、VRAM使用量をほぼ半分に削減できる | Q8 (8bit) などの量子化を使えば、元のFP16モデルとほぼ変わらない高品質な画像を生成できる。VRAMが少ない環境でも動作させやすい |
| デメリット | GGUFに比べて若干VRAMを消費しやすい傾向がある | FP8に比べると生成速度が少し遅くなる場合がある |
| ステップ数 | 20 - 50+ ステップ | 4 - 8 ステップ |
| 適した要件 | NVIDIA製などの高性能GPU(VRAM12GB以上など)を使って、高速に生成したい場合 | VRAMが少ない(8GB〜12GB未満など)か、CPUメインの環境、あるいは画質を最優先したい場合 |