私的AI研究会 > ComfyUI9b

画像生成AI「ComfyUI」9(動画編4) == 編集中 ==

 「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲ 目 次
※ 最終更新:2026/05/15 

LTX-2.3 による音声付き動画生成

 2026年3月発表された音声対応の動画生成モデル。
 1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる

概要

プロジェクトで作成するワークフロー

このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと)

動画生成のための環境構築

  1. 必要モデルのダウンロードと配置
    「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置
    モデル名ファイル名(.safetensors)配置先ダウンロード URL
    checkpointsltx-2.3-22b-dev-fp8/StabilityMatrix/Data/
    Models/
    StableDiffusion/ltx-2.3-22b-dev-fp8.safetensors.safetensors
    ltx-2.3-22b-distilled-fp8ltx-2.3-22b-distilled-fp8.safetensors
    ltx-2.3-22b-dev-Q4_K_M.ggufdiffusion_models/ltx-2.3-22b-dev-Q4_K_M.gguf
    ltx-2.3-22b-distilled-Q4_K_M.ggufltx-2.3-22b-distilled-Q4_K_M.gguf
    LoRAltx-2.3-22b-distilled-lora-384Lora/ltx-2.3-22b-distilled-lora-384.safetensors
    ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors
    text_encodersgemma_3_12B_it_fp4_mixedtext_encodersgemma_3_12B_it_fp4_mixed.safetensors
    gemma_3_12B_it_fp8_scaledgemma_3_12B_it_fp8_scaled.safetensors
    ltx-2.3_text_projection_bf16ltx-2.3_text_projection_bf16
    VAELTX23_audio_vae_bf16VAE/LTX23_audio_vae_bf16.safetensors
    LTX23_video_vae_bf16LTX23_video_vae_bf16.safetensors
    UP Scaleltx-2.3-spatial-upscaler-x2-1.1/StabilityMatrix/Data/
    Packages/ComfyUI/models/
    latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors
    ltx-2.3-spatial-upscaler-x2-1.0ltx-2.3-spatial-upscaler-x2-1.0
     ・ LTX-2.3 FP8 Model Card
    NameNotes
    ltx-2.3-22b-dev-fp8The full model, flexible and trainable, in fp8
    ltx-2.3-22b-distilled-fp8The distilled version of the full model, 8 steps, CFG=1, in fp8
     ・ GGUF版で使用  ※ ltx-2.3-spatial-upscaler-x2-1.1.safetensors を使用する

  2. Windows の場合「ページングファイル」を再設定する → ページングファイルのサイズを 128GBに設定

  3. GGUFモデルを使用する場合は カスタムノード『 ComfyUI-GGUF 』をインストールする共通手順による
    GitHub: ComfyUI-GGUF

Step 1:オフィシャルサイトの標準テンプレートからワークフローを作成

 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する
  1. ワークフローを選ぶ
    ① 左端のメニューから「Template」を選択
    ②「Video」を押す
    ③ 検索欄に「ltx2.3」を入力する

    ・表示された一覧からワークフローを選ぶ
    ④「LTX-2.3 Text to Video」テキストから動画生成
    ⑤「LTX-2.3 Image to Video」静止画像から動画生成
    ⑥「LTX-2.3 Image Audio to Video」静止画像と音声データから動画生成
    ⑦「LTX-2.3 FLF2V」最初と最後のフレーム 2枚の画像から動画生成
    ⑧「LTX-2.3 Style Transition」2枚の画像からシーン間の切り替え
    ⑨「LTX-2.3 ID LoRA」1枚の画像と短い音声クリップから動画を生成

    ・ワークフローでエラーが発生する場合は前項のモデルの配置を確認する
    comfyui_790e_m.jpg
    ・ワークフロー内で使われる画像データのダウンロード
       GitHub: ComfyUI-Org workflow_templates

  2. 動作確認を行ってから保存する
    ワークフローダウンロード URL保存ワークフロー名
    LTX-2.3 Text to Videovideo_ltx2_3_t2v.jsonvideo_ltx2_3_t2v_org.json
    LTX-2.3 Image to Videovideo_ltx2_3_i2v.jsonvideo_ltx2_3_i2v_org.json
    LTX-2.3 Image Audio to Videovideo_ltx2_3_ia2v.jsonvideo_ltx2_3_ia2v_org.json
    LTX-2.3 FLF2Vvideo_ltx2_3_flf2v.jsonvideo_ltx2_3_flf2v_org.json
    LTX-2.3 Style Transitiontemplate_ltx2_3_style_transition.jsontemplate_ltx2_3_style_transition_org.json
    LTX-2.3 ID LoRAvideo_ltx2_3_id_lora.jsonvideo_ltx2_3_id_lora_org.json

    ・オリジナルのワークフロー
    テキストから動画生成 Text to Video
    入力画像

    example.png
    ダミー画像
     Prompt:
    Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus.
    空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。
    comfyui_790a_m.jpg
     ↑ video_ltx2_3_t2v_org.json
            SubGraph 展開 →
    comfyui_790b_m.jpg
    静止画像から動画生成 Image to Video
    入力画像

    egyptian_queen.png
    egyptian_queen.png
     Prompt:
    Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in.
    青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。
    comfyui_790c_m.jpg
     ↑ video_ltx2_3_i2v_org.json
            SubGraph 展開 →
    comfyui_790d_m.jpg
    静止画像と音声データから動画生成 Image Audio to Video
    入力画像

    cactus_man.png
    cactus_man.png

    入力音声


    ltx_23_audio.mp3
     Prompt:
    The fuzzy cactus creature is talking to the viewer as it grips the steering wheel with one hand, the other hand gestures naturally as it speaks. The car is moving, revealing the sunlit coastal background, static camera fixed on character, smooth side-tracking shot matching the car speed

    scene: Sunlit coastal road trip, clear coastal background
    character: Fuzzy cactus creature with big square sunglasses and a Hawaiian shirt
    action: One hand grips the steering wheel, the other gestures naturally while talking to the camera
    camera: Fixed on character, smooth side-tracking shot matching car speed
    毛むくじゃらのサボテンのような生き物が、片手でハンドルを握りながら、もう片方の手で自然なジェスチャーを交え、カメラに向かって話しかけています。車は動き、陽光に照らされた海岸線を背景に映し出しています。カメラはキャラクターに固定され、車の速度に合わせて滑らかな横移動ショットが用いられています。

    シーン:陽光に照らされた海岸沿いのドライブ、澄んだ海岸線の背景
    キャラクター:大きな四角いサングラスとハワイアンシャツを着た毛むくじゃらのサボテンのような生き物
    動作:片手でハンドルを握り、もう片方の手で自然なジェスチャーを交えながらカメラに向かって話す
    カメラ:キャラクターに固定され、車の速度に合わせて滑らかな横移動ショット
    comfyui_826_m.jpg
     ↑ video_ltx2_3_ia2v_org.json
            SubGraph 展開 →
    comfyui_826a_m.jpg
    最初と最後のフレーム 画像から動画生成 FLF2V
    最初のフレーム画像

    high_view_classic_car.png
    high_view_classic_car.png
    最後のフレーム画像

    low_view_classic_car.png
    low_view_classic_car.png
     Prompt:
    The camera move from a high position to a low position, keeping the character in the frame centered.
    Music: Synthwave cyberpunk music with calm ambient synths and driving 80s beats..
    カメラは高い位置から低い位置へと移動し、常に画面中央に人物を捉える。
    音楽:シンセウェーブ・サイバーパンク調の音楽。穏やかなアンビエントシンセと、力強い80年代風のビートが特徴。
    comfyui_835_m.jpg
     ↑ video_ltx2_3_flf2v_org.json
            SubGraph 展開 →
    comfyui_835a_m.jpg
    2枚の画像からシーン間の切り替え Style Transition
    最初のフレーム画像

    ltx23_flf2v_first_frame.png
    ltx23_flf2v_first_frame.png
    最後のフレーム画像

    ltx23_flf2v_last_frame.png
    ltx23_flf2v_last_frame.png
     Prompt:
    The red hair wizard girl looks up as the magical flame burns in her palm. Camera dollys out. The scene turns from a professional photography to a wet pastel watercolor painting. zhuanchang
    赤毛の魔法使いの少女が、手のひらで燃える魔法の炎を見上げる。カメラがドリーアウトする。場面はプロの写真撮影から、濡れたパステル水彩画へと変化する。zhunchang
    comfyui_836_m.jpg
     ↑ template_ltx2_3_style_transition_org.json
            SubGraph 展開 →
    comfyui_836a_m.jpg
    1枚の画像と短い音声クリップから動画を生成 ID LoRA
    入力画像

    vintage_thinker.png
    vintage_thinker.png
    入力音声


    ltx23_reference_audio.mp3
     Prompt:
    [VISUAL]: Opens with a medium shot, camera slowly pushes in toward the character. A man with short dark hair and round glasses, wearing a retro orange floral shirt, looks directly at the camera, his mouth opens and closes naturally as he speaks, tilts his head playfully.
    [SPEECH]: Hey, what do you think of this vibe? Feels like we’re back in the 90s.
    [SOUNDS]: Playful and upbeat tone, moderate volume, close to the microphone.
    【映像】:ミディアムショットで始まり、カメラがゆっくりとキャラクターに近づいていく。黒髪で丸眼鏡をかけた男性が、レトロなオレンジ色の花柄シャツを着て、カメラをまっすぐ見つめている。口は自然に開閉し、楽しそうに首を傾げながら話す。
    【セリフ】:なあ、この雰囲気どう思う?まるで90年代に戻ったみたいだろ?
    【音声】:楽しげで明るいトーン、適度な音量、マイクに近い。
    comfyui_837_m.jpg
     ↑ video_ltx2_3_id_lora_org.json
            SubGraph 展開 →
    comfyui_837a_m.jpg

    オリジナル・ワークフロー考察「video_ltx2_3_t2v_org.json」
     1. ワークフロー内に「switch to Text to Video?」の設定(true/false)がありデフォルトでは true となっている
      True = Text to Video, False = Image to Video として機能(動作)を切り替えることができる
     2. このワークフローを実行すると、入力されたプロンプトからさらに詳細なプロンプトを生成し、このプロンプトにより生成が行われる
     3. 生成される詳細プロンプトは実行のたびに表現のニュアンスが違っている
    < 内部で生成されたプロンプトの例 >
    Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus.
    スタイル:映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。
     4. この処理(プロンプト・エンハンサー)は時間がかかるのと、適切でない表現が追加されることがある
      外部 LLM の使用や、詳細なプロンプトを指定できる場合などはこの処理をバイパスする

  3. ワークフローを整理する Text to Video / Image to Video
    テキストから動画生成 Text to Video静止画像から動画生成 Image to Video
    5300 Text to Video 基本ワークフロー5300 SubGraph
    comfyui_791_m.jpg comfyui_791a_m.jpg
    「LTX/」5300_LTX-2.3_t2v_dev.json
    5301 Image to Video 基本ワークフロー5301 SubGraph
    comfyui_792_m.jpg comfyui_792a_m.jpg
    「LTX/」5301_LTX-2.3_i2v_dev.json
    5302 Text to Video 基本ワークフロー (simple)5303 Image to Video 基本ワークフロー (simple)
    comfyui_793_m.jpg comfyui_794_m.jpg
    「LTX/」5302_LTX-2.3_T2V_dev_simple.json「LTX/」5303_LTX-2.3_I2V_dev_simple.json
    ・生成結果動画(音声付き)
    5302_LTX-2.3_T2V_simple.json5303_LTX-2.3_I2V_simple.json

  4. ワークフローを整理する Image Audio to Video
    静止画像と音声データから動画生成 Image Audio to Video
    5310 Image Audio to Video 基本ワークフロー5310 SubGraph
    comfyui_827_m.jpg comfyui_827a_m.jpg
    「LTX/」5310_LTX-2.3_ia2v_dev.json
    5311 Image Audio to Video 基本ワークフロー (simple)
    comfyui_828_m.jpg
    「LTX/」5311_LTX-2.3_ia2v_dev_simple.json
    ・生成結果動画(音声付き)
    5310_LTX-2.3_ia2v_dev.json.json

Step 2:GGUF版(dev)ワークフローの作成

 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルでは VRAM 8GB 以下の環境ではメモリー不足のようなので GGUF 量子化モデルにしてみる
  1. GGUF 量子化モデル対応のワークフローをダウンロードする
    LTX-2.3 22B GGUF WORKFLOWS 12GB VRAM
    Rebels LTX-2.3 Dev (GGUF)

  2. GGUF版 整理したワークフロー Text to Video / Image to Video
    テキストから動画生成 Text to Video静止画像から動画生成 Image to Video
    5340 Text to Video 基本ワークフロー (GGUF)5340 SubGraph
    comfyui_795_m.jpg comfyui_795a_m.jpg
    「LTX/」5340_LTX-2.3_t2v_dev_GGUF.json
    5341 Image to Video 基本ワークフロー (GGUF)5341 SubGraph
    comfyui_796_m.jpg comfyui_796a_m.jpg
    「LTX/」5341_LTX-2.3_i2v_dev_GGUF.json
    5342 Text to Video 基本ワークフロー (GGUF 展開版)5343 Image to Video 基本ワークフロー (GGUF 展開版)
    comfyui_797_m.jpg comfyui_798_m.jpg
    「LTX/」5342_LTX-2.3_T2V_GGUF.json「LTX/」5343_LTX-2.3_I2V_dev_GGUF.json
    ・生成結果動画(音声付き)
    5340_LTX-2.3_t2v_dev_GGUF.json5341_LTX-2.3_i2v_dev_GGUF.json
  3. GGUF版 整理したワークフロー Image Audio to Video
    静止画像と音声データから動画生成 Image Audio to Video
    5350 Image Audio to Video 基本ワークフロー (GGUF)5350 SubGraph
    comfyui_829_m.jpg comfyui_829a_m.jpg
    「LTX/」5350_LTX-2.3_ia2v_dev_GGUF.json
    5351 Image Audio to Video 基本ワークフロー (GGUF 展開版)
    comfyui_830_m.jpg
    「LTX/」5351_LTX-2.3_ia2v_dev_GGUF.json
    ・生成結果動画(音声付き)
    5350_LTX-2.3_ia2v_dev.json.json

Step 3:標準テンプレートのワークフローを蒸留版(distilled)にする

 基本的に標準テンプレート (dev) のワークフローで LoRA (ltx-2.3-22b-distilled-lora-384) ノードをバイパスして、モデルを変更することで機能する
 「Text to Video 基本ワークフロー」については若干の修正を加える(後述)

  1. ワークフローを整理する Text to Video / Image to Video
    テキストから動画生成 Text to Video静止画像から動画生成 Image to Video
    5400 Text to Video 基本ワークフロー (distilled)5400 SubGraph (distilled)
    comfyui_800_m.jpg comfyui_800a_m.jpg
    「LTX/」5400_LTX-2.3_t2v_distilled.json
    5401 Image to Video 基本ワークフロー (distilled)5401 SubGraph (distilled)
    comfyui_801_m.jpg comfyui_801a_m.jpg
    「LTX/」5401_LTX-2.3_i2v_distilled.json
    5402 Text to Video 基本ワークフロー (distilled/simple)5403 Image to Video 基本ワークフロー (distilled/simple)
    comfyui_802_m.jpg comfyui_803_m.jpg
    「LTX/」5402_LTX-2.3_T2V_distilled_simple.json「LTX/」5403_LTX-2.3_I2V_distilled_simple.json
    ・Text to Video 基本ワークフローについて
     - このワークフローを実行すると、入力されたプロンプトからさらに詳細なプロンプトを生成し、このプロンプトにより生成が行われる
     - 生成時間の短縮のため、このノードグループをバイパスして入力されたプロンプトそのもので生成するように変更する
     - 入力するプロンプトは、オリジナルワークフローを実行したときに生成されたプロンプトを使用する

    ・生成結果動画(音声付き)
    オリジナルのワークフロープロンプト生成をバイパス
     Prompt:
    Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus.
     Prompt:
    realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling in midair, precision robotic parts and magnetic connectors click together with glowing circuits. Subtle smoke and light flares create dramatic effects as the titanium textures display extreme detail. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed. The scene’s sharp focus highlights 8K photorealism.
    空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。映画のようなライティングによるリアルな描写。クローズアップでは、ハイテクなモジュール式機械が空中で自己組み立てされ、精密なロボット部品と磁気コネクタが光る回路と共にカチッと嵌合する様子が描かれています。かすかな煙と光のフレアがドラマチックな効果を生み出し、チタンの質感は極めて精緻なディテールを際立たせています。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮るものなく配置された、すっきりとしたクリアな表面を呈しています。シーンのシャープなフォーカスが8Kフォトリアリズムを際立たせています。

    ・Image to Video ワークフローの生成動画の最終フレームを保存できるようにする
    静止画像から動画生成 Image to Video V2 (最終フレーム保存)
    comfyui_850a_m.jpg comfyui_850_m.jpg
    追加部分「LTX/」5403v2_LTX-2.3_I2V_distilled_simple.json

  2. ワークフローを整理する Image Audio to Video
    静止画像と音声データから動画生成 Image Audio to Video
    入力画像入力音声プロンプト
    woman4_m.png
    woman4.png

    seikai.mp3
    カメラを見て、真ん中に'LTX-2.3'のロゴマークの入った白いTシャツを着て明るく話す表情豊かな女性のミディアムショット、上半身が映り、胸と肩が画面内に収まっている。「セイカイ。いいカンジだよ。」とほほ笑んで話します。
    5410 Image Audio to Video 基本ワークフロー (distilled)5410 SubGraph
    comfyui_831_m.jpg comfyui_831a_m.jpg
    「LTX/」5410_LTX-2.3_ia2v_distilled.json
    5411 Image Audio to Video 基本ワークフロー (distilled/simple)
    comfyui_832_m.jpg
    「LTX/」5411_LTX-2.3_ia2v_distilled_simple.json
    ・生成結果動画(音声付き)
    5410_LTX-2.3_ia2v_distilled.json.json

  3. ワークフローを整理する FLF2V
    最初と最後のフレーム 2枚の画像から動画生成 FLF2V
    5412 FLF2V ワークフロー (distilled)5412 SubGraph
    comfyui_838_m.jpg comfyui_838a_m.jpg
    「LTX/」5412_LTX-2.3_flf2v_distilled.json
    5411 Image Audio to Video ワークフロー (distilled/simple)
    comfyui_839_m.jpg
    「LTX/」5413_LTX-2.3_flf2v_distilled_simple.json
    ・生成結果動画(音声付き)
    5412_LTX-2.3_flf2v_distilled.json

  4. ワークフローを整理する Style Transition
    2枚の画像からシーン間の切り替え動画生成 Style Transition
    5414 Style Transition ワークフロー (distilled)5414 SubGraph
    comfyui_840_m.jpg comfyui_840a_m.jpg
    「LTX/」5414_LTX-2,3_trans_distilled.json
    5415 Style Transition ワークフロー (distilled/simple)
    comfyui_841_m.jpg
    「LTX/」5415_LTX-2,3_trans_distilled_simple.json
    ・生成結果動画(音声付き)
    5414_LTX-2,3_trans_distilled.json

  5. ワークフローを整理する ID LoRA
    1枚の画像と短い音声クリップから動画を生成 ID LoRA
    5416 ID LoRA ワークフロー (distilled)5416 SubGraph
    comfyui_842_m.jpg comfyui_842a_m.jpg
    「LTX/」5416_LTX-2.3_id_lora_distilled.json
    5417 ID LoRA ワークフロー (distilled/simple)
    comfyui_843_m.jpg
    「LTX/」5417_LTX-2.3_id_lora_distilled_simple.json
    ・生成結果動画(音声付き)
    5416_LTX-2.3_id_lora_distilled.json

Step 4:GGUF版(distilled)ワークフローの作成

  1. GGUF 量子化モデルのワークフロー
    ・Step 3 で作成した dev ワークフローのモデルを変更する

  2. GGUF版 整理したワークフロー Text to Video / Image to Video
    テキストから動画生成 Text to Video静止画像から動画生成 Image to Video
    5440 Text to Video 基本ワークフロー distilled (GGUF)5440 SubGraph
    comfyui_795_m.jpg comfyui_795a_m.jpg
    「LTX/」5440_LTX-2.3_t2v_distilled_GGUF.json
    5441 Image to Video 基本ワークフロー distilled (GGUF)5441 SubGraph
    comfyui_796_m.jpg comfyui_796a_m.jpg
    「LTX/」5441_LTX-2.3_i2v_distilled_GGUF.json
    5442 Text to Video 基本ワークフロー distilled (GGUF 展開版)5443 Image to Video 基本ワークフロー distilled (GGUF 展開版)
    comfyui_797_m.jpg comfyui_798_m.jpg
    「LTX/」5442_LTX-2.3_T2V_distilled_GGUF.json「LTX/」5443_LTX-2.3_I2V_distilled_GGUF.json

  3. GGUF版 整理したワークフロー Image Audio to Video
    静止画像と音声データから動画生成 Image Audio to Video
    5450 Image Audio to Video 基本ワークフロー distilled (GGUF)5450 SubGraph
    comfyui_833_m.jpg comfyui_833a_m.jpg
    「LTX/」5450_LTX-2.3_ia2v_distilled_GGUF.json
    5351 Image Audio to Video 基本ワークフロー distilled (GGUF 展開版)
    comfyui_834_m.jpg
    「LTX/」5451_LTX-2.3_ia2v_distilled_GGUF.json

  4. GGUF版 整理したワークフロー FLF2V
    最初と最後のフレーム 2枚の画像から動画生成 FLF2V
    5452 FLF2V ワークフロー distilled (GGUF)5452 SubGraph
    comfyui_844_m.jpg comfyui_844a_m.jpg
    「LTX/」5452_LTX-2.3_flf2v_distilled_GGUF.json
    5353 FLF2V ワークフロー distilled (GGUF 展開版)
    comfyui_845_m.jpg
    「LTX/」5453_LTX-2.3_flf2v_distilled_GGUF.json

  5. GGUF版 整理したワークフロー Style Transition
    2枚の画像からシーン間の切り替え動画生成 Style Transition
    5454 Style Transition ワークフロー distilled (GGUF)5454 SubGraph
    comfyui_846_m.jpg comfyui_846a_m.jpg
    「LTX/」5454_LTX-2,3_trans_distilled_GGUF.json
    5355 Style Transition ワークフロー distilled (GGUF 展開版)
    comfyui_847_m.jpg
    「LTX/」5455_LTX-2,3_trans_distilled_GGUF.json

  6. GGUF版 整理したワークフロー ID LoRA
    1枚の画像と短い音声クリップから動画を生成 ID LoRA
    5456 ID LoRA ワークフロー distilled (GGUF)5456 SubGraph
    comfyui_848_m.jpg comfyui_848a_m.jpg
    「LTX/」5456_LTX-2.3_id_lora_distilled_GGUF.json
    5357 ID LoRA ワークフロー distilled (GGUF 展開版)
    comfyui_849_m.jpg
    「LTX/」5457_LTX-2.3_id_lora_distilled_GGUF.json

Step 5: Lightricks オフィシャルサイトのワークフロー

 ComfyUI サイトとは別に LTX2.3 開発元の Lightricks オフィシャルサイトにもワークフローのサンプルが用意されているので検証する
 → PSA: 公式のLTX 2.3ワークフローを使ってください。ComfyUIに含まれているものではなく、こちらの方がかなり良いです。

Step 6: 3 Stage 動画生成

 通常 2stage の生成では、一度低解像度で生成したものを Hires.fix する。これを拡張して 3 Stage の生成をする
非常に小さな解像度で生成したものを 2 倍 Hires.fix、さらにそれをもう 2 倍 Hires.fix する。コミュニティでは明確に結果が良いとされている
 → Comfy with ComfyUI: LTX-2.3

GGUF モデルについて

生成動画例

自動プロンプト入力

 

忘備録

モデル「dev」「distilled」の主な違い

 「dev」と「distilled」の主な違いは、モデルの用途、速度、生成品質にある
LTX 2.3 や FLUX などの画像・動画生成AIにおいて、これらは「標準的な高品質モデル(dev)」と「高速化された軽量モデル(distilled)」という位置付け

モデル「fp8」「GUFF」の主な違い

 AI生成モデル(画像生成の Stable Diffusion や Fluxなど)において、FP8 と GGUF はどちらも「モデルの軽量化(量子化)」を目的としてるが、仕組みと目的が異る。速度とVRAM(GPUメモリ)の容量なら FP8、環境の柔軟性と精度の高さなら GGUF(Q8) が推奨される

ID-LoRA

Style Transition

FLF2V

720p(ななひゃくにじゅう・ぴー)

動画編集 Tips

 

更新履歴

 

参考資料