私的AI研究会 > ComfyUI9

画像生成AI「ComfyUI」9(動画編2) == 編集中 ==

 「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲ 目 次
※ 最終更新:2026/01/30 

LTX-2 による音声付き動画生成

 2026年1月発表された音声対応の動画生成モデル「LTX-2」が巷で話題になっている。
「ConfyUI」標準対応となって使いやすく、低 VRAM 環境でも工夫すれば動作可能らしいので検証してみる

概要

プロジェクトで作成するワークフロー

動画生成のための環境構築

  1. 必要モデルのダウンロードと配置
    「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置
    モデル名ファイル名(.safetensors)配置先(/StabilityMatrix/Data/)ダウンロード URL
    checkpointsltx-2-19b-distilled-fp8 (fp8 蒸留版)Models/StableDiffusion/ltx-2-19b-distilled-fp8.safetensors
    ltx-2-19b-dev-fp4 (fp4 通常版)ltx-2-19b-dev-fp4.safetensors
    lolasltx-2-19b-distilled-lora-384Lora/ltx-2-19b-distilled-lora-384.safetensors
    ltx-2-19b-lora-camera-control-dolly-leftltx-2-19b-lora-camera-control-dolly-left
    vaeLTX2_audio_vae_bf16VAE/LTX-2 VAE Files
    LTX2_video_vae_bf16
    LTX2_video_vae_old_bf16
    latent_upscale_modelsltx-2-spatial-upscaler-x2-1.0Packages/ComfyUI/models/latent_upscale_modelsLTX-2 Spatial Upscaler ×2 (v1.0)
    text_encodersgemma_3_12B_it_fp4_mixedtext_encodersgemma_3_12B_it_fp4_mixed.safetensors
    ltx-2-19b-embeddings_connector_dev_bf16LTX-2 Embeddings Connector (bf16)

  2. Windows の場合「ページングファイル」を再設定する

    ①「Windows + 'R'」キーを押し「ファイル名を指定して実行」を開く
    ②「 sysdm.cpl 」と注力し「OK」ボタンをを押す
    ③「詳細設定」タブで「パフォーマンス」の項目の「設定」を押す
    ④「すべてのドライブのページングファイルのサイズを自動的に管理する」のチェックを外す
    ⑤「カスタムサイズ」を選択
    「初期サイズ」「最大サイズ」に 131072 を指定する(128GB)
    ⑦「設定」ボタンを押す
    ⑧「ページングファイルのサイズ」が 131072-131072 になっていることを確認
    ⑨「OK」を押してからシステムを再起動する

Step 1:標準テンプレート(Distilled 蒸留版)による生成

  1. ワークフローを選ぶ

    ① 左端のメニューから「Template」を選択
    ②「Video」を押す
    ③ 検索欄に「ltx2」を入力する

    ・表示された一覧からワークフローを選ぶ
    ④「LTX-2 Text to Video (Distilled)」テキストから動画生成(蒸留版)
    ⑤「LTX-2 Image to Video (Distilled)」静止画像から動画生成(蒸留版)

    ⑥ どちらのワークフローでもアラートダイアログが出るが無視して閉じる
    ⑦ 表示されたワークフローのノードにある「ckpt_name」の項目を
     「ltx-2-19b-distilled-fp8.safetensors」に変更する
     ※ 低VRAM で動作する「ltx-2-19b-distilled.safetensors」の軽量版を使用する

    ・ワークフローでエラーが発生する場合は前項のモデルの配置を確認する
    ・動作確認を行ったものを「workflow/_video/」フォルダに配置している
     (冒頭のプロジェクトファイルのダウンロード手順を実行した場合)
     ④「LTX-2 Text to Video (Distilled)」→ 「video_ltx2_t2v_001.json」
     ⑤「LTX-2 Image to Video (Distilled)」→ 「video_ltx2_i2v_001.json」

  2. 「LTX-2 Text to Video (Distilled)」テキストから動画生成(蒸留版)
     Prompt
    A man in a black tuxedo stands motionless in a small, red-tiled bathroom, facing a mirror. The camera sits just behind his right shoulder, framing both his back and his solemn reflection. Suddenly, he opens his mouth and begins to sing opera in Italian: "La donna e mobile, qual piuma al vento." Rich, resonant notes echo through the space. As his voice climbs in pitch, his brows lift, and his expression becomes more passionate, almost vulnerable. The overhead lighting casts a sharp glow on his face and tuxedo, reflecting in the glossy red tiles around him. The camera is static
    黒いタキシードを着た男が、赤いタイル張りの小さな浴室で、鏡に向かってじっと立っている。カメラは彼の右肩のすぐ後ろに設置され、彼の背中と厳粛な表情を映し出している。突然、彼は口を開き、イタリア語でオペラを歌い始める。「La donna e mobile, qual piuma al vento(女よ、動け、風に吹かれて)」。豊かで響き渡る音色が空間に響き渡る。声のトーンが上がるにつれ、彼の眉は上がり、表情はより情熱的で、ほとんど無防備なほどになる。天井の照明が彼の顔とタキシードに鋭い輝きを放ち、周囲の光沢のある赤いタイルに反射している。カメラは静止している。
     ※ ワークフロー:「_video/」filevideo_ltx2_t2v_001.json

    ・生成結果動画(音声付き)
     

  3. 「LTX-2 Image to Video (Distilled)」静止画像から動画生成(蒸留版)
    Prompt
    A wide, dynamic tracking shot follows a group of mountain bikers as they race across a pristine snow-covered landscape on a brilliant winter morning. The camera moves at speed, keeping pace with the lead biker in a vibrant yellow jacket and orange helmet, who launches into the air over a snow mound, their bike suspended against the clear blue sky. Snow particles explode around them, catching the golden light of the low sun that creates dramatic backlighting and long shadows across the terrain. Several other bikers follow closely behind, their dark silhouettes kicking up plumes of powdery snow as they navigate the undulating mounds. The only sounds are the crunch of tires biting into packed snow, the whoosh of air as they fly through jumps, and the distant sound of heavy breathing and excited shouts. One biker calls out to another with exhilaration: "This is incredible! The light is perfect!" Another responds with a breathless laugh: "Keep pushing! We're almost at the ridge!" The camera glides smoothly alongside the group, occasionally pulling back to reveal the full expanse of the snowy landscape with bare birch trees and dark evergreens lining the edge. The mood is exhilarating, fast-paced, and full of the raw energy of winter mountain biking, with every jump and turn captured in crisp detail against the brilliant white snow and vibrant sky.
    輝くような冬の朝、雪に覆われた手つかずの大地を駆け抜けるマウンテンバイクの一団を、ワイドでダイナミックなトラッキングショットが追う。鮮やかな黄色のジャケットとオレンジ色のヘルメットを羽織った先頭のライダーが、澄み切った青空にバイクを浮かせ、雪山を駆け抜ける。周囲で雪の粒が弾け飛び、低い太陽の黄金色の光を捉え、ドラマチックな逆光と長い影が地形に映し出される。数人のライダーがすぐ後ろをついてくる。彼らの黒いシルエットは、うねる雪山を駆け抜けながら、粉雪の煙を巻き上げている。聞こえるのは、タイヤが圧雪に食い込む音、ジャンプを駆け抜ける際の息の音、そして遠くから聞こえる荒い息遣いと興奮した叫び声だけだ。ライダーの一人が興奮気味に他のライダーに声をかける。「信じられない!光が最高!」。別のライダーが息を切らして笑いながら応える。「頑張れ!もうすぐ尾根だ!」カメラはグループの横を滑らかに滑るように進み、時折手前に引くことで、葉の落ちた白樺と濃い常緑樹が縁を縁取る、雪景色の雄大な景色を映し出します。爽快でテンポが速く、冬のマウンテンバイクの生々しいエネルギーに満ち溢れた雰囲気が伝わってきます。輝く白い雪と鮮やかな空を背景に、あらゆるジャンプやターンが鮮明なディテールで捉えられています。
    ・入力画像 「mountain_bikers.jpg」
     ※ ワークフロー:「_video/」filevideo_ltx2_i2v_001.json

    ・生成結果動画(音声付き)
     

  4. ここまでの結果
    • 「Text to Video」「Image to Video」は軽量版モデルの使用で問題なく動作した
    • 生成開始から終了まで 100GBのシステムメモリーが確保され VRAMもフル仕様の状態になる
    • 生成時間は
      回数ワークフローRTX 4070RTX 4060RTX 4060LRTX 3050
      初回video_ltx2_i2v_001.json03:33.8305:08.0307:30.4309:12.62
      2回目video_ltx2_i2v_001.json01:16.6403:56.7105:42.9117:28.08
      video_ltx2_t2v_001.json01:56.4903:26.2705:06.0413:38.81
      ・「FramePack」に比較すると音も生成しているにもかかわらず相当早い
       (数分の1~数十分の1)

    • プロンプトはかなり難しい(学習と経験が必要)
    • 「GGUF量子化モデル」を使うとさらに軽量・高速化が期待できるらしい
      ・提供されている専用カスタムノードを使用する必要がある(今後要調査)
    • 音に合わせて動画生成することもできるようだが詳細はこれから調査する

  5. 未確認のモデル類
    モデル名ファイル名内容ダウンロード URL
    Diffusion Modelltx-2-19b-distilled.safetensors蒸留モデル(fp16)ltx-2-19b-distilled.safetensors
    ltx-2-19b-distilled_Q4_K_M.ggufGGUF量子化モデルltx-2-19b-distilled_Q4_K_M
    Text Encodergemma_3_12B_it_fp8_e4m3fn.safetensorsGemma 3 12B (FP8 e4m3fn)gemma_3_12B_it_fp8_e4m3fn

Step 2:標準テンプレート(通常版)による生成

  1. ワークフローを選ぶ

    ① 左端のメニューから「Template」を選択
    ②「Video」を押す
    ③ 検索欄に「ltx2」を入力する

    ・表示された一覧からワークフローを選ぶ
    ④「LTX-2 Text to Video」テキストから動画生成(通常版)
    ⑤「LTX-2 Image to Video)」静止画像から動画生成(通常版)

    ⑥ どちらのワークフローでもアラートダイアログが出るが無視して閉じる
    ⑦ 表示されたワークフローのノードにある「ckpt_name」の項目を
     「|ltx-2-19b-dev-fp4.safetensors」に変更する
     ※ 低VRAM で動作する「ltx-2-19b-dev.safetensors」の軽量版を使用する

    ・ワークフローでエラーが発生する場合は前項のモデルの配置を確認する
    ・動作確認を行ったものを「workflow/_video/」フォルダに配置している
     (冒頭のプロジェクトファイルのダウンロード手順を実行した場合)
     ④「LTX-2 Text to Video」→ 「video_ltx2_t2v_003.json」
     ⑤「LTX-2 Image to Video」→ 「video_ltx2_i2v_003.json」

  2. 「LTX-2 Text to Video」テキストから動画生成(通常版)
     Prompt
    A close-up of a cheerful girl puppet with curly auburn yarn hair and wide button eyes, holding a small red umbrella above her head. Rain falls gently around her. She looks upward and begins to sing with joy in English: "It's raining, it's raining, I love it when its raining." Her fabric mouth opening and closing to a melodic tune. Her hands grip the umbrella handle as she sways slightly from side to side in rhythm. The camera holds steady as the rain sparkles against the soft lighting. Her eyes blink occasionally as she sings.
    巻き毛の栗毛と大きなボタンのような目をした、元気いっぱいの女の子の人形のクローズアップ。小さな赤い傘を頭上に掲げている。雨が優しく彼女の周りに降り注ぐ。彼女は上を見上げ、楽しそうに英語で歌い始める。「雨が降ってる、雨が降ってる、雨が降ってる時が大好き」。布製の口がメロディーに合わせて開いたり閉じたりしている。傘の柄を握りしめ、リズムに合わせて軽く左右に体を揺らす。カメラは、柔らかな光に照らされた雨のきらめきを捉える。歌いながら、彼女の目は時折瞬きする。
     Negative Prompt
    blurry, low quality, still frame, frames, watermark, overlay, titles, has blurbox, has subtitles
    ぼやけている、低品質、静止画、フレーム、透かし、オーバーレイ、タイトル、ぼかしボックスあり、字幕あり
     ※ ワークフロー:「_video/」filevideo_ltx2_t2v_dev_003.json

    ・生成結果動画(音声付き)※右は蒸留版ワークフロー(video_ltx2_t2v_001.json)で生成
       

  3. 「LTX-2 Image to Video (Distilled)」静止画像から動画生成(通常版)
    Prompt
    A close-up shot of a young waitress in a retro 1950s diner, her warm brown eyes meeting the camera with a gentle smile. She wears a black polka-dot dress with an elegant cream lace collar, her reddish-brown hair styled in an elaborate updo with delicate curls framing her freckled face. Soft, warm light from overhead fixtures illuminates her features as she stands behind a yellow counter. The camera begins slightly to her side, then slowly pushes in toward her face, revealing the subtle rosy blush on her cheeks. In the blurred background, the soft teal walls and a glowing red "Diner" sign create a nostalgic atmosphere. The ambient sounds of clinking dishes, distant conversations, and the gentle hum of a jukebox fill the air. She tilts her head slightly and says in a friendly, warm voice: "Welcome to Rosie's. What can I get for you today?" The mood is inviting, timeless, and full of classic American diner charm.
    1950年代のレトロなダイナーで、若いウェイトレスのクローズアップショット。温かみのある茶色の瞳が、優しい微笑みを浮かべながらカメラを見つめている。彼女はエレガントなクリーム色のレースの襟が付いた黒い水玉模様のドレスを身にまとい、赤みがかった茶色の髪は繊細なカールで丁寧にアップスタイルにスタイリングされ、そばかすのある顔を縁取っている。黄色いカウンターの後ろに立つウェイトレスの顔は、天井から差し込む柔らかく温かみのある光で照らされている。カメラは彼女の少し横から撮影を始め、徐々に顔に近づいていき、ほのかなバラ色の頬を浮かび上がらせている。ぼやけた背景の中で、柔らかな青緑色の壁と赤く輝く「ダイナー」の看板がノスタルジックな雰囲気を醸し出している。皿がぶつかる音、遠くで交わされる会話、そしてジュークボックスの優しい音が辺りを満たしている。彼女は少し首を傾げ、親しみやすく温かい声でこう言った。「ロージーズへようこそ。本日は何をお選びになりますか?」雰囲気は魅力的で時代を超越しており、古典的なアメリカのダイナーの魅力に満ちています。
    ・入力画像 「cute_girl.jpg」
     ※ ワークフロー:「_video/」filevideo_ltx2_i2v_dev_003.json

    ・生成結果動画(音声付き)※右は蒸留版ワークフロー(video_ltx2_i2v_001.json)で生成
       

LTX-2 モデル

 LTX-2 (Lightricks社製) 動画生成AIにおける Distilled(蒸留モデル)とFP4(4-bit量子化モデル)の主な違いは、「生成速度(ステップ数)」と「精度(画質・細部)」のトレードオフである。以下は 2026年1月時点のローカル環境(ComfyUI等)での傾向

Step 3:標準テンプレート まとめ

 ComfyUI オフィシャルサイトの標準ワークフローは「subgraph」機能を使用して入出力要素以外を隠して簡略化しているので、これを外しフラットな通常のワークフローの形にして整理しなおした
 

LTX-2 による音声付き動画生成2 <Confy(快適)に使うConfyUI

 LTX-2 ワークフローは複雑で理解しにくい。いろいろ調査していく過程で日本人の方の作成したわかりやすいサイトを見つけた。
このサイトをお手本にLTX-2 ワークフローの検証を進める

はじめに

text2video

text2video 8ステップ

image2video

 

忘備録

torch.OutOfMemoryError: メモリー不足エラー

 

更新履歴

 

参考資料