ComfyUI9b の履歴(No.6)

私的AI研究会 > ComfyUI9b

画像生成AI「ComfyUI」９（動画編４）　== 編集中 ==†

　「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲　目　次

画像生成AI「ComfyUI」９（動画編４）　== 編集中 ==
- LTX-2.3 による音声付き動画生成
- 更新履歴
参考資料

※ 最終更新:2026/04/08　

↑

LTX-2.3 による音声付き動画生成†

　2026年3月発表された音声対応の動画生成モデル。
　1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる

↑

概要†

「LTX-2.3」とは
- イスラエルの Lightricks（ライトリックス）社が開発 2026年 3月に公開した高性能オープンソース動画生成AIモデル
- 従来のモデル（LTX-2）と比較して動画の品質やプロンプト理解力が大幅に向上

主な特徴
- 高速・高品質な動画生成: 動画と音声をセットで生成可能で、ローカル環境でも高速に動作する設計
- 高解像度と長尺対応: 4K画質や、長時間の動画生成に対応している
- 音声との連携: 画像と音声を同時に入力することで、リップシンク（口の動きを合わせる）や歌に合わせた動きが可能
- プロンプト理解力の向上: 前世代の LTX-2 と比べて、プロンプトに忠実な映像を生成する能力が向上
- ローカル運用向け: ComfyUIでネイティブサポートされており、個人の PC環境（GPU）で動作させることが可能

前世代との違いと評価
- WAN 2.2との比較: ローカル生成AIのライバルである「WAN 2.2」がシネマティックな動きや画質に強みを持つ一方、LTX-2.3 は生成速度と出力の安定性に強みがある
- 用途: ストーリーボードの作成や、プロンプトを素早く試す（イテレーション）作業に向いている

利用方法
- ComfyUI というツールを使用して、ローカルのPC環境で動かすのが一般的
- モデルや追加のウェイト（ID-LoRAなど）をダウンロードし、動画と音声を生成するワークフローを設定して使用する

動作前提要件（公式ドキュメントより）
- ComfyUI installed
- CUDA-compatible GPU with 32GB+ VRAM
- 100GB+ free disk space for models and cache

オフィシャルサイト

（参考）低 VRAM 環境下の動作のための蒸留版
- LTX-2.3 には 8 ステップで動作する蒸留版（distilled version）も含まれている
- Classifier-Free Guidance（CFG）値 1で実行でき、フルモデルと比べて大幅な高速化が可能

↑

プロジェクトで作成するワークフロー†

このプロジェクトで作成するワークフローと関連データは下記にアップロードしている（更新されている場合は再度ダウンロードのこと）

ComfyUI_proj.zip をダウンロード（ワークフローの改訂に伴い随時更新中）※2026/04/07更新
・解凍してできるフォルダ

📂ComfyUI
  ├─📂input　　　　　　　　　　　　　　← ワークフローに含まれる入力画像
  └─📂user
        └─📂default
              └─📂workflows　　　　　　　　← ワークフローの保存場所
                    :
                    ├─📂_video
                    ├─📂_video2
                    ├─📂LTX 　　　　　　　 ← この章で作成するワークフロー
                    :

・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする

ワークフローと動作環境による生成時間（分：秒）

ワークフロー	機　能	モデル	CPU					CPU
ワークフロー	機　能	モデル	RTX 4070	RTX 4060	RTX 4060L	RTX 3050	GTX 1050	i7-1260P	i7-1185G7
5300_LTX-2.3_t2v_Distill	Text to Video 基本ワークフロー	fp8 distill	06:07.31		24:22.67		非対応
5301_LTX-2.3_i2v_Distill	Image to Video 基本ワークフロー	fp8 distill	04:11.95		22:28.35
5302_LTX-2.3_t2v_simple	Text to Video 基本(simple)	fp8 distill	04:15.03		20:50.82
5303_LTX-2.3_i2v_simple	Image to Video 基本(simple)	fp8 distill	04:32.22		09:56.69
5401_LTX-2.3_i2v_Distill_GGUF	Image to Video (GGUF)	GGUF	02:49.95		08:17.38
5402_LTX-2.3_T2V_GGUF	Text to Video (GGUF 展開版)	GGUF	02:56.61	07:25.82	08:12.25	17:44.45
5403_LTX-2.3_I2V_GGUF	Image to Video (GGUF 展開版)	GGUF	03:23.88	05:10.34	08:32.48	11:47.73

↑

動画生成のための環境構築†

必要モデルのダウンロードと配置

「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置

モデル名	ファイル名（.safetensors）	配置先		ダウンロード URL
checkpoints	ltx-2.3-22b-dev-fp8	/StabilityMatrix/Data/ Models/	StableDiffusion/	ltx-2.3-22b-dev-fp8.safetensors.safetensors
checkpoints	ltx-2.3-22b-dev-Q4_K_M.gguf		diffusion_models/	ltx-2.3-22b-dev-Q4_K_M.gguf
LoRA	ltx-2.3-22b-distilled-lora-384		Lora/	ltx-2.3-22b-distilled-lora-384.safetensors
LoRA	ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16		Lora/	ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors
text_encoders	gemma_3_12B_it_fp8_scaled		text_encoders/	gemma_3_12B_it_fp8_scaled.safetensors
text_encoders	ltx-2.3_text_projection_bf16		text_encoders/	ltx-2.3_text_projection_bf16
VAE	LTX23_audio_vae_bf16		VAE/	LTX23_audio_vae_bf16.safetensors
VAE	LTX23_video_vae_bf16		VAE/	LTX23_video_vae_bf16.safetensors
UP Scale	ltx-2.3-spatial-upscaler-x2-1.1	/StabilityMatrix/Data/ Packages/ComfyUI/models/	latent_upscale_models/	ltx-2.3-spatial-upscaler-x2-1.1.safetensors
UP Scale	~~ltx-2.3-spatial-upscaler-x2-1.0~~ ※	/StabilityMatrix/Data/ Packages/ComfyUI/models/	latent_upscale_models/	ltx-2.3-spatial-upscaler-x2-1.0

　・ GGUF版で使用　※ ltx-2.3-spatial-upscaler-x2-1.1.safetensors を使用する

↑

Step 1：オフィシャルサイトの標準テンプレートからワークフローを作成†

ワークフローを選ぶ

① 左端のメニューから「Template」を選択
②「Video」を押す
③ 検索欄に「ltx2.3」を入力する

・表示された一覧からワークフローを選ぶ
④「LTX-2.3 Text to Video」テキストから動画生成
⑤「LTX-2.3 Image to Video」静止画像から動画生成

・ワークフローでエラーが発生する場合は前項のモデルの配置を確認する

・ワークフロー内で使われる画像データのダウンロード
　　 GitHub: ComfyUI-Org workflow_templates

動作確認を行ってから保存する
　④「LTX-2 Text to Video」→ 「video_ltx2_3_t2v_org.json」
　⑤「LTX-2 Image to Video)」→ 「video_ltx2_3_i2v_org.json」

・オリジナルのワークフロー

video_ltx2_3_t2v_org.json
	*Prompt:* Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus.
	空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。
↑ video_ltx2_3_t2v_org.json 　　　　　　　　SubGraph 展開 →
video_ltx2_3_i2v_org.json
入力画像 egyptian_queen.png	*Prompt:* Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in.
入力画像 egyptian_queen.png	青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。
↑ video_ltx2_3_i2v_org.json 　　　　　　　　SubGraph 展開 →

・オリジナル・ワークフロー考察「video_ltx2_3_t2v_org.json」

　1. ワークフロー内に「switch to Text to Video?」の設定（true/false）がありデフォルトでは true となっている
　2. Text to Video / Image to Video の切り替えのようにも見えるが詳細は不明
　3. このワークフローを実行すると、入力されたプロンプトからさらに詳細なプロンプトを生成し、個のプロンプトにより生成が行われる

< 内部で生成されたプロンプトの例 >
Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus.

スタイル：映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。

ワークフローを整理する

5300 Text to Video 基本ワークフロー	5300 SubGraph

「LTX/」&ref(): File not found: "5300_LTX-2.3_t2v_Distill.json" at page "ComfyUI9b";
5301 Image to Video 基本ワークフロー	5301 SubGraph

「LTX/」&ref(): File not found: "5301_LTX-2.3_i2v_Distill.json" at page "ComfyUI9b";
5302 Text to Video 基本ワークフロー (simple)	:5303 Image to Video 基本ワークフロー (simple)

「LTX/」&ref(): File not found: "5302_LTX-2.3_T2V_simple.json" at page "ComfyUI9b";	「LTX/」&ref(): File not found: "5303_LTX-2.3_I2V_simple.json" at page "ComfyUI9b";

生成結果動画（音声付き）

5302_LTX-2.3_T2V_simple.json 5303_LTX-2.3_I2V_simple.json

↑

Step 2：GGUF版ワークフローの作成†

GGUF 量子化モデル対応のワークフローをダウンロードする
・LTX-2.3 22B GGUF WORKFLOWS 12GB VRAM
・Rebels LTX-2.3 Dev (GGUF)

GGUF版整理したワークフロー

5400 Text to Video 基本ワークフロー (GGUF)	5400 SubGraph

「LTX/」&ref(): File not found: "5400_LTX-2.3_t2v_Distill_GGUF.json" at page "ComfyUI9b";
5401 Image to Video 基本ワークフロー (GGUF)	5401 SubGraph

「LTX/」&ref(): File not found: "5401_LTX-2.3_i2v_Distill_GGUF.json" at page "ComfyUI9b";
5402 Text to Video 基本ワークフロー (GGUF 展開版)	:5403 Image to Video 基本ワークフロー (GGUF 展開版)

「LTX/」&ref(): File not found: "5402_LTX-2.3_T2V_GGUF.json" at page "ComfyUI9b";	「LTX/」&ref(): File not found: "5403_LTX-2.3_I2V_GGUF.json" at page "ComfyUI9b";