私的AI研究会 > ComfyUI9b
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 2026年3月発表された音声対応の動画生成モデル。 1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 : ├─📂_video ├─📂_video2 ├─📂LTX ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| ワークフロー | 機 能 | モデル | CPU | CPU | |||||
| RTX 4070 | RTX 4060 | RTX 4060L | RTX 3050 | GTX 1050 | i7-1260P | i7-1185G7 | |||
| 5300_LTX-2.3_t2v_dev | Text to Video 基本ワークフロー | fp8 dev | 06:07.31 | 24:22.67 | 非対応 | ||||
| 5301_LTX-2.3_i2v_dev | Image to Video 基本ワークフロー | fp8 dev | 04:11.95 | 22:28.35 | |||||
| 5302_LTX-2.3_t2v_dev_simple | Text to Video 基本(simple) | fp8 dev | 04:15.03 | 20:50.82 | |||||
| 5303_LTX-2.3_i2v_dev_simple | Image to Video 基本(simple) | fp8 dev | 04:32.22 | 20:50.82 | |||||
| 5340_LTX-2.3_t2v_dev_GGUF | Text to Video (GGUF) | GGUF dev | 04:32.22 | 09:56.69 | |||||
| 5341_LTX-2.3_i2v_dev_GGUF | Image to Video (GGUF) | GGUF dev | 02:49.95 | 08:17.38 | |||||
| 5342_LTX-2.3_T2V_dev_GGUF | Text to Video (GGUF 展開版) | GGUF dev | 02:56.61 | 07:25.82 | 08:12.25 | 17:44.45 | |||
| 5343_LTX-2.3_I2V_dev_GGUF | Image to Video (GGUF 展開版) | GGUF dev | 03:23.88 | 05:10.34 | 08:32.48 | 11:47.73 | |||
| 5400_LTX-2.3_t2v_distilled | Text to Video 基本ワークフロー | fp8 distilled | 01:25.56 | 06:43.14 | |||||
| 5401_LTX-2.3_i2v_distilled | Image to Video 基本ワークフロー | fp8 distiled | 01:58.72 | 06:56.02 | |||||
| 5402_LTX-2.3_t2v_distil_simple | Text to Video 基本(simple) | fp8 distilled | 01:43.82 | 06:36.58 | |||||
| 5403_LTX-2.3_i2v_distil_simple | Image to Video 基本(simple) | fp8 distilled | 01:32.83 | 06:45.56 | |||||
| 5440_LTX-2.3_t2v_distilled_GGUF | Text to Video (GGUF) | GGUF distill | 02:51.28 | 09:24.07 | |||||
| 5441_LTX-2.3_i2v_distilled_GGUF | Image to Video (GGUF) | GGUF distill | 03:28.56 | 07:39.56 | |||||
| 5442_LTX-2.3_T2V_distilled_GGUF | Text to Video (GGUF 展開版) | GGUF distill | 03:43.24 | 07:59.01 | |||||
| 5443_LTX-2.3_I2V_distilled_GGUF | Image to Video (GGUF 展開版) | GGUF distill | 04:42.55 | 08:28.67 | |||||
| 「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| checkpoints | ltx-2.3-22b-dev-fp8 | /StabilityMatrix/Data/ Models/ | StableDiffusion/ | ltx-2.3-22b-dev-fp8.safetensors.safetensors |
| ltx-2.3-22b-distilled-fp8 | ltx-2.3-22b-distilled-fp8.safetensors | |||
| ltx-2.3-22b-dev-Q4_K_M.gguf | diffusion_models/ | ltx-2.3-22b-dev-Q4_K_M.gguf | ||
| ltx-2.3-22b-distilled-Q4_K_M.gguf | ltx-2.3-22b-distilled-Q4_K_M.gguf | |||
| LoRA | ltx-2.3-22b-distilled-lora-384 | Lora/ | ltx-2.3-22b-distilled-lora-384.safetensors | |
| ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16 | ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors | |||
| text_encoders | gemma_3_12B_it_fp4_mixed | text_encoders | gemma_3_12B_it_fp4_mixed.safetensors | |
| gemma_3_12B_it_fp8_scaled | gemma_3_12B_it_fp8_scaled.safetensors | |||
| ltx-2.3_text_projection_bf16 | ltx-2.3_text_projection_bf16 | |||
| VAE | LTX23_audio_vae_bf16 | VAE/ | LTX23_audio_vae_bf16.safetensors | |
| LTX23_video_vae_bf16 | LTX23_video_vae_bf16.safetensors | |||
| UP Scale | ltx-2.3-spatial-upscaler-x2-1.1 | /StabilityMatrix/Data/ Packages/ComfyUI/models/ | latent_upscale_models/ | ltx-2.3-spatial-upscaler-x2-1.1.safetensors |
| ltx-2.3-spatial-upscaler-x2-1.0 | ||||
| Name | Notes |
| ltx-2.3-22b-dev-fp8 | The full model, flexible and trainable, in fp8 |
| ltx-2.3-22b-distilled-fp8 | The distilled version of the full model, 8 steps, CFG=1, in fp8 |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する |

| video_ltx2_3_t2v_org.json | |
入力画像![]() ダミー画像 | Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | |
![]() ↑ video_ltx2_3_t2v_org.json SubGraph 展開 → | ![]() |
| video_ltx2_3_i2v_org.json | |
入力画像![]() egyptian_queen.png | Prompt: Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in. |
| 青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。 | |
![]() ↑ video_ltx2_3_i2v_org.json SubGraph 展開 → | ![]() |
| < 内部で生成されたプロンプトの例 > Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus. |
| スタイル:映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。 |
| 5302_LTX-2.3_T2V_simple.json | 5303_LTX-2.3_I2V_simple.json |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルでは VRAM 8GB 以下の環境ではメモリー不足のようなので GGUF 量子化モデルにしてみる |
| LTX-2.3-dev GGUF モデル | |||
| タイプ | ビット数 | モデルサイズ | 内容 |
| Q2_K | 2 | 8.28 GB | 2ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり2.5625ビットになる |
| Q3_K_M | 3 | 18.8 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる |
| Q3_K_S | 9.95 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる | |
| Q4_K_M | 4 | 14.3 GB | 4ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり4.5ビットになる |
| Q4_K_S | 13.1 GB | ||
| Q5_K_M | 5 | 16.1 GB | 5ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり5.5ビットになる |
| Q5_K_S | 16.2 GB | ||
| Q6_K | 6 | 17.8 GB | 6ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり6.5625ビットになる |
| Q8_0 | 8 | 22.8 GB | 8ビット近似値に量子化。各ブロックは32のウェイトを持つ |
| F16 | 16 | 42.0 GB | 16ビット 標準IEEE754 半精度浮動小数点数 |
| 5340_LTX-2.3_t2v_dev_GGUF.json | 5341_LTX-2.3_i2v_dev_GGUF.json |
| 基本的に標準テンプレート (dev) のワークフローで LoRA (ltx-2.3-22b-distilled-lora-384) ノードをバイパスして、モデルを変更することで機能する 「Text to Video 基本ワークフロー」については若干の修正を加える(後述) |
| オリジナルのワークフロー | プロンプト生成をバイパス |
| Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. | Prompt: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling in midair, precision robotic parts and magnetic connectors click together with glowing circuits. Subtle smoke and light flares create dramatic effects as the titanium textures display extreme detail. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed. The scene’s sharp focus highlights 8K photorealism. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | 映画のようなライティングによるリアルな描写。クローズアップでは、ハイテクなモジュール式機械が空中で自己組み立てされ、精密なロボット部品と磁気コネクタが光る回路と共にカチッと嵌合する様子が描かれています。かすかな煙と光のフレアがドラマチックな効果を生み出し、チタンの質感は極めて精緻なディテールを際立たせています。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮るものなく配置された、すっきりとしたクリアな表面を呈しています。シーンのシャープなフォーカスが8Kフォトリアリズムを際立たせています。 |