私的AI研究会 > ComfyUI9 > ComfyUI9a

画像生成AI「ComfyUI」9(続動画編2) == 編集中 ==

 「ComfyUI」を使ってローカル環境でのAI画像生成を検証する

▲ 目 次
※ 最終更新:2026/02/10

LTX-2 による音声付き動画生成2 <Confy(快適)に使うConfyUI>

 LTX-2 ワークフローは複雑で理解しにくい。いろいろ調査していく過程で日本人の方の作成したわかりやすいサイトを見つけた。
このサイトをお手本にLTX-2 ワークフローの検証を進める

プロジェクトで作成するワークフロー

環境設定

テキストから音声+動画を生成「text2video」

テキストから音声+動画を生成(軽量化)「text2video Step 8」

 Distilled-LoRA(蒸留LoRA)で軽量化
Distilled-LoRA は 主に画像生成や動画生成の分野で、モデルの軽量化・高速化技術(知識蒸留)と低ランク適応(LoRA)を組み合わせた手法
膨大な知識を持つ「教師モデル」の能力を、少ない推論ステップ(通常4〜8ステップ)で再現できるよう訓練された軽量な追加モデル(LoRA)を使用する

静止画像から音声+動画を生成「image2video」

「text2video」(改訂版)

 ComfyUI オフィシャルサイトの標準ワークフロー(通常版)を整理した「103_T2V_LTX2_base_dev.json」に比較しtて 4割程度生成に時間がかかっているのを調査して同レベルの時間で生成できるワークフローに改良する

「image2video」(改訂版)

 ComfyUI オフィシャルサイトの標準ワークフロー(通常版)を整理した「103_I2V_LTX2_base_dev.json」に比較しtて 2倍以上生成に時間がかかっているのを調査して同レベルの時間で生成できるワークフローに改良する

音声ファイルから動画生成「audio2video」

 音声を入力として渡して 音に追従する動画 を作る

動画に音をつける「video2audio」

 動画を入力して それに合う音(効果音や環境音)を生成する

音に合わせた動画を生成「audio + image2video」

 「audio2video」と「image2video」のワークフローを組み合わせる。顔画像に喋っている音声を組み合わせてみる

生成動画を制御する1(ポーズ)「IC-LoRA (Pose)」

 IC-LoRA (Pose) は、ポーズの 制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

生成動画を制御する2(深度)「IC-LoRA (Depth)」

 IC-LoRA (Depth) は、深度の 制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

生成動画を制御する3(エッジ)「IC-LoRA (Canny)」

 IC-LoRA (Canny) は、エッジの 制御信号から動画を作る。text2video のワークフローに ControlNet のような制御用の動画入力を追加する

生成動画を制御する4(ディテーラー)「IC-LoRA (Detailer)」

 IC-LoRA (Detailer)は、低解像度の動画のディテールや質感を修復する。基本は IC-LoRA(Detailer) を適用した video2video
 

忘備録

torch.OutOfMemoryError: メモリー不足エラー

module 'comfy.model_management' has no attribute 'load_model_gpu'

動画編集 Tips

 

更新履歴

 

参考資料