私的AI研究会 > ComfyUI9b
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 2026年3月発表された音声対応の動画生成モデル。 1月発表の「LTX-2」と比較して大幅な性能向上とのこと、ComfyUIでネイティブサポートされているので検証してみる |
| このプロジェクトで作成するワークフローと関連データは下記にアップロードしている(更新されている場合は再度ダウンロードのこと) |
📂ComfyUI ├─📂input ← ワークフローに含まれる入力画像 └─📂user └─📂default └─📂workflows ← ワークフローの保存場所 : ├─📂_video ├─📂_video2 ├─📂LTX ← この章で作成するワークフロー :・解凍してできる「ComfyUI/」フォルダを「StabilityMatrix/Data/Packages/ComfyUI」へ上書きコピーする
| 「Stability Matrix」上の「ComfyUI」ではモデルフォルダの場所が異なっていることに注意 → モデルフォルダの配置 |
| モデル名 | ファイル名(.safetensors) | 配置先 | ダウンロード URL | |
| checkpoints | ltx-2.3-22b-dev-fp8 | /StabilityMatrix/Data/ Models/ | StableDiffusion/ | ltx-2.3-22b-dev-fp8.safetensors.safetensors |
| ltx-2.3-22b-distilled-fp8 | ltx-2.3-22b-distilled-fp8.safetensors | |||
| ltx-2.3-22b-dev-Q4_K_M.gguf | diffusion_models/ | ltx-2.3-22b-dev-Q4_K_M.gguf | ||
| ltx-2.3-22b-distilled-Q4_K_M.gguf | ltx-2.3-22b-distilled-Q4_K_M.gguf | |||
| LoRA | ltx-2.3-22b-distilled-lora-384 | Lora/ | ltx-2.3-22b-distilled-lora-384.safetensors | |
| ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16 | ltx-2.3-22b-distilled-lora-dynamic_fro09_avg_rank_105_bf16.safetensors | |||
| text_encoders | gemma_3_12B_it_fp4_mixed | text_encoders | gemma_3_12B_it_fp4_mixed.safetensors | |
| gemma_3_12B_it_fp8_scaled | gemma_3_12B_it_fp8_scaled.safetensors | |||
| ltx-2.3_text_projection_bf16 | ltx-2.3_text_projection_bf16 | |||
| VAE | LTX23_audio_vae_bf16 | VAE/ | LTX23_audio_vae_bf16.safetensors | |
| LTX23_video_vae_bf16 | LTX23_video_vae_bf16.safetensors | |||
| UP Scale | ltx-2.3-spatial-upscaler-x2-1.1 | /StabilityMatrix/Data/ Packages/ComfyUI/models/ | latent_upscale_models/ | ltx-2.3-spatial-upscaler-x2-1.1.safetensors |
| ltx-2.3-spatial-upscaler-x2-1.0 | ||||
| Name | Notes |
| ltx-2.3-22b-dev-fp8 | The full model, flexible and trainable, in fp8 |
| ltx-2.3-22b-distilled-fp8 | The distilled version of the full model, 8 steps, CFG=1, in fp8 |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルを使用する |

| video_ltx2_3_t2v_org.json | |
入力画像![]() ダミー画像 | Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | |
![]() ↑ video_ltx2_3_t2v_org.json SubGraph 展開 → | ![]() |
| video_ltx2_3_i2v_org.json | |
入力画像![]() egyptian_queen.png | Prompt: Egyptian royal in blue-and-gold headdress and high collar, white dress with golden embroidery and armbands, desert, robot soldiers in formation left and right. She walks steadily forward, head held level and gaze fixed ahead—no dipping or lowering of the head. The camera performs a single, smooth push-in only: starting in a wider shot of her, the robots, and the desert, it moves steadily forward until she is in a medium or medium-close frame, then holds. She stops, posture and head still upright, and says: “The old gods are silent. I am not.” Robot soldiers shift or march in place; sand and fabric move with the wind. No pull-back; the only camera move is the continuous push-in. |
| 青と金の頭飾りとハイカラー、金の刺繍と腕輪のついた白いドレスを着たエジプトの王族。砂漠、左右に整列したロボット兵士たち。彼女は頭を水平に保ち、視線をまっすぐ前に向けたまま、頭を下げたり下げたりすることなく、着実に前進する。カメラは、彼女とロボット、砂漠を捉えたワイドショットから始まり、彼女がミディアムまたはミディアムクローズのフレームに入るまで着実に前進し、そこで静止する。彼女は立ち止まり、姿勢と頭は依然としてまっすぐで、「古い神々は沈黙している。私は沈黙しない」と言う。ロボット兵士たちはその場で移動したり行進したりし、砂と布は風に揺れる。プルバックはなく、カメラの動きは連続的なプッシュインのみである。 | |
![]() ↑ video_ltx2_3_i2v_org.json SubGraph 展開 → | ![]() |
| < 内部で生成されたプロンプトの例 > Style: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling dynamically in midair—precision robotic parts clicking together, magnetic connectors connecting, and glowing circuits connecting subtly. Subtle smoke and light flares drift through the air. The final product displays a clean, clear surface with large, glowing engraved text “LTX-2.3” centered and unobstructed. Dramatic lighting highlights the titanium textures. Extremely detailed titanium textures are visible everywhere, catching the light. Sharp focus creates a sense of precision. Ambient sounds include faint clicks and whirs as the machinery assembles itself. Behind the machinery, other patrons move subtly in and out of focus. |
| スタイル:映画のような照明を用いたリアルな表現。クローズアップでは、ハイテクなモジュール式機械が空中でダイナミックに自己組み立てされる様子が映し出される。精密なロボット部品がカチッと音を立てて組み合わさり、磁気コネクタが接続され、光る回路が微妙に接続される。かすかな煙と光のフレアが空中を漂う。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮られることなく、すっきりとした表面を呈する。ドラマチックな照明がチタンの質感を際立たせる。至る所に極めて精緻なチタンの質感が見られ、光を捉えている。シャープなフォーカスが精密さを感じさせる。機械が組み立てられる際の微かなクリック音や唸り音が環境音として聞こえる。機械の背後では、他の客が微妙にピントが合ったり外れたりする。 |
| 5302_LTX-2.3_T2V_simple.json | 5303_LTX-2.3_I2V_simple.json |
| 「ltx-2.3-22b-dev-fp8.safetensors」標準(dev) fp8 モデルでは VRAM 8GB 以下の環境ではメモリー不足のようなので GGUF 量子化モデルにしてみる |
| LTX-2.3-dev GGUF モデル | |||
| タイプ | ビット数 | モデルサイズ | 内容 |
| Q2_K | 2 | 8.28 GB | 2ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり2.5625ビットになる |
| Q3_K_M | 3 | 18.8 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる |
| Q3_K_S | 9.95 GB | 3ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり3.4375ビットになる | |
| Q4_K_M | 4 | 14.3 GB | 4ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり4.5ビットになる |
| Q4_K_S | 13.1 GB | ||
| Q5_K_M | 5 | 16.1 GB | 5ビット量子化。8ブロックのスーパーブロックで、各ブロックは32のウェイトを持つ。1ウェイトあたり5.5ビットになる |
| Q5_K_S | 16.2 GB | ||
| Q6_K | 6 | 17.8 GB | 6ビット量子化。16ブロックのスーパーブロックで、各ブロックは16のウェイトを持つ。1ウェイトあたり6.5625ビットになる |
| Q8_0 | 8 | 22.8 GB | 8ビット近似値に量子化。各ブロックは32のウェイトを持つ |
| F16 | 16 | 42.0 GB | 16ビット 標準IEEE754 半精度浮動小数点数 |
| 5340_LTX-2.3_t2v_dev_GGUF.json | 5341_LTX-2.3_i2v_dev_GGUF.json |
| 基本的に標準テンプレート (dev) のワークフローで LoRA (ltx-2.3-22b-distilled-lora-384) ノードをバイパスして、モデルを変更することで機能する 「Text to Video 基本ワークフロー」については若干の修正を加える(後述) |
| オリジナルのワークフロー | プロンプト生成をバイパス |
| Prompt: Dynamic cinematic close-up of high-tech modular machinery self-assembling in midair, precision robotic parts, magnetic connectors, and glowing circuits clicking together, subtle smoke and light flares, extremely detailed titanium textures. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed, dramatic lighting, photorealism, 8K, sharp focus. | Prompt: realistic with cinematic lighting. In a close-up, high-tech modular machinery self-assembling in midair, precision robotic parts and magnetic connectors click together with glowing circuits. Subtle smoke and light flares create dramatic effects as the titanium textures display extreme detail. The final product displays a clean, clear surface with large glowing engraved text “LTX-2.3” centered and unobstructed. The scene’s sharp focus highlights 8K photorealism. |
| 空中で自己組み立てされるハイテクモジュール式機械のダイナミックなシネマティッククローズアップ。精密なロボット部品、磁気コネクタ、光る回路がカチッと音を立てて組み合わさり、かすかな煙と光のフレア、極めて精緻なチタンの質感。最終製品は、中央に大きく光る刻印文字「LTX-2.3」が遮るものなく配置された、清潔でクリアな表面を呈し、ドラマチックな照明、フォトリアリズム、8K、シャープなフォーカスを実現しています。 | 映画のようなライティングによるリアルな描写。クローズアップでは、ハイテクなモジュール式機械が空中で自己組み立てされ、精密なロボット部品と磁気コネクタが光る回路と共にカチッと嵌合する様子が描かれています。かすかな煙と光のフレアがドラマチックな効果を生み出し、チタンの質感は極めて精緻なディテールを際立たせています。完成品は、中央に大きく光る「LTX-2.3」の刻印文字が遮るものなく配置された、すっきりとしたクリアな表面を呈しています。シーンのシャープなフォーカスが8Kフォトリアリズムを際立たせています。 |
| ComfyUI サイトとは別に LTX2.3 開発元の Lightricks オフィシャルサイトにもワークフローのサンプルが用意されているので検証する → PSA: 公式のLTX 2.3ワークフローを使ってください。ComfyUIに含まれているものではなく、こちらの方がかなり良いです。 |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 2 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 標準版(dev) / 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Single_Stage_Distilled_Full_org.json |
| 旧 | 変更後 | 適応箇所 |
| ltx-2.3-22b-dev.safetensors | ltx-2.3-22b-dev-fp8 | 5 |
| ltx-2.3-22b-distilled-lora-384.safetensors | ltx-2.3-22b-distilled-lora-384 | 1 |
| confy_gemma_3.12B_it.safetensors | gemma_3_12B_it_fp4_mixed | 1 |
| 蒸留版(distilled) Text to Video, Image to Video |
![]() |
| 「~beta」LTX-2.3_T2V_I2V_Two_Stage_Distilled_org_org.json |
| ノード | 通常モデル 対応 | GGUF 対応 |
| Checkpoint | ![]() Load Checkpoint | ![]() Unet Loader (GGUF) / VAE Loder KJ |
| VAE | ![]() Load Audio VAE | ![]() VAE Encoder KJ |
| Text Encoder | ![]() LTXV Audio Text Encoder Loader | ![]() Dual CLIP Loader |
| ① |
| Prompt: The woman gently tilts the can and takes a refreshing sip, her eyes closing slightly with pleasure. A light breeze makes her hair and t-shirt flutter The camera slowly pans and tilts upward as the sunlight flares more intensely behind her, creating a dreamy golden shimmer. Light lens flares, soft wind movement in the wheat field, subtle camera shake for realism. Warm and radiant motion, smooth transitions, soft glowing ambiance, cinematic light bloom, 16:9 aspect ratio. |
| 女性は缶をそっと傾け、爽やかな一口を飲み、満足げに目を少し閉じます。そよ風が彼女の髪とTシャツをひらひらと揺らめかせます。カメラはゆっくりとパンし、上向きに傾けます。彼女の背後で太陽の光がより強く輝き、夢のような黄金色のきらめきを生み出します。軽いレンズフレア、麦畑の柔らかな風の動き、リアリティを追求するための微妙なカメラの揺れ。暖かく輝く動き、滑らかなトランジション、柔らかな光の雰囲気、映画のような光のブルーム、16:9のアスペクト比。 |
| ② |
| Prompt: The camera tracks the sleek black sports car as it races down a wet, neon-lit city street at night. Reflections of magenta, cyan, and red lights shimmer on the car’s glossy surface and the wet asphalt. The car accelerates slightly as the lights streak past in the background, with a subtle motion blur and tire spray. Its headlights flare and cast sharp beams forward, illuminating the wet road ahead. The camera rotates around the front-left side of the car, highlighting its curves and aggressive stance. Soft raindrops hit the windshield in slow motion. Soundless, but with cinematic tension. High contrast lighting, futuristic tone, slow motion elements, hyper-realistic motion, 16:9 aspect ratio |
| カメラは、夜の濡れたネオンライトに照らされた街路を疾走する、流線型の黒いスポーツカーを捉える。マゼンタ、シアン、赤の光が車の光沢のある表面と濡れたアスファルトにきらめく。背景を光が駆け抜ける中、車はわずかに加速し、かすかなモーションブラーとタイヤの飛沫が加わる。ヘッドライトが閃光を放ち、前方の濡れた路面を鋭く照らす。カメラは車の左前部を回り込み、その曲線美とアグレッシブな姿勢を強調する。柔らかな雨粒がスローモーションでフロントガラスに当たる。音はないが、映画的な緊張感がある。高コントラスト照明、未来的なトーン、スローモーション要素、超リアルな動き、16:9のアスペクト比 |
| ③ |
| Prompt: The woman runs steadily forward, her steps rhythmic and powerful. Her ponytail bounces with each stride as warm morning light ripples across her body and the bridge. Subtle camera shake adds realism as the scene follows her from a side angle. A light breeze moves her clothing naturally. The sun rises behind her, casting golden flares through the bridge cables. Drops of sweat glisten and roll down her skin in slow motion. The video closes with her stopping to catch her breath, turning toward the camera with a confident smile. Realistic motion, slow-to-normal pacing blend, dynamic light transitions, motivational mood, cinematic tone, 16:9 format |
| 女性は力強くリズミカルに、着実に前進する。温かい朝の光が彼女の体と橋に波紋のように広がる中、彼女のポニーテールは一歩ごとに揺れる。横からのアングルで彼女を追うシーンでは、わずかなカメラの揺れがリアリティを増している。そよ風が彼女の衣服を自然に揺らす。太陽が彼女の背後から昇り、橋のケーブルを通して黄金色の光の筋を投げかける。汗の滴が光り輝き、ゆっくりと彼女の肌を伝って流れ落ちる。ビデオは、彼女が息を整えるために立ち止まり、自信に満ちた笑顔でカメラの方を向くところで終わる。リアルな動き、スローからノーマルへのテンポのブレンド、ダイナミックな光の遷移、モチベーションを高める雰囲気、映画のようなトーン、16:9フォーマット |
| ④ |
| Prompt: The woman slowly lifts and puts on her sunglasses as the golden sun sets behind her. Her hair moves gently in the wind, and the reflection in the lenses captures the glowing city skyline. As the glasses settle on her face, the light subtly shifts, casting a cinematic flare across the lens. The camera slowly pushes in toward her face, enhancing the cool, composed mood. Lens flares, soft camera movement, golden hour light, confident tone, 16:9 aspect ratio |
| 女性は、背後に黄金色の夕日が沈む中、ゆっくりとサングラスを上げてかける。風に髪が優しく揺れ、レンズに映る光り輝く街のスカイラインが捉えられる。サングラスが顔に落ち着くと、光が微妙に変化し、レンズに映画のようなフレアが映る。カメラはゆっくりと彼女の顔に近づき、クールで落ち着いた雰囲気を際立たせる。レンズフレア、ソフトなカメラワーク、ゴールデンアワーの光、自信に満ちたトーン、16:9のアスペクト比 |
| ⑤ |
| Prompt: A young woman sits in a cozy modern café, facing the camera at eye level. She smiles gently and speaks directly to the viewer in a calm, friendly tone. Her lips sync naturally as she says: “It’s kind of amazing… with the release of LTX-2, I can finally talk to you like this. It feels more real, more alive. If you want to see what I create next, follow me and stay with me.” Her facial expressions are subtle and natural, with soft eye contact, slight head movements, and small hand gestures near a coffee cup on the table. The motion is smooth and coherent, with stable facial structure and consistent identity throughout the clip. The café background remains steady and realistic, with minimal camera movement, no exaggerated motion, and no stylization. Natural daylight illuminates her face evenly, maintaining photorealistic skin texture, realistic lip movement, and believable human timing. The overall mood is warm, intimate, and conversational, as if she is casually talking to the viewer in real life. |
| 若い女性が居心地の良いモダンなカフェに座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女は「LTX-2が発売されて、ようやくこうしてあなたと話せるようになったなんて、本当に素晴らしいわ。もっとリアルで、もっと生き生きしている感じ。私が次に何を作るか見たいなら、私をフォローして、一緒にいてください」と言いながら、唇の動きは自然に同期しています。彼女の表情は繊細で自然で、視線は柔らかく、頭はわずかに動き、テーブルの上のコーヒーカップの近くでは小さな手の動きが見られます。動きは滑らかで一貫性があり、顔の構造は安定しており、クリップ全体を通して一貫したアイデンティティが保たれています。カフェの背景は安定していてリアルで、カメラの動きは最小限で、誇張された動きや様式化はありません。自然光が彼女の顔を均一に照らし、フォトリアルな肌の質感、リアルな唇の動き、そして信憑性のある人間のタイミングを維持しています。全体的な雰囲気は温かく、親密で、会話的で、まるで彼女が現実世界で視聴者と気軽に話しているかのようです。 |
| ① 生成時間 282.54s(初回), 182.98s RTX-4070TI | |
|
Prompt: Classic Pixar Toy Story–style 3D animation — smooth high-polygon characters, soft warm lighting, simple colorful textures, expressive facial animation, subtle plastic sheen, gentle cloth physics. Andy’s bedroom desk in late afternoon sunlight, neutral background, uncluttered frame, cozy nostalgic atmosphere. Woody: A slim cowboy toy with a stitched fabric body and plastic face, warm brown eyes, and a slightly worn but well-kept look. He wears a brown cowboy hat, yellow plaid shirt, red bandana, cowhide vest, blue jeans, and a gold sheriff badge. His expressions are dry and sarcastic, with raised eyebrows, side-glances, and relaxed slouched posture that sells his understated humor. Buzz Lightyear: A sturdy, heroic-proportioned space ranger toy with a glossy white plastic suit accented in bright green and purple. His helmet is open, revealing a confident face with strong jawline and clear, focused eyes. He stands upright with calm, controlled movements, projecting optimism and quiet confidence even when delivering simple or ironic lines. Timestamps & action sequence: 0:00–0:04 — Medium two-shot at desk height. Woody leans slightly forward with arms crossed, unimpressed expression. Buzz stands upright but neutral. Woody glances at the camera and says dryly: “So… I keep hearin’ folks say this LTX-2 thing is terrible.” 0:04–0:07 — Buzz turns his head toward Woody, then back to camera, visor catching the light. He gestures calmly with one hand: “And yet… here we are. Fully animated.” 0:07–0:10 — Camera slowly dollies in. Woody shrugs, palms up: “Made this whole thing in five minutes.” Buzz gives a confident half-smile and a small nod. Hold on their faces for the final beat. Audio: Woody’s relaxed, sarcastic drawl (Tom Hanks vibe). Buzz’s steady, confident heroic voice (Tim Allen vibe). Soft room tone, faint distant kid noise from hallway. No music — clean and conversational. | プロンプト: ピクサー映画『トイ・ストーリー』を彷彿とさせるクラシックな3Dアニメーション。滑らかな高ポリゴンキャラクター、柔らかな温かみのある照明、シンプルでカラフルなテクスチャ、表情豊かな顔のアニメーション、控えめなプラスチックの光沢、繊細な布の物理演算。アンディの寝室の机に、午後の日差しが差し込む中、ニュートラルな背景、すっきりとしたフレーム、居心地の良いノスタルジックな雰囲気。 ウッディ: 細身のカウボーイのおもちゃ。縫い合わせた布製のボディとプラスチック製の顔、温かみのある茶色の瞳、少し使い込まれた感じながらも手入れの行き届いた外見。茶色のカウボーイハット、黄色のチェックシャツ、赤いバンダナ、牛革のベスト、ブルージーンズ、そして金色の保安官バッジを身に着けている。表情は皮肉っぽく、眉を上げ、横目でちらりと見る仕草、そしてリラックスした猫背の姿勢が、彼の控えめなユーモアを際立たせている。 バズ・ライトイヤー: 頑丈で、ヒーローらしい体格のスペースレンジャーのおもちゃ。光沢のある白いプラスチック製のスーツに、鮮やかな緑と紫のアクセントが効いている。ヘルメットの蓋が開いており、力強い顎のラインと澄んだ鋭い眼差しを持つ、自信に満ちた顔が露わになっている。落ち着いた、抑制された動きで直立し、シンプルなセリフや皮肉めいたセリフを口にする時でさえ、楽観主義と静かな自信を漂わせている。 タイムスタンプとアクションシーン: 0:00~0:04 — デスクの高さからのミディアムツーショット。ウッディは腕を組み、やや前かがみになり、無表情。バズは直立しているが、表情はニュートラル。ウッディはカメラに視線を向け、そっけなく言う。 「それで…みんながこのLTX-2ってやつはひどいって言うんだな。」 0:04~0:07 — バズはウッディの方に顔を向け、それからカメラに視線を戻す。バイザーに光が反射する。片手で落ち着いた仕草をする。 「なのに…こうして、完全にアニメーション化されてるじゃないか。」 0:07–0:10 — カメラがゆっくりとドリーインする。ウッディは肩をすくめ、手のひらを上に向けて言う。 「これ全部5分で作ったんだ。」 バズは自信に満ちた半笑いを浮かべ、小さく頷く。最後の瞬間まで、二人の表情を捉える。 音声: ウッディのリラックスした、皮肉っぽい話し方(トム・ハンクス風)。バズの落ち着いた、自信に満ちた、英雄的な声(ティム・アレン風)。柔らかな部屋の音、廊下からかすかに聞こえる子供たちの声。BGMなし ― すっきりとした会話調。 |
| ② 生成時間 131.75s RTX-4070TI | |
| SpongeBob SquarePants stands inside the Krusty Krab, facing the camera. He has his classic square yellow sponge body, large blue eyes, buck teeth, white shirt, red tie, brown square pants, tall white socks, and black shoes. The camera is fixed and does not move. SpongeBob gently bounces up and down while smiling and speaking directly to the viewer, saying: “Hi there! Welcome to the Krusty Krab!” His body shape, facial features, and proportions remain consistent throughout the clip with no distortion. The animation uses bright colors, flat cel-shaded textures, and clean outlines, matching the classic 2D cartoon style of the show. The background remains static and colorful, with no camera movement, no depth blur, and no scene changes. The motion is playful, smooth, and exaggerated but controlled, like a short TV cartoon loop. | スポンジ・ボブは、クラゲバーガーの中に立ってカメラの方を向いています。おなじみの四角い黄色のスポンジの体、大きな青い目、出っ歯、白いシャツ、赤いネクタイ、茶色の四角いズボン、白いハイソックス、黒い靴を履いています。カメラは固定されていて動きません。スポンジ・ボブは笑顔で優しく上下に跳ねながら、視聴者に向かって「やあ!クラゲバーガーへようこそ!」と話しかけています。彼の体型、顔の特徴、プロポーションは、クリップ全体を通して歪みなく一貫しています。アニメーションは、明るい色、フラットなセルシェードのテクスチャ、すっきりとした輪郭を使用しており、番組の古典的な2Dカートゥーンスタイルにマッチしています。背景は静止していてカラフルで、カメラの動き、奥行きのぼかし、シーンの切り替えはありません。動きは遊び心があり、滑らかで誇張されていますが、短いテレビアニメのループのように制御されています。 |
| ③ 生成時間 186.02s RTX-4070TI | |
| Finn stands in the Candy Kingdom courtyard, facing the camera. He has his iconic white bear hat, blue shirt, blue shorts, and green backpack. The camera is fixed and does not move. He gently sways his upper body side to side while smiling and speaking to the viewer: “Hey! Ready for an adventure?” Facial features, body proportions, and clothing remain consistent throughout the clip. The background is static, colorful, flat-shaded, and in the classic Adventure Time cartoon style. Motion is smooth, playful, and minimal, like a short cartoon talking loop. | フィンはキャンディキングダムの中庭に立ち、カメラの方を向いています。トレードマークの白いクマの帽子、青いシャツ、青いショートパンツ、緑のバックパックを身につけています。カメラは固定されており、動きません。フィンは上半身を左右に軽く揺らしながら、笑顔で視聴者に向かって「やあ!冒険の準備はできたかい?」と話しかけます。顔の特徴、体型、服装はクリップ全体を通して一貫しています。背景は静止画で、カラフルで、フラットシェーディングが施されており、古典的なアドベンチャータイムのカートゥーンスタイルです。動きは滑らかで、遊び心があり、ミニマルで、短いカートゥーンの会話ループのようです。 |
| ④ 生成時間 181.65s RTX-4070TI | |
|
A 2D animated scene in the visual style of My Little Pony: Friendship Is Magic. A pastel-colored pony character is standing in a bright, simple outdoor setting in Ponyville, flat colors, clean outlines, soft shading, rounded shapes, consistent cartoon proportions. Static camera, eye-level, medium shot. The pony gently sways in place and blinks occasionally, with very simple mouth movement while speaking. No walking, no head turns, no camera movement, no cuts. Dialog (friendly, upbeat tone): “Hi! I can finally talk now. Come follow me!” Smooth limited animation, TV-cartoon timing, stable character shape, minimal motion, consistent frame-to-frame appearance. | 『マイリトルポニー ~トモダチは魔法~』のビジュアルスタイルで描かれた2Dアニメーションシーン。 パステルカラーのポニーキャラクターが、ポニービルの明るくシンプルな屋外シーンに立っています。フラットな色彩、すっきりとした輪郭線、柔らかな陰影、丸みを帯びた形状、一貫したカートゥーン調のプロポーションが特徴です。 カメラは固定され、目線の高さでミディアムショットです。 ポニーは軽く体を揺らし、時折まばたきをします。話すときは、ごくシンプルな口の動きをします。 歩行、首の動き、カメラワーク、カットはありません。 セリフ(親しみやすく明るいトーン): 「やあ!やっと話せるようになったよ。ついてきて!」 滑らかなリミテッドアニメーション、テレビアニメのようなタイミング、安定したキャラクター形状、最小限の動き、一貫したフレームごとの外観。 |
| 生成動画 | |
| She stands on the platform, bathed in soft sunlight filtering through blooming cherry blossoms, as a train approaches. The camera slowly tracks alongside her as she begins to walk towards the train, her backpack swaying gently with each step. Petals drift down around her, carried by a gentle breeze. The train smoothly decelerates as it pulls into the station, its doors sliding open with a quiet hiss. She glances at the train, a hopeful expression on her face, then confidently steps aboard, disappearing into the interior as the doors close behind her. The train begins to move, gliding along the tracks beneath a sky full of fluffy white clouds and vibrant pink blossoms. | 彼女は、満開の桜の花びらを通して差し込む柔らかな陽光を浴びながら、プラットフォームに立っている。列車が近づいてくる。カメラは、彼女が列車に向かって歩き始めると、ゆっくりと彼女に寄り添う。彼女のリュックサックは、一歩ごとに優しく揺れる。そよ風に乗って、花びらが彼女の周りに舞い落ちる。列車は駅に到着すると、滑らかに減速し、静かにシューという音を立ててドアが開く。彼女は希望に満ちた表情で列車を一瞥し、自信に満ちた足取りで乗り込み、ドアが閉まると同時に車内へと消えていく。列車は動き出し、ふわふわとした白い雲と鮮やかなピンクの桜の花で覆われた空の下、線路を滑るように進んでいく。 |