私的AI研究会 > ComfyUI9c
「ComfyUI」を使ってローカル環境でのAI画像生成を検証する
| 「LTX-2の日本語サポートはかなり不安定ですが、日本語を上級レベルで話せる人で、十分な忍耐力があれば、本物の日本語音声を生成することは可能」という記事を見つけたので進化版「LTX-2.3」の日本語プロンプト入力と日本語の発話について検証してみる |
| 指定した発話内容(想定時間 20秒) |
| 『え?何?』 『彼女できないから、作ったことを LTX-2 で生成してんの?』 『めっちゃキモいんだけど!』 『ていうかさぁ!何が16GBだよ?』 『こいつ、ちゃんとした グラボ すら買えねえ!』 『やだ。絶対無理。』 |
| Prompt |
| 黒髪黒い目の日本人の女の子がカメラを見て「え? NANI?」と言いました。ショックを受けた表情で。それから彼女は少し立ち止まって、好奇心旺盛な口調で「カノジョデキナイからツクッタことをエルティエックスツーでせいせいしてんの?」と尋ねます。彼女は少し立ち止まり、うんざりした口調と表情で「メッチャキモイんだけど」と言った。彼女は少し間を置いてから、がっかりした表情で「てゆうかさぁ!ナニがジュウロクギガだよ」と小さな声で言いました。そして、彼女は怒りに満ち溢れ、「こいつ、ちゃんとしたグラボすらかえねぇ!!!」と叫びます。彼女は落ち着きを取り戻し、静かな声で首を横に振り、「やだ。絶対むり。」とささやきます。彼女の唇と口は彼女の言葉と同期して動き、目は生き生きと動き回っています。彼女の感情状態は、パニック、混乱、そして嫌悪感です。 |
| ① 5秒 (frame rate: 25, length: 126) 生成時間:04:32.64 (272.84s) | ② 10秒 (frame rate: 25, length: 251) 生成時間:07:40.02 (460.02s) |
| ③ 15秒 (frame rate: 25, length: 376) 生成時間:12:57.58 (777.58s) | ④ 20秒 (frame rate: 25, length: 501) 生成時間:19:22.07 (1162.07s) |
| ⑤ 25秒 (frame rate: 25, length: 626) 生成時間:36:58.18 (2218.18s) |
| 20秒 (frame rate: 24, length: 121) | |
| ⑥ 生成時間:26:48.68 (1608.68s) | 冒頭にプロンプト追加 '実写映画。' 生成時間:21:23.01 (1283.01s) |
| 日本語 | 英語 |
| ① 生成時間:06:07.69 (367.69s) | ② 生成時間:06:40.32 (380.32s) |
| 雨上がりの高架下、濡れたアスファルトに街灯が反射している。絵柄は実写映画。カメラは最初からゆっくり前進する、目線の高さのミディアムショット。男が歩きながら一瞬だけ振り返って言う。「いそごう。」背後を車が一台、左から右へ速く通り過ぎ、光が短く流れる。 | Under a freeway after the rain, streetlights reflect on wet asphalt. Live-action film look. The camera starts a slow push-in from the first frame, eye-level medium shot. A man walking glances back for a beat and says, “Let’s hurry.” A single car speeds through the background left to right, leaving a brief streak of light. |
| ③ 生成時間:06:20.41 (340.41s) | ④ 生成時間:05:26.09 (326.09s) |
| 朝のキッチン、窓から柔らかい自然光。絵柄は実写。カメラ固定、テーブル越しのバストショット。彼女がマグを持ったままこちらを見て、短く言う。「さとう いる?」湯気が上がり、食器の小さな音がする。 | Morning kitchen with soft window daylight. Live-action look. Static camera, chest-up shot across the table. She holds a mug, looks toward the camera, and says, “Sugar?” Steam rises and there’s a faint clink of dishes. |
| ⑤ 生成時間:05:25.87 (325.87s) | ⑥ 生成時間:05:23.36 (323.36s) |
| 実写映画。夕方の駅ホーム、オレンジの逆光。カメラ固定、腰上の構図。制服の少女が風で前髪を揺らし、視線だけでこちらをとらえる。「オソイ よ!」背景で電車が滑り込む音が近づく。 | A live-action film. A train station platform in the evening, bathed in orange backlight. The camera is fixed, focusing on the upper body. A girl in a school uniform has her bangs blown by the wind, and her gaze is fixed on the viewer. "You're late!" The sound of a train gliding in approaches in the background. |
| ⑦ 生成時間:05:31.22 (331.22s) | ⑧ 生成時間:05:20.65 (320.65s) |
| 実写映画。窓際の小さなカフェ、やわらかい間接光。カメラは最初からごく小さく右回りに回り込みつつ、わずかにズームアウトするミディアムショット。彼女がカップに指を添え、少し笑って言う。「ホンキで いってるの?」視線が逃げず、間が生まれる。 | A live-action film. A small cafe by the window, bathed in soft, indirect light. A woman sits by the window. The camera pans very slightly clockwise, zooming out slightly in a medium shot. She places her finger on the cup and smiles slightly, saying, "Are you serious?" Her gaze doesn't escape, creating a pause. |
| ① 生成時間:06:55.12 (415.12s) |
| 音楽がゆっくり流れる中、女性は缶をそっと傾け、爽やかな一口を飲み、満足げに目を少し閉じます。そよ風が彼女の髪とTシャツをひらひらと揺らめかせます。カメラはゆっくりとパンし、上向きに傾けます。彼女の背後で太陽の光がより強く輝き、夢のような黄金色のきらめきを生み出します。軽いレンズフレア、麦畑の柔らかな風の動き、リアリティを追求するための微妙なカメラの揺れ。暖かく輝く動き、滑らかなトランジション、柔らかな光の雰囲気、映画のような光のブルーム。 |
| ② 生成時間:05:39.22 (339.22s) |
| カメラは、夜の濡れたネオンライトに照らされた街路を疾走する、流線型の黒いスポーツカーを捉える。マゼンタ、シアン、赤の光が車の光沢のある表面と濡れたアスファルトにきらめく。背景を光が駆け抜ける中、車はわずかに加速し、かすかなモーションブラーとタイヤの飛沫が加わる。ヘッドライトが閃光を放ち、前方の濡れた路面を鋭く照らす。カメラは車の左前部を回り込み、その曲線美とアグレッシブな姿勢を強調する。柔らかな雨粒がスローモーションでフロントガラスに当たる。高コントラスト照明、未来的なトーン、スローモーション要素、超リアルな動き、16:9のアスペクト比。 |
| ③ 生成時間:06:28.76 (388.76s) |
| 女性は力強くリズミカルに、着実に前進する。温かい朝の光が彼女の体と橋に波紋のように広がる中、彼女のポニーテールは一歩ごとに揺れる。横からのアングルで彼女を追うシーンでは、わずかなカメラの揺れがリアリティを増している。そよ風が彼女の衣服を自然に揺らす。太陽が彼女の背後から昇り、橋のケーブルを通して黄金色の光の筋を投げかける。汗の滴が光り輝き、ゆっくりと彼女の肌を伝って流れ落ちる。ビデオは、彼女が息を整えるために立ち止まり、自信に満ちた笑顔でカメラの方を向くところで終わる。リアルな動き、スローからノーマルへのテンポのブレンド、ダイナミックな光の遷移、モチベーションを高める雰囲気、映画のようなトーン、16:9フォーマット。 |
| ④ 生成時間:05:16.19 (316.19s) |
| 女性は、背後に黄金色の夕日が沈む中、ゆっくりとサングラスを上げてかける。風に髪が優しく揺れ、レンズに映る光り輝く街のスカイラインが捉えられる。サングラスが顔に落ち着くと、光が微妙に変化し、レンズに映画のようなフレアが映る。カメラはゆっくりと彼女の顔に近づき、クールで落ち着いた雰囲気を際立たせる。レンズフレア、ソフトなカメラワーク、ゴールデンアワーの光、自信に満ちたトーン、16:9のアスペクト比 |
| ⑤ 生成時間:05:38.17 (338.17s) |
| 若い女性が居心地の良いモダンなカフェに座り、カメラと目線を合わせています。彼女は優しく微笑み、穏やかで親しみやすい口調で視聴者に直接語りかけます。彼女は「エル ティ エックス ツーがハツバイされて、ヨオヤク コウシテ あなたとハナセルようになったなんて、ホントウにスバラシイわ。」と言いながら、唇の動きは自然に同期しています。彼女の表情は繊細で自然で、視線は柔らかく、頭はわずかに動き、テーブルの上のコーヒーカップの近くでは小さな手の動きが見られます。カメラの動きは最小限で、誇張された動きはありません。自然光が彼女の顔を均一に照らしています。 |