| 「FramePack」論文について AI による解説サイトを見つけたので、読みやすいフォーマットに直して転載する 引用元 → https://note.com/hirasu1231/n/n8ed704b46f51 |
| 論文「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」に対して「なんでも実況板」の架空のスレを創造的に書いて。アンカーは全角で≫と書くこと。 4人の専門家と2人の初学者をスレ登場させて、既往研究の歴史を語ってください。スレタイトルも考えて、20回以上40回以下のやり取りしてください。2人の初学者にもわかりやすくして、過去の論文を明示して、この論文の分野の歴史と、その歴史から考えた論文の新規性について、やり取りしてください。 |
| 出席者 | |
| 専門家 | AI研究者 |
| MLエンジニア | |
| 統計専門家 | |
| 最適化アルゴリズム研究者 | |
| 初学者 | 機械学習初心者 |
| 高校生 | |
| 論文「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」に対して「なんでも実況板」の架空のスレを創造的に書いて。アンカーは全角で≫と書くこと。 4人の専門家と2人の初学者をスレ登場させて、多角的に議論して。スレタイトルも考えて、20回以上40回以下のやり取りしてください。前半は2人の初学者にもわかりやすくして、参照した図などを明示して論文のアーキテクチャについて、やり取りしてください。 |
| 出席者 | |
| 専門家 | AI研究者 |
| MLエンジニア | |
| 統計専門家 | |
| 最適化アルゴリズム研究者 | |
| 初学者 | 機械学習初心者 |
| 高校生 | |
| 01 AI研究者 Zhang らが発表した「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」ってやつ、ビデオ生成のゲームチェンジャーやと思うわ。計算コスト増やさずに長尺ビデオ生成できる「FramePack」ってのがすごい。 HunyuanVideo や Wan で検証してるみたいだし、特にあの「逆順アンチドリフティングサンプリング」手法が革新的やと思う。論文読んだやつおる? |
| 02 機械学習初心者 すみません、「FramePack」って何ですか?ビデオ生成というと、AIで動画を作るってことですよね? |
| 03 MLエンジニア ≫02 そうそう、AIでビデオを生成する技術の話や。最近のビデオ生成AIは次のフレームを予測しながら動画を作っていくんやけど、長い動画を作ろうとすると2つの問題が出てくるんや。 1つは「忘れる問題」。これは生成が進むにつれて、モデルが初期フレームの内容を忘れてしまい、一貫性が失われる問題や。例えば、最初は赤い服着てたキャラが途中で青い服になったりする。 もう1つは「ドリフト問題」。これは生成を繰り返すうちに小さなエラーが蓄積して、後半になるほど画質が劣化する問題やね。 この論文の FramePack は、この2つの問題を同時に解決しようとする新しいアプローチなんや。 |
| 04 高校生 えっ、そんなことができるんですか?どうやって解決してるんですか? 単純に全フレームを覚えておけばいいんじゃないんですか? |
| 05 最適化アルゴリズム研究者 ≫04 なかなか鋭い質問やね!確かに単純に全フレームを覚えておくのが理想やけど、それが問題なんや。現在のAIモデルは「トランスフォーマー」って構造を使ってるんやけど、これはデータ量が増えると計算コストが二乗で増えていくんや。 つまり、フレーム数が2倍になると計算量は4倍、3倍なら9倍になる。長い動画になると、すぐにGPUのメモリを使い果たしてしまうんや。 この論文の FramePack は、「全てのフレームが同じ重要度じゃない」という考えに基づいてる。図1 を見てみ?入力フレームを重要度に応じて圧縮してるんや。 最新のフレーム(F0)は完全な解像度で、古いフレームほど強く圧縮する。これによって、ビデオがどんなに長くなっても、モデルが処理する情報量を一定に保てるんや。 |
![]() |
| 06 統計専門家 ≫05 補足すると、図1に示されてる圧縮の方法がかなり面白いんやで。いくつかのバリエーションがあるけど、基本的には幾何級数的な圧縮率を適用してる。 例えば、最新フレーム(F0)に対しては通常のパッチ化((1,2,2)のカーネル)、1つ前のフレーム(F1)には倍のパッチサイズ((1,4,2))、その前のフレーム(F2)にはさらに倍((1,4,4))という具合に圧縮していく。 これによって、入力フレーム数(T)が無限大に近づいても、総コンテキスト長は式(3)のように上限値に収束するんや。論文の3ページの式(3)を見ると: lim(T→∞) L = S・Lf + λ/(λ-1)・Lf = (S + λ/(λ-1))・Lf こうなり、コンテキスト長が一定値に収まるんや。 |
| 07 機械学習初心者 なるほど、重要なフレームほど高解像度で、古いフレームは圧縮するということですね。でも、もう一つの「ドリフト問題」はどうやって解決してるんですか? |
| 08 AI研究者 ≫07 ドリフト問題の解決法が特に革新的なところやね。論文の図2を見てほしいんやけど、彼らは3つのサンプリング方法を提案してる: (a) バニラ:普通の方法。フレームを順番に生成していく。 (b) アンチドリフティング:最初と最後のフレームを先に生成し、それから間を埋める。 (c) 逆順アンチドリフティング:最初のフレームから始めて、逆順にフレームを生成。 特に(c)の逆順アンチドリフティング方法が画期的で、これが一番良い結果を出している。この方法では、高品質な最初のフレーム(例えばユーザーが提供した画像)に向かって生成していくので、エラーの蓄積を防げるんや。 論文の5ページに書いてあるけど、彼らの発見によると「ドリフトは因果的なサンプリング(過去のフレームだけを見る方法)でのみ発生する」らしい。 双方向コンテキスト(未来のフレームも見る方法)を使うとドリフトが大幅に軽減されるんやって。 |
| 09 高校生 へえ!でも最初と最後のフレームを先に生成するってどうやってるんですか? 最後のフレームって何が映るかわからないんじゃないですか? |
| 10 MLエンジニア ≫09 ええ質問や!確かに、普通は最後のフレームが何になるかはわからない。ただ、AI生成の場合は違うんや。テキストプロンプトから生成する場合、そのプロンプトに基づいた終了状態を想像することはできる。 例えば「猫が走り始めて止まる」というプロンプトなら、最初のフレームは「走り始める猫」、最後のフレームは「止まった猫」というイメージが作れるわけや。 論文では、長いビデオを生成するために、図2(b)と(c)の方法で「十分に大きな時間範囲(例えば1分)」を最初に設定して、その範囲内で生成すると書いてる。 実用的には、これで多くのケースをカバーできるんやって。 また、すでに生成したフレームを「エンドポイント」として動的に移動させていく方法も示唆されてるね。 |
| 11 統計専門家 それと、論文のTable 1と2の実験結果が非常に印象的やね。特に「逆順アンチドリフティングサンプリング」(f1k1_x_g9_f1k1f2k2f16k4_ta)の方法が、他のすべてのサンプリング方法よりも優れた結果を示している。 7つの評価指標のうち5つでトップを取り、特にドリフト関連の4つの指標ではすべてトップになっている。さらに ELO スコアっていう人間による評価でも一番高いスコア(1233)を獲得している。 重要なのは、この方法が既存のビデオ生成モデル(HunyuanVideoやWan)に微調整だけで適用できるということ。つまり、既存技術の上に構築できるから、すぐに実用化される可能性も高いと思うわ。 |
![]() |
![]() |
| 12 機械学習初心者 具体的にどういう改善があったんでしょうか?論文の中で例を示していますか? |
| 13 最適化アルゴリズム研究者 ≫12 残念ながら論文内には実際の生成結果の画像例はあまり示されてないんやけど、Table 1と2の数値結果から具体的な改善点がわかるで: 「忘れる問題」の改善は、Anatomy スコア(体や顔などのパーツの一貫性)と Identity スコア(人物の同一性の一貫性)の向上に現れてる。提案手法ではこれらが70%以上の高スコアになってる。 「ドリフト問題」の改善は、ドリフトメトリクス(∆Clarity、∆Motion、∆Semantic、∆Anatomy)の大幅な低下に表れてる。例えば∆Anatomy(解剖学的一貫性のドリフト)は、バニラサンプリングの16-20%から、提案手法では9%以下になってる。 あと、トレーニングでのバッチサイズが画像拡散モデル並みに大きくなった(13BモデルでGPU 8枚使って64バッチ)っていうのも実用上大きな改善やね。 |
| 14 高校生 この技術って、他の研究と比べてどうなんですか?似たような研究はあるんですか? |
| 15 AI研究者 ≫14 Table 2を見ると、他の類似研究との比較がされてるで。例えば: 1. StreamingT2V (Henschel et al., 2024)のようなアンカーフレーム手法 2. CausVid (Yin et al., 2024)のような因果的注意手法 3. DiffusionForcing (Chen et al., 2025)のようなノイズヒストリー手法 4. HistoryGuidance (Song et al., 2025)のようなヒストリーガイダンス手法 これらと比較しても、FramePackの提案手法が多くの指標でトップになってる。 特にドリフトメトリクスでの改善が顕著やね。 これまでの研究は「忘れる問題」か「ドリフト問題」のどちらかに焦点を当てる傾向があったけど、この研究はその根本的なトレードオフに挑戦してる点が画期的やと思う。LTXVideo (HaCohen et al., 2024)やFAR (Gu et al., 2025)なども効率化を目指してたけど、アプローチが違うんや。 |
| 16 MLエンジニア あと、この論文の面白いところは、アーキテクチャの変更をかなり細かく説明してる点やね。例えば、図1では5つの異なる FramePack の構造バリエーションを示してる: (a) 典型的な幾何級数進行:圧縮率が1, 1/2, 1/4, 1/8...と進む (b) レベル重複のある進行:特定の圧縮レベルを複数回使う (c) 時間カーネルのある幾何級数進行:時間次元にも圧縮を適用 (d) 重要な開始フレームのある進行:最初のフレームに特別な扱い (e) 対称進行:始まりと終わりを同等に扱う 実装の詳細も具体的に書いてあって、独立したパッチ化パラメータ、テイルオプション、RoPE(Rotary Position Embedding)のアラインメントなど、実際に再現するための情報がかなり詳しく書かれてる。これ、オープンソースで実装されたら、いろんな人が試せるようになるね。 |
| 17 機械学習初心者 すごいですね!この研究が実用化されると、具体的にどんなことができるようになるんでしょうか? |
| 18 最適化アルゴリズム研究者 ≫17 実用面ではいくつかのインパクトが考えられるで: 1. 長尺高品質ビデオ生成:現在のAIビデオ生成は数秒〜十数秒が限界だけど、これが数分、場合によっては10分以上の一貫性のあるビデオ生成に拡張できる可能性がある。 2. 計算効率の向上:既存のハードウェアでより長いビデオが生成できるようになるから、より多くのユーザーがアクセスできるようになる。特に「バッチサイズ64」というのは、トレーニングの高速化にも繋がる。 3. 品質向上:逆順サンプリング方法は、特に画像からビデオを生成する場合に品質向上をもたらす。ユーザー提供の画像の品質を維持したままビデオに拡張できる。 4. 既存モデルとの互換性:論文によると、HunyuanVideoやWanなどの既存モデルに微調整するだけで適用できるから、すぐに実用化される可能性がある。 最も身近な応用としては、スマホで撮った1枚の写真から、その瞬間の前後を含む自然なビデオを生成する、みたいなことが可能になるかもね。 |
| 19 統計専門家 それに、計算効率の話はかなり重要やと思うわ。「Small-scale Training」セクションによると、FramePackは13BのHunyuanVideoモデルで480p解像度のビデオを、単一の 8×A100-80Gノードでバッチサイズ64で訓練できるらしい。 これは画像拡散モデルに匹敵するバッチサイズで、個人や研究室規模の訓練や実験に適してる。多くのコミュニティLoRAが画像ベースのワークアラウンドトレーニングに頼っている状況を考えると、これは大きな進歩やと思う。 また、論文は「Lower flow shift」という点も指摘してる。次フレーム予測方式は各推論でより小さな 3Dテンソルを生成するから、モデルはより低いフローシフト値で訓練できる。これがシャープでクリーンな、実際のビデオに近い結果につながるらしいで。 |
| 20 高校生 専門用語が多くてちょっと難しいですが、要するに今までより長くてキレイな動画をAIで作れるようになるってことですか? あと、これを使うには特別な機械とかが必要なんですか? |
| 21 MLエンジニア ≫20 そうや、まさにその通り!今までより長くてキレイな動画をAIで作れるようになるんや。特に重要なのは「一貫性が保たれる」という点やね。例えば 10秒の動画ならキャラクターの服の色が変わったりしないけど、1分になると途中で変わってしまうみたいな問題があった。この技術はそういった一貫性の問題を解決しようとしてるんや。 特別な機械については、論文が示すように、既存のハードウェアでより効率的に動作するように設計されてる。もちろん、AIビデオ生成にはそれなりのグラフィックカードは必要やけど、この技術のおかげで「同じハードウェアでより長いビデオが作れる」というのがポイントや。 実際にこの技術が実装されれば、例えば Runway や Pixtoria みたいな AIビデオ生成サービスで、より長いビデオが生成できるようになるかもしれんね。 |
| 22 AI研究者 FramePack の思想は他のAIドメインにも応用できる可能性があると思うわ。 例えば、長文生成や音楽生成なんかも同様の「忘れる問題」と「ドリフト問題」があるはずや。コンテキスト長を固定にする技術は、これらの分野にも応用できるかもしれん。 特に、トランスフォーマーの二次的な計算複雑性という基本的な制約は多くのAIタスクに共通してるからね。新しいアーキテクチャ(線形アテンションなど)との組み合わせもさらなる進展をもたらすやろうな。 |
| 23 機械学習初心者 この論文の著者たちは他にどんな研究をしているんですか? この分野をリードしている研究者なんでしょうか? |
| 24 最適化アルゴリズム研究者 ≫23 論文の著者は Lvmin Zhang と Maneesh Agrawala で、スタンフォード大学の研究者やね。Maneesh Agrawala はコンピュータグラフィックスとヒューマンコンピュータインタラクションの分野で著名な研究者で、多数の賞を受賞してる。 Lvmin Zhang はイメージ処理や生成AIの分野で活躍してる若手研究者で、StyleGAN や AnimeGAN など画像生成の研究でも知られてる。彼らは生成AIの効率化や品質向上に焦点を当てた研究を多数発表してるね。 この論文はスタンフォード大学からの発表で、arXiv に 2025年4月にアップロードされたばかりの最新研究や。まだこれからどんな影響を与えるか楽しみやね。 |
| 25 統計専門家 これまでのビデオ生成の効率化研究と比較すると、この研究の位置づけがよくわかるね。効率化のためのアプローチはいくつかあって: 1. 線形アテンション (Cai et al., 2023; Wang et al., 2020): アテンションの計算複雑性を下げる方法 2. スパースアテンション (Xi et al., 2025; Zhang et al., 2025): 重要なトークンペアのみでアテンションを計算する方法 3. 低ビット計算 (Li et al., 2025; Zhao et al., 2024): モデルの重みと活性化を低精度に量子化する方法 4. 隠れ状態キャッシング (Lv et al., 2024; Liu et al., 2024): 拡散タイムステップ間で中間計算を再利用する方法 FramePack はこれらとは異なり、入力フレームの圧縮と双方向サンプリングという新しいアプローチを取っている。これがビデオ生成の根本的な課題に取り組んでる点が画期的やと思う。 |
| 26 高校生 この技術は今後どんな方向に発展していくと思いますか? もっとすごいことができるようになるんですか? |
| 27 MLエンジニア ≫26 将来の発展方向としていくつか考えられるで: 1. 適応的な圧縮率:フレームの内容に基づいて動的に圧縮率を変える方法。 例えば、重要なシーンや動きの多いシーンはより低い圧縮率にするなど。 2. マルチモーダル拡張:音声や他のモダリティも含めた拡張。 ビデオと同期した音楽や音声の生成が可能になるかも。 3. エンドポイント予測の改良:より賢くエンドポイントを予測する方法。 例えば、ストーリーの流れを理解して適切なエンドポイントを自動的に選択する。 4. よりインタラクティブな生成:ユーザーがリアルタイムで指示を与えながら長いビデオを生成できるシステム。 5. ナレーションやストーリーに基づく生成:テキストストーリーから複数のシーンを含む長いビデオを生成する方法。 これらが実現すれば、例えば「小説から自動的に映画を作る」とか「短いキャラクター説明から10分のアニメーションを作る」みたいなことも可能になるかもしれんね。 |
| 28 AI研究者 ≫27 補足すると、最近のREPLUGで発表されたPINKU(Pixel INteractable Kinu)みたいなシステムと組み合わせると面白いかもね。あれはリアルタイムでユーザーの指示に基づいてビデオ生成するシステムやけど、短いビデオしか生成できない制限があるから、FramePackと組み合わせれば長いインタラクティブビデオが生成できるようになるかも。 あと、Sora や Gen3 などの大規模ビデオモデルとの組み合わせも期待できるな。これらのモデルはすでに高品質なビデオを生成できるけど、長さの制限がある。 FramePack のアプローチを適用すれば、同じモデルサイズでより長いビデオが生成できるようになるやろう。 |
| 29 機械学習初心者 この研究が今後の機械学習やAI研究に与える影響についてはどう思いますか? 大きなブレークスルーになりますか? |
| 30 最適化アルゴリズム研究者 ≫29 個人的には、この研究の影響は大きいと思うで。理由はいくつかあるわ: 1. 根本的な問題に対するアプローチ:「忘れる問題」と「ドリフト問題」はすべての自己回帰的生成に共通する問題。これに対する効果的な解決策は広い応用可能性がある。 2. 計算効率のブレークスルー:トランスフォーマーの計算量を固定化するアプローチは、他のモダリティやタスクにも応用できる。 3. 既存技術との互換性:既存モデルに簡単に適用できるのは、実用化へのハードルを下げる。 4. シンプルだが効果的:アイデア自体はシンプルだけど効果が大きい。 これは良い研究の特徴やね。 ただ、完全なブレークスルーかと言われると、まだ評価は早いかもしれん。実際にコミュニティで広く採用されるかどうかは、再現性や実装の容易さ、そして他のアプローチとの比較検証にかかってるね。 |
| 31 統計専門家 ≫30 そうやな、再現性は重要なポイントや。論文ではかなり具体的な実装詳細が書かれているけど、実際に再現できるかは別問題やからね。 特に注目したいのは、これがソフトウェア開発の観点からもブレークスルーになる可能性やな。AIシステムの「スケーラビリティの壁」にぶつかった問題を、アルゴリズムとアーキテクチャの工夫で突破しようとしている。これまでのトレンドは「もっと大きなモデル、もっと多くのデータ」やったけど、こういった効率化の研究も同様に重要やと思うわ。 |
| 32 高校生 ちょっと話は変わりますが、この研究を理解するためにはどんな知識が必要なんですか?私も将来こういうAI研究をやってみたいんですが、今から勉強しておくべきことはありますか? |
| 33 AI研究者 ≫32 ええ質問や!AI研究、特にこういった生成モデルの研究を理解するために必要な知識はいくつかあるで: 1. 数学の基礎:線形代数、確率統計、微積分は必須やね。特に線形代数はディープラーニングの根幹になる。 2. プログラミング:Pythonは最低限必要で、PyTorchやTensorFlowなどのディープラーニングフレームワークも使えるようになるといい。 3. ディープラーニングの基礎:CNNやRNN、特にトランスフォーマーアーキテクチャの理解が重要。 4. 拡散モデルの仕組み:最新の生成AIはほとんど拡散モデルベースなので、その基本原理を理解しておくといい。 高校生なら、まずは数学とプログラミングから始めるのがオススメやな。 KhanAcademy や Coursera で基礎を学んで、簡単なプロジェクトからスタートするといいと思うよ。理論ばかりじゃなく、実際に手を動かすのが大事やで! |
| 34 MLエンジニア ≫32 実践的な観点から補足すると、こういうAI研究に入るステップとしては: 1. まずはPythonプログラミングをしっかり学ぶ。NumPy, Pandas, Matplotlib などのデータサイエンスライブラリも使えるようになると良い。 2. 基本的な機械学習アルゴリズムを理解して実装してみる。例えば線形回帰や決定木など。Scikit-learnでいろいろ試してみるのがオススメ。 3. ディープラーニングの基礎を学ぶ。Andrew Ngの講座やFastAIのコースがわかりやすいと思う。 4. 簡単なCNNやRNNから始めて、徐々に複雑なモデルに挑戦していく。 5. 拡散モデルやGANなどの生成モデルを理解する。Hugging Face のコースやリポジトリが参考になる。 kaggle のコンペに参加したり、オープンソースのAIプロジェクトにコントリビュートしたりするのも良い経験になるよ。実際のデータで試してみることが一番の学びになるからね! |
| 35 機械学習初心者 みなさんの説明でかなり理解できました!この論文について一番印象に残ったポイントは何ですか?研究の中でも特に注目すべき点があれば教えてください。 |
| 36 最適化アルゴリズム研究者 ≫35 個人的に最も印象的だったのは、「逆順アンチドリフティングサンプリング」のアイデアやね。これまでのビデオ生成は「因果的」な順序、つまり過去から未来へという順序に縛られていた。でもこの研究は「未来から過去へ」という逆方向の生成を可能にして、それが実は品質向上につながるという発見が革新的やと思う。 このアイデアが秀逸なのは、画像からビデオを生成する場合、ユーザー提供の最初のフレーム(高品質)に近づけるように生成していくことで、全体の品質が向上するということ。これは単なる効率化ではなく、品質向上にもつながるアプローチやね。 また、コンテキスト長を固定する幾何級数的圧縮のアイデアも、数学的にエレガントな解決策だと思った。計算複雑性の根本的な制約に対する創造的な回避策やね。 |
| 37 統計専門家 ≫35 私が特に注目したいのは、彼らのアブレーション実験の徹底さやね。表1 を見ると、20以上の異なる構成を比較していて、非常に詳細な分析が行われている。 例えば、生成するフレーム数(g1, g4, g9)の比較や、テイルオプション(td, tc, ta)の比較、異なる圧縮構造の比較など、かなり網羅的に検証されてる。 これは科学的アプローチとして素晴らしく、どの要素がどの程度効果を持つのかを明確に示している。多くの研究ではこういった詳細な比較が省略されがちやけど、この論文ではしっかりと行われているのが印象的やった。 また、彼らが「逆順アンチドリフティングサンプリング」を発見したのも、こういった徹底的な実験があったからこそやと思う。 |
| 38 高校生 みなさん、詳しい説明をありがとうございました!とても勉強になりました。 最後に、この論文を実際に読みたい場合はどこで見れますか? あと、これに関連する分かりやすい入門記事とかありますか? |
| 39 AI研究者 ≫38 この論文はarXivで公開されてるで。「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」で検索すれば見つかるはず。arXiv ID は 2504.12626 やね。 入門記事としては、まずはビデオ生成AIの基礎から理解するのがいいと思う。主な関連するサーベイ論文としては: 1. 「Video Diffusion Models: A Survey」(Melnik et al., 2024)は、ビデオ生成のための拡散モデルの重要なコンポーネントについての包括的な概要を提供しています。この論文は、コア原理から数学的定式化、さらにはアーキテクチャ設計と時間的一貫性の維持方法まで探求しています。 ArXiv 2. ACM Computing Surveysに掲載された「A Survey on Video Diffusion Models」では、研究をビデオ生成、ビデオ編集、およびその他のビデオ理解タスクという3つの主要分野に分類しています。この分野の課題と将来の発展動向についても議論しています。 Acm 3. 「Diffusion Models: A Comprehensive Survey of Methods and Applications」(Yang et al.)は、画像合成やビデオ生成を含む多くのアプリケーションで記録的な性能を示している拡散モデルに関する広範な研究を概観しています。 Lilian Weng氏の「What are Diffusion Models?」やJay Alammar氏のブログ「The Illustrated Stable Diffusion」シリーズも拡散モデルの基礎を理解するのに役立つと思う。 あと、HuggingFaceのブログもオススメやで。 ビデオ生成モデルについて解説している主な記事としては、「A Dive into Text-to-Video Models」というブログ記事があります。これはテキストからビデオを生成する技術の過去、現在、将来について解説しており、テキストからビデオ生成の独自の課題についても議論しています。 また、最近の「State of open video generation models in Diffusers」という記事では、HuggingFace Diffusers ライブラリにおけるオープンソースのビデオ生成モデルの進展について説明しています。この記事ではOpenAIのSoraデモ以降のビデオ生成モデルの競争的な状況についても触れています。 Paperswithcode のビデオ生成セクションも、関連するモデルや論文を見つけるのに役立つと思うよ! |
| 40 MLエンジニア ≫38 実装面で学びたいなら、以下のGitHubリポジトリもチェックしてみるといいで: 1. Stable Video Diffusion - Stability AIのオープンソース実装 2. AnimateDiff - 画像からビデオを生成するモデル 3. ModelScope - Alibabaのビデオ生成モデル 4. LTXVideo - この論文でも言及されてる高効率ビデオモデル また、YouTubeのTwoMinutePapers、Yannic Kilcherチャンネルは最新AI論文をわかりやすく解説していて、こういった研究もそのうち取り上げられるかもしれん。 論文が実装されて公開されれば、HuggingFaceのSpaces や GitHub でデモが提供される可能性が高いから、そういったものを試してみるのも良い学びになるよ!これからのAI研究楽しみやな! |
| ・Variational Diffusion Models 基礎となるビデオ拡散モデル。VDM (He et al., 2022)は初期のビデオ拡散モデルを作成した |
| https://paperswithcode.com/paper/variational-diffusion-models |
| ・Latent Video Diffusion Models for High-Fidelity Long Video Generation 基礎となるビデオ拡散モデル。LVDM (He et al., 2022)は潜在拡散を使って長いビデオを生成した |
| https://paperswithcode.com/paper/latent-video-diffusion-models-for-high |
| ・Phenaki: Variable Length Video Generation From Open Domain Textual Description Phenaki (Villegas et al., 2022) はテキストプロンプトのシーケンスから 可変長のビデオを作成する。 |
| https://paperswithcode.com/paper/phenaki-variable-length-video-generation-from |
| ・Video-Infinity: Distributed Long Video Generation Video-Infinity (Tan et al., 2024) は分散 生成で計算制約を克服しようとした。 |
| https://paperswithcode.com/paper/video-infinity-distributed-long-video |
| ・StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text StreamingT2V (Henschel et al., 2024) はハードカットなしで一貫性のある 動的かつ拡張可能なビデオを作った。 |
| https://paperswithcode.com/paper/streamingt2v-consistent-dynamic-and |
| ・From Slow Bidirectional to Fast Autoregressive Video Diffusion Models CausVid (Yin et al., 2024) は 双方向モデルを高速な自己回帰モデルに変換した。 |
| https://paperswithcode.com/paper/from-slow-bidirectional-to-fast-causal-video |
| ・LTX-Video: Realtime Video Latent Diffusion 効率化とスケーリング。LTXVideo (HaCohen et al., 2024) - 潜在拡散を使った高効率ビデオ生成 |
| https://paperswithcode.com/paper/ltx-video-realtime-video-latent-diffusion |
| ・Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion 関連する効率化手法。DiffusionForcing (Chen et al., 2025) - 履歴フレームのノイズスケジューリング |
| https://paperswithcode.com/paper/diffusion-forcing-next-token-prediction-meets |
| ・Packing Input Frame Context in Next-Frame Prediction Models for Video Generation 関連する効率化手法。HistoryGuidance (Song et al., 2025) - 履歴ガイダンスアプローチ |
| https://paperswithcode.com/paper/packing-input-frame-context-in-next-frame |
| ・KhanAcademy KhanAcademy や Coursera で基礎を学んで、簡単なプロジェクトからスタートするといいと思うよ。 |
| https://www.khanacademy.org/ |
| ・Coursera KhanAcademy や Coursera で基礎を学んで、簡単なプロジェクトからスタートするといいと思うよ。 |
| https://www.coursera.org/ |
| ・Andrew Ng 先生の『Machine Learning Specialization』を受けてみた An の講座や FastAI のコースがわかりやすいと思う |
| https://note.com/hixxxxxhi/n/n286514828601 |
| ・Video Diffusion Models: A Survey 「Diffusion Models for Video Generation: A Survey」っていうHuang & Yangのサーベイ論文がわかりやすい |
| https://paperswithcode.com/paper/video-diffusion-models-a-survey |
| ・Video Diffusion Models: A Survey ビデオ生成のための拡散モデルの重要なコンポーネントについての包括的な概要を提供しています。この論文は、コア原理から数学的定式化、さらにはアーキテクチャ設計と時間的一貫性の維持方法まで探求しています。 |
| https://paperswithcode.com/paper/video-diffusion-models-a-survey |
| ・A Survey on Video Diffusion Models 研究をビデオ生成、ビデオ編集、およびその他のビデオ理解タスクという3つの主要分野に分類しています。 |
| https://dl.acm.org/doi/10.1145/3696415 |
| ・Diffusion Models: A Comprehensive Survey of Methods and Applications 画像合成やビデオ生成を含む多くのアプリケーションで記録的な性能を示している拡散モデルに関する広範な研究を概観しています。 |
| https://paperswithcode.com/paper/diffusion-models-a-comprehensive-survey-of |
| ・What are Diffusion Models? ビデオ生成のための拡散モデルについて解説しています。 |
| https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ |
| ・The Illustrated Stable Diffusion Stable Diffusionのコンポーネントやアーキテクチャについて視覚的に説明しており、テキスト理解コンポーネントから画像生成プロセスまでを網羅しています。 |
| https://jalammar.github.io/illustrated-stable-diffusion/ |
| ・A Dive into Text-to-Video Models テキストからビデオを生成する技術の過去、現在、将来について解説しており、テキストからビデオ生成の独自の課題についても議論しています。 |
| https://huggingface.co/blog/text-to-video |
| ・State of open video generation models in Diffusers オープンソースのビデオ生成モデルの進展について説明しています。この記事では OpenAI の Sora デモ以降のビデオ生成モデルの競争的な状況についても触れています。 |
| https://huggingface.co/blog/video_gen |