6GBのVRAMで高品質動画生成を実現するFramePack

スタンフォード大学が開発した「FramePack」は、6GBのVRAMでも高品質な動画生成を実現するAIモデルです。次フレーム予測を用い、長尺動画を手軽に制作できます。

要約するとスタンフォード大学のManeesh Agrawala教授とソフトウェア開発者のLvmin Zhang氏が、ミドルスペックのGPUでも高品質な長尺動画を生成できるAIモデル「FramePack」を公開しました。

このモデルは、次フレーム予測モデル（Next-Frame Prediction Models）を使用しており、1枚の画像とプロンプトを基に動画を生成します。

特に、入力情報の圧縮や再構成、長時間生成による品質低下（ドリフト）の防止に注力しており、これによりVRAM容量が6GBのビデオカードでも高品質な動画生成が可能になります。

FramePackはGithubで入手可能で、動作要件として最低6GBのVRAMを搭載したGeForce RTX 30以降のビデオカードが必要です。

また、WindowsまたはLinuxのOS環境も必要です。

動画生成にかかる時間は、例えばRTX 4090の場合、最適化なしで2.5秒、TeaCacheを使用した場合は1.5秒となります。

ノートPC向けのRTX 3070 Ti Laptopや3060 Laptopを使用する場合は、約4倍から8倍の時間がかかるとされています。

FramePackを使用して生成した動画は、プロジェクトページで確認でき、実際の成果物を視覚的に体験することができます。

このように、FramePackは限られたリソースでも高品質な動画制作を可能にする新しいツールとして注目されています。

最近の投稿