オープンソース動画生成AI「Pyramid Flow」は高画質を実現し、商用サービスに迫る性能を持っています。簡単にローカルでインストール可能で、短い動画生成に優れた品質を提供していますが、長尺動画には改良の余地があります。
この技術は、北京大学や快手科技などの研究チームによって開発され、ピラミッド型フローマッチングアルゴリズムを採用しています。
特に、ローカルマシンで簡単にインストールできる仮想環境「Pinokio」を使用することで、ユーザーはRTX 4090搭載の自宅マシンで手軽に動画生成を試すことができます。
Pyramid Flowは、Text to VideoとImage to Videoの2つのモードを提供し、最高解像度768pでの出力が可能です。
生成速度もCogVideoよりも優れており、24fpsのフレームレートを実現しています。
ただし、人物を含む長尺動画では崩れが見られることがあり、改良の余地があります。
商用動画生成AIと比較しても、短いクリップの生成には高い品質が期待でき、特にローカルでの生成というメリットも大きいです。
しかし、商用サービスとの壁は依然として存在し、今後の進展が期待されます。
市場に未登場のOpenAI SORAは最長1分の生成が可能とのことで、今後の技術革新に注目が集まります。
Pyramid Flowは現時点でのオープンソース動画生成AIの中ではベストな選択肢の一つとされ、商用サービスとオープンソースの境界が徐々に縮まっていることを示しています。
参考リンクhttps://news.yahoo.co.jp/articles/c1711cb75773d40ba93394224fc84edd0a9170bf