スマホカメラを使って3D空間を理解する「SpatialLM」や、静止画像を3Dビデオに変換する「Stable Virtual Camera」など、最新の生成AI技術が紹介され、今後の応用が期待されています。
特に、スマートフォンのカメラを使用して実世界の3D空間を理解できる大規模言語モデル「SpatialLM-Llama-1B」が注目されています。
このモデルは、12.5億のパラメータを持ち、中国のManycore Researchによって開発されました。
SpatialLMは、単眼カメラで撮影したビデオやRGBD画像、LiDARなどから得られたデータを処理し、壁やドア、家具などの物体を認識することができます。
特に、ベッドの認識においては95.24%のF1スコアを達成しており、実用性が高いことが示されています。
さらに、「DeepMesh」というAIモデルも紹介されており、これは点群データから高解像度な3Dメッシュを生成する技術です。
DeepMeshは、効率的なトークン化アルゴリズムと強化学習を用いて、見た目に美しいメッシュを生成することができます。
加えて、Stability AIが開発した「Stable Virtual Camera」は、静止画像を3Dビデオに変換する技術で、最大32枚の画像から新しい視点を生成することができます。
このモデルは、NeRFのような複雑な3D表現を必要とせず、簡単に高品質な動画を生成できる点が特徴です。
また、「ReCamMaster」という技術も開発されており、これは単一の動画から新たなカメラアングルの映像を生成することができます。
これにより、手振れした映像の修正や、ズームインして詳細な映像を生成することが可能になります。
これらの技術は、生成AIの進化を示すものであり、今後の応用が期待されています。
参考リンクhttps://news.yahoo.co.jp/articles/b698e34eb155cfa60ef515c0df34cfb1f0ddaffe