最近のITニュースでは、Googleの新しいAIモデル「Gemma 3」や、動画編集が可能な「VACE」、3DゲームをAIにプレイさせる「PORTAL」など、生成AI技術の進展が紹介されています。
このモデルは、1Bから27Bのパラメータ数を持ち、マルチモーダル対応やロングコンテキスト機能、140以上の言語に対応しており、特に数学やコーディングにおいても性能が向上しています。
また、Googleは「Gemini 2.0 Flash」を通じて、テキストから画像を直接生成する機能を開発者向けに公開。
SNSではその一貫性の高さが話題となっています。
さらに、Googleの「Deep Research」は無料ユーザー向けに新機能を提供し、検索から分析、レポート作成までのプロセスを強化しています。
ロボティクス分野にも取り組んでおり、Gemini 2.0を基にした「Gemini Robotics」も発表され、物理世界での優れた推論能力が期待されています。
AIチーム「Cohere」が発表した生成AIモデル「Command A」は、少ないリソースで高い性能を示すことが報告されています。
今週の「生成AIウィークリー」では、音声の高さや速度を調整できる「Spark-TTS」、3DゲームをAIがプレイするためのフレームワーク「PORTAL」、画像内の物体をリアルタイムで認識する「YOLOE」、動画内の人物を好きなキャラクターに変更できる「VACE」などが取り上げられました。
特に「VACE」は、テキストや画像を元に動画を生成・編集できる機能を持ち、複雑な動画編集を可能にしています。
「PORTAL」はAIが数千の3Dゲームを効率的にプレイするためのフレームワークであり、従来の手法に比べて大幅な改善を実現しました。
「YOLOE」は、従来の物体検出モデルの限界を克服し、リアルタイムで多様な物体を認識できる能力を持っています。
これらの技術は、生成AIの進化を示す重要なステップであり、今後の発展が期待されます。
参考リンクhttps://news.yahoo.co.jp/articles/199d7d809c56c06b0eb97788f3013943810e8dc6