グーグルの「Gemini 2.0 Flash」がリアルタイム解析を実現。新たなAI技術が動画や音声を同時に処理し、ユーザーとの対話を可能にします。
2024年12月に登場したこのAIは、大規模言語モデル(LLM)に基づき、従来のGemini 1.5 Proに比べて2倍の処理速度を実現しました。
この高速化により、スマートフォンのカメラを通じて撮影された映像をリアルタイムで分析し、ユーザーとの対話が可能となりました。
Gemini 2.0 Flashは、動画や音声、画像、文書などの複数形式のデータを同時に処理できるマルチモーダル機能を持ち、音声出力にも対応しています。
AI Studioでは、ライブ機能を通じてこのリアルタイム機能を体験でき、動画データの分析だけでなく、グラフ描画やPythonコードの実行も行えます。
特に注目すべきは、Gemini 2.0 Flashに搭載された空間認識能力です。
サイモン・ウィリソン氏が行った実験では、複雑な画像の中から特定のオブジェクトを正確に認識し、3次元ポジションを描画することに成功しました。
このような機能は、Adobe Premiere Proなどの動画編集作業において、初心者が短時間で高度な技術を習得できる実用的なユースケースを提供しています。
しかし、リアルタイム機能の実用化にはいくつかの課題が残っています。
特にメモリの制限やプライバシー、セキュリティの観点からの慎重な対応が求められています。
現在、OpenAIやマイクロソフト、Anthropicなども同様の技術に取り組んでおり、競争が激化している状況です。
これにより、リアルタイム・マルチモーダルAIの進化が加速し、今後の展開に期待が寄せられています。
参考リンクhttps://news.yahoo.co.jp/articles/ef1d06ee32aeff01a8813fc9375bda4ac2301b4d