最近の生成AI技術の進展として、OpenAIの新モデル「o3」やGoogleの「Veo 2」、アニメ制作を支援する「AniDoc」、Metaの動画理解AI「Apollo」、アリババの音声合成AI「CosyVoice 2」、そして大規模言語モデル「Qwen2.5」が発表され、様々な分野での効率化が期待されています。
また、Googleは動画生成AI「Veo 2」と推論系AIモデル「Gemini 2.0 Flash Thinking」を発表しました。
特に注目されるのは、アニメの自動彩色や中間フレーム生成を行うAIモデル「AniDoc」で、これによりアニメ制作の効率が大幅に向上することが期待されています。
AniDocは、キャラクターデザイン画像を基に異なるポーズやスケールの線画を自動的に彩色し、中割り作業も自動化できるため、アニメーション制作の負担を軽減します。
さらに、Metaは動画理解AIモデル「Apollo」を発表し、小規模モデルでの実験結果が大規模モデルにも適用できることを示しました。
これにより、効率的な研究開発が可能になり、Apolloは既存モデルよりも優れた性能を示しています。
アリババは、ストリーミング音声合成AI「CosyVoice 2」を開発し、リアルタイムでの音声生成を実現しました。
このシステムは、感情表現や方言、声の抑揚などの細かな制御が可能で、多言語にも対応しています。
また、アリババの大規模言語モデル「Qwen2.5」は、事前学習データを大幅に増加させ、性能を向上させています。
これらの技術は、生成AIの進化を示すものであり、今後の応用が期待されます。
参考リンクhttps://news.yahoo.co.jp/articles/a5067739f169dfebcad76ab5e339368f2d5f50f7