アリババとテンセントが新たな生成AI技術を発表。特に「QwQ-32B」や「olmOCR」が注目され、高性能かつ低コストなテキスト抽出が可能に。
また、テンセントは自社の動画生成AI「HunyuanVideo」を基にした特化型オープンソースモデル「HunyuanVideo-I2V」を公開しました。
この一週間の生成AI技術の進展を解説する「生成AIウィークリー」では、アリババの「QwQ-32B」を改良した「START」や、PDFからのテキスト抽出が低コストで高品質に行えるツール「olmOCR」を取り上げています。
特に「START」は、複雑な計算や自己デバッグを通じて、従来のモデルよりも優れた結果を提供することが評価されています。
さらに、olmOCRはPDFドキュメントからのテキスト抽出を、約190ドルで100万ページ処理できる能力を持ち、GPT-4o APIに比べてコストを約56分の1に抑えています。
その他にも、GPT-4oを搭載したポケモンバトル向けAIエージェント「PokéChamp」や、マイクロソフトの新たな小規模言語モデル「Phi-4-Mini」とマルチモーダルモデル「Phi-4-Multimodal」が紹介されており、これらはそれぞれ異なる分野での性能向上を実現しています。
特にPhi-4-Multimodalは、音声認識や視覚機能においても優れた結果を示しており、マルチモーダル機能を持ちながらも基本的な言語処理能力を維持しています。
これらの最新技術は、生成AIの進化を象徴するものであり、今後の展開に期待が寄せられています。
参考リンクhttps://news.yahoo.co.jp/articles/ac125b2399c0b4048c754df8c1a358a98be299d1