グーグルの新推論モデル「Gemini 2.0 Flash Thinking」の全貌

グーグルが新推論モデル「Gemini 2.0 Flash Thinking」を発表。創造的文章生成や長文処理に優れ、推論過程の可視化機能を搭載。全ユーザーに開放予定。

要約すると2024年12月、グーグルは新たなマルチモーダル推論モデル「Gemini 2.0 Flash Thinking」を発表しました。

このモデルは、創造的な文章生成と長文処理に特化しており、最大で約50～60ページ分に相当する3万2000トークンの入力を処理でき、8000トークンの出力に対応しています。

サードパーティのベンチマーク評価では、OpenAIのo1モデルを上回る性能を示し、高いスコアを獲得しました。

Gemini 2.0の特徴の一つは、推論過程の「可視化」です。

従来のAIモデルでは出力結果がブラックボックス化されていましたが、この新モデルではドロップダウンメニューを使って推論プロセスを段階的に確認できる仕組みが実装されています。

処理速度も向上しており、特に「Strawberry」という単語に含まれる「R」の数を数えるといったタスクを数秒で正確に解答する能力を持っています。

また、小数の比較問題を段階的に分析し、解決する体系的なアプローチを実現しています。

Gemini 2.0は「マルチモーダル理解」「推論」「コーディング」の3つの分野に注力して開発され、開発者はGoogle AI StudioやVertex AIを通じてこれらの機能を利用可能です。

グーグルのCEO、サンダー・ピチャイ氏はこのモデルを「我々の最も思慮深いモデル」と称し、フラッグシップの一つとして展開されることが期待されています。

初めは一部のユーザーのみが利用できましたが、2025年2月以降は全ユーザーに開放される予定です。

最近の投稿