新AGIテスト「ARC-AGI-2」がAIの限界を明らかに

新しいAGIテスト「ARC-AGI-2」が登場し、AIの能力を測る新たな課題が浮き彫りになりました。人間には簡単だがAIには難しいタスクを評価するこのテストは、AIの進化に重要な影響を与えるでしょう。

要約すると最近、AGI（汎用人工知能）の進歩を測定するために設計された新しいベンチマークテスト「ARC-AGI-2」が登場しました。

このテストは、AIが直面する「人間にとって簡単だがAIにとって難しいタスク」を評価することを目的としており、ARC Prize Foundationによって開発されました。

2019年に発表された初代テスト「ARC-AGI-1」の進化版であり、AIモデルが挑戦した結果、特に難易度が上がったことが確認されました。

具体的には、OpenAIのo3モデルはARC-AGI-1で75.7％のスコアを獲得しましたが、ARC-AGI-2ではわずか4％にとどまりました。

このテストでは、AIシステムが特に苦手とする記号的解釈、構成的推論、文脈依存のルール適用の3つの特性に焦点を当てています。

これらのタスクは、人間には容易に解決できる一方で、AIにとっては非常に難しいものであることが示されています。

また、ARC-AGI-2は問題解決の効率性も測定する新しい次元を追加しており、タスクを達成するためのコストも考慮されています。

たとえば、人間のテスターが17ドルでタスクを完了できるのに対し、o3-lowモデルは200ドルのコストがかかると推定されています。

このように、AIの能力を評価する際には、単にタスクを解決できるかどうかだけでなく、その効率性やコストも重要な要素となります。

さらに、2025年にはARC Prize 2025が開催され、賞金総額100万ドルが用意されており、AIの進化を促す競争が期待されています。

最近の投稿