新しいAGIテスト「ARC-AGI-2」が登場し、AIの能力を測る新たな課題が浮き彫りになりました。人間には簡単だがAIには難しいタスクを評価するこのテストは、AIの進化に重要な影響を与えるでしょう。
このテストは、AIが直面する「人間にとって簡単だがAIにとって難しいタスク」を評価することを目的としており、ARC Prize Foundationによって開発されました。
2019年に発表された初代テスト「ARC-AGI-1」の進化版であり、AIモデルが挑戦した結果、特に難易度が上がったことが確認されました。
具体的には、OpenAIのo3モデルはARC-AGI-1で75.7%のスコアを獲得しましたが、ARC-AGI-2ではわずか4%にとどまりました。
このテストでは、AIシステムが特に苦手とする記号的解釈、構成的推論、文脈依存のルール適用の3つの特性に焦点を当てています。
これらのタスクは、人間には容易に解決できる一方で、AIにとっては非常に難しいものであることが示されています。
また、ARC-AGI-2は問題解決の効率性も測定する新しい次元を追加しており、タスクを達成するためのコストも考慮されています。
たとえば、人間のテスターが17ドルでタスクを完了できるのに対し、o3-lowモデルは200ドルのコストがかかると推定されています。
このように、AIの能力を評価する際には、単にタスクを解決できるかどうかだけでなく、その効率性やコストも重要な要素となります。
さらに、2025年にはARC Prize 2025が開催され、賞金総額100万ドルが用意されており、AIの進化を促す競争が期待されています。
参考リンクhttps://news.yahoo.co.jp/articles/a7ed0ddfb81bda3bb4e2979f2affb4c1a9c2965f