OpenAIが新たに発表したAIエージェント「Operator」は、ブラウザー作業を自動化し、Proプランのユーザー向けに提供されます。安全性にも配慮し、重要な決定にはユーザーの制御を求める仕組みが導入されています。
この新機能は、ブラウザーを使った作業を代行するもので、米国のProプラン(有料)ユーザー向けに研究プレビュー版として提供されます。
Operatorは独自のブラウザーを使用し、タイピング、クリック、スクロールなどの操作が可能で、日常的な作業、例えばフォーム入力や食料品の注文などを自動化します。
特に注目すべきは、Operatorが搭載している新モデル「Computer-Using Agent(CUA)」で、これはGPT-4oの視覚機能と強化学習による推論を組み合わせて、ユーザーインターフェース(UI)を操作できるようにトレーニングされています。
このため、マウスやキーボードを使ったほとんどのアクションに対応でき、専用のAPIがないウェブサービスの操作も自動化可能です。
ただし、安全性やプライバシーの保護に配慮し、ログインや支払い情報の入力、注文の決定などの場面では、一度ユーザーに制御を戻す仕組みが導入されています。
さらに、銀行取引や求人への応募など、重大な決定を要する作業については対応を拒否するようにトレーニングされています。
OpenAIは近日中にCUAのAPIを公開する予定であり、Proプラン以外の有料プランへの機能開放も検討しています。
また、ChatGPTとの機能統合についても、大規模環境での安全性と使いやすさに自信が持てるようになった段階で実現したいと考えています。
参考リンクhttps://news.yahoo.co.jp/articles/a0081e3cf3e708c879f0c6e94a7ce526276aae4d