OpenAIがAIエージェント「Operator」を公開。ブラウザ操作を代行し、日常タスクの効率化を図る新機能を提供。
この新しいツールは、AIがブラウザを操作し、ユーザーの代わりにタスクを実行することができる機能を持っています。
Operatorは、独自のブラウザを使用してWebページを閲覧し、入力、クリック、スクロールなどの操作を行います。
現在は研究プレビュー版として提供されており、ユーザーからのフィードバックを受けながら改善を進めていく予定です。
主な用途としては、Web上での入力作業や食料品の注文など、繰り返し行うタスクの処理が挙げられます。
これにより、ユーザーは日常的な作業にかかる時間を大幅に削減できると期待されています。
Operatorは、Computer-Using Agent(CUA)という新しいモデルに基づいており、GPT-4oのビジョン機能と強化学習による推論を組み合わせています。
これにより、Web上のGUIと効果的にやりとりすることが可能です。
Operatorは、タスクを実行する際にスクリーンショットで情報を確認し、マウスやキーボードを使って対話することで、ブラウザと相互作用します。
特に注目すべきは、カスタムAPIを使用せずにWeb上でアクションを起こせる点です。
もし課題に直面した場合やミスをした場合には、自己修正ができる能力を持っています。
また、ユーザーに支援が必要な場合は、コントロールを引き渡す仕組みも整えています。
ユーザーは実行したいタスクを指定することで、Operatorがその後の作業を処理します。
ログインや支払い情報が必要な場合には、ユーザーに操作を引き継ぐように促されます。
さらに、Operatorは、Instacartでの食料品の再注文など、繰り返し行う作業を記憶し、再実行できる機能を備えています。
現在、DoorDashやInstacart、OpenTableなどと協力し、現実のニーズに対応できるよう取り組んでいます。
公共部門の申請での活用も視野に入れ、ストックトン市などとも連携しているとのことです。
安全性を重視し、常にユーザーが制御できるようにトレーニングされており、機密情報を扱う際にはユーザーに引き継ぎを依頼する仕組みが設けられています。
今後、OperatorはPlusやTeam、Enterpriseユーザーにも展開される予定で、ChatGPTに統合される計画も進行中です。
参考リンクhttps://news.yahoo.co.jp/articles/7a3325fc0e1fc34a51d736a30c3a6997d37645de