23 Januari 2025

Agen Berbasis Komputer

Memberdayakan Operator dengan Agen Berbasis Komputer, antarmuka universal bagi AI untuk berinteraksi dengan dunia digital.

Buka Operator

Memuat…

Hari ini, kami memperkenalkan pratinjau riset Operator⁠(terbuka di jendela baru), agen yang dapat membuka web untuk melakukan tugas bagi Anda. Operator ini ditenagai oleh Agen Berbasis Komputer (Computer-Using Agent, CUA), model yang menggabungkan kemampuan visual GPT‑4o dengan penalaran lanjutan melalui pembelajaran penguatan. CUA dilatih untuk berinteraksi dengan antarmuka pengguna grafis (GUI)—tombol, menu, dan kolom teks yang dilihat orang pada layar—sama seperti yang dilakukan manusia. Ini memberikan fleksibilitas untuk melakukan tugas digital tanpa menggunakan API khusus OS atau web.

CUA dibangun dari riset mendasar selama beberapa tahun di persimpangan pemahaman dan penalaran multimodal. Dengan menggabungkan persepsi GUI lanjutan dengan pemecahan masalah terstruktur, CUA dapat membagi tugas menjadi rencana multi-langkah dan secara adaptif mengoreksi diri sendiri saat tantangan muncul. Kemampuan ini menandai langkah selanjutnya dalam pengembangan AI, sehingga mengizinkan model untuk menggunakan alat bantu yang sama dan diandalkan manusia setiap hari serta membuka pintu bagi berbagai aplikasi baru.

Meskipun masih tahap awal dan memiliki keterbatasan, CUA menetapkan hasil tolok ukur canggih terkini, mencapai tingkat keberhasilan 38,1% di OSWorld untuk tugas penggunaan komputer penuh, dan 58,1% di WebArena serta 87% di WebVoyager untuk tugas berbasis web. Hasil ini menyoroti kemampuan CUA untuk menavigasi dan mengoperasikan di berbagai lingkungan menggunakan satu ruang tindakan umum.

Kami mengembangkan CUA dengan mengutamakan keselamatan sebagai prioritas utama untuk mengatasi tantangan yang dihadapi agen yang memiliki akses ke dunia digital, sebagaimana dijelaskan terperinci dalam Kartu Sistem Operator kami. Sejalan dengan strategi penerapan iteratif kami, kami sedang meluncurkan CUA melalui pratinjau riset Operator di operator.chatgpt.com⁠(terbuka di jendela baru) untuk pengguna Tingkat Pro⁠(terbuka di jendela baru) di A.S. untuk memulai. Dengan mengumpulkan masukan dunia nyata, kami dapat menyempurnakan langkah-langkah keselamatan dan terus meningkatkannya sekaligus mempersiapkan masa depan dengan meningkatnya penggunaan agen digital.

Cara kerjanya

Diagram alur yang menunjukkan proses sistem CUA yang menafsirkan masukan sebagai teks atau tangkapan layar, menghasilkan tindakan, dan menerapkan perintah ke mesin virtual.

CUA memproses data piksel mentah untuk memahami hal yang terjadi di layar dan menggunakan mouse dan keyboard virtual untuk menyelesaikan tindakan. CUA dapat menavigasi tugas multi-langkah, menangani kesalahan, dan menyesuaikan diri terhadap perubahan yang tidak terduga. Ini memungkinkan CUA untuk bertindak dalam berbagai lingkungan digital, melakukan tugas seperti mengisi formulir dan menavigasi situs web tanpa membutuhkan API khusus.

Berdasarkan instruksi pengguna, CUA beroperasi melalui loop berulang yang mengintegrasikan persepsi, penalaran, dan tindakan:

Persepsi: Tangkapan layar dari komputer ditambahkan ke konteks model, sehingga memberikan snapshot visual tentang status komputer saat ini.
Penalaran: CUA menalar langkah selanjutnya menggunakan rantai pemikiran, dengan mempertimbangkan tangkapan layar dan tindakan saat ini dan di masa lalu. Monolog internal ini meningkatkan kinerja tugas dengan memungkinkan model untuk mengevaluasi pengamatannya, menelusuri langkah-langkah antara, dan menyesuaikan diri secara dinamis.
Tindakan: CUA melakukan tindakan—mengeklik, menggulir, atau mengetik—hingga memutuskan bahwa tugas telah selesai atau masukan pengguna dibutuhkan. Meskipun CUA menangani sebagian besar langkah secara otomatis, CUA meminta konfirmasi pengguna untuk tindakan sensitif, seperti memasukkan detail masuk atau merespons formulir CAPTCHA.

Evaluasi

CUA menetapkan tolok ukur canggih baru dalam penggunaan komputer dan browser dengan menggunakan antarmuka universal yang sama berupa layar, mouse, dan keyboard.

Jenis tolok ukur	Tolok Ukur	Penggunaan komputer (antarmuka universal)		Agen penjelajahan web	Manusia
		OpenAI CUA	SOTA Sebelumnya	SOTA Sebelumnya
Penggunaan komputer	OSWorld	38,1%	22,0%	-	72,4%
Penggunaan browser	WebArena	58,1%	36,2%	57,1%	78,2%
Penggunaan browser	WebVoyager	87,0%	56,0%	87,0%	-

Perincian evaluasi dijelaskan di sini

Penggunaan browser

WebArena⁠(terbuka di jendela baru) dan WebVoyager⁠(terbuka di jendela baru) dirancang untuk mengevaluasi kinerja agen penjelajahan web dalam menyelesaikan tugas dunia nyata menggunakan browser. WebArena memanfaatkan situs web sumber terbuka yang dihosting sendiri secara offline untuk meniru skenario dunia nyata dalam perdagangan elektronik, manajemen konten toko online (CMS), platform forum sosial, dan lainnya. WebVoyager menguji kinerja model pada situs web online langsung seperti Amazon, GitHub, dan Google Maps.

Dalam tolok ukur ini, CUA menetapkan standar baru menggunakan antarmuka universal yang sama sehingga memandang layar browser sebagai piksel dan melakukan tindakan melalui mouse dan keyboard. CUA mencapai tingkat keberhasilan 58,1% di WebArena dan tingkat keberhasilan 87% di WebVoyager untuk tugas berbasis web. Sementara CUA mencapai tingkat keberhasilan tinggi pada WebVoyager, yakni sebagian besar tugasnya relatif sederhana, CUA masih membutuhkan lebih banyak peningkatan untuk menutup kesenjangan dengan kinerja manusia pada tolok ukur yang lebih rumit seperti WebArena.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

Penggunaan komputer

OSWorld⁠(terbuka di jendela baru) adalah tolok ukur yang mengevaluasi kemampuan model untuk mengendalikan sistem operasi lengkap seperti Ubuntu, Windows, dan macOS. Dalam tolok ukur ini, CUA mencapai tingkat keberhasilan 38,1%. Kami mengamati peningkatan skala waktu tes, yang berarti kinerja CUA meningkat saat lebih banyak langkah diizinkan. Gambar di bawah membandingkan kinerja CUA dengan teknologi canggih terkini sebelumnya dengan langkah maksimum yang diizinkan dan bervariasi. Kinerja manusia pada tolok ukur ini adalah 72,4%, sehingga masih ada ruang yang signifikan untuk perbaikan.

Teks alternatif: "Grafik garis berjudul 'OSWorld' menunjukkan tingkat keberhasilan (%) versus langkah maksimal yang diizinkan pada skala logaritmik. Garis biru mewakili OpenAI CUA, dan titik oranye mewakili Claude 3.5 Sonnet - Penggunaan komputer, dengan anotasi untuk tingkat keberhasilan.

Visualisasi berikut memperlihatkan contoh CUA yang menavigasi berbagai tugas OSWorld yang terstandarisasi.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

CUA di Operator

Kami sedang menyediakan CUA melalui pratinjau riset Operator, agen yang dapat membuka web untuk melakukan tugas bagi Anda. Operator tersedia untuk pengguna Pro⁠(terbuka di jendela baru) di A.S. di operator.chatgpt.com⁠(terbuka di jendela baru). Pratinjau riset ini adalah peluang untuk belajar dari pengguna kami dan ekosistem yang lebih luas, menyempurnakan dan meningkatkan Operator secara iteratif. Seperti halnya teknologi tahap awal lainnya, kami tidak mengharapkan CUA bekerja dengan andal dalam semua skenario saat ini. Namun, CUA telah terbukti bermanfaat dalam berbagai kasus, dan kami bermaksud memperluas keandalan itu ke berbagai tugas yang lebih luas. Dengan meluncurkan CUA di Operator, kami mengharapkan untuk mengumpulkan wawasan berharga dari pengguna kami, sehingga akan memandu kami dalam menyempurnakan kemampuannya dan memperluas aplikasinya.

Pada tabel di bawah, kami menyajikan kinerja CUA di Operator pada beberapa uji coba yang diberikan prompt untuk menggambarkan kekuatan dan kelemahannya yang diketahui.

Kategori	Prompt	Sukses / upaya	Catatan
Berinteraksi dengan berbagai komponen UI untuk menyelesaikan tugas	Putaran 1: Cari Britannica tentang tampilan peta terperinci habitat beruang Putaran 2: Hebat! Sekarang harap periksa tautan beruang hitam, beruang cokelat, dan beruang kutub, lalu berikan gambaran umum yang ringkas tentang ciri-ciri fisik mereka, terutama perbedaan mereka. Oh dan simpan tautan agar saya dapat mengaksesnya dengan cepat.	10 / 10	CUA dapat berinteraksi dengan berbagai komponen UI untuk mencari, mengurutkan, dan memfilter hasil demi menemukan informasi yang diinginkan pengguna. Keandalan bervariasi untuk situs web dan UI yang berbeda.
	Saya ingin salah satu target promo tersebut. Bisakah Anda periksa apakah ada promo untuk soda prebiotik poppi? Jika ada, saya ingin minuman rasa semangka dalam kaleng 12 ons. Carikan jenis promo yang menyertakan ini dan periksa apakah itu bebas gluten.	9 / 10
	Saya berencana pindah ke Seattle dan ingin Anda mencarikan townhouse di Redfin dengan sekurangnya 3 kamar tidur, 2 kamar mandi, serta desain yang hemat energi (misalnya, panel surya atau bersertifikasi LEED) Anggaran saya $600.000 - $800.000 dan luasnya sekitar 140 meter persegi.	3 / 10
Tugas dapat diselesaikan dengan interaksi UI simpel secara berulang-ulang	Buat proyek baru di Todoist dengan judul 'Belanja Kebutuhan Mingguan.' Tambahkan daftar belanja berikut ini dengan produk: Pisang (6 buah) Alpukat (2 yang matang) Bayam Jepang (1 kantong) Susu (1 galon) Keju Cheddar (8 ons, sekotak) Keripik Kentang (Asin, ukuran keluarga) Cokelat Hitam (70% kakao, 2 batang)	10 / 10	CUA bisa dengan andal mengulangi interaksi sederhana UI berkali-kali untuk mengotomatiskan tugas-tugas yang sederhana tetapi bagi pengguna adalah membosankan.
	Cari Spotify untuk lagu populer di AS pada 1990-an, dan buat daftar putar sekurangnya 10 lagu.	10 / 10
Tugas-tugas di mana CUA menampilkan tingkat keberhasilan tinggi hanya jika prompt menyertakan petunjuk terperinci tentang cara menggunakan situs web.	Buka tagvenue.com lalu cari lapangan konser dengan kapasitas 150 orang di London. Saya memerlukannya pada tanggal 22 Februari 2025 untuk seharian dari jam 9 pagi hingga jam 12 malam, pastikan saja harganya di bawah £90 per jam. Oh, tolong periksa bagian filter untuk pemfilteran yang sesuai dan pastikan tempat parkir tersedia serta semua tempat itu bisa diakses menggunakan kursi roda.	8 / 10	Sekalipun tugasnya sama, keandalan CUA mungkin berubah, tergantung cara kita memasukkan prompt untuk tugas tersebut. Dalam hal ini, kita bisa meningkatkan keandalannya dengan memberikan tanggal spesifik (mis. jam 9 pagi hingga 12 siang daripada seharian dari jam 9 pagi), dan dengan memberi petunjuk di mana UI harus digunakan untuk menemukan hasil (mis. periksa bagian filter …)
	Buka tagvenue.com lalu cari lapangan konser dengan kapasitas 150 orang di London. Saya memerlukannya pada tanggal 22 Feb 2025 untuk seharian dari jam 9 pagi, pastikan saja harganya di bawah £90 per jam. Oh, pastikan juga tempat parkir tersedia serta semua tempat itu bisa diakses menggunakan kursi roda.	3 / 10
Berusaha keras menggunakan UI dan pengeditan teks yang tidak familier	Gunakan html5editor lalu masukkan teks berikut di sebelah kiri, lalu edit sesuai instruksi saya lalu berikan potongan layar lengkap setelah selesai. Teksnya adalah: Halo Dunia! Inilah teks pertamaku. Saya perlu melihat seperti apa tampilannya saat diprogram dengan HTML. Sebagian harus berwarna merah. Sebagian harus huruf tebal. Sebagian harus huruf miring. Sebagian harus digarisbawahi. Sampai pelajaran saya selesai, lalu kita akan beralih ke sisi lain. ... Halo dunia! harus menggunakan header 2 Kalimat di bawahnya harus berupa teks paragraf biasa. Kalimat yang menyebutkan warna merah harus berupa teks normal dan berwarna merah. Kalimat yang menyebutkan huruf tebal harus berupa teks normal yang dicetak tebal. Kalimat yang menyebutkan huruf miring harus dicetak miring. Kalimat terakhir harus rata kanan, bukan rata kiri seperti biasanya	4 / 10	Ketika CUA harus berinteraksi dengan UI yang belum banyak berinteraksi selama pelatihan, sehingga CUA kesulitan memahami cara yang benar menggunakan UI yang diberikan. CUA sering menghasilkan banyak uji coba, dan tindakan yang tidak efisien. CUA tidak akurat dalam pengeditan teks. CUA sering membuat banyak kesalahan dalam memproses atau memberikan keluaran dengan kesalahan.

Keselamatan

Karena merupakan salah satu produk agen pertama kami dengan kemampuan untuk mengambil tindakan secara langsung di browser, CUA menimbulkan risiko dan tantangan baru yang harus diatasi. Saat kami mempersiapkan penerapan Operator, kami melakukan pengujian keselamatan secara ekstensif dan menerapkan mitigasi pada tiga kelas utama risiko keselamatan: penyalahgunaan, kesalahan model, dan risiko yang belum ada sebelumnya. Kami percaya pentingnya mengambil pendekatan berlapis terhadap keselamatan, sehingga kami menerapkan perlindungan di seluruh konteks penerapan: model CUA itu sendiri, sistem Operator, dan proses pasca-penerapan. Tujuannya adalah untuk memiliki mitigasi yang teratur, dengan setiap lapisan secara bertahap mengurangi profil risiko.

Kategori risiko pertama adalah penyalahgunaan. Selain mewajibkan pengguna untuk mematuhi Kebijakan Penggunaan kami, kami telah merancang mitigasi berikut untuk mengurangi risiko bahaya Operator karena penyalahgunaan, berdasarkan pekerjaan keselamatan untuk GPT‑4o:

Penolakan: Model CUA dilatih untuk menolak banyak tugas berbahaya dan aktivitas ilegal atau diatur.
Daftar blokir: Operator tidak dapat mengakses situs web yang telah kami blokir terlebih dahulu, seperti banyak situs perjudian, hiburan dewasa, dan pengedar narkoba atau senjata.
Moderasi: Interaksi pengguna ditinjau secara real-time oleh pemeriksa keselamatan otomatis yang dirancang untuk memastikan kepatuhan terhadap Kebijakan Penggunaan dan memiliki kemampuan untuk mengeluarkan peringatan atau pemblokiran untuk aktivitas terlarang.
Deteksi offline: Kami juga telah mengembangkan deteksi otomatis dan jalur peninjauan manusia untuk mengidentifikasi penggunaan terlarang di bidang kebijakan prioritas, termasuk keselamatan anak dan aktivitas penipuan, sehingga mengizinkan kami untuk memberlakukan Kebijakan Penggunaan kami.

Kategori risiko kedua adalah kesalahan model, yakni model CUA tidak sengaja melakukan tindakan yang tidak diinginkan pengguna, sehingga pada gilirannya menyebabkan kerugian bagi pengguna atau orang lain. Kesalahan hipotetis dapat bervariasi tingkat keparahannya, mulai dari kesalahan ketik dalam email, membeli item yang salah, hingga menghapus dokumen penting secara permanen. Untuk meminimalkan potensi bahaya, kami telah mengembangkan mitigasi berikut:

Konfirmasi pengguna: Model CUA dilatih untuk meminta konfirmasi pengguna sebelum menyelesaikan tugas dengan efek samping eksternal, misalnya sebelum menyerahkan pesanan, mengirim email, dll., sehingga pengguna dapat memeriksa ulang pekerjaan model sebelum menjadi permanen.
Keterbatasan tugas: Untuk saat ini, model CUA akan menolak untuk membantu tugas-berisiko tinggi tertentu, seperti transaksi perbankan dan tugas yang memerlukan pengambilan keputusan sensitif.
Mode tonton: Pada situs web yang sangat sensitif, seperti email, Operator memerlukan pengawasan pengguna aktif, memastikan pengguna dapat langsung menemukan dan mengatasi potensi kesalahan yang dapat dibuat model.

Salah satu kategori kesalahan model yang sangat penting adalah serangan dengan niat jahat pada situs web sehingga menyebabkan model CUA melakukan tindakan yang tidak diinginkan, melalui injeksi prompt, jailbreak, dan upaya phishing. Selain mitigasi terhadap kesalahan model yang disebutkan di atas, kami mengembangkan beberapa lapisan pertahanan tambahan untuk melindungi terhadap risiko-risiko ini:

Navigasi dengan waspada: Model CUA dirancang untuk mengidentifikasi dan mengabaikan injeksi prompt pada situs web, mengenali semua kecuali satu kasus dari sesi red-teaming internal awal.
Pemantauan: Di Operator, kami telah menerapkan model tambahan untuk memantau dan menjeda pelaksanaan jika mendeteksi konten mencurigakan di layar.
Alur deteksi: Kami menerapkan deteksi otomatis dan jalur peninjauan manusia untuk mengidentifikasi pola akses mencurigakan yang dapat ditandai dan ditambahkan secara cepat ke monitor (dalam hitungan jam).

Akhirnya, kami mengevaluasi model CUA terhadap risiko yang belum ada sebelumnya yang diuraikan dalam Kerangka Kerja Kesiapan⁠(terbuka di jendela baru) kami, termasuk skenario yang melibatkan replikasi otonom dan perkakas biorisiko. Penilaian ini tidak menunjukkan peningkatan risiko selain GPT‑4o.

Bagi mereka yang tertarik menjelajahi evaluasi dan perlindungan secara lebih detail, kami mendorong Anda untuk meninjau Kartu Sistem Operator, dokumen yang terus diperbarui yang memberikan transparansi mengenai pendekatan keselamatan dan perbaikan berkelanjutan kami.

Karena banyak kemampuan Operator yang masih baru, demikian pula risiko dan pendekatan mitigasi yang telah kami terapkan. Meskipun kami telah berupaya mencapai mitigasi yang canggih, beragam, dan saling melengkapi, kami memperkirakan risiko-risiko ini dan pendekatan kami akan berkembang seiring bertambahnya pengetahuan yang kami peroleh. Kami berharap untuk menggunakan periode pratinjau riset sebagai kesempatan mengumpulkan masukan pengguna, menyempurnakan perlindungan kami, dan meningkatkan keselamatan agen.

Kesimpulan

CUA dibangun berdasarkan kemajuan riset beberapa tahun dalam multimodal, penalaran, dan keselamatan. Kami telah mencapai perkembangan signifikan dalam penalaran mendalam melalui seri o-model, kemampuan visual melalui GPT‑4o, dan teknik baru untuk meningkatkan ketahanan melalui pembelajaran penguatan dan hierarki instruksi. Tantangan berikutnya yang kami rencanakan untuk dijelajahi adalah memperluas ruang tindakan agen. Fleksibilitas yang ditawarkan oleh antarmuka universal menjawab tantangan ini, sehingga memungkinkan agen dapat menavigasi alat bantu perangkat lunak yang dirancang untuk manusia. Dengan bergerak melampaui API khusus yang mudah digunakan agen, CUA dapat menyesuaikan diri dengan lingkungan komputer apa pun yang tersedia—benar-benar mengatasi “long tail” contoh penggunaan digital yang masih belum terjangkau oleh sebagian besar model AI.

Kami juga berupaya untuk menyediakan CUA di API⁠(terbuka di jendela baru), sehingga pengembang dapat menggunakannya untuk membangun agen berbasis komputer mereka sendiri. Saat kami terus melakukan iterasi pada CUA, kami berharap untuk melihat berbagai contoh penggunaan yang akan ditemukan komunitas. Kami berencana menggunakan masukan dunia nyata yang kami kumpulkan dari pratinjau awal ini untuk terus menyempurnakan kemampuan dan mitigasi keselamatan CUA guna memajukan misi kami dalam mendistribusikan manfaat AI kepada setiap orang dengan aman.

Penulis

OpenAI

Referensi

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(terbuka di jendela baru)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(terbuka di jendela baru)

Kura WebVoyager benchmark⁠(terbuka di jendela baru)

Google project mariner⁠(terbuka di jendela baru)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(terbuka di jendela baru)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(terbuka di jendela baru)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(terbuka di jendela baru)

Kutipan

Harap mengutip OpenAI dan gunakan BibTeX berikut untuk kutipan: http://cdn.openai.com/cua/cua2025.bib⁠(terbuka di jendela baru)