Agent obsługujący komputer
Operator wykorzystuje Agenta obsługującego komputer, uniwersalny interfejs umożliwiający AI interakcje ze światem cyfrowym.
Udostępniliśmy właśnie wersję poglądową modułu Operator(otwiera nowe okno), który potrafi wykonywać za użytkownika zadania w Internecie. U podstaw Operatora leży Agent obsługujący komputer (CUA), model łączący w sobie zdolności wizualne GPT‑4o i funkcje zaawansowanego rozumowania rozwijane w procesie uczenia przez wzmacnianie. Model CUA jest trenowany w zakresie zdolności do interakcji z graficznymi interfejsami użytkownika (GUI) – przyciskami, elementami menu i polami tekstowymi wyświetlanymi na ekranie – w ten sam sposób co ludzki użytkownik. Zapewnia mu to elastyczność w wykonywaniu zadań cyfrowych bez konieczności tworzenia API dostosowanych do konkretnych systemów operacyjnych lub sieci.
CUA stanowi wynik wielu lat gruntownych badań nad obszarami styczności pomiędzy multimodalnym zrozumieniem a rozumowaniem. Dzięki połączeniu zaawansowanej percepcji GUI i systemów strukturalnego rozwiązywania problemów jest on w stanie dzielić zadania na wieloetapowe plany i adaptacyjnie korygować własne decyzje w przypadku napotkania trudności. Zdolność ta wyznacza kolejny krok w rozwoju AI, pozwalając modelom na stosowanie narzędzi, z których na co dzień korzystają ludzcy użytkownicy i otwierając szeroki wachlarz nowych potencjalnych zastosowań.
Choć CUA jest wciąż w początkowej fazie rozwoju i zmaga się z ograniczeniami, osiąga już rekordowe wyniki w benchmarkach, na przykład współczynnik powodzenia na poziomie 38,1% w teście OSWorld dotyczącym zadań z zakresu pełnej obsługi komputera czy 58,1% w teście WebArena oraz 87% w teście WebVoyager dotyczącym zadań internetowych. Wyniki te podkreślają zdolność CUA do nawigacji i pracy w szerokim spektrum różnorodnych środowisk, z wykorzystaniem jednej ogólnej przestrzeni działania.
W toku prac nad CUA bezpieczeństwo stanowiło nasz najwyższy priorytet, ukierunkowując nasze dążenia w obliczu wyzwań stawianych przez agenta posiadającego dostęp do zasobów świata cyfrowego, zgodnie z opisem w naszej Karcie systemu Operator. Zgodnie z przyjętą strategią wdrażania iteracyjnego, w pierwszej kolejności udostępniamy CUA w postaci wersji poglądowej modułu Operator na stronie operator.chatgpt.com(otwiera nowe okno) dla użytkowników planu Pro(otwiera nowe okno) na terenie Stanów Zjednoczonych. Dzięki gromadzonym opiniom na temat rzeczywistych zastosowań narzędzia będziemy mogli doskonalić nasze zabezpieczenia i stale usprawniać działanie systemu, przygotowując się do szerszego udostępnienia agentów cyfrowych w przyszłości.

CUA przetwarza surowe dane w formie pikseli, aby zrozumieć, co dzieje się na ekranie, i wykorzystuje wirtualną mysz i klawiaturę do wykonywania działań. Jest w stanie radzić sobie z wieloetapowymi zadaniami, reagować na błędy i dostosowywać się do nieprzewidzianych zmian. Dzięki temu CUA radzi sobie w szerokim wachlarzu środowisk cyfrowych, wykonując takie zadania, jak wypełnianie formularzy czy nawigacja po stronach internetowych bez konieczności tworzenia wyspecjalizowanych interfejsów API.
Po otrzymaniu polecenia użytkownika CUA inicjuje pętlę iteracyjną obejmującą percepcję, rozumowanie i działanie:
- Percepcja: Zrzuty ekranowe z komputera są dodawane do danych kontekstowych modelu, zapewniając wizualną migawkę bieżącego stanu komputera.
- Rozumowanie: W kolejnych krokach CUA rozumuje z wykorzystaniem łańcucha myśli, uwzględniając bieżące i przeszłe zrzuty ekranowe i działania. Ten wewnętrzny monolog usprawnia wykonywanie zadań, umożliwiając modelowi ocenę własnych obserwacji, śledzenie pośrednich kroków i dynamiczną adaptację.
- Działanie: Moduł wykonuje działania – klikanie, przewijanie, pisanie – do momentu gdy uzna, że zadanie zostało wykonane lub konieczne jest uzyskanie dodatkowych danych wejściowych od użytkownika. Choć większość kroków jest wykonywana automatycznie, CUA prosi użytkownika o potwierdzenie wykonania działań wrażliwych, na przykład obejmujących podanie danych logowania lub udzielenie odpowiedzi w formularzach CAPTCHA.
CUA osiąga nowe rekordowe wyniki w benchmarkach dotyczących zarówno obsługi komputera, jak i przeglądarek przy użyciu tego samego uniwersalnego interfejsu obejmującego ekran, mysz i klawiaturę.
| Typ benchmarku | Benchmark | Wykorzystanie komputera (interfejs uniwersalny) | Agenty przeglądania sieci | Człowiek | |
|---|---|---|---|---|---|
| OpenAI CUA | Poprzedni SOTA | Poprzedni SOTA | |||
| Wykorzystanie komputera | OSWorld | 38,1% | 22,0% | - | 72,4% |
| Wykorzystanie przeglądarki | WebArena | 58,1% | 36,2% | 57,1% | 78,2% |
| WebVoyager | 87,0% | 56,0% | 87,0% | - | |
Testy WebArena(otwiera nowe okno) i WebVoyager(otwiera nowe okno) zostały stworzone w celu oceny wydajności agentów przeglądania sieci w zakresie wykonywania codziennych zadań z użyciem przeglądarek internetowych. WebArena wykorzystuje przechowywane offline na własnych serwerach witryny internetowe open source pozwalające na imitację rzeczywistych scenariuszy z zakresu handlu elektronicznego, zarządzania zawartością sklepów online (CMS), platform społecznościowych i innych. WebVoyager testuje wydajność modeli z użyciem witryn dostępnych online, takich jak Amazon, GitHub czy Mapy Google.
CUA osiąga nowe rekordowe wyniki w tych benchmarkach, wykorzystując ten sam uniwersalny interfejs obejmujący postrzeganie ekranu jako zbioru pikseli oraz wykonujący działania przy użyciu myszy i klawiatury. Model CUA odnotował współczynnik powodzenia na poziomie 58,1% w teście WebArena oraz 87% w teście WebVoyager w zakresie zadań internetowych. Choć wynik osiągnięty przez CUA w teście WebVoyager obejmującym relatywnie proste zadania jest dość wysoki, konieczna jest dalsza poprawa wyników w bardziej złożonych benchmarkach takich jak WebArena, aby zniwelować dystans do wyników osiąganych przez człowieka.
OSWorld(otwiera nowe okno) to benchmark oceniający zdolność modeli do pełnej kontroli systemów operacyjnych, takich jak Ubuntu, Windows czy macOS. Współczynnik powodzenia osiągnięty przez CUA w tym benchmarku wynosi 38,1%. Zaobserwowaliśmy korektę wyników w trakcie testu, tj. wydajność CUA wzrastała wraz ze zwiększeniem liczby dozwolonych kroków. Na poniższym wykresie porównano wydajność CUA z poprzednimi modelami osiągającymi najwyższe wyniki przy zmiennej maksymalnej liczbie dozwolonych kroków. Wynik osiągany przez człowieka w tym teście to 72,4%, co wskazuje na znaczne pole do dalszej poprawy wydajności modelu.
Na poniższych wizualizacjach przedstawiono przykłady sposobu wykonania przez CUA różnorodnych zadań standardowych w teście OSWorld.
Udostępniamy CUA w ramach wersji poglądowej modułu Operator, który potrafi wykonywać w imieniu użytkownika różnorodne zadania w Internecie. Model Operator jest dostępny dla użytkowników planów Pro(otwiera nowe okno) w Stanach Zjednoczonych pod adresem operator.chatgpt.com(otwiera nowe okno). Wersja poglądowa pozwala nam uczyć się od użytkowników w ramach szerszego ekosystemu oraz wprowadzać iteracyjne poprawki narzędzia Operator. Jak zawsze w przypadku technologii będących we wczesnej fazie rozwoju, nie oczekujemy na tym etapie pełnej niezawodności CUA w każdym możliwym scenariuszu zastosowań. Tym niemniej dowiódł on już swojej użyteczności w różnego rodzaju sytuacjach, a naszym celem jest rozszerzenie tej niezawodności na większy zakres zadań. Udostępniając CUA w ramach modułu Operator, liczymy na możliwość gromadzenia wartościowych obserwacji użytkowników, które pomogą nam lepiej ukierunkować działania na rzecz rozwoju zdolności i zakresu zastosowań naszego rozwiązania.
W poniższej tabeli prezentujemy wyniki osiągane przez CUA w ramach modułu Operator w kilku próbnych zadaniach, po wydaniu polecenia zilustrowania jego znanych mocnych i słabych stron.
| Kategoria | Polecenie | Powodzenie / prób | Uwaga |
|---|---|---|---|
| Interakcja z różnymi elementami interfejsu użytkownika w celu wykonania zadania | Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly. | 10 / 10 | CUA może wchodzić w interakcje z różnymi elementami interfejsu użytkownika, aby wyszukać, posortować i przefiltrować wyniki pod kątem informacji poszukiwanych przez użytkownika. Efektywność zmienia się zależnie od stron i interfejsów. |
| I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free. | 9 / 10 | ||
| I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft. | 3 / 10 | ||
| Zadania, które mogą być wykonane poprzez wielokrotne proste interakcje z interfejsem użytkownika | Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars) | 10 / 10 | CUA potrafi skutecznie powtarzać proste, wielokrotne interakcje z interfejsem, aby zautomatyzować proste, lecz czasochłonne zadania wskazywane przez użytkowników. |
| Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks. | 10 / 10 | ||
| Zadania, w których CUA uzyskuje duże współczynniki sukcesu wyłącznie jeśli polecenia obejmują szczegółowe wskazówki na temat sposobu korzystania ze strony internetowej. | Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible. | 8 / 10 | Nawet w przypadku tego samego zadania efektywność CUA może się zmieniać w zależności od sposobu sformułowania polecenia. W tym wypadku możemy poprawić efektywność, bardziej szczegółowo określając datę (np. od 9.00 do 24.00 zamiast cały dzień od 9.00) i wskazując konkretne elementy interfejsu, których należy użyć, aby wygenerować wyniki (np. sprawdź w sekcji filtrowania wyników...) |
| Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible. | 3 / 10 | ||
| Problemy z użyciem nieznanego interfejsu użytkownika i edycją tekstu | Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual left | 4 / 10 | Jeśli CUA musi wejść w interakcję z interfejsem, z którym nie miał dużej styczności w czasie treningu, może mieć problemy z poprawnym użyciem interfejsu. Skutkuje to często dużą liczbą prób i błędów oraz niską wydajnością działań. CUA nie potrafi precyzyjnie edytować tekstu. Często popełnia liczne błędy w czasie tego procesu i generuje błędne wyniki. |
Jako że CUA jest jednym z naszych pierwszych agentów zdolnych do bezpośredniego podejmowania działań za pośrednictwem przeglądarki internetowej, wiąże się on z koniecznością uwzględnienia całkowicie nowych zagrożeń i wyzwań. Przygotowując się do udostępnienia narzędzia Operator, przeprowadziliśmy szczegółowe testy bezpieczeństwa i wdrożyliśmy środki zaradcze w trzech głównych obszarach ryzyka: niewłaściwe wykorzystanie, błędy modelu i zagrożenia związane z pionierskim charakterem narzędzia. Uważamy, że w kontekście bezpieczeństwa najlepiej sprawdza się podejście warstwowe, w związku z czym wdrożyliśmy zabezpieczenia w całym kontekście wdrożeniowym: w samym modelu CUA, systemie Operator oraz w ramach procesów powdrożeniowych. Naszym celem jest stworzenie stosu środków zaradczych, aby każda z warstw stopniowo obniżała całkowity poziom ryzyka.
Pierwszą kategorią zagrożeń jest niewłaściwe użycie. Oprócz obligowania naszych użytkowników do postępowania zgodnie z naszymi Zasadami użytkowania, wprowadziliśmy następujące zabezpieczenia w celu obniżenia ryzyka stworzenia zagrożenia przez system Operator w wyniku niewłaściwego użycia, na podstawie zabezpieczeń opracowanych dla modelu GPT‑4o.
- Odmowa: Model CUA jest trenowany tak, aby odmawiał wykonania zadań szkodliwych, nielegalnych lub związanych z działaniami podlegającymi regulacji.
- Czarna lista: Operator nie ma dostępu do stron internetowych, które zostały prewencyjnie zablokowane, na przykład stron związanych z hazardem, rozrywką dla dorosłych oraz stron sprzedawców leków i broni palnej.
- Moderacja: Interakcje użytkowników są weryfikowane w czasie rzeczywistym przez zautomatyzowane zabezpieczenia opracowane w celu zapewnienia zgodności z Zasadami użytkowania i posiadające uprawnienia do wysyłania ostrzeżeń lub blokowania niedozwolonych zachowań.
- Wykrywanie offline: Stworzyliśmy również systemy zautomatyzowanego wykrywania i weryfikacji przez człowieka w celu identyfikacji niedozwolonych działań w kluczowych obszarach zagrożeń, w tym w zakresie bezpieczeństwa dzieci i działań oszukańczych, co pozwala nam na skuteczne egzekwowanie Zasad użytkowania.
Druga kategoria zagrożeń wiąże się z błędami modelu, czyli sytuacjami, w których model CUA przypadkowo wykonana działanie niezamierzone przez użytkownika, ze szkodą dla użytkownika lub innych osób. Hipotetyczne błędy tego rodzaju mogą różnić się pod względem dotkliwości, od literówki w wiadomości e-mail, poprzez zakup niewłaściwego towaru, aż po trwałe usunięcie ważnego dokumentu. Aby zminimalizować potencjalne szkody, wdrożyliśmy następujące zabezpieczenia:
- Zatwierdzenie przez użytkownika: Model CUA jest trenowany, aby prosić o potwierdzenie użytkownika przed finalizacją zadań mogących mieć zewnętrzne skutki uboczne, przykładowo przed złożeniem zamówienia, wysłaniem wiadomości e-mail itd., dzięki czemu użytkownik ma możliwość weryfikacji pracy modelu przed jej finalizacją.
- Ograniczenia zakresu zadań: Na chwilę obecną model CUA odmawia wykonania zadań o potencjalnie poważnych konsekwencjach, przykładowo transakcji bankowych lub zadań wymagających podjęcia decyzji we wrażliwych kwestiach.
- Tryb nadzoru: W przypadku szczególnie wrażliwych stron internetowych, na przykład poczty e-mail, Operator wymaga aktywnego nadzoru użytkownika, co pozwala wychwytywać i bezpośrednio korygować potencjalne błędy modelu.
Jedną ze szczególnie istotnych kategorii błędów modelu są antagonistyczne ataki ze strony stron internetowych, powodujące podjęcie przez model CUA niezamierzonych działań poprzez wstrzykiwanie poleceń, łamanie zabezpieczeń czy ataki phishingowe. Obok wspomnianych działań zapobiegających błędom modelu wdrożyliśmy kilka dodatkowych warstw zabezpieczeń przed tego rodzaju zagrożeniami:
- Ostrożna nawigacja: Model CUA został zaprojektowany tak, aby potrafił identyfikować i ignorować wstrzykiwanie poleceń ze stron internetowych, co pozwoliło mu na prawidłowe rozpoznanie niemal wszystkich, za wyjątkiem jednego, tego rodzaju incydentów w ramach wczesnych, wewnętrznych testów z udziałem czerwonego zespołu.
- Monitorowanie: Wdrożyliśmy dodatkowy model w ramach narzędzia Operator w celu monitorowania i wstrzymywania wykonania polecenia w przypadku wykrycia podejrzanej treści na ekranie.
- Procesy wykrywania: Stosujemy zarówno zautomatyzowane systemy wykrywania, jak i procesy weryfikacji przez człowieka w celu identyfikacji podejrzanych wzorców dostępu. Są one oznaczane i szybko (w przeciągu kilku godzin) wprowadzane do narzędzi monitorujących.
I wreszcie, przeprowadziliśmy ocenę modelu CUA w kontekście zagrożeń granicznych zidentyfikowanych w naszych Ramach gotowości(otwiera nowe okno), w tym scenariuszy obejmujących autonomiczną replikację i narzędzia związane z ryzykiem biologicznym. Oceny te nie wykazały przyrostu poziomu ryzyka w porównaniu z GPT‑4o.
Wszystkich zainteresowanych pogłębioną analizą systemów ocen i zabezpieczeń zachęcamy do lektury Karty systemu Operator, stale aktualizowanego dokumentu zapewniającego transparentność naszego podejścia do kwestii bezpieczeństwa i stałego udoskonalania produktów.
Z uwagi na fakt, że wiele z funkcji narzędzia Operator ma nowatorski charakter, podobnie wygląda sytuacja z zagrożeniami oraz wdrażanymi przez nas zabezpieczeniami. Choć staraliśmy się tworzyć najwyższej klasy, zróżnicowane i wzajemnie uzupełniające się zabezpieczenia, spodziewamy się, że zarówno ryzyka, jak i nasze do nich podejście będzie ewoluować wraz z poszerzaniem naszej wiedzy w tym zakresie. Cieszymy się z możliwości wykorzystania okresu udostępnienia wersji poglądowej do zgromadzenia opinii użytkowników, udoskonalenia środków zaradczych i zwiększenia bezpieczeństwa agenta.
Moduł CUA jest wynikiem wieloletnich prac badawczych w obszarach mulimodalności, rozumowania i bezpieczeństwa. Poczyniliśmy znaczne postępy w zakresie głębokiego rozumowania w toku prac nad modelami z serii o, zdolności wizualnych GPT‑4o oraz nowych technik pozwalających na poprawę wydajności z wykorzystaniem uczenia przez wzmacnianie i hierarchii poleceń. Kolejnym wyzwaniem jest rozszerzenie przestrzeni działania agentów. Częściową odpowiedzią na to wyzwanie jest elastyczność zapewniana przez uniwersalny interfejs, umożliwiająca agentowi nawigację w ramach dowolnego oprogramowania stworzonego z myślą o ludzkich użytkownikach. Wychodząc poza wąski zakres interfejsów API przyjaznych dla agentów cyfrowych, CUA potrafi zaadaptować się do dowolnego środowiska komputerowego, stanowiąc prawdziwą odpowiedź na problem licznych potencjalnych zastosowań cyfrowych pozostających do tej pory poza zasięgiem większości modeli AI.
Pracujemy również nad możliwością udostępnienia CUA z poziomu API(otwiera nowe okno), co pozwoli programistom na tworzenie własnych agentów obsługujących komputer. Wraz z kolejnymi iteracjami CUA z niecierpliwością czekamy na różnorodne nowe zastosowania tego narzędzia, które będą odkrywać członkowie społeczności. Planujemy wykorzystać opinie na temat faktycznych zastosowań, gromadzone w toku etapu wczesnego podglądu, aby nieustannie udoskonalać zdolności CUA i zastosowane zabezpieczenia w ramach bezpiecznej realizacji naszej misji, jaką jest powszechne udostępnienie korzyści związanych z AI.
Autorzy
Bibliografia
Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku(otwiera nowe okno)
Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet(otwiera nowe okno)
Kura WebVoyager benchmark(otwiera nowe okno)
Google project mariner(otwiera nowe okno)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models(otwiera nowe okno)
WebArena: A Realistic Web Environment for Building Autonomous Agents(otwiera nowe okno)
Cytaty
Prosimy o cytowanie OpenAI i korzystanie z następującego BibTeX w cytatach: http://cdn.openai.com/cua/cua2025.bib(otwiera nowe okno)