23 stycznia 2025

Przedstawiamy agenta Operator

Badawcza wersja poglądowa agenta potrafiącego używać własnej przeglądarki do wykonywania zadań za użytkownika. Dostępna dla użytkowników w Stanach Zjednoczonych korzystających z planu Pro.

Przejdź do agenta Operator

Obraz przedstawiający prośbę użytkownika o znalezienie na portalu TripAdvisor najwyżej ocenianej jednodniowej wycieczki po Rzymie i jej rezerwację. Zawiera podsumowanie procesu wyszukiwania oraz stronę internetową TripAdvisor z wycieczką „Best Seller”: „Rome: Colosseum, Roman Forum and Palatine Hill”.

Ładowanie…

Aktualizacja z 17 lipca 2025 roku:: Agent Operator jest teraz w pełni zintegrowany z ChatGPT jako agent ChatGPT. Aby uzyskać dostęp do zaktualizowanych zdolności, po prostu wybierz „tryb agenta“ z menu rozwijanego w edytorze i wprowadź zapytanie bezpośrednio w ChatGPT. Osobna strona agenta Operator (operator.chatgpt.com) zostanie wyłączona w nadchodzących tygodniach.

Dzisiaj udostępniamy agenta Operator⁠(otwiera nowe okno) potrafiącego wykonywać za użytkownika zadania w sieci. Używa w tym celu własnej przeglądarki do przechodzenia na strony internetowe i korzystania z nich. Wpisuje na stronach tekst, klika elementy i przewija strony. Jest on obecnie dostępny jako badawcza wersja poglądowa. Oznacza to, że ma ograniczenia i będzie rozwijany na podstawie opinii użytkowników. Operator to jeden z naszych pierwszych agentów, czyli AI zdolnych do samodzielnej pracy — wystarczy dać mu zadanie, a on je wykona.

Agenta Operator można poprosić o wykonanie wielu różnych powtarzalnych zadań w przeglądarce – na przykład o wypełnienie formularzy, zamówienie artykułów spożywczych, a nawet o stworzenie memów. Zdolność korzystania przez AI z tych samych interfejsów i narzędzi, których codziennie używają ludzie, zwiększa przydatność AI. Pomaga to zaoszczędzić czas podczas codziennych zadań i tworzy nowe możliwości zaangażowania dla firm.

Aby umożliwić bezpieczne i iteracyjne wdrażanie, zaczynamy na małą skalę. Od dzisiaj Operator jest dostępny dla użytkowników korzystających z planu Pro⁠(otwiera nowe okno) w Stanach Zjednoczonych pod adresem operator.chatgpt.com⁠(otwiera nowe okno). Badawcza wersja poglądowa pozwala nam uczyć się od użytkowników i większego ekosystemu oraz na bieżąco ulepszać i doskonalić agenta. Z czasem planujemy rozszerzyć dostęp o użytkowników korzystających z planów Plus, Team i Enterprise oraz zintegrować zdolności tego agenta z ChatGPT.

Jak działa agent Operator

Operator używa nowego modelu o nazwie Computer-Using Agent (CUA). CUA łączy zdolności wizualne modelu GPT‑4o z zaawansowanym rozumowaniem opartym na uczeniu przez wzmocnienie. Został on wytrenowany pod kątem interakcji z graficznymi interfejsami użytkownika (GUI) — przyciskami, menu i polami tekstowymi widocznymi na ekranie.

Operator „widzi” (na zrzutach ekranu) i wchodzi w interakcje (jakby korzystał z myszki i klawiatury) z przeglądarką. Pozwala mu to wykonywać działania w sieci bez niestandardowych integracji z interfejsem API.

W przypadku pojawienia się trudności lub popełnienia błędów Operator może użyć zdolności rozumowania do zmiany zachowania. Jeśli nie będzie mógł samodzielnie rozwiązać problemu, po prostu odda kontrolę użytkownikowi. Dlatego korzystanie z niego jest płynne i oparte na współpracy.

Chociaż model CUA jest wciąż na wczesnym etapie rozwoju i ma ograniczenia, osiąga imponujące wyniki w dwóch istotnych testach porównawczych dla przeglądarek: WebArena i WebVoyager. Przeczytaj więcej o ocenach i badaniach dotyczących agenta Operator na naszym blogu poświęconym badaniom.

Jak korzystać

Aby rozpocząć, po prostu opisz zadanie, które chcesz wykonać. Operator zajmie się resztą. Użytkownicy mogą w dowolnym momencie przejąć kontrolę nad zdalną przeglądarką. Operator został nauczony, by prosić użytkownika o przejęcie zadań dotyczących logowania, podania danych związanych z płatnością lub rozwiązania zadania CAPTCHA.

Użytkownicy mogą personalizować swoje sekwencje czynności w Operatorze, dodając instrukcje niestandardowe dla wszystkich lub wybranych stron, np. ustawiając preferencje dotyczące linii lotniczych w serwisie Booking.com. Operator umożliwia użytkownikom zapisywanie poleceń, by mieli do nich szybki dostęp na stronie głównej. To idealne rozwiązanie w przypadku powtarzających się zadań, takich jak robienie zakupów w serwisie Instacart. Operator potrafi wykonywać wiele zadań jednocześnie — podobnie jak osoba korzystająca z wielu kart w przeglądarce. W tym celu należy utworzyć nowe konwersacje, na przykład dotyczące zamówienia spersonalizowanego kubka emaliowanego w serwisie Etsy i rezerwacji miejsca na kempingu w serwisie Hipcamp.

Ekosystem i użytkownicy

Operator⁠(otwiera nowe okno) zmienia AI z biernego narzędzia w aktywnego uczestnika cyfrowego ekosystemu. Usprawnia zadania wykonywane przez użytkowników i zapewnia korzyści z agentów firmom, którym zależy na innowacyjnej obsłudze klienta i większym współczynniku konwersji. Współpracujemy z takimi firmami, jak DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber i innymi, ponieważ zależy nam na tym, by Operator odpowiadał na rzeczywiste potrzeby bez naruszania ustalonych norm. Oprócz tej współpracy dostrzegamy duży potencjał w zakresie poprawy dostępności i wydajności niektórych procesów, zwłaszcza w sektorze publicznym. Aby dokładniej zbadać te zastosowania, współpracujemy na przykład z miastem Stockton⁠(otwiera nowe okno) nad ułatwieniem rejestracji w miejskich usługach i programach.

„Zdobywając więcej informacji na temat agenta Operator podczas okresu badawczej wersji poglądowej, lepiej poznamy sposoby, w jakie AI może ułatwić zaangażowanie obywatelskie naszym mieszkańcom”.

Jamil Niazi, dyrektor ds. IT, miasto Stockton

Agenta Operator udostępniliśmy najpierw ograniczonej grupie odbiorców, ponieważ chcemy móc szybko się uczyć i udoskonalać jego możliwości na podstawie opinii użytkowników. Chcemy w ten sposób zapewnić równowagę między innowacyjnością a zaufaniem i bezpieczeństwem. Takie podejście pomaga nam zagwarantować, że Operator jest wartościowym narzędziem dla użytkowników, twórców, firm i organizacji sektora publicznego.

„Operator OpenAI to przełomowa technologia, która sprawia, że procesy takie jak zamawianie artykułów spożywczych stają się niezwykle proste”.

Daniel Danker, dyrektor ds. produktów, Instacart

Bezpieczeństwo i prywatność

Zagwarantowanie bezpiecznego korzystania z agenta Operator ma dla nas najwyższy priorytet. Dlatego wprowadziliśmy trzy poziomy zabezpieczeń zapobiegających nadużyciom i dających użytkownikom pełną kontrolę.

Przede wszystkim agent Operator został wytrenowany pod kątem zagwarantowania, że użytkownik ma zawsze kontrolę, dlatego w newralgicznych momentach prosi go o wykonanie czynności.

Tryb przejęcia: Operator prosi użytkownika o przejęcie kontroli podczas wprowadzania w przeglądarce informacji poufnych, takich jak dane logowania lub informacje dotyczące płatności. W trybie przejęcia Operator nie gromadzi informacji wprowadzanych przez użytkownika ani nie wykonuje zrzutów ekranu z tymi informacjami.
Zatwierdzenie przez użytkownika: Przed sfinalizowaniem jakichkolwiek istotnych działań, takich jak złożenie zamówienia lub wysłanie wiadomości e-mail, Operator powinien poprosić o zatwierdzenie.
Ograniczenia dotyczące zadań: Operator został wytrenowany tak, aby odmawiał wykonania niektórych newralgicznych zadań, na przykład dotyczących transakcji bankowych lub wymagających podjęcia decyzji o dużym znaczeniu, takich jak decyzja w sprawie aplikowania na ofertę pracy.
Tryb nadzoru: W przypadku szczególnie newralgicznych stron, na przykład poczty e-mail lub serwisów finansowych, Operator wymaga ścisłego nadzorowania swoich działań, dzięki czemu użytkownicy mogą bezpośrednio wychwycić wszelkie potencjalne błędy.

Ponadto wprowadziliśmy łatwe zarządzanie prywatnością danych w agencie Operator.

Rezygnacja z trenowania: Wyłączenie opcji „Ulepsz model dla wszystkich” w ustawieniach ChatGPT oznacza, że dane w agencie Operator także nie będą używane do trenowania naszych modeli.
Przejrzyste zarządzanie danymi: W sekcji Prywatność ustawień agenta Operator użytkownicy mogą jednym kliknięciem usunąć wszystkie dane przeglądania i wylogować się ze wszystkich stron. Jednym kliknięciem można też usunąć wszystkie wcześniejsze konwersacje w agencie Operator.

Stworzyliśmy również zabezpieczenia przed wrogimi stronami, które mogą próbować wprowadzić agenta Operator w błąd przy użyciu ukrytych poleceń czy złośliwego kodu lub podjąć próbę wyłudzenia danych:

Ostrożna nawigacja: Operator został zaprojektowany pod kątem wykrywania i ignorowania ataków polegających na wstrzykiwaniu poleceń.
Monitorowanie: Specjalny „model monitorujący” wykrywa podejrzane zachowanie i może wstrzymać zadanie w przypadku potencjalnej nieprawidłowości.
Procesy wykrywania: Zautomatyzowane i ręczne procesy weryfikacji nieustannie wykrywają nowe zagrożenia i umożliwiają szybką aktualizację zabezpieczeń.

Wiemy, że osoby o złych zamiarach mogą próbować nadużywać tej technologii. Dlatego agenta Operator zaprojektowaliśmy tak, aby odmawiał wykonywania szkodliwych żądań i blokował niedozwolone treści. Nasze systemy moderacji mogą wydawać ostrzeżenia lub nawet odebrać dostęp w przypadku powtarzających się naruszeń. Zintegrowaliśmy również dodatkowe procesy weryfikacji w celu wykrywania i usuwania nadużyć. Udostępniamy również wytyczne dotyczące korzystania z agenta Operator zgodnie z naszymi zasadami użytkowania.

Chociaż Operator został stworzony wraz z powyższymi zabezpieczeniami, jest on nadal dostępny tylko w badawczej wersji poglądowej, a żaden system nie jest idealny. Nieustannie go udoskonalamy na podstawie opinii użytkowników i przeprowadzając rygorystyczne testy. Więcej informacji na ten temat zawiera sekcja dotyczącą bezpieczeństwa na blogu poświęconym badaniom agenta Operator.

Ograniczenia

Operator jest obecnie dostępny we wczesnej badawczej wersji poglądowej. Chociaż potrafi już wykonywać wiele różnych zadań, nadal się uczy, ewoluuje i może popełniać błędy. Na przykład obecnie ma trudności w obsłudze skomplikowanych interfejsów, takich jak interfejsy do tworzenia pokazów slajdów lub zarządzania kalendarzami. Opinie pierwszych użytkowników będą miały kluczowe znaczenie dla poprawy dokładności, niezawodności i bezpieczeństwa systemu. Pomogą nam one ulepszyć agenta Operator dla wszystkich.

Co dalej

Dostęp do CUA przez interfejs API: Planujemy wkrótce zapewnić dostęp do modelu agenta Operator, CUA, przez interfejs API. Programiści będą mogli go używać do tworzenia własnych agentów korzystających z komputera.

Większe zdolności: Będziemy kontynuować ulepszanie zdolności agenta Operator w zakresie obsługi dłuższych i bardziej złożonych sekwencji czynności.

Dostęp dla większej liczby użytkowników: Planujemy rozszerzyć dostęp do agenta Operator⁠(otwiera nowe okno) o użytkowników korzystających z planów Plus, Team i Enterprise i zintegrować jego zdolności bezpośrednio z ChatGPT, gdy będziemy mieli pewność, że korzystanie z niego na dużą skale jest bezpieczne i przydatne oraz umożliwi bezproblemowe i asynchroniczne wykonywanie zadań w czasie rzeczywistym.

Autorzy

OpenAI

Współautorzy badań podstawowych

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Zespół główny

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Współpracownicy z różnych działów

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Liderzy

Aaron Schlesinger (infrastruktura), Casey Chu (bezpieczeństwo i gotowość modelu), David Medina (infrastruktura badawcza), Hyeonwoo Noh (badania ogólne), Reiichiro Nakano (badania ogólne), Yash Kumar

Współpracownicy

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Kierownictwo

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba