Przedstawiamy agenta ChatGPT: połączenie badań z działaniem
ChatGPT teraz myśli i działa, aktywnie korzystając z umiejętności agentowych do wykonywania zadań za użytkownika przy użyciu własnego komputera.
ChatGPT może teraz wykonywać pracę za użytkownika, korzystając z własnego komputera i wykonując złożone zadania od początku do końca.
Teraz można poprosić ChatGPT na przykład o „sprawdzenie kalendarza i poinformowanie o nadchodzących spotkaniach z klientami na podstawie najnowszych wiadomości”, „zaplanowanie zakupu składników potrzebnych do przygotowania japońskiego śniadania dla czterech osób“ lub „przeanalizowanie trzech konkurentów i przygotowanie pokazu slajdów”. ChatGPT będzie inteligentnie korzystał ze stron internetowych, wybierał daty, filtrował wyniki, prosił użytkownika o bezpieczne zalogowanie się, uruchamiał kod, a nawet generował dopracowane i edytowalne pokazy slajdów i arkusze kalkulacyjne z podsumowaniem informacji, które znalazł.
Sercem nowych zdolności jest ujednolicony system agentowy. Stanowi on połączenie trzech mocnych stron wcześniejszych przełomowych narzędzi: Zdolność agenta Operator dotycząca korzystania ze stron internetowych, zdolność funkcji głębokiego badania dotycząca syntezy informacji oraz inteligencja i zdolności konwersacyjne ChatGPT.
ChatGPT wykonuje te zadania zgodnie z instrukcjami użytkownika przy użyciu własnego wirtualnego komputera, płynnie przechodząc od rozumowania do działania na potrzeby kompleksowej obsługi złożonych przepływów pracy.
Co najważniejsze, zawsze masz kontrolę. ChatGPT prosi użytkownika o zgodę przed wykonaniem działań o możliwych poważnych konsekwencjach, a użytkownik może w dowolnej chwili w łatwy sposób przerwać jego działanie, przejąć kontrolę nad przeglądarką lub zatrzymać wykonywanie zadania.
Od dzisiaj użytkownicy korzystający z planów Pro, Plus i Team mogą aktywować nowe zdolności agentowe ChatGPT w dowolnym momencie konwersacji bezpośrednio w menu rozwijanym narzędzi edytora, wybierając „tryb agenta”.
Chociaż agent ChatGPT jest już zaawansowanym narzędziem do sprawnego wykonywania złożonych zadań, dzisiejsza premiera to dopiero początek. Będziemy regularnie dodawać tworzone przez nas w sposób iteracyjny kolejne znaczące ulepszenia, aby z czasem stawał się on coraz bardziej przydatny dla większej liczby osób.
Wcześniej agent Operator i funkcja głębokiego badania miały unikalne mocne strony: Agent Operator mógł przewijać, klikać i wpisywać informacje w sieci, a funkcja głębokiego badania świetnie sprawdzała się w przypadku analizowania informacji i tworzenia podsumowań. Oba narzędzia najlepiej sprawdzały się w różnych sytuacjach: Agent Operator nie mógł dokonywać szczegółowej analizy ani tworzyć szczegółowych raportów, a funkcja głębokiego badania nie mogła przechodzić na strony internetowe w celu doprecyzowania wyników lub uzyskania dostępu do treści wymagających uwierzytelnienia użytkownika. Co więcej, zauważyliśmy, że wiele zapytań użytkowników stosowanych w przypadku agenta Operator w rzeczywistości lepiej sprawdza się w przypadku funkcji głębokiego badania, dlatego najlepsze funkcje obu tych narzędzi połączyliśmy w jednym rozwiązaniu.
Integrując uzupełniające się mocne strony i udostępniając dodatkowe narzędzia w ChatGPT, wprowadziliśmy zupełnie nowe zdolności w ramach jednego modelu. Teraz ChatGPT może aktywnie korzystać ze stron internetowych — klikać, filtrować i szybciej uzyskiwać dokładniejsze wyniki. Użytkownik może również w naturalny sposób przejść w tym samym czacie od prostej konwersacji do prośby o wykonanie działań.
Agent ChatGPT może korzystać z zestawu narzędzi: przeglądarki wizualnej, która umożliwia korzystanie ze stron internetowych przy użyciu graficznego interfejsu użytkownika, przeglądarki tekstowej na potrzeby prostszych zapytań internetowych opartych na rozumowaniu, terminala oraz bezpośredniego dostępu do interfejsów API. Agent może również korzystać z łączników ChatGPT(otwiera nowe okno) do podłączania aplikacji takich jak Gmail i Github, aby ChatGPT miał dostęp do informacji potrzebnych do odpowiedzi na polecenia użytkownika i mógł ich używać w odpowiedziach. Użytkownik może też zalogować się w dowolnej witrynie po przejęciu kontroli nad przeglądarką. Pozwala to na pogłębienie oraz poszerzenie zakresu badań i zadań wykonywanych przez agenta. Różne zdolności ChatGPT dotyczące uzyskiwania dostępu do informacji w sieci i korzystania z nich pozwalają mu wybierać optymalny sposób wykonywania zadań. Może na przykład gromadzić informacje o kalendarzu użytkownika przy użyciu interfejsu API, sprawnie rozumować na podstawie dużych ilości tekstu, używając przeglądarki tekstowej i mając jednocześnie możliwość korzystania w sposób wizualny ze stron internetowych zaprojektowanych głównie dla ludzi.
Agent wykonuje wszystkie te działania przy użyciu własnego wirtualnego komputera, który zachowuje kontekst niezbędny do ukończenia zadania nawet w przypadku korzystania z wielu narzędzi – model może zdecydować o otwarciu strony w przeglądarce tekstowej lub wizualnej, pobrać plik z Internetu, zmodyfikować go przy użyciu polecenia w terminalu, a następnie otworzyć dane wyjściowe w przeglądarce wizualnej. Model dostosowuje swoje podejście na potrzeby szybkiego, dokładnego i sprawnego wykonywania zadań.
Agent ChatGPT został zaprojektowany z myślą o iteracyjnych i opartych na współpracy przepływach pracy – zapewnia znacznie większą interaktywność i elastyczność niż wcześniejsze modele. Pracę ChatGPT można przerwać w dowolnym momencie, aby doprecyzować instrukcje, skierować jego działania w stronę pożądanych rezultatów lub całkowicie zmienić zadanie. ChatGPT wznowi pracę od miejsca, w którym została przerwana, z uwzględnieniem nowych informacji, ale bez utraty dotychczasowych postępów. ChatGPT także może proaktywnie zwracać się do użytkownika o podanie dodatkowych informacji, gdy są one potrzebne do prawidłowego wykonania zadania. Jeśli wykonywanie zadania trwa dłużej niż powinno lub utknęło w martwym punkcie, można je wstrzymać, poprosić o podsumowanie postępów lub całkowicie zatrzymać i uzyskać częściowe rezultaty. Jeśli masz aplikację ChatGPT zainstalowaną na telefonie, otrzymasz powiadomienie po ukończeniu zadania.
Ujednolicone zdolności agentowe ChatGPT znacznie zwiększają jego przydatność zarówno codziennym życiu, jak i w pracy. W pracy pozwala zautomatyzować powtarzalne zadania, takie jak konwersja zrzutów ekranu lub paneli na prezentacje z edytowalnymi elementami wektorowymi, zmiana harmonogramu spotkań, planowanie i rezerwacja wyjazdów służbowych oraz dodawanie nowych danych finansowych do arkuszy kalkulacyjnych z zachowaniem formatowania. W życiu prywatnym pozwala na przykład w łatwy sposób planować podróże i dokonywać odpowiednich rezerwacji, organizować i rezerwować miejsca na przyjęcie z kolacją oraz szukać specjalistów i umawiać spotkania.
Większe zdolności modelu mają odzwierciedlenie w jego wynikach, które są lepsze od wyników najlepszego do tej pory rozwiązania, i są związane z ocenami dotyczącymi przeglądania stron internetowych i wykonywania rzeczywistych zadań.
W Humanity’s Last Exam(otwiera nowe okno)* – ocenie testującej AI z odpowiadania na pytania z szerokiego zakresu tematów na poziomie eksperckim – model, z którego korzysta agent ChatGPT, uzyskał nowy rekordowy wynik pass@1 SOTA wynoszący 41,6. Ponieważ agent planuje dynamicznie i wybiera własne narzędzia, zadanie może wykonywać na różne sposoby po każdym kolejnym uruchomieniu zadania. Po dokonaniu skalowania tego rozwiązania przy użyciu prostej strategii równoległego wdrażania – polegającej na przeprowadzeniu do ośmiu prób jednocześnie i wybraniu tej z najwyższym poziomem pewności zgłoszonym przez agenta – wynik HLE agenta wzrósł do 44,4.
FrontierMath** to najtrudniejszy znany test porównawczy z matematyki z nowymi i niepublikowanymi zadaniami, których rozwiązanie zajmuje ekspertom z dziedziny matematyki często wiele godzin, a nawet dni. W przypadku korzystania z narzędzi, na przykład dostępu do terminala w celu wykonania kodu, agent ChatGPT osiąga dokładność na poziomie 27,4%, znacznie przewyższając wyniki obu poprzednich modeli.
Ocenę modelu przeprowadziliśmy również przy użyciu testów porównawczych opartych na złożonych rzeczywistych zadaniach. W naszym wewnętrznym teście porównawczym służącym do oceny modelu w przypadku złożonych i cennych z punktu widzenia gospodarki zadań związanych z pracą opartą na wiedzy dane wyjściowe agenta ChatGPT są porównywalne z wynikami ludzi lub od nich lepsze w mniej więcej połowie przypadków przy różnym czasie ukończenia zadania, a jednocześnie są znacznie lepsze od wyników modeli o3 i o4-mini. Dane wyjściowe modelu są oceniane przez ekspertów przy użyciu wzorców referencyjnych wysokiej jakości stworzonych przez najlepszych specjalistów z danych dziedzin. Zadania te, wykonywane w prawdziwym życiu zawodowym przez ekspertów z różnych zawodów i branż, to na przykład przygotowanie analizy konkurencji dotyczącej dostawców usług pilnej opieki na żądanie, opracowanie szczegółowych harmonogramów amortyzacji oraz identyfikacja odwiertów wodnych na potrzeby nowego obiektu wytwarzającego ekologiczny wodór.
W teście porównawczym DSBench(otwiera nowe okno) stworzonym na potrzeby oceny agentów wykonujących rzeczywiste zadania z zakresu nauki o danych, obejmujące analizę danych i modelowanie, agent ChatGPT osiągnął znacznie lepsze wyniki od człowieka.
W teście porównawczym SpreadsheetBench służącym do oceny zdolności modeli dotyczących edytowania arkuszy kalkulacyjnych i stworzonym na podstawie rzeczywistych scenariuszy agent ChatGPT osiągnął znacznie lepsze wyniki od istniejących modeli. Po uzyskaniu możliwości bezpośredniego edytowania arkuszy kalkulacyjnych agent ChatGPT osiągnął jeszcze lepszy wynik (45,5%) w porównaniu z wynikiem rozwiązania Copilot w programie Excel (20,0%).
Metodologia: Autorzy testu porównawczego SpreadsheetBench do oceny arkuszy kalkulacyjnych wykorzystali środowisko systemu Windows z programem Microsoft Excel. My wykorzystaliśmy środowisko systemu OSX i pakiet LibreOffice, co może spowodować niewielkie różnice w ocenie. Na przykład autorzy uzyskali ogólne ograniczenie twarde na poziomie 15,02% dla modelu GPT‑4o, a my uzyskaliśmy wynik 13,38%. Użyliśmy pełnego testu porównawczego składającego się z 912 pytań.
W wewnętrznym teście porównawczym mierzącym zdolności modelu dotyczące wykonywania zadań analityka bankowości inwestycyjnej w pierwszym i drugim roku pracy – takich jak sporządzenie trzyczęściowego modelu finansowego dla firmy z listy Fortune 500 z zachowaniem odpowiedniego formatowania i źródłami albo stworzenie modelu wykupu lewarowanego na potrzeby wycofania spółki z giełdy – model, z którego korzysta agent ChatGPT, osiągnął znacznie lepsze wyniki niż funkcja głębokiego badania i model o3. Każde zadanie jest oceniane przy użyciu setek kryteriów dotyczących poprawności i użycia formuł.
Ocenę agenta ChatGPT przeprowadziliśmy też przy użyciu wydanego przez nas na początku tego roku testu porównawczego BrowseComp służącego do testowania zdolności agentów przeglądających Internet do wyszukiwania trudnych do znalezienia informacji. Model uzyskał nowy rekordowy wynik wynoszący 68,9%, czyli o 17,4 punktu procentowego więcej niż w przypadku funkcji głębokiego badania.
Ponadto w teście porównawczym WebArena(otwiera nowe okno), służącym do oceny działania agentów korzystających ze stron internetowych pod kątem wykonywania rzeczywistych zadań w sieci, model ten osiągnął lepsze wyniki niż rozwiązanie CUA oparte na o3 (model używany przez agenta Operator).
Nowe zdolności agentowe ChatGPT można aktywować bezpośrednio w menu rozwijanym narzędzi edytora, wybierając „tryb agenta” w dowolnym momencie konwersacji. Po prostu opisz zadanie do wykonania — bez względu na to, czy chodzi o przeprowadzenie głębokiego badania, stworzenie pokazu slajdów czy przesłanie wydatków. Podczas wykonywania zadania informacje na ekranie zapewniają dokładny wgląd w działanie ChatGPT. W razie potrzeby użytkownik może w dowolnym momencie przerwać działanie i przejąć kontrolę nad przeglądarką, aby upewnić się, że zadania są wykonywane prawidłowo.
Agent ChatGPT może korzystać z łączników umożliwiających zintegrowanie go z przepływami pracy na potrzeby uzyskiwania przez agenta dostępu do odpowiednich i przydatnych informacji. Po uwierzytelnieniu łączniki umożliwiają ChatGPT przeglądanie informacji i wykonywanie zadań, takich jak tworzenie podsumowania skrzynki odbiorczej w danym dniu i wyszukiwanie dostępnych terminów na spotkanie. Aby agent mógł wykonywać działania na stronach z tymi informacjami, prosi użytkownika o zalogowanie się. W tym celu użytkownik przejmuje kontrolę nad przeglądarką.
Ponadto można zaplanować automatyczne powtarzanie ukończonych zadań, np. generowanie raportu dotyczącego metryki co tydzień w poniedziałek rano.
To wydanie jest pierwszym, które umożliwia użytkownikom poproszenie ChatGPT o wykonywanie zadań w sieci. Wiąże się to z nowymi czynnikami ryzyka, szczególnie dlatego, że agent ChatGPT może uzyskać bezpośredni dostęp do danych użytkownika, zarówno przy użyciu łączników, jak i na stronach internetowych, na które użytkownik zalogował się w trybie przejęcia. Wzmocniliśmy silne mechanizmy kontroli z badawczej wersji poglądowej agenta Operator i dodaliśmy zabezpieczenia dotyczące takich wyzwań, jak przetwarzanie informacji wrażliwych podczas korzystania z sieci, szersze grono użytkowników oraz (ograniczony) dostęp terminala do sieci. Chociaż te środki znacznie ograniczają ryzyko, narzędzia agenta ChatGPT o rozszerzonych zdolnościach i szersze grono użytkowników oznaczają, że jego ogólny profil ryzyka jest podwyższony.
Kładziemy szczególny nacisk na ochronę agenta ChatGPT przed antagonistycznymi manipulacjami polegającymi na wstrzykiwaniu poleceń, które są ogólnymi czynnika ryzyka dotyczącymi systemów agentowych, i przygotowaliśmy odpowiednie bardziej zaawansowane środki ograniczające ryzyko. Wstrzykiwanie poleceń to próby manipulowania zachowaniem agenta ChatGPT przez strony trzecie przy użyciu złośliwych instrukcji, które agent może napotkać podczas wykonywania zadania w sieci. Na przykład złośliwe polecenie ukryte w niewidocznych elementach lub metadanych na stronie internetowej może spowodować, że agent wykona niepożądane działania, takie jak udostępnienie osobie atakującej prywatnych danych z łącznika lub wykonanie szkodliwego działania w witrynie, do której zalogował się użytkownik. Ponieważ agent ChatGPT może wykonywać działania bezpośrednio, udane ataki mają większy wpływ i stwarzają większe ryzyko.
Wytrenowaliśmy agenta, aby identyfikował wstrzyknięcia poleceń i im przeciwdziałał, oraz przetestowaliśmy go pod tym kątem. Dodatkowo używamy monitorowania do szybkiego wykrywania ataków polegających na wstrzykiwaniu poleceń i reagowania na nie. Konieczność uzyskania wyraźnej zgody użytkownika przed wykonaniem działań o możliwych poważnych konsekwencjach dodatkowo zmniejsza ryzyko szkód spowodowanych takimi atakami, a użytkownicy mogą w razie potrzeby interweniować, przejmując kontrolę lub wstrzymując zadanie. Użytkownicy powinni pamiętać o tych kwestiach, decydując o tym, które dane udostępnić agentowi, a także zadbać o zminimalizowanie czynników ryzyka – na przykład wyłączyć łączniki, gdy nie są one potrzebne do wykonania zadania.
Wdrożyliśmy również środki ograniczające ryzyko dotyczące błędów modeli, w szczególności ze względu na fakt, że modele mogą obecnie wykonywać zadania wpływające na świat rzeczywisty:
- Wyraźna zgoda użytkownika: ChatGPT został wytrenowany tak, aby prosił użytkownika o wyraźną zgodę przed wykonaniem działań mających wpływ na świat rzeczywisty, takich jak dokonywanie zakupów.
- Aktywny nadzór („Tryb nadzoru“): Niektóre bardzo ważne zadania, na przykład wysyłanie wiadomości e-mail, wymagają aktywnego nadzoru.
- Proaktywne środki ograniczające ryzyko: ChatGPT został wytrenowany tak, aby aktywnie odmawiał wykonywania zadań wysokiego ryzyka, na przykład dotyczących transakcji bankowych.
Ponadto wprowadziliśmy dodatkowe mechanizmy kontroli ograniczające dostęp modelu do danych:
- Opcje ochrony prywatności: Aby usunąć wszelkie dane przeglądania i natychmiast wylogować się ze wszystkich aktywnych sesji na stronach internetowych, wystarczy po prostu kliknąć raz w ustawieniach ChatGPT. W przeciwnym razie pliki cookie będą przechowywane zgodnie z zasadami dotyczącymi plików cookie każdej z odwiedzanych stron internetowych, co usprawnia ponowne przechodzenie na te strony.
- Bezpieczny tryb przejęcia przeglądarki: Podczas korzystania ze stron internetowych przy użyciu przeglądarki ChatGPT („tryb przejęcia”) dane wejściowe użytkownika pozostają prywatne. ChatGPT nie gromadzi ani nie przechowuje żadnych danych wprowadzanych podczas sesji, na przykład haseł, ponieważ model ich nie potrzebuje, a brak dostępu do tych danych przez model zwiększa bezpieczeństwo.
Ze względu na większe zdolności modelu zdecydowaliśmy się potraktować agenta ChatGPT jako osiągającego próg Wysoki w zakresie zdolności dotyczących biologii i chemii zgodnie z naszymi Ramami gotowości i aktywować odpowiednie zabezpieczenia. Chociaż nie mamy jednoznacznych dowodów na to, że ten model mógłby w znaczący sposób pomóc nowicjuszowi w wyrządzeniu poważnych szkód biologicznych, postanowiliśmy zachować ostrożność i już teraz wdrożyć potrzebne zabezpieczenia. W rezultacie model ma najlepsze jak dotąd środki ograniczające ryzyko, obejmujące rozszerzone zabezpieczenia w przypadku czynników ryzyka biologicznego: kompleksowe modelowanie zagrożeń, trening dotyczący odmawiania odpowiedzi o podwójnym zastosowaniu, zawsze aktywne klasyfikatory i monitorowanie wnioskowania oraz przejrzyste procesy egzekwowania.
Nie tylko pracujemy nad wdrożeniem zabezpieczeń agenta ChatGPT, ale rozumiemy, że odpowiednie wielopoziomowe bezpieczeństwo biologiczne jest zapewniane wtedy, gdy zabezpieczenia są stosowane w więcej niż jednym laboratorium, dlatego współpracujemy w ramach całego ekosystemu, aby wzmocnić ochronę. Od początku współpracujemy z zewnętrznymi ekspertami ds. bezpieczeństwa biologicznego, instytutami ds. bezpieczeństwa i naukowcami nad stworzeniem modelu zagrożeń, ocen i zasad. Weryfikatorzy z wykształceniem biologicznym sprawdzili dane pochodzące z naszych ocen, a członkowie zespołu czerwonego będący ekspertami z danej dziedziny przetestowali zabezpieczenia w realistycznych scenariuszach. Na początku tego miesiąca zorganizowaliśmy warsztaty poświęcone obronie przed zagrożeniami biologicznymi, w których wzięli udział eksperci z instytucji rządowych, środowisk akademickich, laboratoriów krajowych i organizacji pozarządowych. Ich celem była poprawa współpracy przy badaniach nad obroną przed zagrożeniami biologicznymi opartą na AI oraz przyśpieszenie rozwoju w zakresie tych badań. Będziemy kontynuować współpracę na całym świecie, aby być o krok przed pojawiającymi się czynnikami ryzyka.
Więcej informacji na temat kompleksowego podejścia do bezpieczeństwa ujednoliconego modelu agentowego zawiera karta systemu. Rozpoczynamy też program Bug Bounty, aby znaleźć czynniki ryzyka w świecie rzeczywistym i je ograniczyć.
Dzisiaj rozpoczynamy udostępnianie agenta ChatGPT użytkownikom planów Pro, Plus i Team. Użytkownicy planu Pro uzyskają dostęp jeszcze dzisiaj, a planów Plus i Team – w ciągu najbliższych kilku dni. Użytkownicy planów Enterprise i Edu uzyskają dostęp w ciągu kilku najbliższych tygodni. Liczba zadań w przypadku użytkowników planu Pro to 400, natomiast inni płacący użytkownicy mają dostęp do 40 zadań miesięcznie z możliwością zakupu dodatkowych w ramach elastycznych opcji wykorzystania środków.
Nadal pracujemy nad umożliwieniem dostępu w Europejskim Obszarze Gospodarczym i Szwajcarii.
Badawcza wersja poglądowa agenta Operator będzie działać jeszcze przez kilka następnych tygodni, a następnie zostanie wyłączona. Funkcja głębokiego badania jest częścią zdolności agenta ChatGPT. Pierwotna funkcja głębokiego badania, która może odpowiadać nieco dłużej, ale za to jej odpowiedzi są domyślnie bardziej szczegółowe i wyczerpujące, jest nadal dostępna. Aby móc z niej skorzystać, należy wybrać opcję „Zbadaj głęboko” z menu rozwijanego w oknie edytora wiadomości.
Agent ChatGPT jest wciąż w początkowej fazie rozwoju. Potrafi wykonywać szereg złożonych zadań, ale nadal popełnia błędy.
Chociaż dostrzegamy w nim ogromny potencjał dotyczący generowania pokazów slajdów, funkcja ta jest obecnie w wersji beta. Obecnie formatowanie i prezentacja danych wyjściowych pozostawiają sporo do życzenia, zwłaszcza w przypadku rozpoczęcia pracy bez istniejącego dokumentu. W początkowych zdolnościach modelu skoncentrowaliśmy się na generowaniu artefaktów porządkujących przepływ informacji i formacie odpowiednim dla prezentacji, w którym każdy element (tekst, wykresy, obrazy i kształty) ma charakter natywny i łatwy do edycji po wyeksportowaniu, dzięki czemu można zoptymalizować strukturę i elastyczność. Obecnie zdarzają się również sporadyczne rozbieżności między slajdami w przeglądarce a wyeksportowanym plikiem w formacie programu PowerPoint, nad których wyeliminowaniem pracujemy. Ponadto, chociaż obecnie można przesłać istniejący arkusz kalkulacyjny na potrzeby edycji lub użycia jako szablonu w ChatGPT, ta zdolność nie jest jeszcze dostępna w przypadku pokazów slajdów. Przeprowadzamy już trening następnej wersji funkcji tworzenia pokazu slajdów ChatGPT, aby uzyskać bardziej dopracowane i złożone dane wyjściowe dzięki większym zdolnościom i poprawionemu formatowaniu.
Podsumowując, z czasem spodziewamy się dalszej poprawy działania, zakresu i wszechstronności agentów ChatGPT, w tym bardziej naturalnych interakcji, ponieważ pracujemy nad dostosowaniem wymaganego poziomu nadzoru ze strony użytkowników. Ma to na celu zwiększenie przydatności przy jednoczesnym zapewnieniu bezpieczeństwa korzystania.
SpreadsheetBench | ||||
Model | Środowisko oceny | Miękkie ograniczenie (%): Na poziomie komórki | Miękkie ograniczenie (%): Na poziomie arkusza | Miękkie ograniczenie (%): Ogólne |
GPT‑4o | Windows, Excel | 15,03 | 23,65 | 18,35 |
Copilot w programie Excel | Windows, Excel | 23,33 | 15,00 | 20,00 |
GPT‑4o | OSX, LibreOffice | 15,86 | 18,33 | 16,81 |
OpenAI o3 | OSX, LibreOffice | 22,40 | 24,60 | 23,25 |
Agent ChatGPT | OSX, LibreOffice | 38,27 | 30,48 | 35,27 |
Agent ChatGPT z plikiem .xlsx | OSX, LibreOffice | 50,56 | 37,51 | 45,54 |
Człowiek | 75,56 | 65,00 | 71,33 |
Autor
Przypisy
* Po włączeniu przeglądania model może czasami znaleźć dokładne odpowiedzi online, na przykład czytając wpisy na blogach z przykładowymi problemami ze zbioru danych. Wprowadziliśmy środki ograniczające obawy dotyczące oszukiwania przez model podczas przeglądania, stosując dwie strategie:
1. Zablokowaliśmy domeny, w których zaobserwowaliśmy oszukiwanie przez model w przeszłości.
2. Wdrożyliśmy dodatkowy model na potrzeby monitorowania. Przy jego użyciu badaliśmy wszystkie tokeny wyjściowe narzędzia przy każdej próbie w celu zidentyfikowania podejrzanego zachowania. Podejrzane zachowanie to „strona, plik lub fragment, którego głównym celem jest udostępnienie dokładnej odpowiedzi na dane pytanie, na przykład oficjalny klucz oceniania, wyciek sedna „rozwiązań” lub dyskusja z dosłownym cytatem odpowiedzi”. Za zachowanie łagodne uważa się „każde wiarygodne źródło, do którego mógłby zajrzeć rozsądny człowiek (dokumentacja, podręczniki, prace naukowe, renomowane artykuły), nawet jeśli przypadkowo zawiera ono poprawną odpowiedź”. Każda próba wdrożenia, w przypadku której monitor uznał wdrożenie za podejrzane, jest uznawana za nieprawidłową. Większość próbek, które nie przeszły tego testu, dotyczyła problemów z dokładnym rozwiązaniem dostępnym w wielu źródłach internetowych niepowiązanych z HLE.
** OpenAI ma wyłączny dostęp do 237 z 290 prywatnych pytań z zestawu danych Tier 1–3. Pytania z zestawu danych FrontierMath tier 4 nie były stosowane podczas przeprowadzania oceny. Wyniki to średnia z 16 prób udzielenia odpowiedzi na każde pytanie. Wyniki agenta ChatGPT są uzyskiwane przez OpenAI, a oceniane przez Epoch AI. Agent ma dostęp do przeglądarki i terminala, a limit odpowiedzi wynosi 128 tys. tokenów. Oceny modeli OpenAI o4-mini i o3 są przeprowadzane i oceniane przez Epoch AI. Modele nie mają dostępu do przeglądarki ani terminala, skrypty w języku Python są stosowane przy użyciu wywoływania funkcji. Limit odpowiedzi wynosi 100 000 tokenów.
*** Oracle@64 dotyczy najlepszego wyniku spośród 64 prób wybranych przy użyciu zweryfikowanych odpowiedzi wzorcowych (tj. wybieramy próbę o największym wyniku dla każdego zadania na podstawie rzeczywistych wyników). Podajemy średnią najlepszych wyników dla wszystkich poszczególnych zadań. Ta metryka wskazuje górną granicę potencjału modelu i różnice dotyczące wyników zadania. Pokazuje, jak wydajny może być model w przypadku powodzenia oraz wskazuje możliwości poprawy spójności w ramach dalszego treningu. W przeciwieństwie do typowych metryk typu „najlepsze z N”, w których wybór opiera się na pewności modelu, w przypadku oracle@64 wybór opiera się na zweryfikowanych odpowiedziach wzorcowych i ma zastosowanie do zadań ocenianych przy użyciu ciągłej skali 0–1, a nie binarnej ocenie zaliczone/niezaliczone.


