Stworzyliśmy GPT‑4 – najnowszy kamień milowy w dążeniach OpenAI do skalowania głębokiego uczenia. GPT‑4 to duży model multimodalny (akceptujący dane wejściowe w postaci obrazów i tekstu, generujący dane wyjściowe w postaci tekstu), który – choć w wielu rzeczywistych scenariuszach ma mniejsze zdolności niż ludzie – wykazuje wydajność na poziomie człowieka w różnych profesjonalnych i akademickich testach porównawczych. Przykładowo jest w stanie zaliczyć egzamin adwokacki z wynikiem porównywalnym do osiąganego przez 10% najlepszych zdających; dla porównania – wynik GPT‑3.5 oscylował w granicach dolnych 10%. Przez 6 miesięcy pracowaliśmy nad iteratywnym dostosowaniem GPT‑4 na podstawie wiedzy uzyskanej w toku naszego programu testów antagonistycznych oraz z ChatGPT, co pozwoliło nam na uzyskanie najlepszych jak dotąd (choć wciąż dalekich od ideału) wyników w zakresie zgodności z faktami, sterowności i odmowy wykraczania poza określone ramy.
Na przestrzeni ostatnich dwóch lat przebudowaliśmy nasz cały stos głębokiego uczenia i – we współpracy z Azure – zaprojektowaliśmy od podstaw superkomputer dostosowany do naszych potrzeb. Rok temu trenowaliśmy GPT‑3.5 w ramach pierwszego „próbnego uruchomienia” naszego systemu. Udało nam się zidentyfikować i usunąć część błędów i udoskonalić nasze podstawy teoretyczne. Dzięki tym działaniom nasz trening GPT‑4 przebiegał (przynajmniej dla nas!) nadspodziewanie stabilnie, a tym samym był to nasz pierwszy duży model, którego wyniki w czasie szkolenia byliśmy w stanie dokładnie przewidzieć z wyprzedzeniem. Kontynuując pracę nad niezawodnym skalowaniem naszego modelu, dążymy do dalszego doskonalenia naszej metodologii, aby móc z jeszcze większym wyprzedzeniem przewidywać i przygotowywać przyszłe funkcjonalności w zakresie kluczowym dla bezpieczeństwa modelu.
Udostępniamy zdolności do przetwarzania tekstowych danych wejściowych GPT‑4 w ramach ChatGPT oraz API (z listą oczekujących). Z kolei w początkowej fazie naszych prac nad szerszą implementacją zdolności do przetwarzania obrazów wejściowych współpracujemy obecnie z jednym partnerem(otwiera nowe okno). Udostępniamy również publicznie OpenAI Evals(otwiera nowe okno), naszą strukturę zautomatyzowanej oceny wydajności modeli, dając wszystkim zainteresowanym możliwość raportowania niedociągnięć w naszych modelach, a tym samym przyczyniania się do ich dalszego usprawniania.
W codziennej konwersacji różnica między GPT‑3.5 i GPT‑4 może być subtelna. Wyraźne różnice stają się dostrzegalne z chwilą, gdy trudność zadania osiąga odpowiedni poziom – model GPT‑4 jest bardziej niezawodny, kreatywny i zdolny do przetwarzania bardziej zniuansowanych instrukcji w porównaniu z GPT‑3.5.
Aby zrozumieć różnice pomiędzy oboma modelami, przeprowadziliśmy testy z użyciem szeregu różnych benchmarków, w tym symulacji egzaminów pierwotnie przeznaczonych dla ludzi. Następnie wykorzystaliśmy najnowsze publicznie dostępne testy (w przypadku Olympiads i AP z odpowiedziami na pytania otwarte) oraz zakupiliśmy wersje 2022–2023 egzaminów szkoleniowych. Nie przeprowadzaliśmy dedykowanego treningu pod kątem tych egzaminów. Model miał dostęp do mniej niż połowy problemów z egzaminów podczas treningu, ale uważamy, że wyniki są reprezentatywne – szczegóły można znaleźć w naszym raporcie technicznym(otwiera nowe okno).
odniesienie wewnętrzne 1
Ocenialiśmy również GPT‑4 za pomocą tradycyjnych benchmarków przeznaczonych do modeli uczenia maszynowego. W naszych testach GPT‑4 osiągał znacznie lepsze wyniki w porównaniu z istniejącymi dużymi modelami językowymi, w tym najnowocześniejszymi modelami (SOTA), które mogły być modyfikowane pod kątem konkretnych benchmarków i wykorzystywać dodatkowe protokoły treningowe:
Wiele z istniejących modeli ML jest tworzonych w języku angielskim. Aby wstępnie ocenić zdolności modelu do pracy w innych językach, przetłumaczyliśmy benchmark MMLU – zbiór 14 000 pytań wielokrotnego wyboru obejmujących 57 obszarów tematycznych – na różne języki za pomocą Azure Translate (zob. Załącznik). W 24 z 26 badanych języków wyniki GPT‑4 były wyższe niż te osiągane przez GPT‑3.5 i inne LLM (Chinchilla, PaLM) w języku angielskim, nawet z uwzględnieniem języków o niskiej dostępności zasobów, takich jak łotewski, walijski czy suahili:
Wykorzystujemy również GPT‑4 w działaniach wewnętrznych, ze znaczącymi wynikami w zakresie funkcji takich jak wsparcie, sprzedaż, moderacja treści czy programowanie. Wykorzystujemy ten model również w formie wparcia dla ludzi oceniających dane wyjściowe AI, począwszy od drugiej fazy implementacji naszej strategii zgodności.
GPT‑4 jest w stanie przyjąć polecenie obejmujące tekst i obrazy, co – w porównaniu do ograniczenia do samego tekstu – pozwala użytkownikowi na zdefiniowanie dowolnego zadania wizualnego lub językowego. W szczególności jest on w stanie generować tekstowe dane wyjściowe (język naturalny, kod itd.) na podstawie danych wejściowych obejmujących połączenie tekstu i obrazów. W kontekście szeregu domen – w tym dokumentów obejmujących zarówno tekst, jak i zdjęcia, wykresy czy zrzuty ekranowe – GPT‑4 wykazuje skuteczność porównywalną do osiąganej w odniesieniu do danych stricte tekstowych. Ponadto można uwzględnić argumenty z zakresu technik czasu testu opracowanych dla wyłącznie tekstowych modeli językowych, w tym polecenia typu few-shot (oparte na nielicznych przykładach) i łańcuch myśli(otwiera nowe okno). Funkcja przetwarzania obrazów wejściowych pozostaje w fazie badań i nie jest publicznie dostępna.
Testujemy wydajność GPT‑4 przy użyciu wąskiego zbioru akademickich benchmarków obrazowych. Jednakże uzyskiwane w ten sposób wyniki nie odzwierciedlają w pełni faktycznego zakresu możliwości modelu. Nadal odkrywamy nowe i ekscytujące rodzaje zadań, z którymi jest on w stanie sobie poradzić. W najbliższym czasie planujemy udostępnić dalsze wyniki naszych analiz i ocen, a także dogłębnych badań nad efektami technik z zakresu czasu testu.
wewnętrzny przypisA
Pracujemy nad każdym aspektem planu określonego w naszym poście na temat definiowania zachowań AI, w tym w zakresie sterowalności. W miejsce klasycznej osobowości ChatGPT o określonym sposobie, tonie i stylu wysławiania się, programiści (a wkrótce również użytkownicy ChatGPT) będą mogli definiować styl AI i zadania za pośrednictwem odpowiednich poleceń w wiadomości „systemowej”. Wiadomości systemowe pozwalają użytkownikom API na daleko idące dostosowanie, w pewnych granicach(otwiera nowe okno), swoich interakcji z modelem. Będziemy kontynuować pracę nad udoskonalaniem tej funkcjonalności (zwłaszcza że wiadomości systemowe są najprostszym sposobem na „obejście” zabezpieczeń bieżącego modelu, szczególnie w kontekście zgodności z ograniczeniami), jednak już teraz zachęcamy do jej testowania i dzielenia się z nami spostrzeżeniami.
Pomimo rozbudowanych możliwości GPT‑4 ma ograniczenia podobne do obserwowanych we wcześniejszych modelach GPT. Najistotniejszym z nich jest fakt, że nie jest on w pełni niezawodny (charakteryzuje się „halucynacjami” faktów i błędami rozumowania). Należy zachować daleko idącą ostrożność przy wykorzystywaniu danych wyjściowych modelu językowego, zwłaszcza w kontekstach o potencjalnie istotnych konsekwencjach, dostosowując przyjęty protokół (np. weryfikacja przez człowieka, umieszczenie w innym kontekście lub całkowite unikanie zastosowań o poważnych konsekwencjach) do konkretnych potrzeb i charakteru określonego zastosowania.
Choć problem halucynacji nadal występuje, GPT‑4 w znacznym stopniu redukuje jego częstotliwość w porównaniu z wcześniejszymi modelami (które również osiągają coraz lepsze wyniki wraz z wdrażaniem kolejnych iteracji). GPT‑4 osiąga wyniki o 40% wyższe w porównaniu do najnowszej wersji GPT‑3.5 w naszych wewnętrznych antagonistycznych ocenach funkcjonalności:
Osiągnęliśmy znaczne postępy w zakresie wyników w benchmarkach zewnętrznych, takich jak TruthfulQA, który testuje zdolność modelu do odróżnienia faktów od antagonistycznie dobieranych zbiorów nieprawdziwych twierdzeń. Pytania te są łączone z niezgodnymi z prawdą, lecz statystycznie atrakcyjnymi odpowiedziami.
Bazowy model GPT‑4 osiąga jedynie nieznaczne lepsze wyniki w tym badaniu w porównaniu z GPT‑3.5; jednak po dodatkowym treningu RLHF (z zastosowaniem takiego samego procesu jak ten używany w przypadku GPT‑3.5) różnica staje się znacząco większa. Jak wynika z poniższych przykładów, GPT‑4 powstrzymuje się od cytowania popularnych zwrotów (nie da się nauczyć starego psa nowych sztuczek), jednak wciąż może przeoczyć bardziej subtelne szczegóły (Elvis Presley nie był synem aktora).
Model może wykazywać pewną tendencyjność w swoich odpowiedziach – osiągnęliśmy znaczące postępy w tym zakresie, lecz wciąż mamy dużo do zrobienia. Jak wskazaliśmy w niedawnym poście na naszym blogu, naszym celem jest, aby tworzone przez nas systemy AI wykazywały rozsądny zakres domyślnych zachowań odzwierciedlających szerokie spektrum wartości użytkowników, co pozwoli na ich dostosowanie w szerokich ramach, które zostaną wyznaczone na podstawie publicznego odbioru naszych działań.
GPT‑4 nie ma zazwyczaj wiedzy na temat wydarzeń, które miały miejsce po większości odcięć dopływu danych (wrzesień 2021 r.) i nie uczy się na podstawie swoich doświadczeń. Czasami zdarza mu się popełniać proste błędy rozumowania, które wydają się stać w sprzeczności z jego wiedzą w tak szerokim spektrum domen. Niekiedy wykazuje też nadmierną łatwowierność, przyjmując prawdziwość ewidentnie fałszywych twierdzeń wprowadzanych przez użytkownika. W niektórych sytuacjach – podobnie jak ludzie – nie radzi sobie z trudnymi problemami, na przykład nie zauważając luk w zabezpieczeniach w tworzonych przez siebie kodach.
GPT‑4 potrafi również wykazywać nadmierną pewność siebie w swych błędnych prognozach, zaniedbując powtórne sprawdzenie wyników w sytuacjach, gdy błędy są szczególnie prawdopodobne. Co ciekawe, bazowy, wstępnie przeszkolony model jest pod tym względem dobrze skalibrowany (jego przewidywany poziom pewności co do udzielanej odpowiedzi zazwyczaj odpowiada faktycznemu prawdopodobieństwu popełnienia błędu). Jednak w toku bieżącego procesu dalszego treningu poziom kalibracji ulega obniżeniu.
Od samego początku procesów treningowych opracowujemy kolejne iteracje GPT‑4 w celu zwiększenia jego bezpieczeństwa i zgodności, starając się jednocześnie uwzględniać wybrane i stosownie przefiltrowane dane przedtreningowe, wyniki ocen i opinie ekspertów, poprawki w zakresie bezpieczeństwa modelu, a także aspekty monitoringu i wzmocnienia.
GPT‑4 mierzy się z zagrożeniami podobnymi do tych obserwowanych we wcześniejszych modelach, w tym w zakresie generowania szkodliwych porad, błędów kodu czy nieprawdziwych informacji. Jednocześnie jednak dodatkowe zdolności GPT‑4 wiążą się z całkowicie nowymi obszarami ryzyka. Aby lepiej zrozumieć zakres tego rodzaju zagrożeń, nawiązaliśmy współpracę z 50 ekspertami w dziedzinach takich jak ryzyko w zakresie zgodności AI, cyberbezpieczeństwo, bioryzyko, zaufanie i bezpieczeństwo oraz bezpieczeństwo międzynarodowe, w celu przeprowadzenia testów antagonistycznych naszego modelu. Ich obserwacje pozwoliły nam w szczególności na przetestowanie zachowań modelu w obszarach podwyższonego ryzyka, których ocena wymaga stosownej wiedzy fachowej. Opinie i dane przekazane nam przez ekspertów zostały wykorzystane w procesie opracowywania stosownych zabezpieczeń i poprawek w ramach modelu; przykładowo zgromadziliśmy dodatkowe dane w celu poprawy zdolności GPT‑4 do odmowy udzielenia odpowiedzi na pytania związane z metodami syntetyzowania niebezpiecznych substancji chemicznych.
GPT‑4 wykorzystuje dodatkowy sygnał nagrody zabezpieczeń w toku treningu RLHF w celu ograniczenia występowania szkodliwych danych wyjściowych (zdefiniowanych w naszych wytycznych w zakresie użycia(otwiera nowe okno)) poprzez uczenie modelu odmowy wykonania poleceń związanych z pozyskaniem tego rodzaju treści. Nagroda jest generowana przez klasyfikator zero-shot GPT‑4, oceniający granice zabezpieczeń i styl wykonania zadania w kontekście poleceń związanych z bezpieczeństwem. Aby uniknąć odmów modelu w przypadku poprawnych zapytań, gromadzimy rozbudowany zbiór danych pozyskiwanych z różnych źródeł (np. dane z etykiet produktów, badania ludzkich czerwonych zespołów, polecenia wygenerowane przez modele) i stosujemy sygnał nagrody zabezpieczeń (o dodatniej lub ujemnej wartości) w odniesieniu do zarówno dozwolonych, jak i niedozwolonych kategorii.
Wdrożone środki zaradcze pozwoliły na znaczną poprawę charakterystyki bezpieczeństwa GPT‑4 w porównaniu do GPT‑3.5. Obniżyliśmy skłonność modelu do udzielania odpowiedzi na pytania dotyczące niedozwolonych treści o 82% w porównaniu do GPT‑3.5, a jednocześnie GPT‑4 odpowiada na zapytania o treści wrażliwe (np. dotyczące porad medycznych lub samookaleczenia) w sposób zgodny z naszą polityką o 29% częściej.
Nasze interwencje na poziomie całego modelu pozwoliły nam znacząco utrudnić sprowokowanie niewłaściwego zachowania, lecz w dalszym ciągu jest to możliwe. Ponadto nadal istnieją „obejścia zabezpieczeń” pozwalające na wygenerowanie treści niezgodnych z naszymi wytycznymi w zakresie użycia. Wraz ze wzrostem ilości „zagrożeń na token” występujących w systemach AI, osiągniecie bardzo wysokiego poziomu skuteczności tego rodzaju interwencji stanie się kluczowe; na chwilę obecną ważne jest uzupełnianie tego rodzaju ograniczeń przy użyciu zabezpieczeń wdrożeniowych, takich jak monitorowanie nadużyć.
Potencjał GPT‑4 i jego następców sprawia, że mogą one w istotny sposób wpływać na relacje społeczne, zarówno w korzystny, jak i szkodliwy sposób. Stale współpracujemy z badaczami zewnętrznymi w wysiłkach na rzecz lepszego zrozumienia i oceny ich potencjalnego wpływu, jak również identyfikacji zagrożeń, jakie mogą się pojawiać w kontekście przyszłych systemów. W najbliższym czasie udostępnimy więcej informacji na temat naszych rozważań w kontekście potencjalnych społecznych i gospodarczych konsekwencji GPT‑4 i innych systemów opartych na AI.
Podobnie jak w przypadku poprzednich modeli GPT, bazowy model GPT‑4 został poddany treningowi w zakresie przewidywania kolejnego słowa w dokumencie z wykorzystaniem publicznie dostępnych danych (przykładowo danych dostępnych w Internecie), jak również danych pozyskanych na podstawie licencji. Dane te stanowią zbiór informacji zaczerpniętych z całego Internetu, w tym zarówno poprawnych, jak i niepoprawnych rozwiązań problemów matematycznych, przykładów właściwego, jak i niewłaściwego rozumowania, wewnętrznie sprzecznych i logicznych twierdzeń, będących odzwierciedleniem szerokiego spektrum ideologii i przekonań.
Dzięki temu model bazowy może udzielić odpowiedzi na zadane pytanie na szereg różnych sposobów – niekiedy całkowicie niezgodnych z pierwotną intencją użytkownika. Aby zapewnić lepszą zgodność z intencjami użytkownika w ramach przyjętych ograniczeń, nieustannie dostrajamy zachowanie naszego modelu przy użyciu technik uczenia przez wzmacnianie z informacją zwrotną od człowieka (RLHF).
Warto zauważyć, że zdolności wykazywane przez model wywodzą się przede wszystkim z procesu treningu wstępnego – RLHF nie poprawia wyników uzyskiwanych w czasie egzaminów (bez aktywnego wsparcia wyniki są wręcz niższe). Z drugiej strony sterowanie zachowaniem modelu jest możliwe dzięki procesom potreningowym – model bazowy wymaga odpowiedniego formułowania poleceń, aby zrozumieć nawet konieczność udzielenia odpowiedzi na pytanie.
Jednym z najważniejszych założeń projektu GPT‑4 było stworzenie stosu głębokiego uczenia pozwalającego na jego przewidywalne skalowanie. Jest to istotne przede wszystkim dlatego, że w przypadku szeroko zakrojonych projektów treningowych, takich jak GPT‑4, przeprowadzenie szeroko zakrojonego dostrojenia konkretnego modelu jest praktycznie niewykonalne. Stworzyliśmy i zoptymalizowaliśmy strukturę wykazującą bardzo przewidywalne zachowanie w wielu skalach. Aby potwierdzić tą skalowalność, prawidłowo przewidzieliśmy z góry ostateczną stratę GPT‑4 w naszej wewnętrznej bazie kodu (niebędącej częścią zestawu treningowego) poprzez ekstrapolację z modeli trenowanych zgodnie z tą samą metodologią, lecz przy użyciu 10 000 razy niższej mocy obliczeniowej.
Będąc w stanie trafnie przewidzieć metrykę optymalizowaną w czasie szkolenia (stratę), zaczynamy obecnie pracować nad metodologią, która pozwoli nam przewidywać metryki bardziej podatne na interpretację. Przykładowo udało nam się przewidzieć współczynnik powodzenia dla podzestawu zbioru danych HumanEval(otwiera nowe okno)w drodze ekstrapolacji z modeli o 1000 razy niższej mocy obliczeniowej:
Niektóre zdolności wciąż pozostają trudne do przewidzenia. Przykładowo Nagroda za Odwrotne Skalowanie to konkurs,w którym poszukiwano metryki pogarszającej się wraz ze wzrostem zdolności obliczeniowej, a jednym ze zwycięzców okazało się zaniedbanie perspektywy(otwiera nowe okno). Podobnie jak w przypadku innego odnotowanego niedawno wyniku(otwiera nowe okno), GPT‑4 odwraca ten trend:
Uważamy, że zdolność prawidłowego przewidywania przyszłych zdolności uczenia maszynowego stanowi istotny element działań na rzecz bezpieczeństwa, któremu nie poświęca się obecnie wystarczającej uwagi w kontekście jego potencjalnych konsekwencji (choć zauważamy obiecujące działania w tym zakresie podejmowane przez różne instytucje). Intensyfikujemy obecnie nasze wysiłki na rzecz wypracowania metod, które umożliwią ogółowi społeczeństwa pełniejszy wgląd w potencjalne możliwości tego rodzaju systemów w przyszłości i mamy nadzieję, że stanie się to jednym z celów przyświecających wszystkim podmiotom aktywnym w naszej branży.
Zapewniamy otwarty dostęp do OpenAI Evals(otwiera nowe okno), naszej struktury oprogramowania przeznaczonego do tworzenia i przeprowadzania benchmarków w celu oceny modeli takich jak GPT‑4 i umożliwiającego badanie ich wydajności próbka po próbce. Evals pozwala nam na odpowiednie ukierunkowanie rozwoju naszych modeli (zarówno w zakresie identyfikacji problemów, jak i zapobiegania regresji), zaś użytkownicy mogą korzystać z tego rozwiązania, aby śledzić skuteczność modeli na przestrzeni różnych wersji (które będą teraz udostępniane regularnie) i w kontekście ewoluujących integracji produktowych. Przykładowo Stripe wykorzystuje Evals jako uzupełnienie ludzkich ocen w celu pomiaru dokładności swojego opartego na GPT narzędzia dokumentacyjnego.
Dzięki temu, że kod jest udostępniany na licencji open-source, Evals obsługuje tworzenie nowych klas w celu implementowania niestandardowych logik oceny(otwiera nowe okno). Jednak jak wynika z naszych doświadczeń, wiele benchmarków tworzonych jest zgodnie z jednym z zaledwie kilku „szablonów”, w związku z czym uwzględniliśmy również szablony(otwiera nowe okno), które okazały się najbardziej przydatne w naszych testach wewnętrznych (w tym szablon „samodzielnych ocen modelu” – zaobserwowaliśmy, że GPT‑4 jest w zaskakującym stopniu zdolny do oceny własnego działania). Ogólnie rzecz biorąc, najbardziej skuteczną metodą tworzenia nowej oceny(otwiera nowe okno) będzie wykorzystanie jednego z takich szablonów i udostępnienie w nim odpowiednich danych. Jesteśmy bardzo ciekawi, co uda się osiągnąć innym za pomocą tych szablonów i ogólnie funkcjonalności Evals.
Mamy nadzieję, że Evals stanie się platformą umożliwiającą udostępnianie i crowdsourcing benchmarków reprezentujących jak najszerszy zbiór zidentyfikowanych błędów i trudnych zadań. Jako materiał przykładowy przygotowaliśmy ocenę opartą na zagadkach logicznych(otwiera nowe okno), zawierającą dziesięć poleceń, z którymi nie radzi sobie GPT‑4. Funkcjonalność Evals jest również zgodna z implementacją istniejących benchmarków; uwzględniliśmy w niej kilka zeszytów(otwiera nowe okno) implementujących benchmarki akademickie oraz kilka przykładowych wariacji na temat integracji (niewielkich podzbiorów) CoQA(otwiera nowe okno).
Zachęcamy wszystkich użytkowników do korzystania z Evals w celu testowania naszych modeli i dzielenia się z nami najciekawszymi spostrzeżeniami. Uważamy, że Evals będzie stanowić integralną część procesów związanych z wykorzystaniem i nadbudowywaniem naszych modeli. Jesteśmy otwarci na wszelkie bezpośrednie dane, pytania i opinie(otwiera nowe okno).
Subskrybenci ChatGPT Plus uzyskają dostęp do GPT‑4 na stronie chatgpt.com(otwiera nowe okno) z limitem użytkowania. Dokładny limit użytkowania określimy na podstawie faktycznego zainteresowania i wydajności systemu, lecz spodziewamy się, że będzie on mocno ograniczony (choć na przestrzeni kolejnych miesięcy planujemy jego zwiększenie i optymalizację).
W zależności od obserwowanych wzorców ruchu, możemy zaoferować nowy poziom subskrypcji obejmujący większy limit użytkowania GPT‑4; mamy również nadzieję, że na pewnym etapie będziemy mogli udostępnić pewną liczbę nieodpłatnych zapytań GPT‑4 osobom, które nie posiadają subskrypcji, ale pragną sprawdzić możliwości modelu.
Aby uzyskać dostęp do API GPT‑4 (wykorzystującego ten sam ChatCompletions API,(otwiera nowe okno) co gpt-3.5-turbo), wpisz się na naszą listę oczekujących. Zaczynamy obecnie zapraszać wybranych programistów i będziemy stopniowo rozszerzać dostępność, aby zrównoważyć popyt i wydajność systemu. Jeżeli jesteś badaczem zajmującym się wpływem społecznym AI lub kwestiami zgodności AI, możesz również wnioskować o udzielenie dofinansowanego dostępu za pośrednictwem naszego Programu Dostępu Badawczego.
Po uzyskaniu dostępu możesz zadawać wyłącznie pytania tekstowe kierowane do modelu gpt-4 (obsługa danych wejściowych w formie obrazów jest wciąż w ograniczonej fazie alfa), który będziemy automatycznie aktualizować do bieżącej rekomendowanej stabilnej wersji w toku dalszych prac (możesz zablokować aktualizację bieżącej wersji, dzwoniąc pod numer gpt-4-0314, który będzie dostępny do 14 czerwca). Obowiązujący cennik to 0,03 USD za 1 tys. tokenów poleceń i 0,06 USD za 1 tys. tokenów wykonań. Domyślne ograniczenie szybkości wynosi 40 tys. tokenów na minutę i 200 zapytań na minutę.
gpt-4 obsługuje długość kontekstu wynoszącą 8192 tokeny. Oferujemy również ograniczony dostęp do wersji obsługującej 32 768 tokenów kontekstu (około 50 stron tekstu), gpt-4-32k, która również będzie automatycznie aktualizowana (bieżąca wersja to gpt-4-32k-031, również obsługiwana do 15 czerwca). Obowiązujący cennik to 0,06 USD za 1 tys. tokenów poleceń i 0,12 USD za 1 tys. tokenów wykonań. Wciąż udoskonalamy jakość modelu w zakresie obsługi długiego kontekstu. Będziemy wdzięczni za opinie na temat jego wydajności w kontekście Twoich zastosowań. Zapytania kierowane do silników 8K i 32K przetwarzamy z różną szybkością, zależnie do zdolności obliczeniowych, więc dostęp do nich może być możliwy w różnym czasie.
Mamy nadzieję, że GPT‑4 stanie się wartościowym narzędziem wspierającym użytkowników w ich życiu i wielu różnych zastosowaniach. Przed nami wciąż bardzo dużo pracy, lecz wierzymy, że będziemy w stanie stale usprawniać nasz model dzięki wspólnym wysiłkom całej społeczności rozbudowującej, testującej i wspierającej nasze narzędzie.
Przykładowe pytania MMLU w tłumaczeniu na inne języki. Zwróć uwagę, że używamy spójnych tokenów odpowiedzi (A–D) w zadaniach wyboru:
Przypisy
- A
Test porównawczy przeprowadziliśmy przy użyciu poleceń z łańcuchem myśli i 4 przykładami z zestawu treningowego w kontekście. Użyte polecenie zostało dostrojone przy użyciu zestawu weryfikacyjnego.
Bibliografia
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Dalsza analiza jest dostępna w tym artykule(otwiera nowe okno).


