GPT‑4o mini: rozwijanie opłacalnej inteligencji
Przedstawiamy nasz najbardziej ekonomiczny mały model
Celem OpenAI jest zapewnienie jak najszerszego dostępu do inteligencji. Dzisiaj przedstawiamy GPT‑4o mini, nasz najtańszy mały model. Oczekujemy, że GPT‑4o mini znacząco rozszerzy zakres aplikacji opartych na AAI, sprawiając, że inteligencja stanie się znacznie bardziej przystępna cenowo. GPT‑4o mini uzyskał wynik 82% w MMLU i obecnie przewyższa GPT‑41 w preferencjach czatu w rankingu LMSYS(otwiera nowe okno). Jego cena wynosi 15 centów za milion tokenów wejściowych i 60 centów za milion tokenów wyjściowych, co stanowi cenę o rząd wielkości niższą niż w przypadku poprzednich modeli z serii Frontier i o ponad 60% niższą niż w przypadku GPT‑3.5 Turbo.
Dzięki niskim kosztom i niskim opóźnieniom GPT‑4o mini umożliwia wykonywanie szerokiego zakresu zadań, takich jak aplikacje, które łączą lub uruchamiają równolegle wiele wywołań modelu (np. wywoływanie wielu interfejsów API), przekazują dużą ilość kontekstu do modelu (np. pełną bazę kodu lub historię konwersacji) lub komunikują się z klientami za pomocą szybkich odpowiedzi tekstowych w czasie rzeczywistym (np. chatboty obsługi klienta).
Obecnie GPT‑4o mini obsługuje tekst i obraz w API, a w przyszłości będzie obsługiwał również dane wejściowe i dane wyjściowe w postaci tekstu, obrazów, wideo i dźwięku. Model ten ma okno kontekstowe o pojemności 128 000 tokenów, obsługuje do 16 000 tokenów wyjściowych na żądanie i dysponuje wiedzą do października 2023 r. Dzięki ulepszonemu tokenizatorowi, wspólnemu z GPT‑4o, obsługa tekstów w językach innych niż angielski jest teraz jeszcze bardziej opłacalna.
Mały model o wyższej inteligencji tekstowej i rozumowaniu multimodalnym
GPT‑4o mini przewyższa GPT‑3.5 Turbo i inne małe modele w testach akademickich zarówno pod względem inteligencji tekstowej, jak i rozumowania multimodalnego, a ponadto obsługuje ten sam zakres języków co GPT‑4o. Wykazuje również wysoką wydajność wywoływania funkcji, co umożliwia programistom tworzenie aplikacji pobierających dane lub podejmujących działania w systemach zewnętrznych, a także lepszą wydajność kontekstową w porównaniu z GPT‑3.5 Turbo.
GPT‑4o mini został oceniony w kilku kluczowych testach porównawczych2.
Zadania wymagające rozumowania GPT‑4o mini radzi sobie lepiej niż inne małe modele w zadaniach wymagających rozumowania, obejmujących zarówno tekst, jak i informacje wizualne. W teście MMLU, testującym inteligencję tekstową i rozumowanie, uzyskał 82,0%, w porównaniu z 77,9% uzyskanymi przez Gemini Flash i 73,8% uzyskanymi przez Claude Haiku.
Znajomość matematyki i kodowania: GPT‑4o mini doskonale sprawdza się w zadaniach związanych z rozumowaniem matematycznym i kodowaniem, przewyższając poprzednie małe modele dostępne na rynku. W teście MGSM mierzącym rozumowanie matematyczne GPT‑4o mini uzyskał wynik 87,0%, w porównaniu z 75,5% w przypadku Gemini Flash i 71,7% w przypadku Claude Haiku. GPT‑4o mini uzyskał wynik 87,2% w teście HumanEval, który mierzy wydajność kodowania, w porównaniu do 71,5% (Gemini Flash) i 75,9% (Claude Haiku).
Rozumowanie multimodalne: GPT‑4o mini wykazuje również wysoką wydajność w teście MMMU, multimodalnej ocenie rozumowania. Uzyskał w nim wynik 59,4%, w porównaniu do 56,1% (Gemini Flash) i 50,2% (Claude Haiku).
Wyniki oceny modelu
W ramach procesu rozwoju naszego modelu współpracowaliśmy z grupą zaufanych partnerów, aby lepiej zrozumieć przypadki użycia i ograniczenia GPT‑4o mini. Nawiązaliśmy współpracę z takimi firmami jak Ramp(otwiera nowe okno) i Superhuman(otwiera nowe okno), które odkryły, że GPT‑4o mini działa znacznie lepiej niż GPT‑3.5 Turbo w przypadku takich zadań, jak wyodrębnianie ustrukturyzowanych danych z plików potwierdzeń lub generowanie wysokiej jakości odpowiedzi e-mail, gdy jest dostępna historia wątków.
Wbudowane środki bezpieczeństwa
Bezpieczeństwo jest wpisane w nasze modele od samego początku i wzmacniane na każdym etapie procesu rozwoju. Podczas wstępnego szkolenia filtrujemy(otwiera nowe okno) informacje, których nasze modele nie powinny się uczyć ani generować, takie jak mowa nienawiści, treści dla dorosłych, witryny, które głównie gromadzą dane osobowe, oraz spam. Po zakończeniu treningu dostosowujemy zachowanie modelu do naszych zasad, stosując techniki takie jak uczenie przez wzmacnianie z ludzkim sprzężeniem zwrotnym (RLHF), aby zwiększyć dokładność i niezawodność odpowiedzi modelu.
W GPT‑4o mini wdrożono takie same zabezpieczenia jak w GPT‑4o, które starannie oceniliśmy, stosując zarówno automatyczne, jak i ludzkie oceny, zgodnie z naszymi Ramami gotowości oraz naszymi dobrowolnymi zobowiązaniami. Ponad 70 ekspertów zewnętrznych z takich dziedzin, jak psychologia społeczna i dezinformacja, przetestowało GPT‑4o, aby zidentyfikować potencjalne zagrożenia. Zajęliśmy się tymi kwestiami i planujemy podzielić się ich szczegółami w następnej karcie systemu GPT‑4o oraz karcie wyników gotowości. Wnioski z ocen ekspertów pomogły poprawić bezpieczeństwo zarówno GPT‑4o, jak i GPT‑4o mini.
Opierając się na tej wiedzy, nasze zespoły pracowały również nad poprawą bezpieczeństwa GPT‑4o mini, stosując nowe techniki opracowane na podstawie naszych badań. GPT‑4o mini w API jest pierwszym modelem, który stosuje naszą metodę hierarchii instrukcji(otwiera nowe okno). Pomaga to zwiększyć odporność modelu na obejścia zabezpieczeń, wstrzyknięcia poleceń i ekstrakcje poleceń systemowych. Dzięki temu odpowiedzi modelu są bardziej niezawodne, a jego stosowanie w aplikacjach na dużą skalę jest bezpieczniejsze.
Będziemy nadal monitorować sposób użytkowania modelu GPT‑4o mini i wzmacniać jego bezpieczeństwo w miarę identyfikowania nowych zagrożeń.
Dostępność i ceny
Model GPT‑4o mini jest teraz dostępny jako model tekstowo-wizualny w interfejsie Assistants API, interfejsie Chat Completions API oraz interfejsie Batch API. Programiści płacą 15 centów za 1 mln tokenów wejściowych i 60 centów za 1 mln tokenów wyjściowych (w przybliżeniu odpowiada to 2500 stronom standardowej książki). W najbliższych dniach planujemy wprowadzić konfigurację precyzyjną GPT‑4o mini.
W ChatGPT użytkownicy kont Free, Plus i Team będą mogli od dziś uzyskać dostęp do GPT‑4o mini zamiast GPT‑3.5. Użytkownicy korporacyjni również będą mieli dostęp do tej usługi od przyszłego tygodnia, zgodnie z naszą misją, aby korzyści płynące ze sztucznej inteligencji były dostępne dla wszystkich.
Co dalej
W ciągu ostatnich kilku lat byliśmy świadkami niezwykłego postępu w dziedzinie AI, połączonego ze znaczną redukcją kosztów. Na przykład koszt za token GPT‑4o mini spadł o 99% od czasu wprowadzenia na rynek w 2022 r. mniej wydajnego modelu text-davinci-003. Jesteśmy zdeterminowani, aby kontynuować tę strategię obniżania kosztów przy jednoczesnym zwiększaniu możliwości modeli.
Wyobrażamy sobie przyszłość, w której modele będą płynnie integrowane z każdą aplikacją i każdą stroną internetową. GPT‑4o mini otwiera przed programistami drogę do bardziej wydajnego i ekonomicznego tworzenia i skalowania zaawansowanych aplikacji opartych na AI. Przyszłość AI staje się coraz bardziej dostępna, niezawodna i osadzona w naszym codziennym doświadczeniu cyfrowym. Cieszymy się, że możemy nadal przewodzić w tej dziedzinie.
Autor
Podziękowania
Liderzy Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such
Szef programu: Mianna Chen
Twórcy są wymienieni na stronie https://openai.com/gpt-4o-contributions/
Przypisy
- 1
Od 18 lipca 2024 r. wcześniejsza wersja GPT-4o mini przewyższa GPT-4T 01-25.
- 2
Numery ewaluacyjne dla GPT-4o mini są obliczane przy użyciu naszego repozytorium simple-evals(otwiera nowe okno) z komunikatem systemu asystenta API. W przypadku modeli konkurencyjnych bierzemy pod uwagę maksymalną zgłoszoną przez konkurencję liczbę (jeśli jest dostępna), tabelę wyników HELM(otwiera nowe okno) i naszą własną reprodukcję za pomocą prostych ocen.