Przejdź do treści głównej
OpenAI

13 maja 2024

Znaczny krok

Witamy GPT‑4o

Przedstawiamy GPT‑4o, nasz nowy flagowy model, który potrafi rozumować w czasie rzeczywistym, wykorzystując dane w postaci dźwięku, informacji wizualnych i tekstu.

Wszystkie filmy na tej stronie są odtwarzane ze zwykłą prędkością odpowiadającą rzeczywistemu upływowi czasu (nie zastosowano cięć).

Zgadywanie ogłoszenia 13 maja.

Ładowanie…

GPT‑4o („o” oznacza „omni”) to krok w kierunku znacznie bardziej naturalnego korzystania z komputera przez człowieka. Dane wejściowe to dowolna kombinacja tekstu, dźwięku, obrazu i wideo. Model generuje dowolne połączenie danych wyjściowych w postaci tekstu, dźwięku i obrazu. Potrafi odpowiedzieć na dane wejściowe audio w 232 milisekundy (średni czas to 320 milisekund), czyli w czasie zbliżonym do czasu odpowiedzi człowieka(otwiera nowe okno) podczas rozmowy. Dorównuje wydajnością modelowi GPT‑4 Turbo w przypadku tekstu w języku angielskim i kodu. Jego wydajność w przypadku tekstu w językach innych niż angielski uległa znacznej poprawie. Jednocześnie jest on znacznie szybszy i o 50% tańszy w przypadku korzystania z niego przy użyciu interfejsu API. Model GPT‑4o radzi sobie lepiej w porównaniu z istniejącymi modelami zwłaszcza w rozumieniu informacji wizualnych i dźwięków.

Zdolności modelu

Przed udostępnieniem modelu GPT‑4o rozmowa z ChatGPT w trybie głosowym wiązała się ze średnim opóźnieniem wynoszącym 2,8 s (GPT‑3.5) i 5,4 s (GPT‑4). Infrastruktura tego trybu głosowego składa się z trzech oddzielnych modeli: prostego modelu przekształcającego dźwięk na tekst, modelu GPT‑3.5 lub GPT‑4 pobierającego tekst i generującego tekstowe dane wyjściowe oraz trzeciego prostego modelu przekształcającego tekst ponownie na dźwięk. W tym procesie główne źródło inteligencji, GPT‑4, traci wiele informacji — nie może bezpośrednio przetwarzać tonu głosu, głosów wielu mówiących ani odgłosów w tle. Nie może również generować danych wyjściowych w postaci śmiechu czy śpiewu ani wyrażać emocji.

W przypadku modelu GPT‑4o wytrenowaliśmy pojedynczy nowy kompleksowy model obsługujący tekst, informacje wizualne i dźwięk. Oznacza to, że wszystkie dane wejściowe i wyjściowe są przetwarzane przez tę samą sieć neuronową. GPT‑4o to nasz pierwszy model łączący wszystkie te modalności, dlatego dopiero zaczynamy odkrywać jego możliwości i ograniczenia.

Odkrywanie zdolności

Wybierz przykład:
1
Dane wejściowe

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Dane wyjściowe
Robot on typewriter
3
Dane wejściowe

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Dane wyjściowe
Robot on typewriter with more text
5
Dane wejściowe

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Dane wyjściowe
Robot ripping sheet

Oceny modelu:

W tradycyjnych testach model GPT‑4o osiąga wydajność GPT‑4 Turbo w zakresie inteligencji dotyczącej tekstu, rozumowania i programowania. Wyznacza jednocześnie nowe standardy w zakresie wielojęzyczności, dźwięku i informacji wizualnych.

Ocena tekstu

Tokenizacja języka

Wybrano 20 poniższych języków jako reprezentatywne dla kompresji nowego tokenizatora w różnych rodzinach językowych.

Gudźarati 4,4x mniej tokenów (od 145 do 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Telugu 3,5x mniej tokenów (od 159 do 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tamilski 3,3x mniej tokenów (od 116 do 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2,9x mniej tokenów (od 96 do 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Hindi 2,9x mniej tokenów (od 90 do 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Urdu 2,5x mniej tokenów (od 82 do 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Arabski 2,0x mniej tokenów (od 53 do 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Perski 1,9x mniej tokenów (od 61 do 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Rosyjski 1,7x mniej tokenów (od 39 do 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Koreański 1,7x mniej tokenów (od 45 do 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Wietnamski 1,5x mniej tokenów (od 46 do 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Chiński 1,4x mniej tokenów (od 34 do 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Japoński 1,4x mniej tokenów (od 37 do 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Turecki 1,3x mniej tokenów (od 39 do 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Włoski 1,2x mniej tokenów (od 34 do 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Niemiecki 1,2x mniej tokenów (od 34 do 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Hiszpański 1,1x mniej tokenów (od 29 do 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Portugalski 1,1x mniej tokenów (od 30 do 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Francuski 1,1x mniej tokenów (od 31 do 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Chiński 1,1x mniej tokenów (od 27 do 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Bezpieczeństwo modelu i ograniczenia

GPT‑4o ma bezpieczeństwo wbudowane we wszystkich modalnościach. Osiągnięto to dzięki takim technikom, jak filtrowanie danych treningowych i udoskonalanie zachowania modelu po trenowaniu. Stworzyliśmy również nowe systemy bezpieczeństwa dla głosowych danych wyjściowych.

Oceny modelu GPT‑4o przeprowadziliśmy zgodnie z naszymi Ramami gotowości i dobrowolnymi zobowiązaniami. Nasze oceny dotyczące cyberbezpieczeństwa, CBRN, perswazji i autonomii modelu pokazują, że model GPT‑4o nie osiąga wyniku wyższego niż średnie ryzyko w żadnej z tych kategorii. Oceny przeprowadzono w sposób zautomatyzowany i ręczny podczas całego okresu testowania modelu. Testowaliśmy zarówno wersje modelu przed wprowadzeniem środków ograniczających ryzyko, jak i po ich zastosowaniu, korzystając z niestandardowej konfiguracji precyzyjnej i poleceń w celu lepszego sprawdzenia możliwości modelu.

GPT‑4o był również dokładnie testowany na zewnątrz przez czerwone zespoły, w skład których weszło ponad 70 zewnętrznych ekspertów z takich dziedzin, jak psychologia społeczna, stronniczość i bezstronność oraz dezinformacja, w celu zidentyfikowania rodzajów ryzyka wywołanego lub zwiększonego przez nowe modalności. Wykorzystaliśmy zdobytą w ten sposób wiedzę do poprawy bezpieczeństwa korzystania z modelu GPT‑4o. Będziemy kontynuować ograniczanie nowych czynników ryzyka w miarę ich wykrywania.

Rozumiemy, że modalności audio modelu GPT‑4o to nowe źródło różnych czynników ryzyka. Dzisiaj publicznie udostępniamy dane wejściowe w postaci tekstu i obrazów oraz tekstowe dane wyjściowe. W ciągu najbliższych tygodni i miesięcy będziemy pracować nad infrastrukturą techniczną, użytecznością po treningu oraz bezpieczeństwem wymaganym do udostępnienia pozostałych modalności. Na przykład w momencie udostępnienia danych wyjściowych audio będą one ograniczone do zestawu gotowych głosów i zgodne z naszymi obowiązującymi zasadami bezpieczeństwa. Więcej szczegółów na temat pełnego zakresu modalności modelu GPT‑4o podamy w nadchodzącej karcie systemu.

Podczas testowania i iteracji modelu zauważyliśmy szereg ograniczeń we wszystkich jego modalnościach. Kilka z nich przedstawiono poniżej.

Przykłady ograniczeń modelu

Chętnie poznamy opinie użytkowników. Pomogą nam one zidentyfikować zadania, w których model GPT‑4 Turbo jest nadal wydajniejszy od modelu GPT‑4o. Dzięki temu będziemy mogli kontynuować ulepszanie modelu GPT‑4o. 

Karta oceny ryzyka modelu ChatGPT-4o

Data aktualizacji: 8 maja 2024 r.

Śledzona kategoria ryzyka
Poziom ryzyka przed podjęciem działań zaradczych
Określa całkowity poziom ryzyka z użyciem najlepszych znanych technik budowania zdolności
Poziom ryzyka po podjęciu działań zaradczych
Określa całkowity poziom ryzyka po wdrożeniu środków zaradczych z użyciem najlepszych znanych technik budowania zdolności
Cyberbezpieczeństwo
Niski
Niski
CBRN
Niski
Niski
Perswazja
Średni
Średni
Autonomia modeli
Niski
Niski

Zgodnie z naszymi Ramami gotowości przeprowadzamy regularne oceny i aktualizujemy karty oceny naszych modeli. Wdrażane są tylko modele, które po zastosowaniu środków ograniczających ryzyko osiągnęły poziom „średni” lub niższy. Ogólny poziom ryzyka dla modelu jest określany na podstawie najwyższego poziomu ryzyka w dowolnej kategorii. Obecnie ryzyko związane z modelem GPT‑4o jest na poziomie średnim – zarówno przed wprowadzeniem środków ograniczających ryzyko, jak i po ich zastosowaniu.

Dostępność modelu

GPT‑4o to nasz najnowszy krok w rozwoju głębokiego uczenia. Tym razem skoncentrowaliśmy się na użyteczności praktycznej. W ciągu ostatnich dwóch lat włożyliśmy wiele wysiłku w poprawę wydajności na każdym poziomie technologii. Pierwszym owocem naszych badań jest udostępnienie modelu na poziomie GPT‑4 szerszemu gronu odbiorców. Zdolności modelu GPT‑4o będą wdrażane iteracyjnie (od dzisiaj rozszerzony dostęp ma czerwony zespół). 

Dzisiaj rozpoczynamy wdrażanie zdolności modelu GPT‑4o w zakresie tekstu i obrazu w ChatGPT. Model GPT‑4o udostępniamy w planie bezpłatnym. Użytkownicy korzystający z planu Plus otrzymają nawet pięciokrotnie większy limit przesyłania wiadomości. W najbliższych tygodniach w planie ChatGPT Plus udostępnimy nową wersję trybu głosowego z modelem GPT‑4o w wersji alfa.

Programiści także mają już dostęp do modelu tekstowego i wizualnego GPT‑4o za pośrednictwem interfejsu API. Model GPT‑4o jest dwa razy szybszy, o połowę tańszy i oferuje pięciokrotnie wyższe limity zapytań w porównaniu z modelem GPT‑4 Turbo. W najbliższych tygodniach planujemy wprowadzić obsługę nowych zdolności audio i wideo modelu GPT‑4o w niewielkiej grupie zaufanych partnerów korzystających z interfejsu API.