Hallo GPT‑4o
GPT‑4o ist da, unser neues Flagship-Modell mit Reasoning für Audio, visuelle Eingaben und Text in Echtzeit.
Die Ankündigung vom 13. Mai wird erraten.
GPT‑4o („o“ für „omni“) ist der nächste Schritt in Richtung einer viel natürlicheren Interaktion zwischen Mensch und Computer. Als Eingabe akzeptiert es eine beliebige Kombination aus Text, Audio, Bild und Video, auf deren Grundlage es eine beliebige Kombination aus Text-, Audio- und Bildausgaben erzeugt. Es kann auf Audioeingaben in nur 232 Millisekunden reagieren und gibt seine Antworten durchschnittlich nach 320 Millisekunden, was der menschlichen Reaktionszeit(wird in einem neuen Fenster geöffnet) in einem Gespräch entspricht. Bei Text und Code auf Englisch bringt die neue Version die gleiche Leistung wie GPT‑4 Turbo. Zudem zeigt sie sich bei Text in anderen Sprachen außer Englisch deutlich verbessert und ist gleichzeitig viel schneller mit einer um 50 % günstigeren API. Insbesondere verarbeitet GPT‑4o visuelle Eingaben und Audio deutlich besser als vorangehende Modelle.
Fähigkeiten des Modells
Zwei Instanzen von GPT‑4o interagieren und singen miteinander.
Vorbereitung fürs Vorstellungsgespräch.
Stein, Schere, Papier.
Sarkasmus.
Mathematik mit Sal und Imran Khan.
Zwei GPT‑4o‑Modelle singen in perfekter Harmonie.
Auf Gegenstände zeigen und Spanisch lernen.
Videokonferenz mit KI.
Dolmetschen.
Schlaflied.
Schneller sprechen.
Happy Birthday.
Hund.
Flachwitze.
GPT‑4o mit Andy von BeMyEyes in London.
Machbarkeitsnachweis für Kundendienst.
Vor GPT‑4o ließ sich der Sprachmodus von ChatGPT mit einer durchschnittlichen Latenzzeit von 2,8 Sekunden (GPT‑3.5) beziehungsweise 5,4 Sekunden (GPT‑4) für Gespräche nutzen. Dazu verwendete der Sprachmodus drei separate Modelle: Ein einfaches Modell transkribierte Audio in Text, GPT‑3.5 oder GPT‑4 nahm Text auf und gab ihn aus und ein drittes einfaches Modell wandelte diesen Text wieder in Audio um. Bei diesem Prozess verlor GPT‑4 als Hauptquelle der Intelligenz viele Informationen, konnte keine Töne, mehrere Sprecher oder Hintergrundgeräusche wahrnehmen und war auch nicht in der Lage, Lachen oder Singen auszugeben oder Gefühle ausdrücken.
Mit GPT‑4o haben wir ein einziges neues Modell durchgängig für Text, visuelle Eingaben und Audio trainiert, sodass alle Eingaben und Ausgaben von demselben neuronalen Netz verarbeitet werden. Da GPT‑4o unser erstes Modell ist, das all diese Fähigkeiten kombiniert, stehen wir erst ganz am Anfang unserer Forschungsarbeit zu den Möglichkeiten und Grenzen dieses Modells.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Gemessen an traditionellen Benchmarks erreicht GPT‑4o die Leistung von GPT‑4 Turbo in den Bereichen Text, logisches Denken und Programmierung. Gleichzeitig setzt es neue Maßstäbe bei Mehrsprachigkeit, Audio und visueller Eingabe.
Text-Evaluation
Diese 20 Sprachen wurden als repräsentativ für die Kompression des neuen Tokenizers in verschiedenen Sprachfamilien ausgewählt.
Gujarati 4,4x weniger Tokens (von 145 auf 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
Telugu 3,5× weniger Tokens (von 159 auf 45) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
Tamil 3,3× weniger Tokens (von 116 auf 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
Marathi 2,9x weniger Tokens (von 96 auf 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
Hindi 2,9x weniger Tokens (von 90 auf 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
Urdu 2,5× weniger Tokens (von 82 auf 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
Arabisch 2,0x weniger Tokens (von 53 auf 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
Persisch 1,9x weniger Tokens (von 61 auf 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
Russisch 1,7x weniger Tokens (von 39 auf 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
Koreanisch 1,7x weniger Tokens (von 45 auf 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
Vietnamesisch 1,5× weniger Tokens (von 46 auf 30) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
Chinesisch 1,4-mal weniger Tokens (von 34 auf 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
Japanisch 1,4x weniger Tokens (von 37 auf 26) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
Türkisch 1,3× weniger Tokens (von 39 auf 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
Italienisch 1,2x weniger Tokens (von 34 auf 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
Deutsch 1,2x weniger Tokens (von 34 auf 29) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
Spanisch 1,1× weniger Tokens (von 29 auf 26) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
Portugiesisch 1,1x weniger Tokens (von 30 auf 27) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
Französisch 1,1x weniger Tokens (von 31 auf 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
Englisch 1,1-mal weniger Tokens (von 27 auf 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4o verfügt über integrierte Sicherheitsmaßnahmen für alle Modalitäten durch Techniken wie das Filtern von Trainingsdaten und die Verfeinerung des Modellverhaltens durch Post-Training. Darüber hinaus haben wir neue Sicherheitssysteme entwickelt, um die Sprachausgabe abzusichern.
Wir haben das GPT‑4o gemäß unserem Preparedness Framework und im Einklang mit unseren freiwilligen Verpflichtungen bewertet. Unsere Bewertungen von Cybersicherheit, CBRN-Gefahren, Überzeugungskraft und Modellautonomie zeigen, dass GPT‑4o in allen diesen Kategorien maximal ein mittleres Risikoniveau aufweist. Diese Bewertung umfasste eine Reihe automatischer und menschlicher Auswertungen während des gesamten Trainingsprozesses des Modells. Wir haben die Versionen des Modells sowohl vor als auch nach der Umsetzung von Sicherheitsmaßnahmen getestet. Dabei kamen individuell angepasste Feinabstimmungen und Prompts zum Einsatz, um die Fähigkeiten des Modells besser herauszuarbeiten.
Darüber hinaus wurde GPT‑4o einem umfassenden externen Red-Teaming mit über 70 unternehmensfremden Experten in Bereichen wie Sozialpsychologie, Voreingenommenheit und Fairness sowie Fehlinformationen unterzogen, um Risiken zu ermitteln, die durch die neu hinzugefügten Modalitäten eingeführt oder verstärkt werden könnten. Diese Erkenntnisse haben wir dazu genutzt, unsere Sicherheitsmaßnahmen auszubauen und die Sicherheit im Umgang mit GPT‑4o weiter zu verbessern. Wir werden auch weiterhin neue Risiken mindern, sobald sie entdeckt werden.
Wir sind uns bewusst, dass die Audiomodalitäten von GPT‑4o eine Vielzahl neuer Risiken beinhalten. Heute geben wir Text- und Bildeingaben sowie Textausgaben öffentlich frei. In den kommenden Wochen und Monaten werden wir durch weiteres Training an der technischen Infrastruktur, der Benutzerfreundlichkeit und der für die Freigabe der anderen Modalitäten erforderlichen Sicherheit arbeiten. Zum Beispiel wird die Audioausgabe zum Start auf eine Auswahl voreingestellter Stimmen beschränkt sein und unseren bestehenden Sicherheitsrichtlinien entsprechen. Auf der kommenden Systemkarte werden wir weitere Einzelheiten über die gesamte Bandbreite der Modalitäten von GPT‑4o bekannt geben.
Bei unseren Tests und Iterationen mit dem Modell haben wir mehrere Einschränkungen festgestellt, die für alle Modalitäten des Modells gelten und von denen einige im Folgenden dargestellt werden.
Beispiele für Einschränkungen des Modells
Wir freuen uns auf dein Feedback hinsichtlich aller Aufgaben, bei denen GPT‑4 Turbo immer noch besser abschneidet als GPT‑4o, damit wir das Modell weiter verbessern können.
Aktualisiert am 8. Mai 2024
Im Rahmen unseres Preparedness Frameworks führen wir regelmäßig Bewertungen durch und aktualisieren die Scorecards unserer Modelle. Es werden ausschließlich Modelle mit einer Bewertung von maximal „mittel“ bereitgestellt, wobei das Gesamtrisiko eines Modells durch die höchste Risikostufe in jeder Kategorie bestimmt wird. Gegenwärtig wird GPT‑4o sowohl vor als auch nach Umsetzung der Abhilfemaßnahmen mit einem mittleren Risiko bewertet.
GPT‑4o ist unser jüngster Versuch, die Grenzen des Deep Learning zu verschieben, diesmal in Richtung praktischer Nutzbarkeit. In den letzten zwei Jahren haben wir viel Zeit und Mühe darauf verwendet, die Effizienz aller Aspekte unserer Technologie zu verbessern. Das erste Ergebnis dieser Forschung besteht darin, dass wir nun einer breiten Nutzerbasis ein GPT‑4‑Modell bereitstellen können. Alle Funktionen und Fähigkeiten von GPT‑4o werden schrittweise eingeführt (ab heute mit erweitertem Zugang für das Red-Teaming).
Die Text- und Bildfunktionen von GPT‑4o werden ab heute in ChatGPT bereitgestellt. Wir stellen GPT‑4o in der kostenlosen Version und für Plus-Benutzer mit bis zu 5-mal höheren Nachrichtenlimits zur Verfügung. In den kommenden Wochen werden wir eine neue Version des Audiomodus mit GPT‑4o in der Alpha-Version von ChatGPT Plus einführen.
Zudem können Entwickler ab sofort über die API auf GPT‑4o als Text- und visuelles Modell zugreifen. GPT‑4o ist 2-mal schneller bei halbierten Kosten und hat 5-mal höhere Nutzungslimits als GPT‑4 Turbo. Die API-Unterstützung der neuen Audio- und Videofunktionen von GPT‑4o ist innerhalb der kommenden Wochen für eine kleine Gruppe vertrauenswürdiger Partner geplant.