18. Juli 2024

GPT‑4o mini: Weiterentwicklung kosteneffizienter Intelligenz

Unser kosteneffizientestes kleines Modell

Laden …

OpenAI hat sich zum Ziel gesetzt, Informationen so breit wie möglich zugänglich zu machen. Heute stellen wir GPT‑4o mini vor, unser kosteneffizientestes kleines Modell. Wir erwarten, dass GPT‑4o mini die Palette der mit KI erstellten Anwendungen erheblich erweitern wird, indem es Intelligenz wesentlich erschwinglicher macht. GPT‑4o mini erreicht 82 % bei MMLU und übertrifft derzeit GPT‑4¹ bei den Chat-Präferenzen im LMSYS Leaderboard⁠(wird in einem neuen Fenster geöffnet). Der Preis beträgt 15 Cent pro Million Eingabe-Tokens und 60 Cent pro Million Output-Tokens, ist also wesentlich günstiger als frühere Frontier-Modelle und über 60 % günstiger als GPT‑3.5 Turbo.

Mit seinen geringen Kosten und Latenzen ermöglicht GPT‑4o mini eine breite Palette von Aufgaben, wie etwa Anwendungen, die mehrere Modellaufrufe verketten oder parallelisieren (z. B. Aufrufen mehrerer API), das Übergeben einer großen Menge an Kontext an das Modell (z. B. vollständige Codebasis oder Konversationsverlauf) oder Kundeninteraktion durch schnelle Textantworten in Echtzeit (z. B. Chatbots für den Kundensupport).

GPT‑4o mini unterstützt aktuell Text und Bilderkennung in der API, und die Unterstützung für Text-, Bild-, Video- und Audio-Eingaben und -Output wird in Zukunft folgen. Das Modell verfügt über ein Kontextfenster von 128.000 Tokens, unterstützt bis zu 16.000 Output-Tokens pro Anfrage und verfügt über Wissen bis Oktober 2023. Dank des verbesserten Tokenizers, der mit GPT‑4o geteilt wird, ist die Verarbeitung von nicht-englischem Text jetzt noch kosteneffizienter.

Ein kleines Modell mit überlegener Textintelligenz und multimodalem Reasoning

GPT‑4o mini übertrifft GPT‑3.5 Turbo und andere kleine Modelle bei akademischen Benchmarks sowohl in der Textintelligenz als auch im multimodalen Reasoning und unterstützt die gleiche Bandbreite an Sprachen wie GPT‑4o. Es zeigt außerdem eine starke Leistung beim Funktionsaufruf, wodurch Entwickler Anwendungen erstellen können, die Daten abrufen oder Aktionen mit externen Systemen ausführen, und hat eine verbesserte Leistung beim langen Kontext im Vergleich zu GPT‑3.5 Turbo.

GPT‑4o mini wurde anhand mehrerer wichtiger Benchmarks bewertet².

Reasoning-Aufgaben: GPT‑4o mini ist bei Reasoning-Aufgaben, die sowohl Text als auch Bild beinhalten, besser als andere kleine Modelle und erreicht 82,0 % bei MMLU, einem Benchmark für Textintelligenz und Reasoning, verglichen mit 77,9 % für Gemini Flash und 73,8 % für Claude Haiku.

Mathematik- und Codierungskompetenzen: GPT‑4o mini schneidet bei mathematischen Reasoning- und Codierungsaufgaben hervorragend ab und übertrifft frühere kleine Modelle auf dem Markt. Bei MGSM, dem Test zum mathematischen Reasoning, erreichte GPT‑4o mini 87,0 %, verglichen mit 75,5 % für Gemini Flash und 71,7 % für Claude Haiku. GPT‑4o mini erreichte bei HumanEval, einem Test zur Messung der Codierungsleistung, 87,2 %, verglichen mit 71,5 % für Gemini Flash und 75,9 % für Claude Haiku.

Multimodales Reasoning: GPT‑4o mini zeigt auch eine starke Leistung bei MMMU, einer multimodalen Reasoning-Bewertung, mit 59,4 % im Vergleich zu 56,1 % für Gemini Flash und 50,2 % für Claude Haiku.

Bewertung der Modelle

Wir haben im Rahmen unseres Modellentwicklungsprozesses mit einigen ausgewählten vertrauenswürdigen Partnern zusammengearbeitet, um die Anwendungsfälle und Einschränkungen von GPT‑4o mini besser zu verstehen. Wir haben uns mit Unternehmen wie Ramp⁠(wird in einem neuen Fenster geöffnet) und Superhuman⁠(wird in einem neuen Fenster geöffnet) zusammengeschlossen, die festgestellt haben, dass GPT‑4o mini bei Aufgaben wie dem Extrahieren strukturierter Daten aus Quittungsdateien oder dem Generieren qualitativ hochwertiger E-Mail-Antworten mit Thread-Verlauf eine deutlich bessere Leistung als GPT‑3.5 Turbo bietet.

Integrierte Sicherheitsvorkehrungen

Sicherheit ist von Anfang an in unsere Modelle integriert und wird in jedem Schritt unseres Entwicklungsprozesses verstärkt. Im Pre-Training filtern⁠(wird in einem neuen Fenster geöffnet) wir Informationen heraus, von denen unsere Modelle nicht lernen oder die sie nicht ausgeben sollen, wie etwa Hassreden, Inhalte für Erwachsene, Websites, die hauptsächlich persönliche Daten sammeln, und Spam. Im Post-Training passen wir das Verhalten des Modells mithilfe von Techniken wie Reinforcement Learning mit menschlichem Feedback (RLHF)⁠ an unsere Richtlinien an, um die Genauigkeit und Zuverlässigkeit der Modellantworten zu verbessern.

In GPT‑4o mini sind die gleichen Sicherheitsvorkehrungen integriert wie in GPT‑4o⁠, die wir gemäß unserem Preparedness Framework⁠ und in Einklang mit unseren freiwilligen Verpflichtungen⁠ sorgfältig mithilfe automatisierter als auch menschlicher Bewertungen geprüft haben. Mehr als 70 externe Experten aus Bereichen wie Sozialpsychologie und Falschinformationen haben GPT‑4o getestet, um potenzielle Risiken zu identifizieren. Wir haben uns mit diesen Risiken befasst und planen, die Einzelheiten dazu in der kommenden GPT‑4o‑Systemkarte und der Preparedness-Beurteilung bekannt zu geben. Die Erkenntnisse aus diesen Expertenbewertungen haben dazu beigetragen, die Sicherheit von GPT‑4o und GPT‑4o mini zu verbessern.

Aufbauend auf diesen Erkenntnissen arbeiteten unsere Teams auch daran, die Sicherheit von GPT‑4o mini mithilfe neuer, auf unserer Forschung basierender Techniken zu verbessern. GPT‑4o mini in der API ist das erste Modell, das unsere Methode der Befehlshierarchie⁠(wird in einem neuen Fenster geöffnet) anwendet, die dazu beiträgt, die Widerstandsfähigkeit des Modells gegen Jailbreaks, Prompt-Injections und System-Prompt-Extraktionen zu verbessern. Dadurch werden die Antworten des Modells zuverlässiger und es wird sicherer für den Einsatz in Anwendungen im großen Maßstab.

Wir werden weiterhin überwachen, wie GPT‑4o mini verwendet wird, und die Sicherheit des Modells verbessern, wenn wir neue Risiken erkennen.

Verfügbarkeit und Preisgestaltung

GPT‑4o mini ist jetzt als Text- und Bilderkennungs-Modell in der Assistenten-API, Chatabschlüsse-API und Batch-API verfügbar. Entwickler zahlen 15 Cent pro 1 Million Eingabe-Tokens und 60 Cent pro 1 Million Output-Tokens (das entspricht ungefähr 2.500 Seiten eines Standardbuchs). Wir planen, in den kommenden Tagen Feinabstimmungen für GPT‑4o mini einzuführen.

In ChatGPT können Free-, Plus- und Team-Benutzer ab heute auf GPT‑4o mini anstelle von GPT‑3.5 zugreifen. Im Einklang mit unserem Ziel, die Vorteile der KI allen zugänglich zu machen, haben Enterprise-Benutzer ab nächster Woche ebenfalls Zugriff.

So geht es weiter

In den vergangenen Jahren haben wir bemerkenswerte Fortschritte im Bereich der künstlichen Intelligenz erlebt, verbunden mit erheblichen Kostensenkungen. Beispielsweise sind die Kosten pro Token von GPT‑4o mini seit text-davinci-003, einem weniger leistungsfähigen Modell, das 2022 eingeführt wurde, um 99 % gesunken. Wir sind entschlossen, diesen Kurs der Kostensenkung bei gleichzeitiger Verbesserung der Modellfähigkeiten fortzusetzen.

Unsere Vision ist eine Zukunft, in der Modelle nahtlos in jede App und jede Website integriert werden. T-4o mini ebnet Entwicklern den Weg, leistungsstarke KI-Anwendungen effizienter und kostengünstiger zu erstellen und zu skalieren. Die Zukunft der KI wird zugänglicher, zuverlässiger und in unsere täglichen digitalen Erfahrungen integriert, und wir freuen uns, dabei weiterhin eine Vorreiterrolle einzunehmen.

Autor

OpenAI

Anerkennungen

Führungskräfte: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

Programmleiter: Mianna Chen

Beiträge vermerkt unter https://openai.com/gpt-4o-contributions/⁠

Fußnoten

1
Stand 18. Juli 2024, eine frühere Version von GPT-4o mini übertrifft GPT-4T 01-25.
2
Die Evaluierungszahlen für GPT-4o mini werden mit unserem simple-evals⁠(wird in einem neuen Fenster geöffnet)-Repository und dem API-Assistant-Systemnachrichten-Prompt berechnet. Bei Wettbewerbermodellen verwenden wir den höchsten Wert aus ihrer angegebenen Zahl (sofern verfügbar), dem HELM⁠(wird in einem neuen Fenster geöffnet)-Leaderboard und unserer eigenen Reproduktion mittels simple-evals.