Wir haben GPT‑4 entwickelt, den neuesten Meilenstein von OpenAI zu Erweiterung von Deep Learning. GPT‑4 ist ein großes multimodales Modell (das Bild- und Texteingaben akzeptiert und Textausgaben ausgibt). Es ist zwar in vielen realen Szenarien weniger leistungsfähig als Menschen, zeigt jedoch bei verschiedenen professionellen und akademischen Benchmarks eine Leistung auf menschlichem Niveau. Es besteht beispielsweise eine simulierte Anwaltsprüfung mit einem Ergebnis, das zu den besten 10 % der Prüfungsteilnehmer gehört; im Gegensatz dazu lag das Ergebnis von GPT‑3.5 in den unteren 10 %. Wir haben sechs Monate damit verbracht, GPT‑4 iterativ anzupassen und dabei die Erkenntnisse aus unserem Adversarial-Testprogramm sowie ChatGPT zu nutzen. Dies resultierte in unseren bisher besten Ergebnissen (wenn auch bei Weitem nicht perfekt) hinsichtlich Faktizität, Steuerbarkeit und der Weigerung, über die zur Sicherheit gesetzten Einschränkungen hinauszugehen.
In den vergangenen zwei Jahren haben wir unseren gesamten Deep-Learning-Stack neu aufgebaut und gemeinsam mit Azure von Grund auf einen Supercomputer für unsere Arbeitslast entwickelt. Vor einem Jahr haben wir GPT‑3.5 als ersten „Testlauf“ des Systems trainiert. Wir haben einige Fehler gefunden und behoben und unsere theoretischen Grundlagen verbessert. Infolgedessen war unser GPT‑4‑Trainingslauf (zumindest für uns!) beispiellos stabil und wurde zu unserem ersten großen Modell, dessen Trainingsleistung wir im Voraus genau vorhersagen konnten. Während wir uns weiterhin auf eine zuverlässige Skalierung konzentrieren, möchten wir unsere Methodik verfeinern, um zukünftige Fähigkeiten immer frühzeitiger vorhersagen und uns darauf vorbereiten zu können, da wir dies als entscheidend für die Sicherheit erachten.
Wir veröffentlichen die Texteingabefunktion von GPT‑4 über ChatGPT und die API (mit einer Warteliste). Um die Bildeingabefunktion für eine breitere Verfügbarkeit vorzubereiten, arbeiten wir zunächst eng mit einem einzelnen Partner(wird in einem neuen Fenster geöffnet) zusammen. Wir stellen außerdem OpenAI Evals(wird in einem neuen Fenster geöffnet), unser Framework zur automatisierten Bewertung der Leistung von KI-Modellen, als Open Source zur Verfügung. So kann jeder Benutzer Mängel in unseren Modellen melden und dadurch weitere Verbesserungen anstoßen.
In einem informellen Gespräch kann der Unterschied zwischen GPT‑3.5 und GPT‑4 subtil sein. Der Unterschied wird offensichtlich, wenn die Komplexität der Aufgabe einen bestimmten Schwellenwert erreicht – GPT‑4 ist zuverlässiger, kreativer und kann wesentlich differenziertere Anweisungen verarbeiten als GPT‑3.5.
Um den Unterschied zwischen den beiden Modellen zu verstehen, haben wir eine Reihe von Benchmark-Tests durchgeführt, darunter die Simulation von Prüfungen, die ursprünglich für Menschen entwickelt wurden. Wir haben die aktuellsten öffentlich verfügbaren Tests verwendet (im Fall der Olympiaden und AP-Freitextfragen) oder die Übungsprüfungsausgaben 2022/23 gekauft. Wir haben kein spezifisches Training für diese Prüfungen durchgeführt. Eine Minderheit der Probleme in den Prüfungen wurde vom Modell während des Trainings erkannt, wir glauben jedoch, dass die Ergebnisse repräsentativ sind – Einzelheiten findest du in unserem technischen Bericht(wird in einem neuen Fenster geöffnet).
Interne Referenz 1
Wir haben GPT‑4 auch anhand traditioneller Benchmarks für Modelle des maschinellen Lernens bewertet. GPT‑4 übertrifft bestehende große Sprachmodelle erheblich, ebenso wie die meisten hochmodernen (SOTA) Modelle, die Benchmark-spezifische Erstellungs- oder zusätzliche Trainingsprotokolle enthalten können:
Viele bestehende ML-Benchmarks sind auf Englisch verfasst. Um einen ersten Eindruck von der Leistungsfähigkeit in anderen Sprachen zu bekommen, haben wir die MMLU-Benchmark – eine Reihe von 14.000 Multiple-Choice-Aufgaben zu 57 Themen – mithilfe von Azure Translate in verschiedene Sprachen übersetzt (siehe Anhang). In 24 von 26 getesteten Sprachen übertrifft GPT‑4 die Leistung von GPT‑3.5 und anderen LLM (Chinchilla, PaLM) in der englischen Sprache, einschließlich bei Sprachen mit eingeschränkten Ressourcen wie Lettisch, Walisisch und Suaheli:
Wir haben GPT‑4 auch intern verwendet, mit großem Einfluss auf Funktionen wie Support, Vertrieb, Inhaltsmoderation und Programmierung. Wir nutzen es auch, um Menschen bei der Bewertung von KI-Ergebnissen zu unterstützen und beginnen damit die zweite Phase unserer Ausrichtungsstrategie.
GPT‑4 kann eine Eingabeaufforderung mit Text und Bildern akzeptieren, die es dem Benutzer – parallel zur Nur-Text-Einstellung – ermöglicht, beliebige visuelle oder Sprachaufgaben einzugeben. Konkret bedeutet dies, dass Textausgaben (natürliche Sprache, Code usw.) aus Eingaben generiert werden, die aus eingestreutem Text und Bildern bestehen. In einer Reihe von Bereichen – einschließlich Dokumenten mit Text und Fotos, Diagrammen oder Screenshots – weist GPT‑4 ähnliche Fähigkeiten auf wie bei Nur-Text-Eingaben. Darüber hinaus kann es durch Testzeittechniken erweitert werden, die für reine Textsprachmodelle entwickelt wurden, darunter Few-Shot- und Gedankenreihen(wird in einem neuen Fenster geöffnet)-Prompting. Bei den Bildeingaben handelt es sich um eine Forschungsvorschau, sie sind noch nicht öffentlich verfügbar.
Wir bewerten die Leistung von GPT‑4 im Vorfeld anhand einer kleinen Reihe standardmäßiger, akademischer visueller Benchmarks. Diese Zahlen spiegeln jedoch nicht das gesamte Leistungsspektrum wider, da wir ständig neue und spannende Aufgaben entdecken, die das Modell bewältigen kann. Wir planen, in Kürze weitere Analysen und Bewertungsmetriken sowie eine gründliche Untersuchung der Auswirkungen von Testzeittechniken zu veröffentlichen.
InterneFußnoteA
Wir haben an jedem Aspekt des in unserem Beitrag zur Definition des Verhaltens von KI umrissenen Plans gearbeitet, einschließlich der Steuerbarkeit. Anstelle der klassischen ChatGPT‑Persönlichkeit, bei der Ausführlichkeit, Ton und Stil festgesetzt sind, können Entwickler (und bald auch ChatGPT‑Benutzer) ihrer KI jetzt den Stil und die Aufgabe vorgeben, indem sie diese Anweisungen in der „System“-Nachricht beschreiben. Mithilfe von Systemnachrichten können API-Benutzer ihr Benutzererlebnis innerhalb bestimmter Grenzen(wird in einem neuen Fenster geöffnet) erheblich anpassen. Wir werden hier weiterhin Verbesserungen vornehmen (und wissen insbesondere, dass Systemnachrichten der einfachste Weg sind, das aktuelle Modell zu „jailbreaken“, d. h., die Einhaltung der Grenzen ist nicht perfekt), aber wir regen dich dazu an, es auszuprobieren und uns deine Meinung mitzuteilen.
Trotz seiner Fähigkeiten weist GPT‑4 ähnliche Einschränkungen auf wie frühere GPT‑Modelle. Vor allem ist es noch immer nicht vollkommen zuverlässig (es „halluziniert“ Fakten und macht Fehler beim Reasoning). Bei der Verwendung von Sprachmodell-Outputs ist große Sorgfalt geboten, insbesondere in Kontexten mit hohem Risiko. Das genaue Protokoll (wie etwa menschliche Überprüfung, Untermauerung mit zusätzlichem Kontext oder vollständige Vermeidung von Anwendungen mit hohem Risiko) muss den Anforderungen eines bestimmten Anwendungsfalls entsprechen.
Obwohl sie immer noch ein echtes Problem darstellen, reduziert GPT‑4 Halluzinationen im Vergleich zu früheren Modellen (die sich selbst mit jeder Iteration verbessert haben) erheblich. GPT‑4 erzielt bei unseren internen Bewertungen der kontroversen Faktizität 40 % höhere Werte als unser aktuellstes GPT‑3.5:
Wir haben Fortschritte bei externen Benchmarks gemacht, wie TruthfulQA, das die Fähigkeit des Modells testet, Fakten von einer Reihe von falsch ausgewählten Aussagen zu trennen. Diese Fragen sind mit sachlich falschen, aber statistisch ansprechenden Antworten gepaart.
Das GPT‑4‑Basismodell ist bei dieser Aufgabe nur geringfügig besser als GPT‑3.5. Nach dem RLHF-Post-Training (unter Anwendung desselben Prozesses, den wir bei GPT‑3.5 verwendet haben) besteht jedoch eine große Lücke. Bei der Untersuchung einiger nachfolgender Beispiele stellte sich heraus, dass sich GPT‑4 gegen die Auswahl gängiger Sprichwörter (was Hänschen nicht lernt, lernt Hans nimmermehr) sträubt, subtile Details aber dennoch übersehen kann (Elvis Presley war nicht der Sohn eines Schauspielers).
Die Outputs des Modells können verschiedene Verzerrungen aufweisen. Wir haben diesbezüglich Fortschritte erzielt, aber es besteht weiterhin Verbesserungsbedarf. Wie in unserem aktuellsten Blogbeitrag beschrieben, möchten wir den von uns entwickelten KI-Systemen angemessene Standardverhaltensweisen antrainieren, die die Werte eines breiten Spektrums der Benutzer widerspiegeln und eine Anpassung dieser Systeme in weiten Grenzen ermöglichen. Außerdem möchten wir öffentliche Einblicke dazu erhalten, was diese Grenzen sein sollten.
GPT‑4 verfügt im Allgemeinen nicht über Kenntnisse zu Ereignissen, die nach dem Wissensstichtag (September 2021) eingetreten sind, und lernt nicht aus seinen Erfahrungen. Manchmal unterlaufen ihm einfache Reasoning-Fehler, die nicht mit der Kompetenz in so vielen Bereichen vereinbar scheinen, oder es ist übermäßig leichtgläubig und akzeptiert offensichtlich falsche Aussagen eines Benutzers. Außerdem kann es an schwierigen Problemen auf die gleiche Weise wie Menschen scheitern, beispielsweise indem es Sicherheitslücken in Code einbaut, den es erstellt.
GPT‑4 kann mit seinen Vorhersagen auch stark falschliegen, weil es seine Arbeit nicht doppelt überprüft, wenn die Wahrscheinlichkeit eines Fehlers besteht. Interessanterweise ist das vorab trainierte Basismodell hochgradig kalibriert (die prognostizierte Zuverlässigkeit einer Antwort entspricht im Allgemeinen der Wahrscheinlichkeit, dass sie richtig ist). Durch unseren aktuellen Post-Training-Prozess wird die Kalibrierung jedoch reduziert.
Wir haben GPT‑4 iterativ weiterentwickelt, um es von Beginn des Trainings an sicherer und besser abgestimmt zu machen. Zu unseren Bemühungen gehörten die Auswahl und Filterung der Vortrainingsdaten, Bewertungen und Einbindung von Experten, Verbesserungen der Modellsicherheit sowie Überwachung und Durchsetzung.
GPT‑4 birgt ähnliche Risiken wie frühere Modelle, beispielsweise die Generierung schädlicher Ratschläge, fehlerhaften Codes oder ungenauer Informationen. Die zusätzlichen Fähigkeiten von GPT‑4 führen jedoch zu neuen Risikobereichen. Um das Ausmaß dieser Risiken zu verstehen, haben wir über 50 Experten aus Bereichen wie KI-Ausrichtungsrisiken, Cybersicherheit, Biorisiko, Vertrauen und Sicherheit sowie internationale Sicherheit beauftragt, das Modell einem Adversarial-Test zu unterziehen. Ihre Erkenntnisse ermöglichten es uns insbesondere, das Modellverhalten in Hochrisikobereichen zu testen, für deren Bewertung Fachwissen erforderlich ist. Das Feedback und die Daten dieser Experten flossen in unsere Maßnahmen zur Schadensbegrenzung und Verbesserung des Modells ein. Beispielsweise haben wir zusätzliche Daten gesammelt, um die Fähigkeit von GPT‑4 zu verbessern, Anfragen zur Synthese gefährlicher Chemikalien abzulehnen.
GPT‑4 integriert während des RLHF-Trainings ein zusätzliches Sicherheitsbelohnungssignal, um schädliche Outputs (wie in unseren Nutzungsrichtlinien(wird in einem neuen Fenster geöffnet) definiert) zu reduzieren, indem das Modell trainiert wird, Anfragen für solche Inhalte abzulehnen. Die Belohnung wird durch einen GPT‑4‑Zero‑Shot‑Klassifikator bereitgestellt, der Sicherheitsgrenzen und den Abschlussstil bei sicherheitsrelevanten Prompts beurteilt. Um zu verhindern, dass das Modell gültige Anfragen ablehnt, sammeln wir einen vielfältigen Datensatz aus verschiedenen Quellen (z. B. gekennzeichnete Produktionsdaten, menschliches Red-Teaming, vom Modell generierte Prompts) und wenden das Sicherheitsbelohnungssignal (mit einem positiven oder negativen Wert) sowohl auf zulässige als auch auf nicht zulässige Kategorien an.
Unsere Maßnahmen zur Minderung haben viele der Sicherheitseigenschaften von GPT‑4 im Vergleich zu GPT‑3.5 deutlich verbessert. Wir haben die Tendenz des Modells, auf Anfragen nach nicht zulässigen Inhalten zu reagieren, im Vergleich zu GPT‑3.5 um 82 % verringert, und GPT‑4 reagiert auf sensible Anfragen (z. B. medizinischer Rat und Selbstverletzung) 29 % häufiger gemäß unseren Richtlinien.
Insgesamt wird es durch unsere Interventionen auf Modellebene schwieriger, schlechtes Verhalten hervorzurufen, aber es ist immer noch möglich. Darüber hinaus gibt es immer noch „Jailbreaks“, um Inhalte zu generieren, die gegen unsere Nutzungsrichtlinien verstoßen. Da das „Risiko pro Token“ von KI-Systemen zunimmt, wird es von entscheidender Bedeutung sein, bei diesen Eingriffen ein extrem hohes Maß an Zuverlässigkeit zu erreichen. Derzeit ist es wichtig, diese Einschränkungen durch Sicherheitstechniken zum Zeitpunkt der Bereitstellung zu ergänzen, beispielsweise durch die Überwachung auf Missbrauch.
GPT‑4 und Nachfolgemodelle haben das Potenzial, die Gesellschaft sowohl positiv als auch negativ zu beeinflussen. Wir arbeiten mit externen Forschern zusammen, um unser Verständnis und unsere Einschätzung potenzieller Auswirkungen zu verbessern und Bewertungen für gefährliche Fähigkeiten zu erstellen, die in zukünftigen Systemen auftreten können. Wir werden bald mehr über unsere Überlegungen zu den potenziellen sozialen und wirtschaftlichen Auswirkungen von GPT‑4 und anderen KI-Systemen mitteilen.
Wie frühere GPT‑Modelle wurde das GPT‑4‑Basismodell darauf trainiert, das nächste Wort in einem Dokument vorherzusagen. Dabei wurden sowohl öffentlich verfügbare Daten (wie etwa Internetdaten) als auch von uns lizenzierte Daten verwendet. Bei den Daten handelt es sich um ein internetweites Datenkorpus, das richtige und falsche Lösungen für mathematische Probleme, schwache und starke Argumentationen sowie widersprüchliche und konsistente Aussagen enthält und eine große Vielfalt an Ideologien und Ideen repräsentiert.
Wenn also eine Frage gestellt wird, kann das Basismodell auf viele verschiedene Arten antworten, die möglicherweise nicht mit der Absicht des Benutzers übereinstimmen. Um es innerhalb der zur Sicherheit gesetzten Einschränkungen an die Absicht des Benutzers anzupassen, optimieren wir das Verhalten des Modells mithilfe von bestärkendem Lernen mit menschlichem Feedback (RLHF).
Beachte, dass die Fähigkeiten des Modells in erster Linie aus dem Vortrainingsprozess zu stammen scheinen – RLHF verbessert die Prüfungsleistung nicht (ohne aktive Bemühungen verschlechtert es sie sogar). Die Steuerung des Modells erfolgt jedoch durch den Post-Training-Prozess. Das Basismodell erfordert Prompt Engineering, um überhaupt zu wissen, dass es die Fragen beantworten soll.
Ein großer Schwerpunkt des GPT‑4‑Projekts lag auf dem Aufbau eines Deep-Learning-Stacks, der vorhersehbar skaliert. Der Hauptgrund besteht darin, dass bei sehr umfassenden Trainingsläufen wie GPT‑4 keine umfassende modellspezifische Feinabstimmung möglich ist. Wir haben eine Infrastruktur und Optimierung entwickelt, die über mehrere Maßstäbe hinweg ein sehr vorhersehbares Verhalten aufweist. Um diese Skalierbarkeit zu überprüfen, haben wir den endgültigen Verlust von GPT‑4 auf unserer internen Codebasis (nicht Teil des Trainingssatzes) im Voraus genau vorhergesagt, indem wir ihn von Modellen extrapoliert haben, die mit der gleichen Methodik trainiert wurden, aber 10.000-mal weniger Rechenleistung benötigten:
Da wir nun die Metrik, die wir während des Trainings optimieren (Verlust), genau vorhersagen können, beginnen wir mit der Entwicklung einer Methodik zur Vorhersage besser interpretierbarer Metriken. Beispielsweise konnten wir die Erfolgsquote für eine Teilmenge des HumanEval(wird in einem neuen Fenster geöffnet)-Datensatzes erfolgreich vorhersagen, indem wir Modelle mit 1.000-mal weniger Rechenleistung extrapolierten:
Einige Fähigkeiten sind immer noch schwer vorherzusagen. Beim Inverse Scaling Prize beispielsweise handelte es sich um einen Wettbewerb zur Suche nach einer Metrik, die sich mit zunehmender Modellberechnung verschlechtert. Einer der Gewinner war die rückblickende Vernachlässigung(wird in einem neuen Fenster geöffnet). Genau wie bei einem anderen aktuellen Ergebnis(wird in einem neuen Fenster geöffnet) kehrt GPT‑4 den Trend um:
Wir sind davon überzeugt, dass die genaue Vorhersage zukünftiger Fähigkeiten des maschinellen Lernens ein wichtiger Aspekt der Sicherheit ist, dem im Verhältnis zu seinen potenziellen Auswirkungen jedoch nicht annähernd genug Aufmerksamkeit geschenkt wird (obwohl die Bemühungen mehrerer Institutionen uns ermutigt haben). Wir verstärken unsere Bemühungen, Methoden zu entwickeln, die der Gesellschaft eine bessere Orientierung darüber bieten, was sie von zukünftigen Systemen erwarten kann, und wir hoffen, dass dies zu einem gemeinsamen Ziel in diesem Feld wird.
Wir machen OpenAI Evals(wird in einem neuen Fenster geöffnet), unser Software-Framework zum Erstellen und Ausführen von Benchmarks zur Bewertung von Modellen wie GPT‑4, zur Open Source und überprüfen gleichzeitig deren Leistung Stichprobe für Stichprobe. Wir verwenden Evals, um die Entwicklung unserer Modelle zu steuern (sowohl um Mängel zu erkennen, als auch um Regressionen zu verhindern), und unsere Benutzer können es zur Leistungsverfolgung über verschiedene Modellversionen hinweg (die nun regelmäßig erscheinen) und zur Weiterentwicklung von Produktintegrationen einsetzen. Stripe hat beispielsweise Evals als Ergänzung zu seinen menschlichen Bewertungen verwendet, um die Genauigkeit seines GPT‑basierten Dokumentationstools zu messen.
Da der Code vollständig Open Source ist, unterstützt Evals das Schreiben neuer Klassen zur Implementierung benutzerdefinierter Bewertungslogik(wird in einem neuen Fenster geöffnet). Unserer eigenen Erfahrung nach folgen viele Benchmarks jedoch einer von wenigen „Vorlagen“. Daher haben wir auch die Vorlagen aufgenommen(wird in einem neuen Fenster geöffnet), die sich intern als am nützlichsten erwiesen haben (einschließlich einer Vorlage für „vom Modell beurteilte Bewertungen“ – wir haben festgestellt, dass GPT‑4 überraschend gut in der Lage ist, seine eigene Arbeit zu überprüfen). Im Allgemeinen besteht die effektivste Möglichkeit zum Erstellen einer neuen Bewertung(wird in einem neuen Fenster geöffnet) darin, eine dieser Vorlagen zu instanziieren und gleichzeitig Daten bereitzustellen. Wir sind gespannt, was andere mit diesen Vorlagen und mit Evals im Allgemeinen erstellen können.
Wir hoffen, dass Evals zu einem Mittel wird, um Benchmarks zu teilen und per Crowdsourcing zu ermitteln und ein möglichst breites Spektrum an Fehlermodi und schwierigen Aufgaben darzustellen. Als Beispiel haben wir eine Auswertung von Logikrätseln(wird in einem neuen Fenster geöffnet) erstellt, die zehn Prompts enthält, bei denen GPT‑4 fehlschlägt. Evals ist auch mit der Implementierung vorhandener Benchmarks kompatibel. Wir haben mehrere Notebooks(wird in einem neuen Fenster geöffnet) mit der Implementierung akademischer Benchmarks und einige Variationen der Integration (kleiner Teilmengen) von CoQA(wird in einem neuen Fenster geöffnet) als Beispiel aufgenommen.
Wir laden alle dazu ein, Evals zu verwenden, um unsere Modelle zu testen und die interessantesten Beispiele einzureichen. Wir sind davon überzeugt, dass Evals ein integraler Bestandteil des Prozesses zur Nutzung und Weiterentwicklung unserer Modelle sein wird, und freuen uns über direkte Beiträge, Fragen und Feedback(wird in einem neuen Fenster geöffnet).
Abonnenten von ChatGPT Plus erhalten Zugriff auf GPT‑4 auf chatgpt.com(wird in einem neuen Fenster geöffnet) mit einer Nutzungsobergrenze. Wir werden die genaue Nutzungsobergrenze je nach Bedarf und Systemleistung in der Praxis anpassen, rechnen jedoch damit, dass die Kapazität stark eingeschränkt sein wird (wir werden jedoch in den kommenden Monaten hochskalieren und optimieren).
Abhängig von den von uns beobachteten Verkehrsmustern führen wir möglicherweise eine neue Abonnementstufe für die Nutzung von GPT‑4 mit höherem Volumen ein. Außerdem hoffen wir, irgendwann eine gewisse Anzahl kostenloser Anfragen auf GPT‑4 anbieten zu können, damit auch diejenigen ohne Abonnement es ausprobieren können.
Um Zugriff auf die GPT‑4‑API zu erhalten (die dieselbe ChatCompletions API(wird in einem neuen Fenster geöffnet) wie gpt-3.5-turbo verwendet), melde dich bitte für unsere Warteliste an. Wir werden heute damit beginnen, einige Entwickler einzuladen und die Kapazität schrittweise zu erhöhen, um sie mit der Nachfrage auszugleichen. Wenn du als Forscher die gesellschaftlichen Auswirkungen von KI oder Themen in Verbindung mit der KI-Ausrichtung untersuchst, kannst du über unser Researcher Access Program auch einen subventionierten Zugriff beantragen.
Sobald Zugriff gewährt wurde, können Nur-Text-Anfragen an das gpt-4-Modell gestellt werden (Bildeingaben befinden sich noch in der eingeschränkten Alpha-Phase). Wir aktualisieren dieses automatisch auf unser empfohlenes stabiles Modell, wenn wir im Laufe der Zeit neue Versionen erstellen (die aktuelle Version kann durch Aufrufen von gpt-4-0314 angeheftet werden, das wir bis zum 14. Juni unterstützen). Der Preis beträgt 0,03 USD pro 1.000 Prompt-Tokens und 0,06 USD pro 1.000 Completion-Tokens. Die Standard-Ratenbegrenzungen betragen 40.000 Tokens pro Minute und 200 Anfragen pro Minute.
gpt-4 hat eine Kontextlänge von 8.192 Tokens. Wir bieten außerdem eingeschränkten Zugriff auf unsere Version mit 32.768 Kontexten (ca. 50 Seiten Text), gpt-4-32k, die im Laufe der Zeit ebenfalls automatisch aktualisiert wird (aktuelle Version gpt-4-32k-0314, ebenfalls bis 14. Juni unterstützt). Der Preis beträgt 0,06 USD pro 1.000 Prompt-Tokens und 0,12 USD pro 1.000 Completion-Tokens. Wir verbessern weiterhin die Modellqualität für lange Kontexte und würden uns über Feedback zu ihrer Leistung in deinem Anwendungsfall freuen. Wir verarbeiten Anfragen für die 8K- und 32K-Engines je nach Kapazität mit unterschiedlichen Raten, daher erhältst du möglicherweise zu unterschiedlichen Zeiten Zugriff darauf.
Wir freuen uns darauf, dass GPT‑4 durch die Unterstützung zahlreicher Anwendungen zu einem wertvollen Werkzeug wird, das Menschen das Leben erleichtert. Es gibt noch viel zu tun, und wir freuen uns darauf, dieses Modell durch die gemeinsamen Anstrengungen der Community zu verbessern, die darauf aufbaut, es erforscht und zu ihm beiträgt.
Mehr: Artikel lesen(wird in einem neuen Fenster geöffnet) / Systemkarte anzeigen(wird in einem neuen Fenster geöffnet) / Auf ChatGPT Plus ausprobieren(wird in einem neuen Fenster geöffnet) / In Playground ausprobieren(wird in einem neuen Fenster geöffnet) / Demo-Livestream erneut anzeigen(wird in einem neuen Fenster geöffnet) / Zu OpenAI Evals beitragen(wird in einem neuen Fenster geöffnet)
Beispiel für MMLU-Fragen, übersetzt in andere Sprachen. Hinweis: Wir verwenden konsistente Auswahltokens (A–D):
Fußnoten
- A
Wir bewerten diese Benchmark mithilfe von Gedankenreihen-Prompting mit 4 Beispielen aus dem Trainingsset im Kontext. Das spezielle Prompt wurde auf den Validierungssatz abgestimmt.
Referenzen
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Weitere Analysen sind in der Abhandlung(wird in einem neuen Fenster geöffnet) verfügbar.


