4. April 2024

Verbesserungen an der API zur Feinabstimmung und Erweiterung unseres Programms für benutzerspezifische Modelle

Wir fügen neue Funktionen hinzu, um Entwicklern mehr Kontrolle über die Feinabstimmung zu geben, und kündigen neue Möglichkeiten zum Erstellen benutzerspezifischer Modelle mit OpenAI an.

Abstraktes Blumenkunstwerk mit wirbelnden Orange- und Gelbtönen und einem Hauch Lila, das an einen sommerlichen Blumenstrauß erinnert.

Laden …

Update vom 8. Mai 2026: OpenAI stellt die Fine-Tuning-Plattform schrittweise ein. Die Plattform ist für neue Nutzer:innen nicht mehr zugänglich, aber bestehende Nutzer:innen der Fine-Tuning-Plattform können in den kommenden Monaten weiterhin Training-Jobs erstellen. Alle feinabgestimmten Modelle bleiben für die Inferenz verfügbar, bis ihre Basismodelle eingestellt⁠(wird in einem neuen Fenster geöffnet) werden. Den vollständigen Zeitplan findest du hier⁠(wird in einem neuen Fenster geöffnet).

Es gibt eine Reihe von Techniken,⁠(wird in einem neuen Fenster geöffnet) mit denen Entwickler:innen die Leistung eines Modells steigern und so die Latenz verringern, die Genauigkeit verbessern und die Kosten senken können. Ob die Erweiterung des Modellwissens mit Retrieval-Augmented Generation (RAG), die Anpassung des Verhaltens eines Modells durch Fine-Tuning oder das Erstellen eines benutzerspezifisch trainierten Modells mit neuem fachspezifischem Wissen: Wir haben eine Reihe von Optionen entwickelt, um die KI-Implementierungen unserer Kund:innen zu unterstützen. Heute führen wir neue Funktionen ein, die Entwickler:innen mehr Kontrolle über das Fine-Tuning mit der API geben und mehr Möglichkeiten zur Zusammenarbeit mit unserem Team aus KI-Expert:innen und Forschenden bei der Erstellung benutzerspezifischer Modelle einführen.

Neue Funktionen der API zur Feinabstimmung

Wir haben die Self-Service-API zur Feinabstimmung⁠(wird in einem neuen Fenster geöffnet) für GPT‑3.5 im August 2023 eingeführt. Seitdem haben Tausende von Organisationen Hunderttausende von Modellen mit unserer API trainiert. Durch Feinabstimmung können Modelle Inhalte tiefgehend verstehen, und die vorhandenen Kenntnisse und Fähigkeiten eines Modells für eine bestimmte Aufgabe können erweitert werden. Unsere API zur Feinabstimmung unterstützt außerdem eine größere Anzahl von Beispielen, als in einen einzelnen Prompt passen, um qualitativ hochwertigere Ergebnisse zu erzielen und gleichzeitig Kosten und Latenz zu verringern. Zu den gängigen Anwendungsfällen der Feinabstimmung gehören das Trainieren eines Modells, um besseren Code in einer bestimmten Programmiersprache zu generieren, Text in einem bestimmten Format zusammenzufassen oder personalisierte Inhalte basierend auf dem Benutzerverhalten zu erstellen.

Beispielsweise möchte Indeed⁠(wird in einem neuen Fenster geöffnet), eine globale Jobbörse, den Einstellungsprozess vereinfachen. In diesem Zusammenhang haben sie eine Funktion eingeführt, die Arbeitssuchenden personalisierte Empfehlungen sendet und relevante Stellen auf Grundlage ihrer Fähigkeiten, Erfahrungen und Präferenzen hervorhebt. Sie haben GPT‑3.5 Turbo feinabgestimmt, um qualitativ hochwertigere und genauere Erklärungen zu generieren. Dadurch schaffte es Indeed, Kosten und Latenz zu verbessern, indem die Anzahl der Tokens in Prompts um 80 % reduziert wurde. Als Ergebnis konnten sie ihre Anzahl von weniger als einer Million Nachrichten an Arbeitssuchende pro Monat auf rund 20 Millionen steigern.

Heute führen wir neue Funktionen⁠(wird in einem neuen Fenster geöffnet) ein, die Entwicklern noch mehr Kontrolle über ihre Feinabstimmung geben, darunter:

Epochenbasierte Checkpoint-Erstellung: Automatische Erstellung eines vollständig feinabgestimmten Modell-Checkpoints während jeder Trainingsepoche, wodurch die Notwendigkeit eines nachfolgenden erneuten Trainings, insbesondere in Fällen von Überanpassung, reduziert wird
Vergleichender Playground: Eine neue Playground-Benutzeroberfläche mit nebeneinander angeordneten Ansichten zum Vergleich von Modellqualität und -leistung, die menschliche Bewertungen der Outputs mehrerer Modelle oder die Feinabstimmung von Snapshots anhand eines einzigen Prompts ermöglicht
Drittanbieter-Integration: Unterstützung für Integrationen mit Plattformen von Drittanbietern (beginnend mit Weights and Biases⁠(wird in einem neuen Fenster geöffnet) in dieser Woche), damit Entwickler detaillierte Feinabstimmungsdaten mit dem Rest ihres Stacks teilen können
Umfassende Validierungsmetriken: Die Möglichkeit, Metriken wie Verlust und Genauigkeit über den gesamten Validierungsdatensatz anstatt nur über einen Stichprobensatz zu berechnen und so bessere Einblicke in die Modellqualität zu erhalten
Hyperparameter-Konfiguration: Die Möglichkeit, verfügbare Hyperparameter über das Dashboard⁠(wird in einem neuen Fenster geöffnet) zu konfigurieren (und nicht nur über die API oder das SDK)
Verbesserungen am Dashboard zur Feinabstimmung: Einschließlich der Möglichkeit, Hyperparameter zu konfigurieren, detailliertere Trainingsmetriken anzuzeigen und Jobs aus früheren Konfigurationen erneut auszuführen

Eine Präsentation der Erstellung eines neuen Feinabstimmungsmodells in Playground.

Erweiterung unseres Programms für benutzerspezifische Modelle

Unterstützte Feinabstimmung

Beim DevDay im vergangenen November haben wir in Zusammenarbeit mit einer engagierten Gruppe von OpenAI Forschern ein Programm für benutzerspezifische Modelle angekündigt⁠, das darauf ausgelegt ist, Modelle für einen bestimmten Fachbereich zu trainieren und zu optimieren. Seitdem haben wir uns mit Dutzenden von Kunden getroffen, um ihren Bedarf an benutzerspezifischen Modellen zu ermitteln, und unser Programm weiterentwickelt, um die Leistung zu maximieren.

Heute geben wir offiziell unser Angebot der unterstützten Feinabstimmung als Teil des Programms für benutzerspezifische Modelle bekannt. Für die unterstützte Feinabstimmung haben unsere technischen Teams zusammengearbeitet, um Techniken zu nutzen, die über die API zur Feinabstimmung hinaus gehen, z. B. zusätzliche Hyperparameter und verschiedene Methoden zur parametereffizienten Feinabstimmung (PEFT) in größerem Maßstab. Dies ist besonders hilfreich für Organisationen, die Unterstützung beim Einrichten effizienter Trainingsdaten-Pipelines, Bewertungssysteme und maßgeschneiderter Parameter und Methoden benötigen, um die Modellleistung für ihren Anwendungsfall oder ihre Aufgabe zu maximieren.

SK Telecom⁠(wird in einem neuen Fenster geöffnet) beispielsweise, ein Telekommunikationsbetreiber mit über 30 Millionen Abonnenten in Südkorea, wollte ein Modell so anpassen, dass es ein Experte im Bereich der Telekommunikation ist, mit einem anfänglichen Fokus auf den Kundendienst. Sie haben mit OpenAI zusammengearbeitet, um GPT‑4 zu optimieren und seine Leistung bei Gesprächen zur Telekommunikation in koreanischer Sprache zu verbessern. Im Laufe mehrerer Wochen erzielten SKT und OpenAI eine deutliche Leistungsverbesserung bei Kundendienstaufgaben im Telekommunikationsbereich – eine Steigerung der Qualität der Gesprächszusammenfassung um 35 %, eine Steigerung der Genauigkeit der Absichtserkennung um 33 % und eine Steigerung der Zufriedenheitswerte von 3,6 auf 4,5 (von 5) beim Vergleich des feinabgestimmten Modells mit GPT‑4.

Benutzerspezifisch trainiertes Modell

In einigen Fällen müssen Organisationen von Grund auf ein speziell entwickeltes Modell trainieren, das ihr Geschäft, ihre Branche oder ihren Fachbereich versteht. Vollständig benutzerspezifisch trainierte Modelle erlangen neues Wissen aus einem bestimmten Fachbereich, indem wichtige Schritte des Modelltrainingsprozesses mithilfe neuartiger Techniken während und nach dem Training modifiziert werden. Organisationen, die mit einem vollständig benutzerspezifisch trainierten Modell Erfolg haben, verfügen oft über große Mengen proprietärer Daten – Millionen von Beispielen oder Milliarden von Tokens –, die sie verwenden möchten, um dem Modell neues Wissen oder komplexe, einzigartige Verhaltensweisen für äußerst spezifische Anwendungsfälle beizubringen.

Harvey⁠(wird in einem neuen Fenster geöffnet), ein KI-natives Rechtstool für Anwälte, hat beispielsweise mit OpenAI zusammengearbeitet, um ein benutzerspezifische trainiertes großes Sprachmodell für die Rechtsprechung zu erstellen⁠. Zwar verfügten die Grundlagenmodelle über eine starke Argumentationsfähigkeit, ihnen fehlte jedoch das umfassende Wissen zur juristischen Fallgeschichte und andere Kenntnisse, die für die juristische Arbeit erforderlich sind. Nachdem Harvey Prompt Engineering, RAG und Feinabstimmung getestet hatte, arbeiteten sie mit unserem Team daran, dem Modell die nötige Kontexttiefe hinzuzufügen – das Äquivalent von Daten im Wert von 10 Milliarden Token. Unser Team hat jeden Schritt des Modelltrainingsprozesses angepasst, vom fachspezifischen Training über die Anpassung der Post-Training-Prozesse bis hin zur Einbeziehung des Feedbacks erfahrener Anwälte. Das daraus entstandene Modell erzielte eine Steigerung der faktisch akkuraten Antworten um 83 %, und Anwälte bevorzugten in 97 % der Fälle die Ergebnisse des angepassten Modells gegenüber GPT‑4.

Ein Vergleich von GPT-4 und einem benutzerspezifischen GPT-4-Modell. Das daraus entstandene Modell erzielte eine Steigerung der faktisch akkuraten Antworten um 83 %, und Anwälte bevorzugten in 97 % der Fälle die Ergebnisse des angepassten Modells gegenüber GPT-4.

Die Zukunft benutzerspezifischer Modelle

Wir glauben, dass Organisationen in Zukunft mehrheitlich benutzerspezifische Modelle entwickeln werden, die auf ihre Branche, ihr Geschäft oder ihren Anwendungsfall zugeschnitten sind. Dank der Vielzahl an verfügbaren Techniken zum Erstellen benutzerspezifischer Modelle können Unternehmen jeder Größe personalisierte Modelle entwickeln, um mit ihren KI-Implementierungen eine aussagekräftigere und spezifischere Wirkung zu erzielen. Der Schlüssel liegt darin, den Anwendungsfall klar abzugrenzen, Bewertungssysteme zu entwerfen und zu implementieren, die richtigen Techniken auszuwählen und bereit zu sein, im Laufe der Zeit Anpassungen durchzuführen, damit das Modell eine optimale Leistung erreicht.

Mit OpenAI können die meisten Organisationen mithilfe der Self-Service-API zur Feinabstimmung schnell aussagekräftige Ergebnisse erzielen. Allen Organisationen, die ihre Modelle intensiver feinabstimmen oder ihnen neues, fachspezifisches Wissen hinzufügen müssen, kann unser Programm für benutzerspezifische Modelle helfen.

Besuche unsere Dokumente zur API zur Feinabstimmung⁠(wird in einem neuen Fenster geöffnet), um mit der Feinabstimmung unserer Modelle zu beginnen.