Maak kennis met OpenAI o1‑preview
Een nieuwe serie redeneermodellen voor het oplossen van moeilijke problemen. Nu verkrijgbaar.
Update op 17 september 2024: De limieten zijn nu 50 verzoeken per week voor o1‑preview en 50 verzoeken per dag voor o1‑mini.
We hebben een nieuwe reeks AI-modellen ontwikkeld, die wat langer nadenken voordat ze reageren. Ze kunnen complexe taken beredeneren en moeilijkere problemen oplossen dan eerdere modellen in wetenschap, programmeren en wiskunde.
Vandaag introduceren we de eerste van deze serie in ChatGPT en onze API. Dit is een preview en we verwachten regelmatig updates en verbeteringen. Naast deze release nemen we ook evaluaties op voor de volgende update, die momenteel in ontwikkeling is.
We hebben deze modellen getraind om meer tijd te besteden aan het doordenken van problemen voordat ze reageren, net zoals een mens dat zou doen. Door training leren ze hun denkproces te verfijnen, verschillende strategieën uit te proberen en hun fouten te herkennen.
In onze tests presteert de volgende modelupdate vergelijkbaar met promovendi op uitdagende benchmarktaken in natuurkunde, scheikunde en biologie. We hebben ook ontdekt dat het uitblinkt in wiskunde en programmeren. In een kwalificatie-examen voor de Internationale Wiskunde Olympiade (IMO) loste GPT‑4o slechts 13% van de problemen correct op, terwijl het redeneringsmodel 83% scoorde. Hun programmeervaardigheden werden geëvalueerd in wedstrijden en bereikten het 89e percentiel in Codeforces-wedstrijden. Je kunt hier meer over lezen in onze technische onderzoekspost.
Als vroeg model heeft het nog niet veel van de functies die ChatGPT nuttig maken, zoals surfen op internet voor informatie en het uploaden van bestanden en afbeeldingen. Voor veel voorkomende gevallen zal GPT‑4o op korte termijn beter geschikt zijn.
Maar voor complexe redeneertaken is dit een aanzienlijke vooruitgang en vertegenwoordigt het een nieuw niveau van AI-capaciteit. Daarom zetten we de teller terug op 1 en noemen we deze serie OpenAI o1.
Als onderdeel van de ontwikkeling van deze nieuwe modellen hebben we een nieuwe benadering voor veiligheidstraining bedacht die gebruik maakt van hun redeneervermogen om ze te laten voldoen aan de richtlijnen voor veiligheid en afstemming. Door te kunnen redeneren over onze veiligheidsregels in context, kan het ze effectiever toepassen.
Eén manier waarop we veiligheid meten is door te testen hoe goed ons model de veiligheidsregels blijft volgen als een gebruiker ze probeert te omzeilen (bekend als 'jailbreaken'). In een van onze moeilijkste jailbreak-tests scoorde GPT‑4o 22 (op een schaal van 0-100) terwijl ons o1‑voorbeeldmodel 84 scoorde. Meer info hierover in de systeemkaart en onze onderzoekspost.
Om aan de nieuwe mogelijkheden van deze modellen te voldoen, hebben we ons veiligheidswerk, ons intern bestuur en onze samenwerking met de federale overheid versterkt. Dit omvat strenge tests en evaluaties met behulp van onze Preparedness Framework(opent in een nieuw venster), best-in-class red teaming en beoordelingsprocessen op directieniveau, onder andere door onze veiligheids- en beveiligingscommissie.
Om ons streven naar AI-veiligheid te bevorderen, hebben we onlangs formele overeenkomsten gesloten met de Amerikaanse en Britse autoriteiten. AI-veiligheidsinstituten. We zijn begonnen met het operationaliseren van deze overeenkomsten, onder andere door de instituten vroegtijdige toegang te geven tot een onderzoeksversie van dit model. Dit was een belangrijke eerste stap in ons partnerschap, die hielp om een proces op te zetten voor het onderzoeken, evalueren en testen van toekomstige modellen voorafgaand aan en na hun publieke introductie.
Deze verbeterde redeneercapaciteiten kunnen vooral handig zijn als je complexe problemen aanpakt in de wetenschap, programmeren, wiskunde en soortgelijke gebieden. Zo kan o1 bijvoorbeeld worden gebruikt door onderzoekers in de gezondheidszorg om gegevens van celsequenties te annoteren, door natuurkundigen om ingewikkelde wiskundige formules te genereren die nodig zijn voor kwantumoptica, evenals door ontwikkelaars op alle gebieden om workflows met meerdere stappen te bouwen en uit te voeren.
De o1‑serie blinkt uit in het nauwkeurig genereren en debuggen van complexe code. Om ontwikkelaars een efficiëntere oplossing te bieden, brengen we ook OpenAI o1‑mini uit, een sneller en goedkoper redeneermodel dat bijzonder effectief is bij programmeren. Als kleiner model is o1‑mini 80% goedkoper dan o1‑preview, waardoor het een krachtig, kosteneffectief model is voor toepassingen die redeneren vereisen, maar geen brede kennis van de wereld.
ChatGPT Plus- en Team- gebruikers krijgen vanaf vandaag toegang tot o1‑modellen in ChatGPT. Zowel o1‑preview als o1‑mini kunnen handmatig worden geselecteerd in de modelkiezer en bij de lancering zijn de wekelijkse limieten 30 berichten voor o1‑preview en 50 voor o1‑mini. We werken eraan om deze percentages te verhogen en ChatGPT automatisch het juiste model te laten kiezen voor een bepaalde prompt.

ChatGPT Enterprise- en Edu- gebruikers krijgen vanaf volgende week toegang tot beide modellen.
Ontwikkelaars die in aanmerking komen voor API-gebruik niveau 5(opent in een nieuw venster) kunnen vandaag beginnen met prototypen met beide modellen in de API met een snelheidslimiet van 20 RPM. We werken eraan om deze limieten te verhogen na aanvullende tests. De API voor deze modellen bevat momenteel geen functie-aanroepen, streaming, ondersteuning voor systeemberichten en andere functies. Bekijk de API-documentatie(opent in een nieuw venster)om aan de slag te gaan.
We zijn ook van plan om o1‑mini toegang te geven tot alle ChatGPT Free-gebruikers.
Dit is een voorproefje van deze redeneermodellen in ChatGPT en de API. Naast modelupdates verwachten we browsen, uploaden van bestanden en afbeeldingen en andere functies toe te voegen om ze nuttiger te maken voor iedereen.
We zijn ook van plan om door te gaan met het ontwikkelen en uitbrengen van modellen in onze GPT‑serie, naast de nieuwe OpenAI o1‑serie.