12. september 2024

Vi præsenterer OpenAI o1‑forhåndsvisning

En ny serie ræsonneringsmodeller til løsning af svære problemer. Tilgængelig nu.

Indlæser ...

Opdatering den 17. september 2024: Brugsgrænserne er nu 50 forespørgsler om ugen for o1‑forhåndsvisning og 50 forespørgsler om dagen for o1‑mini.

Vi har udviklet en ny serie AI-modeller, der er designet til at bruge mere tid på at tænke, før de svarer. De kan ræsonnere sig gennem komplekse opgaver og løse sværere problemer end tidligere modeller inden for videnskab, kodning og matematik.

Vi lancerer i dag den første del af serien i ChatGPT og vores API. Dette er en forhåndsvisning, og vi forventer regelmæssige opdateringer og forbedringer. Ud over lanceringen inkluderer vi også evalueringer til den næste opdatering, som er under udvikling.

Sådan fungerer det

Vi har trænet modellerne til at bruge mere tid på at gennemtænke et problem, før de svarer, ligesom et menneske ville gøre. Gennem træningen lærer de at finjustere deres tankeproces, afprøve forskellige strategier og erkende deres fejl.

I vores tests præsterer den næste modelopdatering på niveau med ph.d.-studerende i krævende benchmark-opgaver inden for fysik, kemi og biologi. Modellen klarer sig desuden særligt godt inden for matematik og programmering. I en kvalificerende eksamen til den internationale matematikolympiade (IMO) løste GPT‑4o kun 13 % af problemerne korrekt, mens ræsonneringsmodellen scorede 83 %. Deres evner inden for programmering blev vurderet gennem konkurrencer og nåede op i den 89. percentil i Codeforces-konkurrencer. Det kan du læse mere om i vores tekniske forskningsindlæg.

Da det er en tidlig model, har den endnu ikke mange af de funktioner, der gør ChatGPT nyttig, som f.eks. at søge efter information på nettet og uploade filer og billeder. I mange almindelige brugsscenarier vil GPT‑4o fortsat være mere velegnet på kort sigt.

Men til komplekse ræsonneringsopgaver er det et betydeligt fremskridt og nyt niveau inden for AI-kapacitet. Derfor sætter vi tælleren tilbage til 1 og navngiver denne serie OpenAI o1.

Sikkerhed

Som led i udviklingen af de nye modeller har vi introduceret en ny tilgang til sikkerhedstræning, der udnytter modellernes evne til at ræsonnere til at sikre, at de overholder retningslinjerne for sikkerhed og tilpasning. Ved at kunne tænke over reglerne i kontekst er modellen bedre i stand til at anvende dem korrekt.

En af måderne, vi måler sikkerhed på, er ved at teste, hvor godt modellen overholder sine sikkerhedsregler, også når en bruger forsøger at omgå dem (kendt som “jailbreaking”). I en af vores sværeste jailbreak-tests scorede GPT‑4o (på en skala fra 0 til 100) 22, mens vores o1‑forhåndsvisningsmodel scorede 84. Du kan læse mere om dette i systemkortet og vores forskningsindlæg..

For at matche modellernes nye muligheder har vi styrket vores sikkerhedsarbejde, interne styring og samarbejdet med offentlige myndigheder. Det omfatter grundige tests og evalueringer baseret på vores beredskabsramme⁠(åbner i et nyt vindue), red teaming i topklasse og beslutningsgennemgang på bestyrelsesniveau – herunder af vores sikkerhedskomité.

For at fremme vores engagement i AI-sikkerheden har vi for nylig formaliseret vores aftaler med USA og Storbritanniens institutter for AI-sikkerhed. Vi er i gang med at omsætte disse aftaler til praksis, herunder at give institutterne tidlig adgang til en forskningsversion af modellen. Det er et vigtigt første skridt i samarbejdet, som skal etablere en proces for forskning, evaluering og test af fremtidige modeller – både før og efter offentlig lancering.

Hvem serien henvender sig til

De forbedrede ræsonneringsevner kan være særligt nyttige, hvis du arbejder med komplekse problemstillinger inden for videnskab, programmering, matematik eller lignende områder. For eksempel kan o1 bruges af sundhedsforskere til at annotere data fra celle-sekventering, af fysikere til at udlede komplicerede matematiske formler inden for kvanteoptik og af udviklere i alle brancher til at opbygge og gennemføre flertrins-arbejdsgange.

OpenAI o1-mini

o1‑serien er fremragende til at generere og fejlsøge kompleks kode med stor præcision. For at tilbyde en mere effektiv løsning til udviklere lancerer vi også OpenAI o1‑mini, en hurtigere og billigere ræsonneringsmodel, der er særligt effektiv til kodning. Som en mindre model er o1‑mini 80 % billigere end forhåndsvisningen af o1, hvilket gør den til en stærk, omkostningseffektiv model til applikationer, der kræver ræsonnement, men ikke nødvendigvis en bredere viden om verden.

Sådan bruger du OpenAI o1

ChatGPT Plus- og Team-brugere vil kunne få adgang til o1‑modellerne i ChatGPT allerede fra i dag. Både forhåndsvisningen af o1 og o1‑mini kan vælges manuelt i modelvælgeren, og ved lanceringen vil de ugentlige brugsgrænser være 30 beskeder for o1‑forhåndsvisning og 50 for o1‑mini. Vi arbejder på at øge disse tal og gøre det muligt for ChatGPT automatisk at vælge den rigtige model til en given forespørgsel.

Et billede af den nye ChatGPT-dropdownmenu, der viser den nye "o1-preview"-model over en lys gul og blå abstrakt baggrund.

ChatGPT Enterprise- og Edu-brugere får adgang til begge modeller fra næste uge.

Udviklere, der kvalificerer sig til API-brugsniveau 5⁠(åbner i et nyt vindue), kan begynde at lave prototyper med begge modeller i API'en fra i dag, med en brugsgrænse på 20 RPM. Vi arbejder på at øge disse grænser efter yderligere test. API'en til modellerne omfatter i øjeblikket ikke funktionskald, streaming, understøttelse af systemmeddelelser og andre funktioner. Se API-dokumentationen⁠(åbner i et nyt vindue) for at komme i gang.

Vi har også planer om at give alle gratis ChatGPT-brugere adgang til o1‑mini.

Kommende tiltag

Der er tale om en tidlig forhåndsvisning af ræsonneringsmodellerne i ChatGPT og API'en. Ud over modelopdateringer forventer vi at tilføje funktioner som internetsøgning, upload af filer og billeder samt andre værktøjer, der skal gøre dem mere nyttige for alle.

Vi planlægger også at fortsætte udviklingen og lanceringen af modeller i vores GPT‑serie, ud over den nye OpenAI o1‑serie.

Skabt af

OpenAI