Presenterar OpenAI o1‑förhandsgranskning
En ny serie resonemangsmodeller för att lösa svåra problem. Tillgänglig nu.
Uppdatering 17 september, 2024: Gränserna är nu 50 förfrågningar per vecka för o1‑förhandsgranskning och 50 förfrågningar per dag för o1‑mini.
Vi har utvecklat en ny serie AI-modeller som tänker längre innan de svarar. De kan resonera sig fram genom komplexa uppgifter och lösa svårare problem än tidigare modeller inom områden som vetenskap, kodning och matematik.
Idag släpper vi den första i serien i ChatGPT och vårt API. Det här är en förhandsgranskning och vi förväntar oss regelbundna uppdateringar och förbättringar. Med denna utgåva inkluderar vi utvärderingar för nästa uppdatering som nu är i utvecklingsstadiet.
Vi har tränat modellerna att spendera mer tid på att tänka igenom problem innan de svarar, såsom en person skulle göra. Genom träning lär de sig att finjustera sin tankeprocess, prova på olika strategier och inse sina misstag.
I våra tester presterar den nästa modelluppdateringen likt doktorandstudenter vid utmanande riktmärkningsuppgifter inom fysik, kemi och biologi. Vi har också märkt att den utmärker sig i matematik och kodning. I ett kvalificerande prov för den internationella matematikolympiaden (IMO) löste GPT‑4o endast 13 % av problemen, medan resonemangsmodellen löste 83 %. Deras kodningsförmåga utvärderades i tävlingar och nådde 89:e percentilen i Codeforces-tävlingarna. Du kan läsa mer om detta i vårt tekniska forskningsinlägg.
Som en tidig modell har den ännu inte många av funktionerna som gör ChatGPT användbar, såsom att surfa på nätet efter information eller ladda upp filer och bilder. I många vanliga fall kommer GPT‑4o att bli mer kapabel på kort sikt.
Men för komplexa resonemangsuppgifter är detta ett betydande framsteg och innebär AI-förmåga på en helt ny nivå. Med tanke på detta återställer vi räknaren till 1 och kallar den här serien OpenAI o1.
Som en del av utvecklingen av dessa nya modeller har vi utvecklat en ny metod för säkerhetsträning som utnyttjar deras resonemangsförmåga för att få dem att följa riktlinjerna för säkerhet och inriktning. Genom att kunna resonera om våra säkerhetsregler i sammanhang kan den tillämpa dem mer effektivt.
Ett sätt vi mäter säkerheten på är genom att testa hur väl vår modell fortsätter att följa dess säkerhetsregler om en användare försöker åsidosätta dem (kallat ”jailbreaking”). I ett av våra svåraste jailbreaking-tester fick GPT‑4o 22 poäng (på en skala från 0-100) medan vår o1‑förhandsgranskningsmodell fick 84 poäng. Du kan läsa mer om detta i systemkortet och vårt forskningsinlägg.
För att matcha dessa nya modellers förmåga har vi förstärkt vårt säkerhetsarbete, interna tillsyn och samarbete med statliga myndigheter. Detta inkluderar rigorösa tester och utvärderingar genom vårt förberedelseramverk(öppnas i ett nytt fönster), högkvalitativa red teaming och granskningsprocesser på styrelsenivå, inklusive av vår säkerhetskommitté.
För att avancera vårt åtagande för AI-säkerhet ingick vi nyligen avtal med USA och Storbritannien. AI säkerhetsinstitut. Vi har börjat genomföra dessa avtal, genom att bl.a. bevilja instituten tidig åtkomst till den här modellens forskningsversion. Detta var ett viktigt första steg i vårt partnerskap för att hjälpa etablera en process för forskning, utvärdering och testning av framtida modeller före och efter deras offentliga utgivning.
Dessa utökade resonemangsförmågor kan vara särskilt användbara om du stöter på komplexa problem inom vetenskap, kodning, matematik och liknande fält. o1 kan t.ex. användas av forskare inom sjukvården för att kommentera cellsekvenseringsdata, av fysiker för att generera komplicerade matematiska formler som behövs för kvantoptik, och av utvecklare inom alla områden för att skapa och genomföra arbetsflöden i flera steg.
o1‑serien utmärker sig i att korrekt generera och felsöka komplex kod. Vi släpper även OpenAI o1‑mini, en snabbare, billigare resonemangsmodell som är särskilt effektiv vid kodning, för att erbjuda en effektivare lösning till utvecklare. Som en mindre modell är o1‑mini 80 % billigare än o1‑förhandsgranskningen, vilket gör den till en kraftfull, kostnadseffektiv modell för tillämpningar som kräver resonemang utan bred världskunskap.
ChatGPT Plus- och Team -användare får åtkomst till o1‑modellerna i ChatGPT från och med idag. Både o1‑förhandsgranskning och o1‑mini kan väljas manuellt i modellväljaren och vid lansering sätts veckogränsen till 30 meddelanden för o1‑förhandsgranskning och 50 för o1‑mini. Vi jobbar på att öka dessa gränser och att få ChatGPT att automatiskt välja den rätta modellen efter prompt.

ChatGPT Enterprise- och Edu-användare får åtkomst till båda modellerna i början på nästa vecka.
Utvecklare som kvalificerar för API användningsnivå 5(öppnas i ett nytt fönster) kan påbörja prototypframställning med båda modellerna i API:et idag med en gräns på 20 RPM. Vi jobbar på att öka dessa gränser efter ytterligare testning. API:et för dessa modeller inkluderar inte för närvarande funktionsanrop, streaming, stöd för systemmeddelanden och andra funktioner. Se API-dokumentation(öppnas i ett nytt fönster) för att komma igång.
Vi planerar även att ge o1‑mini‑åtkomst till alla ChatGPT gratisanvändare.
Detta är en tidig förhandsgranskning av dessa resonemangsmodeller i ChatGPT och API:et. Utöver modelluppdateringar förväntar vi oss att lägga till surfning, fil- och bilduppladdning samt andra funktioner för att göra dem mer användbara för alla.
Vi planerar också att fortsätta utveckla och släppa modeller i vår GPT‑serie, utöver den nya OpenAI o1‑serien.