12. september 2024

Vi presenterer OpenAI o1‑preview

En ny serie av resonneringsmodeller for å løse vanskelige problemer. Tilgjengelig nå.

Laster inn …

Oppdatert 17. september 2024: Bruksgrensene er nå 50 meldinger per uke for o1‑preview og 50 meldinger per dag for o1‑mini.

Vi har utviklet en ny serie AI-modeller som er designet for å bruke mer tid på å tenke før de svarer. De kan resonnere gjennom komplekse oppgaver og løse vanskeligere problemer enn tidligere modeller innen vitenskap, koding og matematikk.

I dag lanserer vi den første i denne serien i ChatGPT og API-en vår. Dette er en forhåndsvisning, og vi forventer regelmessige oppdateringer og forbedringer. Sammen med denne utgivelsen inkluderer vi også evalueringer for den neste oppdateringen, som for tiden er under utvikling.

Slik fungerer det

Vi lærte opp disse modellene til å bruke mer tid på å tenke gjennom problemer før de svarer, slik et menneske ville gjort. Gjennom opplæring lærer de å forbedre tankeprosessen sin, prøve forskjellige strategier og gjenkjenne feil.

I testene våre presterer den neste modelloppdateringen på samme nivå som doktorgradsstudenter på utfordrende referanseoppgaver innen fysikk, kjemi og biologi. Vi har også funnet at den utmerker seg i matematikk og koding. I en kvalifiseringsprøve for den internasjonale matematikkolympiaden (IMO) løste GPT‑4o kun 13 % av oppgavene riktig, mens resonneringsmodellen oppnådde 83 %. Kodeferdighetene ble evaluert i konkurranser og nådde den 89. persentilen i Codeforces-konkurranser. Du kan lese mer om dette i vårt tekniske research-innlegg.

Som en tidlig modell har den ennå ikke mange av funksjonene som gjør ChatGPT nyttig, som å søke på nettet etter informasjon og opplasting av filer og bilder. For mange vanlige tilfeller vil GPT‑4o være mer kapabel på kort sikt.

For komplekse resonneringsoppgaver er dette imidlertid et betydelig fremskritt og representerer et nytt nivå av AI-evner. Gitt dette, tilbakestiller vi telleren til 1 og kaller denne serien OpenAI o1.

Sikkerhet

Som en del av utviklingen av disse nye modellene, har vi utviklet en ny sikkerhetsopplæringsmetode. Den utnytter resonneringsevnene deres for å etterleve retningslinjer for sikkerhet og tilpasning. Ved å kunne resonnere om sikkerhetsreglene våre i kontekst, kan den anvende dem mer effektivt.

En måte vi måler sikkerhet på, er ved å teste hvor godt modellen vår fortsetter å følge sikkerhetsreglene hvis en bruker prøver å omgå dem (kjent som «jailbreaking»). På en av våre vanskeligste jailbreaking-tester, fikk GPT‑4o 22 poeng (på en skala fra 0–100) mens o1‑preview‑modellen fikk 84 poeng. Du kan lese mer om dette i systemkortet og research-innlegget vårt.

For å matche de nye evnene til disse modellene har vi styrket vårt sikkerhetsarbeid, interne styring og samarbeid med offentlige myndigheter. Dette inkluderer grundig testing og evaluering ved hjelp av beredskapsrammeverket⁠(åpnes i et nytt vindu) vårt, førsteklasses red-team-øvelser og gjennomgangsprosesser på styrenivå, inkludert av vår sikkerhetskomité.

For å styrke vårt engasjement for AI-sikkerhet har vi nylig formalisert avtaler med USA og Storbritannia. Institutter for AI-sikkerhet. Vi har begynt å operasjonalisere disse avtalene, inkludert å gi instituttene tidlig tilgang til en research-versjon av denne modellen. Dette var et viktig første skritt i partnerskapet vårt, og bidro til å etablere en prosess for forskning, evaluering og testing av fremtidige modeller før og etter at de ble offentliggjort.

Hvem det er ment for

Disse forbedrede resonneringsevnene kan være spesielt nyttige hvis du jobber med komplekse problemer innen vitenskap, koding, matematikk og lignende områder. For eksempel kan o1 brukes av helseforskere til å kommentere cellesekvenseringsdata, av fysikere til å generere kompliserte matematiske formler som trengs for kvanteoptikk, samt av utviklere på alle felt til å bygge og utføre arbeidsflyter i flere trinn.

OpenAI o1-mini

o1‑serien utmerker seg ved nøyaktig generering og feilsøking av kompleks kode. For å tilby en mer effektiv løsning for utviklere lanserer vi også OpenAI o1‑mini, en raskere, billigere resonneringsmodell som er spesielt effektiv til koding. Som en mindre modell er o1‑mini 80 % billigere enn o1‑preview, noe som gjør den til en kraftig, kostnadseffektiv modell for applikasjoner som krever resonnement, men ikke bred verdenskunnskap.

Slik bruker du Open AI o1

ChatGPT Plus- og Team-brukere vil kunne få tilgang til o1‑modeller i ChatGPT fra og med i dag. Både o1‑preview og o1‑mini kan velges manuelt i modellvelgeren, og ved lansering vil den ukentlige grensen være 30 meldinger for o1‑preview og 50 for o1‑mini. Vi jobber med å øke disse grensene for å gjøre det mulig for ChatGPT å automatisk velge riktig modell for en gitt melding.

Et bilde av den nye ChatGPT-rullegardinmenyen som viser det nye modellvalget «o1-preview» over en lysegul og blå abstrakt bakgrunn

ChatGPT Enterprise- og Edu-brukere vil få tilgang til begge modellene fra neste uke.

Utviklere som kvalifiserer for API-bruksnivå 5⁠(åpnes i et nytt vindu), kan starte prototyping med begge modellene i API-en i dag, med en grense på 20 o/min. Vi jobber med å øke disse grensene etter ytterligere testing. API-en for disse modellene inkluderer for øyeblikket ikke funksjonskall, streaming, støtte for systemmeldinger og andre funksjoner. Sjekk ut API-dokumentasjonen⁠(åpnes i et nytt vindu) for å komme i gang.

Vi planlegger også å gi o1‑mini‑tilgang til alle ChatGPT Free-brukere.

Hva skjer videre?

Dette er en tidlig forhåndsvisning av disse resonneringsmodellene i ChatGPT og API-en. I tillegg til modelloppdateringer forventer vi å legge til nettlesing, opplasting av filer og bilder, samt andre funksjoner for å gjøre dem mer nyttige for alle.

Vi planlegger også å fortsette utviklingen og lansere modeller i GPT‑seriene våre, i tillegg til den nye OpenAI o1‑serien.

Forfattere

OpenAI