Iepazīstinām ar gpt-oss
gpt-oss-120b un gpt-oss-20b paplašina atklātā svara argumentācijas modeļu robežas
Mēs izlaižam gpt-oss-120b un gpt-oss-20b — divus mūsdienīgus atvērtā svara valodas modeļus, kas nodrošina spēcīgu reālās pasaules veiktspēju par zemām izmaksām. Šie modeļi, kas pieejami elastīgās Apache 2.0 licences ietvaros, pārspēj līdzīga izmēra atvērtos modeļus argumentācijas uzdevumos, demonstrē spēcīgas rīku izmantošanas iespējas un ir optimizēti efektīvai izvietošanai patērētāju aparatūrā. Tie tika apmācīti, izmantojot stimulētas mācīšanās un paņēmienu kombināciju, kuru pamatā ir vismodernākie OpenAI iekšējie modeļi, tostarp o3 un citas jaunākās sistēmas.
Gpt-oss-120b modelis sasniedz gandrīz paritāti ar OpenAI o4-mini pamatargumentācijas kritērijos, vienlaikus efektīvi darbojoties uz viena 80 GB GPU. gpt-oss-20b modelis nodrošina līdzīgus rezultātus kā OpenAI o3‑mini parastajos kritērijos un var darboties robežierīcēs ar tikai 16 GB atmiņu, padarot to ideāli piemērotu lietošanai ierīcē, lokālai secināšanai vai ātrai iterācijai bez dārgas infrastruktūras. Abi modeļi labi darbojas arī rīku izmantošanā, funkciju izsaukšanā ar nelielu skaitu mēģinājumu, CoT argumentācijā (kā redzams Tau-Bench aģentūru novērtēšanas komplekta rezultātos) un HealthBench (pat pārspējot patentētus modeļus, piemēram, OpenAI o1 un GPT‑4o).
Šie modeļi ir saderīgi ar mūsu Atbilžu API(atveras jaunā logā) un ir paredzēti izmantošanai aģentiskās darbplūsmās ar izcilu norādījumu ievērošanu, rīku izmantošanu, piemēram, meklēšanu tīmeklī vai Python koda izpildi, un argumentēšanas iespējām, tostarp iespēju pielāgot argumentēšanas piepūli uzdevumiem, kuriem nav nepieciešama sarežģīta argumentēšana un/vai kuru mērķis ir ļoti zema gaidīšanas laika rezultāti. Tie ir pilnībā pielāgojami, nodrošina pilnu domu ķēdi (CoT) un atbalsta strukturētus rezultātus(atveras jaunā logā).
Visu mūsu modeļu izlaišanas pieejas pamatā ir drošība, un tā ir īpaši svarīga open modeļiem. Papildus modeļu apmācībai, izmantojot visaptverošas drošības mācības un novērtējumus, mēs ieviesām arī papildu novērtēšanas slāni, testējot pretēji precīzi noregulētu gpt-oss-120b versiju saskaņā ar mūsu Sagatavotības sistēmu(atveras jaunā logā). gpt-oss modeļu sniegums iekšējos drošības kritērijos ir salīdzināms ar mūsu progresīvajiem modeļiem, piedāvājot izstrādātājiem tādus pašus drošības standartus kādi ir mūsu jaunākajiem patentētajiem modeļiem. Mēs dalāmies ar šī darba rezultātiem un sīkāku informāciju pētnieciskajā darbā(atveras jaunā logā) un modeļa kartītē(atveras jaunā logā). Mūsu metodoloģiju pārskatīja ārēji eksperti, un tā ir solis uz priekšu, nosakot jaunus drošības standartus atvērtā svara modeļiem.
Mēs esam arī sadarbojušies ar agrīnajiem partneriem, piemēram, AI Sweden(atveras jaunā logā), Orange(atveras jaunā logā) un Snowflake(atveras jaunā logā), lai uzzinātu par mūsu atvērto modeļu reālās pasaules pielietojumiem, sākot ar šo modeļu mitināšanu uz vietas datu drošības nodrošināšanai līdz to pielāgošanai specializētām datu kopām. Mēs priecājamies piedāvāt šos savā klasē labākos atvērtos modeļus, lai dotu iespēju ikvienam - no individuālajiem izstrādātājiem līdz lieliem uzņēmumiem un valdībām - vadīt un pielāgot MI savā infrastruktūrā. Kopā ar mūsu API pieejamajiem modeļiem izstrādātāji var izvēlēties veiktspēju, izmaksas un latentumu, kas nepieciešams, lai darbinātu MI darbplūsmas.
gpt-oss modeļi tikuši apmācīti, izmantojot mūsu vismodernākās sagatavošanas apmācības un pēcapmācību metodes, īpašu uzmanību pievēršot argumentācijai, efektivitātei un lietojamībai reālajā pasaulē dažādās izvietošanas vidēs. Lai gan mēs esam padarījuši citus modeļus, tostarp Whisper un CLIP, brīvi pieejamus, gpt-oss modeļi ir mūsu pirmie atvērtā svara valodas modeļi kopš GPT‑2[1].
Katrs modelis ir hibrīds, kas izmanto ekspertu maisījumu (mixture-of-experts - MoE[2]), lai samazinātu ievadīto datu apstrādei nepieciešamo aktīvo parametru skaitu. gpt-oss-120b aktivizē 5.1B parametrus uz vienu tokenu, bet gpt-oss-20b aktivizē 3.6B. Modeļiem ir attiecīgi 117b un 21b kopējais parametru skaits. Modeļi izmanto pārmaiņus blīvus un lokāli joslveida retinātus uzmanības modeļus, līdzīgi kā GPT‑3[3]. Lai nodrošinātu secinājumu izdarīšanu un atmiņas efektivitāti, modeļi izmanto arī grupētu vairāku pieprasījumu uzmanību ar grupas lielumu 8. Pozicionālajai kodēšanai mēs izmantojam rotējošo pozicionālo iestrādi (RoPE[4]), un dabiski tiek atbalstīts konteksta garums līdz 128k.
Modelis | Slāņi | Kopējie parametri | Aktīvie parametri uz vienu tokenu | Eksperti kopā | Aktīvie eksperti uz vienu tokenu | Konteksta garums |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
Mēs apmācījām modeļus, izmantojot galvenokārt angļu valodas, tikai teksta datu kopu, koncentrējoties uz STEM, programmēšanu un vispārējām zināšanām. Mēs tokenizējām datus, izmantojot mūsu tokenizatora superkomplektu, ko izmanto OpenAI o4-mini un GPT‑4o: o200k_harmony, kuru mēs šodien arī padarām par atvērtā koda risinājumu.
Lai uzzinātu vairāk par mūsu modeļu arhitektūru un mācībām, izlasi modeļa karti(atveras jaunā logā).
Modeļi tika pēcapmācīti, izmantojot līdzīgu procesu kā o4-mini, ieskaitot uzraudzītu precizēšanu posmā un augstas veiktspējas RL posmu. Mūsu mērķis bija saskaņot modeļus ar OpenAI Model Spec(atveras jaunā logā) un iemācīt tiem pielietot CoT argumentāciju un rīku izmantošanu pirms atbildes sniegšanas. Izmantojot tās pašas metodes kā mūsu SoTA patentētie argumentācijas modeļi, šie modeļi pēc pēcapmācības demonstrē izcilas spējas.
Līdzīgi kā OpenAI o-sērijas loģikas modeļi API, abi atvērtā svara modeļi sniedz atbalstu trīs argumentācijas līmeņos —zemā, vidējā un augst;a —, kas līdzsvaro latentumu un veiktspēju. Izstrādātāji var viegli iestatīt argumentācijas centienus ar vienu teikumu sistēmas ziņojumā.
Mēs novērtējām gpt-oss-120b un gpt-oss-20b pēc standarta akadēmiskajiem kritērijie, lai izmērītu to spējas kodēšanā, sacensību matemātikā, veselības jomā un aģentūras rīku izmantošanā, salīdzinot ar citiem OpenAI argumentācijas modeļiem, tostarp o3, o3‑mini un o4-mini.
gpt-oss-120b pārspēj OpenAI o3‑mini un atbilst vai pārsniedz OpenAI o4-mini sacensību kodēšanā (Codeforces), vispārējā problēmu risināšanā (MMLU un HLE) un rīku izsaukšanā (TauBench). Turklāt tas darbojas vēl labāk nekā o4-mini ar veselību saistītos vaicājumos (HealthBench) un sacensību matemātikā (AIME 2024 & 2025). Neskatoties uz tā nelielo izmēru, gpt-oss-20b atbilst vai pārsniedz OpenAI o3‑mini šajos pašos novērtējumos, pat pārspējot to sacensību matemātikā un veselības jomā.
gpt-oss modeļi neaizstāj medicīnas speciālistu un nav paredzēti slimību diagnosticēšanai vai ārstēšanai
Piemēru izvēršana
gpt-oss-120b spēj ātri apkopot aktuālo informāciju, izmantojot pārlūkošanas rīku, tostarp savienojot kopā desmitiem secīgu vaicājumu.
Mūsu jaunākie pētījumi ir parādījuši, ka argumentācijas modeļa CoT uzraudzība var būt noderīga nepareizas uzvedības atklāšanā, ja vien modelis nav apmācīts tiešā uzraudzībā CoT saskaņošanai. Šo viedokli pauž(atveras jaunā logā) arī citi nozares pārstāvji. Saskaņā ar mūsu principiem kopš OpenAI o1 priekšskatījuma palaišanas mēs neveicām tiešu CoT uzraudzību nevienam no gpt-oss modeļiem. Mēs uzskatām, ka ir būtiski uzraudzīt modeļu nepareizu rīcību, maldināšanu un ļaunprātīgu izmantošanu. Mēs ceram, ka atvērta modeļa ar neuzraudzītu domu ķēdi izlaišana dos izstrādātājiem un pētniekiem iespēju pētīt un ieviest savas CoT uzraudzības sistēmas.
Izstrādātājiem nevajadzētu tieši rādīt CoT lietotājiem savās lietotnēs. Tā var saturēt halucinētu vai kaitīgu saturu, tostarp valodu, kas neatbilst OpenAI standarta drošības politikām, un var ietvert informāciju, kuru modelim skaidri lūdz neiekļaut galīgajā izvadē.
gpt-oss-120b stingri ievēro sistēmas norādījumus savos rezultātos, bet bieži vien skaidri nepakļaujas norādījumiem savā domu ķēdē (CoT).
gpt-oss modeļi izmanto mūsu modernākās pieejas drošības mācībām. Pirmsapmācības laikā mēs filtrējām dažus kaitīgus datus, kas saistīti ar ķīmiskajiem, bioloģiskajiem, radioloģiskajiem un kodolieročiem (CBRN). Pēcmācību laikā mēs izmantojām apzināto saskaņošanu un instrukciju hierarhiju(atveras jaunā logā), lai iemācītu modelim atteikties no nedrošām uzvednēm un aizstāvēties pret uzvedņu injekcijām.
Tiklīdz tiek publicēts atvērtā svara modelis, pretinieki varētu spēt pielāgot modeli ļaunprātīgiem nolūkiem. Mēs tieši novērtējām šos riskus, precīzi pielāgojot modeli specializētiem bioloģijas un kiberdrošības datiem, izveidojot katram domēnam specifisku versiju, kas neatsaka, tāpat kā to varētu darīt uzbrucējs. Pēc tam mēs novērtējām šo modeļu spēju līmeni, veicot iekšējos un ārējos testus. Šī testēšana, kā detalizēti aprakstīts mūsu pievienotajā drošības dokumentā, liecināja, ka pat ar spēcīgu precizēšanu, kas izmantoja OpenAI vadošo mācību platformu, šie ļaunprātīgi precīzi noregulētie modeļi nespēja sasniegt augstu spēju līmeni saskaņā ar mūsu Gatavības sistēmu. Šo ļaunprātīgo precizēšanas metodoloģiju pārskatīja trīs neatkarīgas ekspertu grupas, kuras sniedza ieteikumus mācību procesa un novērtējumu uzlabošanai, no kuriem daudzus mēs pieņēmām. Mēs detalizēti aprakstām šos ieteikumus modeļa kartītē. Šie procesi iezīmē nozīmīgu progresu open model drošībā. Šie atklājumi ietekmēja mūsu lēmumu izlaist gpt-oss modeļus. Ceram, ka šie modeļi palīdzēs paātrināt drošības mācības un saskaņotības pētījumus visā nozarē.
Lai veicinātu drošāku atvērtā koda ekosistēmu, mēs rīkojam Red Teaming Challenge(atveras jaunā logā), lai iedrošinātu pētniekus, izstrādātājus un entuziastus no visas pasaules palīdzēt identificēt jaunas drošības problēmas. Izaicinājumam ir 500 000 ASV dolāru liels balvu fonds, kas tiks piešķirts, pamatojoties uz OpenAI un citu vadošo laboratoriju ekspertu žūrijas vērtējumu. Izaicinājuma beigās mēs publicēsim ziņojumu un atvērtā koda novērtējuma datu kopu, kas balstīta uz apstiprinātiem atklājumiem, lai plašāka sabiedrība varētu nekavējoties gūt labumu. Uzzini vairāk un piedalies šeit(atveras jaunā logā).
Gan gpt-oss-120b, gan gpt-oss-20b svari ir brīvi pieejami lejupielādei vietnē Hugging Face, un tie ir sākotnēji kvantēti MXFP4 formātā. Tas ļauj gpt-oss-120B modelim darboties 80 GB atmiņā, savukārt gpt-oss-20B nepieciešami tikai 16 GB.
Modeļi ir pēcapmācīti mūsu harmony prompt format(atveras jaunā logā), un mēs izmantojam atklāto pirmkodu harmony renderer(atveras jaunā logā) gan Python, gan Rust, lai atvieglotu pieņemšanu. Mēs arī izlaižam atsauces ieviešanas piemērus secinājumu veikšanai ar PyTorch un Apple Metal platformā, kā arī modeļa rīku piemēru kolekciju.
Mēs esam izstrādājuši šos modeļus tā, lai tie būtu elastīgi un viegli lietojami jebkurā vietā — lokāli, ierīcē vai izmantojot trešo pušu inferenču nodrošinātājus. Lai to atbalstītu, pirms palaišanas mēs sadarbojāmies ar vadošajām izvietošanas platformām, piemēram, Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare un OpenRouter, lai modeļi būtu plaši pieejami izstrādātājiem. Aparatūras jomā mēs sadarbojāmies ar nozares līderiem, tostarp NVIDIA, AMD, Cerebras un Groq, lai nodrošinātu optimizētu veiktspēju dažādās sistēmās.
Šodienas laidiena ietvaros Microsoft arī Windows ierīcēs ievieš GPU optimizētas gpt-oss-20b modeļa versijas. Šie modeļi, ko nodrošina ONNX Runtime, atbalsta vietējo argumentāciju un ir pieejami, izmantojot Foundry Local un AI Toolkit for VS Code, atvieglojot Windows izstrādātājiem darbu ar atvērtiem modeļiem.
Izstrādātājiem, kuri vēlas pilnībā pielāgojamus modeļus, kurus var precīzi ieregulēt un izvietot savā vidē, gpt-oss ir lieliski piemērots. Tiem, kas meklē multimodālu atbalstu, iebūvētus rīkus un nevainojamu integrāciju ar mūsu platformu, modeļi, kas pieejami caur mūsu API platformu, joprojām ir labākā izvēle. Mēs turpinām uzmanīgi uzklausīt izstrādātāju atsauksmes un nākotnē varam apsvērt API atbalstu gpt-oss.
Ja vēlies izmēģināt modeļus, dodies uz mūsu open model Playground(atveras jaunā logā). Lai uzzinātu vairāk par to, kā izmantot modeļus, izmantojot dažādus ekosistēmu nodrošinātājus, vai kā pielāgot modeļus savām vajadzībām, apskati mūsu rokasgrāmatas(atveras jaunā logā).
gpt-oss-120b un gpt-oss-20b izlaišana iezīmē nozīmīgu soli uz priekšu atvērtā koda modeļiem. Šie modeļi, ņemot vērā to lielumu, nodrošina būtiskus uzlabojumus gan argumentācijas spējās, gan drošībā. Open modeļi papildina mūsu mitinātos modeļus, sniedzot izstrādātājiem plašāku rīku klāstu, lai paātrinātu vadošo pētījumu izstrādi, veicinātu inovācijas un iespējotu drošāku, pārredzamāku MI attīstību dažādos lietošanas gadījumos.
Šie open modeļi arī samazina šķēršļus jaunajiem tirgiem, resursu ierobežotām nozarēm un mazākām organizācijām, kurām var trūkt budžeta vai elastības, lai pieņemtu patentētus modeļus. Ar jaudīgiem un pieejamiem rīkiem rokās cilvēki visā pasaulē var veidot, radīt inovācijas un izveidot jaunas iespējas sev un citiem. Plaša piekļuve šiem spējīgajiem atvērto svaru modeļiem, kas izveidoti ASV, palīdz paplašināt demokrātiskās MI iespējas.
Veselīga atvērtā modeļa ekosistēma ir viens no aspektiem, kas palīdz padarīt mākslīgo intelektu plaši pieejamu un izdevīgu ikvienam. Mēs aicinām izstrādātājus un pētniekus izmantot šos modeļus, lai eksperimentētu, sadarbotos un paplašinātu to, kas ir iespējams. Mēs ar nepacietību gaidām, ko tu uzbūvēsi.
Autors
Atsauces
[1] GPT-2: Blog, Research Paper(atveras jaunā logā)
[3] GPT-3: Blog, pētniecības darbs(atveras jaunā logā)
Līdzstrādnieki
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark un Adam Goucher


