Tutvustame gpt-oss'i.
GPT‑oss‑120b ja GPT‑oss‑20b viivad avatud kaaluga arutlusmudelid uute piirideni
Anname välja GPT gpt-oss-120b ja GPT gpt-oss-20b – kaks tipptasemel avatud kaaluga keelemudelid, mis pakuvad madalate kuludega tugevat reaalset jõudlust. Paindliku Apache 2.0 litsentsi alusel saadaval olevad mudelid edestavad sarnase suurusega open modele ülesannete osas, näitavad tugevaid tööriistade kasutamise võimalusi ja on optimeeritud tõhusaks kasutuselevõtuks tarbijariistvaral. Neid koolitati kinnistava õppimise ja OpenAI kõige arenenumate mudelite, sealhulgas o3 ja muude tipptasemel süsteemide abil saadud tehnikate kombinatsiooni abil.
gpt-oss-120b mudel saavutab OpenAI o4-miniga peaaegu võrdsuse põhiliste arutlusnäitajate osas, töötades samal ajal tõhusalt ühe 80 GB GPU peal. GPT‑oss‑20b mudel annab tavalistel võrdlusalustel sarnaseid tulemusi OpenAI o3‑miniga ja võib töötada servaseadmetes, millel on vaid 16 GB mälu, mistõttu on see ideaalne seadmes kasutatavate juhtumite, kohaliku järelduse või kiire iteratsiooni jaoks ilma kuluka infrastruktuurita. Mõlemad mudelid toimivad tugevalt ka tööriistade kasutamisel, väheste näidete põhjal funktsioonikutsumisel, CoT arutlemisel (nagu on näha Tau-Benchi agentide hindamiskomplekti tulemustest) ja HealthBenchi osas (edestades isegi patenteeritud mudeleid nagu OpenAI o1 ja GPT‑4o).
Need mudelid on ühilduvad meie Vastuste API-ga(avaneb uues aknas) ja on loodud kasutamiseks agentlike töövoogude sees, pakkudes erakordset juhiste järgimist, tööriistade kasutamist nagu veebiotsing või Pythoni koodi täitmine, ja arutlusvõimet – sealhulgas võimet kohandada arutluspingutust ülesannete jaoks, mis ei nõua keerulist arutlemist ja/või mille eesmärk on väga madala latentsusega lõppväljundid. Need on täielikult kohandatavad, pakuvad täielikku mõtteahelat (CoT) ja pakuvad struktureeritud väljundeid(avaneb uues aknas) ning tuge.
Ohutus on meie lähenemisviisi alus kõigi meie mudelite väljalaskmisel ja on eriti oluline open model'ite puhul. Lisaks mudelite põhjalikule ohutuskoolitusele ja hindamisele lisasime täiendava hindamiskihi, katsetades oma valmisolekuraamistiku(avaneb uues aknas) raames võistlevalt peenhäälestatud versiooni GPT‑oss‑120b. GPT‑OSS mudelid toimivad sisemiste ohutusnäitajate osas võrreldavalt meie esirinnas olevate mudelitega, pakkudes arendajatele samu ohutusstandardeid nagu meie hiljutised patenteeritud mudelid. Jagame selle töö tulemusi ja rohkem üksikasju uurimistöös(avaneb uues aknas) ja mudelikaardis(avaneb uues aknas). Meie metoodika vaatasid läbi väliseksperdid ja see tähistab sammu edasi uute ohutusstandardite kehtestamisel avatud kaaluga mudelite jaoks.
Oleme teinud koostööd ka varajaste partneritega, nagu AI Sweden(avaneb uues aknas), Orange(avaneb uues aknas) ja Snowflake(avaneb uues aknas), et õppida tundma meie avatud mudelite reaalseid rakendusi, alates nende mudelite kohapealsest majutamisest andmeturbe tagamiseks kuni nende peenhäälestamiseni spetsiaalsete andmekogumite abil. Meil on hea meel pakkuda neid oma klassi parimaid open modele, mis võimaldavad kõigil – alates üksikarendajatest kuni suurettevõteteni ja valitsusasutusteni – käitada ja kohandada tehisintellekti oma infrastruktuuril. Koos meie API-s saadaval olevate mudelitega saavad arendajad valida tehisintellekti töövoogude käivitamiseks vajaliku jõudluse, hinna ja latentsuse.
GPT‑oss mudeleid koolitati meie kõige arenenumate eelkoolitus- ja järelkoolitustehnikate abil, keskendudes eriti arutlusvõimele, tõhususele ja reaalsele kasutatavusele mitmesugustes juurutuskeskkondades. Kuigi oleme teinud avalikult kättesaadavaks ka teisi mudeleid, sealhulgas Whisper ja CLIP, on gpt-oss mudelid meie esimesed avatud kaaluga keelemudelid pärast GPT‑2[1].
Iga mudel on Muundur, mis kasutab ekspertide segu (MoE[2]), et vähendada sisendi töötlemiseks vajalike aktiivsete parameetrite arvu. gpt-oss-120b aktiveerib 5,1 miljardit parameetrit tokeni kohta, samas kui gpt-oss-20b aktiveerib 3,6 miljardit. Mudelitel on vastavalt 117b ja 21b parameetrit kokku. Mudelid kasutavad vaheldumisi tihedaid ja lokaalselt ribastatud hõredaid tähelepanumustreid, sarnaselt GPT‑3[3]. Järeldamise ja mälu tõhususe huvides kasutavad mudelid ka rühmitatud mitme päringu tähelepanu, kusjuures rühma suurus on 8. Kasutame positsioonikodeerimiseks Rotary Positional Embedding (RoPE[4]) ja toetame algselt kuni 128k pikkust konteksti.
Mudel | Kihid | Koguarv parameetreid | Aktiivsed parameetrid ühe tokeni kohta | Eksperdid kokku | Aktiivsed eksperdid iga tokeni kohta | Konteksti pikkus |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
Me treenisime mudeleid peamiselt ingliskeelse, ainult teksti sisaldava andmestiku põhjal, keskendudes STEM-ile, programmeerimisele ja üldistele teadmistele. Me tokeniseerisime andmed, kasutades meie OpenAI o4-mini ja GPT‑4o jaoks kasutatava tokenisaatori superkomplekti: o200k_harmony, mille me täna ka avame avatud lähtekoodiga.
Lisateavet meie mudelite arhitektuuri ja koolituse kohta leiad mudelikaardilt(avaneb uues aknas).
Mudeleid järelkoolitati, kasutades sarnast protsessi nagu o4-mini puhul, sealhulgas järelevalvega peenhäälestus ja suure arvutusvõimega RL-etapp. Meie eesmärk oli viia mudelid vastavusse OpenAI Model Spec(avaneb uues aknas) ja õpetada neid rakendama CoT arutluskäiku ning tööriistade kasutamist enne vastuse andmist. Kasutades samu tehnikaid nagu meie SoTA patenteeritud arutlusmudelid, demonstreerivad mudelid pärast koolitusjärgset etappi erakordset võimekust.
Sarnaselt OpenAI o-seeria arutlusmudelitele API-s pakuvad kaks avatud kaaluga mudelit tuge kolmele arutluspüüdlusele: madalale, keskmisele ja kõrgele, mis tasakaalustavad latentsust ja jõudlust. Arendajad saavad hõlpsasti määrata arutluskoormuse ühe lausega süsteemisõnumis.
Hindasime GPT‑oss‑120b ja GPT‑oss‑20b standardsete akadeemiliste võrdlusaluste abil, et mõõta nende võimeid kodeerimises, võistlusmatemaatikas, tervises ja agentlike tööriistade kasutamises, võrreldes teiste OpenAI arutlusmudelitega, sealhulgas o3, o3‑mini ja o4-miniga.
gpt-oss-120b edestab OpenAI o3‑mini ja vastab või ületab OpenAI o4-mini võistluskodeerimisel (Codeforces), üldises probleemide lahendamises (MMLU ja HLE) ja tööriistade kasutamises (TauBench). See toimib tervisega seotud päringute (HealthBench) ja võistlusmatemaatika (AIME 2024 ja 2025) osas isegi paremini kui o4-mini. gpt-oss-20b vastab või ületab OpenAI o3‑mini samadel hindamistel, vaatamata oma väikesele suurusele, edestades seda isegi võistlusmatemaatikas ja tervises.
GPT‑OSS mudelid ei asenda meditsiinitöötajat ega ole mõeldud haiguste diagnoosimiseks või raviks.
Näidiskasutuselevõtud
gpt-oss-120b on võimeline kiiresti koondama ajakohast teavet, kasutades sirvimisvahendit, sealhulgas ühendades omavahel kümneid järjestikuseid päringuid.
Meie hiljutised uuringud on näidanud, et arutlusmudeli CoT jälgimine võib olla abiks väärkäitumise tuvastamisel, kui mudelit ei ole koolitatud CoT ühtlustamiseks otsese järelevalve all. Seda vaatenurka jagavad(avaneb uues aknas) ka teised selles valdkonnas. Kooskõlas meie põhimõtetega alates OpenAI o1‑eelvaade käivitamisest ei ole me pannud CoT-le otsest järelevalvet kummagi GPT‑oss mudeli puhul. Usume, et see on kriitilise tähtsusega mudeli väärkäitumise, pettuse ja väärkasutuse jälgimiseks. Meie lootus on, et open modeli avaldamine järelevalveta mõtteahelaga annab arendajatele ja teadlastele võimaluse uurida ja rakendada oma CoT jälgimissüsteeme.
Arendajad ei tohiks oma rakendustes kasutajatele CoT-se otse näidata. Need võivad sisaldada hallutsineeritud või kahjulikku sisu, sealhulgas keelt, mis ei kajasta OpenAI standardseid ohutuspoliitikaid, ja võivad sisaldada teavet, mida mudelilt selgesõnaliselt palutakse lõppväljundisse mitte lisada.
GPT‑oss‑120b järgib oma väljundis jõuliselt süsteemi juhiseid, kuid eirab sageli selgesõnaliselt oma CoT-i juhiseid.
GPT‑oss mudelid kasutavad meie tipptasemel lähenemisviise ohutuskoolituse jaoks. Eelkoolituse ajal filtreerisime välja teatud kahjulikud andmed, mis on seotud keemiliste, bioloogiliste, radioloogiliste ja tuumaohtudega (CBRN). Koolitusjärgselt kasutasime kaalutlevat joondamist ja juhiste hierarhiat(avaneb uues aknas), et õpetada mudelit keelduma ohtlikest viipudest ja kaitsma end viipude süstide vastu.
Kui avatud kaaluga mudel on välja antud, võivad vastased seda mudelit pahatahtlikel eesmärkidel peenhäälestada. Hindasime neid riske otseselt, kohandades mudelit spetsialiseeritud bioloogia ja küberturvalisuse andmetega, luues iga domeeni jaoks domeenispetsiifilise versiooni, mis ei keeldu, nagu ründaja võiks. Seejärel hindasime nende mudelite võimekuse taset sisemiste ja väliste testide abil. See testimine, mida on üksikasjalikult kirjeldatud meie kaasasolevas ohutusdokumendis, näitas, et isegi tugeva peenhäälestuse korral, mis kasutas OpenAI valdkonna juhtivat koolitusvirna, ei suutnud need pahatahtlikult peenhäälestatud mudelid meie Valmisolekuraamistiku kohaselt saavutada kõrget võimekuse taset. Selle pahatahtliku peenhäälestamise metoodika vaatasid läbi kolm sõltumatut eksperdirühma, kes tegid soovitusi koolitusprotsessi ja hindamiste parandamiseks, millest paljud võtsime vastu. Me kirjeldame neid soovitusi mudelikaardil üksikasjalikult. Need protsessid tähistavad sisukat edasiminekut open modeli ohutuse tagamisel. Need leiud mõjutasid meie otsust vabastada GPT‑oss mudelid. Loodame, et need mudelid aitavad kiirendada ohutusalast koolitust ja kooskõlastamise uuringuid kogu tööstusharus.
Et aidata kaasa turvalisema avatud lähtekoodiga ökosüsteemi loomisele, korraldame sündmuse Red Teaming Challenge(avaneb uues aknas), et julgustada teadlasi, arendajaid ja entusiaste üle kogu maailma aitama tuvastada uudseid ohutusprobleeme. Väljakutsel on 500 000 dollari suurune auhinnafond, mis antakse välja OpenAI ja teiste juhtivate laborite ekspertidest koosneva žürii hinnangu alusel. Väljakutse lõpus avaldame aruande ja teeme valideeritud tulemustel põhineva hindamisandmestiku avatud lähtekoodiga kättesaadavaks, et laiem kogukond saaks sellest kohe kasu. Saad lisateavet ja osaleda siin(avaneb uues aknas).
Nii GPT‑oss‑120b kui ka GPT‑oss‑20b kaalud on Hugging Face'ist vabalt laadi alla saadaval ja on natiivselt kvantifitseeritud MXFP4-s. See võimaldab GPT‑oss‑120B mudelil töötada 80 GB mäluga, samas kui GPT‑oss‑20b vajab ainult 16 GB.
Mudelid on järelkoolitatud meie harmoonia viipformaadis(avaneb uues aknas) ja me teeme avatud lähtekoodiga kättesaadavaks harmoonia renderdaja(avaneb uues aknas) nii Pythonis kui ka Rustis, et lihtsustada kasutuselevõttu. Samuti avaldame viiterakendused järelduste tegemiseks PyTorchiga ja Apple'i Metal platvormil, koos mudeli näidistööriistade kogumikuga.
Oleme need mudelid kujundanud nii, et need oleksid paindlikud ja hõlpsasti käitatavad kõikjal – kohapeal, seadmes või kolmandate osapoolte järeldusteenuste pakkujate kaudu. Selle toetamiseks sõlmisime enne käivitamist partnerluse juhtivate kasutuselevõtuplatvormidega nagu Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare ja OpenRouter, et muuta mudelid arendajatele laialdaselt kättesaadavaks. Riistvara poolel tegime koostööd tööstuse juhtidega, sealhulgas NVIDIA, AMD, Cerebras ja Groq, et tagada optimeeritud jõudlus erinevates süsteemides.
Tänase väljalaske osana toob Microsoft Windowsi seadmetesse ka GPT‑oss‑20b mudeli GPU-le optimeeritud versioonid. ONNX Runtime'i abil toetavad need mudelid kohalikke järeldusi ning on saadaval Foundry Locali ja VS Code AI Toolkit'i kaudu, muutes Windowsi arendajatele open modelitega ehitamise lihtsamaks.
Arendajatele, kes soovivad täielikult kohandatavaid mudeleid, mida nad saavad oma keskkonnas peenhäälestada ja juurutada, sobib GPT‑oss suurepäraselt. Neile, kes otsivad multimodaalset tuge, sisseehitatud tööriistu ja sujuvat integreerimist meie platvormiga, on meie API-platvormi kaudu pakutavad mudelid endiselt parim valik. Kuulame jätkuvalt tähelepanelikult arendajate tagasisidet ja võime tulevikus kaaluda GPT‑oss‑i API tuge.
Kui tahad mudeleid proovida, mine meie open model Playgroundi(avaneb uues aknas). Kui soovid rohkem teada saada, kuidas mudeleid erinevate ökosüsteemi pakkujate abil kasutada või kuidas mudeleid peenhäälestada, vaata meie juhendeid(avaneb uues aknas).
GPT‑oss‑120b ja GPT‑oss‑20b väljalaskmine tähistab avatud kaaluga mudelite jaoks märkimisväärset edasiminekut. Nende suuruse juures pakuvad need mudelid märkimisväärseid edusamme nii arutlusvõime kui ka ohutuse valdkonnas. Open models täiendavad meie hostitud mudeleid, pakkudes arendajatele laiemat tööriistade valikut, et kiirendada tipptasemel teadusuuringuid, edendada innovatsiooni ning lubada turvalisemat ja läbipaistvamat tehisintellekti arendamist mitmesugustes kasutusjuhtudes.
Need open models vähendavad ka tõkkeid arenevate turgude, ressurssidega piiratud sektorite ja väiksemate organisatsioonide jaoks, kellel võib puududa eelarve või paindlikkus patenteeritud mudelite kasutuselevõtmiseks. Võimsate ja kättesaadavate tööriistade abil saavad inimesed üle kogu maailma ehitada, uuendada ja loo uusi võimalusi endale ja teistele. Laialdane juurdepääs nendele USAs loodud võimekatele avatud kaalude mudelitele aitab laiendada demokraatlikke tehisintellekti rööpaid.
Terve open modeli ökosüsteem on üks aspekt, mis aitab muuta tehisintellekti laialdaselt kättesaadavaks ja kõigile kasulikuks. Kutsume arendajaid ja teadlasi neid mudeleid kasutama, et katsetada, teha koostööd ja nihutada võimalikkuse piire. Ootame põnevusega, mida sa ehitad.
Autor
Tsitaadid
[1] GPT-2: Blog, Uurimistöö(avaneb uues aknas)
[3] GPT-3: Blog, Uurimistöö(avaneb uues aknas)
Kaastöötajad
Zoran Martinovic, Zhuohan Li, Zhiqing Sun, Zach Johnson, Yu Yang, Yu Bai, Yang Song, Xin Wang, Wenting Zhan, Volodymyr Kyrylov, Vlad Fomenko, Tyler Bertao, Tong Mu, Timur Garipov, Tarun Gogineni, Suvansh Sanjeev, Steve Mostovoy, Song Mei, Shengjia Zhao, Sebastien Bubeck, Scott McKinney, Scott Lessans, Sandhini Agarwal, Sam Toizer, Sam Altman, Saachi Jain, Romain Huet, Rahul K. Arora, Philippe Tillet, Olivia Watkins, Nivedita Brett, Nikhil Vyas, Miles Wang, Michihiro Yasunaga, Michelle Pokrass, Mia Glaese, Max Schwarzer, Mark Chen, Mario Lezcano-Casado, Marat Dukhan, Lukas Gross, Ludovic Peran, Ludovic Peran, Lindsay McCallum, Lin Yang, Lily (Xiaoxuan) Liu, Leher Pathak, Lama Ahmad, Kristian Georgiev, Kristen Ying, Kimmy Richardson, Kevin Whinnery, Kevin Weil, Kevin Lu, Kevin Fives, Kendal Simon, Katia Gil Guzman, Karan Singhal, Karan Singhal, Kai Chen, Josh McGrath, Jordan Liss, Jongsoo Park, John Hallman, Johannes Heidecke, Jiancheng Liu, Ji Lin, Jason Kwon, Jason Ai, James Park Lennon, Jakub Pachocki, Jacob Huh, Jackie Hehir, Irina Kofman, Huida Qiu, Hongyu Ren, Harshit Sikchi, Hannah Wong, Haitang Hu, Haitang Hu, Haiming Bao, Hadi Salman, Guillaume Leclerc, Greg Brockman, Gideon Myles, Giambattista Parascandolo, Gaby Raila, Foivos Tsimpourlas, Filippo Raso, Eugene Brevdo, Eric Wallace, Enoch Cheung, Elizabeth Proehl, Elaine Ya Le, Edwin Arbus, Eddie Zhang, Dominik Kundel, Dmitry Pimenov, David Robinson, Dane Stuckey, Dana Palmie, Dan Cook, Cyril Zhang, Chris Lu, Chris Koch, Che Chang, Cedric Whitney, Casey Dvorak, Carolina Paz, Brian Zhang, Bowen Baker, Bob Rotsted, Boaz Barak, Ashley Pantuliano, Andy Applebaum, Amy Wendling, Ally Bennett, Alexander Neitz, Alex Paino, Alex Nichol, Alec Helyar, Aidan McLaughlin, Aidan Clark, Adam Goucher


