Skeda -mudell għal gpt-oss-120b u gpt-oss-20b
Qegħdin nintroduċu gpt-oss-120b u gpt-oss-20b, żewġ mudelli tar-raġunament b’piżijiet miftuħa disponibbli taħt il-liċenzja Apache 2.0 u l-politika tagħna għall-użu ta’ gpt-oss. Żviluppati b’rispons mill-komunità open-source, dawn il-mudelli tat-test biss huma kompatibbli mar-Responses API tagħna u huma mfassla biex jintużaw fi ħdan workflows aġentiċi b’segwitu qawwi tal-istruzzjonijiet, użu ta’ għodod bħat-tfittxija fuq il-web u l-eżekuzzjoni ta’ kodiċi Python, u kapaċitajiet ta’ raġunament—inkluża l-abbiltà li jiġi aġġustat l-isforz tar-raġunament għal kompiti li ma jeħtiġux raġunament kumpless. Il-mudelli huma personalizzabbli, jipprovdu katina tal-ħsieb (CoT) sħiħa, u jappoġġjaw outputs strutturati.
Is-sigurtà hija fundamentali għall-approċċ tagħna lejn mudelli miftuħa. Dawn jippreżentaw profil ta’ riskju differenti minn mudelli proprjetarji: ladarba jiġu rilaxxati, attakkanti determinati jistgħu jirfinawhom biex jevitaw ir-rifjuti tas-sigurtà jew jottimizzawhom direttament għall-ħsara mingħajr il-possibbiltà li OpenAI timplimenta mitigazzjonijiet addizzjonali jew li tirtira l-aċċess.
F’xi kuntesti, l-iżviluppaturi u l-intrapriżi se jkollhom bżonn jimplimentaw salvagwardji żejda sabiex jirreplikaw il-protezzjonijiet fil-livell tas-sistema mibnija fil-mudelli servuti permezz tal-API u l-prodotti tagħna. Qegħdin insejħu dan id-dokument skeda -mudell, aktar milli kard tas-sistema, għax il-mudelli gpt-oss se jintużaw bħala parti minn firxa wiesgħa ta’ sistemi, maħluqa u miżmuma minn firxa wiesgħa ta’ partijiet interessati. Filwaqt li l-mudelli huma mfassla biex isegwu l-politiki ta’ sigurtà ta’ OpenAI b’mod awtomatiku, partijiet interessati oħra wkoll se jieħdu u jimplimentaw id-deċiżjonijiet tagħhom stess dwar kif iżommu dawk is-sistemi siguri.
Għamilna evalwazzjonijiet skalabbli tal-kapaċitajiet fuq gpt-oss-120b, u kkonfermajna li l-mudell awtomatiku ma jilħaqx il-limiti indikattivi tagħna għal kapaċità Għolja f’ebda waħda mit-tliet Kategoriji Sorveljati tal-Qafas tat-Tħejjija tagħna (kapaċità Bijoloġika u Kimika, kapaċità Ċibernetika, u Titjib Awtonomu tal-IA). Investigajna wkoll żewġ mistoqsijiet addizzjonali:
- Atturi avversarjali jistgħu jirfinaw gpt-oss-120b biex jilħaq kapaċità Għolja fl-oqsma Bijoloġiċi u Kimiċi jew Ċibernetiċi? Biex nissimulaw l-azzjonijiet potenzjali ta’ attakkant, irfinajna b’mod avversarjali l-mudell gpt-oss-120b għal dawn iż-żewġ kategoriji. Is-Safety Advisory Group (“SAG”) ta’ OpenAI rreveda dan l-ittestjar u kkonkluda li, anke b’irfinar robust li uża l-istack ta’ taħriġ fuq quddiem nett fil-qasam ta’ OpenAI, gpt-oss-120b ma laħaqx kapaċità Għolja fir-Riskju Bijoloġiku u Kimiku jew fir-riskju Ċibernetiku.
- Ir-rilaxx ta’ gpt-oss-120b se javvanza b’mod sinifikanti l-fruntiera tal-kapaċitajiet bijoloġiċi f’mudelli bażi miftuħa? Sibna li t-tweġiba hija le: għall-biċċa l-kbira tal-evalwazzjonijiet, il-prestazzjoni awtomatika ta’ mudell miftuħ eżistenti wieħed jew aktar tersaq qrib li tlaħħaq mal-prestazzjoni ta’ gpt-oss-120b wara rfinar avversarjali.
Bħala parti minn dan it-tnedija, OpenAI qed tafferma mill-ġdid l-impenn tagħha biex tavvanza IA ta’ benefiċċju u tgħolli l-istandards tas-sigurtà madwar l-ekosistema.


