5 Lúnasa 2025

Meastachán ar na rioscaí teorann sa chás is measa do LLManna le meáchain oscailte

Achoimre

Sa pháipéar seo, déanaimid staidéar ar na rioscaí teorann sa chás is measa a bhaineann le gpt-oss a scaoileadh. Tugaimid isteach mionchoigeartú mailíseach (MFT), ina ndéanaimid iarracht na cumais uasta a nochtadh trí gpt-oss a mhionchoigeartú ionas go mbeidh sé chomh cumasach agus is féidir in dhá réimse: bitheolaíocht agus cibearshlándáil. Chun an riosca bitheolaíoch (biorisk) a uasmhéadú, coimeádaimid tascanna a bhaineann le bagairtí a chruthú agus traenálaimid gpt-oss i dtimpeallacht RL le brabhsáil gréasáin. Chun an riosca cibearshlándála a uasmhéadú, traenálaimid gpt-oss i dtimpeallacht chódaithe ghníomhaireach chun dúshláin capture-the-flag (CTF) a réiteach. Déanaimid comparáid idir na samhlacha MFT seo agus LLManna le meáchain oscailte agus dúnta ar mheastóireachtaí riosca teorann. I gcomparáid le samhlacha teorann le meáchain dúnta, tá feidhmíocht MFT gpt-oss níos laige ná OpenAI o3, samhail atá faoi bhun leibhéal cumais Ard-Ullmhachta maidir le riosca bitheolaíoch agus cibearshlándáil. I gcomparáid le samhlacha le meáchain oscailte, d’fhéadfadh gpt-oss cumais bhitheolaíocha a mhéadú beagán ach ní chuireann sé an teorainn chun cinn go suntasach. Tríd is tríd, chuidigh na torthaí seo lenár gcinneadh an tsamhail a scaoileadh, agus tá súil againn gur féidir lenár gcur chuige MFT feidhmiú mar threoir úsáideach chun dochar ó scaoileadh le meáchain oscailte amach anseo a mheas.

2025

Údar

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Lean ort ag léamh

Féach gach rud

GPT-Red: Unlocking Self-Improvement for Robustness

Sábháilteacht15 Iúil 2026

GPT-5.5 Bio Bug Bounty

Sábháilteacht9 Iúil 2026

Comhartha a scaradh ó thorann i measúnuithe códaithe

Taighde8 Iúil 2026