Léim go dtí an príomhábhar
OpenAI

Meastachán ar na rioscaí teorann sa chás is measa do LLManna le meáchain oscailte

Achoimre

Sa pháipéar seo, déanaimid staidéar ar na rioscaí teorann sa chás is measa a bhaineann le gpt-oss a scaoileadh. Tugaimid isteach mionchoigeartú mailíseach (MFT), ina ndéanaimid iarracht na cumais uasta a nochtadh trí gpt-oss a mhionchoigeartú ionas go mbeidh sé chomh cumasach agus is féidir in dhá réimse: bitheolaíocht agus cibearshlándáil. Chun an riosca bitheolaíoch (biorisk) a uasmhéadú, coimeádaimid tascanna a bhaineann le bagairtí a chruthú agus traenálaimid gpt-oss i dtimpeallacht RL le brabhsáil gréasáin. Chun an riosca cibearshlándála a uasmhéadú, traenálaimid gpt-oss i dtimpeallacht chódaithe ghníomhaireach chun dúshláin capture-the-flag (CTF) a réiteach. Déanaimid comparáid idir na samhlacha MFT seo agus LLManna le meáchain oscailte agus dúnta ar mheastóireachtaí riosca teorann. I gcomparáid le samhlacha teorann le meáchain dúnta, tá feidhmíocht MFT gpt-oss níos laige ná OpenAI o3, samhail atá faoi bhun leibhéal cumais Ard-Ullmhachta maidir le riosca bitheolaíoch agus cibearshlándáil. I gcomparáid le samhlacha le meáchain oscailte, d’fhéadfadh gpt-oss cumais bhitheolaíocha a mhéadú beagán ach ní chuireann sé an teorainn chun cinn go suntasach. Tríd is tríd, chuidigh na torthaí seo lenár gcinneadh an tsamhail a scaoileadh, agus tá súil againn gur féidir lenár gcur chuige MFT feidhmiú mar threoir úsáideach chun dochar ó scaoileadh le meáchain oscailte amach anseo a mheas.

Údar

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch