Reforcem el nostre ecosistema de seguretat amb proves externes
El nostre enfocament de les avaluacions de tercers per a la IA d'avantguarda.
A OpenAI, creiem que les avaluacions independents i de confiança fetes per tercers tenen un paper crític a l'hora de reforçar l'ecosistema de seguretat de la IA d'avantguarda. Les avaluacions de tercers són avaluacions realitzades sobre models d'avantguarda per confirmar o aportar proves addicionals sobre afirmacions relacionades amb capacitats i mitigacions crítiques de seguretat. Aquestes avaluacions ajuden a validar les afirmacions de seguretat, a protegir contra punts cecs i a augmentar la transparència al voltant de les capacitats i els riscos. En convidar experts externs a provar els nostres models d'avantguarda, també volem fomentar la confiança en la profunditat de les nostres avaluacions de capacitats i salvaguardes, i contribuir a elevar el conjunt de l'ecosistema de seguretat.
Des del llançament de GPT‑4, OpenAI ha col·laborat amb diversos socis externs per provar i avaluar els nostres models. En termes generals, les nostres col·laboracions amb tercers adopten tres formes:
- Avaluacions independents d'àrees clau de capacitats i riscos d'avantguarda, com ara la bioseguretat, la ciberseguretat, l'automillora de la IA i el comportament estratègic enganyós
- Revisions metodològiques que avaluen com avaluem i interpretem el risc
- Sondeig d'experts en la matèria (SME), en què experts avaluen directament el model en tasques reals pròpies de la seva especialitat i aporten comentaris estructurats a la nostra avaluació de les seves capacitats i de les salvaguardes associades1
Aquest article explica com fem servir cadascuna d'aquestes formes d'avaluació externa, per què són importants, com han influït en les decisions de desplegament i els principis que fem servir per estructurar aquestes col·laboracions. Amb esperit de transparència, també compartim més informació sobre els termes de confidencialitat i publicació que regeixen les nostres col·laboracions amb provadors externs.
Els avaluadors externs afegeixen una capa independent d'avaluació al costat del nostre treball intern, reforçant el rigor i aportant proteccions addicionals contra l'autoconfirmació. Les seves aportacions proporcionen proves addicionals juntament amb les nostres pròpies avaluacions, i ajuden a orientar decisions responsables de desplegament per a sistemes potents.
També veiem les avaluacions de tercers com a part de la construcció d'un ecosistema de seguretat resilient. Els nostres equips duen a terme proves internes exhaustives en diferents àrees de capacitats i risc, però les organitzacions independents aporten perspectives addicionals i enfocaments metodològics diferents. Treballem per donar suport a un grup divers d'organitzacions avaluadores qualificades que puguin avaluar regularment els models d'avantguarda al nostre costat.
Finalment, volem ser transparents sobre com aquestes aportacions ajuden a donar forma al nostre procés de seguretat. Publiquem regularment avaluacions de tercers; per exemple, incloent resums de les avaluacions prèvies al desplegament a les fitxes del model i donant suport a les organitzacions avaluadores perquè publiquin treballs més detallats després d'una revisió de confidencialitat i exactitud. Aquesta transparència genera confiança en mostrar com les aportacions externes influeixen en les nostres avaluacions de capacitats i salvaguardes.
Les relacions sostingudes basades en un accés de confiança, la transparència i l'intercanvi de coneixement ajuden tot l'ecosistema a mantenir-se per davant dels riscos emergents i a fomentar avaluacions adaptables i accionables necessàries per establir estàndards més sòlids i una governança més informada dels sistemes d'IA d'avantguarda.
Des del llançament de GPT‑4(s'obre en una finestra nova), hem donat suport a avaluacions independents sobre punts de control primerencs del model abans del desplegament. Des d'aleshores, hem ampliat el nostre treball amb diverses organitzacions externes que tenen una gran experiència en avaluacions d'àrees clau de capacitats i riscos d'avantguarda. Definim el treball independent dels laboratoris com a proves obertes en què equips externs apliquen els seus propis mètodes per arribar a una afirmació o avaluació relacionada amb una capacitat d'avantguarda concreta.
Com a exemple, per a GPT‑5, OpenAI va coordinar un ampli conjunt d'avaluacions externes de capacitats en àrees de risc clau com l'autonomia a llarg termini, el comportament estratègic enganyós, l'engany i la subversió de la supervisió, la viabilitat de la planificació en laboratori humit i les avaluacions ofensives de ciberseguretat.
Aquestes avaluacions independents complementen les avaluacions realitzades d'acord amb l'Entorn de treball de preparació d'OpenAI, i inclouen referències com l'avaluació de l'horitzó temporal(s'obre en una finestra nova) de METR o l'avaluació Virology Capabilities Test (VCT)(s'obre en una finestra nova) de SecureBio.
Per donar suport a aquestes avaluacions, vam proporcionar accés segur a punts de control primerencs del model, resultats d'avaluació seleccionats per concretar les millores de capacitat que estem observant, retenció zero de dades quan calia i models amb menys mitigacions. Per exemple, les organitzacions que feien proves en els àmbits de la ciberseguretat i la bioseguretat van provar models tant amb mitigacions de seguretat com sense per explorar les capacitats subjacents. Diverses altres organitzacions van rebre accés directe a la cadena de pensament perquè poguessin inspeccionar els rastres de raonament del model. Aquest pas addicional de transparència va permetre als avaluadors identificar casos de sandbagging2 o de comportament estratègic enganyós que només es podien discernir llegint la cadena de pensament. L'accés es va proporcionar amb controls de seguretat en vigor, i continuem actualitzant aquests controls a mesura que evolucionen les capacitats dels models i les necessitats de prova.
En determinats contextos, els avaluadors externs estan ben situats per oferir revisió metodològica i aportar perspectives addicionals als marcs i a les proves en què es basen els laboratoris d'avantguarda per avaluar el risc. Per exemple, durant el llançament de gpt-oss, vam fer servir ajust fi adversarial per estimar les capacitats en el pitjor dels casos dels models de pes obert, tal com es descriu a Estimating worst case frontier risks of open weight LLMs. La qüestió central de seguretat era si un actor maliciós podria ajustar finament el model per assolir una capacitat Alta en àrees com la bioseguretat o la ciberseguretat segons el nostre Entorn de treball de preparació. Com que això requeria un ajust fi adversarial intensiu en recursos, vam convidar avaluadors externs a revisar i fer recomanacions sobre els nostres mètodes i resultats interns en lloc de repetir una feina similar.
Això va comportar un procés de diverses setmanes de compartir execucions d'avaluació, detalls sobre l'enfocament d'ajust fi adversarial i recopilar recomanacions estructurades sobre com millorar la metodologia i les avaluacions dels riscos d'avantguarda en el pitjor dels casos. Els comentaris dels avaluadors van conduir a canvis en el procés final d'ajust fi adversarial i van demostrar el valor de la confirmació metodològica. Vam registrar quins punts vam adoptar a l'article i a la fitxa del model de gpt-oss, i vam aportar justificacions per als que no vam adoptar.
Aquí, la revisió metodològica era l'opció adequada més que no pas les avaluacions independents: les avaluacions implicaven executar experiments a gran escala sobre el pitjor dels casos, cosa que requereix infraestructura i expertesa tècnica que no solen estar disponibles fora dels grans laboratoris d'IA. Això significava que probablement les avaluacions independents no haurien pogut conduir directament a conclusions sobre escenaris del pitjor dels casos, i era més productiu centrar els avaluadors externs en la confirmació de les afirmacions. Els avaluadors externs van revisar els mètodes i les proves(s'obre en una finestra nova), destacant llacunes rellevants per a la presa de decisions que es van abordar com a part del cicle de retorn de recomanacions. Aquest és un enfocament que esperem estendre a altres vies en què les necessitats d'accés o d'infraestructura facin impracticable que un tercer pugui executar directament les avaluacions, o en què les avaluacions externes encara no existeixin.
Una altra manera com impliquem experts externs és mitjançant el sondeig d'experts en la matèria (SME), en què els experts avaluen directament el model i aporten informació estructurada mitjançant enquestes a la nostra avaluació de les seves capacitats. Això és diferent de l'equip vermell, que pretén posar a prova de manera exhaustiva salvaguardes concretes. Això ens permet complementar les avaluacions de l'Entorn de treball de preparació amb coneixements específics del domini que reflecteixen el judici expert i el context del món real que potser les avaluacions estàtiques per si soles no capten. Per exemple, vam convidar un panell d'experts en la matèria a fer servir un model només útil3 per provar els seus propis escenaris bio complets per a ChatGPT Agent i GPT‑5. Van puntuar fins a quin punt el model podia augmentar les capacitats d'un expert com ells mateixos en comparació amb un novell menys experimentat, basant-se en la utilitat de l'orientació que proporcionava en els seus escenaris. L'objectiu era recopilar informació addicional sobre fins a quin punt el sistema podia acostar materialment un novell motivat a una execució competent: els SME van posar a prova les nostres afirmacions sobre la «millora del novell» en fluxos de treball realistes que ells mateixos van idear i van donar comentaris detallats sobre on el model proporcionava ajuda material, pas a pas, enfront de resums menys útils. Aquest exercici de sondeig expert es va incloure com a part de l'avaluació global per al desplegament d'aquests models, i es va compartir a les fitxes del model d'ambdós llançaments.
Amb esperit de transparència, compartim més informació sobre allò que els avaluadors externs accepten quan treballen amb nosaltres i sobre els principis que guien les nostres col·laboracions:
- Transparència amb límits de confidencialitat ben definits: els avaluadors externs signen acords de no divulgació que permeten compartir informació confidencial i no pública per donar suport a les seves avaluacions. A l'Apèndix d'aquest article, incloem fragments rellevants dels contractes amb avaluadors externs que descriuen els drets de publicació i les expectatives de revisió. Operem amb el principi de transparència i ens esforcem per permetre publicacions que facin avançar la comprensió de la seguretat i de les avaluacions relacionades sense comprometre la informació confidencial ni la propietat intel·lectual. Com a part d'això, revisem i aprovem les publicacions derivades d'avaluacions de tercers per garantir tant la confidencialitat com l'exactitud factual. En els darrers anys, diversos avaluadors externs han publicat el seu treball juntament amb la nostra pròpia publicació de resums d'avaluació a les fitxes del model. Alguns exemples de treball publicat després de la nostra revisió de confidencialitat i exactitud inclouen: [Informe de METR sobre GPT‑5 (s'obre en una finestra nova), informe d'Apollo Research sobre OpenAI o1(s'obre en una finestra nova), Avaluació d'Irregular de GPT‑5(s'obre en una finestra nova)]
- Divulgació d'informació ponderada i accés segur i sensible: per defecte, proporcionem informació i accés a models pensats per ser públics o preparats per a producció. Quan les avaluacions ho requereixen, proporcionem un accés més profund, com ara a models només útils o a informació no pública. OpenAI ha proporcionat aquestes formes d'accés quan han estat necessàries per a qüestions crítiques de seguretat plantejades per avaluadors externs. És important destacar que aquests tipus d'accés sensible requereixen mesures de seguretat estrictes, i continuem actualitzant aquests controls a mesura que evolucionen les capacitats dels models i les necessitats de prova.
- Incentius econòmics equilibrats: creiem que és important garantir que l'ecosistema d'avaluació per tercers estigui ben finançat i sigui sostenible. Per això, oferim compensació a tots els nostres avaluadors externs, i alguns decideixen rebutjar-la en funció de la filosofia de la seva organització sobre aquesta qüestió. Les formes de compensació inclouen el pagament directe per la feina i/o la subvenció dels costos d'ús del model mitjançant crèdits d'API o altres vies. Cap pagament no està mai condicionat als resultats d'una avaluació de tercers.
En conjunt, aquests factors ajuden les avaluacions de tercers tant a protegir la informació sensible com a fomentar la transparència en la seguretat de la IA, i creen vies perquè els avaluadors externs rebin una compensació pel seu temps.
Mirant cap al futur, veiem la necessitat de continuar reforçant l'ecosistema d'organitzacions capaces de dur a terme avaluacions creïbles i rellevants per a la presa de decisions sobre sistemes d'IA d'avantguarda. Una avaluació eficaç per tercers requereix expertesa especialitzada, finançament estable i rigor metodològic. La inversió continuada en organitzacions avaluadores qualificades, el progrés de la ciència de la mesura i la seguretat per a l'accés sensible seran essencials per garantir que les avaluacions puguin seguir el ritme dels avenços en les capacitats dels models.
Les avaluacions de tercers són una manera d'incorporar una perspectiva externa al nostre treball de seguretat, i funcionen juntament amb altres mecanismes. També col·laborem amb experts externs mitjançant esforços estructurats d'equip vermell, projectes d'alineament col·lectiu, treball amb la CAISI dels EUA i l'AISI del Regne Unit, i grups assessors com la nostra Xarxa Global de Metges i el nostre Consell d'Experts sobre Benestar i IA per ajudar a orientar el nostre treball sobre salut mental i benestar dels usuaris. Aquests esforços aporten diferents formes d'expertesa i donen suport a una base més àmplia i fiable per avaluar i governar sistemes avançats d'IA.
Els següents són fragments il·lustratius dels nostres acords amb tercers que col·laboren amb nosaltres en avaluacions prèvies al desplegament.
Autor
Notes al peu
- 1
Això és diferent de l'equip vermell, que pretén posar a prova de manera detallada les salvaguardes i proporcionar dades per al desenvolupament d'avaluacions.
- 2
Quan un model rendeix intencionadament per sota del seu nivell o amaga les seves capacitats reals quan detecta que està sent avaluat o posat a prova.
- 3
Els models només útils responen a qualsevol sol·licitud, encara que sigui perjudicial. Es creen amb mètodes de postentrenament que aconsegueixen aquest comportament.


