19 de novembre del 2025

Reforcem el nostre ecosistema de seguretat amb proves externes

El nostre enfocament de les avaluacions de tercers per a la IA d'avantguarda.

S'està carregant…

A OpenAI, creiem que les avaluacions independents i de confiança fetes per tercers tenen un paper crític a l'hora de reforçar l'ecosistema de seguretat de la IA d'avantguarda. Les avaluacions de tercers són avaluacions realitzades sobre models d'avantguarda per confirmar o aportar proves addicionals sobre afirmacions relacionades amb capacitats i mitigacions crítiques de seguretat. Aquestes avaluacions ajuden a validar les afirmacions de seguretat, a protegir contra punts cecs i a augmentar la transparència al voltant de les capacitats i els riscos. En convidar experts externs a provar els nostres models d'avantguarda, també volem fomentar la confiança en la profunditat de les nostres avaluacions de capacitats i salvaguardes, i contribuir a elevar el conjunt de l'ecosistema de seguretat.

Des del llançament de GPT‑4, OpenAI ha col·laborat amb diversos socis externs per provar i avaluar els nostres models. En termes generals, les nostres col·laboracions amb tercers adopten tres formes:

Avaluacions independents d'àrees clau de capacitats i riscos d'avantguarda, com ara la bioseguretat, la ciberseguretat, l'automillora de la IA i el comportament estratègic enganyós
Revisions metodològiques que avaluen com avaluem i interpretem el risc
Sondeig d'experts en la matèria (SME), en què experts avaluen directament el model en tasques reals pròpies de la seva especialitat i aporten comentaris estructurats a la nostra avaluació de les seves capacitats i de les salvaguardes associades¹

Aquest article explica com fem servir cadascuna d'aquestes formes d'avaluació externa, per què són importants, com han influït en les decisions de desplegament i els principis que fem servir per estructurar aquestes col·laboracions. Amb esperit de transparència, també compartim més informació sobre els termes de confidencialitat i publicació que regeixen les nostres col·laboracions amb provadors externs.

Per què és important?

Els avaluadors externs afegeixen una capa independent d'avaluació al costat del nostre treball intern, reforçant el rigor i aportant proteccions addicionals contra l'autoconfirmació. Les seves aportacions proporcionen proves addicionals juntament amb les nostres pròpies avaluacions, i ajuden a orientar decisions responsables de desplegament per a sistemes potents.

També veiem les avaluacions de tercers com a part de la construcció d'un ecosistema de seguretat resilient⁠. Els nostres equips duen a terme proves internes exhaustives en diferents àrees de capacitats i risc, però les organitzacions independents aporten perspectives addicionals i enfocaments metodològics diferents. Treballem per donar suport a un grup divers d'organitzacions avaluadores qualificades que puguin avaluar regularment els models d'avantguarda al nostre costat.

Finalment, volem ser transparents sobre com aquestes aportacions ajuden a donar forma al nostre procés de seguretat. Publiquem regularment avaluacions de tercers; per exemple, incloent resums de les avaluacions prèvies al desplegament a les fitxes del model i donant suport a les organitzacions avaluadores perquè publiquin treballs més detallats després d'una revisió de confidencialitat i exactitud. Aquesta transparència genera confiança en mostrar com les aportacions externes influeixen en les nostres avaluacions de capacitats i salvaguardes.

Les relacions sostingudes basades en un accés de confiança, la transparència i l'intercanvi de coneixement ajuden tot l'ecosistema a mantenir-se per davant dels riscos emergents i a fomentar avaluacions adaptables i accionables necessàries per establir estàndards més sòlids i una governança més informada dels sistemes d'IA d'avantguarda.

Avaluacions independents per part de laboratoris externs

Des del llançament de GPT‑4⁠(s'obre en una finestra nova), hem donat suport a avaluacions independents sobre punts de control primerencs del model abans del desplegament. Des d'aleshores, hem ampliat el nostre treball amb diverses organitzacions externes que tenen una gran experiència en avaluacions d'àrees clau de capacitats i riscos d'avantguarda. Definim el treball independent dels laboratoris com a proves obertes en què equips externs apliquen els seus propis mètodes per arribar a una afirmació o avaluació relacionada amb una capacitat d'avantguarda concreta.

Com a exemple, per a GPT‑5⁠, OpenAI va coordinar un ampli conjunt d'avaluacions externes de capacitats en àrees de risc clau com l'autonomia a llarg termini, el comportament estratègic enganyós, l'engany i la subversió de la supervisió, la viabilitat de la planificació en laboratori humit i les avaluacions ofensives de ciberseguretat.

Aquestes avaluacions independents complementen les avaluacions realitzades d'acord amb l'Entorn de treball de preparació d'OpenAI, i inclouen referències com l'avaluació de l'horitzó temporal⁠(s'obre en una finestra nova) de METR o l'avaluació Virology Capabilities Test (VCT)⁠(s'obre en una finestra nova) de SecureBio.

Per donar suport a aquestes avaluacions, vam proporcionar accés segur a punts de control primerencs del model, resultats d'avaluació seleccionats per concretar les millores de capacitat que estem observant, retenció zero de dades quan calia i models amb menys mitigacions. Per exemple, les organitzacions que feien proves en els àmbits de la ciberseguretat i la bioseguretat van provar models tant amb mitigacions de seguretat com sense per explorar les capacitats subjacents. Diverses altres organitzacions van rebre accés directe a la cadena de pensament perquè poguessin inspeccionar els rastres de raonament del model. Aquest pas addicional de transparència va permetre als avaluadors identificar casos de sandbagging² o de comportament estratègic enganyós que només es podien discernir llegint la cadena de pensament. L'accés es va proporcionar amb controls de seguretat en vigor, i continuem actualitzant aquests controls a mesura que evolucionen les capacitats dels models i les necessitats de prova.

Revisió metodològica

En determinats contextos, els avaluadors externs estan ben situats per oferir revisió metodològica i aportar perspectives addicionals als marcs i a les proves en què es basen els laboratoris d'avantguarda per avaluar el risc. Per exemple, durant el llançament de gpt-oss⁠, vam fer servir ajust fi adversarial per estimar les capacitats en el pitjor dels casos dels models de pes obert, tal com es descriu a Estimating worst case frontier risks of open weight LLMs⁠. La qüestió central de seguretat era si un actor maliciós podria ajustar finament el model per assolir una capacitat Alta en àrees com la bioseguretat o la ciberseguretat segons el nostre Entorn de treball de preparació. Com que això requeria un ajust fi adversarial intensiu en recursos, vam convidar avaluadors externs a revisar i fer recomanacions sobre els nostres mètodes i resultats interns en lloc de repetir una feina similar.

Això va comportar un procés de diverses setmanes de compartir execucions d'avaluació, detalls sobre l'enfocament d'ajust fi adversarial i recopilar recomanacions estructurades sobre com millorar la metodologia i les avaluacions dels riscos d'avantguarda en el pitjor dels casos. Els comentaris dels avaluadors van conduir a canvis en el procés final d'ajust fi adversarial i van demostrar el valor de la confirmació metodològica. Vam registrar quins punts vam adoptar a l'article i a la fitxa del model de gpt-oss, i vam aportar justificacions per als que no vam adoptar.

Aquí, la revisió metodològica era l'opció adequada més que no pas les avaluacions independents: les avaluacions implicaven executar experiments a gran escala sobre el pitjor dels casos, cosa que requereix infraestructura i expertesa tècnica que no solen estar disponibles fora dels grans laboratoris d'IA. Això significava que probablement les avaluacions independents no haurien pogut conduir directament a conclusions sobre escenaris del pitjor dels casos, i era més productiu centrar els avaluadors externs en la confirmació de les afirmacions. Els avaluadors externs van revisar els mètodes i les proves⁠(s'obre en una finestra nova), destacant llacunes rellevants per a la presa de decisions que es van abordar com a part del cicle de retorn de recomanacions. Aquest és un enfocament que esperem estendre a altres vies en què les necessitats d'accés o d'infraestructura facin impracticable que un tercer pugui executar directament les avaluacions, o en què les avaluacions externes encara no existeixin.

Sondeig d'experts en la matèria (SME)

Una altra manera com impliquem experts externs és mitjançant el sondeig d'experts en la matèria (SME), en què els experts avaluen directament el model i aporten informació estructurada mitjançant enquestes a la nostra avaluació de les seves capacitats. Això és diferent de l'equip vermell⁠, que pretén posar a prova de manera exhaustiva salvaguardes concretes. Això ens permet complementar les avaluacions de l'Entorn de treball de preparació amb coneixements específics del domini que reflecteixen el judici expert i el context del món real que potser les avaluacions estàtiques per si soles no capten. Per exemple, vam convidar un panell d'experts en la matèria a fer servir un model només útil³ per provar els seus propis escenaris bio complets per a ChatGPT Agent i GPT‑5. Van puntuar fins a quin punt el model podia augmentar les capacitats d'un expert com ells mateixos en comparació amb un novell menys experimentat, basant-se en la utilitat de l'orientació que proporcionava en els seus escenaris. L'objectiu era recopilar informació addicional sobre fins a quin punt el sistema podia acostar materialment un novell motivat a una execució competent: els SME van posar a prova les nostres afirmacions sobre la «millora del novell» en fluxos de treball realistes que ells mateixos van idear i van donar comentaris detallats sobre on el model proporcionava ajuda material, pas a pas, enfront de resums menys útils. Aquest exercici de sondeig expert es va incloure com a part de l'avaluació global per al desplegament d'aquests models, i es va compartir a les fitxes del model d'ambdós llançaments.

Què fa que una col·laboració d'avaluació amb tercers tingui èxit?

Amb esperit de transparència, compartim més informació sobre allò que els avaluadors externs accepten quan treballen amb nosaltres i sobre els principis que guien les nostres col·laboracions:

Transparència amb límits de confidencialitat ben definits: els avaluadors externs signen acords de no divulgació que permeten compartir informació confidencial i no pública per donar suport a les seves avaluacions. A l'Apèndix⁠ d'aquest article, incloem fragments rellevants dels contractes amb avaluadors externs que descriuen els drets de publicació i les expectatives de revisió. Operem amb el principi de transparència i ens esforcem per permetre publicacions que facin avançar la comprensió de la seguretat i de les avaluacions relacionades sense comprometre la informació confidencial ni la propietat intel·lectual. Com a part d'això, revisem i aprovem les publicacions derivades d'avaluacions de tercers per garantir tant la confidencialitat com l'exactitud factual. En els darrers anys, diversos avaluadors externs han publicat el seu treball juntament amb la nostra pròpia publicació de resums d'avaluació a les fitxes del model. Alguns exemples de treball publicat després de la nostra revisió de confidencialitat i exactitud inclouen: [Informe de METR sobre GPT‑5 ⁠(s'obre en una finestra nova), informe d'Apollo Research sobre OpenAI o1⁠(s'obre en una finestra nova), Avaluació d'Irregular de GPT‑5⁠(s'obre en una finestra nova)]
Divulgació d'informació ponderada i accés segur i sensible: per defecte, proporcionem informació i accés a models pensats per ser públics o preparats per a producció. Quan les avaluacions ho requereixen, proporcionem un accés més profund, com ara a models només útils o a informació no pública. OpenAI ha proporcionat aquestes formes d'accés quan han estat necessàries per a qüestions crítiques de seguretat plantejades per avaluadors externs. És important destacar que aquests tipus d'accés sensible requereixen mesures de seguretat estrictes, i continuem actualitzant aquests controls a mesura que evolucionen les capacitats dels models i les necessitats de prova.
Incentius econòmics equilibrats: creiem que és important garantir que l'ecosistema d'avaluació per tercers estigui ben finançat i sigui sostenible. Per això, oferim compensació a tots els nostres avaluadors externs, i alguns decideixen rebutjar-la en funció de la filosofia de la seva organització sobre aquesta qüestió. Les formes de compensació inclouen el pagament directe per la feina i/o la subvenció dels costos d'ús del model mitjançant crèdits d'API o altres vies. Cap pagament no està mai condicionat als resultats d'una avaluació de tercers.

En conjunt, aquests factors ajuden les avaluacions de tercers tant a protegir la informació sensible com a fomentar la transparència en la seguretat de la IA, i creen vies perquè els avaluadors externs rebin una compensació pel seu temps.

Mirant cap al futur

Mirant cap al futur, veiem la necessitat de continuar reforçant l'ecosistema d'organitzacions capaces de dur a terme avaluacions creïbles i rellevants per a la presa de decisions sobre sistemes d'IA d'avantguarda. Una avaluació eficaç per tercers requereix expertesa especialitzada, finançament estable i rigor metodològic. La inversió continuada en organitzacions avaluadores qualificades, el progrés de la ciència de la mesura i la seguretat per a l'accés sensible seran essencials per garantir que les avaluacions puguin seguir el ritme dels avenços en les capacitats dels models.

Les avaluacions de tercers són una manera d'incorporar una perspectiva externa al nostre treball de seguretat, i funcionen juntament amb altres mecanismes. També col·laborem amb experts externs mitjançant esforços estructurats d'equip vermell, projectes d'alineament col·lectiu⁠, treball amb la CAISI dels EUA i l'AISI del Regne Unit⁠, i grups assessors com la nostra Xarxa Global de Metges⁠ i el nostre Consell d'Experts sobre Benestar i IA⁠ per ajudar a orientar el nostre treball sobre salut mental i benestar dels usuaris. Aquests esforços aporten diferents formes d'expertesa i donen suport a una base més àmplia i fiable per avaluar i governar sistemes avançats d'IA.

Apèndix

Els següents són fragments il·lustratius dels nostres acords amb tercers que col·laboren amb nosaltres en avaluacions prèvies al desplegament.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autor

OpenAI

Notes al peu

1
Això és diferent de l'equip vermell, que pretén posar a prova de manera detallada les salvaguardes i proporcionar dades per al desenvolupament d'avaluacions.
2
Quan un model rendeix intencionadament per sota del seu nivell o amaga les seves capacitats reals quan detecta que està sent avaluat o posat a prova.
3
Els models només útils responen a qualsevol sol·licitud, encara que sigui perjudicial. Es creen amb mètodes de postentrenament que aconsegueixen aquest comportament.

Continuar llegint

Veure-ho tot

Safety and alignment in an era of long-horizon models

Seguretat20 de jul. del 2026

Why teens deserve access to safe AI — card image

Per què els adolescents mereixen accés a una IA segura

Seguretat16 de jul. del 2026

GPT-Red: automillora per a la robustesa

Seguretat15 de jul. del 2026