29 de maig del 2026

Una guia compartida per a avaluacions de tercers fiables

Què importa per a avaluacions independents eficaces de salvaguardes i capacitats per a models d’avantguarda.

S'està carregant…

Les avaluacions independents i fiables de tercers tenen un paper crític⁠ en l’enfortiment de l’ecosistema de seguretat. Aquestes avaluacions es duen a terme sobre models d’avantguarda per aportar proves addicionals a afirmacions sobre capacitats crítiques i mitigacions de seguretat. En aquesta publicació compartim les lliçons que hem après fins ara i recomanem enfocaments per dissenyar avaluacions que puguin avaluar vàlidament models d’avantguarda i que esperem que ajudin a informar els estàndards emergents en aquest àmbit.

Abans, moltes avaluacions tractaven els models com si fossin xatbots: l’avaluació feia una indicació a un model com si fos un usuari fent una pregunta, el model responia i un avaluador jutjava la sortida. Els models d’avantguarda actuals poden fer molt més: poden fer servir eines, seguir la informació al llarg de molts passos i actuar dins d’un flux de treball més ampli. Això vol dir que el rendiment no depèn només del model, sinó també de l’entorn en què té lloc la tasca i de la configuració que en facilita les accions. Aquesta configuració circumdant, que anomenem «harness», pot canviar aspectes clau del rendiment del sistema, incloent-hi com fa servir eines, com segueix la informació o com es recupera dels errors.

Diagrama que compara un flux de treball d’indicació-resposta amb un flux de treball de tasca agèntica, mostrant com els bucles de control, les eines, el context, el pressupost i les salvaguardes permeten l’execució autònoma de tasques.

Això canvia com s’han de dur a terme les avaluacions i què haurien de buscar els lectors en els informes d’avaluació. Segons el nostre parer, els informes més útils descriuen explícitament dues coses més enllà del resultat mateix: primer, especifiquen quina afirmació es va dissenyar per provar la configuració d’avaluació i, segon, comparteixen les proves disponibles que el resultat de l’avaluació és vàlid.

Les afirmacions provades en avaluacions solen caure en una de tres categories¹:

Elicitació de capacitats: Pot un model produir de manera plausible la capacitat que s’està avaluant?
Rendiment de les salvaguardes: Fins a quin punt són robustes les salvaguardes provades davant del comportament o atac que s’està avaluant?
Comparació: Com rendeixen diferents models en condicions equivalents?

Els informes d’avaluació també han d’explicar com els avaluadors van comprovar els efectes que podrien afectar la validesa d’un resultat. Aquests inclouen:

Manipulació de la recompensa: Explotar dreceres en la tasca o en el sistema de puntuació, de manera que el sistema rep crèdit sense demostrar el comportament que l’avaluació pretén mesurar.
Rebuigs: Negar-se de maneres que oculten el comportament que s’està provant.
Contaminació: Rendir per sobre del que tocaria perquè les tasques d’avaluació, les respostes o variants properes apareixien a les dades d’entrenament o es podien descobrir durant l’avaluació, com ara mitjançant la navegació.
Problemes defectuosos: Rendir per sota del que tocaria perquè les tasques no són vàlides. Les raons poden incloure una puntuació injusta (p. ex., la resposta correcta requereix detalls d’implementació no indicats) i entorns irresolubles (p. ex., fitxers crítics absents o eines poc fiables).
Sandbagging: Rendir deliberadament per sota del nivell real quan mostren consciència d’estar sent avaluats.

Seleccionar el harness adequat per a una avaluació és crucial per obtenir resultats òptims

Hem observat que el paper del harness és especialment important per als sistemes que actuen al llarg de trajectòries més llargues. Quan els models poden fer servir eines, mantenir l’estat i recuperar-se d’errors al llarg de molts passos, el harness pot canviar el nivell de rendiment observat i fins i tot determinar si la capacitat que s’està avaluant apareix o no en l’avaluació. Per exemple, un harness que preserva l’estat i reintenta accions fallides pot permetre que un model acabi una tasca de múltiples passos que el mateix model mai no completa en un harness més simple.

A la taula següent, separem tres tipus d’afirmacions que els avaluadors poden voler fer i el harness que creiem que requereix cada tipus d’afirmació.

Afirmació que l’avaluació intenta sustentar	Elecció adequada del harness	Proves que cal informar
Capacitat sota una elicitació forta: el sistema A pot completar tasques del tipus X quan la configuració està dissenyada per extreure’n el rendiment creïble més alt.	Fes servir la configuració d’elicitació creïble més forta per al sistema, incloent-hi el harness, les eines, l’estructura de suport i el pressupost que un usuari competent faria servir raonablement.	La configuració del harness i de les eines, la guia d’elicitació, el pressupost/esforç permès, segments/cost/temps, i per què la configuració és un indicador creïble de la capacitat afirmada. Si es comparen sistemes amb configuracions optimitzades diferents, etiqueta-ho com una comparació entre sistemes o d’elicitació forta.
Comparació controlada: el sistema A supera el sistema B sota una configuració d’avaluació compartida.	Mantén fixes les tasques, la puntuació i el pressupost. Fes servir o bé una configuració compartida de harness/eines o bé un conjunt fix de harnesses estandarditzats triats per endavant per oferir una elicitació màxima raonable per als sistemes comparats.	El conjunt compartit de tasques, eines, mètode de puntuació, harness, pressupost, eficiència de segments/cost i limitacions conegudes. Per a avaluacions d’agents de programació, un harness de codi obert com Codex CLI pot proporcionar un bucle d’agent fix i una interfície d’eines comuna entre sistemes. L’enfocament ideal per a l’elicitació màxima seria optimitzar un harness a mida per a cada tasca i sistema, però actualment això és impracticable a la pràctica.
Robustesa de les salvaguardes sota atac elicitat: les salvaguardes del sistema A són suficients per al comportament del model o l’atac elicitat rellevant.	Fes servir una configuració de prova de salvaguardes dissenyada per elicitar l’atac creïble més fort sota el model d’adversari rellevant.	Com els avaluadors van caracteritzar el comportament rellevant del model, la configuració de salvaguardes provada, l’estratègia d’elicitació, el harness utilitzat per dur-la a terme i el pressupost o esforç permès.

Les afirmacions sobre capacitats només són tan sòlides com l’elicitació que hi ha al darrere: els avaluadors han de triar el harness que millor s’ajusti a la tasca i a la capacitat que l’avaluació intenta mesurar. Un harness estandarditzat pot ser adequat per comparar sistemes en condicions idèntiques, però pot infraestimar la capacitat quan omet característiques específiques del harness que ajuden el model a dur a terme la tasca. Per exemple, el rendiment de GPT‑5.5 en els entorns de simulació cibernètica d’OpenAI mostra com l’elecció del harness pot canviar materialment la capacitat mesurada en tasques que requereixen un ús llarg i de múltiples passos d’eines: el model rendeix millor quan el harness fa servir compactació⁠ per preservar el context rellevant per a la tasca a mesura que la interacció s’allarga. Això demostra que, per a certs models, un harness que ometi la compactació elicitaria insuficientment el rendiment.

Les taxes d’èxit més altes són millors

Altres avaluacions publicades² també mostren que les decisions sobre harness i pressupost canvien els resultats de l’avaluació. Augmentar el càlcul en temps de prova pot canviar significativament quina capacitat elicita una avaluació, especialment en àmbits on l’èxit és fàcil de verificar, com moltes tasques cibernètiques. A l’avaluació dels entorns de simulació cibernètica de UK AISI⁠(s'obre en una finestra nova), augmentar el pressupost de 10M a 100M segments va millorar el rendiment fins a un 59%, i el rendiment encara augmentava amb el pressupost més alt provat. Detallar això fa que l’avaluació sigui més interpretable: mostra als lectors com depèn el resultat de la configuració d’elicitació provada. Quan el rendiment continua millorant amb pressupost addicional, la puntuació s’hauria de descriure com a rendiment sota aquell harness i pressupost, no com un sostre de capacitat mesurat. La capacitat sovint depèn dels recursos més que no pas ser una quantitat fixa que es pugui mesurar netament d’una vegada per sempre. Quan l’èxit es pot mesurar al llarg d’intents repetits, els informes també haurien de considerar el cost esperat per resolució reeixida, no només la taxa d’èxit amb un pressupost fix de segments. Això pot fer que la gravetat sigui més fàcil d’interpretar: una taxa d’èxit baixa encara pot ser pràcticament significativa si el cost dels intents repetits entra dins del model d’amenaça rellevant. Per a afirmacions sobre capacitats, una elicitació insuficient evitable és un error de mesura: si el harness o el pressupost impedeixen que el sistema mostri un comportament que altrament podria produir, la puntuació no mesura la capacitat que s’afirma. Quan els avaluadors han portat l’elicitació tan lluny com és factible i el rendiment encara millora, els informes ho haurien d’indicar clarament i deixar clar que el resultat és només una estimació de límit inferior.

Les proves de salvaguardes poden infraestimar si un atac pot tenir èxit i com de greu podria ser quan no tenen en compte els recursos disponibles per als atacants, inclosos els harnesses personalitzats. A l’avaluació cibernètica de GPT‑5.5 de UK AISI⁠(s'obre en una finestra nova), el seu equip vermell expert va trobar un jailbreak universal que elicitava contingut cibernètic infractor en les consultes malicioses proporcionades per OpenAI, inclosos entorns agèntics de múltiples torns. Van fer servir Codex per crear un harness personalitzat per reforçar el rendiment d’atac del model: incorporava a la interacció un patró reutilitzable d’elusió de salvaguardes, preservava aquest patró al llarg de torns i blocs, i l’aplicava a les consultes cibernètiques malicioses proporcionades per OpenAI. Les proves de salvaguardes s’han d’ajustar a l’adversari. Si l’afirmació tracta sobre la robustesa davant d’un ús indegut expert, la prova hauria d’avaluar l’estratègia d’atac integral creïble més forta sota un pressupost definit, incloent-hi qualsevol harness necessari per preservar i reutilitzar aquesta estratègia. En cas contrari, els resultats corren el risc d’estar mal calibrats: podrien donar suport només a una afirmació més estreta sobre resistència a indicacions més simples, podrien passar per alt tant la gravetat de l’atac com la seva probabilitat d’èxit un cop el mètode d’elicitació s’operativitza, i també podrien sobreestimar la probabilitat o la gravetat d’un problema si se li assigna massa pressupost.

Hi ha un moment i un lloc per a les comparacions amb harnesses estandarditzats, però els avaluadors haurien d’explicar explícitament per què és adequat fer servir un conjunt coherent de harnesses i quina afirmació pot sustentar. L’avaluació d’horitzó temporal de METR⁠(s'obre en una finestra nova) és un exemple d’una configuració d’avaluació més àmplia i adequadament fixa: està dissenyada per produir resultats comparables entre els sistemes que avalua. METR defineix un resultat comú, la durada típica d’una tasca humana en què es prediu que un agent d’IA tindrà èxit amb un nivell de fiabilitat determinat. Aplica un conjunt compartit de tasques, un mètode de puntuació, un mètode d’ajust i un petit conjunt d’estructures reutilitzables com Triframe i ReAct⁠(s'obre en una finestra nova) dins de cada lot d’estimacions informat conjuntament. Quan METR va ampliar el conjunt de tasques i va traslladar la infraestructura d’avaluació d’un marc anomenat Vivaria a un altre anomenat Inspect, va informar del canvi (actualització Time Horizon 1.1⁠(s'obre en una finestra nova)) i va tornar a avaluar els models sota la nova configuració d’avaluació. Aquest és el valor d’una configuració d’avaluació estandarditzada, inclòs un conjunt coherent de harnesses: pot fer que els lectors confiïn que una diferència en les puntuacions reflecteix realment una diferència entre els sistemes comparats, i no un canvi en la configuració de mesura.

Recomanem que els informes d’avaluació de tercers indiquin quin tipus d’afirmació pretén sustentar la seva configuració d’avaluació; descriguin fins a quin punt allò que es va provar reflecteix aquesta afirmació més àmplia; descriguin les decisions sobre el harness que van donar forma al resultat; detallin quan aquestes decisions canvien entre avaluacions; i incloguin proves de suport per mostrar com es va produir el resultat i fins a quin punt es generalitza a l’afirmació.

Avalua la validesa comprovant riscos coneguts que poden distorsionar els resultats

A mesura que els models esdevenen més capaços, les puntuacions d’avaluació es tornen més fàcils d’interpretar erròniament. En relació amb les capacitats reals, les puntuacions d’avaluació es poden reduir artificialment si un model reconeix que està sent avaluat i rendeix estratègicament per sota del seu nivell. Es poden inflar si el model explota una drecera en la tasca, la indicació, el sistema de puntuació o el harness. També es poden distorsionar per contaminació (quan un model ja coneix o pot trobar una resposta sense resoldre la tasca) o per problemes «defectuosos» que són ambigus, es puntuen incorrectament, són irresolubles o vulnerables a dreceres no desitjades. Per tant, els informes d’avaluació haurien d’acompanyar les puntuacions principals amb una discussió d’aquests riscos, perquè els lectors puguin valorar si les puntuacions reflecteixen el comportament previst.

Els harnesses, els pressupostos, les eines, les regles de puntuació, els monitors i els procediments de revisió afecten tots si un agent resol la tasca prevista, l’evita, la memoritza o troba una via per esquivar-la. Un informe fiable fa visibles aquestes comprovacions: els avaluadors haurien de revisar mostres d’aquests comportaments cada vegada que s’executa una avaluació global.

Manipulació de la recompensa

La manipulació de la recompensa significa obtenir puntuacions altes d’avaluació de maneres que no reflecteixen la capacitat prevista. Aquí, la preocupació és que el sistema obtingui crèdit explotant la tasca, el sistema de puntuació, la indicació o el harness en lloc de fer la feina que l’avaluació pretenia mesurar. L’avaluació de GPT 5.4 de METR⁠(s'obre en una finestra nova) mostra per què això importa: tot i que el model tenia èxit en tasques a un ritme que en una primera passada hauria registrat un horitzó temporal d’aproximadament 13 hores, la revisió humana va mostrar que alguns d’aquests èxits provenien de manipulació de la recompensa, i revisar els resultats per tenir en compte només els casos sense aquesta manipulació va reduir l’estimació a unes 6 hores. Els avaluadors haurien de valorar la necessitat d’aquests ajustos i, quan calguin, informar-ne clarament: una estimació de capacitat és molt més útil quan els lectors poden veure quins èxits aparents es van desqualificar, per què es van desqualificar i fins a quin punt el resultat depèn d’aquest judici.

Gràfic que mostra el rendiment d’un model d’IA al llarg del temps amb una línia de tendència i intervals de confiança.

Rebuigs

Els models també poden rendir per sota en avaluacions de capacitat a causa de les salvaguardes. Un model pot tenir un rendiment d’avaluació inferior al que és capaç d’assolir perquè es nega a completar les tasques d’avaluació en lloc de resoldre-les. Per tant, els informes haurien d’explicar si els rebuigs van formar part dels resultats de l’avaluació i, si és així, quantes mostres en van quedar compromeses.

Contaminació

La contaminació és especialment important per als benchmarks públics o reutilitzats⁠. Si les tasques, les respostes o variants properes apareixen a les dades d’entrenament o poden ser trobades per un agent amb navegació, el rendiment pot reflectir memorització o recuperació més que no pas el rendiment del model. Els avaluadors haurien de preferir, quan sigui possible, tasques privades o de nova construcció i comprovar si els models reprodueixen detalls específics de la tasca abans de resoldre-la.

Problemes defectuosos

Els problemes defectuosos inclouen situacions com ara un problema que accidentalment no es pot resoldre. Els problemes defectuosos són prou habituals⁠(s'obre en una finestra nova) perquè s’hagin de tractar com un risc estàndard de validesa. Inclouen veritats de referència incorrectes, indicacions ambigües, fitxers absents, serveis inestables, criteris de puntuació injustos i entorns que exposen dreceres, com ara fitxers de resposta ocults o l’historial del repositori que conté el pedaç de referència.

Sandbagging

El sandbagging d’un model o sistema significa rendir estratègicament per sota del nivell real quan un bon rendiment entraria en conflicte amb algun objectiu. L’avaluació de GPT‑5.5 d’Apollo⁠(s'obre en una finestra nova) ho va provar creant un context en què el model entenia que puntuacions altes d’avaluació podrien desencadenar desaprenentatge o bloquejar el desplegament. GPT‑5.5 encara va respondre correctament, cosa que suggereix poques proves conductuals d’infra-rendiment estratègic³. Però la seva revisió de les traçes de raonament va afegir un context important: Apollo va trobar indicis moderats o superiors de consciència d’avaluació d’alineament en el 52% de les mostres en condició de sandbagging, en comparació amb el 0% en els contrafactuals. Aquesta prova complica la interpretació del resultat, però en última instància dona més senyal als lectors: poden veure tant el resultat conductual tranquil·litzador com el motiu per ser prudents a l’hora de sobreinterpretar-lo.

Com estem donant suport a avaluacions més sòlides

Les afirmacions sòlides requereixen tant el harness adequat per elicitar el comportament com comprovacions de validesa que mostrin que el resultat és sòlid. La nostra visió que els harnesses i les comprovacions de validesa formen part del resultat de l’avaluació determina com donem suport a les avaluacions de tercers a la pràctica:

Estem compartint orientacions específiques d’elicitació màxima amb els avaluadors.
Demanem als avaluadors de capacitats que facin servir Codex com a base comuna per als models d’OpenAI: les proves haurien d’executar almenys una línia base a través de la mateixa interfície agèntica en què probablement confiaran els usuaris, i no només a través d’una interfície de model simplificada.
També posem a disposició traçes de raonament i altres artefactes intermedis quan calen per avaluar engany, sandbagging o consciència d’avaluació. METR i Apollo han fet servir aquest accés en avaluacions d’OpenAI des de GPT‑5.
Finalment, estem prioritzant la recerca per entendre més a fons quan i com les decisions sobre el harness canvien materialment els resultats, des de la gestió del context i l’accés a eines fins al comportament de reintent, la puntuació i els pressupostos de recursos.

Què significa això per als estàndards d’avaluació i les futures línies de recerca

Aquestes recomanacions no només pretenen millorar els informes d’avaluació individuals, sinó també informar els estàndards nacionals ⁠(s'obre en una finestra nova)i internacionals ⁠(s'obre en una finestra nova)emergents per a l’avaluació i la presentació d’informes sobre IA d’avantguarda. D’ara endavant, els estàndards d’avaluació de tercers haurien d’exigir prou detall perquè els responsables de la presa de decisions entenguin quines afirmacions sustenten les avaluacions específiques, quin sistema es va provar, com es va elicitar el resultat i com els avaluadors en van comprovar la validesa. Per als sistemes d’avantguarda que es proven en tasques on les capacitats agèntiques són importants, els detalls haurien d’incloure (subjecte a qualsevol preocupació de seguretat o confidencialitat):

L’afirmació: si l’avaluació compara sistemes, estima un sostre de capacitat o prova salvaguardes.
Contingut de l’avaluació: prou detall sobre les tasques o la distribució de tasques perquè els lectors entenguin quines habilitats, comportaments o modes de fallada està provant realment l’avaluació.
El sistema provat: el model, la configuració de raonament, l’accés a eines, el harness i les salvaguardes.
El pressupost: torns, segments, intents/reintents, temps de rellotge, cost d’inferència i, quan escaigui, cost esperat per resolució reeixida.
Mètodes d’elicitació: decisions sobre el harness utilitzades per extreure el resultat i fins a quin punt allò que es va provar reflecteix l’afirmació més àmplia que es fa.
Comprovacions de validesa: com els avaluadors van buscar manipulació de la recompensa, consciència d’avaluació, contaminació, rebuigs, sandbagging i altres comportaments que podrien desvirtuar el resultat, incloent-hi com els casos confirmats van afectar la puntuació o la interpretació.

Els estàndards que ometen les decisions sobre el harness o les comprovacions de validesa poden infraestimar el que un sistema pot fer o sobreestimar la confiança en una afirmació de seguretat. Construir harnesses sòlids i mètodes d’elicitació continua sent una àrea de recerca oberta i hauria de ser un focus d’investigació i inversió addicionals.

2026

Autor

OpenAI

Glossari

Com que en aquesta publicació fem servir diversos termes tècnics, a continuació hem inclòs un glossari que explica en llenguatge planer a què ens referim:

Sistema agèntic: Un sistema que pot resoldre una tasca al llarg de múltiples passos, fent servir eines, mantenint l’estat de la tasca i actuant en un entorn, en lloc de limitar-se a retornar una única resposta a una indicació.
Avaluació global: Un judici més ampli sobre si les proves donen suport a una afirmació, una conclusió de risc o una posició d’assegurament, que pot basar-se en dades d’avaluació, revisió de documents, entrevistes, revisió de processos i altres artefactes rellevants.
compactació: Mètode per preservar el context rellevant per a la tasca durant execucions llargues.
Configuració: Sistema exacte provat i condicions d’avaluació, més enllà del nom del model.
Contaminació: Quan les tasques d’avaluació, les respostes o variants properes apareixen a les dades d’entrenament d’un model o es poden descobrir durant l’avaluació (p. ex., mitjançant eines com la navegació), fent que el rendiment sobreestimi la veritable capacitat de generalització del model.
Elicitació: Procés d’intentar extreure una capacitat o un comportament d’un sistema durant una avaluació global.
Entorn: Context de tasca en què es prova un sistema. Això inclou aspectes com l’estat extern amb què l’agent interactua i que modifica durant una avaluació, com ara un entorn de terminal o un videojoc.
Avaluació: Prova o mesura concreta dins d’una avaluació global.
Consciència d’avaluació: La consciència d’avaluació fa referència al fet que un model reconegui, o sembli reconèixer, que està sent avaluat i potencialment ajusti el seu comportament en resposta a aquest context. Això es pot manifestar quan el model raona explícitament sobre el fet d’estar sent provat, infereix el propòsit de l’avaluació o canvia el seu comportament perquè espera que el resultat afecti com serà jutjat o desplegat.
Harness: Estructura orientada al model que li permet dur a terme una tasca: indicacions, eines, interfícies, lògica de control, memòria, reintents, validadors i altres estructures de suport al voltant del model.
Elicitació màxima: Proves orientades a trobar el rendiment més alt creïble o el mode de fallada que un sistema pot produir dins d’un pressupost definit, en lloc de limitar-se a executar el sistema una sola vegada amb un harness estandarditzat.
Traçes de raonament: Registres del raonament intermedi del model durant una prova.
Manipulació de la recompensa: Aconseguir una puntuació alta mitjançant una drecera o un comportament fora de la intenció de l’avaluador.
Salvaguardes: Filtres, monitors, sistemes de bloqueig i altres proteccions aplicades al voltant d’un model o producte.
Sandbagging: Infra-rendiment estratègic en una avaluació d’una manera que en desvirtua el resultat.
Puntuació: Mètode utilitzat per decidir com es mesura el rendiment o si una tasca s’ha completat amb èxit.
Harness estandarditzat: Harness que es manté igual entre sistemes en lloc de personalitzar-se per a un model o tasca concrets, de manera que les diferències en els resultats es puguin atribuir més fàcilment al model provat.
Horitzó temporal: Durada de la tasca que un sistema pot completar amb una fiabilitat especificada, sovint expressada com el temps que trigaria un humà a fer la mateixa tasca.
Accés a eines: Eines externes disponibles per al model durant l’avaluació global.
Trajectòries: Camins pas a pas que segueix un sistema mentre resol una tasca.
Jailbreak universal: Patró d’atac únic que fa que un sistema esquivi les salvaguardes en moltes indicacions o tasques.

Notes al peu

1
Aquesta publicació no intenta resoldre com tercers haurien d’avaluar afirmacions relacionades amb la desalineació o les propensions. Cal més feina per entendre com les decisions sobre el harness afecten aquestes avaluacions, especialment perquè els harnesses que admeten comportaments amb horitzons més llargs també poden canviar els tipus de comportament no desitjat que els avaluadors han de supervisar.
2
HAL⁠(s'obre en una finestra nova) ofereix un exemple addicional d’avaluacions d’agents: a CORE-Bench⁠(s'obre en una finestra nova), canviar el harness a Claude Code va modificar tant el rendiment mesurat com el perfil de cost en el mateix benchmark. Altres exemples públics inclouen SWE-agent⁠(s'obre en una finestra nova), SeeAct⁠(s'obre en una finestra nova), ScienceAgentBench⁠(s'obre en una finestra nova), CORE-Bench⁠(s'obre en una finestra nova) i Inspect Cyber⁠(s'obre en una finestra nova); cadascun indica als lectors quina interfície o harness va produir la puntuació.
3
Puntuant el 100% en ambdues variants de Sandbagging QA i el 99,6% en la tasca de sandbagging de decepció estratègica.

Continuar llegint

Veure-ho tot

Safety and alignment in an era of long-horizon models

Seguretat20 de jul. del 2026

Why teens deserve access to safe AI — card image

Per què els adolescents mereixen accés a una IA segura

Seguretat16 de jul. del 2026

GPT-Red: automillora per a la robustesa

Seguretat15 de jul. del 2026