Enfortir la ciberresiliència a mesura que avancen les capacitats de la IA
A mesura que els nostres models guanyen capacitats en ciberseguretat, invertim a reforçar-los, afegir-hi salvaguardes i col·laborar amb experts en seguretat d’arreu del món.
Les capacitats cibernètiques dels models d’IA avancen ràpidament, aportant beneficis importants per a la ciberdefensa, així com nous riscos de doble ús que cal gestionar amb cura. Per exemple, les capacitats avaluades mitjançant reptes capture-the-flag (CTF) han millorat del 27% amb GPT‑5(s'obre en una finestra nova) l’agost de 2025 al 76% amb GPT‑5.1‑Codex‑Max(s'obre en una finestra nova) el novembre de 2025.
Esperem que els propers models d’IA continuïn en aquesta trajectòria; per preparar-nos, planifiquem i avaluem com si cada model nou pogués assolir nivells «alts» de capacitat de ciberseguretat, tal com es mesuren amb el nostre Entorn de treball de preparació(s'obre en una finestra nova). Amb això, ens referim a models que poden desenvolupar exploits remots zero-day funcionals contra sistemes ben defensats, o bé ajudar de manera significativa en operacions d’intrusió empresarials o industrials complexes i furtives orientades a causar efectes en el món real. En aquest article expliquem com entenem les salvaguardes per als models que arriben a aquests nivells de capacitat, i com ens assegurem que ajudin de manera significativa els defensors tot limitant-ne l’ús indegut.
A mesura que aquestes capacitats avancen, OpenAI està invertint a reforçar els nostres models per a tasques defensives de ciberseguretat i a crear eines que permetin als defensors dur a terme més fàcilment fluxos de treball com ara auditar codi i corregir vulnerabilitats. El nostre objectiu és que els nostres models i productes aportin avantatges importants als defensors, que sovint estan en inferioritat numèrica i disposen de menys recursos.
Com en altres àmbits de doble ús, els fluxos de treball defensius i ofensius de ciberseguretat sovint depenen del mateix coneixement i de les mateixes tècniques subjacents. Estem invertint en salvaguardes per ajudar a garantir que aquestes capacitats potents beneficiïn principalment els usos defensius i limitin el reforç amb finalitats malicioses. La ciberseguretat afecta gairebé tots els àmbits, cosa que significa que no podem confiar en una sola categoria de salvaguardes —com ara restringir el coneixement o basar-nos únicament en l’accés verificat—, sinó que necessitem un enfocament de defensa en profunditat que equilibri el risc i apoderi els usuaris. A la pràctica, això significa donar forma a com s’accedeix a les capacitats, com es guien i com s’apliquen, de manera que els models avançats reforcin la seguretat en lloc de reduir les barreres a l’ús indegut.
Considerem aquesta feina no pas com un esforç puntual, sinó com una inversió sostinguda i a llarg termini per donar avantatge als defensors i reforçar contínuament la postura de seguretat de les infraestructures crítiques de tot l’ecosistema.
Els nostres models estan dissenyats i entrenats per funcionar amb seguretat, amb el suport de sistemes proactius que detecten i responen als abusos cibernètics. Perfeccionem contínuament aquestes proteccions a mesura que canvien les nostres capacitats i el panorama d’amenaces. Tot i que cap sistema no pot garantir una prevenció completa de l’ús indegut en ciberseguretat sense afectar greument els usos defensius, la nostra estratègia és mitigar el risc mitjançant una capa de seguretat estratificada.
A la base d’això, adoptem un enfocament de defensa en profunditat, basat en una combinació de controls d’accés, enduriment de la infraestructura, controls d’egress i monitoratge. Complementem aquestes mesures amb sistemes de detecció i resposta, així com amb programes dedicats d’intel·ligència d’amenaces i de risc intern, de manera que les amenaces emergents s’identifiquin i es bloquegin ràpidament. Aquestes salvaguardes estan dissenyades per evolucionar amb el panorama d’amenaces. Assumim el canvi, i construïm perquè ens puguem adaptar de manera ràpida i adequada.
A partir d’aquesta base:
- Entrenar el model perquè rebutgi o respongui de manera segura a sol·licituds perjudicials mentre continua sent útil per a casos d’ús educatius i defensius: Estem entrenant els nostres models d’avantguarda perquè rebutgin o responguin de manera segura a les sol·licituds que permetrien abusos cibernètics clars, alhora que continuen sent tan útils com sigui possible per a casos d’ús legítims de defensa i educació.
- Sistemes de detecció: Perfeccionem i mantenim un monitoratge a escala de sistema en tots els productes que utilitzen models d’avantguarda per detectar activitat cibernètica potencialment maliciosa. Quan una activitat sembla insegura, podem bloquejar la sortida, redirigir les indicacions a models més segurs o menys capaços, o escalar el cas perquè s’hi actuï. La nostra actuació combina revisió automatitzada i humana, informada per factors com els requisits legals, la gravetat i la reincidència. També treballem estretament amb desenvolupadors i clients empresarials per alinear-nos en estàndards de seguretat i permetre un ús responsable amb vies d’escalada clares.
- Equip vermell integral: Treballem amb organitzacions expertes en equip vermell per avaluar i millorar les nostres mitigacions de seguretat. La seva feina és intentar esquivar totes les nostres defenses treballant de cap a cap, tal com podria fer un adversari decidit i ben dotat de recursos. Això ens ajuda a identificar buits aviat i a reforçar el sistema complet.
OpenAI ha invertit des de bon començament en l’aplicació de la IA a casos d’ús de ciberseguretat defensiva, i el nostre equip es coordina estretament amb experts d’arreu del món per fer madurar tant els nostres models com la seva aplicació. Valorem la comunitat global de professionals de la ciberseguretat que treballen per fer més segur el nostre món digital i ens comprometem a oferir eines potents que donin suport a la seguretat defensiva. A mesura que despleguem noves salvaguardes, continuarem treballant amb la comunitat de la ciberseguretat per entendre on la IA pot reforçar de manera significativa la resiliència i on les salvaguardes ben pensades són més importants.
Juntament amb aquestes col·laboracions, estem establint un conjunt d’iniciatives dissenyades per ajudar els defensors a avançar més de pressa, basar les nostres salvaguardes en necessitats del món real i accelerar una correcció responsable a escala.
Ben aviat presentarem un programa d’accés de confiança en què estudiarem oferir als usuaris i clients que compleixin els requisits i treballin en ciberdefensa un accés per nivells a capacitats millorades dels nostres models més recents per a casos d’ús defensius. Encara estem explorant el límit adequat entre les capacitats a les quals podem oferir un accés ampli i aquelles que requereixen restriccions per nivells, cosa que pot influir en el disseny futur d’aquest programa. El nostre objectiu és que aquest programa d’accés de confiança sigui una peça fonamental cap a un ecosistema resilient.
Aardvark, el nostre agent de recerca de seguretat que ajuda desenvolupadors i equips de seguretat a trobar i solucionar vulnerabilitats a escala, ara es troba en beta privada. Escaneja bases de codi per detectar-hi vulnerabilitats i proposa pedaços que els mantenidors poden adoptar ràpidament. Ja ha identificat CVE noves en programari de codi obert mitjançant el raonament sobre bases de codi senceres. Tenim previst oferir cobertura gratuïta a determinats repositoris de codi obert no comercials per contribuir a la seguretat de l’ecosistema i la cadena de subministrament del programari de codi obert. Sol·liciteu participar-hi aquí.
Establirem el Frontier Risk Council, un grup assessor que incorporarà defensors cibernètics experimentats i professionals de la seguretat en una estreta col·laboració amb els nostres equips. Aquest consell començarà centrant-se en la ciberseguretat i, en el futur, s’ampliarà a altres àmbits de capacitats d’avantguarda. Els seus membres assessoraran sobre el límit entre la capacitat útil i responsable i el possible ús indegut, i aquests aprenentatges informaran directament les nostres avaluacions i salvaguardes. Aviat compartirem més informació sobre el consell.
Finalment, preveiem que l’ús indegut cibernètic podria ser viable amb qualsevol model d’avantguarda del sector. Per abordar-ho, treballem amb altres laboratoris d’avantguarda a través del Frontier Model Forum, una organització sense ànim de lucre amb el suport dels principals laboratoris d’IA i socis del sector, per desenvolupar una comprensió compartida dels models d’amenaça i de les millors pràctiques. En aquest context, el modelatge d’amenaces ajuda a mitigar el risc identificant com es podrien convertir en armes les capacitats d’IA, on existeixen colls d’ampolla crítics per a diferents actors d’amenaça i com els models d’avantguarda podrien proporcionar un reforç significatiu. Aquesta col·laboració pretén construir una comprensió coherent, a escala de tot l’ecosistema, dels actors d’amenaça i de les vies d’atac, perquè laboratoris, mantenidors i defensors puguin millorar millor les seves mitigacions i garantir que els coneixements crítics de seguretat es propaguin ràpidament per tot l’ecosistema. També estem col·laborant amb equips externs per desenvolupar avaluacions de ciberseguretat(s'obre en una finestra nova). Esperem que un ecosistema d’avaluacions independents contribueixi encara més a construir una comprensió compartida de les capacitats dels models.
En conjunt, aquests esforços reflecteixen el nostre compromís a llarg termini per reforçar el costat defensiu de l’ecosistema. A mesura que els models esdevenen més capaços, el nostre objectiu és ajudar a garantir que aquestes capacitats es tradueixin en un avantatge real per als defensors: basat en necessitats del món real, modelat per l’aportació d’experts i desplegat amb cura. Paral·lelament a aquesta feina, tenim previst explorar altres iniciatives i subvencions de ciberseguretat per ajudar a fer aflorar idees transformadores que potser no sorgirien dels canals tradicionals, i per obtenir, mitjançant col·laboració oberta, defenses agosarades i creatives del món acadèmic, la indústria i la comunitat de codi obert. En conjunt, es tracta d’una feina continuada, i esperem continuar fent evolucionar aquests programes a mesura que aprenguem què és el que fa avançar de manera més efectiva la seguretat del món real.


