Com es van propagar les sortides de tipus "follet" en els models d'IA: cronologia, causa arrel i correccions darrere de les peculiaritats impulsades per la personalitat en el comportament de GPT-5.
Descobreix com l’Model Spec d’OpenAI serveix de marc públic per al comportament del model, equilibrant seguretat, llibertat de l’usuari i rendició de comptes a mesura que avancen els sistemes d’IA.
Com OpenAI utilitza la monitorització de la cadena de pensament per estudiar la desalineació en agents interns de codificació: analitzant desplegaments reals per detectar riscos i reforçar les salvaguardes de seguretat de la IA.
IH-Challenge entrena models perquè prioritzin instruccions fiables, millorant la jerarquia d'instruccions, la controlabilitat de seguretat i la resistència als atacs d'injecció d'indicacions.
OpenAI presenta CoT-Control i constata que els models de raonament tenen dificultats per controlar les seves cadenes de pensament, cosa que reforça la monitorabilitat com a salvaguarda de seguretat de la IA.
Un nou preprint amplia les amplituds single-minus als gravitons, amb GPT-5.2 Pro ajudant a derivar i verificar amplituds d'arbre de gravitons no nul·les en la gravetat quàntica.