Hvordan goblin-aktige uttrykk spredte seg i AI-modeller: tidslinje, rotårsak og tiltakene bak personlighetsdrevne særtrekk i GPT-5-atferd.
Lær hvordan OpenAIs modellspesifikasjoner fungerer som et offentlig rammeverk for modellatferd, og balanserer sikkerhet, brukerfrihet og ansvarlighet etter hvert som AI-systemene utvikler seg.
Hvordan OpenAI bruker overvåking av tankerekker for å studere uønsket atferd i interne kodingsagenter – analyse av utrullinger i den virkelige verden for å avdekke risikoer og styrke sikkerhetstiltak for kunstig intelligens.
IH-Challenge trener modeller til å prioritere betrodde instruksjoner, noe som gir bedre instruksjonshierarki, styrbarhet for sikkerhet og motstand mot promptinjeksjonsangrep.
OpenAI introduserer CoT-Control og finner at Resonneringsmodeller sliter med å kontrollere tankerekker sine, noe som forsterker overvåkbarhet som en sikkerhetsmekanisme for KI.
Et nytt preprint utvider enkelt-minus-amplituder til gravitoner ved hjelp av GPT-5.2. Pro utleder og verifiserer ikke-null tre-nivå-amplituder for gravitoner i kvantegrav