Hvordan goblinsoutput spredte sig i AI-modeller: tidslinje, grundårsag og rettelser bag personlighedsdrevne særheder i GPT-5's adfærd.
Lær, hvordan OpenAIs modelspecifikation fungerer som en offentlig ramme for modeladfærd, der balancerer sikkerhed, brugerfrihed og ansvarlighed i takt med at AI-systemer udvikler sig.
Sådan bruger OpenAI overvågning af tankerække til at studere fejljustering i interne kodningsagenter – analyse af implementeringer i den virkelige verden for at opdage risici og styrke AI-sikkerhedsforanstaltninger.
IH-Challenge træner modeller til at prioritere pålidelige instruktioner, hvilket forbedrer instruktionshierarki, sikkerhedsstyrbarhed og modstandsdygtighed over for prompt injection-angreb.
OpenAI introducerer CoT-Control og finder, at ræsonneringsmodeller har svært ved at kontrollere deres tankerækker, hvilket understreger overvågelighed som en AI-sikkerhedsforanstaltning.
Et nyt preprint udvider single-minus-amplituder til gravitoner ved hjælp af GPT-5.2 Pro hjælper med at udlede og verificere ikke-nul graviton-træamplituder i kvantegravitation.