Hoe goblin-outputs zich verspreidden in AI-modellen: tijdlijn, hoofdoorzaak en oplossingen achter persoonlijkheidsgedreven eigenaardigheden in GPT-5-gedrag.
Ontdek hoe de modelspecificaties van OpenAI fungeren als een openbaar kader voor modelgedrag, waarbij veiligheid, gebruikersvrijheid en verantwoordingsplicht in evenwicht worden gebracht naarmate AI-systemen zich verder ontwikkelen.
Hoe OpenAI chain-of-thought-monitoring gebruikt om misalignment in interne coding agents te bestuderen: door implementaties uit de praktijk te analyseren om risico’s te detecteren en AI-beschermingsmaatregelen te versterken.
IH-Challenge traint modellen om prioriteit te geven aan vertrouwde instructies, waardoor de instructie-hiërarchie, veiligheidssturing en weerstand tegen prompt-injectieaanvallen worden verbeterd.
OpenAI introduceert CoT-Control en laat zien dat redenerende modellen moeite hebben hun chain-of-thought te sturen, wat monitorbaarheid als AI-veiligheidsmaatregel versterkt.
Een nieuwe preprint breidt single-minus-amplitudes uit naar gravitonen, waarbij GPT-5.2 Pro helpt niet-nul graviton-boomamplitudes in kwantumzwaartekracht af te leiden.