Wie sich „Goblin“-Ausgaben in KI-Modellen verbreiteten: Zeitverlauf, Ursache und Korrekturen hinter persönlichkeitsgetriebenen Eigenheiten im Verhalten von GPT-5.
Erfahre, wie die Modellspezifikation von OpenAI als öffentliches Framework für das Verhalten von Modellen dient und dabei Sicherheit, Nutzerfreiheit und Verantwortlichkeit in Einklang bringt, während sich KI-Systeme weiterentwickeln.
Wie OpenAI die Überwachung der Gedankenkette nutzt, um Fehlausrichtungen bei internen Coding-Agenten zu untersuchen – durch die Analyse von realen Implementierungen, um Risiken zu erkennen und die Sicherheitsmaßnahmen für KI zu stärken.
IH-Challenge trainiert Modelle darauf, vertrauenswürdige Anweisungen zu priorisieren, wodurch die Anweisungshierarchie, die Sicherheitssteuerbarkeit und die Widerstandsfähigkeit gegen Prompt-Injection-Angriffe verbessert werden.
OpenAI stellt CoT-Control vor und zeigt, dass Reasoning-Modelle Mühe haben, ihre Gedankenkette zu steuern, was die Überwachbarkeit als Sicherheitsmechanismus für KI stärkt.
Einzel-Minus-Amplituden werden auf Gravitonen ausgeweitet und mit GPT-5.2 Pro nichtverschwindende Gravitonen-Baumamplituden in der Quantengravitation hergeleitet und geprüft.