W jaki sposób dane wyjściowe z „goblinami” rozprzestrzeniły się w modelach AI: oś czasu, przyczyna i poprawki stojące za dziwacznymi zachowaniami GPT-5.
Dowiedz się, w jaki sposób specyfikacja modelu OpenAI jest wykorzystywana jak publiczne ramy zachowania modeli równoważące bezpieczeństwo, swobodę użytkowników i odpowiedzialność w miarę rozwoju systemów AI.
W jaki sposób OpenAI wykorzystuje monitorowanie łańcucha rozumowania do badania niezgodności wewnętrznych agentów programistycznych, analizując rzeczywiste wdrożenia w celu wykrywania zagrożeń i wzmacniania zabezpieczeń AI?
Zestaw IH-Challenge pozwala szkolić modele, aby nadawały one priorytet zaufanym instrukcjom, co usprawnia dostosowanie się ich do realizowania instrukcji zgodnie z hierarchią, zwiększa zakres zarządzania bezpieczeństwem i podnosi odporność na ataki polegające na wstrzykiwaniu poleceń.
OpenAI wprowadza CoT-Control i pokazuje, że modele rozumujące mają trudność z kontrolą swoich łańcuchów rozumowania, co wzmacnia monitorowalność jako zabezpieczenie bezpieczeństwa AI.
Nowy preprint rozszerza amplitudy single-minus na gravitony; GPT-5.2 Pro pomaga wyprowadzić i zweryfikować niezerowe drzewiaste amplitudy gravitonów w kwantowej grawitacji.