AI 모델에서 고블린 관련 출력이 어떻게 확산되었는지, 그리고 GPT-5 동작에서 나타난 성격 기반 특이성의 타임라인, 근본 원인 및 해결 방안을 살펴봅니다.
OpenAI의 Model Spec이 모델 행동을 위한 공개 프레임워크로서, AI 시스템이 발전하는 과정에서 안전성, 사용자 자유, 책임성을 어떻게 균형 있게 유지하는지 확인해 보세요.
OpenAI는 추론 과정 모니터링 방식을 통해 내부 코딩 에이전트의 정렬 문제를 분석하며, 실제 배포 환경을 바탕으로 위험을 식별하고 AI 안전 보호 체계를 강화합니다.
IH-Challenge는 모델이 신뢰할 수 있는 명령을 우선시하도록 훈련해 명령 계층, 안전 조정성, 프롬프트 인젝션 공격에 대한 대응력을 개선합니다.
OpenAI는 CoT-Control을 소개하고, 추론 모델이 자신의 chain-of-thought를 제어하는 데 어려움을 겪는다는 사실을 발견했습니다. 이는 모니터링 가능성이 AI 안전을 위한 보호 장치로서 유효함을 뒷받침합니다.
A new preprint extends single-minus amplitudes to gravitons, with GPT-5.2 Pro helping derive and verify nonzero graviton tree amplitudes in quantum gravity.