OpenAI 和 Molecule.one 展示近乎自主的 AI 化學家如何利用 GPT-5.4 改善一項關鍵製藥反應,推進藥物化學研究。
介紹 LifeSciBench:由專家撰寫並評審的評測基準,用於評估 AI 系統如何處理真實生命科學研究任務與決策。
「哥布林」輸出如何在 AI 模型中擴散:GPT-5 行為中由個性設定引起的怪異用語,其時間線、根本原因和修正方法。
了解 OpenAI 的模型規格如何作為模型行為的公開框架,在 AI 系統持續進步之際,平衡安全、用戶自由及問責。
OpenAI 如何運用思路鏈監察來研究內部編碼智能代理無法對齊,分析真實世界部署,以識別風險並加強 AI 安全防護措施。
IH-Challenge 透過訓練模型優先遵循可信指令,提升指令層級結構能力、安全可控性,以及對提示注入攻擊的抵抗能力。
OpenAI 推出 CoT-Control,並發現推理模型難以控制自己的思路鏈,進一步強化可監察性作為 AI 安全防護措施的角色。