OpenAI 与 Molecule.one 展示了近自主 AI 化学家如何利用 GPT-5.4 优化一项关键的药物合成反应,从而推动药物化学研究的进展。
推出 LifeSciBench:由专家撰写并评审的基准,用于评估 AI 系统处理真实生命科学研究任务和决策的能力。
AI 模型中的 goblin(哥布林)输出如何扩散:GPT-5 行为中由人格驱动的古怪习惯背后的时间线、根本原因及修复方案。
OpenAI 模型规范是定义模型行为的公开框架。在 AI 系统不断进化的背景下,它旨在实现安全保障、用户自由与问责机制之间的动态平衡。
OpenAI 如何利用思维链监控来研究内部编程智能体的对齐失范 — 通过分析实际部署情况来识别风险,并强化 AI 安全防护机制。
IH-Challenge 通过训练模型优先处理受信任指令,从而显著提升了指令层级结构、安全可控性以及抗“提示注入”攻击的稳健性。
OpenAI 推出 CoT-Control 评估套件,发现推理模型难以控制其思维链 (CoT),这一结果证明了将思维链监测作为 AI 安全防护手段的可靠性。