OpenAI 投身科学研究的动机源于一个简单的信念:先进的 AI 能够成为科学家的得力助手,帮助他们探索更多思路、连接跨度巨大的概念、设计更优的实验,并加速造福人类的科学发现。此前,我们已经分享了模型在数学(如单位距离问题)、理论物理(关于胶子振幅的新结果)以及生物学(GPT‑5 在自动化实验室中协助降低无细胞蛋白质合成成本)中做出贡献的早期案例。我们还推出了 GPT‑Rosalind,这是一个专为支持生命科学研究和药物发现工作流而构建的专用模型。
本项目将这一发展轨迹延伸至药物化学领域。在该领域,研究进展不能仅靠推理来衡量,假设必须在真实的分子、仪器和实验噪声环境中得到实验室的验证。通过与 Molecule.one(在新窗口中打开) 合作,我们将 GPT‑5.4 与 Maria(一个集成了高通量实验室并能进行自主研究的化学 AI 智能体)连接起来,并为其设定了一个开放性目标:优化几个重要反应类别中的一种。该系统生成了研究提案,设计并执行了实验,分析了实验数据,并提出了后续实验方案。人类始终保持在工作环路中 (Human-in-the-loop),负责设计引导和评分提示词、筛选供测试的提案、对实验计划进行有限的修正、协助基础的实验室操作,并独立验证最终结果。
最具潜力的提案 OAI-M1-03 聚焦于 Chan-Lam 偶联反应中一个困难但实用的细分领域。化学家通常利用该反应构建碳-氮键。基于“为工艺化学优化 Chan-Lam 偶联反应”这一开放性目标,GPT‑5.4 独立识别出“伯磺酰胺” (primary sulfonamides) 是一类极具挑战性且高价值的底物,并提出温和氧化剂(包括 TEMPO)能够改善该反应。
在 Maria 实验室进行的两个实验周期中,这一想法带来了显著的改善。在优化条件下,88% 的受试硼酸 (oronic acids) 和 83% 的受试磺酰胺 (sulfonamides) 的实测产率均有提高。平均产率从 16.6% 升至 25.2%,且产率超过 30% 的反应比例从 15.6% 增至 37.5%。随后,人类化学家在实验台规模 (bench scale) 上重复了具有代表性的反应。这些实验证实了微升级实验的结果:在 14 对底物中,有 11 对实现了产率提升,且多数情况下的产率提高了一倍以上。这一点至关重要,因为药物化学家需要的不仅仅是在微升筛选实验中奏效的反应,更是能在药物发现常规实验室工作流中实际应用的反应。
在药物化学的这一领域取得突破令人振奋,因为合成往往是药物发现的主要瓶颈:科学家只能测试他们能够合成或获取的分子。磺酰胺基团广泛存在于抗癌药、抗菌药和利尿剂等多个治疗领域的药物中,然而历史数据表明,伯磺酰胺与硼酸的 Chan-Lam 偶联反应产率一直很低。提高该反应的可靠性,能够为药物化学家提供更广泛、更实用的途径,以合成并探索潜在的有用分子。
尽管这仍是一个初步结果,但它为我们正致力于实现的宏伟目标提供了一个具体的例证:AI 系统能够成为覆盖大部分研究环节的宝贵科研伙伴。该模型审查了文献,提出了出人意料的想法,协助设计和分析实验,并最终得出了可供人类化学家评估的科学发现。
Maria 实验室:Molecule.one 的专用高通量实验室,在 OAI-M1-03 中运行了 10,080 个反应
有机化学是所有小分子药物以及农业、电子和材料科学产品的基础。当一个化学反应能够在多种不同的起始原料上可靠地构建同类化学键时,它就显得尤为实用。如果反应产率低或产生过多不必要的副产物,化学家可能不得不放弃原本极具潜力的分子,或耗费大量时间开发新的合成路线。这使得化学合成成为药物发现的主要瓶颈:一般而言,科学家只能测试他们能够制备或获取的分子。
Chan-Lam 偶联反应在药物化学中非常有用,因为它可以构建药物分子中常见的碳-氮键。然而,该反应并非对所有类别的分子都同样有效。特别是伯磺酰胺与硼酸的偶联反应,长期以来的产率都不尽如人意。磺酰胺是一类重要的分子家族,广泛存在于肿瘤和传染病治疗药物中。提升该反应的可靠性,能够为药物化学家提供更具普适性和实用性的方法,以制备和探索潜在的有用分子。
这一组合系统整合了互补的能力。由操作 Maria AI 的科学家所编写的提示词被输入到一个框架 (harness) 中的 GPT‑5.4 模型里,生成了数千份潜在的研究提案并进行排序。人类化学家对系统排名最高的少量提案进行了审查,并挑选出四份进行实验室测试。随后,Maria AI 将选定的高层计划转化为详细的实验室指令,执行了数千次高通量实验,分析原始数据,并将结构化的结果反馈给 GPT‑5.4。
在选定的四份提案中,OAI-M1-03 建议使用如 TEMPO 等温和氧化剂来提升 Chan-Lam 反应在磺酰胺合成中的表现。化学家们认为这一建议既出人意料又极具吸引力。我们在本博文和相关论文(在新窗口中打开)中分享了关于 OAI-M1-03 的详细发现。
最终的研究提案随后被 Maria 用于生成实验网格 (experimental grid),人类仅对其进行了少量修改。人类做出的最大修正是避免使用二甲亚砜 (DMSO) 作为溶剂,因为化学家担心它可能会与作为对照的强氧化剂发生反应。
整个过程历时三个月,从 3 月 4 日输入第一个提示词,到 6 月 4 日与独立专家分享 OAI-M1-03 的研究结果。
我们将这一工作流描述为“近自主”而非“完全自主”,因为在整个过程中人类化学家依然在做关键决策。模型提出了核心研究思路,而人类化学家则提供宏观层面的引导和判断,修正实验细节,协助准备实验室耗材和试剂,并手动重复关键实验。
OAI-M1-03 确认了 TEMPO 是此次研究中伯磺酰胺 Chan-Lam 偶联反应的一种有效添加剂。在优化条件下,反应在两个方面得到了改善:平均产率提高,并且有更多底物组合达到了具有实际应用价值的产率水平。
在两个周期内,Maria 共运行了 10,080 个反应 — 这超过了一名每天做 3 个反应的化学家十年的工作量。这种规模至关重要,因为如果仅在少数例子上进行测试,化学结果可能会具有误导性。一个反应可能在某一对起始原料上表现出色,但在更广泛的分子集合中却会失败。成千上万次反应使得从测试的十种氧化剂中筛选出 TEMPO 成为可能,观察其在各种不同组合中的重现效果,并明确其局限性。
在分析完第一轮数据后,系统提出了一项更具针对性的第二轮实验方案以测试后续假设。一项有用的后续发现是,TEMPO 可以用成本低廉得多的类似物 4-羟基-TEMPO (4-hydroxy-TEMPO) 替代,且性能几乎没有损失。
该结果在 Maria 实验室微升级筛选模式之外依然成立。人类化学家在实验台规模 (bench scale) 上手动重现了代表性反应,观察到 14 对底物中有 11 对的产率增加;其中 8 对底物的产率增加了一倍以上。这种重现至关重要,因为极小规模的实验有时会引入在扩大规模后消失的假象。在科学期刊上发表研究成果之前,实验台规模的验证也是常规要求。

实验台规模人工验证中的反应瓶。
四位外部化学专家对描述 OAI-M1-03 的预印本进行了同行审查。他们的评估支持了我们的观点,即该结果具有新颖性,值得与科学界分享。更为严苛的检验将随之而来:独立实验室能否重现该结果,以及化学家们是否认为它在更广泛的分子范围内具有实用性。
在三个月期间由 GPT‑5.4 生成并由 Maria 测试的另外三个提案中,OAI-M1-02 和 OAI-M1-04 在 Maria 实验室得到了实验证实,而 OAI-M1-01 则被证伪。对这些结果的分析目前正在进行中。
这项工作表明,模型可以在有机化学领域做出实质性贡献。它所做的远不止总结文献或建议进行一次性实验:它提出了一个具体的、令人惊讶的假设并提交给人类审查,随后设计了实验,解释了实验数据,并设计了后续实验。
这并不意味着 AI 可以端到端地独立运行一个化学研究项目。人类的判断依然不可或缺,且该工作流高度依赖于专门的高通量基础设施。此外,这也不能证明该方法必然能推广至其他偶联反应、其他底物类别或工业生产条件中。
目前的产率估算来源于高通量平台,而实验台级别的验证仅涵盖了 14 对代表性底物。要表征反应机理、确定底物适用范围、测量不同实验室条件下的表现,以及独立重现该结果,还需要进行大量后续工作。
针对化学领域的能力需要谨慎对待,因为那些能够促进医学和材料科学发展的工具同样存在被滥用的风险。我们刻意将这项工作限定在一个合法的药物化学问题上:改进一种已知的、用于制造类药分子的偶联反应。这些实验不涉及毒素、化学武器,或设计有害化合物的请求。这些结果不应被误解为该系统可以协助进行上述有害应用的证据。本项目并未对此进行测试或展示。
我们通过准备框架评估并缓解高级模型能力带来的新兴风险,其中包括涉及化学和生物领域的风险。本项工作中使用的模型已通过英国 AI 安全研究所 (UK AI Security Institute) 的相关评估,且系统被设计为拒绝针对有害应用的请求。实验工作流还增加了一层物理控制:由人类化学家决定哪些提案进入实验室测试,审查实验计划,并保留对物理基础设施的最终控制权。
我们认为,这是研究 AI 在实验化学中潜力的负责任方式:选择一个具有明确科学价值的问题领域,将模型层面的安全防护与专家监督相结合,并通过受限的物理实验来评估系统。随着 AI 能力的不断提升,我们将持续评估新兴风险,加强安全防护,并准确界定研究结果的实际意义与其能力边界。
近期的优先科学步骤包括:测试更广泛的起始原料,研究添加剂提升反应产率的机理,绘制该效应的适用与失效范围图谱,并支持独立重现。综合而言,这些研究将决定该方法的适用广度,及其在实际药物化学工作流中的应用价值。
我们的长期目标是使 AI 系统成为可靠的科学伙伴,在保持以专家判断、可靠测量和强大安全防护为基础的前提下,帮助研究人员生成假设、设计实验、解释结果,并决定下一步的测试方向。有机化学是一个具有极高杠杆效应的领域,因为小分子发现和制造的进展取决于能否可靠地合成这些分子。科学家只能测试他们能够合成的分子,而更优的合成途径将大幅扩展他们在医学、农业、电子、能源和材料科学领域所能探索的科研版图。这一成果正是朝着这一宏大方向迈出的早期一步:前沿模型、专用智能体、自动化实验室与人类化学家通力合作,以更快的速度推进研究闭环,并产出科学界能够评估、重现和进一步拓展的重大发现。
我们对 Molecule.one 团队以及审查本项工作的独立化学家们表示诚挚的感谢。