Un químico de IA casi autónomo mejora una reacción desafiante en química medicinal
Con Maria de Molecule.one, GPT‑5.4 encontró un aditivo sorprendente que aumentó los rendimientos del acoplamiento de Chan-Lam en más del 80 % de los sustratos probados.
El trabajo de OpenAI en ciencia está motivado por una creencia simple: la IA avanzada puede convertirse en una aliada poderosa para los científicos, ayudándolos a explorar más ideas, conectar conceptos distantes, diseñar mejores experimentos y acelerar descubrimientos que beneficien a la humanidad. Ya compartimos ejemplos iniciales de modelos que contribuyen a resultados novedosos en matemáticas, incluido el trabajo sobre el problema de la distancia unitaria; en física teórica, mediante un nuevo resultado sobre amplitudes de gluones; y en biología, donde GPT‑5 ayudó a reducir el costo de la síntesis de proteínas sin células en un laboratorio automatizado. También presentamos GPT‑Rosalind, un modelo creado específicamente para apoyar la investigación en ciencias de la vida y los flujos de trabajo de descubrimiento de fármacos.
Este proyecto continúa esa trayectoria hacia la química medicinal, donde el progreso no puede medirse solo por el razonamiento. Una hipótesis debe funcionar en el laboratorio con moléculas reales, instrumentos y ruido experimental. En colaboración con Molecule.one(se abre en una nueva ventana), conectamos GPT‑5.4 con Maria —una IA basada en agentes para química, integrada con un laboratorio de alto rendimiento para investigación autónoma— y le dimos un objetivo abierto: mejorar una de varias clases importantes de reacciones. El sistema generó propuestas de investigación, diseñó y ejecutó experimentos, analizó datos experimentales y propuso experimentos de seguimiento. El equipo humano siguió participando en el proceso mediante el diseño de indicaciones de orientación y evaluación, y la selección de propuestas para probar. También hizo correcciones limitadas a los planes experimentales, asistió con operaciones básicas de laboratorio y validó de forma independiente el resultado final.
La propuesta más prometedora, OAI-M1-03, se centró en una versión difícil pero útil del acoplamiento de Chan–Lam, una reacción que los químicos usan para formar enlaces carbono-nitrógeno. A partir del objetivo abierto de mejorar el acoplamiento de Chan–Lam para la química de procesos, GPT‑5.4 identificó de forma independiente las sulfonamidas primarias como una clase de sustratos desafiante y de alto valor, y sugirió que oxidantes suaves, incluido TEMPO, podían mejorar la reacción.
A lo largo de dos ciclos de experimentación en Maria Lab, esa idea produjo una mejora significativa. En las condiciones optimizadas, los rendimientos medidos mejoraron para el 88 % de los ácidos borónicos y el 83 % de las sulfonamidas probadas. El rendimiento medio aumentó de 16,6 % a 25,2 %, y la proporción de reacciones con rendimiento superior al 30 % aumentó de 15,6 % a 37,5 %. Luego, químicos humanos repitieron reacciones representativas a escala de mesada. Esos experimentos confirmaron los resultados a escala de microlitros, con rendimientos más altos en 11 de 14 pares de sustratos y un aumento de más del doble en la mayoría de los casos. Eso importa porque los químicos medicinales necesitan reacciones que funcionen no solo en experimentos de cribado a escala de microlitros, sino también en flujos de trabajo de laboratorio prácticos usados durante el descubrimiento de fármacos.
Las mejoras en esta área de la química medicinal son especialmente interesantes porque la síntesis suele ser un gran cuello de botella en el descubrimiento de fármacos: los científicos solo pueden probar las moléculas que pueden fabricar u obtener de otro modo. El grupo sulfonamida aparece en medicamentos de una amplia variedad de áreas terapéuticas, incluidos fármacos anticancerígenos, antimicrobianos y diuréticos, pero el acoplamiento de Chan–Lam de sulfonamidas primarias con ácidos borónicos históricamente ha dado rendimientos bajos. Hacer que esta forma de la reacción sea más confiable podría dar a los químicos medicinales una manera más amplia y práctica de producir y explorar moléculas potencialmente útiles.
Aunque este sigue siendo un resultado temprano, ofrece otro ejemplo concreto de la dirección más amplia hacia la que trabajamos: sistemas de IA que pueden convertirse en aliados valiosos para los científicos en gran parte del ciclo de investigación. El modelo revisó la bibliografía, propuso una idea inesperada, ayudó a diseñar y analizar experimentos, y llegó a un hallazgo científico que químicos humanos pudieron evaluar.
Maria Lab: el laboratorio especializado de alto rendimiento de Molecule.one que realizó 10 080 reacciones en OAI-M1-03
La química orgánica sustenta todos los medicamentos de moléculas pequeñas, así como productos de agricultura, electrónica y ciencia de materiales. Una reacción es especialmente útil cuando puede formar el mismo tipo de enlace químico de manera confiable en muchos materiales de partida diferentes. Cuando las reacciones producen rendimientos bajos o demasiados subproductos no deseados, los químicos pueden tener que abandonar moléculas que de otro modo serían prometedoras o dedicar mucho tiempo a desarrollar una ruta diferente. Esto convierte a la síntesis en un gran cuello de botella en el descubrimiento de fármacos: en general, los científicos solo pueden probar las moléculas que pueden fabricar u obtener de otro modo.
El acoplamiento de Chan–Lam es útil en la química medicinal porque forma enlaces carbono-nitrógeno, que son comunes en los medicamentos. Sin embargo, la reacción no funciona igual de bien para todas las clases de moléculas. En particular, el acoplamiento de sulfonamidas primarias con ácidos borónicos históricamente ha producido rendimientos bajos. Las sulfonamidas son una familia importante de moléculas presentes en medicamentos usados en oncología y enfermedades infecciosas. Hacer que esta reacción sea más confiable podría dar a los químicos medicinales una manera más amplia y práctica de producir y explorar moléculas potencialmente útiles.
El sistema combinado reunió capacidades complementarias. Los prompts escritos por científicos que trabajaban con Maria AI se usaron con GPT‑5.4 dentro de un arnés para generar y clasificar miles de posibles propuestas de investigación. Químicos humanos revisaron el pequeño subconjunto de propuestas que obtuvieron la clasificación más alta según el sistema y seleccionaron cuatro para pruebas de laboratorio. Luego, Maria AI tradujo los planes de alto nivel seleccionados en instrucciones de laboratorio detalladas, ejecutó miles de experimentos de alto rendimiento, analizó los datos sin procesar y devolvió resultados estructurados a GPT‑5.4.
Una de las cuatro propuestas seleccionadas, OAI-M1-03, proponía utilizar oxidantes suaves como TEMPO para mejorar el rendimiento de la reacción de Chan-Lam en la síntesis de sulfonamidas. A los químicos la sugerencia les pareció sorprendente e interesante. Compartimos los hallazgos detallados de OAI-M1-03 en esta publicación de blog y en el artículo(se abre en una nueva ventana).
Luego, Maria usó la propuesta de investigación final para generar matrices experimentales, con ligeras correcciones de humanos. La mayor corrección humana fue evitar el dimetilsulfóxido, o DMSO, como solvente porque a los químicos les preocupaba que pudiera reaccionar con los oxidantes más fuertes usados como comparaciones.
El proceso completo tomó tres meses, desde el primer prompt el 4 de marzo hasta que se compartieron los resultados de OAI-M1-03 con expertos independientes el 4 de junio.
Describimos este flujo de trabajo como casi autónomo, no totalmente autónomo, porque los químicos humanos aún tomaron decisiones importantes durante todo el proceso. El modelo propuso las ideas de investigación clave, mientras que los químicos humanos aportaron orientación y criterio de alto nivel, corrigieron detalles experimentales, ayudaron a preparar consumibles y reactivos de laboratorio, y repitieron manualmente experimentos clave.
OAI-M1-03 identificó a TEMPO como un aditivo útil para el acoplamiento de Chan-Lam de sulfonamidas primarias estudiado aquí. En las condiciones optimizadas, la reacción mejoró de dos maneras: aumentó el rendimiento promedio y más combinaciones de sustratos alcanzaron rendimientos útiles en la práctica.
A lo largo de dos ciclos, Maria ejecutó un total de 10 080 reacciones, más de las que un químico que ejecutara tres reacciones todos los días realizaría en una década. Esa escala importó porque los resultados de química pueden ser engañosos cuando se prueban en solo unos pocos ejemplos. Una reacción puede parecer prometedora en un par de materiales de partida, pero fallar en un conjunto más amplio de moléculas. Miles de reacciones hicieron posible identificar a TEMPO entre diez oxidantes probados, ver que el efecto se repetía en combinaciones diversas y encontrar sus limitaciones.
Después de analizar la primera ronda de datos, el sistema propuso una segunda ronda de experimentos más enfocada para probar hipótesis de seguimiento. Un hallazgo de seguimiento útil fue que TEMPO podía reemplazarse por un análogo mucho más barato, 4-hidroxi-TEMPO, con poca pérdida de desempeño.
El resultado también se sostuvo más allá del formato de cribado a escala de microlitros de Maria Lab. Químicos humanos reprodujeron manualmente reacciones representativas a escala de mesada y observaron un aumento del rendimiento en 11 de 14 pares de sustratos; en ocho pares, el aumento fue superior al doble. Esa replicación importa porque los experimentos a escala muy pequeña a veces pueden introducir artefactos que desaparecen a una escala mayor. La validación a escala de mesada también es habitual antes de que una investigación se publique en una revista científica.

Viales de reacción utilizados en la validación manual a escala de laboratorio.
Cuatro expertos externos en química revisaron la prepublicación que describe OAI-M1-03. Sus evaluaciones respaldaron nuestra opinión de que el resultado era novedoso y valía la pena compartirlo con la comunidad científica. La prueba más sólida vendrá después: si laboratorios independientes pueden reproducir el resultado y si los químicos lo consideran útil en una gama más amplia de moléculas.
De las otras tres propuestas generadas por GPT‑5.4 y probadas por Maria durante el periodo de tres meses, OAI-M1-02 y OAI-M1-04 fueron demostradas experimentalmente en Maria Lab, mientras que OAI-M1-01 fue refutada. El análisis de estos resultados continúa.
Este trabajo muestra que un modelo puede hacer una contribución útil en química orgánica. Hizo más que resumir la bibliografía o sugerir un experimento aislado: propuso una hipótesis específica y sorprendente y la presentó para revisión humana, diseñó experimentos, interpretó datos experimentales y diseñó experimentos de seguimiento.
No demuestra que la IA pueda ejecutar de forma independiente un programa de investigación en química de principio a fin. El criterio humano siguió siendo esencial, y el flujo de trabajo dependió de infraestructura especializada de alto rendimiento. Tampoco establece que el método se generalizará a otras reacciones de acoplamiento, otras clases de sustratos o condiciones de fabricación.
Las estimaciones de rendimiento provinieron de una plataforma de alto rendimiento, y la validación en mesada cubrió 14 pares de sustratos representativos. Se necesita más trabajo para caracterizar el mecanismo de reacción, definir el alcance de sustratos, medir el desempeño en distintas condiciones de laboratorio y reproducir el resultado de forma independiente.
Las capacidades en química requieren un tratamiento cuidadoso porque las mismas herramientas que pueden apoyar la medicina y la ciencia de materiales también podrían usarse indebidamente. Deliberadamente delimitamos este trabajo a un problema legítimo de química medicinal: mejorar una reacción de acoplamiento conocida que se usa para fabricar moléculas similares a fármacos. Los experimentos no involucraron toxinas, armas químicas ni solicitudes para diseñar compuestos dañinos. Estos resultados no deben interpretarse como evidencia de que el sistema pueda ayudar con esas aplicaciones dañinas. El proyecto no probó ni demostró eso.
Evaluamos y mitigamos los riesgos emergentes derivados de las capacidades avanzadas de los modelos mediante nuestro Marco de preparación, incluidos los riesgos relacionados con la química y la biología. El modelo utilizado en este trabajo ya se había sometido a las evaluaciones pertinentes con el Instituto de Seguridad de IA del Reino Unido, y el sistema fue diseñado para rechazar solicitudes centradas en usos perjudiciales. El flujo de trabajo experimental añadió otra capa de control: el equipo humano seleccionó qué propuestas pasarían al laboratorio, revisó los planes experimentales y mantuvo el control de la infraestructura física.
Creemos que esta es la forma responsable de estudiar el potencial de la IA en la química experimental: elegir un espacio de problemas con valor científico claro, combinar salvaguardas a nivel de modelo con supervisión experta y evaluar el sistema mediante experimentos físicos acotados. A medida que estas capacidades mejoren, seguiremos evaluando riesgos emergentes, fortaleciendo salvaguardas y siendo específicos sobre lo que un resultado implica y no implica.
Los próximos pasos inmediatos son científicos: probar una gama más amplia de materiales de partida, investigar por qué los aditivos mejoran la reacción, mapear dónde funciona y falla el efecto, y apoyar la replicación independiente. En conjunto, estos estudios determinarán cuán ampliamente puede aplicarse el método y qué tan útil es en flujos de trabajo prácticos de química medicinal.
Nuestro objetivo a más largo plazo es hacer que los sistemas de IA sean aliados científicos confiables que ayuden a los investigadores a generar hipótesis, diseñar experimentos, interpretar resultados y decidir qué probar después, sin dejar de basarse en el criterio experto, mediciones confiables y salvaguardas sólidas. La química orgánica es un área de impacto particularmente alto porque el progreso en el descubrimiento y la fabricación de moléculas pequeñas depende de poder fabricar moléculas de manera confiable. Los científicos solo pueden probar moléculas que pueden fabricar, y una mejor síntesis puede ampliar la gama de ideas que pueden explorar en medicina, agricultura, electrónica, energía y ciencia de materiales. Este resultado es un ejemplo temprano de esa dirección más amplia: un modelo de frontera, agentes especializados, un laboratorio automatizado y químicos humanos que trabajan juntos para avanzar más rápido por el ciclo de investigación y producir hallazgos que la comunidad científica pueda evaluar, reproducir y desarrollar.
Agradecemos al equipo de Molecule.one y a los químicos independientes que revisaron este trabajo.