Un químico de IA casi autónomo mejora una reacción difícil en química medicinal
Con Maria de Molecule.one, GPT‑5.4 encontró un aditivo sorprendente que aumenta los rendimientos del acoplamiento de Chan-Lam en más del 80 % de los sustratos probados.
El trabajo de OpenAI en ciencia está motivado por una convicción sencilla: la IA avanzada puede convertirse en una poderosa aliada para los científicos, ayudándoles a explorar más ideas, conectar conceptos distantes, diseñar mejores experimentos y acelerar descubrimientos que beneficien a la humanidad. Ya hemos compartido ejemplos tempranos de modelos que contribuyen a resultados novedosos en matemáticas, incluido trabajo sobre el problema de la distancia unitaria, en física teórica, mediante un nuevo resultado sobre amplitudes de gluones, y en biología, donde GPT‑5 ayudó a reducir el coste de la síntesis de proteínas sin células en un laboratorio automatizado. También presentamos GPT‑Rosalind, un modelo diseñado específicamente para apoyar la investigación en ciencias de la vida y los flujos de trabajo de descubrimiento de fármacos.
Este proyecto extiende esa trayectoria a la química medicinal, donde el progreso no puede medirse solo por el razonamiento. Una hipótesis tiene que funcionar en el laboratorio con moléculas reales, instrumentos y ruido experimental. Al trabajar con Molecule.one(se abre en una ventana nueva), conectamos GPT‑5.4 a Maria —una IA de química agéntica integrada con un laboratorio de alto rendimiento para investigación autónoma— y le dimos un objetivo abierto: mejorar una de varias clases importantes de reacción. El sistema generó propuestas de investigación, diseñó y ejecutó experimentos, analizó datos experimentales y propuso experimentos de seguimiento. Los humanos siguieron participando diseñando prompts de orientación y calificación, y seleccionando propuestas para probarlas. También realizaron correcciones limitadas a los planes experimentales, ayudaron en operaciones básicas de laboratorio y validaron de forma independiente el resultado final.
La propuesta más prometedora, OAI-M1-03, se centró en una versión difícil pero útil del acoplamiento de Chan–Lam, una reacción que los químicos usan para formar enlaces carbono-nitrógeno. Partiendo del objetivo abierto de mejorar el acoplamiento de Chan–Lam para química de procesos, GPT‑5.4 identificó de forma independiente las sulfonamidas primarias como una clase de sustratos difícil y de alto valor, y sugirió que oxidantes suaves, incluido TEMPO, podrían mejorar la reacción.
A lo largo de dos ciclos de experimentación en Maria Lab, esa idea produjo una mejora significativa. En las condiciones optimizadas, los rendimientos medidos mejoraron para el 88 % de los ácidos borónicos y el 83 % de las sulfonamidas probados. El rendimiento medio aumentó del 16,6 % al 25,2 %, y la proporción de reacciones con rendimiento superior al 30 % pasó del 15,6 % al 37,5 %. Después, químicos humanos repitieron reacciones representativas a escala de banco. Esos experimentos confirmaron los resultados a escala de microlitros, mostrando rendimientos más altos en 11 de 14 pares de sustratos, con un aumento de más del doble en la mayoría de los casos. Esto importa porque los químicos medicinales necesitan reacciones que funcionen no solo en experimentos de cribado a escala de microlitros, sino también en flujos de trabajo prácticos de laboratorio usados durante el descubrimiento de fármacos.
Las mejoras en esta área de la química medicinal son especialmente interesantes porque la síntesis suele ser un gran cuello de botella en el descubrimiento de fármacos: los científicos solo pueden probar las moléculas que pueden fabricar u obtener de otro modo. El grupo sulfonamida aparece en medicamentos de una amplia variedad de áreas terapéuticas, incluidos fármacos anticancerígenos, antimicrobianos y diuréticos, pero el acoplamiento de Chan–Lam de sulfonamidas primarias con ácidos borónicos ha dado históricamente bajos rendimientos. Hacer más fiable esta forma de la reacción podría dar a los químicos medicinales una vía más amplia y práctica para producir y explorar moléculas potencialmente útiles.
Aunque todavía es un resultado temprano, ofrece otro ejemplo concreto de la dirección más amplia hacia la que trabajamos: sistemas de IA que puedan convertirse en socios valiosos para los científicos en gran parte del ciclo de investigación. El modelo revisó la literatura, propuso una idea inesperada, ayudó a diseñar y analizar experimentos, y llegó a un hallazgo científico que los químicos humanos pudieron evaluar.
Maria Lab: el laboratorio especializado de alto rendimiento de Molecule.one que llevó a cabo 10 080 reacciones en OAI-M1-03
La química orgánica sustenta todos los medicamentos de moléculas pequeñas, así como productos en agricultura, electrónica y ciencia de materiales. Una reacción es especialmente útil cuando puede crear el mismo tipo de enlace químico de forma fiable en muchos materiales de partida diferentes. Cuando las reacciones producen bajos rendimientos o demasiados subproductos no deseados, los químicos pueden tener que abandonar moléculas que por lo demás serían prometedoras o dedicar mucho tiempo a desarrollar una ruta diferente. Esto convierte la síntesis en un gran cuello de botella en el descubrimiento de fármacos: por lo general, los científicos solo pueden probar las moléculas que pueden fabricar u obtener de otro modo.
El acoplamiento de Chan–Lam es útil en química medicinal porque forma enlaces carbono-nitrógeno, que son comunes en los medicamentos. Sin embargo, la reacción no funciona igual de bien para todas las clases de molécula. En particular, el acoplamiento de sulfonamidas primarias con ácidos borónicos ha producido históricamente bajos rendimientos. Las sulfonamidas son una familia importante de moléculas presentes en medicamentos usados en oncología y enfermedades infecciosas. Hacer más fiable esta reacción podría dar a los químicos medicinales una vía más amplia y práctica para producir y explorar moléculas potencialmente útiles.
El sistema combinado emparejó capacidades complementarias. Los prompts escritos por científicos que trabajaban con Maria AI se usaron con GPT‑5.4 dentro de un arnés para generar y clasificar miles de posibles propuestas de investigación. Químicos humanos revisaron el pequeño subconjunto de propuestas que el sistema había clasificado más alto y seleccionaron cuatro para pruebas de laboratorio. Después, Maria AI tradujo los planes generales seleccionados en instrucciones detalladas de laboratorio, ejecutó miles de experimentos de alto rendimiento, analizó los datos brutos y devolvió resultados estructurados a GPT‑5.4.
Una de las cuatro propuestas seleccionadas, OAI-M1-03, sugirió usar oxidantes suaves como TEMPO para mejorar el rendimiento de la reacción de Chan-Lam en la síntesis de sulfonamidas. A los químicos la sugerencia les pareció sorprendente e interesante. Compartimos los hallazgos detallados de OAI-M1-03 en esta entrada de blog y en el artículo(se abre en una ventana nueva).
Después, Maria utilizó la propuesta de investigación final para generar matrices experimentales, con ligeras correcciones humanas. La mayor corrección humana fue evitar el dimetilsulfóxido, o DMSO, como disolvente porque a los químicos les preocupaba que pudiera reaccionar con los oxidantes más fuertes usados como comparadores.
El proceso completo llevó tres meses, desde el primer prompt el 4 de marzo hasta compartir los resultados de OAI-M1-03 con expertos independientes el 4 de junio.
Describimos este flujo de trabajo como casi autónomo, no plenamente autónomo, porque los químicos humanos siguieron tomando decisiones importantes durante todo el proceso. El modelo propuso las ideas clave de investigación, mientras que los químicos humanos aportaron orientación y juicio de alto nivel, corrigieron detalles experimentales, ayudaron a preparar consumibles y reactivos de laboratorio, y repitieron a mano experimentos clave.
OAI-M1-03 identificó TEMPO como un aditivo útil para el acoplamiento de Chan-Lam de sulfonamidas primarias estudiado aquí. En las condiciones optimizadas, la reacción mejoró de dos formas: aumentó el rendimiento medio y más combinaciones de sustratos alcanzaron rendimientos útiles en la práctica.
A lo largo de dos ciclos, Maria ejecutó un total de 10 080 reacciones, más de las que realizaría en una década un químico que hiciera tres reacciones cada día. Esa escala importó porque los resultados de química pueden ser engañosos cuando se prueban solo en unos pocos ejemplos. Una reacción puede parecer prometedora en un par de materiales de partida, pero fallar en un conjunto más amplio de moléculas. Miles de reacciones hicieron posible identificar TEMPO entre diez oxidantes probados, ver que el efecto se repetía en combinaciones diversas y encontrar sus limitaciones.
Tras analizar la primera ronda de datos, el sistema propuso una segunda ronda de experimentos más enfocada para probar hipótesis de seguimiento. Un hallazgo útil de seguimiento fue que TEMPO podía sustituirse por un análogo mucho más barato, 4-hidroxi-TEMPO, con poca pérdida de rendimiento.
El resultado también se mantuvo más allá del formato de cribado a escala de microlitros de Maria Lab. Químicos humanos reprodujeron manualmente reacciones representativas a escala de banco y observaron un aumento del rendimiento en 11 de 14 pares de sustratos; en ocho pares, el aumento fue superior al doble. Esa replicación importa porque los experimentos a escala muy pequeña a veces pueden introducir artefactos que desaparecen a mayor escala. La validación a escala de banco también es habitual antes de publicar una investigación en una revista científica.

Viales de reacción utilizados en la validación manual a escala de laboratorio.
Cuatro expertos externos en química revisaron la prepublicación que describe OAI-M1-03. Sus evaluaciones respaldaron nuestra opinión de que el resultado era novedoso y merecía compartirse con la comunidad científica. La prueba más exigente vendrá después: si laboratorios independientes pueden reproducir el resultado y si a los químicos les resulta útil en una gama más amplia de moléculas.
De las otras tres propuestas generadas por GPT‑5.4 y probadas por Maria durante el periodo de tres meses, OAI-M1-02 y OAI-M1-04 se demostraron experimentalmente en Maria Lab, mientras que OAI-M1-01 fue refutada. El análisis de estos resultados está en curso.
Este trabajo muestra que un modelo puede hacer una contribución útil en química orgánica. Hizo más que resumir la literatura o sugerir un experimento aislado: propuso una hipótesis específica y sorprendente y la presentó para revisión humana, diseñó experimentos, interpretó datos experimentales y diseñó experimentos de seguimiento.
No demuestra que la IA pueda ejecutar de forma independiente un programa de investigación en química de principio a fin. El juicio humano siguió siendo esencial, y el flujo de trabajo dependió de infraestructura especializada de alto rendimiento. Tampoco establece que el método vaya a generalizarse a otras reacciones de acoplamiento, otras clases de sustratos o condiciones de fabricación.
Las estimaciones de rendimiento procedían de una plataforma de alto rendimiento, y la validación de banco cubrió 14 pares de sustratos representativos. Hace falta más trabajo para caracterizar el mecanismo de reacción, definir el alcance de sustratos, medir el rendimiento en diferentes condiciones de laboratorio y reproducir el resultado de forma independiente.
Las capacidades en química requieren un tratamiento cuidadoso porque las mismas herramientas que pueden apoyar la medicina y la ciencia de materiales también podrían utilizarse indebidamente. Delimitamos deliberadamente este trabajo a un problema legítimo de química medicinal: mejorar una reacción de acoplamiento conocida usada para fabricar moléculas similares a fármacos. Los experimentos no implicaron toxinas, armas químicas ni solicitudes para diseñar compuestos nocivos. Estos resultados no deben interpretarse como prueba de que el sistema pueda ayudar con esas aplicaciones perjudiciales. El proyecto no probó ni demostró eso.
Evaluamos y mitigamos riesgos emergentes de las capacidades avanzadas de los modelos mediante nuestro Marco de preparación, incluidos riesgos relacionados con los ámbitos químico y biológico. El modelo usado en este trabajo ya se había sometido a evaluaciones pertinentes con el UK AI Security Institute, y el sistema fue diseñado para rechazar solicitudes centradas en aplicaciones perjudiciales. El flujo de trabajo experimental añadió otra capa de control: los químicos humanos seleccionaron qué propuestas entraban en el laboratorio, revisaron los planes experimentales y conservaron el control de la infraestructura física.
Creemos que esta es la forma responsable de estudiar el potencial de la IA en química experimental: elegir un espacio de problemas con valor científico claro, combinar salvaguardas a nivel de modelo con supervisión experta y evaluar el sistema mediante experimentos físicos acotados. A medida que estas capacidades mejoren, seguiremos evaluando riesgos emergentes, reforzando salvaguardas y siendo específicos sobre lo que un resultado implica y lo que no implica.
Los pasos inmediatos son científicos: probar una gama más amplia de materiales de partida, investigar por qué los aditivos mejoran la reacción, cartografiar dónde funciona y falla el efecto, y apoyar la replicación independiente. En conjunto, estos estudios determinarán cuán ampliamente puede aplicarse el método y lo útil que es en flujos de trabajo prácticos de química medicinal.
Nuestro objetivo a más largo plazo es hacer que los sistemas de IA sean socios científicos fiables que ayuden a los investigadores a generar hipótesis, diseñar experimentos, interpretar resultados y decidir qué probar después, manteniéndose anclados en el juicio experto, mediciones fiables y salvaguardas sólidas. La química orgánica es un área de impacto especialmente alto porque el progreso en el descubrimiento y la fabricación de moléculas pequeñas depende de poder fabricar moléculas de forma fiable. Los científicos solo pueden probar moléculas que pueden fabricar, y una mejor síntesis puede ampliar el rango de ideas que pueden explorar en medicina, agricultura, electrónica, energía y ciencia de materiales. Este resultado es un ejemplo temprano de esa dirección más amplia: un modelo de frontera, agentes especializados, un laboratorio automatizado y químicos humanos trabajando juntos para avanzar más rápido por el ciclo de investigación y producir hallazgos que la comunidad científica pueda evaluar, reproducir y aprovechar.
Agradecemos al equipo de Molecule.one y a los químicos independientes que revisaron este trabajo.