23 de octubre de 2025

Con GPT‑5 y la API de respuesta, Consensus resuelve en minutos lo que antes llevaba semanas de investigación.

Consensus diseñó un sistema multiagente basado en GPT‑5 y en la API de respuestas que planifica, lee y resume evidencias al igual que un investigador.

Logotipo de Consensus en blanco sobre un fondo verde azulado oscuro con paneles verticales texturizados en diferentes tonos de azul y verde.

Cargando...

Cada año se publican millones de nuevos artículos científicos, muchos más de los que una sola persona podría leer.

Para los científicos, el reto no es acceder al conocimiento, sino, más bien, encontrarlo, interpretarlo de forma adecuada y conectar los datos obtenidos, lo que representa una tarea apabullante. Si bien los avances ocurren al trascender los límites de lo conocido, los investigadores dedican más tiempo a trazar esos límites que a superarlos.

Consensus⁠(se abre en una nueva ventana), el asistente de investigación utilizado por más de 8 millones de personas, nació para revertir esa tendencia. Esta plataforma, creación de Christian Salem y Eric Olson, busca, lee y resume más de 220 millones de artículos científicos revisados. Su nueva capacidad se llama Scholar Agent y consiste en un sistema multiagente basado en GPT‑5 y la API de respuesta. Scholar Agent emula el trabajo real de los investigadores y les permite pasar de la pregunta a la conclusión en minutos, no semanas.

Pero su objetivo no es investigar más rápido, sino agilizar el camino hacia el descubrimiento. “Cuando la ciencia es más accesible puede avanzar”, afirma Salem. Para él, “Nuestro trabajo es darles a los investigadores de todo el mundo la capacidad de encontrar, confiar y actuar basándose en pruebas”.

Del motor de búsqueda al asistente autónomo

La primera versión de Consensus funcionaba como un motor de búsqueda vertical para la ciencia: indexaba artículos académicos, recuperaba resultados relevantes y generaba resúmenes sustentados en citas. Pero la búsqueda por sí sola no era suficiente.

Según Salem, “La investigación no se limita a buscar papeles”. Para él: “Se trata de interpretar resultados, comparar hallazgos y conectar ideas. Cuanto más tiempo dedican los científicos a la búsqueda, lectura e interpretación de conocimientos previos para el estudio adecuado, menos tiempo tienen para el descubrimiento y las investigaciones reales”.

El equipo comenzó entonces a rediseñar Consensus a partir de un nuevo concepto: un sistema multiagente denominado “Scholar Agent” que funciona de la misma manera que un investigador humano.

Este sistema basado en GPT‑5 y la API de respuesta ahora cuenta con un flujo de trabajo integrado por varios agentes que trabajan de forma coordinada:

El agente de planificación desglosa la pregunta del usuario y decide los pasos a seguir;
El agente de búsqueda examina el índice de artículos de Consensus, la biblioteca privada de un usuario y el diagrama de citas;
El agente de lecturainterpreta los artículos, individualmente o en lotes;
El agente analítico resume los resultados, establece la estructura y los elementos visuales, y elabora la salida final.

El ámbito de actuación de cada agente es limitado, lo que garantiza un razonamiento preciso y minimiza las alucinaciones. Además, la arquitectura le permite a Consensus decidir cuándo no va a responder. De hecho, si ningún estudio relevante cumple con su baremo de calidad, el asistente simplemente lo dice.

Según Salem, “Al dividir el flujo de trabajo entre los agentes, se reducen los errores y el sistema se vuelve mucho más disciplinado. Ningún agente tiene demasiada responsabilidad y eso es clave en términos de confiabilidad”.

Diagrama de flujo del agente que muestra cómo se procesa una consulta del usuario a través de agentes de planificación, búsqueda paralela, lectura y análisis para generar una salida basada en la investigación.

El equipo denomina a este enfoque ingeniería de contexto, que consiste en reunir la evidencia adecuada antes de que comience la generación de datos. Las respuestas llevan consigo un “paquete de contexto de investigación”, que contiene un conjunto estructurado de documentos, metadatos y resultados clave que remiten a los estudios originales.

“No queremos que los investigadores pierdan su tiempo verificando cada afirmación”, señala Salem. “Si el sistema no puede fundamentar una respuesta con evidencia real, no va a inventarla”, agrega.

Desarrollar con la API de respuesta

Para poder habilitar el enrutamiento multiagente, Consensus debió migrar de Chat Completions a la API de respuesta. La migración resultó en mayor confiabilidad y rentabilidad, lo que le dio al equipo un control más preciso de las llamadas de los subagentes. El razonamiento de contexto largo y la confiabilidad en la llamada de herramientas de GPT‑5 hicieron que la elección resultara evidente.

Las primeras evaluaciones no hicieron más que corroborar lo que se esperaba: GPT‑5 superó a GPT‑4.1, Sonnet 4 y Gemini 2.5 Pro en la precisión de la llamada de herramientas y en la estabilidad de la planificación. De este modo, el equipo de Consensus pudo enfocarse menos en la dinámica de los mensajes y más en desarrollar un comportamiento de los agentes alineado con los flujos de trabajo de investigación.

Tabla comparativa de las métricas del agente de investigación GPT-5 para los modelos OAI, Anthropic y Google en términos de exactitud, precisión, estructura y latencia.

La apuesta por el consumidor en un mundo de instituciones

Desde un inicio, el enfoque de Consensus hacia el mercado fue diferente. En lugar de depender de las instituciones, el equipo optó por poner el foco en las personas que hacen la investigación: estudiantes, profesores y médicos ávidos de respuestas rápidas Este enfoque directo fue determinante tanto en el diseño del producto como en su rápido crecimiento.

Salem recuerda: “Todos me decían que en el mundo académico no se le podía vender directamente al consumidor, pero la IA cambió eso. Las personas ya no esperan la aprobación, sino que usan lo que les sirve”.

Esa decisión determinó el carácter del producto y su curva de crecimiento. Consensus se siente más como una aplicación moderna para consumidores que como una herramienta académica tradicional: acceso ágil, diseño intuitivo e interfaz conversacional. El boca a boca fue clave en la adopción y la expandió por universidades y laboratorios.

Los primeros usuarios intensivos fueron estudiantes de posgrado y doctorandos, seguidos luego por profesores e investigadores independientes. Luego fue el turno de los médicos, que empezaron a usar Consensus para difundir la evidencia científica más reciente en sus especialidades.

“No teníamos la intención de hacer una aplicación para médicos”, dice Salem. Y agrega: “Pero tienen la misma necesidad que los investigadores: acceder rápidamente a pruebas confiables”.

Recientemente, la empresa suscribió un acuerdo con la biblioteca médica de la Clínica Mayo y lanzó “Medical Mode”, una nueva característica diseñada para los profesionales que buscan evidencia clínica.

Crecer junto a la ciencia

Consensus creció rápidamente en el último año, llegando a más de 8 millones de investigadores en todo el mundo y multiplicando por ocho sus ingresos.

Con todo, ese crecimiento no logró cambiar las prioridades del producto. Todas sus características se siguen articulando en torno a respuestas verificables y con bajo nivel de alucinación. De hecho, la inversión del equipo se destinó a desarrollar procesos de evaluación para comprobar la precisión, la trazabilidad de las citas y la coherencia estilística entre agentes.

Consensus tiene una arquitectura deliberadamente modular, pensada para poder incorporar nuevos agentes en función de la ampliación y mejora de los modelos: agentes que repliquen experimentos, generen cifras o realicen análisis estadísticos.

“En un mundo que cambia muy deprisa, estamos creando el asistente que los investigadores realmente necesitan”, dice Salem. Y concluye: “Los modelos son cada vez mejores, el sistema evoluciona junto a ellos y la ciencia avanza cada vez más rápido”.

OpenAI <3 startups. Ven a construir junto a nosotros.

Unirse a la comunidad Comienza a construir

Sigue leyendo

How Deutsche Telekom is rewiring telecommunications with AI

10 jul 2026

Introducción a ChatGPT | OpenAI

OpenAI Academy10 jul 2026

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 ya es el modelo preferido en Microsoft 365 Copilot

Producto9 jul 2026