23 d’octubre del 2025

Consensus fa servir GPT‑5 i la Responses API per completar setmanes de recerca en minuts

Amb GPT‑5 i la Responses API, Consensus va dissenyar un sistema multiagent que planifica, llegeix i sintetitza proves com ho fan els investigadors.

Logotip de Consensus en blanc centrat sobre un fons verd blavós fosc amb panells verticals texturats en diversos tons de blau i verd.

S'està carregant…

Cada any es publiquen milions de nous articles científics, molts més dels que una sola persona pot llegir.

Per als científics, el repte no és l’accés al coneixement, sinó la tasca aclaparadora de trobar-lo, interpretar-lo i connectar-lo. Els avenços es produeixen al límit del que es coneix, però els investigadors passen la major part del temps només trobant aquests límits en lloc d’anar més enllà.

Consensus⁠(s'obre en una finestra nova), un assistent de recerca utilitzat per més de 8 milions de persones, es va crear per canviar això. Fundada per Christian Salem i Eric Olson, la plataforma cerca, llegeix i sintetitza literatura revisada per parells entre més de 220 milions d’articles. La seva capacitat més nova, Scholar Agent, és un sistema multiagent construït sobre GPT‑5 i la Responses API. Reprodueix com treballen realment els investigadors i els ajuda a passar de la pregunta a la conclusió en minuts en lloc de setmanes.

Però l’objectiu no és només una recerca més ràpida, sinó un camí més ràpid cap al descobriment. «La ciència avança quan és més accessible», diu Salem. «La nostra feina és donar als investigadors d’arreu la capacitat de trobar, confiar i actuar sobre les proves.»

De motor de cerca a assistent agentiu

La primera versió de Consensus funcionava com un motor de cerca vertical per a la ciència: indexava articles acadèmics, recuperava resultats rellevants i generava resums fonamentats en cites. Però la cerca sola no era suficient.

«La recerca no és només trobar articles», diu Salem. «És interpretar resultats, comparar troballes i connectar idees. Com més temps dediquen els científics a cercar, llegir i interpretar coneixement previ per trobar l’estudi adequat, menys temps tenen per descobrir i fer recerca real.»

Així que l’equip va començar a redissenyar Consensus al voltant d’un nou concepte: un sistema multiagent anomenat «Scholar Agent» que funciona de la manera com ho fa un investigador humà.

Construït sobre GPT‑5 i la Responses API, el sistema ara executa un flux de treball coordinat d’agents:

agent de planificació desglossa la pregunta de l’usuari i decideix quines accions cal fer a continuació
agent de cerca rastreja l’índex d’articles de Consensus, la biblioteca privada d’un usuari i el graf de citacions
agent de lectura interpreta articles individualment o per lots
agent d’anàlisi sintetitza resultats, determina l’estructura i els elements visuals, i compon el resultat final

Cada agent té un abast reduït, cosa que manté el raonament precís i minimitza les al·lucinacions. L’arquitectura també permet a Consensus decidir quan no respondre; si cap estudi rellevant compleix el seu llindar de qualitat, l’assistent simplement ho diu.

«En dividir el flux de treball entre agents, reduïm l’error i fem que el sistema sigui molt més disciplinat», diu Salem. «Cap agent no té massa responsabilitat, i això resulta ser clau per a la fiabilitat.»

Diagrama de flux d’agents que mostra com una consulta d’usuari es processa mitjançant agents de planificació, cerca en paral·lel, lectura i anàlisi per generar un resultat basat en la recerca.

Aquest enfocament és el que l’equip anomena enginyeria del context: reunir les proves adequades abans que comenci la generació. Cada resposta inclou un «paquet de context de recerca», un conjunt estructurat d’articles, metadades i troballes clau que remeten als estudis originals.

«No volem que els investigadors perdin temps comprovant dues vegades cada afirmació», diu Salem. «Si el sistema no pot fonamentar una resposta en proves reals, no se la inventarà.»

Construint amb Responses API

Consensus va migrar de Chat Completions a la Responses API per donar suport al seu encaminament multiagent. El canvi va millorar tant la fiabilitat com l’eficiència de costos, i va donar a l’equip un control més fi sobre les crides dels subagents. Amb el raonament de context llarg de GPT‑5 i les crides a eines fiables, l’elecció era clara.

Les primeres avaluacions van confirmar l’aposta: GPT‑5 va superar GPT‑4.1, Sonnet 4 i Gemini 2.5 Pro en precisió de crida d’eines i estabilitat de planificació. Això va permetre a l’equip de Consensus centrar-se menys en malabarismes amb indicacions i més en construir comportaments d’agents que s’ajusten directament als fluxos de treball de recerca.

Taula que compara les mètriques de GPT-5 Research Agent per als models d’OAI, Anthropic i Google en precisió, exactitud, estructura i latència.

Una aposta de consum en un món d’institucions

Des del principi, Consensus va abordar el mercat d’una manera diferent de l’esperada. En lloc de vendre a través d’institucions, l’equip es va centrar en les persones que fan la recerca: estudiants, professorat i clínics que necessitaven respostes avui. Aquest enfocament directe a l’investigador va modelar tant el disseny del producte com el seu ràpid creixement.

«Tothom deia que no es podia anar directament al consumidor en l’àmbit acadèmic, però la IA ho ha canviat», diu Salem. «La gent ja no espera aprovació: utilitza el que funciona.»

Aquella decisió va modelar el to del producte i la seva corba de creixement. Consensus s’assembla més a una aplicació moderna de consum que a una eina acadèmica tradicional: incorporació ràpida, disseny intuïtiu, interfície conversacional. L’adopció es va estendre pel boca-orella als campus i als laboratoris.

Els estudiants de postgrau i els doctorands es van convertir en els primers usuaris avançats, seguits pel professorat i pels investigadors privats. Després van venir els clínics, que van començar a utilitzar Consensus per fer aflorar les proves més recents en els seus camps.

«No ens vam proposar construir per a metges», diu Salem. «Però necessiten el mateix que els investigadors: accés ràpid a proves fiables.»

L’empresa fa poc ha signat amb la biblioteca mèdica de la Mayo Clinic i acaba de llançar «Medical Mode», una nova funció dissenyada per a professionals que cerquen proves clíniques.

Escalant amb la ciència

Durant l’últim any, Consensus s’ha expandit ràpidament, arribant a més de 8 milions d’investigadors a tot el món i multiplicant per 8 els ingressos.

Aquest creixement no ha canviat les prioritats del producte. Cada funció continua girant al voltant de respostes verificables i amb poques al·lucinacions. L’equip ha invertit molt en canals d’avaluació que posen a prova la precisió, la traçabilitat de les cites i la coherència estilística entre agents.

L’arquitectura de Consensus és intencionadament modular, dissenyada perquè s’hi puguin incorporar nous agents a mesura que els models s’ampliïn i millorin: agents que repliquin experiments, generin figures o executin anàlisis estadístiques.

«Estem construint l’assistent que els investigadors realment necessiten en un món que canvia ràpidament», diu Salem. «Els models no paren de millorar, el sistema creix amb ells i la ciència avança més de pressa.»