Vai al contenuto principale
OpenAI

23 ottobre 2025

Consensus usa GPT‑5 e l’API Risposte per svolgere settimane di ricerca in pochi minuti

Usando GPT‑5 e l’API Risposte, Consensus ha progettato un sistema multi-agente che pianifica, legge e sintetizza le informazioni allo stesso modo dei ricercatori.

Logo Consensus in bianco centrato su uno sfondo verde acqua scuro con pannelli verticali testurizzati in diverse tonalità di blu e verde.
Caricamento in corso...

Ogni anno sono pubblicati milioni di nuovi articoli scientifici, molti più di quanti una singola persona possa leggere. 

Per gli scienziati, la sfida non è l’accesso alle conoscenze, ma l’enorme compito di trovarle, interpretarle e collegarle. Le scoperte avvengono ai confini di ciò che è noto, ma i ricercatori dedicano la maggior parte del loro tempo a individuare quei confini anziché a superarli.

Consensus(si apre in una nuova finestra), uno strumento di ricerca usato da oltre 8 milioni di persone, è stato creato per cambiare questa situazione. Fondata da Christian Salem ed Eric Olson, la piattaforma ricerca, legge e sintetizza la letteratura sottoposta a revisione paritaria, attingendo a oltre 220 milioni di articoli. La sua funzionalità più recente, Scholar Agent, è un sistema multi-agente basato su GPT‑5 e l’API Risposte. Rispecchia il modo in cui lavorano realmente i ricercatori, aiutandoli a passare dalla domanda alla conclusione in pochi minuti anziché in settimane.

L’obiettivo, però, non è solo una ricerca più rapida, ma un percorso più rapido verso la scoperta. “La scienza progredisce quando è più accessibile”, afferma Salem. “Il nostro compito è dare ai ricercatori di tutto il mondo la possibilità di trovare, valutare e applicare le informazioni.”

Da motore di ricerca ad assistente agentico

La prima versione di Consensus funzionava come un motore di ricerca verticale per la scienza: indicizzava articoli accademici, recuperava i risultati pertinenti e generava riepiloghi supportati da citazioni. Ma la ricerca da sola non bastava. 

“La ricerca non consiste solo nel trovare articoli”, spiega Salem. “Significa interpretare i risultati, confrontare le scoperte e collegare le idee. Più tempo gli scienziati trascorrono a cercare, leggere e interpretare le conoscenze passate per trovare lo studio giusto, meno tempo hanno per condurre la ricerca vera e propria.”

Il team ha quindi iniziato a riprogettare Consensus attorno a un nuovo concetto: un sistema multi-agente chiamato “Scholar Agent” che opera come un ricercatore umano.

Basato su GPT‑5 e sull’API Risposte, il sistema ora gestisce un flusso di lavoro coordinato di agenti:

  • Planning Agent scompone la domanda dell’utente e decide quali azioni intraprendere successivamente
  • Search Agent esamina l’indice degli articoli di Consensus, la libreria privata dell’utente e il grafico delle citazioni
  • Reading Agent interpreta gli articoli singolarmente o in batch
  • Analysis Agent sintetizza i risultati, determina la struttura e gli elementi visivi e compone l’output finale

Ogni agente ha un ambito ristretto, garantendo un ragionamento preciso e riducendo al minimo le allucinazioni. L’architettura permette inoltre a Consensus di decidere quando non rispondere: se nessuno studio pertinente soddisfa la soglia di qualità, l’assistente lo comunica semplicemente.

“Dividendo il flusso di lavoro tra gli agenti, riduciamo gli errori e rendiamo il sistema molto più disciplinato”, afferma Salem. “Nessun agente ha troppe responsabilità, e questo è fondamentale per l’affidabilità.”

Diagramma di flusso degli agenti che mostra come una query dell’utente viene elaborata tramite agenti di pianificazione, ricerca parallela, lettura e analisi per generare un output basato sulla ricerca.

Questo approccio è ciò che il team chiama context engineering: assemblare le evidenze corrette prima che inizi la generazione. Ogni risposta è corredata da un “pacchetto di contesto di ricerca”, ovvero un insieme strutturato di documenti, metadati e risultati chiave che rimandano agli studi originali.

“Non vogliamo che i ricercatori perdano tempo a ricontrollare ogni affermazione”, spiega Salem. “Se il sistema non ha evidenze reali su cui fondare una risposta, non la inventerà.”

Sviluppare con l’API Risposte

Consensus è migrato da Chat Completions all’API Risposte per supportare il routing multi-agente. Il passaggio ha migliorato sia l’affidabilità sia l’efficienza dei costi, fornendo al team un controllo più preciso sulle chiamate ai sub-agenti. Con il ragionamento a contesto lungo di GPT‑5 e la capacità affidabile di richiamare strumenti, la scelta era scontata.

Le prime valutazioni hanno confermato le aspettative: GPT‑5 ha superato GPT‑4.1, Sonnet 4 e Gemini 2.5 Pro in termini di precisione nel richiamo degli strumenti e stabilità nella pianificazione. Ciò ha consentito al team di Consensus di dedicare meno tempo a complicate manipolazioni dei prompt e più tempo alla creazione di comportamenti degli agenti che si adattassero direttamente ai flussi di lavoro di ricerca.

Tabella che confronta le metriche dell’agente di ricerca GPT-5 per i modelli OAI, Anthropic e Google in termini di accuratezza, precisione, struttura e latenza.

Una scommessa per i consumatori in un mondo di istituzioni

Fin dall’inizio, Consensus ha guardato al mercato con un approccio inaspettato. Anziché vendere tramite istituzioni, il team si è concentrato sulle persone che conducevano la ricerca: studenti, docenti e clinici che avevano bisogno di risposte in quel momento. Questa attenzione diretta ai ricercatori ha plasmato sia il design del prodotto che la sua rapida crescita.

“Tutti dicevano che non si poteva puntare direttamente al consumatore nel mondo accademico, ma l’IA ha cambiato le cose”, afferma Salem. “Le persone non aspettano più l’approvazione: usano ciò che funziona.”

Questa decisione ha plasmato il tono e la curva di crescita del prodotto. Consensus sembra più una moderna app per i consumatori che uno strumento accademico tradizionale: onboarding rapido, design intuitivo, interfaccia conversazionale. L’adozione si è diffusa tramite passaparola tra campus e laboratori.

Studenti laureati e dottorandi sono diventati i primi utenti esperti, seguiti da docenti e ricercatori privati. Poi sono arrivati ​​i clinici, che hanno iniziato a usare Consensus per accedere alle ultime evidenze nei rispettivi campi. 

“Non ci eravamo prefissati di creare uno strumento per i medici”, spiega Salem. “Ma loro hanno bisogno esattamente di ciò che serve ai ricercatori: un rapido accesso a informazioni affidabili.”

L’azienda ha recentemente firmato un accordo con la biblioteca medica della Mayo Clinic e ha appena lanciato “Medical Mode”, una nuova funzionalità progettata per i professionisti alla ricerca di evidenze cliniche.

Crescere con la scienza

Nell’ultimo anno, Consensus si è espansa rapidamente, arrivando a contare oltre 8 milioni di ricercatori in tutto il mondo e aumentando il fatturato di 8 volte.

Questa crescita non ha modificato le priorità del prodotto. Ogni funzionalità ruota ancora attorno a risposte verificabili e a un basso rischio di errori. Il team ha investito molto in pipeline di valutazione che testano l’accuratezza, la tracciabilità delle citazioni e la coerenza stilistica tra gli agenti.

L’architettura di Consensus è intenzionalmente modulare, progettata per permettere l’inserimento di nuovi agenti man mano che i modelli si espandono e migliorano: agenti in grado di replicare esperimenti, generare grafici o eseguire analisi statistiche.

“Stiamo creando l’assistente di cui i ricercatori hanno realmente bisogno in un mondo in rapido cambiamento”, afferma Salem. “I modelli continuano a migliorare, il sistema cresce con loro e la scienza avanza più velocemente.”

OpenAI <3 le startup. Costruisci insieme a noi.