Consensus nutzt GPT‑5 und die Responses API, um Forschungsarbeit von mehreren Wochen in wenigen Minuten abzuschließen.
Mit GPT‑5 und der Responses API hat Consensus ein Multi-Agent-System entwickelt. Es plant, liest und fasst Nachweise so zusammen, wie Forschende es tun.

Jedes Jahr werden Millionen neuer wissenschaftlicher Arbeiten veröffentlicht – weit mehr, als eine einzelne Person lesen könnte.
Für Forschende liegt die Herausforderung nicht im Zugang zu Wissen, sondern in der enormen Aufgabe, Informationen zu finden, zu interpretieren und miteinander zu verknüpfen. Durchbrüche entstehen an den Grenzen des Bekannten. Doch Forschende verbringen den Großteil ihrer Zeit damit, diese Grenzen zu finden, statt sie zu überwinden.
Consensus(wird in einem neuen Fenster geöffnet), ein von mehr als 8 Millionen Menschen genutzter Forschungsassistent, soll genau das ändern. Christian Salem und Eric Olson haben die Plattform gegründet. Sie durchsucht, liest und fasst begutachtete Fachliteratur aus über 220 Millionen wissenschaftlichen Arbeiten zusammen. Die neueste Funktion, Scholar Agent, ist ein Multi-Agent-System basierend auf GPT‑5 und der Responses API. Es spiegelt wider, wie Forschende tatsächlich arbeiten, und hilft ihnen, in Minuten statt in Wochen von der Fragestellung zur Schlussfolgerung zu gelangen.
Das Ziel ist jedoch nicht nur schnellere Forschung, sondern ein direkterer Weg zu neuen Entdeckungen. „Wissenschaft macht Fortschritte, wenn sie zugänglicher wird“, sagt Salem. „Wir wollen es Forschenden überall ermöglichen, Nachweise zu finden, zu prüfen, zu bewerten, ihnen zu vertrauen und auf ihrer Grundlage zu handeln.“
Die erste Version von Consensus funktionierte wie eine spezialisierte Suchmaschine für wissenschaftliche Arbeiten. Sie erfasste Fachliteratur, rief relevante Ergebnisse ab und generierte Zusammenfassungen auf Basis zitierter Quellen. Doch reine Suche reichte nicht aus.
„Forschung bedeutet nicht nur, Arbeiten zu finden“, sagt Salem. „Es geht darum, Ergebnisse zu interpretieren, Erkenntnisse zu vergleichen und Ideen miteinander zu verbinden. Je mehr Zeit Forschende mit Suchen, Lesen und dem Einordnen vorhandenen Wissens verbringen, desto weniger bleibt ihnen für echte Entdeckungen und neue Forschung.“
Deshalb begann das Team, Consensus neu zu gestalten, rund um ein neues Konzept: ein Multi-Agent-System namens „Scholar Agent“, das arbeitet wie ein menschlicher Forscher.
Auf Basis von GPT‑5 und der Responses API steuert das System nun einen koordinierten Workflow aus verschiedenen Agents:
- Der Planning Agent zerlegt die Frage des Nutzers und entscheidet, welche Schritte als Nächstes folgen.
- Der Search Agent durchsucht den Paper-Index von Consensus, die persönliche Bibliothek des Benutzers und das Zitierungsnetzwerk
- Der Reading Agent interpretiert wissenschaftliche Arbeiten einzeln oder in Gruppen
- Der Analysis Agent fasst Ergebnisse zusammen, legt Struktur und Visualisierungen fest und erstellt die finale Ausgabe
Jeder Agent hat ein klar abgegrenztes Aufgabenfeld. Dies hält das Reasoning präzise und verringert das Risiko von Halluzinationen. Die Architektur ermöglicht es Consensus außerdem zu entscheiden, wann keine Antwort gegeben wird. Wenn keine relevanten Studien die Qualitätskriterien erfüllen, sagt der Assistent das einfach.
„Durch die Aufteilung des Workflows auf mehrere Agents reduzieren wir Fehler und machen das System deutlich disziplinierter“, sagt Salem. „Kein einzelner Agent trägt zu viel Verantwortung, ein entscheidender Faktor für die Zuverlässigkeit.“

Dieses Vorgehen nennt das Team Context Engineering: Dabei wird die passende Evidenz zusammengestellt, bevor die Generierung beginnt. Jede Antwort enthält ein „Research Context Pack“ – ein strukturiertes Bündel aus Fachartikeln, Metadaten und zentralen Erkenntnissen, das auf die Originalstudien zurückführt.
„Wir wollen nicht, dass Forschende Zeit damit verschwenden, jede Aussage doppelt zu überprüfen“, sagt Salem. „Wenn das System eine Antwort nicht auf echte Nachweise stützen kann, erfindet es keine.“
Consensus ist von Chat Completions zur Responses API gewechselt, um das Routing zwischen mehreren Agents zu unterstützen. Der Wechsel verbesserte sowohl Zuverlässigkeit als auch Kosteneffizienz und gab dem Team eine präzisere Steuerung der Sub-Agent-Aufrufe. Mit dem langen Kontext-Reasoning und der zuverlässigen Tool-Nutzung von GPT‑5 war die Entscheidung eindeutig.
Erste Auswertungen bestätigten die Wahl. GPT‑5 übertraf GPT‑4.1, Sonnet 4 und Gemini 2.5 Pro in der Genauigkeit der Tool-Nutzung sowie in der Stabilität der Planung. Dadurch konnte sich das Consensus-Team weniger auf Prompt-Feinabstimmung und stärker auf den Aufbau von Agent-Verhalten konzentrieren, das direkt auf Forschungs-Workflows abgestimmt ist.

Von Anfang an verfolgte Consensus einen anderen Marktansatz, als man es erwartet hätte. Statt über Institutionen zu verkaufen, konzentrierte sich das Team auf die Menschen, die selbst forschen: Studierende, Lehrkräfte und Fachleute, die sofort Antworten brauchen. Dieser direkte Fokus auf Forschende prägte sowohl das Produktdesign als auch sein schnelles Wachstum.
„Alle haben gesagt, man könne im akademischen Bereich nicht direkt an Endnutzer gehen, aber KI hat das verändert“, sagt Salem. „Menschen warten heute nicht mehr auf Freigaben – sie nutzen einfach, was funktioniert.“
Diese Entscheidung prägte den Ton und das Wachstum des Produkts. Consensus fühlt sich eher wie eine moderne Consumer-App an als wie ein traditionelles akademisches Tool, mit schnellem Onboarding, intuitivem Design und einer dialogorientierten Oberfläche. Die Verbreitung erfolgte durch Mundpropaganda, über Hochschulen und Forschungseinrichtungen hinweg.
Promovierende und Doktoranden gehörten zu den ersten Power-Usern, gefolgt von Lehrenden und unabhängigen Forschenden. Danach kamen Ärzte hinzu, die Consensus nutzten, um die neuesten wissenschaftlichen Erkenntnisse in ihren Fachgebieten zu finden.
„Wir hatten ursprünglich nicht vor, für Ärzte zu entwickeln“, sagt Salem. „Aber sie brauchen dasselbe wie Forschende: schnellen Zugang zu verlässlichen Nachweisen.“
Kürzlich hat das Unternehmen die medizinische Bibliothek der Mayo Clinic integriert und den „Medical Mode“ gestartet, eine neue Funktion für Fachkräfte, die klinische Evidenz suchen.
Im vergangenen Jahr ist Consensus rasant gewachsen, auf über 8 Millionen Forschende weltweit, und hat seinen Umsatz verachtfacht.
Dieses Wachstum hat die Prioritäten des Produkts nicht verändert. Jede Funktion zielt weiterhin auf überprüfbare Antworten mit minimalen Halluzinationen. Das Team hat stark in Evaluationspipelines investiert, die Genauigkeit, Zitiernachvollziehbarkeit und stilistische Konsistenz über alle Agents hinweg prüfen.
Die Architektur von Consensus ist bewusst modular aufgebaut. So lassen sich neue Agents nahtlos integrieren, während Modelle wachsen und sich verbessern. Diese Agents wiederholen Experimente, generieren Abbildungen oder führen statistische Analysen durch.
„Wir entwickeln den Assistenten, den Forschende in einer sich schnell verändernden Welt wirklich brauchen“, sagt Salem. „Die Modelle werden immer besser, das System wächst mit ihnen und die Wissenschaft kommt schneller voran.“


