メインコンテンツにスキップ
OpenAI

2025年10月23日

Consensus、GPT‑5と Responses API の利用で本来なら数週間かかる研究を数分で完了

Consensus は GPT‑5 と Responses API を使用して、研究者と同じやり方で計画を立て、文献を読み、証拠を統合するマルチエージェントシステムを設計しました。

さまざまな色合いの青と緑の縦のテクスチャでなるパネルの濃い青緑を背景に、中央に配置された白い Consensus ロゴ。
読み込んでいます...

毎年、何百万もの新しい科学論文が発表されますが、これは1人の人間が読める量をはるかに超えています。 

科学者にとって課題となるのは、知識にアクセスできるかどうかではなく、知識を見つけ、解釈して、結び付けるという膨大な作業です。革新的な技術は未知の限界に挑んだときに生まれますが、研究者はこの限界を超えるのではなく、限界を見つけることにほとんどの時間を費やしています。

800万人以上が利用するリサーチアシスタント Consensus(新しいウィンドウで開く) は、この状況を打開するために構築されました。Christian Salem 氏と Eric Olson 氏によって設立されたこのプラットフォームは、2億2,000万件を超える論文の中から査読済み文献を検索し、読み取り、まとめます。Consensus の最新機能、Scholar Agent は、GPT‑5 と Responses API 上に構築されたマルチエージェント システムです。研究者の実際の作業方法を反映しており、数週間ではなく数分で研究者が疑問提起から結論に至ることを可能にします。

とはいえ、目標は単に研究スピードを速めることではなく、発見への道のりを短くすることです。Salem 氏は次のように述べています。「アクセス性が向上すれば、科学は進歩します。当社の仕事は、世界中の研究者が信頼に足る証拠を見つけ、それに基づいて行動を起こせるようにすることです」

検索エンジンからエージェントアシスタントへ

Consensus の初期バージョンの機能は、科学分野を対象にしたバーティカル検索エンジンのようなものであり、学術論文をインデックス化して、関連する結果を取得し、引用に基づいた要約を生成していました。しかし、検索のみでは不十分でした。 

Salem 氏は次のように続けます。「論文を見つけることだけが研究ではありません。研究とは、結果を解釈し、発見内容を比較してアイデアと結びつけることです。科学者が研究のために過去の知識を検索し、読み込み、解釈するのに費やす時間が長くなればなるほど、実際の研究を行い、発見と創造に充てる時間は少なくなります」

このため、チームは、人間の研究者と同じように動作する「Scholar Agent」と呼ばれるマルチエージェントシステムという新たなコンセプトに基づいて、Consensus の再構築を始めました。

GPT‑5 と Responses API 上に構築されたこのシステムは現在、エージェントと連携してワークフローを実行します。

  • 計画エージェントがユーザーの質問を分析して、次に取るべきアクションを決定します
  • 検索エージェントが Consensus の論文索引、ユーザーの個人ライブラリ、および引用グラフを精査します。
  • 読み込みエージェントが論文を個別または一括で解釈します
  • 分析エージェントが結果を統合して、構造とビジュアルを決定し、最終出力を構成します。

各エージェントの作業範囲は狭いため、推論の正確性を担保し、ハルシネーションを最小限に抑えることができます。このアーキテクチャにより、Consensus はいつ回答しないかを決定することもできます。関連する研究が品質基準に達した場合、アシスタントは単にその旨をユーザーに伝えます。

「ワークフローをエージェント間で分割することで、エラーが減り、システム統制が大幅に強化されます。どのエージェントも過大な責任を負わないことが、信頼性の鍵です」(Salem 氏)

ユーザークエリがプランニング、並列検索、読み取り、分析エージェントを通じて処理され、調査に基づく出力が生成される様子を示すエージェント フローダイアグラム。

チームがコンテキストエンジニアリングと呼ぶこのアプローチで、生成を始めるに適切な証拠が収集されます。すべての回答には「研究コンテキストパック」が付属します。これは、論文、メタデータ、主要な研究結果を構造的にまとめたものであり、元の研究にまでさかのぼることができます。

「すべての主張を再確認するために、研究者が時間を無駄にするのは望ましくありません。「実際の証拠に基づいた回答ができない場合でも、システムが答えをでっち上げることはありません」(Salem 氏)

Responses API で構築

Consensus は、マルチエージェント ルーティングをサポートするために、Chat Completions API から Responses API に移行しました。この切り替えにより、信頼性とコスト効率の両方が向上し、チームはサブエージェント呼び出しをより細かく制御できるようになりました。GPT‑5 の長文コンテキスト推論と信頼性の高いツール呼び出しにより、選択が明確になりました。

初期の評価により、その賭けが正しかったことが立証されました。GPT‑5 は、ツール呼び出し精度とプランニングの安定性において、GPT‑4.1、Sonnet 4、Gemini 2.5 Pro を上回りました。これにより、Consensus チームはプロンプトの調整にではなく、研究ワークフローに直接対応するエージェントの動作の構築に重きを置くことができるようになりました。

OAI、Anthropic、Google モデル向けの GPT-5 Research Agent メトリックを精度、精密度、構造、レイテンシの観点で比較している表。

制度中心の世界における消費者への賭け

当初から Consensus は、大方の予想とは異なる方法で市場にアプローチしました。チームは、制度を通じて販売するのではなく、研究そのものに携わる人々、つまり、今すぐに答えを必要としている学生や教員、臨床医に焦点を当てたのです。この研究者への直接的なアプローチが、製品の設計と急速な成長の両方を形作りました。

「学術界では消費者に直接販売などできないと誰もが言っていましたが、AI がそれを変えました」と Salem 氏は述べます。「人々はもはや承認を待たず、効果があるものを利用します」

この判断が、製品の印象と成長曲線を決定付けました。Consensus は、素早い導入支援、直感的なデザイン、会話型インターフェースを備えており、従来の学術ツールというより、現代的な消費者向けアプリのような印象を与えます。導入はキャンパスや研究室に口コミで広まりました。

最初のパワーユーザーとなったのは大学院生と博士課程の学生で、それに教員と個人研究者が続きました。その後に臨床医も利用を開始し、Consensus を用いて自身の分野における最新の証拠を明らかにしていきました。 

「医師のための構築を目指したわけではありません。しかし、医師にも研究者と同じもの、つまり信頼できる証拠への迅速なアクセスが必要です」と Salem 氏は述べます。

同社は最近、メイヨー・クリニックの医療図書館と契約し、臨床証拠を探している医師向けに設計された新機能「メディカルモード」をリリースしました。

科学の発展とともに拡大

過去1年間で Consensus は急速な拡大を遂げ、世界中で800万人以上の研究者に利用されるようになり、収益も8倍に増加しました。

しかし、この成長によって製品の優先順位が変わることはありませんでした。今でも、すべての機能は検証可能でハルシネーションの少ない回答が中心です。チームは、精度、引用のトレーサビリティー、エージェント間のスタイルの一貫性をテストする評価パイプラインに多大な投資をしてきました。

Consensus のアーキテクチャは意図的にモジュール化されており、モデルの拡張と改善に応じて新しいエージェント(実験の複製、数値の生成、統計分析などを実行するエージェント)を追加できるように設計されています。

「当社は急速に変化する世界において、研究者が本当に必要とするアシスタントを構築しています。モデルは次々と改良され、それに合わせてシステムも成長し、科学はより速く進歩していきます」(Salem 氏)

OpenAI はスタートアップを応援します。OpenAI とともに、未来を築きましょう。