메인 콘텐츠로 건너뛰기
OpenAI

2025년 10월 23일

Consensus, GPT‑5와 응답 API를 사용해 몇 주 분량의 리서치를 몇 분 만에 완료

GPT‑5와 응답 API를 사용해 Consensus는 연구원이 하는 방식으로 증거를 계획하고 읽고 종합하는 멀티 에이전트 시스템을 설계했습니다.

파란색과 초록색의 다양한 색조로 세로 질감이 있는 패널이 그려진 어두운 청록색 배경의 중앙에 있는 흰색 Consensus 로고.
로딩 중...

매년 수백만 건의 과학 논문이 새롭게 발표됩니다. 한 명이 읽기에는 너무 많은 양이죠. 

과학자들에게 어려운 점은 지식에 대한 접근성이 아니라 지식을 찾고, 해석하고, 연결하는 부담스러운 작업입니다. 혁신은 이미 알고 있는 것의 가장자리에서 일어나지만, 연구원들은 대부분의 시간을 그 가장자리에서 더 나아가기보다는 가장자리 자체를 찾는 데 사용합니다.

800만 명이 넘게 사용하는 리서치 어시스턴트인 Consensus(새 창에서 열기)는 그런 상황을 바꾸기 위해 만들어졌습니다. Christian Salem과 Eric Olson이 설립한 이 플랫폼은 2억 2,000만 건이 넘는 피어 리뷰 완료 논문을 검색하고 읽고 종합합니다. Consensus의 최신 기능인 Scholar Agent는 GPT‑5와 응답 API를 기반으로 구축된 멀티 에이전트 시스템입니다. 이 시스템은 연구원들의 실제 작업 방식을 그대로 따라 하여 질문에서 결론까지의 소요 시간을 몇 주가 아닌 몇 분으로 단축합니다.

하지만 목표는 단순히 빠른 리서치가 아니라 발견에 도달하는 빠른 경로입니다. “과학은 접근성이 높아질 때 발전합니다.”라고 Salem은 말합니다. “우리의 임무는 연구원들이 어디에 있든 증거를 찾고, 신뢰하고, 그에 따라 조처하는 능력을 주는 것입니다.”

검색 엔진에서 에이전틱 어시스턴트로

Consensus의 첫 번째 버전은 과학을 위한 수직 검색 엔진처럼 작동했습니다. 학술 논문을 인덱싱하고 관련 결과를 검색하고 인용을 바탕으로 요약을 생성했습니다. 하지만 검색만으로는 충분하지 않았습니다. 

“리서치는 단순히 논문을 찾는 게 아니에요.”라고 Salem은 말합니다. “결과를 해석하고, 찾은 내용을 비교하고, 아이디어를 연결하는 것이죠. 과학자들이 올바른 연구를 위해 과거의 지식을 검색하고 읽고 해석하는 데 더 많은 시간을 쓸수록 발견하고 진정한 리서치를 하는데 쓸 시간은 줄어듭니다.”

그래서 팀은 새로운 개념, 즉 인간 연구원이 하는 방식으로 작동하는 ‘Scholar Agent’라는 멀티 에이전트 시스템을 중심으로 Consensus를 다시 설계하기 시작했습니다.

GPT‑5와 응답 API를 기반으로 구축된 이 시스템은 이제 에이전트들의 워크플로를 조율해서 실행합니다.

  • 계획 에이전트는 사용자의 질문을 분석해서 다음에 취해야 할 행동을 결정합니다.
  • 검색 에이전트는 Consensus의 논문 인덱스, 사용자의 개인 라이브러리, 인용 그래프를 샅샅이 찾습니다.
  • 읽기 에이전트는 논문을 개별적으로 또는 일괄적으로 해석합니다.
  • 분석 에이전트는 결과를 종합하고 구조와 시각 자료를 결정하며 최종 출력을 작성합니다.

에이전트마다 범위가 좁기 때문에 추론이 정밀하고 환각이 최소화됩니다. 이 아키텍처에서는 Consensus가 답변을 하지 않아야 할 때를 결정할 수도 있습니다. 관련 연구 중에 품질 수준을 충족하는 것이 없으면 어시스턴트가 사실을 있는 그대로 말합니다.

“에이전트 간에 워크플로를 분산함으로써 오류가 줄고 시스템의 규율이 훨씬 더 엄격해집니다.”라고 Salem은 말합니다. “한 에이전트가 너무 많은 책임을 지지 않는다는 것이 신뢰성의 비결이 되었습니다.”

사용자 쿼리가 계획, 병렬 검색, 읽기, 분석 에이전트를 통과하며 처리되어 리서치 기반 출력을 생성하는 것을 보여주는 에이전트 흐름도.

이 접근법을 이 팀은 컨텍스트 엔지니어링이라고 부릅니다. 생성이 시작되기 전에 올바른 증거를 조합하는 것이죠. 모든 답변에는 ‘리서치 컨텍스트 팩’이 함께 제공됩니다. 이 팩은 출처가 되는 원래 연구물을 밝히는 논문, 메타데이터, 주요 결과를 체계적으로 묶은 것입니다.

“우리는 연구원들이 모든 주장을 다시 한번 확인하면서 시간을 낭비하지 않았으면 합니다.”라고 Salem은 말합니다. “시스템이 실제 증거를 바탕으로 답할 수 없다면 답변을 만들어내지 않죠.”

응답 API를 활용한 구축

Consensus는 멀티 에이전트 라우팅을 지원하기 위해 채팅 완성 API에서 응답 API로 마이그레이션했습니다. 이 마이그레이션을 통해 팀은 하위 에이전트 호출을 더 세밀하게 제어할 수 있어서 신뢰성과 비용 효율성을 모두 개선했습니다. GPT‑5의 긴 컨텍스트 추론과 안정적인 도구 호출 덕분에 무엇을 선택해야 할지가 명확했습니다.

모든 평가가 이 선택이 옳았음을 증명했습니다. GPT‑5는 도구 호출 정확성과 계획 안정성 측면에서 GPT‑4.1, Sonnet 4, Gemini 2.5 Pro의 성능을 뛰어넘었습니다. 덕분에 Consensus 팀은 프롬프트 작성보다는 리서치 워크플로와 직접 매핑되는 에이전트 동작을 구축하는 데 더 집중할 수 있었습니다.

정확성, 정밀도, 구조, 레이턴시 측면에서 OAI, Anthropic, Google 모델과 GPT-5 리서치 에이전트 지표를 비교하는 표.

기관들의 세상에서 소비자를 중심에 둔 베팅

처음부터 Consensus는 기대와는 다른 방식으로 시장에 접근했습니다. 기관을 통해 판매하기보다는 리서치를 하는 사람들, 즉 바로 답변을 필요로 하는 학생, 교직원, 임상의에게 초점을 맞췄습니다. 연구원에게 직접 접근하는 이 방식은 제품의 설계와 빠른 성장에 영향을 미쳤습니다.

“모두가 학계에서는 소비자를 직접 타게팅할 수 없다고 했지만, AI가 그걸 바꿔놓았어요.”라고 Salem은 말합니다. “사람들은 이제 승인을 기다리지 않아요. 제대로 작동하는 걸 사용하죠.”

이 결정은 제품의 어조와 성장 커브에 반영되었습니다. Consensus는 전통적인 학술 도구라기보다는 현대적인 소비자 앱과 같은 느낌이 듭니다. 온보딩이 빠르고 디자인이 직관적이며 대화 형식의 인터페이스를 갖추었습니다. 캠퍼스와 연구실에서 입소문을 타고 사람들이 사용하기 시작했습니다.

대학원생과 박사 과정 학생들이 첫 번째 파워 유저가 되었고 교직원과 개인 연구원들이 뒤를 이었습니다. 그 다음은 임상의였습니다. Consensus를 사용해서 자신의 분야에서 최신 증거를 찾기 시작한 것입니다. 

“애초에 의사들을 위해 만든 건 아니었어요.” Salem은 말합니다. “하지만 의사들도 연구원들과 마찬가지로 신뢰할 수 있는 증거에 빠르게 접근해야 하죠.”

이 회사는 최근 Mayo Clinic의 의료 라이브러리와 계약했고 얼마 전에는 임상 증거를 검색하는 의사를 위한 신규 기능인 Medical Mode를 출시했습니다.

과학과 함께 확장

작년에 Consensus는 빠르게 확장하면서 전 세계적으로 사용 중인 연구원 수가 800만 명을 넘겼고 매출은 8배가 늘었습니다.

이러한 빠른 성장에도 제품의 우선순위는 변하지 않았습니다. 모든 기능이 여전히 검증 가능하고 환각이 적은 답변을 중심으로 돌아갑니다. 팀은 정확성, 인용 추적성, 에이전트들 사이의 스타일 일관성을 테스트하는 평가 파이프라인에 크게 투자했습니다.

Consensus의 아키텍처는 의도적으로 모듈화되어 있습니다. 모델이 확장되고 개선됨에 따라 실험을 복제하는 에이전트, 수치를 생성하는 에이전트, 통계 분석을 실행하는 에이전트 등 새로운 에이전트를 추가할 수 있게 만들어진 것입니다.

“우리는 빠르게 변화하는 세상에서 연구원들에게 실제로 필요한 어시스턴트를 만들고 있습니다.”라고 Salem은 말합니다. “모델이 발전을 거듭하고, 시스템도 그와 함께 성장하고, 과학은 더 빠르게 발전합니다.”

OpenAI는 스타트업을 응원합니다. OpenAI와 함께 만들어 보세요.