Bỏ qua nội dung chính
OpenAI

23 tháng 10, 2025

Consensus sử dụng GPT‑5 và API Phản hồi để hoàn thành công việc nghiên cứu vốn mất hàng tuần chỉ trong vài phút

Thông qua sử dụng GPT‑5 và API Phản hồi, Consensus thiết kế một hệ thống đa tác nhân có khả năng lập kế hoạch, đọc, và tổng hợp bằng chứng giống như cách các nhà nghiên cứu thực hiện.

Lô-gô Consensus màu trắng được căn giữa trên nền màu xanh ngọc đậm, có các tấm vân dọc sắc xanh lam và xanh lá khác nhau.
Đang tải…

Mỗi năm có hàng triệu bài báo khoa học mới được xuất bản, hơn xa số lượng mà một người có thể đọc được. 

Đối với các nhà khoa học, thách thức không phải là cơ hội tiếp cận kiến thức mà là việc tìm kiếm, diễn giải và kết nối vốn luôn khiến họ thấy quá sức. Đột phá thường xảy ra ở ranh giới của những gì đã biết, nhưng các nhà nghiên cứu lại dành phần lớn thời gian chỉ để tìm kiếm ranh giới đó thay vì vượt qua giới hạn.

Trợ lý nghiên cứu được hơn 8 triệu người sử dụng là Consensus(mở trong cửa sổ mới) đã được xây dựng để thay đổi điều đó. Nền tảng này do hai ông Christian Salem và Eric Olson thành lập nhằm mục đích tìm kiếm, đọc, và tổng hợp tài liệu khoa học được bình duyệt trên hơn 220 triệu tờ báo. Nền tảng này mới cập nhật thêm khả năng mới nhất là Scholar Agent, một hệ thống đa tác nhân được xây dựng dựa trên GPT‑5 và API Phản hồi. Hệ thống này phản ánh thực tế phương thức làm việc của các nhà nghiên cứu, giúp họ từ phần câu hỏi đến kết luận chỉ trong vài phút thay vì vài tuần.

Nhưng mục tiêu không chỉ là nghiên cứu nhanh hơn, mà là con đường để khám phá nhanh hơn. Ông Salem chia sẻ: “Khoa học tiến bộ khi mọi người dễ dàng tiếp cận hơn. Công việc của chúng tôi là cung cấp cho các nhà nghiên cứu ở khắp mọi nơi khả năng tìm kiếm, tin tưởng, và hành động dựa trên bằng chứng."

Từ công cụ tìm kiếm đến trợ lý tác nhân chủ động

Phiên bản đầu tiên của Consensus đóng vai trò là công cụ tìm kiếm dọc cho ngành khoa học: lập chỉ mục các bài báo khoa học, truy xuất các kết quả liên quan, và tạo ra các bản tóm tắt dựa trên các trích dẫn. Nhưng chỉ tìm kiếm thôi thì chưa đủ. 

Ông Salem phát biểu: "Nghiên cứu không chỉ là tìm kiếm các bài báo. Mà còn bao gồm diễn giải kết quả, so sánh các phát hiện, và kết nối ý tưởng. Càng mất nhiều thời gian tìm kiếm, đọc, và diễn giải kiến thức cũ để nghiên cứu cho đúng, các nhà khoa học càng có ít thời gian khám phá và thực hiện nghiên cứu thực tế.”

Vậy nên, đội ngũ đã bắt đầu tái cấu trúc Consensus dựa trên một khái niệm mới: một hệ thống đa tác nhân có tên gọi “Scholar Agent”, hoạt động theo cách làm việc của một nhà nghiên cứu là con người.

Được xây dựng dựa trên GPT‑5 và API Phản hồi, hệ thống này hiện vận hành quy trình làm việc phối hợp của các tác nhân:

  • Tác nhân lập kế hoạch phân tích câu hỏi của người dùng và quyết định hành động cần thực hiện tiếp theo
  • Tác nhân tìm kiếm quét chỉ mục bài báo của Consensus, thư viện riêng của người dùng, và đồ thị trích dẫn
  • Tác nhân đọc diễn giải từng tài liệu riêng lẻ hoặc theo lô
  • Tác nhân phân tích tổng hợp kết quả, xác định cấu trúc và hình ảnh, và soạn thảo kết quả cuối cùng

Mỗi tác nhân đảm nhiệm một phạm vi hẹp, giúp suy luận chính xác và giảm thiểu bịa đặt thông tin (ảo giác). Kiến trúc này cũng cho phép Consensus quyết định khi nào không trả lời; nếu không có nghiên cứu phù hợp đáp ứng ngưỡng chất lượng, thì trợ lý sẽ nói đúng như vậy.

Ông Salem thông tin thêm: “Nhờ phân chia quy trình làm việc giữa các tác nhân, chúng tôi giảm thiểu sai sót và làm cho hệ thống trở nên có kỷ luật hơn. Không một tác nhân nào phải chịu quá nhiều trách nhiệm, và hóa ra đây lại là chìa khóa cho sự tin cậy."

Sơ đồ luồng tác nhân thể hiện một truy vấn của người dùng được xử lý như thế nào qua các tác nhân lập kế hoạch, tìm kiếm song song, đọc hiểu, và phân tích để tạo ra một kết quả dựa trên nghiên cứu.

Cách tiếp cận này là điều mà nhóm này gọi là kỹ thuật ngữ cảnh: thu thập đúng bằng chứng trước khi quá trình tạo sinh bắt đầu. Mỗi câu trả lời đều kèm theo "gói ngữ cảnh nghiên cứu". Đây là tập hợp các bài báo, siêu dữ liệu, và những phát hiện chính, tất cả đều được sắp xếp theo cấu trúc và có thể truy nguyên lại các nghiên cứu gốc.

Chia sẻ của ông Salem: "Chúng tôi không muốn các nhà nghiên cứu lãng phí thời gian kiểm tra lại từng nhận định. Nếu không tìm thấy bằng chứng thực tế để đưa ra câu trả lời, hệ thống cũng sẽ không tự bịa ra."

Xây dựng bằng Phản hồi API

Consensus đã chuyển từ Hoàn thiện hội thoại sang API Phản hồi để hỗ trợ định tuyến đa tác nhân của mình. Việc chuyển đổi này cải thiện cả mức độ tin cậy lẫn hiệu quả chi phí, giúp đội nhóm kiểm soát tốt hơn các lệnh gọi tác nhân phụ. Nhờ khả năng suy luận ngữ cảnh dài và gọi công cụ đáng tin cậy của GPT‑5, lựa chọn đã trở nên rõ ràng.

Thẩm định ban đầu đã xác nhận quyết định này là đúng đắn: GPT‑5 vượt trội hơn GPT‑4.1, Sonnet 4, và Gemini 2.5 Pro về mức độ chính xác khi gọi công cụ và ổn định khi lập kế hoạch. Điều này cho phép nhóm Consensus giảm tập trung mày mò các câu lệnh và hướng nhiều hơn vào xây dựng các hành vi của tác nhân nhằm định hình trực tiếp cho quy trình nghiên cứu.

Bảng so sánh các chỉ số của Tác nhân nghiên cứu GPT-5 với các mô hình của OAI, Anthropic, và Google dựa trên các tiêu chí về mức độ chính xác, chuẩn xác, cấu trúc, và độ trễ.

Đặt cược vào người tiêu dùng trong một thế giới thường hướng đến các tổ chức

Ngay từ đầu, Consensus đã tiếp cận thị trường theo cách khác biệt so với kỳ vọng. Thay vì bán sản phẩm cho các tổ chức, đội ngũ tập trung vào chính những người đang làm nghiên cứu: sinh viên, giảng viên, và các chuyên gia lâm sàng cần câu trả lời ngay hôm nay. Tập trung trực tiếp vào nhà nghiên cứu đã định hình lên thiết kế của sản phẩm cùng kết quả tăng trưởng nhanh chóng.

Ông Salem chia sẻ: "Mọi người đều nói không thể trực tiếp bán hàng cho người tiêu dùng trong giới học thuật, nhưng AI đã thay đổi điều đó. Ngày nay, người ta không chờ đợi để được chấp thuận nữa, họ sử dụng những gì hiệu quả."

Quyết định đó đã định hình lên cách tiếp cận thị trường và đường cong tăng trưởng của sản phẩm. Consensus mang lại cảm giác giống một ứng dụng tiêu dùng hiện đại hơn là một công cụ học thuật truyền thống: nhanh chóng làm quen, thiết kế trực quan, giao diện đàm thoại. Việc áp dụng lan rộng thông qua truyền miệng tại các trường học và phòng thí nghiệm.

Sinh viên cao học và nghiên cứu sinh tiến sĩ trở thành những người dùng thành thạo đầu tiên, sau đó là giảng viên và các nhà nghiên cứu tư nhân. Tiếp theo là các chuyên gia lâm sàng, họ bắt đầu sử dụng Consensus để tìm kiếm những bằng chứng mới nhất trong lĩnh vực của mình. 

Ông Salem phát biểu: “Ban đầu, chúng tôi không đặt mục tiêu xây dựng cho các bác sĩ. Nhưng nhu cầu của họ cũng giống như của các nhà nghiên cứu: khả năng tiếp cận nhanh chóng các bằng chứng đáng tin cậy."

Công ty vừa ký hợp đồng thư viện y khoa của Mayo Clinic, và mới ra mắt "Medical Mode" (Chế độ y tế), một tính năng mới được thiết kế dành cho các chuyên gia y tế tìm kiếm bằng chứng lâm sàng.

Mở rộng quy mô dựa trên khoa học

Trong năm vừa qua, Consensus đã mở rộng nhanh chóng, phát triển mạng lưới sử dụng tới hơn 8 triệu nhà nghiên cứu toàn thế giới, và tăng doanh thu gấp 8 lần.

Mức tăng trưởng đó không làm thay đổi các ưu tiên của sản phẩm. Mọi tính năng vẫn xoay quanh các câu trả lời có thể kiểm chứng và ít bịa đặt (ảo giác). Đội ngũ đầu tư mạnh vào các quy trình thẩm định để kiểm tra mức độ chính xác, khả năng truy vết trích dẫn, và tính nhất quán về phong cách giữa các tác nhân.

Kiến trúc của Consensus là dạng thiết kế theo mô-đun có chủ ý, nhằm cho phép các tác nhân mới có thể tích hợp khi các mô hình mở rộng và cải thiện. Các tác nhân này có thể sao chép thí nghiệm, tạo các dữ liệu, hoặc chạy phân tích thống kê.

Chia sẻ của ông Salem: "Chúng tôi đang xây dựng một trợ lý mà các nhà nghiên cứu thực sự cần trong một thế giới thay đổi nhanh chóng. Các mô hình ngày càng tốt hơn, hệ thống phát triển theo đó, và khoa học tiến bộ nhanh hơn."

OpenAI <3 công ty khởi nghiệp. Hãy đến và xây dựng sản phẩm cùng chúng tôi.