Cải thiện trí tuệ sức khỏe trong ChatGPT
Được định hình bởi tiến bộ mô hình và đánh giá do bác sĩ dẫn dắt, GPT‑5.5 Instant mang trí tuệ sức khỏe tân tiến đến với nhiều người hơn,
Cải thiện sức khỏe là một trong những cách dùng ChatGPT có ý nghĩa nhất. Mỗi tuần, hơn 230 triệu người tìm đến ChatGPT để được hỗ trợ các câu hỏi liên quan đến sức khỏe và lối sống lành mạnh: hiểu thông tin sức khỏe, diễn giải kết quả xét nghiệm, chuẩn bị cho các cuộc hẹn, xử lý vấn đề bảo hiểm, xây dựng thói quen lành mạnh hơn và xác định nên hỏi gì tiếp theo.
Với GPT‑5.5 Instant, chúng tôi đang thấy một bước tiến đáng kể trong cách mô hình xử lý các câu hỏi về sức khỏe. GPT cho thấy cải thiện trong việc nhận biết khi nào có thể cần chăm sóc khẩn cấp, hỏi thêm bối cảnh liên quan, giải thích sự không chắc chắn và giúp thông tin phức tạp trở nên dễ hiểu hơn. Trong các bài đánh giá sức khỏe khó nhất của chúng tôi, GPT‑5.5 Instant hiện đạt hiệu năng tương đương với các mô hình Thinking tiên tiến nhất của chúng tôi. Vì mô hình này được cung cấp cho người dùng miễn phí trong ChatGPT, nhiều người hơn có thể hưởng lợi từ những cải thiện này. Điều đó có thể đồng nghĩa với thông tin sức khỏe dễ hiểu hơn, những câu hỏi tốt hơn để đặt ra và các bước tiếp theo rõ ràng.
Sự tiến bộ đó phản ánh cả những cải tiến về khả năng của mô hình lẫn những nỗ lực do đội ngũ bác sĩ dẫn dắt đằng sau các đánh giá y tế của chúng tôi. Trong suốt quá trình thực hiện, một mạng lưới bác sĩ toàn cầu đã giúp định nghĩa thế nào là “tốt” trong các tình huống y tế thực tế bằng cách xem xét các phản hồi mẫu của mô hình, mô tả hành vi lý tưởng và xác định các lỗi vận hành. Việc hợp tác với các bác sĩ mang lại cho chúng tôi một phương thức để đo lường mức độ tiến bộ trong lĩnh vực y tế, từ đó cải thiện cách ChatGPT phản hồi theo thời gian.
Trong lĩnh vực sức khỏe, tiến bộ nghĩa là đưa ra các phản hồi chính xác, dễ hiểu và dựa trên phán đoán tốt: nhận biết khi nào cần thêm ngữ cảnh, giải thích sự không chắc chắn mà không phóng đại mức độ tự tin, và giúp mọi người hiểu khi nào nên tìm kiếm chăm sóc y tế.
Để đo lường tiến bộ đó, chúng tôi dùng các bài đánh giá chuyên biệt về sức khỏe, bao gồm HealthBench và HealthBench Professional. Các bài đánh giá này sử dụng những cuộc trò chuyện sức khỏe sát thực tế và thang tiêu chí do bác sĩ viết để đánh giá các phẩm chất như độ chính xác, an toàn, giao tiếp, nhận thức bối cảnh, mức độ đầy đủ và khả năng khuyến nghị chuyển tuyến phù hợp.
GPT‑5.5 Instant đạt hiệu năng sức khỏe tương tự các mô hình tiên tiến mới nhất của chúng tôi trên tổng hợp các bài đánh giá sức khỏe, bao gồm HealthBench Professional, cải thiện đáng kể so với GPT‑5.3 Instant. 5.5 Instant (phát hành tháng 5 năm 2026) và 5.3 Instant (phát hành tháng 3 năm 2026) có sẵn cho tất cả người dùng miễn phí trong ChatGPT (tùy theo giới hạn), và chúng tôi dùng giá API để tính chi phí cho 5.4 Thinking và 5.5 Thinking.
Để có thêm một cơ sở so sánh, chúng tôi cũng yêu cầu các bác sĩ tự viết câu trả lời cho các cuộc trò chuyện y tế điển hình, với thời gian không giới hạn và đượclên mạng (nhưng không được dùng AI). Sau đó, một hội đồng bác sĩ độc lập đã tiến hành so sánh các câu trả lời này với các mô hình Instant theo thời gian, thông qua việc đánh giá các tiêu chí quan trọng trong tương tác thực tế, bao gồm độ chính xác, khả năng giao tiếp, tính toàn vẹn, việc tuân thủ hướng dẫn và mức độ hữu ích đối với quyết định y tế, trên tổng số 3.500 phản hồi được xem xét.
Phản hồi của GPT‑5.5 Instant được chấm cao hơn phản hồi do bác sĩ viết và phản hồi của các mô hình cũ hơn dựa theo các khía cạnh trong bài đánh giá này.
Các bác sĩ đánh giá phản hồi của GPT‑5.5 Instant có ít dạng lỗi hơn so với phản hồi từ các mô hình cũ hơn và từ bác sĩ. Ví dụ, GPT 5.5 Instant có ít trường hợp không điều chỉnh theo bối cảnh chăm sóc y tế địa phương, bỏ sót dấu hiệu cảnh báo hoặc khuyến nghị đi khám, hoặc không hỏi thêm bối cảnh từ người dùng khi cần hơn so với cả các mô hình cũ hơn lẫn bác sĩ.
Với quy mô sử dụng các mô hình của chúng tôi trong lĩnh vực sức khỏe, một cách khác để hiểu những cải thiện gần đây của mô hình là đo lường lưu lượng sử dụng thực tế. Chúng tôi sử dụng các công cụ giám sát bảo vệ quyền riêng tư trên lưu lượng thực tế để theo dõi các vấn đề có thể có về tính xác thực trong phản hồi sức khỏe. Dựa trên so sánh lưu lượng thực tế gần đây về sức khỏe—hàng tỷ tin nhắn mỗi tuần—tỷ lệ phản hồi có ít nhất một vấn đề về tính xác thực bị gắn cờ đã giảm 71% trong hai tháng qua.
Việc so sánh phản hồi từ các mô hình ở những thời điểm khác nhau trên các câu hỏi sức khỏe thực tế cho thấy ChatGPT đã cải thiện ở những khía cạnh quan trọng đối với sức khỏe: nhận biết khi nào một tình huống có thể cần được chú ý khẩn cấp, xử lý sự không chắc chắn với phán đoán tốt hơn, và đưa ra cho mọi người hướng dẫn rõ ràng, hữu ích hơn về việc cần làm tiếp theo.
GPT-5.2 Instant
Nhấp vào tên mô hình để xem thêm phản hồi của mô hình.
Tiến bộ này được định hình bởi các bác sĩ, những người giúp chúng tôi xác định, đo lường và cải thiện phản hồi về sức khỏe trong ChatGPT.
OpenAI làm việc với một mạng lưới toàn cầu gồm hơn 260 bác sĩ tại 60 quốc gia, sử dụng 49 ngôn ngữ và làm việc với 26 chuyên khoa y tế. Phản hồi của họ định hướng cách ChatGPT trả lời các câu hỏi về sức khỏe trong nhiều kịch bản, từ những câu hỏi hằng ngày về lối sống lành mạnh đến các tình huống lâm sàng phức tạp hơn.
Các bác sĩ xem xét những phản hồi mẫu của mô hình và đánh giá liệu chúng có chính xác, rõ ràng, đầy đủ, thận trọng phù hợp và hữu ích hay không. Họ giúp xác định khi nào một phản hồi có thể bỏ sót bối cảnh quan trọng, những chỗ ngôn từ quá tự tin, những nội dung cần làm rõ hơn về các bước xử lý tiếp theo, hoặc trực tiếp hơn khi đưa ra lời khuyên đi khám.
Tính đến nay, các bác sĩ đã xem xét hơn 700.000 phản hồi mẫu của mô hình, phản ánh cách bác sĩ lâm sàng và bệnh nhân có thể sử dụng ChatGPT trong thực tế. Cứ vài phút lại có một bác sĩ xem xét một phản hồi mới. Phản hồi của họ trở thành các thang chấm điểm và tiêu chí đánh giá, giúp các nhà nghiên cứu đo lường liệu phản hồi có chính xác, an toàn, rõ ràng, đầy đủ, thận trọng một cách phù hợp và hữu ích trong các tình huống sức khỏe thực tế hay không. Điều này giúp chúng tôi nhìn nhận rõ ràng hơn mô hình đang tiến bộ ở đâu và vẫn cần cải thiện điểm nào.
Công việc này cũng hỗ trợ nỗ lực rộng hơn của OpenAI trong lĩnh vực sức khỏe, bao gồm các công cụ giúp mọi người hiểu và định hướng thông tin sức khỏe tốt hơn, cũng như các công cụ được xây dựng cho bác sĩ lâm sàng, chẳng hạn như ChatGPT dành cho bác sĩ lâm sàng và OpenAI cho chăm sóc sức khỏe, hỗ trợ chuyên gia y tế trong các tác vụ như ghi chép hồ sơ, nghiên cứu và tư vấn chăm sóc.
Cải thiện sức khỏe con người sẽ là một trong những tác động mang tính cá nhân và hữu hình nhất của AGI (trí tuệ nhân tạo tổng quát). Khi các mô hình của chúng tôi tiếp tục cải thiện, mục tiêu của chúng tôi là giúp ChatGPT chính xác hơn, thận trọng hơn và hữu ích hơn trong những thời điểm đó — đồng thời không ngừng mang sự tiến bộ ấy đến với nhiều người hơn nữa.


