การปรับปรุงความอัจฉริยะด้านสุขภาพใน ChatGPT
GPT‑5.5 Instant ช่วยให้ผู้คนจำนวนมากเข้าถึงข้อมูลสุขภาพระดับแนวหน้าได้ง่ายขึ้น โดยต่อยอดจากความก้าวหน้าของโมเดลของเราและการประเมินที่นำโดยแพทย์
Health เป็นหนึ่งในการใช้งาน ChatGPT ที่มีความหมายต่อผู้คนมากที่สุด ทุกสัปดาห์ ผู้ใช้งานกว่า 230 ล้านคนพึ่งพา ChatGPT ในการหาคำตอบเกี่ยวกับสุขภาพและความเป็นอยู่ที่ดี ตั้งแต่การตีความข้อมูลสุขภาพ การอ่านผลตรวจ การเตรียมความพร้อมก่อนไปพบแพทย์ การจัดการเรื่องประกัน การปรับเปลี่ยนนิสัยเพื่อสุขภาพ ไปจนถึงการวางแผนว่าจะปรึกษาอะไรเป็นลำดับถัดไป
จาก GPT‑5.5 Instant เราเห็นพัฒนาการก้าวสำคัญในความสามารถของโมเดลในการตอบคำถามด้านสุขภาพ ทั้งในด้านการระบุสถานการณ์ที่อาจต้องได้รับการดูแลอย่างเร่งด่วน การซักถามข้อมูลเพิ่มเติม การระบุถึงความไม่แน่นอนของคำตอบ และการสื่อสารข้อมูลที่ยากให้เข้าใจง่าย ในการประเมินด้านสุขภาพที่ท้าทายที่สุดของเรา GPT‑5.5 Instant ในตอนนี้มีประสิทธิภาพในระดับที่เทียบได้กับโมเดล Thinking ระดับแนวหน้าของเรา การที่ผู้ใช้งาน ChatGPT เวอร์ชันฟรีสามารถเข้าถึงฟีเจอร์นี้ได้ ทำให้ผู้คนจำนวนมากขึ้นได้รับประโยชน์จากการปรับปรุงเหล่านี้ ซึ่งหมายรวมถึงการเข้าถึงข้อมูลด้านสุขภาพที่ทำความเข้าใจได้ง่าย การตั้งคำถามที่เหมาะสมกว่าเดิม และแนวทางปฏิบัติในลำดับถัดไปที่ชัดเจน
ความก้าวหน้าดังกล่าวสะท้อนถึงความสามารถที่พัฒนาขึ้นของโมเดลและงานที่นำโดยแพทย์ซึ่งอยู่เบื้องหลังการประเมินสุขภาพของเรา ตลอดการทำงานของเรา เครือข่ายแพทย์ทั่วโลกมีส่วนสำคัญในการนิยามว่า “ผลลัพธ์ที่ดี” ในสถานการณ์สุขภาพจริงควรเป็นอย่างไรผ่านการตรวจสอบตัวอย่างคำตอบของโมเดล การอธิบายพฤติกรรมที่เหมาะสมที่สุด และการชี้จุดบกพร่องที่อาจพบ การทำงานร่วมกับแพทย์ช่วยให้เรามีวิธีวัดความก้าวหน้าด้านสุขภาพ และปรับปรุงวิธีที่ ChatGPT ตอบสนองให้ดีขึ้นเมื่อเวลาผ่านไป
สำหรับด้านสุขภาพ ความก้าวหน้าหมายถึงการให้คำตอบที่แม่นยำ เข้าใจได้ง่าย และตั้งอยู่บนวิจารณญาณที่เหมาะสม การรู้ว่าเมื่อใดต้องขอข้อมูลเพิ่ม การอธิบายถึงความไม่ชัดเจนโดยไม่มั่นใจจนเกินไป และการช่วยให้คนตระหนักว่าเมื่อใดควรเข้ารับการรักษา
เพื่อวัดความก้าวหน้าดังกล่าวเราใช้การประเมินเฉพาะด้านสุขภาพอย่าง HealthBench และ HealthBench Professional การประเมินเหล่านี้ใช้บทสนทนาด้านสุขภาพที่สมจริงและเกณฑ์การประเมินที่แพทย์เป็นผู้เขียน เพื่อประเมินคุณลักษณะต่างๆ เช่น ความถูกต้อง ความปลอดภัย การสื่อสาร การตระหนักถึงบริบท ความครบถ้วน และการยกระดับการดูแลอย่างเหมาะสม
GPT‑5.5 Instant มีประสิทธิภาพด้านสุขภาพใกล้เคียงกับโมเดลระดับแนวหน้าล่าสุดของเราในการประเมินด้านสุขภาพแบบรวม ซึ่งรวมถึง HealthBench Professional โดยปรับปรุงขึ้นอย่างมากจาก GPT‑5.3 Instant 5.5 Instant (เปิดตัวในเดือนพฤษภาคม 2569) และ 5.3 Instant (เปิดตัวในเดือนมีนาคม 2569) พร้อมให้ผู้ใช้ฟรีทุกคนใช้งานใน ChatGPT (ภายใต้ข้อจำกัด) และเราใช้ราคาการใช้งาน API เพื่อคำนวณต้นทุนสำหรับ 5.4 Thinking และ 5.5 Thinking
เพื่อใช้เป็นการเปรียบเทียบอีกแบบหนึ่ง เรายังขอให้แพทย์เขียนคำตอบสำหรับบทสนทนาเกี่ยวกับสุขภาพที่เป็นตัวอย่าง โดยให้เวลาไม่จำกัดและสามารถเข้าถึงอินเทอร์เน็ตได้ (แต่ไม่ให้ใช้ AI) จากนั้นคณะผู้ประเมินแพทย์อีกชุดหนึ่งได้เปรียบเทียบคำตอบของแพทย์เหล่านี้กับโมเดล Instant เป็นระยะๆ โดยตรวจทานคุณลักษณะที่มีความสำคัญในการโต้ตอบจริง ซึ่งรวมถึงความถูกต้อง การสื่อสาร ความครบถ้วน การปฏิบัติตามคำสั่ง และประโยชน์ในการช่วยตัดสินใจด้านสุขภาพ ผ่านตัวอย่างคำตอบที่ถูกตรวจสอบจำนวน 3,500 รายการ
คำตอบของ GPT‑5.5 Instant ได้รับคะแนนสูงกว่าคำตอบที่แพทย์เขียนและคำตอบของโมเดลรุ่นเก่าในทุกมิติของการประเมินนี้
แพทย์ผู้ประเมินพบว่า GPT‑5.5 Instant แสดงรูปแบบความผิดพลาดในคำตอบน้อยลงเมื่อเทียบกับโมเดลเวอร์ชันเก่าและข้อมูลที่มาจากแพทย์ เช่น GPT‑5.5 Instant แสดงข้อผิดพลาดน้อยลงในแง่ของการไม่ปรับคำตอบให้เข้ากับบริบทสาธารณสุขท้องถิ่น การละเลยอาการเตือนสำคัญหรือการไม่แนะนำให้ไปพบแพทย์ รวมถึงการไม่ถามข้อมูลเพิ่มเติมที่จำเป็น ซึ่งพบข้อผิดพลาดนี้น้อยกว่าทั้งในโมเดลรุ่นเก่าและบุคลากรแพทย์เอง
เมื่อพิจารณาจากขนาดการใช้งานโมเดลของเราในด้านสุขภาพ อีกวิธีหนึ่งในการทำความเข้าใจพัฒนาการล่าสุดของโมเดลคือการวัดผลจากข้อมูลการใช้งานจริง เราใช้ระบบติดตามที่ช่วยรักษาความเป็นส่วนตัวในการวิเคราะห์ข้อมูลการใช้งานจริง เพื่อเฝ้าระวังประเด็นเรื่องความถูกต้องของข้อมูลในคำตอบด้านสุขภาพ เมื่อพิจารณาจากข้อมูลการใช้งานจริงด้านสุขภาพที่มีมากกว่าพันล้านข้อความต่อสัปดาห์ พบว่าอัตราของคำตอบที่ตรวจพบปัญหาด้านข้อเท็จจริงอย่างน้อยหนึ่งประเด็นได้ลดลงถึง 71% ตลอดสองเดือนที่ผ่านมา
เมื่อนำคำตอบของโมเดลในช่วงเวลาต่างๆ มาเปรียบเทียบกันผ่านคำถามด้านสุขภาพ เราจะเห็นได้ว่า ChatGPT มีพัฒนาการที่สำคัญ ไม่ว่าจะเป็นการรับรู้ว่าสถานการณ์ใดอาจต้องได้รับการดูแลอย่างเร่งด่วน การจัดการกับความไม่แน่นอนด้วยวิจารณญาณที่ดียิ่งขึ้น และการให้คำแนะนำที่ชัดเจนและเป็นประโยชน์มากขึ้นเกี่ยวกับสิ่งที่ควรทำต่อไป
GPT-5.5
คลิกชื่อโมเดลเพื่อดูคำตอบเพิ่มเติมจากโมเดล
ความสำเร็จนี้เป็นผลมาจากการทำงานร่วมกับคณะแพทย์ที่ช่วยให้เรานิยามมาตรฐาน วัดผล และปรับปรุงคำตอบในประเด็นสุขภาพบน ChatGPT
OpenAI ร่วมมือกับเครือข่ายแพทย์กว่า 260 คนทั่วโลก ซึ่งกระจายอยู่ใน 60 ประเทศ ใช้ภาษาในการทำงานรวม 49 ภาษา และมีความเชี่ยวชาญทางการแพทย์ถึง 26 สาขา ข้อเสนอแนะของพวกเขาช่วยกำหนดแนวทางที่ ChatGPT ใช้ในการตอบคำถามด้านสุขภาพในสถานการณ์ที่หลากหลาย ตั้งแต่คำถามเกี่ยวกับการดูแลสุขภาพในชีวิตประจำวันไปจนถึงสถานการณ์ทางการแพทย์ที่ซับซ้อนยิ่งขึ้น
แพทย์ตรวจสอบตัวอย่างคำตอบจากโมเดลและประเมินว่าคำตอบเหล่านั้นถูกต้อง ชัดเจน ครบถ้วน มีความระมัดระวังอย่างเหมาะสม และเป็นประโยชน์หรือไม่ สิ่งเหล่านี้ช่วยระบุว่าคำตอบอาจขาดบริบทสำคัญตรงไหน อาจดูมั่นใจมากเกินไปตรงไหน ควรชี้แจงขั้นตอนถัดไปให้ชัดเจนยิ่งขึ้นตรงไหน หรือควรกระตุ้นให้ผู้อื่นเข้ารับการดูแลทางการแพทย์อย่างตรงไปตรงมายิ่งขึ้นตรงไหน
จนถึงปัจจุบันแพทย์ได้ตรวจทานตัวอย่างคำตอบจากโมเดลมากกว่า 700,000 รายการ ซึ่งสะท้อนให้เห็นว่าบุคลากรทางการแพทย์และผู้ป่วยอาจใช้ ChatGPT ในสถานการณ์จริงอย่างไร ทุกๆ ไม่กี่นาที แพทย์จะตรวจทานคำตอบใหม่หนึ่งรายการ ข้อเสนอแนะจากพวกเขาจะถูกแปรเปลี่ยนเป็นเกณฑ์มาตรฐานและหลักเกณฑ์การประเมินที่ช่วยให้นักวิจัยวัดผลได้ว่า คำตอบนั้นมีความแม่นยำ ปลอดภัย ชัดเจน ครอบคลุม มีความระมัดระวังในระดับที่เหมาะสม และมีประโยชน์ต่อสถานการณ์สุขภาพในโลกความเป็นจริง สิ่งนี้ช่วยให้เรามีวิธีที่ชัดเจนยิ่งขึ้นในการดูว่าโมเดลพัฒนาไปในด้านใดบ้าง และยังต้องปรับปรุงในด้านใดบ้าง
งานนี้ยังสนับสนุนงานด้านสุขภาพในภาพกว้างของ OpenAI ซึ่งครอบคลุมตั้งแต่เครื่องมือที่ช่วยให้ผู้คนเข้าใจและศึกษาข้อมูลด้านสุขภาพได้ดีขึ้น ไปจนถึงเครื่องมือที่สร้างขึ้นสำหรับบุคลากรทางการแพทย์ เช่น ChatGPT for Clinicians และ OpenAI for Healthcare ซึ่งช่วยสนับสนุนบุคลากรทางการแพทย์ในงานต่างๆ เช่น การจัดทำเอกสาร การวิจัย และการให้คำปรึกษาด้านการดูแลรักษา
การพัฒนาสุขภาพของผู้คนจะเป็นหนึ่งในผลลัพธ์ของ AGI ที่ใกล้ตัวและจับต้องได้มากที่สุด เมื่อโมเดลของเราพัฒนาอย่างต่อเนื่อง เป้าหมายของเราคือการทำให้ ChatGPT แม่นยำมากขึ้น รอบคอบมากขึ้น และเป็นประโยชน์มากขึ้นในช่วงเวลาเหล่านั้น และเดินหน้ามอบความก้าวหน้านั้นให้แก่ผู้คนจำนวนมากขึ้น


