بهبود هوشمندی سلامت در ChatGPT
GPT‑5.5 Instant هوشمندی پیشروی سلامت را، که با پیشرفت مدلهای ما و ارزیابی بهسرپرستی پزشکان شکل گرفته، به افراد بیشتری میرساند.
سلامت یکی از معنادارترین حوزههایی است که مردم برای آن از ChatGPT استفاده میکنند. هر هفته، بیش از ۲۳۰ میلیون نفر برای پرسشهای مربوط به سلامت و تندرستی به ChatGPT مراجعه میکنند: فهم بهتر اطلاعات سلامت، درک نتایج آزمایش، آمادهشدن برای ویزیت، پیگیری امور بیمه، ساختن عادتهای سالمتر و تشخیص اینکه بعد از آن چه باید بپرسند.
با GPT‑5.5 Instant، شاهد گامی چشمگیر رو به جلو در نحوه رسیدگی مدل به پرسشهای سلامت هستیم؛ از جمله بهبود در تشخیص زمانهایی که ممکن است مراقبت فوری لازم باشد، پرسیدن زمینه مرتبط، تبیین موارد مشکوک یا نامطمئن و سادهتر کردن اطلاعات پیچیده. در چالشبرانگیزترین ارزیابیهای سلامت ما، GPT‑5.5 Instant اکنون در سطحی همتراز با مدلهای پیشروی Thinking ما عمل میکند. از آنجا که این قابلیت در ChatGPT در دسترس کاربران رایگان است، افراد بیشتری میتوانند از این بهبودها بهرهمند شوند. این یعنی اطلاعات سلامت قابلفهمتر، پرسشهای بهتر برای مطرحکردن و گامهای بعدی روشنتر.
این پیشرفت هم بازتاب ارتقای توانمندیهای مدل است و هم نتیجه کاری که با هدایت پزشکان در پشت ارزیابیهای سلامت ما انجام میشود. در سراسر این تلاشها، شبکهای جهانی از پزشکان با بررسی پاسخهای نمونه مدل، توصیف رفتار ایدهآل و شناسایی حالتهای شکست، کمک میکند تعریف کنیم «خوب» در موقعیتهای واقعی سلامت چه معنایی دارد. همکاری با پزشکان راهی به ما میدهد تا پیشرفت در حوزه سلامت را بسنجیم و نحوه پاسخدهی ChatGPT را بهمرور بهتر کنیم.
در سلامت، پیشرفت یعنی ارائه پاسخهایی دقیق، قابلفهم و متکی بر قضاوت درست: تشخیص اینکه چه زمانی به اطلاعات زمینهای بیشتری نیاز است، توضیح عدمقطعیت بدون اغراق در اطمینان، و کمک به افراد برای فهمیدن اینکه چه زمانی باید به دنبال مراقبت پزشکی باشند.
برای سنجش این پیشرفت، از ارزیابیهای ویژه سلامت، از جمله HealthBench و HealthBench Professional، استفاده میکنیم. این ارزیابیها از گفتوگوهای واقعگرایانه سلامت و معیارهایی که پزشکان نوشتهاند استفاده میکنند تا ویژگیهایی مانند دقت، ایمنی، ارتباطگیری، آگاهی از زمینه، کاملبودن و ارجاع مناسب را بسنجند.
GPT‑5.5 Instant در مجموعهای از ارزیابیهای سلامت، از جمله HealthBench Professional، به عملکردی در حوزه سلامت میرسد که مشابه جدیدترین مدلهای پیشروی ماست و نسبت به GPT‑5.3 Instant بهبود چشمگیری دارد. 5.5 Instant (منتشرشده در مه ۲۰۲۶) و 5.3 Instant (منتشرشده در مارس ۲۰۲۶) برای همه کاربران رایگان در ChatGPT در دسترساند (مشروط به محدودیتها)، و ما برای محاسبه هزینه 5.4 Thinking و 5.5 Thinking از قیمتگذاری API استفاده میکنیم.
برای مقایسهای دیگر، از پزشکان نیز خواستیم برای گفتوگوهای نماینده در حوزه سلامت پاسخ بنویسند، با زمان نامحدود و دسترسی به اینترنت، اما بدون AI. سپس هیئتی جداگانه از پزشکان این پاسخهای نوشتهشده توسط پزشکان را با مدلهای Instant در گذر زمان مقایسه کردند و در میان ۳۵۰۰ پاسخ بررسیشده، ویژگیهایی را سنجیدند که در تعاملات واقعی اهمیت دارند؛ از جمله دقت، ارتباطگیری، کاملبودن، پیروی از دستورالعمل و مفیدبودن برای تصمیمهای سلامت.
پاسخهای GPT‑5.5 Instant در این ارزیابی، در همه ابعاد، بالاتر از پاسخهای نوشتهشده توسط پزشکان و پاسخهای مدلهای قدیمیتر رتبهبندی شدند.
پزشکان پاسخهای GPT‑5.5 Instant را دارای حالتهای شکست کمتری نسبت به پاسخهای مدلهای قدیمیتر و پزشکان ارزیابی کردند. برای نمونه، GPT 5.5 Instant در مقایسه با هم مدلهای قدیمیتر و هم پزشکان، موارد کمتری از عدم تطبیق پاسخ با پروتکلهای سلامت محلی داشت، علائم هشدار یا ارجاع به مراقبت را از قلم انداخته باشد، یا در صورت نیاز از کاربر زمینه بیشتری نخواسته باشد.
با توجه به حجم گسترده استفاده از مدلهای ما در حوزه سلامت، یکی دیگر از راههای درک بهبودهای اخیر، سنجش ترافیکِ محیط عملیاتی است. ما برای ردیابیِ مشکلاتِ احتمالی در صحت محتواییِ پاسخهای مربوط به سلامت، از ابزارهای پایشِ حفظ حریم خصوصی در محیط عملیاتی استفاده میکنیم. بر اساس مقایسه ترافیک اخیر در این حوزه — با حجم میلیاردها پیام در هفته — نرخ پاسخهایی که دستکم با یک گزارش عدم صحت مواجه شدهاند، طی دو ماه گذشته ۷۱٪ کاهش یافته است
مقایسه پاسخهای مدلها در مقاطع زمانی مختلف برای پرسشهای واقعی سلامت نشان میدهد ChatGPT چگونه در جنبههایی که برای سلامت اهمیت دارند بهتر شده است: تشخیص اینکه یک موقعیت چه زمانی ممکن است به توجه فوری نیاز داشته باشد، مدیریت عدمقطعیت با قضاوت بهتر، و ارائه راهنمایی روشنتر و کاربردیتر درباره اینکه افراد در گام بعد چه کنند.
GPT-5.2 Instant
برای دیدن پاسخهای بیشتر مدل، روی نام مدل کلیک کنید.
این پیشرفت را پزشکانی شکل میدهند که به ما کمک میکنند پاسخهای سلامت در ChatGPT را تعریف، اندازهگیری و بهبود دهیم.
OpenAI با شبکهای جهانی متشکل از بیش از ۲۶۰ پزشک در ۶۰ کشور، ۴۹ زبان و ۲۶ تخصص پزشکی همکاری میکند. بازخورد آنها بر نحوه پاسخدهی ChatGPT به پرسشهای سلامت در طیف گستردهای از سناریوها اثر میگذارد؛ از پرسشهای روزمره درباره تندرستی تا موقعیتهای بالینی پیچیدهتر.
پزشکان پاسخهای نمونه مدل را بررسی میکنند و میسنجند که آیا دقیق، روشن، کامل، بهدرستی محتاطانه و مفید هستند یا نه. آنها کمک میکنند مشخص شود پاسخ کجا ممکن است اطلاعات زمینهای مهمی را نادیده بگیرد، کجا بیش از حد مطمئن به نظر برسد، کجا باید درباره گامهای بعدی روشنتر باشد، یا مستقیمتر فرد را به مراجعه برای دریافت مراقبت پزشکی تشویق کند.
تا امروز، پزشکان بیش از ۷۰۰٬۰۰۰ پاسخ نمونه مدل را بررسی کردهاند که نشان میدهد پزشکان بالینی و بیماران چگونه ممکن است در دنیای واقعی از ChatGPT استفاده کنند. هر چند دقیقه، یک پزشک پاسخ تازهای را بررسی میکند. بازخورد آنها به روبریکها و معیارهای ارزیابی تبدیل میشود که به پژوهشگران کمک میکند بسنجند آیا پاسخها در موقعیتهای واقعی سلامت دقیق، ایمن، روشن، کامل، بهدرستی محتاطانه و مفید هستند یا نه. این به ما راه روشنتری میدهد تا ببینیم مدلها کجا بهتر میشوند و کجا هنوز به کار بیشتری نیاز دارند.
این کار همچنین از فعالیت گستردهتر OpenAI در حوزه سلامت پشتیبانی میکند؛ از ابزارهایی گرفته که اطلاعات سلامت را بهتر درک کرده و در میان آنها جستوجو کنند تا ابزارهایی که برای پزشکان بالینی ساخته شدهاند، مانند ChatGPT برای پزشکان بالینی و OpenAI برای مراقبتهای سلامت، که از متخصصان پزشکی در کارهایی مانند مستندسازی، پژوهش و مشاوره مراقبت پشتیبانی میکنند.
بهبود سلامت انسان یکی از شخصیترین و ملموسترین اثرات AGI خواهد بود. با ادامه بهبود مدلهای ما، هدفمان این است که ChatGPT را در این لحظات دقیقتر، محتاطتر و مفیدتر کنیم — و این پیشرفت را همچنان به افراد بیشتری برسانیم.


