
در OpenAI، ما به شدت تلاش میکنیم تا سیستمهای هوش مصنوعی را مفیدتر و قابلاعتمادتر کنیم. حتی وقتی مدلهای زبانی توانمندتر میشوند، یک چالش همچنان به سختی قابلیت حل کامل را دارد: توهمات. منظور ما مواردی است که یک مدل با اطمینان پاسخی تولید میکند که صحیح نیست. مقاله تحقیقاتی جدید(در یک پنجره جدید باز میشود) ما استدلال میکند که مدلهای زبانی دچار توهم میشوند زیرا رویههای استاندارد آموزش و ارزیابی، حدس زدن را به جای تصدیق عدم قطعیت ترجیح میدهند.
ChatGPT هم توهم میزند. GPT‑5 به طور قابل توجهی توهمات کمتری دارد به ویژه هنگام استدلال، اما همچنان اتفاق میافتد. توهمات همچنان یک چالش اساسی برای همه مدلهای بزرگ زبانی هستند، اما ما سخت در تلاشیم تا آنها را بیشتر کاهش دهیم.
توهمات، اظهاراتی هستند که به نظر محتمل میآیند اما نادرست بوده و توسط مدلهای زبانی تولید میشوند. آنها میتوانند به روشهای غافلگیرکنندهای ظاهر شوند، حتی برای سوالات به ظاهر ساده. برای مثال، وقتی از یک چتبات پرکاربرد درباره عنوان رساله دکترای آدام تاومن کالای (یکی از نویسندگان این مقاله) پرسیدیم، با اطمینان سه پاسخ متفاوت ارائه داد که هیچکدام درست نبودند. وقتی تاریخ تولدش را پرسیدیم، سه تاریخ مختلف داد که همه هم اشتباه بودند.
توهمات تا حدی ادامه دارند زیرا روشهای ارزیابی کنونی انگیزههای نادرستی را ایجاد میکنند. در حالی که خود ارزیابیها به طور مستقیم باعث توهم نمیشوند، اکثر ارزیابیهای عملکرد مدل را به گونهای میسنجند که به جای صداقت در مورد عدم قطعیت، حدس زدن را تشویق میکند.
مثل یک آزمون چند گزینهای بهش فکر کن. اگر جواب را نمیدونی اما یه حدس بیپروا بزنی، ممکنه خوششانس باشی و حدست درست دربیاد. خالی گذاشتنش، هیچ بودن را تضمین میکند. به همین ترتیب، وقتی مدلها فقط بر اساس دقت، یعنی درصد سوالاتی که دقیقاً درست پاسخ دادهاند، ارزیابی میشوند، به جای اینکه بگویند «نمیدانم»، تشویق میشوند که حدس بزنند.
به عنوان مثالی دیگر، فرض کنید از یک مدل زبانی تاریخ تولد کسی را بپرسند اما او نداند. اگر حدس بزند «۱۰ سپتامبر»، احتمال درست بودن آن ۱ به ۳۶۵ است. گفتن «نمیدانم» امتیازهیچ را تضمین میکند. در طول هزاران سوال آزمون، مدل حدسی در جدول امتیازات بهتر از مدل دقیقی که عدم قطعیت را میپذیرد، ظاهر میشود.
برای سوالاتی که یک «پاسخ درست» دارند، میتوان سه دسته پاسخ را در نظر گرفت: پاسخهای صحیح، خطاها و امتناعها که در آنها مدل از حدس زدن خودداری میکند. خودداری بخشی از فروتنی است، که یکی از ارزشهای اصلی OpenAI محسوب میشود. بیشتر تابلوهای امتیازدهی مدلها را بر اساس دقت اولویتبندی و رتبهبندی میکنند، اما خطاها از عدم پاسخگویی هم بدتر هستند. مشخصات مدل(در یک پنجره جدید باز میشود) ما بیان میکند که بهتر است عدم قطعیت را نشان بدهی یا درخواست توضیح کنی تا اینکه اطلاعات مطمئنی ارائه بدهی که ممکن است نادرست باشد.
برای یک مثال عینی، ارزیابی SimpleQA را به عنوان نمونهای از کارت سیستم GPT5(در یک پنجره جدید باز میشود) در نظر بگیر.
متریک | gpt-5-thinking-mini | OpenAI o4-mini |
نرخ عدم مشارکت | 52% | ۱٪ |
نرخ دقت | ۲۲٪ | ۲۴٪ |
نرخ خطا | ۲۶٪ | 75% |
کل | ۱۰۰٪ | ۱۰۰٪ |
از نظر دقت، مدل قدیمیتر OpenAI o4-mini کمی بهتر عمل میکند. با این حال، نرخ خطای آن (یعنی نرخ توهم) به طور قابل توجهی بالاتر است. حدس زدن به صورت استراتژیک در مواقع عدم اطمینان، دقت را بهبود میبخشد اما خطاها و توهمات را افزایش میدهد.
هنگام محاسبه میانگین نتایج در دهها ارزیابی، اکثر معیارها به معیار دقت توجه میکنند، اما این به معنای ایجاد یک دوگانگی کاذب بین درست و نادرست است. در ارزیابیهای سادهای مانند SimpleQA، برخی مدلها به دقت نزدیک به ۱۰۰٪ میرسند و بنابراین توهمات را حذف میکنند. با این حال، در ارزیابیهای چالشبرانگیزتر و در کاربردهای واقعی، دقت به زیر ۱۰۰٪ محدود میشود، زیرا برخی از سؤالات وجود دارند که پاسخ آنها به دلایل مختلفی مانند عدم دسترسی به اطلاعات، تواناییهای محدود تفکر مدلهای کوچک، یا ابهاماتی که نیاز به شفافسازی دارند، قابل تعیین نیست.
با این حال، تابلوهای امتیازدهی که تنها بر اساس دقت هستند، بر تابلوهای امتیازات و کارتهای مدل تسلط دارند و توسعهدهندگان را تشویق میکنند تا مدلهایی بسازند که به جای احتیاط، حدس بزنند. این یکی از دلایلی است که حتی با پیشرفتهتر شدن مدلها، آنها هنوز هم میتوانند دچار توهم شوند و به جای اذعان به عدم قطعیت، با اطمینان پاسخهای اشتباه بدهند.
یک راهحل واضح وجود دارد. خطاهای ناشی از اطمینان را بیشتر از عدم قطعیت جریمه کن و برای ابراز مناسب عدم قطعیت، امتیاز جزئی بده. این ایدهای جدید نیست. برخی از آزمونهای استاندارد مدتهاست که از روشهایی مانند نمره منفی برای پاسخهای اشتباه یا نمره جزئی برای خالی گذاشتن سوالات استفاده میکنند تا از حدس زدن کورکورانه جلوگیری کنند. چندین گروه تحقیقاتی همچنین ارزیابیهایی را بررسی کردهاند که عدم قطعیت و کالیبراسیون را در نظر میگیرند.
نکته ما فرق دارد. کافی نیست که چند آزمایش جدید آگاه از عدم قطعیت را بهطور جانبی اضافه کنید. ارزیابیهای مبتنی بر دقت که به طور گسترده استفاده میشوند باید بهروزرسانی شوند تا امتیازدهی آنها از حدس زدن جلوگیری کند. اگر تابلوهای امتیاز اصلی به حدسهای خوششانس امتیاز بدهند، مدلها به یادگیری حدس زدن ادامه میدهند. اصلاح کردن تابلوهای امتیاز میتواند پذیرش تکنیکهای کاهش توهم، چه آنهایی که به تازگی توسعه یافتهاند و چه آنهایی که از تحقیقات قبلی به دست آمدهاند، را گسترش میدهد.
ما دربارهٔ اینکه چرا رهایی از توهمات اینقدر دشوار است صحبت کردهایم، اما این نادرستیهای بسیار خاص در واقعیتها اصلاً ابتداء از کجا میآیند؟ به هر حال، مدلهای بزرگ از پیش آموزشدیده به ندرت انواع دیگری از خطاها مانند غلطهای املایی و پرانتزهای نامتناسب را نشان میدهند. تفاوت در نوع الگوهایی که در دادهها وجود دارند مربوط میشود.
مدلهای زبانی ابتدا از طریق پیشآموزش یاد میگیرند، فرآیندی که در آن کلمه بعدی در حجم عظیمی از متن پیشبینی میشود. برخلاف مسائل یادگیری ماشین سنتی، هیچ برچسب «درست/غلط» به هر گزاره متصل نیست. مدل تنها نمونههای مثبت از زبان روان را مشاهده میکند و باید توزیع کلی را تقریب بزند.
وقتی هیچ مثالی با برچسب نامعتبر نداری، تشخیص گزارههای معتبر از نامعتبر دو برابر سختتر میشود. اما حتی با برچسبها، برخی خطاها اجتنابناپذیرند. برای فهم چرایی، یک قیاس سادهتر را در نظر بگیر. در شناسایی تصویر، اگر میلیونها عکس از گربه و سگ به عنوان «گربه» یا «سگ» برچسبگذاری شوند، الگوریتمها میتوانند یاد بگیرند که آنها را بهطور قابل اعتمادی دستهبندی کنند. اما تصور کن که به جای آن، هر عکس حیوان خانگی را بر اساس تاریخ تولدش برچسبگذاری کنی. از آنجایی که تاریخ تولدها اساساً تصادفی هستند، این وظیفه همیشه خطا تولید میکند و مهم نیست الگوریتم چقدر پیشرفته باشد.
همین اصل در پیشآموزش هم صدق میکند. املاء و پرانتزها از الگوهای ثابتی پیروی میکنند، بنابراین خطاها با افزایش مقیاس ناپدید میشوند. اما حقایق دلخواه با فرکانس پایین مانند تاریخ تولد یک حیوان خانگی را نمیتوان صرفاً از الگوها پیشبینی کرد و از این رو منجر به توهم میشوند. تحلیل ما توضیح میدهد که چه نوع توهماتی باید از پیشبینی کلمه بعدی به وجود بیایند. در حالت ایدهآل، مراحل بعدی پس از پیشآموزش باید آنها را حذف کنند، اما به دلایلی که در بخش قبلی توضیح داده شده است، این کار به طور کامل موفقیتآمیز نیست.
امیدواریم که دیدگاه آماری در مقالهمان ماهیت توهمات را روشن کند و تصورات غلط رایج را به چالش بکشد:
- ادعا: توهمات با بهبود دقت از بین خواهند رفت زیرا یک مدل ۱۰۰٪ دقیق هرگز دچار توهم نمیشود.
یافته: دقت هرگز به ۱۰۰٪ نمیرسد زیرا، صرفنظر از اندازه مدل و قابلیتهای جستجو و استدلال، برخی از سوالات دنیای واقعی به طور ذاتی غیرقابلپاسخ هستند. - ادعا: توهمات اجتنابناپذیرند.
یافته: اینطور نیست، زیرا مدلهای زبانی میتوانند در صورت عدم قطعیت، از آن صرفنظر کنند. - ادعا: اجتناب از توهم نیاز به درجهای از هوش دارد که به طور منحصر به فردی با مدلهای بزرگتر قابل دستیابی است.
یافته: برای یک مدل کوچک، شناخت محدودیتهایش میتواند آسانتر باشد. برای مثال، وقتی از یک مدل کوچک که هیچ مائوری نمیداند خواسته میشود به یک سوال مائوری پاسخ دهد، میتواند به سادگی بگوید «نمیدانم» در حالی که مدلی که کمی مائوری میداند باید میزان اطمینان خود را تعیین کند. همانطور که در مقاله بحث شده، «کالیبره بودن» به محاسبات بسیار کمتری نسبت به دقیق بودن نیاز دارد. - ادعا: توهمات یک نقص مرموز در مدلهای زبانی مدرن هستند.
یافته: ما مکانیسمهای آماری را که از طریق آنها توهمات ایجاد میشوند و در ارزیابیها پاداش میگیرند، درک میکنیم. - ادعا: برای اندازهگیری توهمات، فقط به یک ارزیابی خوب توهم نیاز داریم.
یافته: ارزیابیهای توهم منتشر شدهاند. با این حال، یک ارزیابی خوب از توهم در برابر صدها ارزیابی سنتی مبتنی بر دقت که فروتنی را جریمه و حدس زدن را پاداش میدهند، تأثیر چندانی ندارد. در عوض، تمام معیارهای ارزیابی اولیه باید برای پاداش دادن به عبارات عدم قطعیت، بازنگری شوند.
مدلهای جدید ما نرخ توهم کمتری دارند و ما همچنان به سختی تلاش میکنیم تا نرخ خطاهای مطمئن تولید شده توسط مدلهای زبانیمان را بیشتر کاهش دهیم.
مشارکتکنندگان اعلامیه
Adam Kalai، Santosh Vempala (Georgia Tech)، Ofir Nachum، Eddie Zhang، David Robinson، Saachi Jain، Eric Mitchell، Alex Beutel، Johannes Heidecke


