۱۴ شهریور ۱۴۰۴

چرا مدل‌های زبانی دچار توهم می‌شوند

تصویر انتزاعی با گرادیان‌های وسیع از رنگ‌های فیروزه‌ای، آبی و اسطوخودوسی که به صورت مورب در سراسر قاب با رگه‌های نرم و روان ترکیب می‌شوند.

در حال بارگذاری…

در OpenAI، ما به شدت تلاش می‌کنیم تا سیستم‌های هوش مصنوعی را مفیدتر و قابل‌اعتمادتر کنیم. حتی وقتی مدل‌های زبانی توانمندتر می‌شوند، یک چالش همچنان به سختی قابلیت حل کامل را دارد: توهمات. منظور ما مواردی است که یک مدل با اطمینان پاسخی تولید می‌کند که صحیح نیست. مقاله تحقیقاتی جدید⁠(در یک پنجره جدید باز می‌شود) ما استدلال می‌کند که مدل‌های زبانی دچار توهم می‌شوند زیرا رویه‌های استاندارد آموزش و ارزیابی، حدس زدن را به جای تصدیق عدم قطعیت ترجیح می‌دهند.

ChatGPT هم توهم می‌زند. GPT‑5 به طور قابل توجهی توهمات کمتری دارد به ویژه هنگام استدلال⁠، اما همچنان اتفاق می‌افتد. توهمات همچنان یک چالش اساسی برای همه مدل‌های بزرگ زبانی هستند، اما ما سخت در تلاشیم تا آنها را بیشتر کاهش دهیم.

توهمات چه هستند؟

توهمات، اظهاراتی هستند که به نظر محتمل می‌آیند اما نادرست بوده و توسط مدل‌های زبانی تولید می‌شوند. آنها می‌توانند به روش‌های غافلگیرکننده‌ای ظاهر شوند، حتی برای سوالات به ظاهر ساده. برای مثال، وقتی از یک چت‌بات پرکاربرد درباره عنوان رساله دکترای آدام تاومن کالای (یکی از نویسندگان این مقاله) پرسیدیم، با اطمینان سه پاسخ متفاوت ارائه داد که هیچ‌کدام درست نبودند. وقتی تاریخ تولدش را پرسیدیم، سه تاریخ مختلف داد که همه هم اشتباه بودند.

آموزش برای آزمون

توهمات تا حدی ادامه دارند زیرا روش‌های ارزیابی کنونی انگیزه‌های نادرستی را ایجاد می‌کنند. در حالی که خود ارزیابی‌ها به طور مستقیم باعث توهم نمی‌شوند، اکثر ارزیابی‌های عملکرد مدل را به گونه‌ای می‌سنجند که به جای صداقت در مورد عدم قطعیت، حدس زدن را تشویق می‌کند.

مثل یک آزمون چند گزینه‌ای بهش فکر کن. اگر جواب را نمی‌دونی اما یه حدس بی‌پروا بزنی، ممکنه خوش‌شانس باشی و حدست درست دربیاد. خالی گذاشتنش، هیچ بودن را تضمین می‌کند. به همین ترتیب، وقتی مدل‌ها فقط بر اساس دقت، یعنی درصد سوالاتی که دقیقاً درست پاسخ داده‌اند، ارزیابی می‌شوند، به جای اینکه بگویند «نمی‌دانم»، تشویق می‌شوند که حدس بزنند.

به عنوان مثالی دیگر، فرض کنید از یک مدل زبانی تاریخ تولد کسی را بپرسند اما او نداند. اگر حدس بزند «۱۰ سپتامبر»، احتمال درست بودن آن ۱ به ۳۶۵ است. گفتن «نمی‌دانم» امتیازهیچ را تضمین می‌کند. در طول هزاران سوال آزمون، مدل حدسی در جدول امتیازات بهتر از مدل دقیقی که عدم قطعیت را می‌پذیرد، ظاهر می‌شود.

برای سوالاتی که یک «پاسخ درست» دارند، می‌توان سه دسته پاسخ را در نظر گرفت: پاسخ‌های صحیح، خطاها و امتناع‌ها که در آنها مدل از حدس زدن خودداری می‌کند. خودداری بخشی از فروتنی است، که یکی از ارزش‌های اصلی OpenAI⁠ محسوب می‌شود. بیشتر تابلوهای امتیازدهی مدل‌ها را بر اساس دقت اولویت‌بندی و رتبه‌بندی می‌کنند، اما خطاها از عدم پاسخگویی هم بدتر هستند. مشخصات مدل⁠(در یک پنجره جدید باز می‌شود) ما بیان می‌کند که بهتر است عدم قطعیت را نشان بدهی یا درخواست توضیح کنی تا اینکه اطلاعات مطمئنی ارائه بدهی که ممکن است نادرست باشد.

برای یک مثال عینی، ارزیابی SimpleQA را به عنوان نمونه‌ای از کارت سیستم GPT5⁠(در یک پنجره جدید باز می‌شود) در نظر بگیر.

متریک	gpt-5-thinking-mini	OpenAI o4-mini
نرخ عدم مشارکت (پاسخ مشخصی داده نشده است)	52%	۱٪
نرخ دقت (پاسخ صحیح، هر چه بالاتر بهتر)	۲۲٪	۲۴٪
نرخ خطا (پاسخ اشتباه، کمتر بهتر)	۲۶٪	75%
کل	۱۰۰٪	۱۰۰٪

از نظر دقت، مدل قدیمی‌تر OpenAI o4-mini کمی بهتر عمل می‌کند. با این حال، نرخ خطای آن (یعنی نرخ توهم) به طور قابل توجهی بالاتر است. حدس زدن به صورت استراتژیک در مواقع عدم اطمینان، دقت را بهبود می‌بخشد اما خطاها و توهمات را افزایش می‌دهد.

هنگام محاسبه میانگین نتایج در ده‌ها ارزیابی، اکثر معیارها به معیار دقت توجه می‌کنند، اما این به معنای ایجاد یک دوگانگی کاذب بین درست و نادرست است. در ارزیابی‌های ساده‌ای مانند SimpleQA، برخی مدل‌ها به دقت نزدیک به ۱۰۰٪ می‌رسند و بنابراین توهمات را حذف می‌کنند. با این حال، در ارزیابی‌های چالش‌برانگیزتر و در کاربردهای واقعی، دقت به زیر ۱۰۰٪ محدود می‌شود، زیرا برخی از سؤالات وجود دارند که پاسخ آن‌ها به دلایل مختلفی مانند عدم دسترسی به اطلاعات، توانایی‌های محدود تفکر مدل‌های کوچک، یا ابهاماتی که نیاز به شفاف‌سازی دارند، قابل تعیین نیست.

با این حال، تابلوهای امتیازدهی که تنها بر اساس دقت هستند، بر تابلوهای امتیازات و کارت‌های مدل تسلط دارند و توسعه‌دهندگان را تشویق می‌کنند تا مدل‌هایی بسازند که به جای احتیاط، حدس بزنند. این یکی از دلایلی است که حتی با پیشرفته‌تر شدن مدل‌ها، آنها هنوز هم می‌توانند دچار توهم شوند و به جای اذعان به عدم قطعیت، با اطمینان پاسخ‌های اشتباه بدهند.

راهی بهتر برای درجه‌بندی ارزیابی‌ها

یک راه‌حل واضح وجود دارد. خطاهای ناشی از اطمینان را بیشتر از عدم قطعیت جریمه کن و برای ابراز مناسب عدم قطعیت، امتیاز جزئی بده. این ایده‌ای جدید نیست. برخی از آزمون‌های استاندارد مدت‌هاست که از روش‌هایی مانند نمره منفی برای پاسخ‌های اشتباه یا نمره جزئی برای خالی گذاشتن سوالات استفاده می‌کنند تا از حدس زدن کورکورانه جلوگیری کنند. چندین گروه تحقیقاتی همچنین ارزیابی‌هایی را بررسی کرده‌اند که عدم قطعیت و کالیبراسیون را در نظر می‌گیرند.

نکته ما فرق دارد. کافی نیست که چند آزمایش جدید آگاه از عدم قطعیت را به‌طور جانبی اضافه کنید. ارزیابی‌های مبتنی بر دقت که به طور گسترده استفاده می‌شوند باید به‌روزرسانی شوند تا امتیازدهی آنها از حدس زدن جلوگیری کند. اگر تابلوهای امتیاز اصلی به حدس‌های خوش‌شانس امتیاز بدهند، مدل‌ها به یادگیری حدس زدن ادامه می‌دهند. اصلاح کردن تابلوهای امتیاز می‌تواند پذیرش تکنیک‌های کاهش توهم، چه آن‌هایی که به تازگی توسعه یافته‌اند و چه آن‌هایی که از تحقیقات قبلی به دست آمده‌اند، را گسترش می‌دهد.

چگونه توهمات از پیش‌بینی کلمه بعدی به وجود می‌آیند

ما دربارهٔ اینکه چرا رهایی از توهمات این‌قدر دشوار است صحبت کرده‌ایم، اما این نادرستی‌های بسیار خاص در واقعیت‌ها اصلاً ابتداء از کجا می‌آیند؟ به هر حال، مدل‌های بزرگ از پیش آموزش‌دیده به ندرت انواع دیگری از خطاها مانند غلط‌های املایی و پرانتزهای نامتناسب را نشان می‌دهند. تفاوت در نوع الگوهایی که در داده‌ها وجود دارند مربوط می‌شود.

مدل‌های زبانی ابتدا از طریق پیش‌آموزش یاد می‌گیرند، فرآیندی که در آن کلمه بعدی در حجم عظیمی از متن پیش‌بینی می‌شود. برخلاف مسائل یادگیری ماشین سنتی، هیچ برچسب «درست/غلط» به هر گزاره متصل نیست. مدل تنها نمونه‌های مثبت از زبان روان را مشاهده می‌کند و باید توزیع کلی را تقریب بزند.

وقتی هیچ مثالی با برچسب نامعتبر نداری، تشخیص گزاره‌های معتبر از نامعتبر دو برابر سخت‌تر می‌شود. اما حتی با برچسب‌ها، برخی خطاها اجتناب‌ناپذیرند. برای فهم چرایی، یک قیاس ساده‌تر را در نظر بگیر. در شناسایی تصویر، اگر میلیون‌ها عکس از گربه و سگ به عنوان «گربه» یا «سگ» برچسب‌گذاری شوند، الگوریتم‌ها می‌توانند یاد بگیرند که آنها را به‌طور قابل اعتمادی دسته‌بندی کنند. اما تصور کن که به جای آن، هر عکس حیوان خانگی را بر اساس تاریخ تولدش برچسب‌گذاری کنی. از آنجایی که تاریخ تولدها اساساً تصادفی هستند، این وظیفه همیشه خطا تولید می‌کند و مهم نیست الگوریتم چقدر پیشرفته باشد.

همین اصل در پیش‌آموزش هم صدق می‌کند. املاء و پرانتزها از الگوهای ثابتی پیروی می‌کنند، بنابراین خطاها با افزایش مقیاس ناپدید می‌شوند. اما حقایق دلخواه با فرکانس پایین مانند تاریخ تولد یک حیوان خانگی را نمی‌توان صرفاً از الگوها پیش‌بینی کرد و از این رو منجر به توهم می‌شوند. تحلیل ما توضیح می‌دهد که چه نوع توهماتی باید از پیش‌بینی کلمه بعدی به وجود بیایند. در حالت ایده‌آل، مراحل بعدی پس از پیش‌آموزش باید آنها را حذف کنند، اما به دلایلی که در بخش قبلی توضیح داده شده است، این کار به طور کامل موفقیت‌آمیز نیست.

نتیجه‌گیری‌ها

امیدواریم که دیدگاه آماری در مقاله‌مان ماهیت توهمات را روشن کند و تصورات غلط رایج را به چالش بکشد:

ادعا: توهمات با بهبود دقت از بین خواهند رفت زیرا یک مدل ۱۰۰٪ دقیق هرگز دچار توهم نمی‌شود.
یافته: دقت هرگز به ۱۰۰٪ نمی‌رسد زیرا، صرف‌نظر از اندازه مدل و قابلیت‌های جستجو و استدلال، برخی از سوالات دنیای واقعی به طور ذاتی غیرقابل‌پاسخ هستند.
ادعا: توهمات اجتناب‌ناپذیرند.
یافته: اینطور نیست، زیرا مدل‌های زبانی می‌توانند در صورت عدم قطعیت، از آن صرف‌نظر کنند.
ادعا: اجتناب از توهم نیاز به درجه‌ای از هوش دارد که به طور منحصر به فردی با مدل‌های بزرگ‌تر قابل دستیابی است.
یافته: برای یک مدل کوچک، شناخت محدودیت‌هایش می‌تواند آسان‌تر باشد. برای مثال، وقتی از یک مدل کوچک که هیچ مائوری نمی‌داند خواسته می‌شود به یک سوال مائوری پاسخ دهد، می‌تواند به سادگی بگوید «نمی‌دانم» در حالی که مدلی که کمی مائوری می‌داند باید میزان اطمینان خود را تعیین کند. همان‌طور که در مقاله بحث شده، «کالیبره بودن» به محاسبات بسیار کمتری نسبت به دقیق بودن نیاز دارد.
ادعا: توهمات یک نقص مرموز در مدل‌های زبانی مدرن هستند.
یافته: ما مکانیسم‌های آماری را که از طریق آنها توهمات ایجاد می‌شوند و در ارزیابی‌ها پاداش می‌گیرند، درک می‌کنیم.
ادعا: برای اندازه‌گیری توهمات، فقط به یک ارزیابی خوب توهم نیاز داریم.
یافته: ارزیابی‌های توهم منتشر شده‌اند. با این حال، یک ارزیابی خوب از توهم در برابر صدها ارزیابی سنتی مبتنی بر دقت که فروتنی را جریمه و حدس زدن را پاداش می‌دهند، تأثیر چندانی ندارد. در عوض، تمام معیارهای ارزیابی اولیه باید برای پاداش دادن به عبارات عدم قطعیت، بازنگری شوند.

مدل‌های جدید ما نرخ توهم کمتری دارند و ما همچنان به سختی تلاش می‌کنیم تا نرخ خطاهای مطمئن تولید شده توسط مدل‌های زبانی‌مان را بیشتر کاهش دهیم.

مشارکت‌کنندگان اعلامیه

Adam Kalai،‏ Santosh Vempala (Georgia Tech)،‏ Ofir Nachum،‏ Eddie Zhang،‏ David Robinson،‏ Saachi Jain،‏ Eric Mitchell،‏ Alex Beutel،‏ Johannes Heidecke

به خواندن ادامه بده

مشاهده همه

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵