۵ ستمبر، ۲۰۲۵

لینگوئج ماڈل کیوں ہیلوسینیٹ یا گمراہ کرتے ہیں

ٹیل، نیلے اور لیوینڈر کے نرم میلان کے ساتھ تجریدی تصویر، جو فریم میں ترچھی طور پر نرم، بہتی ہوئی لکیروں میں ملتی ہے۔

لوڈ ہو رہا ہے…

OpenAI میں، ہم AI سسٹمز کو زیادہ مفید اور قابل اعتماد بنانے کے لیے جانفشانی سے مصروف عمل ہیں۔ اگرچہ لینگویج ماڈلز زیادہ قابل ہو رہے ہیں، ایک چیلنج جو مکمل طور پر حل کرنا بدستور ضدی طور پر مشکل ہے: ہیلوسینیشنز یا گمراہی۔ اس سے ہماری مراد وہ مثالیں ہیں جہاں ایک ماڈل اعتماد کے ساتھ ایسا جواب پیش کرتا ہے جو سچ یا درست نہیں ہوتا۔ ہمارا نیا تحقیقی مقالہ⁠(نئی ونڈو میں کھلتا ہے) یہ دلیل دیتا ہے کہ لینگویج ماڈل گمراہی کا شکار ہوتے ہیں کیونکہ معیاری تربیت اور تشخیصی طریقہ کار غیر یقینی صورتحال کو تسلیم کرنے کے بجائے اندازہ لگانے کو صلہ سمجھتے ہیں۔

ChatGPT بھی ہیلوسینیٹ یا یا گمراہ کرتا ہے۔ GPT‑5 میں نمایاں طور پر چند ایک ہی ہیلوسینیشنز نظر آتی ہیں خاص طور پر جب استدلال کرتے ہیں⁠، لیکن ایسا بدستور واقع ہوتا ہے۔ ہیلوسینیشنز یا گمراہی اب بھی تمام بڑے لینگویج ماڈلز کے لیے ایک بنیادی چیلنج ہیں، لیکن ہم انہیں مزید کم کرنے کے لیے سخت محنت کر رہے ہیں۔

ہیلوسینیشنز یا گمراہی کیا ہے؟

ہیلوسینیشنز لینگویج ماڈلز سے پیدا کیے گئے ممکنہ لیکن غلط بیانات ہیں۔ وہ حیران کن طریقوں سے ظاہر ہو سکتے ہیں، یہاں تک کہ بظاہر سیدھے سادے سوالات کے جواب میں بھی۔ مثال کے طور پر، جب ہم نے ایڈم تومن کلائی (اس مقالے کے ایک مصنف) کے پی ایچ ڈی مقالے کے عنوان کے لیے ایک وسیع پیمانے پر استعمال ہونے والے چیٹ بوٹ سے پوچھا، تو اس نے اعتماد کے ساتھ تین مختلف جوابات دیئے—ان میں سے کوئی بھی درست نہیں تھا۔ جب ہم نے اس کی سالگرہ پوچھی، تو اس نے تین مختلف تاریخیں دیں، اور وہ سب غلط تھیں۔

ٹیسٹ کے لیے تعلیم دینا

ہیلوسینیشن جزوی طور پر برقرار رہتے ہیں کیونکہ موجودہ تشخیصی طریقے غلط ترغیبات مقرر کرتے ہیں۔ اگرچہ تشخیص خود براہ راست ہیلوسینیشن کا باعث نہیں بنتی ہے، زیادہ تر تشخیص ماڈل کی کارکردگی کو اس انداز سے ماپتے ہیں جو غیر یقینی صورتحال کے بارے میں ایمانداری کے بجائے اندازہ لگانے کی حوصلہ افزائی کرتا ہے۔

اس کے بارے میں کثیر الانتخابی ٹیسٹ کی طرح سوچیں۔ اگر آپ جواب نہیں جانتے لیکن ایک اندازہ لگاتے ہیں، تو آپ خوش قسمت ہو سکتے اور صحیح ہو سکتے ہیں۔ اسے خالی چھوڑ دینا صفر کی ضمانت ہے۔ اسی طرح سے، جب ماڈلز کو صرف درستگی پر درجہ دیا جاتا ہے، یعنی وہ کتنے سوالات بالکل صحیح کرتے ہیں، تو انہیں "مجھے نہیں معلوم" کہنے کے بجائے اندازہ لگانے کی ترغیب دی جاتی ہے۔

ایک اور مثال کے طور پر، فرض کریں کہ کسی لینگویج ماڈل سے کسی کی سالگرہ پوچھی جائے لیکن وہ نہیں جانتا ہے۔ اگر یہ "10 ستمبر" کا اندازہ لگاتا ہے، تو اس کے صحیح ہونے کا 365 میں سے 1 امکان ہے۔ یہ کہنا کہ "مجھے نہیں معلوم" آپ کو صفر پوائنٹس کی ضمانت دیتا ہے۔ ہزاروں ٹیسٹ سوالات کے دوران، اندازہ لگانے والا ماڈل اسکور بورڈز پر ایک محتاط ماڈل کے مقابلے میں بہتر دکھائی دیتا ہے جو غیر یقینی صورتحال کو تسلیم کرتا ہے۔

ایسے سوالات کے لیے جہاں ایک ہی "درست جواب" ہو، تین اقسام کے جوابات پر غور کیا جا سکتا ہے: درست جوابات، غلطیاں، اور گریز کرنا جہاں ماڈل اندازہ لگانے کا خطرہ مول نہیں لیتا۔ گریز کرنا عاجزی کا حصہ ہے، جو OpenAI⁠ کی بنیادی اقدار میں سے ایک ہے۔ زیادہ تر اسکور بورڈ درستگی کی بنیاد پر ماڈلز کو ترجیح اور درجہ دیتے ہیں، لیکن غلطیاں گریز سے بھی زیادہ بدتر ہوتی ہیں۔ ہمارا ماڈل سپیک⁠(نئی ونڈو میں کھلتا ہے) بیان کرتا ہے کہ غیر یقینی کی نشاندہی کرنا یا وضاحت طلب کرنا بہتر ہے بجائے اس کے کہ پراعتماد معلومات فراہم کی جائیں جو غلط ہو سکتی ہیں۔

ایک ٹھوس مثال کے طور پر، SimpleQA eval کو GPT5 سسٹم کارڈ⁠(نئی ونڈو میں کھلتا ہے) سے ایک مثال کے طور پر تصور کریں۔

میٹرک	gpt-5-thinking-mini	OpenAI o4-mini
غیر حاضری کی شرح (کوئی خاص جواب نہیں دیا گیا)	52%	1%
درستگی کی شرح (صحیح جواب، زیادہ بہتر ہونا بہتر ہے)	22%	24%
غلطی کی شرح (غلط جواب، کم ہونا بہتر ہے)	26%	75%
کل	100%	100%

درستگی کے لحاظ سے، پرانا OpenAI o4-mini ماڈل قدرے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ تاہم، اس کی غلطی کی شرح (یعنی ہیلوسینیشن کی شرح) نمایاں طور پر زیادہ ہے۔ جب غیر یقینی ہوں تو حکمت عملی سے اندازہ لگانے کی درستگی کو بہتر بناتا ہے لیکن غلطیوں اور ہیلوسینیشنز کو بڑھاتا ہے۔

جب درجنوں جائزوں کے نتائج کی اوسط نکالی جاتی ہے، تو زیادہ تر بینچ مارک درستگی کے میٹرک کو منتخب کرتے ہیں، لیکن یہ صحیح اور غلط کے درمیان ایک غلط تقسیم پیدا کرتا ہے۔ سادہ ترین تشخیصات جیسا کہ SimpleQA پر، کچھ ماڈلز تقریباً 100% درستگی حاصل کرتے ہیں اور اس طرح خیالی تصورات کو ختم کرتے ہیں۔ تاہم، زیادہ مشکل تشخیصات اور حقیقی استعمال میں، درستگی 100% سے کم ہے کیونکہ کچھ ایسے سوالات ہیں جن کے جوابات کا تعین مختلف وجوہات کی بناء پر نہیں کیا جا سکتا جیسا کہ غیر دستیاب معلومات، چھوٹے ماڈلز کی سوچنے کی محدود صلاحیتیں، یا ابہام جن کو واضح کرنے کی ضرورت ہے۔

تاہم، صرف درستگی کے اسکور بورڈز لیڈر بورڈز اور ماڈل کارڈز پر غالب ہیں، جو ڈویلپرز کو ایسے ماڈلز بنانے کی حوصلہ افزائی کرتے ہیں جو پیچھے ہٹنے کے بجائے اندازہ لگاتے ہیں۔ یہی ایک وجہ ہے کہ، اگرچہ ماڈلز زیادہ ترقی یافتہ ہو رہے ہیں، وہ اب بھی ہیلوسینیشنز کا شکار ہو سکتے ہیں اور غیر یقینی صورتحال کو تسلیم کرنے کے بجائے اعتماد کے ساتھ غلط جوابات دے سکتے ہیں۔

تشخیصات کی درجہ بندی کرنے کا بہتر طریقہ

ایک سیدھا سادہ حل موجود ہے۔ غیر یقینی صورتحال پر سزا دینے سے زیادہ، پر اعتماد غلطیوں پر جرمانہ کریں، اور غیر یقینی صورتحال کے مناسب اظہار کے لیے جزوی کریڈٹ دیں۔ یہ خیال نیا نہیں ہے۔ کچھ معیاری ٹیسٹس نے طویل عرصے سے غلط جوابات کے لئے منفی نشان زد کی ورژنز یا سوالات کو خالی چھوڑنے پر جزوی کریڈٹ کا استعمال کیا ہے تاکہ بے تکے اندازے لگانے کی حوصلہ شکنی کی جا سکے۔ متعدد تحقیقی گروپوں نے ایسے جائزے بھی دریافت کیے ہیں جو غیر یقینی صورتحال اور اکاوٴنٹ اور کیلیبریشن کو شامل کرتے ہیں۔

ہمارا نقطہ نظر مختلف ہے۔ اس سلسلے میں کچھ نئے غیر یقینی صورتحال سے آگاہی کے ٹیسٹ شامل کرنا کافی نہیں ہے۔ وسیع پیمانے پر استعمال ہونے والی، درستگی پر مبنی تشخیصات کو اپ ڈیٹ کرنے کی ضرورت ہے تاکہ ان کی اسکورنگ، اندازہ لگانے کی حوصلہ شکنی کرے۔ اگر مرکزی اسکور بورڈز خوش قسمت اندازوں کو صلہ دیتے رہیں گے، تو ماڈلز اندازہ لگانا سیکھتے رہیں گے۔ اسکور بورڈز کی مرمت سے ہیلوسینیشن میں کمی کی تکنیکوں کو اپنانے میں وسعت آ سکتی ہے، چاہے وہ نئی تیار کردہ ہوں یا پہلے کی تحقیق سے ماخوذ ہوں۔

اگلے لفظ کی پیش گوئی سے ہیلوسینیشنز کیسے پیدا ہوتے ہیں

ہم نے اس بارے میں بات کی ہے کہ ہیلوسینیشنوں سے چھٹکارا حاصل کرنا اتنا مشکل کیوں ہے، لیکن یہ انتہائی مخصوص حقائق پر مبنی غلطیاں سب سے پہلے کہاں سے آتی ہیں؟ آخرکار، بڑے پہلے سے تربیت یافتہ ماڈلز شاذ و نادر ہی دیگر قسم کی غلطیوں کا مظاہرہ کرتے ہیں جیسا کہ ہجے کی غلطیاں اور غیر مماثل قوسین۔ فرق اس بات سے متعلق ہے کہ ڈیٹا میں کس قسم کے ماڈلز موجود ہیں۔

لینگویج ماڈل پہلے پری ٹریننگ کے ذریعے سیکھتے ہیں، جو کہ متن کی بھاری مقدار میں اگلے لفظ کی پیش گوئی کرنے کا عمل ہے۔ روایتی مشین لرننگ کے مسائل کے برعکس، ہر بیان کے ساتھ کوئی "سچ/غلط" لیبل منسلک نہیں ہوتا۔ ماڈل صرف روانی زبان کی مثبت مثالیں دیکھتا ہے اور اسے مجموعی تقسیم کا تخمینہ لگانا چاہیے۔

درست بیانات کو غلط بیانات سے الگ کرنا دگنا مشکل ہے جب آپ کے پاس کوئی مثال غلط کے طور پر لیبل شدہ نہ ہو۔ لیکن لیبلز کے باوجود، کچھ غلطیاں ناگزیر ہیں۔ یہ سمجھنے کے لیے کہ کیوں، ایک سادہ تشبیہ پر غور کریں۔ تصویری شناخت میں، اگر لاکھوں بلی اور کتے کی تصاویر کو "بلی" یا "کتا" کے طور پر لیبل کیا جائے، تو الگورتھم ان کی قابل اعتماد درجہ بندی سیکھ سکتے ہیں۔ لیکن تصور کریں کہ ہر پالتو جانور کی تصویر کو اس کی سالگرہ کے مطابق لیبل کریں۔ چونکہ سالگرہ بنیادی طور پر بے ترتیب ہوتی ہیں، اس لیے یہ ٹاسک ہمیشہ غلطیاں پیدا کرے گا، چاہے الگورتھم کتنا ہی ترقی یافتہ کیوں نہ ہو۔

یہی اصول پری ٹریننگ میں بھی لاگو ہوتا ہے۔ ہجے اور قوسین مستقل ماڈلز کو فالو کرتے ہیں، اس لیے وہاں کی غلطیاں پیمانے کے ساتھ ختم ہو جاتی ہیں۔ لیکن صوابدیدی کم تعدد والے حقائق، جیسے پالتو جانور کی سالگرہ، صرف ماڈلز سے پیش گوئی نہیں کی جا سکتی اور اس وجہ سے ہیلوسینیشنز کا باعث بنتے ہیں۔ ہمارا تجزیہ وضاحت کرتا ہے کہ اگلے لفظ کی پیشین گوئی سے کس قسم کے ہیلوسینیشنز پیدا ہونے چاہئیں۔ مثالی طور پر، پری ٹریننگ کے بعد کے مزید مراحل میں انہیں ہٹانا چاہیے، لیکن پچھلے حصے میں بیان کردہ وجوہ کی بنا پر یہ مکمل طور پر کامیاب نہیں ہوتا۔

نتائج

ہم امید کرتے ہیں کہ ہمارے مقالے میں شماریاتی زاویہ ہیلوسینیشنز کی نوعیت کو واضح کرے گا اور عام غلط فہمیوں کو دور کرے گا:

دعوٰی: ہیلوسینیشن کو درستگی کو بہتر بنا کر ختم کیا جا سکتا ہے کیونکہ 100% درست ماڈل کبھی ہیلوسینیشن نہیں دیتا۔
نتیجہ: درستگی کبھی بھی 100% تک نہیں پہنچ سکتی کیونکہ ماڈل کے سائز، تلاش اور استدلال کی صلاحیتوں سے قطع نظر، کچھ حقیقی دنیا کے سوالات فطری طور پر ناقابل جواب ہوتے ہیں۔
دعوٰی: ہیلوسینیشنز ناگزیر ہیں۔
نتیجہ: ایسا نہیں ہے، کیونکہ لینگویج ماڈل غیر یقینی حالت میں گریز کر سکتے ہیں۔
دعوٰی: ہیلوسینیشنز سے بچنے کے لیے ایسی ذہانت درکار ہوتی ہے جو صرف بڑے ماڈلز کے ذریعے حاصل کی جا سکتی ہے۔
نتیجہ: چھوٹے ماڈلز کے لیے اپنی حدود جاننا آسان ہو سکتا ہے۔ مثال کے طور پر، جب آپ سے ماوری زبان سوال کا جواب دینے کے لیے کہا جاتا ہے، تو ایک چھوٹا ماڈل جو ماوری زبان نہیں جانتا، صرف یہ کہہ سکتا ہے کہ "میں نہیں جانتا" جبکہ ایک ماڈل جو کچھ ماوری جانتا ہے، اسے اپنے اعتماد کا تعین کرنا ہوگا۔ جیسا کہ مقالے میں زیر بحث آیا، 'کیلیبریٹڈ' ہونے کے لیے درست ہونے کے مقابلے میں بہت کم حساب کتاب کی ضرورت ہوتی ہے۔
دعوٰی: ہیلوسینیشنز جدید لینگویج ماڈلز میں ایک پراسرار خرابی ہیں۔
نتیجہ: ہم ان شماریاتی طریقہ کار کو سمجھتے ہیں جن کے ذریعے ہیلوسینیشنز پیدا ہوتے ہیں اور انہیں جائزوں میں انعام دیا جاتا ہے۔
دعوٰی: ہیلوسینیشنز کی پیمائش کے لیے، ہمیں صرف ایک اچھی ہیلوسینیشن تشخیص کی ضرورت ہے۔
نتیجہ: ہیلوسینیشن کی تشخیصات شائع ہو چکی ہیں۔ تاہم، ایک اچھی ہیلوسینیشن تشخیص کا سینکڑوں روایتی درستگی پر مبنی تشخیصات کے خلاف بہت کم اثر ہوتا ہے جو عاجزی پر سزا دیتے ہیں اور اندازے لگانے پر صلہ دیتے ہیں۔ اس کے بجائے، تمام بنیادی تشخیصات میٹرکس کو غیر یقینی صورتحال کے اظہار پر صلہ دینے کے لیے دوبارہ ترتیب دینے کی ضرورت ہے۔

ہمارے تازہ ترین ماڈلز میں ہیلوسینیشن کی شرح کم ہے، اور ہم اپنے لینگویج ماڈل کے ذریعہ آؤٹ پٹ کی جانے والی اعتماد کی غلطیوں کی شرح کو مزید کم کرنے کے لیے سخت محنت جاری رکھتے ہیں۔

اعلان کے شراکت دار

Adam Kalai، Santosh Vempala (Georgia Tech)، Ofir Nachum، Eddie Zhang، David Robinson، Saachi Jain، Eric Mitchell، Alex Beutel، Johannes Heidecke

پڑھتے رہیں

سب دیکھیں

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

اشاعت۱ اگست، ۲۰۲۶

دو سیٹنگز فعال کرنے سے ARC-AGI-3 بینچ مارک پر ہمارے اسکور تین گنا کیسے ہوئے

تحقیق۲۹ جولائی، ۲۰۲۶

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

کمپنی۲۹ جولائی، ۲۰۲۶