মূল কনটেন্টে যান
OpenAI

৫ সেপ্টেম্বর, ২০২৫

গবেষণাপাবলিকেশন

ভাষার মডেলগুলো কেন ভুল তথ্য তৈরি করে

একটি অ্যাবস্ট্র্যাক্ট ইমেজ, যেখানে টিল, নীল এবং ল্যাভেন্ডার রঙের গ্রেডিয়েন্ট তির্যকভাবে ফ্রেম জুড়ে ছড়িয়ে নরম, প্রবাহমান রেখার মতো মিশে গেছে.
লোডিং…

OpenAI-এ, আমরা AI সিস্টেমগুলোকে আরও কার্যকর এবং নির্ভরযোগ্য করার জন্য কঠোর পরিশ্রম করছি. ভাষার মডেল যতই বেশি সক্ষম হয়ে উঠুক না কেন, একটি চ্যালেঞ্জ এখনো সম্পূর্ণভাবে সমাধান করা অত্যন্ত কঠিন রয়ে গেছে হ্যালুসিনেশন. এর মানে হলো এমন পরিস্থিতি যেখানে একটি মডেল আত্মবিশ্বাসের সাথে ভুল উত্তর তৈরি করে. আমাদের নতুন গবেষণাপত্রে(একটি নতুন উইন্ডোতে খোলে) যুক্তি দেওয়া হয়েছে যে ভাষার মডেলগুলি হ্যালুসিনেট করে কারণ স্ট্যান্ডার্ড প্রশিক্ষণ এবং মূল্যায়ন পদ্ধতিগুলি অনিশ্চয়তা স্বীকার করার চেয়ে অনুমানকে বেশি গুরুত্ব দেয়.

ChatGPT‑ও হ্যালুসিনেশন তৈরি করে. GPT‑5‑এর উল্লেখযোগ্যভাবে কম হ্যালুসিনেশন ঘটে, বিশেষত যুক্তিপ্রয়োগের সময়, তবে সেগুলি এখনও ঘটে. হ্যালুসিনেশন সব বড় ভাষার মডেলের জন্যই একটি মৌলিক চ্যালেঞ্জ, তবে এগুলো কমাতে আমরা কঠোর পরিশ্রম করছি.

হ্যালুসিনেশন কী?

হ্যালুসিনেশন হলো এমন বক্তব্য যা বিশ্বাসযোগ্য শোনায় কিন্তু ভাষার মডেল দ্বারা তৈরি ভুল তথ্য. এগুলো অপ্রত্যাশিতভাবে দেখা দিতে পারে, এমনকি একেবারে সহজ প্রশ্নের ক্ষেত্রেও. উদাহরণস্বরূপ, আমরা যখন জনপ্রিয় এক চ্যাটবটকে Adam Tauman Kalai (এই প্রবন্ধের একজন লেখক)-এর PhD dissertation-এর শিরোনাম জিজ্ঞাসা করি, তখন এটি আত্মবিশ্বাসের সাথে তিনটি ভিন্ন উত্তর দেয়—যার কোনোটিই সঠিক ছিল না. যখন আমরা তার জন্মদিন জিজ্ঞাসা করেছিলাম, এটি তিনটি ভিন্ন তারিখ দিয়েছিল এবং সবগুলোই ভুল ছিল. 

পরীক্ষার জন্য শেখানো

হ্যালুসিনেশন আংশিকভাবে থেকে যায় কারণ বর্তমান মূল্যায়ন পদ্ধতিগুলো ভুল প্রণোদনা তৈরি করে. যদিও মূল্যায়ন সরাসরি হ্যালুসিনেশন সৃষ্টি করে না, তবুও বেশিরভাগ মূল্যায়ন এমনভাবে মডেলের কার্যক্ষমতা মাপে যা অনিশ্চয়তা স্বীকারকে নয় বরং অনুমান করাকে উৎসাহিত করে.

এটি একটি মাল্টিপল-চয়েস পরীক্ষার মতো ভাবুন. আপনি যদি উত্তর না জানেন কিন্তু আন্দাজে কিছু বলেন, ভাগ্য ভালো হলে সেটা সঠিক হতে পারে. ফাঁকা রাখলে অবশ্যই শূন্য পাওয়া যাবে. একইভাবে, যখন মডেলগুলোকে শুধু নির্ভুলতার ভিত্তিতে গ্রেড করা হয়—মানে কত শতাংশ প্রশ্ন তারা একেবারে ঠিকভাবে উত্তর দিতে পেরেছে—তখন তারা “আমি জানি না” বলার বদলে অনুমান করতে উৎসাহিত হয়.

আরেকটি উদাহরণ ধরা যাক—একটি ভাষার মডেলকে যদি কারো জন্মদিন জিজ্ঞাসা করা হয় কিন্তু সে না জানে. যদি এটি “10 সেপ্টেম্বর” বলে অনুমান করে, তবে 365 দিনের মধ্যে একবার সঠিক হওয়ার সম্ভাবনা থাকে. “আমি জানি না” বললে নিশ্চিতভাবেই শূন্য নম্বর পাওয়া যায়. হাজারো পরীক্ষার প্রশ্নে অনুমানভিত্তিক মডেলটি স্কোরবোর্ডে এমন মডেলের চেয়ে ভালো দেখায়, যে সতর্কভাবে নিজের অনিশ্চয়তা স্বীকার করে.

যেসব প্রশ্নে একটি একক “সঠিক উত্তর” থাকে, সেখানে তিন ধরনের উত্তর বিবেচনা করা যায়: সঠিক উত্তর, ভুল এবং এমন উত্তর যা মডেল অনুমান করে না. বিরত থাকা নম্রতার একটি অংশ, যা OpenAI-এর অন্যতম মূল মূল্যবোধ. বেশিরভাগ স্কোরবোর্ড নির্ভুলতার ভিত্তিতেই মডেলকে অগ্রাধিকার দেয় ও র‍্যাংক করে, কিন্তু ভুল উত্তর দেওয়া উত্তর না দেওয়ার চেয়ে খারাপ. আমাদের মডেল Spec(একটি নতুন উইন্ডোতে খোলে) বিবৃত করে ভুল হতে পারে এমন আত্মবিশ্বাসী তথ্য দেওয়ার চেয়ে অনিশ্চয়তা নির্দেশ করা বা স্পষ্টকরণের জন্য জিজ্ঞাসা করা ভালো. 

একটি বাস্তব উদাহরণের জন্য, GPT5 সিস্টেম কার্ড থেকে একটি উদাহরণ হিসাবে SimpleQA মূল্যায়নকে(একটি নতুন উইন্ডোতে খোলে) বিবেচনা করুন.

মেট্রিক

gpt-5-thinking-mini

OpenAI o4-মিনি

বিরত থাকার হার
(কোনো নির্দিষ্ট উত্তর দেওয়া হয়নি) 

52%

1%

নির্ভুলতার হার
(সঠিক উত্তর, উচ্চতর ভালো)

22%

24%

ত্রুটির হার
(ভুল উত্তর, কম মান ভালো)

26%

75%

মোট

100%

100%

নির্ভুলতার বিচারে, পুরনো OpenAI o4-mini মডেল সামান্য ভালো করে. তবে এর ভুলের হার (অর্থাৎ হ্যালুসিনেশনের হার) উল্লেখযোগ্যভাবে বেশি. অনিশ্চিত অবস্থায় কৌশলগতভাবে অনুমান করলে নির্ভুলতা কিছুটা বাড়ে, কিন্তু ভুল ও ভ্রান্তি আরও বেড়ে যায়. 

যখন বহু মূল্যায়নের ফল গড় করা হয়, বেশিরভাগ বেঞ্চমার্ক শুধুমাত্র নির্ভুলতার মাপকেই গুরুত্ব দেয়—কিন্তু এতে সঠিক আর ভুলের মধ্যে ভুয়া দ্বৈততা তৈরি হয়. SimpleQA-এর মতো সহজ মূল্যায়নে কিছু মডেল প্রায় 100% নির্ভুলতা অর্জন করে এবং এর ফলে হ্যালুসিনেশন দূর হয়. তবে, আরও চ্যালেঞ্জিং মূল্যায়ন এবং বাস্তব ব্যবহারে, নির্ভুলতা 100%-এর নিচে সীমাবদ্ধ থাকে কারণ কিছু প্রশ্নের উত্তর বিভিন্ন কারণে নির্ধারণ করা যায় না, যেমন তথ্যের অনুপস্থিতি, ছোট মডেলের সীমিত চিন্তাশক্তি অথবা এমন অস্পষ্টতা যা স্পষ্ট করা প্রয়োজন.

তবুও শুধুমাত্র নির্ভুলতা-ভিত্তিক স্কোরবোর্ডগুলো লিডারবোর্ড ও মডেল কার্ডে প্রাধান্য পায়, যা ডেভেলপারদের এমন মডেল বানাতে উৎসাহিত করে যারা অনুমান করে উত্তর দেয়, পিছু হটে না. এটাই এক কারণ যে, মডেল যতই উন্নত হোক না কেন, তারা এখনও হ্যালুসিনেশন তৈরি করতে পারে, অনিশ্চয়তা স্বীকার করার পরিবর্তে আত্মবিশ্বাসের সাথে ভুল উত্তর দেয়.

মূল্যায়ন গ্রেড করার একটি ভালো উপায়

এর একটি সহজ সমাধান আছে. আত্মবিশ্বাসী ভুলের জন্য অনিশ্চয়তার চেয়ে বেশি শাস্তি দিন, আর অনিশ্চয়তা সঠিকভাবে প্রকাশ করলে আংশিক ক্রেডিট দিন. এই ধারণা নতুন নয়. কিছু মানদণ্ডের পরীক্ষায় দীর্ঘদিন ধরে ভুল উত্তরের জন্য নেগেটিভ মার্কিং বা ফাঁকা রাখলে আংশিক ক্রেডিট দেওয়া হয়, যাতে অন্ধ অনুমান নিরুৎসাহিত হয়. বেশ কয়েকটি গবেষণা দলও অনিশ্চয়তা ও ক্যালিব্রেশন বিবেচনায় নেওয়া ইভ্যাল নিয়ে কাজ করেছে.

আমাদের বক্তব্য ভিন্ন. শুধুমাত্র কয়েকটি অনিশ্চয়তা-সচেতন টেস্ট যোগ করা যথেষ্ট নয়. বহুল ব্যবহৃত নির্ভুলতা-ভিত্তিক মূল্যায়নগুলো আপডেট করা দরকার যাতে তাদের স্কোরিং অনুমানকে নিরুৎসাহিত করে. যদি মূল স্কোরবোর্ডগুলো ভাগ্যবান অনুমানকেই পুরস্কৃত করে, তবে মডেলগুলো অনুমান করাই শিখতে থাকবে. স্কোরবোর্ড ঠিক করলে ভ্রান্তি-হ্রাসের কৌশলগুলোর ব্যবহার বাড়তে পারে—নতুনভাবে তৈরি এবং আগের গবেষণার দুটোই.

পরবর্তী শব্দ অনুমান থেকে হ্যালুসিনেশন কীভাবে তৈরি হয়

আমরা বলেছি কেন হ্যালুসিনেশন দূর করা এত কঠিন, কিন্তু এ ধরনের অত্যন্ত নির্দিষ্ট ভুল তথ্য প্রথমে কোথা থেকে আসে? আসলে, বড় প্রিট্রেইন্ড মডেলগুলো সচরাচর বানান ভুল বা বন্ধনীর অমিলের মতো অন্য ধরনের ভুল করে না. পার্থক্যটা হলো ডেটায় কী ধরনের প্যাটার্ন আছে.

ভাষার মডেলগুলি প্রথমে প্রাক-প্রশিক্ষণ প্রক্রিয়ার মাধ্যমে শিখে, যা বিপুল পরিমাণ পাঠ্যে পরবর্তী শব্দের পূর্বাভাস দেওয়ার একটি প্রক্রিয়া. প্রচলিত মেশিন লার্নিং সমস্যার মতো প্রতিটি বক্তব্যে “সত্য/মিথ্যা” লেবেল থাকে না. মডেলটি শুধুমাত্র সাবলীল ভাষার ইতিবাচক উদাহরণ দেখে এবং সামগ্রিক বিতরণকে আনুমানিক করতে হবে. 

কোনো বক্তব্যকে অবৈধ হিসেবে লেবেল করা না থাকলে বৈধ আর অবৈধ আলাদা করা দ্বিগুণ কঠিন. তবে লেবেল থাকলেও কিছু ভুল অনিবার্য. কেন তা হয়, তা বোঝার জন্য একটি সহজ উদাহরণ ধরা যাক. ছবি শনাক্তকরণের ক্ষেত্রে, যদি লক্ষ লক্ষ বিড়াল এবং কুকুরের ছবি “বিড়াল” বা “কুকুর” হিসাবে লেবেল করা হয়, তাহলে অ্যালগরিদমগুলি তাদের নির্ভরযোগ্যভাবে শ্রেণীবদ্ধ করতে শিখতে পারে. কিন্তু কল্পনা করুন প্রতিটি পোষা প্রাণীর ছবি তার জন্মদিন দিয়ে লেবেল করা হচ্ছে. জন্মদিন মূলত এলোমেলো হওয়ায় অ্যালগরিদম যতই উন্নত হোক না কেন এই কাজ সবসময় ভুল তৈরি করবে.

একই নীতি প্রিট্রেইনিং-এও প্রযোজ্য. বানান আর বন্ধনী নির্দিষ্ট নিয়ম মেনে চলে, তাই আকার বড় হলে সেখানে ভুল প্রায় নেই হয়ে যায়. কিন্তু যেসব তথ্য এলোমেলো ও অল্প ব্যবহৃত—যেমন একটি পোষা প্রাণীর জন্মদিন—সেগুলো শুধু প্যাটার্ন দিয়ে অনুমান করা যায় না, তাই ভ্রান্তি তৈরি হয়. আমাদের বিশ্লেষণে ব্যাখ্যা করা হয়েছে কোন ধরনের ভ্রান্তি পরবর্তী শব্দ অনুমান থেকে আসতে পারে. আদর্শভাবে, প্রিট্রেইনিং-এর পরের ধাপগুলো এসব দূর করা উচিত, কিন্তু আগের অংশে বর্ণিত কারণগুলোর জন্য এটি পুরোপুরি সফল হয় না. 

উপসংহার

আমরা আশা করি আমাদের প্রবন্ধে ব্যবহৃত পরিসংখ্যানগত দৃষ্টিভঙ্গি হ্যালুসিনেশের প্রকৃতি স্পষ্ট করবে এবং প্রচলিত ভুল ধারণাগুলোকে প্রতিহত করবে:

  • দাবি: নির্ভুলতা উন্নত করে হ্যালুসিনেশন দূর করা হবে কারণ 100% নির্ভুল মডেল কখনও হ্যালুসিনেশন তৈরি করে না.
    উপসংহার:
    নির্ভুলতা কখনই 100%-এ পৌঁছাবে না কারণ, মডেলের আকার, অনুসন্ধান এবং যুক্তি ক্ষমতা নির্বিশেষে, কিছু বাস্তব-বিশ্বের প্রশ্ন সহজাতভাবে উত্তরহীন. 
  • দাবি: হ্যালুসিনেশন অনিবার্য.
    অনুসন্ধান:
    তা নয়, কারণ ভাষার মডেলগুলি অনিশ্চিত হলে বিরত থাকতে পারে.
  • দাবি: হ্যালুসিনেশন এড়াতে এমন একটি বুদ্ধিমত্তার স্তর প্রয়োজন যা শুধুমাত্র বৃহত্তর মডেলগুলির মাধ্যমে অর্জন করা যায়.
    সন্ধান:
    একটি ছোট মডেলের জন্য তার সীমাবদ্ধতা জানা সহজ হতে পারে. উদাহরণস্বরূপ, যখন Māori প্রশ্নের উত্তর দিতে বলা হয়, তখন Māori সম্পর্কে কিছুই না জানা একটি ছোট মডেল সহজেই “আমি জানি না” বলতে পারে, কিন্তু কিছু Māori জানা একটি মডেলকে তার আত্মবিশ্বাস নির্ধারণ করতে হয়. প্রবন্ধে আলোচিত হয়েছে যে “ক্যালিব্রেটেড” হওয়ার জন্য সঠিক হওয়ার তুলনায় অনেক কম গণনা প্রয়োজন.
  • দাবি: হ্যালুসিনেশন আধুনিক ভাষার মডেলগুলিতে একটি রহস্যময় ত্রুটি.
    অনুসন্ধান:
    আমরা সেই পরিসংখ্যানগত প্রক্রিয়াগুলি বুঝতে পারি যার মাধ্যমে হ্যালুসিনেশনগুলি উদ্ভূত হয় এবং মূল্যায়নে পুরস্কৃত হয়.
  • দাবি: হ্যালুসিনেশন পরিমাপ করতে, আমাদের শুধুমাত্র একটি ভালো হ্যালুসিনেশন মূল্যায়নের প্রয়োজন.
    উপসংহার:
    হ্যালুসিনেশন ইভ্যাল প্রকাশিত হয়েছে. তবে একটি ভালো হ্যালুসিনেশন মূল্যায়ন শত শত প্রচলিত নির্ভুলতা-ভিত্তিক ইভ্যালের সামনে খুব কম প্রভাব ফেলে, যেগুলো নম্রতাকে শাস্তি দেয় আর অনুমানকে পুরস্কৃত করে. পরিবর্তে, সব প্রাথমিক মূল্যায়ন মেট্রিকস পুনর্গঠন করা দরকার যাতে অনিশ্চয়তার প্রকাশকে পুরস্কৃত করা হয়.

আমাদের সর্বশেষ মডেলগুলোর হ্যালুসিনেশনের হার কম এবং আমরা আমাদের ভাষার মডেলগুলো থেকে সৃষ্ট আত্মবিশ্বাসী ভুলের হার আরও কমানোর জন্য নিরলসভাবে কাজ চালিয়ে যাচ্ছি.

ঘোষণার অবদানকারীরা

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke