মূল কনটেন্টে যান
OpenAI

২০ ফেব্রুয়ারি, ২০২৬

গবেষণাউপসংহার

আমাদের First Proof জমা

আমরা First Proof-এর জন্য আমাদের প্রমাণের প্রচেষ্টাগুলো শেয়ার করছি; এটি একটি গাণিতিক চ্যালেঞ্জ যা যাচাই করে যে, AI নির্দিষ্ট বিষয়ের সমস্যার উপর যাচাইযোগ্য প্রমাণ তৈরি করতে পারে কি না.

লোডিং…

আমরা 10-টি First Proof(একটি নতুন উইন্ডোতে খোলে) সমস্যার উপর একটি অভ্যন্তরীণ মডেল চালিয়েছি, যা একটি গবেষণা-স্তরের গণিত চ্যালেঞ্জ হিসেবে ডিজাইন করা হয়েছে, যাতে পরীক্ষা করা যায় AI সিস্টেমগুলো সঠিক এবং যাচাইযোগ্য প্রমাণের প্রচেষ্টা তৈরি করতে পারে কিনা. সংক্ষিপ্ত উত্তর বা প্রতিযোগিতামূলক গণিতের মতো না হয়ে, এই সমস্যাগুলোর জন্য বিশেষায়িত ক্ষেত্রগুলোতে শুরু থেকে শেষ পর্যন্ত যুক্তি বা প্রমাণ তৈরির প্রয়োজন হয়; আর বিশেষজ্ঞের পর্যালোচনা ছাড়া এগুলোর নির্ভুলতা নিশ্চিত করা বেশ কঠিন. First Proof সমস্যাগুলোর লেখকরা তাদের নিজ নিজ ক্ষেত্রে শীর্ষস্থানীয় বিশেষজ্ঞ এবং অন্তত কয়েকটি সমস্যা লেখকরা সমাধান খুঁজে পাওয়ার আগে বছরের পর বছর খোলা ছিল. একটি একাডেমিক বিভাগ যার বিষয়গুলোর সঙ্গে উল্লেখযোগ্য ওভারল্যাপ রয়েছে, তা এক সপ্তাহের মধ্যে অনেক সমস্যার সমাধান করতে সক্ষম হতে পারে.

আমরা আমাদের প্রমাণের প্রচেষ্টা শনিবার, 14 ফেব্রুয়ারি, 2026 তারিখে 12:00 AM প্যাসিফিক সময়ে শেয়ার করেছি(একটি নতুন উইন্ডোতে খোলে). বিশেষজ্ঞদের প্রতিক্রিয়ার ভিত্তিতে, আমরা বিশ্বাস করি মডেলের অন্তত পাঁচটি প্রমাণ প্রচেষ্টা (সমস্যা চার, পাঁচ, ছয়, নয় এবং দশ) সঠিক হওয়ার উচ্চ সম্ভাবনা রয়েছে এবং আরও কয়েকটি এখনও পর্যালোচনাধীন রয়েছে. আমরা প্রথমে বিশ্বাস করেছিলাম যে সমস্যা দুই-এর জন্য আমাদের প্রচেষ্টা সম্ভবত সঠিক ছিল. আনুষ্ঠানিক First Proof মন্তব্য এবং কমিউনিটির আরও বিশ্লেষণের ভিত্তিতে, আমরা এখন বিশ্বাস করি এটি ভুল. আমরা এই সম্পৃক্ততার জন্য কৃতজ্ঞ এবং পর্যালোচনা অব্যাহত রাখার অপেক্ষায় আছি. আমাদের প্রমাণ প্রচেষ্টার সম্পূর্ণ সেট এখানে(একটি নতুন উইন্ডোতে খোলে) পাওয়া যাবে. প্রি-প্রিন্টটিতে প্রমাণের দশটি প্রচেষ্টাই অন্তর্ভুক্ত করা হয়েছে, সেই সাথে নতুন একটি পরিশিষ্ট যোগ করা হয়েছে যেখানে প্রম্পট প্যাটার্ন এবং উদাহরণ দেওয়া আছে; এগুলোর লক্ষ্য হলো এই প্রক্রিয়া চলাকালীন মডেলগুলোর সাথে আমাদের ম্যানুয়াল মিথস্ক্রিয়া বা ইন্টারঅ্যাকশনগুলো কেমন ছিল তা তুলে ধরা.

আমরা বিশ্বাস করি যে পরবর্তী প্রজন্মের AI মডেলগুলির সক্ষমতা মূল্যায়নের জন্য নতুন অত্যাধুনিক গবেষণা সম্ভবত সবচেয়ে গুরুত্বপূর্ণ উপায়. বেঞ্চমার্কগুলো উপকারী, কিন্তু এগুলো গবেষণার কিছু সবচেয়ে কঠিন অংশ মিস করতে পারে: যুক্তির দীর্ঘ শৃঙ্খল বজায় রাখা, সঠিক বিমূর্ততা নির্বাচন, সমস্যা বিবৃতিতে অস্পষ্টতা মোকাবিলা করা এবং বিশেষজ্ঞদের কঠোর পর্যালোচনার মধ্য দিয়ে টিকে থাকা যুক্তি তৈরি করা. First Proof-এর মতো অত্যাধুনিক চ্যালেঞ্জগুলি আমাদের সেই সক্ষমতাগুলিকে স্ট্রেস-টেস্ট করতে সাহায্য করে এমন পরিবেশে, যেখানে নির্ভূলতা যাচাই করা সহজ নয় এবং ব্যর্থতার ধরনগুলো তথ্যবহুল.

“আমরা বর্তমানে একটি নতুন মডেল প্রশিক্ষণ দিচ্ছি, যার প্রধান লক্ষ্য হলো এর চিন্তাভাবনায় কঠোরতার মাত্রা বাড়ানো, যাতে মডেলটি বহু ঘণ্টা ধরে ধারাবাহিকভাবে চিন্তা করতে পারে এবং তার সিদ্ধান্তে অত্যন্ত আত্মবিশ্বাসী থাকতে পারে. যখন First Proof সমস্যাগুলি ঘোষণা করা হয়েছিল, তখন এটি নিখুঁত পরীক্ষার ক্ষেত্র বলে মনে হয়েছিল, তাই আমি সপ্তাহান্তে এটি পরীক্ষা করে দেখেছি. ইতিমধ্যেই এটি দুটি সমস্যার সমাধান করতে পেরেছিল (#9 এবং #10). এটি প্রশিক্ষণের সাথে সাথে ক্রমশ আরও সক্ষম হয়ে উঠল এবং শেষ পর্যন্ত—আমাদের অনুমান অনুযায়ী—অন্তত আরও তিনটি সমস্যার সমাধান করল. আমরা বিশেষভাবে আনন্দিত হয়েছিলাম যখন এটি #6 সমাধান করেছিল এবং তারপর দুই দিন পরে #4, কারণ এই সমস্যাগুলো এমন ক্ষেত্র থেকে এসেছিল যা আমাদের অনেকের পরিচিত. প্রতিদিন একটি মডেলকে দৃশ্যমানভাবে আরও স্মার্ট হতে দেখা সত্যিই অবিশ্বাস্য.”

– জেমস আর. লি (OpenAI গবেষক, রিজনিং)

আমরা সীমিত মানব তত্ত্বাবধানে মডেলটি পরিচালনা করেছি. প্রশিক্ষণের সময় মডেলের বিভিন্ন সংস্করণকে প্রম্পট করার সময়, আমরা মাঝে মাঝে এমন পুনরায় চেষ্টা করার কৌশল প্রস্তাব করতাম যা আগের প্রচেষ্টায় সফল বলে প্রমাণিত হয়েছিল. কিছু প্রচেষ্টায়, বিশেষজ্ঞদের মতামত পাওয়ার পর আমরা মডেলকে প্রমাণের কিছু অংশ বিস্তৃত বা স্পষ্ট করতে বলেছি, যাতে যুক্তি যাচাই করা সহজ হয়. আমরা যাচাই, ফরম্যাটিং এবং স্টাইলের জন্য এই মডেল এবং ChatGPT‑এর মধ্যে একটি সামনে-পেছনের কথোপকথনও সহজতর করেছি. কিছু সমস্যার জন্য, আমরা কয়েকটি প্রচেষ্টার মধ্যে সেরা উপস্থাপন করি, যা মানুষের বিচার দ্বারা নির্বাচিত. এটি ছিল একটি দ্রুত স্প্রিন্ট এবং সঠিকভাবে নিয়ন্ত্রিত মূল্যায়নে আমরা যেমনটা চাইতাম, আমাদের প্রক্রিয়াটি ততটা পরিপাটি ছিল না. আমরা ভবিষ্যতের পুনরাবৃত্তির জন্য আরও কঠোর পরীক্ষা এবং মূল্যায়ন কাঠামো নিয়ে First Proof আয়োজকদের সাথে আলোচনা করতে উন্মুখ.

এই কাজটি গণিত ও বিজ্ঞানে অত্যাধুনিক রিজনিং মডেলগুলির পূর্ববর্তী ফলাফলের উপর ভিত্তি করে তৈরি. জুলাই 2025 সালে, আমরা একটি সাধারণ উদ্দেশ্যযুক্ত যুক্তি মডেল (35/42 পয়েন্ট) দিয়ে আন্তর্জাতিক গণিত অলিম্পিয়াডে স্বর্ণপদক স্তরের পারফরম্যান্স(একটি নতুন উইন্ডোতে খোলে) অর্জন করেছি. 2025 সালের নভেম্বর মাসে, আমরা “GPT‑5 দিয়ে বিজ্ঞানকে ত্বরান্বিত করার প্রাথমিক পরীক্ষা-নিরীক্ষা” শেয়ার করেছিলাম, যা এক সেট কেস স্টাডি যেখানে GPT‑5 গবেষকদের গণিত, পদার্থবিদ্যা, জীববিজ্ঞান এবং অন্যান্য ক্ষেত্রে বাস্তব অগ্রগতি করতে সহায়তা করেছিল, পাশাপাশি আমরা যে সীমাবদ্ধতাগুলি পর্যবেক্ষণ করেছিলাম সেগুলিও তুলে ধরা হয়েছিল. আর সর্বশেষে, আমরা একটি পদার্থবিজ্ঞানের সহযোগিতা রিপোর্ট করেছি, যেখানে GPT‑5.2 একটি গ্লুয়ন-অ্যামপ্লিটিউড সূত্রের জন্য একটি প্রার্থী অভিব্যক্তি প্রস্তাব করেছিল, যা পরে একটি অভ্যন্তরীণ মডেল দ্বারা আনুষ্ঠানিকভাবে প্রমাণিত হয় এবং লেখকদের দ্বারা যাচাই করা হয়.

আমরা গবেষণা-মানের রিজনিং মূল্যায়নের জন্য কমিউনিটির সাথে আরও গভীরভাবে যুক্ত হতে আগ্রহী, যার মধ্যে বিশেষজ্ঞদের প্রতিক্রিয়া অন্তর্ভুক্ত থাকবে এবং আমরা ভবিষ্যতের সর্বজনীন মডেলগুলিতে এই নতুন সক্ষমতাগুলি উপলব্ধ করতে উচ্ছ্বসিত.

লেখক

OpenAI