মূল কনটেন্টে যান
OpenAI

আমরা GPT‑4 তৈরি করেছি, যা OpenAI-এর গভীর শিক্ষণের পরিসর বৃদ্ধি প্রচেষ্টার সর্বশেষ মাইলফলক. GPT‑4 একটি বড় মাল্টিমোডাল মডেল (যা ছবি ও টেক্সট ইনপুট গ্রহণ করে এবং টেক্সট আউটপুট দেয়), যা বাস্তব জীবনের অনেক পরিস্থিতিতে মানুষের তুলনায় কম সক্ষম হলেও, বিভিন্ন পেশাগত ও একাডেমিক মানদণ্ডে মানব-স্তরের কর্মদক্ষতা প্রদর্শন করে. উদাহরণস্বরূপ, এটি একটি সিমুলেটেড বার পরীক্ষায় উত্তীর্ণ হয়েছে এবং পরীক্ষার্থীদের শীর্ষ 10% এর কাছাকাছি স্কোর পায়; অন্যদিকে, GPT‑3.5 এর স্কোর ছিল শেষের 10% এর আশেপাশে. আমরা আমাদের প্রতিদ্বন্দ্বীতা পরীক্ষার প্রোগ্রাম এবং ChatGPT থেকে শিক্ষা নিয়ে 6 মাস ধরে পুনরাবৃত্তিমূলকভাবেGPT‑4 -কে সারিবদ্ধ করেছি , যার ফলে বাস্তবতা, নিয়ন্ত্রণযোগ্যতা এবং গার্ডরেলের বাইরে যেতে অস্বীকার করার ক্ষেত্রে আমাদের সেরা ফলাফল (যদিও নিখুঁত থেকে অনেক দূরে) অর্জিত হয়েছে.

গত দুই বছরে আমরা আমাদের সম্পূর্ণ গভীর শিক্ষণ স্ট্যাক পুনর্গঠন করেছি এবং Azure-এর সঙ্গে মিলে আমাদের কাজের চাপ-এর জন্য শুরু থেকে একটি সুপারকম্পিউটার যৌথভাবে ডিজাইন করেছি. এক বছর আগে আমরা সিস্টেমটির প্রথম “পরীক্ষামূলক রান” হিসেবে GPT‑3.5‑কে প্রশিক্ষিত করেছিলাম. আমরা কিছু বাগ খুঁজে বের করেছি ও সমাধান করেছি এবং আমাদের তাত্ত্বিক ভিত্তি উন্নত করেছি. এর ফলে, আমাদের GPT‑4 ট্রেইনিং রান (অন্তত আমাদের জন্য!) অভূতপূর্বভাবে স্থিতিশীল ছিল, এবং এটি আমাদের প্রথম বড় মডেল হয়ে উঠেছে যার প্রশিক্ষণ পারফরম্যান্স আমরা আগেভাগেই সঠিকভাবে অনুমান করতে পেরেছিলাম. আমরা যখন আমাদের নির্ভরযোগ্য পরিসর বৃদ্ধিতে মনোযোগ দিতে থাকায়, আমাদের লক্ষ্য হলো আমাদের পদ্ধতি আরও শাণিত করা, যাতে আমরা ভবিষ্যতের ক্ষমতাগুলো আগেভাগেই অনুমান ও প্রস্তুত করতে পারি—যা আমরা নিরাপত্তার জন্য অত্যন্ত গুরুত্বপূর্ণ মনে করি.

আমরা ChatGPT এবং API এর মাধ্যমে GPT‑4 এর টেক্সট ইনপুট ক্ষমতা প্রকাশ করছি (একটি প্রতীক্ষা-তালিকা সহ). বিস্তৃত প্রাপ্যতার জন্য চিত্র ইনপুট ক্ষমতা প্রস্তুত করতে, আমরা শুরুতে একটি একক অংশীদারের(একটি নতুন উইন্ডোতে খোলে) সাথে ঘনিষ্ঠভাবে সহযোগিতা করছি. আমরা এআই মডেলের পারফরম্যান্সের স্বয়ংক্রিয় মূল্যায়নের জন্য আমাদের কাঠামো OpenAI Evals(একটি নতুন উইন্ডোতে খোলে) ওপেন-সোর্সিং করছি, আমাদের মডেলগুলোর ত্রুটি সম্পর্কে যে কেউ রিপোর্ট করতে পারবেন যাতে আরও উন্নতির দিকে পরিচালিত করতে পারেন.

সামর্থ্য

স্বাভাবিক কথোপকথনে GPT‑3.5 এবং GPT‑4‑এর মধ্যে পার্থক্য সূক্ষ্ম হতে পারে. পার্থক্যটি স্পষ্ট হয় যখন কাজের জটিলতা একটি নির্দিষ্ট স্তরে পৌঁছায়—GPT‑4 GPT‑3.5‑এর তুলনায় আরও নির্ভরযোগ্য, সৃজনশীল এবং অনেক বেশি সূক্ষ্ম নির্দেশনা সামলাতে সক্ষম.

দুটি মডেলের মধ্যে পার্থক্য বোঝার জন্য, আমরা বিভিন্ন বেঞ্চমার্কে পরীক্ষা করেছি, যার মধ্যে মূলত মানুষের জন্য তৈরি করা পরীক্ষাগুলোর সিমুলেশনও অন্তর্ভুক্ত ছিল. আমরা সর্বশেষ প্রকাশ্যভাবে উপলভ্য টেস্টগুলো ব্যবহার করেছি (অলিম্পিয়াডসমূহ এবং AP ফ্রি রেসপন্স প্রশ্নের ক্ষেত্রে) অথবা 2022–2023 সংস্করণের প্র্যাকটিস পরীক্ষা কিনেছি. আমরা এই পরীক্ষাগুলোর জন্য কোনো নির্দিষ্ট প্রশিক্ষণ দিইনি. পরীক্ষার কিছু সমস্যা প্রশিক্ষণের সময় মডেল দ্বারা দেখা গিয়েছিল, তবে আমরা ফলাফলগুলোকে প্রতিনিধিত্বমূলক বলে বিশ্বাস করি—বিশদ জানতে আমাদের প্রযুক্তিগত প্রতিবেদন(একটি নতুন উইন্ডোতে খোলে) দেখুন.

অভ্যন্তরীণ রেফারেন্স 1

লোড হচ্ছে...
লোড হচ্ছে...

আমরা মেশিন লার্নিং মডেলের জন্য তৈরি ঐতিহ্যবাহী বেঞ্চমার্কেও GPT‑4‑কে মূল্যায়ন করেছি. GPT‑4 বিদ্যমান বড় ভাষা মডেলগুলোর তুলনায় উল্লেখযোগ্যভাবে ভালো পারফর্ম করেছে, এবং বেশিরভাগ আধুনিক (SOTA) মডেলকেও অতিক্রম করেছে, যেগুলোতে বেঞ্চমার্ক-নির্দিষ্ট কৌশল বা অতিরিক্ত প্রশিক্ষণ প্রোটোকল থাকতে পারে:

লোড হচ্ছে...

অনেক বিদ্যমান ML বেঞ্চমার্ক ইংরেজিতে লেখা হয়েছে. অন্যান্য ভাষায় সক্ষমতার প্রাথমিক ধারণা পেতে, আমরা MMLU বেঞ্চমার্ক—14,000 নৈর্ব্যক্তিক সমস্যার একটি সম্ভার যা 57টি বিষয় জুড়ে ব্যাপৃত—Azure Translate ব্যবহার করে বিভিন্ন ভাষায় অনুবাদ করেছি (পরিশিষ্ট দেখুন). পরীক্ষায় 26টি ভাষার মধ্যে 24টিতে, GPT‑4 GPT‑3.5 এবং অন্যান্য LLM (Chinchilla, PaLM)-এর ইংরেজি-ভাষার পারফরম্যান্সকে ছাড়িয়ে গেছে, এমনকি কম-রিসোর্স ভাষা যেমন লাটভিয়, ওয়েলশ, এবং সোয়াহিলিতেও:

লোড হচ্ছে...

আমরাও অভ্যন্তরীণভাবে GPT‑4 ব্যবহার করছি, যা সহায়তা, সেলস, কনটেন্ট মডারেশন এবং প্রোগ্রামিং-এর মতো কাজগুলোতে বড় প্রভাব ফেলেছে. আমরা আমাদের প্রান্তিককরণ কৌশলের দ্বিতীয় ধাপ শুরু করে এআই আউটপুট মূল্যায়নে মানুষকে সহায়তা করার জন্যও এটি ব্যবহার করছি.

ভিজ্যুয়াল ইনপুট

GPT‑4 টেক্সট ও চিত্রের সমন্বিত প্রম্পট গ্রহণ করতে পারে, যা কেবলই টেক্সট সেটিং-এর মতোই ব্যবহারকারীকে যেকোনো ভিশন বা ভাষাগত কাজ নির্ধারণের সুযোগ দেয়. বিশেষভাবে, এটি মিশ্রিত টেক্সট ও চিত্র ইনপুট পেলে টেক্সট আউটপুট (প্রাকৃতিক ভাষা, কোড ইত্যাদি) উৎপন্ন করে. বিভিন্ন ডোমেইনে—যেমন টেক্সট ও ছবিযুক্ত নথি, ডায়াগ্রাম, বা স্ক্রিনশট—GPT‑4 কেবলই টেক্সট ইনপুটের মতোই সক্ষমতা প্রদর্শন করে. তদুপরি, এটিকে কেবল ভাষার মডেলগুলোর জন্য তৈরি করা টেস্ট-টাইম কৌশলগুলোর সাহায্যে আরও উন্নত করা যেতে পারে, যার মধ্যে রয়েছে ফিউ-শট এবং চেইন-অফ-থট(একটি নতুন উইন্ডোতে খোলে) প্রম্পটিং. চিত্র ইনপুট এখনও গবেষণা প্রিভিউ পর্যায়ে রয়েছে এবং সর্বসাধারণের জন্য উপলভ্য নয়.

লোড হচ্ছে...

আমরা GPT‑4‑এর পারফরম্যান্স প্রিভিউ করি এটি একটি সীমিত সংখ্যক মানক একাডেমিক ভিশন বেঞ্চমার্কে মূল্যায়নের মাধ্যমে. তবে এই সংখ্যাগুলো এর সক্ষমতার পূর্ণ মাত্রা প্রকাশ করে না, কারণ আমরা ক্রমাগত নতুন ও আকর্ষণীয় কাজ আবিষ্কার করছি যা মডেলটি সম্পাদন করতে সক্ষম. আমরা শীঘ্রই আরও বিশ্লেষণ এবং মূল্যায়ন সংখ্যা প্রকাশ করার পরিকল্পনা করছি, সেইসাথে পরীক্ষার সময় কৌশলগুলোর প্রভাবের পুঙ্খানুপুঙ্খ তদন্তও করব.

অভ্যন্তরীণ পাদটীকাA

লোড হচ্ছে...

নিয়ন্ত্রণযোগ্যতা

আমরা এআইগুলোর আচরণ সংজ্ঞায়িত করার বিষয়ে আমাদের পোস্টে বর্ণিত পরিকল্পনার প্রতিটি দিক নিয়ে কাজ করছি, যার মধ্যে পরিচালনাযোগ্যতা অন্তর্ভুক্ত. নির্দিষ্ট শব্দবাহুল্য, স্বর ও স্টাইলসহ ক্লাসিক ChatGPT ব্যক্তিত্বের পরিবর্তে, ডেভেলপাররা (এবং শীঘ্রই ChatGPT ব্যবহারকারীরাও) এখন “সিস্টেম” মেসেজে সেই নির্দেশনা বর্ণনা করে তাদের AI-এর স্টাইল ও কাজ নির্ধারণ করতে পারবেন. সিস্টেম মেসেজগুলো এপিআই ব্যবহারকারীদের সীমার মধ্যে(একটি নতুন উইন্ডোতে খোলে) তাদের ব্যবহারকারীদের অভিজ্ঞতাকে উল্লেখযোগ্যভাবে কাস্টমাইজ করতে দেয়. আমরা এখানে উন্নতি চালিয়ে যাব (এবং বিশেষ করে জানি যে সিস্টেম মেসেজগুলো বর্তমান মডেলকে “জেইলব্রেক” করার সবচেয়ে সহজ উপায়, অর্থাৎ সীমাবদ্ধতার প্রতি আনুগত্য পুরোপুরি নিখুঁত নয়), তবে আমরা আপনাকে এটি ব্যবহার করে দেখতে এবং আপনার মতামত আমাদেরকে জানাতে উৎসাহিত করি.

লোড হচ্ছে...

সীমাবদ্ধতা

সক্ষমতা থাকা সত্ত্বেও, GPT‑4‑এর আগের GPT মডেলগুলোর মতোই সীমাবদ্ধতা রয়েছে. সবচেয়ে গুরুত্বপূর্ণ বিষয় হল, এটি এখনও সম্পূর্ণরূপে নির্ভরযোগ্য নয় (এটি তথ্যগুলোকে “ভ্রান্ত” করে এবং যুক্তিতে ভুল করে). ভাষা মডেলের আউটপুট ব্যবহার করার সময় বিশেষ সতর্কতা অবলম্বন করা উচিৎ, বিশেষ করে উচ্চ-ঝুঁকিপূর্ণ প্রসঙ্গে, যেখানে সঠিক প্রোটোকল (যেমন মানব পর্যালোচনা, অতিরিক্ত প্রেক্ষাপট দিয়ে ভিত্তি তৈরি, অথবা উচ্চ-ঝুঁকিপূর্ণ ব্যবহার সম্পূর্ণ এড়িয়ে চলা) নির্দিষ্ট ব্যবহারক্ষেত্রের প্রয়োজনের সাথে মেলানো উচিৎ.

যদিও এটি এখনও একটি বাস্তব সমস্যা, GPT‑4 পূর্ববর্তী মডেলের তুলনায় হ্যালুসিনেশন উল্লেখযোগ্যভাবে কমিয়েছে (যা নিজেরাও প্রতিটি ধাপে উন্নত হয়েছে). আমাদের অভ্যন্তরীণ প্রতিদ্বন্দ্বী তথ্যনিষ্ঠতা মূল্যায়নে GPT‑4 সর্বশেষ GPT‑3.5‑এর তুলনায় ৪০% বেশি স্কোর করেছে:

লোড হচ্ছে...

আমরা TruthfulQA-এর মতো বাহ্যিক বেঞ্চমার্কে অগ্রগতি করেছি, যা মডেলের তথ্যকে প্রতিদ্বন্দ্বীভাবে নির্বাচিত ভুল বিবৃতি থেকে আলাদা করার ক্ষমতা পরীক্ষা করে. এই প্রশ্নগুলোর সাথে যুক্ত করা হয়েছে তথ্যগতভাবে ভুল কিন্তু পরিসংখ্যানগতভাবে আকর্ষণীয় উত্তর.

লোড হচ্ছে...

GPT‑4 বেস মডেলটি GPT‑3.5 এর তুলনায় এই কাজে কিঞ্চিৎ ভালো; তবে RLHF পোস্ট-প্রশিক্ষণের পরে (আমরা GPT‑3.5 এর সাথে যে একই প্রক্রিয়া প্রয়োগ করেছি) একটি বড় ব্যবধান রয়েছে. নিচের কিছু উদাহরণ পর্যালোচনা করলে দেখা যায়, GPT‑4 সাধারণ প্রবাদ বাছাই করতে বিরত থাকে (বুড়ো কুকুরকে নতুন কৌশল শেখানো যায় না), তবে এটি এখনও সূক্ষ্ম বিবরণ মিস করতে পারে (এলভিস প্রিসলি কোনো অভিনেতার ছেলে ছিলেন না).

লোড হচ্ছে...

মডেলের আউটপুটে বিভিন্ন ধরনের পক্ষপাত থাকতে পারে—আমরা এগুলোতে অগ্রগতি করেছি তবে এখনও আরও কাজ বাকি আছে. আমাদের সাম্প্রতিক ব্লগ পোস্ট অনুসারে, আমরা যে এআই সিস্টেমগুলো তৈরি করি সেগুলোর যুক্তিসঙ্গত ডিফল্ট আচরণ তৈরি করার লক্ষ্য রাখি যা ব্যবহারকারীদের মূল্যবোধের বিস্তৃত অংশকে প্রতিফলিত করে, সেই সিস্টেমগুলোকে বিস্তৃত সীমার মধ্যে কাস্টমাইজ করার অনুমতি দেয় এবং সেই সীমানাগুলো কী হওয়া উচিৎ সে সম্পর্কে জনসাধারণের ইনপুট সংগ্রহ করি.

GPT‑4 সাধারণত তার ডেটা কাটঅফ (সেপ্টেম্বর 2021)-এর পর ঘটে যাওয়া ঘটনাগুলো সম্পর্কে জ্ঞান রাখে না, এবং তার অভিজ্ঞতা থেকে শেখেও না. এটি কখনও কখনও সাধারণ যুক্তিপ্রয়োগমূলক ভুল করতে পারে যা বহু ক্ষেত্রে দক্ষতার সঙ্গে সামঞ্জস্যপূর্ণ নয় বলে মনে হয়, অথবা ব্যবহারকারীর কাছ থেকে স্পষ্ট মিথ্যা বিবৃতি সহজেই বিশ্বাস করে নিতে পারে. এবং কখনও কখনও এটি কঠিন সমস্যায় মানুষের মতোই ব্যর্থ হতে পারে, যেমন এটি যে কোড উৎপন্ন করে তাতে সিকিউরিটি দুর্বলতা থাকে.

GPT‑4 তার পূর্বাভাসে আত্মবিশ্বাসের সঙ্গে ভুলও করতে পারে, এবং ভুল হওয়ার সম্ভাবনা থাকলেও কাজ দ্বিগুণ যাচাই করতে সতর্কতা নেয় না. মজার ব্যাপার হলো, বেস প্রাক-প্রশিক্ষিত মডেলটি অত্যন্ত ক্যালিব্রেটেড (কোনো উত্তরে এর অনুমানকৃত আত্মবিশ্বাস সাধারণত সঠিক হওয়ার সম্ভাবনার সাথে মিলে যায়). তবে, আমাদের বর্তমান পোস্ট-প্রশিক্ষণ প্রক্রিয়ার মাধ্যমে এই ক্যালিব্রেশন কমে যায়.

লোড হচ্ছে...

ঝুঁকি ও প্রতিরোধ

প্রশিক্ষণের শুরু থেকেই আমরা GPT‑4 কে নিরাপদ এবং আরও সুসংহত করার জন্য পুনরাবৃত্তি করে আসছি, যার মধ্যে রয়েছে প্রশিক্ষণ-পূর্ব তথ্য নির্বাচন এবং ফিল্টারিং, মূল্যায়ন এবং বিশেষজ্ঞদের সম্পৃক্ততা, মডেল সুরক্ষা উন্নতি এবং পর্যবেক্ষণ এবং প্রয়োগ.

GPT‑4‑এ আগের মডেলগুলোর মতোই ঝুঁকি রয়েছে, যেমন ক্ষতিকারক পরামর্শ উৎপন্ন করা, বাগযুক্ত কোড বা ভুল তথ্য তৈরি করা. তবে GPT‑4‑এর অতিরিক্ত সক্ষমতাগুলো নতুন ঝুঁকির ক্ষেত্র তৈরি করে. এই ঝুঁকিগুলোর মাত্রা বোঝার জন্য, আমরা AI সমন্বয় ঝুঁকি, সাইবারনিরাপত্তা, বায়োঝুঁকি, আস্থা ও সুরক্ষা, এবং আন্তর্জাতিক নিরাপত্তার মতো ডোমেইনের ৫০ জনেরও বেশি বিশেষজ্ঞকে মডেলটিকে প্রতিদ্বন্দ্বীমূলকভাবে পরীক্ষা করার জন্য অন্তর্ভুক্ত করেছি. তাদের অনুসন্ধান আমাদের বিশেষভাবে সক্ষম করেছে উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রে মডেলের আচরণ পরীক্ষা করতে, যেগুলো মূল্যায়নের জন্য বিশেষজ্ঞতার প্রয়োজন. এই বিশেষজ্ঞদের মতামত ও ডেটা আমাদের প্রতিরোধমূলক ব্যবস্থা ও মডেল উন্নতিতে অন্তর্ভুক্ত হয়েছে; উদাহরণস্বরূপ, আমরা অতিরিক্ত ডেটা সংগ্রহ করেছি যাতে GPT‑4 বিপজ্জনক রাসায়নিক তৈরির অনুরোধ প্রত্যাখ্যান করার ক্ষমতা বাড়াতে পারে.

RLHF প্রশিক্ষণের সময় GPT‑4 একটি অতিরিক্ত নিরাপত্তা পুরস্কার সংকেত অন্তর্ভুক্ত করে যাতে ক্ষতিকারক আউটপুট (আমাদের ব্যবহারের নির্দেশিকা(একটি নতুন উইন্ডোতে খোলে) অনুসারে) কমানো যায় এবং মডেলকে এই ধরনের বিষয়বস্তুর অনুরোধ প্রত্যাখ্যান করার জন্য প্রশিক্ষণ দেওয়া হয়. পুরস্কারটি প্রদান করা হয় GPT‑4 জিরো-শট ক্লাসিফায়ারের মাধ্যমে, যা নিরাপত্তা-সম্পর্কিত প্রম্পটে সুরক্ষা সীমা এবং সম্পূর্ণতার ধরন মূল্যায়ন করে. মডেল যাতে বৈধ অনুরোধ প্রত্যাখ্যান না করে, আমরা বিভিন্ন উৎস থেকে একটি বৈচিত্র্যময় ডেটাসেট সংগ্রহ করি (যেমন, লেবেলযুক্ত উৎপাদন ডেটা, মানব রেড-টিমিং, মডেল-উৎপন্নকৃত নির্দেশ) এবং অনুমোদিত ও নিষিদ্ধ উভয় বিভাগে নিরাপত্তা পুরস্কার সংকেত (ধনাত্মক বা নেতিবাচক মান সহ) প্রয়োগ করি. 

আমাদের প্রতিরোধমূলক পদক্ষেপ GPT‑3.5‑এর তুলনায় GPT‑4‑এর বহু সুরক্ষা বৈশিষ্ট্যকে উল্লেখযোগ্যভাবে উন্নত করেছে. আমরা GPT‑3.5‑এর তুলনায় মডেলের নিষিদ্ধ কনটেন্টের অনুরোধে সাড়া দেওয়ার প্রবণতা 82% কমিয়েছি, এবং GPT‑4 সংবেদনশীল অনুরোধ (যেমন চিকিৎসা পরামর্শ ও আত্ম-ক্ষতি) আমাদের নীতিমালার সাথে সামঞ্জস্য রেখে 29% বেশি সাড়া দেয়.

লোড হচ্ছে...
লোড হচ্ছে...

সামগ্রিকভাবে, আমাদের মডেল-স্তরের হস্তক্ষেপ খারাপ আচরণ উদ্রেকের কঠিনতা বাড়ায়, তবে এটি এখনও সম্ভব. তদুপরি, আমাদের ব্যবহারের নির্দেশিকা লঙ্ঘন করে এমন বিষয়বস্তু উৎপন্ন করার জন্য এখনও “জেলব্রেক” বিদ্যমান. যখন AI সিস্টেমের “টোকেন প্রতি ঝুঁকি” বাড়ছে, তখন এই হস্তক্ষেপগুলোতে অত্যন্ত উচ্চমাত্রার নির্ভরযোগ্যতা অর্জন করা অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠবে; আপাতত এই সীমাবদ্ধতাগুলোকে অপব্যবহার মনিটরিং-এর মতো ডিপ্লয়মেন্ট-টাইম সুরক্ষা কৌশল দিয়ে পরিপূরক করা জরুরি.

GPT‑4 এবং এর উত্তরসূরি মডেলগুলো সমাজকে উপকারী ও ক্ষতিকারক উভয় দিকেই উল্লেখযোগ্যভাবে প্রভাবিত করার সম্ভাবনা রাখে. আমরা বাহ্যিক গবেষকদের সাথে সহযোগিতা করছি যাতে আমরা সম্ভাব্য প্রভাব অনুধাবন ও মূল্যায়ন উন্নত করতে পারি, পাশাপাশি ভবিষ্যতের সিস্টেমে উদ্ভূত হতে পারে এমন বিপজ্জনক সক্ষমতার জন্য মূল্যায়ন তৈরি করতে পারি. আমরা শীঘ্রই GPT‑4 এবং অন্যান্য AI সিস্টেমের সম্ভাব্য সামাজিক ও অর্থনৈতিক প্রভাব নিয়ে আমাদের আরও মতামত শেয়ার করব.

প্রশিক্ষণ প্রক্রিয়া

আগের GPT মডেলগুলোর মতো, GPT‑4 বেস মডেলকে একটি ডকুমেন্টে পরবর্তী শব্দ অনুমান করার জন্য প্রশিক্ষণ দেওয়া হয়েছিল, এবং এটি প্রকাশ্যে উপলভ্য ডেটা (যেমন ইন্টারনেট ডেটা) এবং আমাদের লাইসেন্সকৃত ডেটা ব্যবহার করে প্রশিক্ষিত হয়েছে. এই ডেটা হলো একটি ওয়েব-স্কেল করপাস, যেখানে রয়েছে সঠিক ও ভুল গণিত সমস্যার সমাধান, দুর্বল ও শক্তিশালী যুক্তি, আত্ম-বিরোধী ও সামঞ্জস্যপূর্ণ বিবৃতি, এবং বহুবিধ মতাদর্শ ও ধারণার প্রতিফলন.

সুতরাং, একটি প্রশ্ন দিলে বেস মডেল বিভিন্নভাবে উত্তর দিতে পারে, যা ব্যবহারকারীর অভিপ্রায় থেকে অনেক ভিন্ন হতে পারে. ব্যবহারকারীর অভিপ্রায়ের সাথে গার্ডরেলের মধ্যে এটি সামঞ্জস্য করতে, আমরা মানব প্রতিক্রিয়া (RLHF) সহ মজবুতিকরণ শিক্ষণ ব্যবহার করে মডেলের আচরণ সূক্ষ্মভাবে টিউন করি.

উল্লেখ্য, মডেলের সক্ষমতা মূলত প্রাক-প্রশিক্ষণ প্রক্রিয়া থেকে আসে—RLHF পরীক্ষার পারফরম্যান্স উন্নত করে না (সক্রিয় প্রচেষ্টা ছাড়া, এটি আসলে তা খারাপ করে). তবে মডেল নিয়ন্ত্রণ আসে পোস্ট-প্রশিক্ষণ প্রক্রিয়া থেকে—বেস মডেলের প্রয়োজন হয় নির্দেশ নির্মাণে, যাতে এটি বোঝে যে তাকে প্রশ্নের উত্তর দিতে হবে.

পূর্বানুমেয় পরিসর বৃদ্ধি

GPT‑4 প্রকল্পের একটি বড় লক্ষ্য ছিল এমন একটি গভীর শিক্ষণ স্ট্যাক তৈরি করা যা পূর্বানুমানযোগ্যভাবে পরিসর বৃদ্ধি করে. মূল কারণ হলো, GPT‑4‑এর মতো খুব বড় প্রশিক্ষণ রান-এর ক্ষেত্রে ব্যাপক মডেল-নির্দিষ্ট টিউনিং করা সম্ভব নয়. আমরা এমন অবকাঠামো ও অপ্টিমাইজেশন তৈরি করেছি যা বহু পরিসরে অত্যন্ত পূর্বানুমেয় আচরণ রয়েছে. এই স্কেলযোগ্যতা যাচাই করার জন্য, আমরা আগেভাগেই GPT‑4‑এর চূড়ান্ত লস আমাদের অভ্যন্তরীণ কোডবেসে (যা ট্রেইনিং সেটের অংশ নয়) সঠিকভাবে অনুমান করেছি, একই পদ্ধতিতে প্রশিক্ষিত কিন্তু 10,000 গুণ কম কম্পিউট ব্যবহার করা মডেল থেকে পূর্বানুমান করে:

লোড হচ্ছে...

এখন যেহেতু আমরা প্রশিক্ষণের সময় যে মেট্রিক অপ্টিমাইজ করি (লস) তা সঠিকভাবে অনুমান করতে পারি, আমরা আরও ব্যাখ্যাযোগ্য মেট্রিক অনুমান করার জন্য পদ্ধতি তৈরি করা শুরু করেছি. উদাহরণস্বরূপ, আমরা 1,000 গুণ কম গণনা সহ মডেলগুলো থেকে এক্সট্রাপোলেট করে HumanEval(একটি নতুন উইন্ডোতে খোলে) ডেটাসেটের একটি উপসেটের পাস রেট সফলভাবে পূর্বাভাস করেছি:

লোড হচ্ছে...

কিছু সক্ষমতা এখনও অনুমান করা কঠিন. উদাহরণস্বরূপ, ইনভার্স স্কেলিং প্রাইজ ছিল এমন একটি প্রতিযোগিতা যা এমন একটি মেট্রিক খুঁজে বের করার জন্য অনুষ্ঠিত হয়েছিল যা মডেলের গণনা বৃদ্ধি পাওয়ার সাথে সাথে খারাপ হয়ে যায়, এবং পশ্চাদপদ অবহেলা(একটি নতুন উইন্ডোতে খোলে) ছিল বিজয়ীদের মধ্যে অন্যতম. ঠিক আরেকটি সাম্প্রতিক ফলাফলের মতো,(একটি নতুন উইন্ডোতে খোলে) GPT‑4 প্রবণতাটিকে উল্টে দেয়:

লোড হচ্ছে...

আমরা বিশ্বাস করি যে ভবিষ্যতের মেশিন লার্নিং সক্ষমতাকে সঠিকভাবে অনুমান করা নিরাপত্তার একটি গুরুত্বপূর্ণ অংশ, যা এর সম্ভাব্য প্রভাবের তুলনায় যথেষ্ট মনোযোগ পায় না (যদিও আমরা বিভিন্ন প্রতিষ্ঠানের প্রচেষ্টায় উৎসাহিত হয়েছি). আমরা আমাদের প্রচেষ্টা বাড়াচ্ছি এমন পদ্ধতি তৈরি করতে যা সমাজকে ভবিষ্যতের সিস্টেম থেকে কী আশা করা উচিৎ সে সম্পর্কে ভালো নির্দেশনা দেবে, এবং আমরা আশা করি এটি এই ক্ষেত্রে একটি সাধারণ লক্ষ্য হয়ে উঠবে.

OpenAI Evals

আমরা OpenAI Evals(একটি নতুন উইন্ডোতে খোলে) ওপেন-সোর্স করে দিচ্ছি, এটি আমাদের সফটওয়্যার ফ্রেমওয়ার্ক যা GPT‑4 এর মতো মডেলগুলি মূল্যায়নের জন্য বেঞ্চমার্ক তৈরি এবং চালানোর জন্য ব্যবহৃত হয়, একই সাথে নমুনা অনুসারে তাদের কর্মক্ষমতা নমুনা পরীক্ষা করে. আমরা Evals ব্যবহার করি আমাদের মডেলের উন্নয়ন নির্দেশনা দিতে (ঘাটতি শনাক্তকরণ ও পশ্চাদপসরণ রোধকল্পে), আর আমাদের ব্যবহারকারীরাও এটি ব্যবহার করতে পারেন মডেলের সংস্করণভেদে কর্মক্ষমতা ট্র্যাক করতে (যা এখন নিয়মিত প্রকাশিত হবে) এবং পণ্যের সমন্বয় উন্নত করতে. উদাহরণস্বরূপ, Stripe তাদের GPT‑চালিত ডকুমেন্টেশন টুলের যথার্থতা মাপতে মানব মূল্যায়নের পাশাপাশি Evals ব্যবহার করেছে.

কোডটি সম্পূর্ণ ওপেন সোর্স হওয়ায়, Evals কাস্টম মূল্যায়ন লজিক(একটি নতুন উইন্ডোতে খোলে) বাস্তবায়নের জন্য নতুন ক্লাস লেখার সহায়তা করে. তবে, আমাদের নিজস্ব অভিজ্ঞতায়, অনেক মানদণ্ড কয়েকটি “টেমপ্লেটের” একটি অনুসরণ করে, তাই আমরা অভ্যন্তরীণভাবে সবচেয়ে উপকারী টেমপ্লেটগুলোও অন্তর্ভুক্ত করেছি(একটি নতুন উইন্ডোতে খোলে) (যার মধ্যে “মডেল-গ্রেড ইভালস” এর একটি টেমপ্লেট রয়েছে—আমরা দেখেছি যে GPT‑4 তার নিজস্ব কাজ পরীক্ষা করতে আশ্চর্যজনকভাবে সক্ষম). সাধারণত একটি নতুন eval তৈরি(একটি নতুন উইন্ডোতে খোলে) করার সবচেয়ে কার্যকর উপায় হল ডেটা প্রদানের সাথে সাথে এই টেমপ্লেটগুলোর একটিকে ইনস্ট্যানশিয়েট করা. আমরা আগ্রহের সঙ্গে দেখার অপেক্ষায় আছি অন্যরা এই টেমপ্লেট এবং সাধারণভাবে Evals দিয়ে কী তৈরি করতে পারে.

আমরা আশা করি Evals একটি অঙ্গন হিসেবে কাজ করবে যেখানে বেঞ্চমার্ক শেয়ার এবং ক্রাউডসোর্স করা যাবে, যা ব্যর্থতার সর্বাধিক বিস্তৃত ধরন এবং কঠিন কাজগুলোকে উপস্থাপন করবে. উদাহরণ হিসেবে অনুসরণ করার জন্য, আমরা দশটি প্রম্পট নিয়ে একটি লজিক পাজল(একটি নতুন উইন্ডোতে খোলে) ইভ্যাল তৈরি করেছি যেখানে GPT‑4 ব্যর্থ হয়. Evals বিদ্যমান মানদণ্ড বাস্তবায়নের সাথেও সামঞ্জস্যপূর্ণ; আমরা উদাহরণ হিসেবে একাডেমিক মানদণ্ড বাস্তবায়নকারী বেশ কয়েকটি নোটবুক(একটি নতুন উইন্ডোতে খোলে) এবং CoQA(একটি নতুন উইন্ডোতে খোলে) এর কয়েকটি সংহতকরণ (ছোট উপসেট) অন্তর্ভুক্ত করেছি.

আমরা সবাইকে আমন্ত্রণ জানাই Evals ব্যবহার করে আমাদের মডেলগুলো পরীক্ষা করতে এবং সবচেয়ে আকর্ষণীয় উদাহরণগুলো জমা দিতে. আমরা বিশ্বাস করি যে Evals আমাদের মডেলগুলোর উপরে ব্যবহার এবং নির্মাণের প্রক্রিয়ার একটি অবিচ্ছেদ্য অংশ হবে, এবং আমরা সরাসরি অবদান, প্রশ্ন এবং প্রতিক্রিয়া(একটি নতুন উইন্ডোতে খোলে) স্বাগত জানাই.

ChatGPT Plus

ChatGPT Plus সাবস্ক্রাইবাররা ব্যবহারের সীমা সহ chatgpt.com(একটি নতুন উইন্ডোতে খোলে) এ GPT‑4 অ্যাক্সেস পাবেন. আমরা বাস্তবে চাহিদা ও সিস্টেম পারফরম্যান্সের উপর ভিত্তি করে সঠিক ব্যবহারের সীমা সমন্বয় করব, তবে আমরা আশা করি ক্ষমতার তীব্র সীমাবদ্ধতা থাকব (যদিও আমরা আগামী মাসগুলোতে পরিসর বাড়াব ও অপ্টিমাইজ করব).

আমরা যে ট্রাফিক প্যাটার্ন পাই তার ভিত্তিতে, আমরা উচ্চ-পরিমাণ GPT‑4 ব্যবহারের জন্য একটি নতুন সাবস্ক্রিপশন স্তর চালু করতে পারি; আমরা এও আশা করি ভবিষ্যতে কিছু পরিমাণ ফ্রি GPT‑4 কুয়েরি দেওয়া যাবে যাতে সাবস্ক্রিপশন ছাড়াই যারা ব্যবহার করতে চান তারা চেষ্টা করতে পারে.

এপিআই

GPT‑4 API-তে অ্যাক্সেস পেতে (যা gpt-3.5-turbo এর মতো একই ChatCompletions API(একটি নতুন উইন্ডোতে খোলে) ব্যবহার করে), অনুগ্রহ করে আমাদের প্রতীক্ষা-তালিকায় সাইন-আপ করুন. আমরা আজ থেকেই কিছু ডেভেলপারকে আমন্ত্রণ জানানো শুরু করব, এবং ধীরে ধীরে ক্ষমতা ও চাহিদার মধ্যে ভারসাম্য রাখতে স্কেল বাড়াব. আপনি যদি AI বা AI অ্যালাইনমেন্ট সমস্যার সামাজিক প্রভাব অধ্যয়নরত একজন গবেষক হন, তবে আপনি আমাদের গবেষক অ্যাক্সেস প্রোগ্রামের মাধ্যমে ভর্তুকিযুক্ত ব্যবহারের জন্য আবেদন করতে পারেন.

একবার আপনার অ্যাক্সেস হয়ে গেলে, আপনি gpt-4 মডেলে কেবল টেক্সট অনুরোধ করতে পারবেন (চিত্র ইনপুট এখনও সীমিত আলফা পর্যায়ে রয়েছে), যা আমরা সময়ের সাথে নতুন সংস্করণ তৈরি করার সাথে সাথে আমাদের সুপারিশকৃত স্থিতিশীল মডেলে স্বয়ংক্রিয়ভাবে আপডেট করব (আপনি gpt-4-0314 কল করে বর্তমান সংস্করণটি পিন করতে পারেন, যা আমরা 14 জুন পর্যন্ত সহায়তা করব). মূল্য হলো প্রতি 1k প্রম্পট token-এর জন্য $0.03 এবং প্রতি 1k কমপ্লিশন token-এর জন্য $0.06. ডিফল্ট রেট সীমা হলো প্রতি মিনিটে 40k token এবং প্রতি মিনিটে 200টি অনুরোধ.

gpt-4-এর প্রসঙ্গ দৈর্ঘ্য 8,192 token. আমরা আমাদের 32,768–প্রসঙ্গ (প্রায় 50 পৃষ্ঠার টেক্সট) সংস্করণ gpt-4-32k-এর সীমিত ব্যবহার প্রদান করছি, যা সময়ের সাথে স্বয়ংক্রিয়ভাবে আপডেট হবে (বর্তমান সংস্করণ gpt-4-32k-0314, যা 14 জুন পর্যন্ত সমর্থিত). মূল্য হলো প্রতি 1k প্রম্পট token-এর জন্য $0.06 এবং প্রতি 1k কমপ্লিশন token-এর জন্য $0.12. আমরা এখনও দীর্ঘ প্রসঙ্গের জন্য মডেলের গুণমান উন্নত করছি এবং আপনার ব্যবহারক্ষেত্রে এটি কেমন কাজ করছে সে বিষয়ে মতামত পেতে আগ্রহী. আমরা ক্ষমতার ভিত্তিতে 8K এবং 32K ইঞ্জিনের অনুরোধ ভিন্ন হারে প্রক্রিয়াকরণ করছি, তাই আপনি এগুলোর প্রবেশাধিকার ভিন্ন সময়ে পেতে পারেন.

উপসংহার

আমরা আশা করি GPT‑4 অনেক অ্যাপ্লিকেশনকে চালিত করে মানুষের জীবন উন্নত করার একটি মূল্যবান সরঞ্জাম হয়ে উঠবে. এখনও অনেক কাজ বাকি আছে, এবং আমরা আশা করি এই মডেলকে আরও উন্নত করা যাবে কমিউনিটির সম্মিলিত প্রচেষ্টার মাধ্যমে—যারা এর ওপর তৈরি করছে, অনুসন্ধান করছে এবং অবদান রাখছে.

পরিশিষ্ট

MMLU প্রশ্নের উদাহরণ, যা অন্য ভাষায় অনুবাদ করা হয়েছে. উল্লেখ্য, আমরা ধারাবাহিকভাবে একই চয়েস টোকেন ব্যবহার করি (A–D):

লোড হচ্ছে...

ফুটনোটস

  1. A

    আমরা এই বেঞ্চমার্কটি মূল্যায়ন করি চিন্তার-শৃঙ্খল প্রম্পটিং ব্যবহার করে, যেখানে প্রসঙ্গ হিসেবে প্রশিক্ষণ সেট থেকে 4টি উদাহরণ নেওয়া হয়েছে. নির্দিষ্ট প্রম্পটটি বৈধতা সেটে ফাইন-টিউন করা হয়েছিল.

রেফারেন্স

  1. 1

    পি. আরেদন্দো (কেসটেক্সট/স্ট্যানফোর্ড CodeX), ডি. ক্যাটজ (স্ট্যানফোর্ড CodeX), এম. বোমারিতো (স্ট্যানফোর্ড CodeX), এস. গাও (কেসটেক্সট)। আরও বিশ্লেষণ গবেষণাপত্রে(একটি নতুন উইন্ডোতে খোলে) উপলব্ধ।

লেখক

OpenAI

প্রাপ্তী স্বীকার