ما GPT‑4 را ایجاد کردهایم، که آخرین نقطه عطف در تلاش OpenAI برای گسترش یادگیری عمیق است. GPT‑4 یک مدل چندوجهی بزرگ است که ورودیهای تصویر و متن را میپذیرد و خروجیهای متنی تولید میکند. این مدل، اگرچه در بسیاری از سناریوهای واقعی توانایی کمتری نسبت به انسان دارد، اما در معیارهای مختلف حرفهای و دانشگاهی عملکردی در سطح انسان نشان میدهد. به عنوان مثال، یک آزمون وکالت شبیهسازیشده را با نمرهای در حدود 10 درصد برتر شرکتکنندگان در آزمون میگذراند؛ در مقابل، GPT‑3.5 امتیاز حدوداً جزو 10% پایین بود. ما شش ماه را صرف هماهنگسازی تدریجی GPT‑4 با استفاده از درسهای برنامه تست مخالفانه و همچنین ChatGPT کردیم که نتیجه آن بهترین نتایج ما (هرچند هنوز کامل نیست) در مورد واقعیت، هدایتپذیری و امتناع از خروج از محدودیتها به دست آمد.
در طول دو سال گذشته، ما کل مجموعه یادگیری عمیق خود را بازسازی کردیم و به همراه Azure، یک ابررایانه را از پایه برای حجم کاری خود طراحی کردیم. یک سال پیش، ما GPT‑3.5 را به عنوان اولین «آزمون آزمایشی» سیستم آموزش دادیم. ما چندتا از باگها رو پیدا کردیم و رفع کردیم و مبانی نظریمون رو بهبود دادیم. در نتیجه، دوره آموزشی GPT‑4 ما (حداقل برای ما!) به طرز بیسابقهای پایدار بود و به اولین مدل بزرگ ما تبدیل شد که عملکرد آموزشی آن را توانستیم بهطور دقیق از پیش پیشبینی کنیم. همانطور که ما همچنان بر مقیاسبندی قابلاعتماد تمرکز میکنیم، قصد داریم روششناسی خود را بهبود دهیم تا به ما در پیشبینی و آمادهسازی برای قابلیتهای آینده که به طور فزایندهای از پیش برنامهریزی شدهاند، کمک کند—چیزی که ما آن را برای ایمنی حیاتی میدانیم.
ما قابلیت ورودی متن GPT‑4 را از طریق ChatGPT و API (با لیست انتظار) منتشر میکنیم. برای آمادهسازی قابلیت ورودی تصویر برای دسترسی گستردهتر، ما در ابتدا با یک شریک(در یک پنجره جدید باز میشود) همکاری نزدیک داریم. ما همچنین OpenAI Evals(در یک پنجره جدید باز میشود)، چارچوب خود را برای ارزیابی خودکار عملکرد مدلهای هوش مصنوعی، متنباز میکنیم تا هر کسی بتواند کاستیهای مدلهای ما را گزارش کند و به راهنمایی پیشرفتهای بیشتر کمک کند.
در یک مکالمه غیررسمی، تفاوت بین GPT‑3.5 و GPT‑4 میتواند نامحسوس باشد. تفاوت زمانی آشکار میشود که پیچیدگی کار به آستانه کافی برسد—GPT‑4 قابلاعتمادتر، خلاقتر و قادر به مدیریت دستورالعملهای بسیار ظریفتر از GPT‑3.5 است.
برای اینکه تفاوت بین این دو مدل را بفهمی، ما روی معیارهای مختلفی از جمله شبیهسازی امتحاناتی که در اصل برای انسانها طراحی شده بودند، آزمایش کردیم. ما با استفاده از جدیدترین آزمونهای در دسترس عموم (در مورد المپیادها و سوالات پاسخنامه رایگان AP) یا با خرید نسخههای 2022-2023 از آزمونهای آزمایشی، کار را ادامه دادیم. ما هیچ آموزش خاصی برای این امتحانات انجام ندادیم. اقلیتی از مشکلات در امتحانات توسط مدل در طول آموزش مشاهده شد، اما ما معتقدیم که نتایج نمایانگر هستند - برای جزئیات به گزارش فنی(در یک پنجره جدید باز میشود) ما مراجعه کنید.
ارجاع داخلی 1
ما همچنین GPT‑4 را بر روی معیارهای سنتی طراحی شده برای مدلهای یادگیری ماشین ارزیابی کردیم. GPT‑4 به طور قابل توجهی از مدلهای بزرگ زبان موجود بهتر عمل میکند، همچنین از اکثر مدلهای پیشرفته (SOTA) که ممکن است شامل ساخت مخصوص بنچمارک یا پروتکلهای آموزشی اضافی باشند، پیشی میگیرد:
بسیاری از معیارهای یادگیری ماشین موجود به زبان انگلیسی نوشته شدهاند. برای به دست آوردن حس اولیه از توانایی در زبانهای دیگر، ما معیار MMLU - مجموعهای از ۱۴,۰۰۰ مسئله چندگزینهای در ۵۷ موضوع - را با استفاده از Azure Translate به زبانهای مختلف ترجمه کردیم (به پیوست مراجعه کنید). در 24 زبان از 26 زبان آزمایششده، GPT‑4 از عملکرد زبان انگلیسی GPT‑3.5 و سایر LLMها (چینچیلا، PaLM) بهتر عمل میکند، از جمله برای زبانهای کممنبع مانند لتونیایی، ولزی و سواحیلی:
ما همچنین از GPT‑4 به صورت داخلی استفاده کردهایم که تأثیر زیادی بر عملکردهایی مانند پشتیبانی، فروش، مدیریت محتوا و برنامهنویسی داشته است. ما همچنین از آن برای کمک به انسانها در ارزیابی خروجیهای هوش مصنوعی استفاده میکنیم و مرحله دوم استراتژی همسویی خود را آغاز میکنیم.
GPT‑4 میتواند یک فرمان شامل متن و تصاویر را بپذیرد که بهطور موازی با تنظیمات فقط متن، به کاربر اجازه میدهد هر وظیفه دیداری یا زبانی را مشخص کند. به طور خاص، خروجیهای متنی (زبان طبیعی، کد و غیره) را با توجه به ورودیهایی که شامل متن و تصاویر درهمتنیده هستند، تولید میکند. در طیف وسیعی از حوزهها - از جمله اسناد حاوی متن و عکس، نمودارها یا اسکرینشاتها - GPT‑4 قابلیتهای مشابهی را مانند ورودیهای متنی نشان میدهد. علاوه بر این، میتوان آن را با تکنیکهای زمان آزمون که برای مدلهای زبان فقط متنی توسعه یافتهاند، از جمله تحریک چندگانه و زنجیرهای از افکار(در یک پنجره جدید باز میشود) تقویت کرد. ورودیهای تصویر هنوز در مرحله پیشنمایش تحقیقاتی هستند و بهصورت عمومی در دسترس نیستند.
ما عملکرد GPT‑4 را با ارزیابی آن بر روی مجموعهای محدود از معیارهای استاندارد بینایی آکادمیک، پیشنمایش میکنیم. با این حال، این اعداد به طور کامل نشاندهندهٔ گسترهٔ قابلیتهای آن نیستند، زیرا ما دائماً در حال کشف وظایف جدید و هیجانانگیزی هستیم که مدل قادر به انجام آنها است. ما قصد داریم به زودی تجزیه و تحلیلها و اعداد ارزیابی بیشتری را به همراه بررسی کامل تأثیر تکنیکهای زمان تست منتشر کنیم.
پاورقی داخلیA
ما در حال کار بر روی هر جنبه از برنامه ای که در پست خود در مورد تعریف رفتار هوش مصنوعی از جمله قابلیت هدایت است، کار کرده ایم. به جای شخصیت کلاسیک ChatGPT با پرگویی، لحن و سبک ثابت، توسعهدهندگان (و به زودی کاربران ChatGPT) اکنون میتوانند سبک و وظیفه هوش مصنوعی خود را با توصیف آن دستورالعملها در پیام «سیستم» تعیین کنند. پیامهای سیستم به کاربران API اجازه میدهند تا تجربه کاربران خود را به طور قابل توجهی در چارچوبها(در یک پنجره جدید باز میشود) سفارشی کنند. ما به بهبودها در اینجا ادامه خواهیم داد (و بهویژه میدانیم که پیامهای سیستم سادهترین راه برای «جیلبرک» مدل فعلی هستند، یعنی پایبندی به مرزها کامل نیست)، اما شما را تشویق میکنیم که آن را امتحان کنید و نظر خود را به ما بگویید.
با وجود قابلیتهایش، GPT‑4 محدودیتهایی مشابه مدلهای قبلی GPT دارد. مهمتر از همه، هنوز کاملاً قابل اعتماد نیست (حقایق را «توهم» میکند و اشتباهات منطقی مرتکب میشود). باید هنگام استفاده از خروجیهای مدل زبان، بهویژه در زمینههای پرمخاطره، دقت زیادی کرد. پروتکل دقیق (مانند بررسی انسانی، استفاده از زمینه اضافی، یا اجتناب کامل از استفادههای پرمخاطره) باید با نیازهای یک مورد استفاده خاص مطابقت داشته باشد.
اگرچه هنوز یک مشکل واقعی است، GPT‑4 به طور قابل توجهی توهمات را نسبت به مدلهای قبلی (که خودشان با هر تکرار در حال بهبود بودهاند) کاهش میدهد. GPT‑4 در ارزیابیهای داخلی ما برای سنجش واقعیتهای مخالف، 40% بهتر از آخرین GPT‑3.5 ما عمل میکند:
ما در معیارهای خارجی مانند TruthfulQA پیشرفت کردهایم که توانایی مدل را در جدا کردن واقعیت از مجموعهای از اظهارات نادرست که بهطور خصمانه انتخاب شدهاند، آزمایش میکند. این سوالات با پاسخهای نادرست از نظر واقعی همراه هستند که از نظر آماری جذاب به نظر میرسند.
مدل پایه GPT‑4 در این کار تنها کمی بهتر از GPT‑3.5 است؛ با این حال، پس از آموزش RLHF (با اعمال همان فرآیندی که با GPT‑3.5 استفاده کردیم) یک شکاف بزرگ وجود دارد. با بررسی برخی از نمونههای زیر، GPT‑4 در برابر انتخاب گفتههای رایج مقاومت میکند (نمیتونی به یه سگ پیر ترفندهای جدید یاد بدی)، با این حال هنوز میتونه جزئیات ظریف رو از دست بده (الویس پریسلی پسر یک بازیگر نبود).
این مدل میتواند در خروجیهای خود سوگیریهای مختلفی داشته باشد - ما در این موارد پیشرفتهایی داشتهایم، اما هنوز کارهای بیشتری برای انجام دادن وجود دارد. طبق پست اخیر وبلاگمان ، هدف ما این است که سیستمهای هوش مصنوعی که میسازیم، رفتارهای پیشفرض معقولی داشته باشند که طیف وسیعی از ارزشهای کاربران را منعکس کند، به این سیستمها اجازه دهد تا در محدودههای وسیعی سفارشیسازی شوند و در مورد اینکه این محدودهها باید چه باشند، از عموم مردم نظرخواهی کنیم.
GPT‑4 عموماً فاقد آگاهی از وقایعی است که پس از قطع بخش عمدهای از دادههایش (سپتامبر 2021) رخ دادهاند و از تجربیات خود درس نمیگیرد. گاهی اوقات میتواند اشتباهات استدلالی سادهای مرتکب شود که به نظر نمیرسد با شایستگی در بسیاری از حوزهها همخوانی داشته باشد، یا در پذیرش اظهارات نادرست آشکار از یک کاربر بیش از حد سادهلوح باشد. و گاهی اوقات میتواند در مسائل دشوار مانند انسانها شکست بخورد، مثلاً آسیبپذیریهای امنیتی را در کدی که تولید میکند، وارد کند.
GPT‑4 همچنین میتواند با اطمینان در پیشبینیهای خود اشتباه کند، و وقتی احتمال اشتباه وجود دارد، دقت لازم را برای بررسی مجدد کار انجام نمیدهد. جالب است که مدل پایه از پیش آموزشدیده بسیار تنظیم شده است (اعتماد پیشبینیشده آن در پاسخها بهطور کلی با احتمال درست بودن مطابقت دارد). با این حال، از طریق فرآیند فعلی پس از آموزش، کالیبراسیون کاهش پیدا میکند.
ما از ابتدای آموزش، با تلاش هایی از جمله انتخاب و فیلتر کردن داده های پیش آموزش، ارزیابی ها و مشارکت متخصصان، بهبود ایمنی مدل، و نظارت و اجرا، روی GPT‑4 تکرار کرده ایم تا آن را ایمن تر و هماهنگ تر کنیم.
GPT‑4 خطرات مشابهی مانند مدلهای قبلی، مانند تولید توصیههای مضر، کد دارای باگ یا اطلاعات نادرست، ایجاد میکند. با این حال، قابلیتهای اضافی GPT‑4 به سطوح جدیدی از ریسک منجر میشود. برای درک میزان این خطرات، ما بیش از 50 متخصص از حوزههایی مانند خطرات همسویی هوش مصنوعی، امنیت سایبری، ریسک زیستی، اعتماد و ایمنی و امنیت بینالمللی را برای آزمایش خصمانه مدل به کار گرفتیم. یافتههای آنها بهطور خاص ما را قادر ساخت تا رفتار مدل را در مناطق پرخطر که نیاز به تخصص برای ارزیابی دارند، آزمایش کنیم. بازخورد و دادههای این کارشناسان به کاهش و بهبودهای ما برای مدل کمک کرد؛ به عنوان مثال، ما دادههای بیشتری را برای بهبود توانایی GPT‑4 در رد درخواستها درباره نحوه سنتز مواد شیمیایی خطرناک جمعآوری کردهایم.
GPT‑4 یک سیگنال پاداش ایمنی اضافی را در طول آموزش RLHF برای کاهش خروجی های مضر (همانطور که در دستورالعمل های استفاده ما تعریف شده است) با(در یک پنجره جدید باز میشود) آموزش مدل برای رد درخواست ها برای چنین محتوایی استفاده می کند. پاداش توسط یک طبقهبندیکننده شات صفر GPT‑4 ارائه میشود که مرزهای ایمنی و سبک تکمیل را در درخواستهای مرتبط با ایمنی ارزیابی میکند. برای جلوگیری از اینکه مدل درخواستهای معتبر را رد کند، ما یک مجموعه داده متنوع از منابع مختلف (مانند دادههای تولید برچسبگذاری شده، تیم قرمز انسانی، اعلانهای تولید شده توسط مدل) جمعآوری میکنیم و سیگنال پاداش ایمنی (با مقدار مثبت یا منفی) را بر روی هر دو دسته مجاز و غیرمجاز اعمال میکنیم.
اقدامات کاهشی ما بسیاری از ویژگیهای ایمنی GPT‑4 را در مقایسه با GPT‑3.5 به طور قابل توجهی بهبود بخشیده است. ما تمایل مدل را برای پاسخ به درخواستهای محتوای غیرمجاز ۸۲٪ در مقایسه با GPT‑3.5 کاهش دادهایم و GPT‑4 به درخواستهای حساس (مانند مشاوره پزشکی و خودآزاری) مطابق با سیاستهای ما ۲۹٪ بیشتر پاسخ میدهد.
در مجموع، مداخلات سطح مدل ما، دشواری برانگیختن رفتار بد را افزایش میدهد، اما انجام این کار هنوز امکانپذیر است. علاوه بر این، هنوز روشهایی برای دور زدن محدودیتها وجود دارد که برای تولید محتوایی استفاده میشوند که دستورالعملهای استفاده ما را نقض میکنند. با افزایش «ریسک به ازای هر توکن» سیستمهای هوش مصنوعی، دستیابی به درجه بسیار بالایی از قابلیت اطمینان در این مداخلهها بسیار مهم خواهد شد؛ در حال حاضر مهم است که این محدودیتها را با تکنیکهای ایمنی زمان استقرار مانند نظارت بر سوءاستفاده تکمیل کنید.
GPT‑4 و مدلهای جانشین آن پتانسیل این را دارند که به طور قابل توجهی بر جامعه از هر دو طریق مفید و مضر تأثیر بگذارند. ما با پژوهشگران خارجی همکاری میکنیم تا نحوه درک و ارزیابی تأثیرات بالقوه را بهبود دهیم و همچنین ارزیابیهایی برای قابلیتهای خطرناکی که ممکن است در سیستمهای آینده پدیدار شوند، بسازیم. به زودی بیشتر از دیدگاههای خود درباره تأثیرات اجتماعی و اقتصادی احتمالی GPT‑4 و دیگر سیستمهای هوش مصنوعی را به اشتراک خواهیم گذاشت.
مانند مدلهای قبلی GPT، مدل پایه GPT‑4 برای پیشبینی کلمه بعدی در یک سند آموزش داده شده است و با استفاده از دادههای عمومی موجود (مانند دادههای اینترنتی) و همچنین دادههایی که مجوز آنها را داریم، آموزش داده شده است. این دادهها مجموعهای در مقیاس وب است که شامل راهحلهای درست و نادرست برای مسائل ریاضی، استدلالهای ضعیف و قوی، اظهارات متناقض و سازگار، و نمایانگر تنوع زیادی از ایدئولوژیها و ایدهها است.
بنابراین وقتی سوالی از مدل پایه پرسیده میشود، این مدل میتواند به روشهای بسیار متنوعی پاسخ دهد که ممکن است با هدف کاربر فاصله زیادی داشته باشد. برای هماهنگ کردن آن با قصد کاربر در چارچوبهای تعیینشده، رفتار مدل را با استفاده از یادگیری تقویتی با بازخورد انسانی (RLHF) تنظیم میکنیم.
توجه داشته باشید که به نظر میرسد قابلیتهای مدل عمدتاً از فرآیند پیش از آموزش ناشی میشود - RLHF عملکرد امتحان را بهبود نمیبخشد (بدون تلاش فعال، در واقع آن را تضعیف میکند). اما هدایت مدل از فرآیند پس از آموزش ناشی میشود - مدل پایه نیاز به مهندسی درخواست دارد تا حتی بداند که باید به سوالات پاسخ دهد.
تمرکز بزرگ پروژه GPT‑4 بر ساخت یک پشته یادگیری عمیق است که به طور قابل پیش بینی مقیاس می شود. دلیل اصلی این است که برای آموزشهای بسیار بزرگ مانند GPT‑4، انجام تنظیمات گسترده مخصوص مدل امکانپذیر نیست. ما زیرساخت و بهینهسازیهایی را توسعه دادیم که رفتار بسیار قابل پیشبینی در مقیاسهای مختلف دارند. برای تأیید این مقیاس پذیری، با استنتاج از مدلهای آموزش دیده با استفاده از همان روش آموزش، اما با استفاده از محاسبات 10000 برابر کمتر، از قبل، خسارت نهایی GPT‑4 را در پایگاه کد داخلی خود (نه بخشی از مجموعه آموزش) پیش بینی کردیم:
اکنون که میتوانیم معیاری را که در طول آموزش بهینه میکنیم (loss) به طور دقیق پیشبینی کنیم، شروع به توسعه روشی برای پیشبینی معیارهای قابل تفسیرتر کردهایم. به عنوان مثال، ما با موفقیت نرخ قبولی را در زیرمجموعهای از مجموعه داده HumanEval(در یک پنجره جدید باز میشود) پیشبینی کردیم و از مدلهایی با 1000 برابر محاسبات کمتر نتیجهگیری کردیم:
پیشبینی برخی از قابلیتها هنوز دشوار است. به عنوان مثال، جایزه مقیاس معکوس یک رقابت برای یافتن معیاری بود که با افزایش محاسبات مدل بدتر میشود و غفلت از گذشته(در یک پنجره جدید باز میشود) یکی از برندگان بود. درست مانند یک نتیجه(در یک پنجره جدید باز میشود) اخیر دیگر، GPT‑4 روند را معکوس میکند:
ما معتقدیم که پیشبینی دقیق قابلیتهای یادگیری ماشینی در آینده، بخش مهمی از ایمنی است که به اندازه کافی و متناسب با تأثیر بالقوهاش مورد توجه قرار نمیگیرد (اگرچه تلاشهای چندین مؤسسه ما را در این زمینه دلگرم کرده است). ما در حال افزایش تلاشهایمان برای توسعه روشهایی هستیم که به جامعه راهنمایی بهتری درباره آنچه از سیستمهای آینده انتظار میرود، ارائه دهد و امیدواریم این به یک هدف مشترک در این حوزه تبدیل شود.
ما OpenAI Evals(در یک پنجره جدید باز میشود) را به صورت منبع باز منتشر میکنیم، چارچوب نرمافزاری ما برای ایجاد و اجرای معیارها برای ارزیابی مدلهایی مانند GPT‑4، در حالی که عملکرد آنها را نمونه به نمونه بررسی میکنیم. ما از Evals برای راهنمایی توسعه مدلهامون استفاده میکنیم (هم شناسایی کاستیها و هم جلوگیری از رگرسیون) و کاربرامون میتونن ازش برای ردیابی عملکرد در نسخههای مدل (که حالا به طور منظم عرضه میشن) و ادغامهای محصول در حال توسعه استفاده کنن. به عنوان مثال، Stripe از Evals برای تکمیل ارزیابیهای انسانی خود به منظور سنجش دقت ابزار مستندسازی مبتنی بر GPT خود استفاده کرده است.
چون کد کاملاً متنباز است، Evals از نوشتن کلاسهای جدید برای پیادهسازی منطق ارزیابی سفارشی(در یک پنجره جدید باز میشود) پشتیبانی میکند. با این حال، طبق تجربه خودمان، بسیاری از معیارها یکی از چند «قالب» را دنبال میکنند، بنابراین ما نیز قالبهایی را که در داخل بسیار مفید بودهاند، گنجاندهایم (از جمله یک قالب برای «ارزیابیهای درجهبندی مدل» - ما دریافتیم که GPT‑4 به طرز شگفتانگیزی قادر به بررسی کارهای خود است).(در یک پنجره جدید باز میشود) به طور کلی، مؤثرترین راه برای ساخت یک eval جدید(در یک پنجره جدید باز میشود) این است که یکی از این قالبها را همراه با ارائه دادهها نمونهسازی کنید. ما مشتاقیم ببینیم دیگران با این الگوها و به طور کلی با Evals چه چیزهایی میتوانند بسازند.
ما امیدواریم که Evals به ابزاری برای به اشتراک گذاشتن و جمعآوری معیارها تبدیل شود، که نشاندهندهی مجموعهای از حالتهای شکست و وظایف دشوار با حداکثر گستردگی باشد. به عنوان یک مثال برای پیروی، ما یک ارزیابی پازل منطقی(در یک پنجره جدید باز میشود) ایجاد کردهایم که شامل ده درخواست است که GPT‑4 در آنها شکست میخورد. Evals همچنین با پیادهسازی معیارهای موجود سازگار است؛ ما چندین نوتبوک(در یک پنجره جدید باز میشود) پیادهسازی معیارهای دانشگاهی و چند نوع ادغام (زیرمجموعههای کوچک از) CoQA(در یک پنجره جدید باز میشود) را بهعنوان مثال درج کردهایم.
ما از همه دعوت میکنیم تا از Evals برای آزمایش مدلهای ما استفاده کنند و جالبترین مثالها را ارائه دهند. ما باور داریم که Evals بخشی جداییناپذیر از فرآیند استفاده و توسعه بر روی مدلهای ما خواهد بود و از مشارکتهای مستقیم، سوالات و بازخوردها(در یک پنجره جدید باز میشود) استقبال میکنیم.
مشترکین ChatGPT Plus به GPT‑4 در chatgpt.com(در یک پنجره جدید باز میشود) با محدودیت استفاده دسترسی خواهند داشت. ما سقف دقیق استفاده را بسته به تقاضا و عملکرد سیستم در عمل تنظیم خواهیم کرد، اما انتظار داریم که ظرفیت به شدت محدود شود (هرچند در ماههای آینده مقیاسبندی و بهینهسازی خواهیم کرد).
بسته به الگوهای ترافیکی که مشاهده میکنیم، ممکن است سطح اشتراک جدیدی را برای استفاده با حجم بالاتر از GPT‑4 معرفی کنیم؛ همچنین امیدواریم در مقطعی تعدادی درخواست رایگان GPT‑4 ارائه دهیم تا کسانی که اشتراک ندارند نیز بتوانند آن را امتحان کنند.
برای دسترسی به API مربوط به GPT‑4 (که از همان API مربوط به ChatCompletions(در یک پنجره جدید باز میشود) که در gpt-3.5-turbo استفاده میشود) استفاده میکند، لطفاً در لیست انتظار ما ثبتنام کن. ما امروز شروع به دعوت از برخی توسعهدهندهها میکنیم و به تدریج ظرفیت را با تقاضا متعادل میکنیم. اگر محققی هستی که در حال مطالعه تأثیر اجتماعی هوش مصنوعی یا مسائل هماهنگی هوش مصنوعی هستی، میتونی از طریق برنامه دسترسی محققان برای دسترسی یارانهای درخواست بدی.
پس از دسترسی، میتوانید درخواستهای فقط متنی را به مدل gpt-4 ارسال کنید (ورودیهای تصویر هنوز در نسخه آلفای محدود هستند)، که ما به طور خودکار آن را با ایجاد نسخههای جدید در طول زمان به مدل پایدار پیشنهادی خود بهروزرسانی خواهیم کرد (میتوانید نسخه فعلی را با تماس با gpt-4-0314 پین کنید، که ما تا 14 ژوئن از آن پشتیبانی خواهیم کرد). قیمت 0.03 دلار برای هر 1K توکن فوری و 0.06 دلار برای هر 1K توکن تکمیل است. محدودیت نرخ پیشفرض 40k توکن در دقیقه و 200 درخواست در دقیقه است.
gpt-4 دارای طول زمینهای برابر با 8192 توکن است. ما همچنین دسترسی محدودی به نسخه 32768-context (حدود 50 صفحه متن) خود، gpt-4-32k، ارائه میدهیم که به مرور زمان به طور خودکار بهروزرسانی خواهد شد (نسخه فعلی gpt-4-32k-0314، که تا 14 ژوئن نیز پشتیبانی میشود). قیمت 0.06 دلار برای هر 1K token فوری و 0.12 دلار برای هر 1K token تکمیل است. ما همچنان در حال بهبود کیفیت مدل برای زمینههای طولانی هستیم و دوست داریم بازخوردی درباره نحوه عملکرد آن برای مورد استفادهات دریافت کنیم. ما درخواستهای مربوط به موتورهای 8K و 32K را با نرخهای مختلف و بر اساس ظرفیت پردازش میکنیم، بنابراین ممکن است در زمانهای مختلفی به آنها دسترسی داشته باشید.
ما مشتاقانه منتظریم که GPT‑4 با قدرت بخشیدن به بسیاری از برنامهها، به ابزاری ارزشمند در بهبود زندگی مردم تبدیل شود. هنوز کارهای زیادی برای انجام دادن وجود دارد و ما مشتاقانه منتظر بهبود این مدل از طریق تلاشهای جمعی جامعه که بر روی مدل کار میکنند، کاوش و مشارکت در مدل هستیم.
برای اطلاعات بیشتر: مقاله را بخوانید(در یک پنجره جدید باز میشود) / کارت سیستم را مشاهده کنید(در یک پنجره جدید باز میشود) / ChatGPT Plus را امتحان کنید(در یک پنجره جدید باز میشود) / در Playground امتحان کنید(در یک پنجره جدید باز میشود) / پخش زنده دمو را دوباره تماشا کنید(در یک پنجره جدید باز میشود) / در OpenAI Evals مشارکت کنید(در یک پنجره جدید باز میشود)
Example of MMLU questions, translated into other languages. Note, we use consistent choice tokens (A–D):
Footnotes
- A
We evaluate this benchmark using Chain-Of-Thought prompting with 4 examples from the training set in-context. The specific prompt was tuned on the validation set.
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(در یک پنجره جدید باز میشود).


