۲۳ اسفند ۱۴۰۱

GPT‑4

مقاله را بخوانید کارت سیستم را ببینید ChatGPT Plus را امتحان کنید

منابع بیشتر

در Playground امتحان کنید پخش زنده دمو را دوباره تماشا کنید در ارزیابی‌های OpenAI مشارکت کنید

در حال بارگذاری…

ما GPT‑4 را ایجاد کرده‌ایم، که آخرین نقطه عطف در تلاش OpenAI برای گسترش یادگیری عمیق است. GPT‑4 یک مدل چندوجهی بزرگ است که ورودی‌های تصویر و متن را می‌پذیرد و خروجی‌های متنی تولید می‌کند. این مدل، اگرچه در بسیاری از سناریوهای واقعی توانایی کمتری نسبت به انسان دارد، اما در معیارهای مختلف حرفه‌ای و دانشگاهی عملکردی در سطح انسان نشان می‌دهد. به عنوان مثال، یک آزمون وکالت شبیه‌سازی‌شده را با نمره‌ای در حدود 10 درصد برتر شرکت‌کنندگان در آزمون می‌گذراند؛ در مقابل، GPT‑3.5 امتیاز حدوداً جزو 10% پایین بود. ما شش ماه را صرف هماهنگ‌سازی تدریجی GPT‑4 با استفاده از درس‌های برنامه تست مخالفانه و همچنین ChatGPT کردیم که نتیجه آن بهترین نتایج ما (هرچند هنوز کامل نیست) در مورد واقعیت، هدایت‌پذیری و امتناع از خروج از محدودیت‌ها به دست آمد.⁠

در طول دو سال گذشته، ما کل مجموعه یادگیری عمیق خود را بازسازی کردیم و به همراه Azure، یک ابررایانه را از پایه برای حجم کاری خود طراحی کردیم. یک سال پیش، ما GPT‑3.5 را به عنوان اولین «آزمون آزمایشی» سیستم آموزش دادیم. ما چندتا از باگ‌ها رو پیدا کردیم و رفع کردیم و مبانی نظری‌مون رو بهبود دادیم. در نتیجه، دوره آموزشی GPT‑4 ما (حداقل برای ما!) به طرز بی‌سابقه‌ای پایدار بود و به اولین مدل بزرگ ما تبدیل شد که عملکرد آموزشی آن را توانستیم به‌طور دقیق از پیش پیش‌بینی کنیم. همانطور که ما همچنان بر مقیاس‌بندی قابل‌اعتماد تمرکز می‌کنیم، قصد داریم روش‌شناسی خود را بهبود دهیم تا به ما در پیش‌بینی و آماده‌سازی برای قابلیت‌های آینده که به طور فزاینده‌ای از پیش برنامه‌ریزی شده‌اند، کمک کند—چیزی که ما آن را برای ایمنی حیاتی می‌دانیم.

ما قابلیت ورودی متن GPT‑4 را از طریق ChatGPT و API (با لیست انتظار⁠) منتشر می‌کنیم. برای آماده‌سازی قابلیت ورودی تصویر برای دسترسی گسترده‌تر، ما در ابتدا با یک شریک⁠(در یک پنجره جدید باز می‌شود) همکاری نزدیک داریم. ما همچنین OpenAI Evals⁠(در یک پنجره جدید باز می‌شود)، چارچوب خود را برای ارزیابی خودکار عملکرد مدل‌های هوش مصنوعی، متن‌باز می‌کنیم تا هر کسی بتواند کاستی‌های مدل‌های ما را گزارش کند و به راهنمایی پیشرفت‌های بیشتر کمک کند.

قابلیت‌ها

در یک مکالمه غیررسمی، تفاوت بین GPT‑3.5 و GPT‑4 می‌تواند نامحسوس باشد. تفاوت زمانی آشکار می‌شود که پیچیدگی کار به آستانه کافی برسد—GPT‑4 قابل‌اعتمادتر، خلاق‌تر و قادر به مدیریت دستورالعمل‌های بسیار ظریف‌تر از GPT‑3.5 است.

برای اینکه تفاوت بین این دو مدل را بفهمی، ما روی معیارهای مختلفی از جمله شبیه‌سازی امتحاناتی که در اصل برای انسان‌ها طراحی شده بودند، آزمایش کردیم. ما با استفاده از جدیدترین آزمون‌های در دسترس عموم (در مورد المپیادها و سوالات پاسخنامه رایگان AP) یا با خرید نسخه‌های 2022-2023 از آزمون‌های آزمایشی، کار را ادامه دادیم. ما هیچ آموزش خاصی برای این امتحانات انجام ندادیم. اقلیتی از مشکلات در امتحانات توسط مدل در طول آموزش مشاهده شد، اما ما معتقدیم که نتایج نمایانگر هستند - برای جزئیات به گزارش فنی⁠(در یک پنجره جدید باز می‌شود) ما مراجعه کنید.

ارجاع داخلی ¹

در حال بارگذاری...

ما همچنین GPT‑4 را بر روی معیارهای سنتی طراحی شده برای مدل‌های یادگیری ماشین ارزیابی کردیم. GPT‑4 به طور قابل توجهی از مدل‌های بزرگ زبان موجود بهتر عمل می‌کند، همچنین از اکثر مدل‌های پیشرفته (SOTA) که ممکن است شامل ساخت مخصوص بنچمارک یا پروتکل‌های آموزشی اضافی باشند، پیشی می‌گیرد:

در حال بارگذاری...

بسیاری از معیارهای یادگیری ماشین موجود به زبان انگلیسی نوشته شده‌اند. برای به دست آوردن حس اولیه از توانایی در زبان‌های دیگر، ما معیار MMLU - مجموعه‌ای از ۱۴,۰۰۰ مسئله چندگزینه‌ای در ۵۷ موضوع - را با استفاده از Azure Translate به زبان‌های مختلف ترجمه کردیم (به پیوست⁠ مراجعه کنید). در 24 زبان از 26 زبان آزمایش‌شده، GPT‑4 از عملکرد زبان انگلیسی GPT‑3.5 و سایر LLMها (چینچیلا، PaLM) بهتر عمل می‌کند، از جمله برای زبان‌های کم‌منبع مانند لتونیایی، ولزی و سواحیلی:

در حال بارگذاری...

ما همچنین از GPT‑4 به صورت داخلی استفاده کرده‌ایم که تأثیر زیادی بر عملکردهایی مانند پشتیبانی، فروش، مدیریت محتوا و برنامه‌نویسی داشته است. ما همچنین از آن برای کمک به انسان‌ها در ارزیابی خروجی‌های هوش مصنوعی استفاده می‌کنیم و مرحله دوم استراتژی همسویی⁠ خود را آغاز می‌کنیم.

ورودی‌های بصری

GPT‑4 می‌تواند یک فرمان شامل متن و تصاویر را بپذیرد که به‌طور موازی با تنظیمات فقط متن، به کاربر اجازه می‌دهد هر وظیفه دیداری یا زبانی را مشخص کند. به طور خاص، خروجی‌های متنی (زبان طبیعی، کد و غیره) را با توجه به ورودی‌هایی که شامل متن و تصاویر درهم‌تنیده هستند، تولید می‌کند. در طیف وسیعی از حوزه‌ها - از جمله اسناد حاوی متن و عکس، نمودارها یا اسکرین‌شات‌ها - GPT‑4 قابلیت‌های مشابهی را مانند ورودی‌های متنی نشان می‌دهد. علاوه بر این، می‌توان آن را با تکنیک‌های زمان آزمون که برای مدل‌های زبان فقط متنی توسعه یافته‌اند، از جمله تحریک چندگانه و زنجیره‌ای از افکار⁠(در یک پنجره جدید باز می‌شود) تقویت کرد. ورودی‌های تصویر هنوز در مرحله پیش‌نمایش تحقیقاتی هستند و به‌صورت عمومی در دسترس نیستند.

در حال بارگذاری...

ما عملکرد GPT‑4 را با ارزیابی آن بر روی مجموعه‌ای محدود از معیارهای استاندارد بینایی آکادمیک، پیش‌نمایش می‌کنیم. با این حال، این اعداد به طور کامل نشان‌دهندهٔ گسترهٔ قابلیت‌های آن نیستند، زیرا ما دائماً در حال کشف وظایف جدید و هیجان‌انگیزی هستیم که مدل قادر به انجام آن‌ها است. ما قصد داریم به زودی تجزیه و تحلیل‌ها و اعداد ارزیابی بیشتری را به همراه بررسی کامل تأثیر تکنیک‌های زمان تست منتشر کنیم.

پاورقی داخلی^A

در حال بارگذاری...

قابلیت هدایت

ما در حال کار بر روی هر جنبه از برنامه ای که در پست خود در مورد تعریف رفتار هوش مصنوعی از جمله قابلیت هدایت⁠ است، کار کرده ایم. به جای شخصیت کلاسیک ChatGPT با پرگویی، لحن و سبک ثابت، توسعه‌دهندگان (و به زودی کاربران ChatGPT) اکنون می‌توانند سبک و وظیفه هوش مصنوعی خود را با توصیف آن دستورالعمل‌ها در پیام «سیستم» تعیین کنند. پیام‌های سیستم به کاربران API اجازه می‌دهند تا تجربه کاربران خود را به طور قابل توجهی در چارچوب‌ها⁠(در یک پنجره جدید باز می‌شود) سفارشی کنند. ما به بهبودها در اینجا ادامه خواهیم داد (و به‌ویژه می‌دانیم که پیام‌های سیستم ساده‌ترین راه برای «جیلبرک» مدل فعلی هستند، یعنی پایبندی به مرزها کامل نیست)، اما شما را تشویق می‌کنیم که آن را امتحان کنید و نظر خود را به ما بگویید.

در حال بارگذاری...

محدودیت‌ها

با وجود قابلیت‌هایش، GPT‑4 محدودیت‌هایی مشابه مدل‌های قبلی GPT دارد. مهم‌تر از همه، هنوز کاملاً قابل اعتماد نیست (حقایق را «توهم» می‌کند و اشتباهات منطقی مرتکب می‌شود). باید هنگام استفاده از خروجی‌های مدل زبان، به‌ویژه در زمینه‌های پرمخاطره، دقت زیادی کرد. پروتکل دقیق (مانند بررسی انسانی، استفاده از زمینه اضافی، یا اجتناب کامل از استفاده‌های پرمخاطره) باید با نیازهای یک مورد استفاده خاص مطابقت داشته باشد.

اگرچه هنوز یک مشکل واقعی است، GPT‑4 به طور قابل توجهی توهمات را نسبت به مدل‌های قبلی (که خودشان با هر تکرار در حال بهبود بوده‌اند) کاهش می‌دهد. GPT‑4 در ارزیابی‌های داخلی ما برای سنجش واقعیت‌های مخالف، 40% بهتر از آخرین GPT‑3.5 ما عمل می‌کند:

در حال بارگذاری...

ما در معیارهای خارجی مانند TruthfulQA پیشرفت کرده‌ایم که توانایی مدل را در جدا کردن واقعیت از مجموعه‌ای از اظهارات نادرست که به‌طور خصمانه انتخاب شده‌اند، آزمایش می‌کند. این سوالات با پاسخ‌های نادرست از نظر واقعی همراه هستند که از نظر آماری جذاب به نظر می‌رسند.

در حال بارگذاری...

مدل پایه GPT‑4 در این کار تنها کمی بهتر از GPT‑3.5 است؛ با این حال، پس از آموزش RLHF⁠ (با اعمال همان فرآیندی که با GPT‑3.5⁠ استفاده کردیم) یک شکاف بزرگ وجود دارد. با بررسی برخی از نمونه‌های زیر، GPT‑4 در برابر انتخاب گفته‌های رایج مقاومت می‌کند (نمی‌تونی به یه سگ پیر ترفندهای جدید یاد بدی)، با این حال هنوز می‌تونه جزئیات ظریف رو از دست بده (الویس پریسلی پسر یک بازیگر نبود).

در حال بارگذاری...

این مدل می‌تواند در خروجی‌های خود سوگیری‌های مختلفی داشته باشد - ما در این موارد پیشرفت‌هایی داشته‌ایم، اما هنوز کارهای بیشتری برای انجام دادن وجود دارد. طبق پست اخیر وبلاگمان⁠ ، هدف ما این است که سیستم‌های هوش مصنوعی که می‌سازیم، رفتارهای پیش‌فرض معقولی داشته باشند که طیف وسیعی از ارزش‌های کاربران را منعکس کند، به این سیستم‌ها اجازه دهد تا در محدوده‌های وسیعی سفارشی‌سازی شوند و در مورد اینکه این محدوده‌ها باید چه باشند، از عموم مردم نظرخواهی کنیم.

GPT‑4 عموماً فاقد آگاهی از وقایعی است که پس از قطع بخش عمده‌ای از داده‌هایش (سپتامبر 2021) رخ داده‌اند و از تجربیات خود درس نمی‌گیرد. گاهی اوقات می‌تواند اشتباهات استدلالی ساده‌ای مرتکب شود که به نظر نمی‌رسد با شایستگی در بسیاری از حوزه‌ها همخوانی داشته باشد، یا در پذیرش اظهارات نادرست آشکار از یک کاربر بیش از حد ساده‌لوح باشد. و گاهی اوقات می‌تواند در مسائل دشوار مانند انسان‌ها شکست بخورد، مثلاً آسیب‌پذیری‌های امنیتی را در کدی که تولید می‌کند، وارد کند.

GPT‑4 همچنین می‌تواند با اطمینان در پیش‌بینی‌های خود اشتباه کند، و وقتی احتمال اشتباه وجود دارد، دقت لازم را برای بررسی مجدد کار انجام نمی‌دهد. جالب است که مدل پایه از پیش آموزش‌دیده بسیار تنظیم شده است (اعتماد پیش‌بینی‌شده آن در پاسخ‌ها به‌طور کلی با احتمال درست بودن مطابقت دارد). با این حال، از طریق فرآیند فعلی پس از آموزش، کالیبراسیون کاهش پیدا می‌کند.

در حال بارگذاری...

خطرات و راهکارهای کاهش آنها

ما از ابتدای آموزش، با تلاش هایی از جمله انتخاب و فیلتر کردن داده های پیش آموزش، ارزیابی ها و مشارکت متخصصان، بهبود ایمنی مدل، و نظارت و اجرا، روی GPT‑4 تکرار کرده ایم تا آن را ایمن تر و هماهنگ تر کنیم.

GPT‑4 خطرات مشابهی مانند مدل‌های قبلی، مانند تولید توصیه‌های مضر، کد دارای باگ یا اطلاعات نادرست، ایجاد می‌کند. با این حال، قابلیت‌های اضافی GPT‑4 به سطوح جدیدی از ریسک منجر می‌شود. برای درک میزان این خطرات، ما بیش از 50 متخصص از حوزه‌هایی مانند خطرات همسویی هوش مصنوعی، امنیت سایبری، ریسک زیستی، اعتماد و ایمنی و امنیت بین‌المللی را برای آزمایش خصمانه مدل به کار گرفتیم. یافته‌های آن‌ها به‌طور خاص ما را قادر ساخت تا رفتار مدل را در مناطق پرخطر که نیاز به تخصص برای ارزیابی دارند، آزمایش کنیم. بازخورد و داده‌های این کارشناسان به کاهش و بهبودهای ما برای مدل کمک کرد؛ به عنوان مثال، ما داده‌های بیشتری را برای بهبود توانایی GPT‑4 در رد درخواست‌ها درباره نحوه سنتز مواد شیمیایی خطرناک جمع‌آوری کرده‌ایم.

GPT‑4 یک سیگنال پاداش ایمنی اضافی را در طول آموزش RLHF برای کاهش خروجی های مضر (همانطور که در دستورالعمل های استفاده ما تعریف شده است) با⁠(در یک پنجره جدید باز می‌شود) آموزش مدل برای رد درخواست ها برای چنین محتوایی استفاده می کند. پاداش توسط یک طبقه‌بندی‌کننده شات صفر GPT‑4 ارائه می‌شود که مرزهای ایمنی و سبک تکمیل را در درخواست‌های مرتبط با ایمنی ارزیابی می‌کند. برای جلوگیری از اینکه مدل درخواست‌های معتبر را رد کند، ما یک مجموعه داده متنوع از منابع مختلف (مانند داده‌های تولید برچسب‌گذاری شده، تیم قرمز انسانی، اعلان‌های تولید شده توسط مدل) جمع‌آوری می‌کنیم و سیگنال پاداش ایمنی (با مقدار مثبت یا منفی) را بر روی هر دو دسته مجاز و غیرمجاز اعمال می‌کنیم.

اقدامات کاهشی ما بسیاری از ویژگی‌های ایمنی GPT‑4 را در مقایسه با GPT‑3.5 به طور قابل توجهی بهبود بخشیده است. ما تمایل مدل را برای پاسخ به درخواست‌های محتوای غیرمجاز ۸۲٪ در مقایسه با GPT‑3.5 کاهش داده‌ایم و GPT‑4 به درخواست‌های حساس (مانند مشاوره پزشکی و خودآزاری) مطابق با سیاست‌های ما ۲۹٪ بیشتر پاسخ می‌دهد.

در حال بارگذاری...

در مجموع، مداخلات سطح مدل ما، دشواری برانگیختن رفتار بد را افزایش می‌دهد، اما انجام این کار هنوز امکان‌پذیر است. علاوه بر این، هنوز روش‌هایی برای دور زدن محدودیت‌ها وجود دارد که برای تولید محتوایی استفاده می‌شوند که دستورالعمل‌های استفاده⁠ ما را نقض می‌کنند. با افزایش «ریسک به ازای هر توکن» سیستم‌های هوش مصنوعی، دستیابی به درجه بسیار بالایی از قابلیت اطمینان در این مداخله‌ها بسیار مهم خواهد شد؛ در حال حاضر مهم است که این محدودیت‌ها را با تکنیک‌های ایمنی زمان استقرار مانند نظارت بر سوءاستفاده تکمیل کنید.

GPT‑4 و مدل‌های جانشین آن پتانسیل این را دارند که به طور قابل توجهی بر جامعه از هر دو طریق مفید و مضر تأثیر بگذارند. ما با پژوهشگران خارجی همکاری می‌کنیم تا نحوه درک و ارزیابی تأثیرات بالقوه را بهبود دهیم و همچنین ارزیابی‌هایی برای قابلیت‌های خطرناکی که ممکن است در سیستم‌های آینده پدیدار شوند، بسازیم. به زودی بیشتر از دیدگاه‌های خود درباره تأثیرات اجتماعی و اقتصادی احتمالی GPT‑4 و دیگر سیستم‌های هوش مصنوعی را به اشتراک خواهیم گذاشت.

فرآیند آموزش

مانند مدل‌های قبلی GPT، مدل پایه GPT‑4 برای پیش‌بینی کلمه بعدی در یک سند آموزش داده شده است و با استفاده از داده‌های عمومی موجود (مانند داده‌های اینترنتی) و همچنین داده‌هایی که مجوز آن‌ها را داریم، آموزش داده شده است. این داده‌ها مجموعه‌ای در مقیاس وب است که شامل راه‌حل‌های درست و نادرست برای مسائل ریاضی، استدلال‌های ضعیف و قوی، اظهارات متناقض و سازگار، و نمایانگر تنوع زیادی از ایدئولوژی‌ها و ایده‌ها است.

بنابراین وقتی سوالی از مدل پایه پرسیده می‌شود، این مدل می‌تواند به روش‌های بسیار متنوعی پاسخ دهد که ممکن است با هدف کاربر فاصله زیادی داشته باشد. برای هماهنگ کردن آن با قصد کاربر در چارچوب‌های تعیین‌شده، رفتار مدل را با استفاده از یادگیری تقویتی با بازخورد انسانی (RLHF) تنظیم می‌کنیم.⁠

توجه داشته باشید که به نظر می‌رسد قابلیت‌های مدل عمدتاً از فرآیند پیش از آموزش ناشی می‌شود - RLHF عملکرد امتحان را بهبود نمی‌بخشد (بدون تلاش فعال، در واقع آن را تضعیف می‌کند). اما هدایت مدل از فرآیند پس از آموزش ناشی می‌شود - مدل پایه نیاز به مهندسی درخواست دارد تا حتی بداند که باید به سوالات پاسخ دهد.

مقیاس‌پذیری پیش‌بینی‌پذیر

تمرکز بزرگ پروژه GPT‑4 بر ساخت یک پشته یادگیری عمیق است که به طور قابل پیش بینی مقیاس می شود. دلیل اصلی این است که برای آموزش‌های بسیار بزرگ مانند GPT‑4، انجام تنظیمات گسترده مخصوص مدل امکان‌پذیر نیست. ما زیرساخت و بهینه‌سازی‌هایی را توسعه دادیم که رفتار بسیار قابل پیش‌بینی در مقیاس‌های مختلف دارند. برای تأیید این مقیاس پذیری، با استنتاج از مدلهای آموزش دیده با استفاده از همان روش آموزش، اما با استفاده از محاسبات 10000 برابر کمتر، از قبل، خسارت نهایی GPT‑4 را در پایگاه کد داخلی خود (نه بخشی از مجموعه آموزش) پیش بینی کردیم:

در حال بارگذاری...

اکنون که می‌توانیم معیاری را که در طول آموزش بهینه می‌کنیم (loss) به طور دقیق پیش‌بینی کنیم، شروع به توسعه روشی برای پیش‌بینی معیارهای قابل تفسیرتر کرده‌ایم. به عنوان مثال، ما با موفقیت نرخ قبولی را در زیرمجموعه‌ای از مجموعه داده HumanEval⁠(در یک پنجره جدید باز می‌شود) پیش‌بینی کردیم و از مدل‌هایی با 1000 برابر محاسبات کمتر نتیجه‌گیری کردیم:

در حال بارگذاری...

پیش‌بینی برخی از قابلیت‌ها هنوز دشوار است. به عنوان مثال، جایزه مقیاس معکوس یک رقابت برای یافتن معیاری بود که با افزایش محاسبات مدل بدتر می‌شود و غفلت از گذشته⁠(در یک پنجره جدید باز می‌شود) یکی از برندگان بود. درست مانند یک نتیجه⁠(در یک پنجره جدید باز می‌شود) اخیر دیگر، GPT‑4 روند را معکوس می‌کند:

در حال بارگذاری...

ما معتقدیم که پیش‌بینی دقیق قابلیت‌های یادگیری ماشینی در آینده، بخش مهمی از ایمنی است که به اندازه کافی و متناسب با تأثیر بالقوه‌اش مورد توجه قرار نمی‌گیرد (اگرچه تلاش‌های چندین مؤسسه ما را در این زمینه دلگرم کرده است). ما در حال افزایش تلاش‌هایمان برای توسعه روش‌هایی هستیم که به جامعه راهنمایی بهتری درباره آنچه از سیستم‌های آینده انتظار می‌رود، ارائه دهد و امیدواریم این به یک هدف مشترک در این حوزه تبدیل شود.

OpenAI Evals

ما OpenAI Evals⁠(در یک پنجره جدید باز می‌شود) را به صورت منبع باز منتشر می‌کنیم، چارچوب نرم‌افزاری ما برای ایجاد و اجرای معیارها برای ارزیابی مدل‌هایی مانند GPT‑4، در حالی که عملکرد آنها را نمونه به نمونه بررسی می‌کنیم. ما از Evals برای راهنمایی توسعه مدل‌هامون استفاده می‌کنیم (هم شناسایی کاستی‌ها و هم جلوگیری از رگرسیون) و کاربرامون می‌تونن ازش برای ردیابی عملکرد در نسخه‌های مدل (که حالا به طور منظم عرضه می‌شن) و ادغام‌های محصول در حال توسعه استفاده کنن. به عنوان مثال، Stripe از Evals برای تکمیل ارزیابی‌های انسانی خود به منظور سنجش دقت ابزار مستندسازی مبتنی بر GPT خود استفاده کرده است.

چون کد کاملاً متن‌باز است، Evals از نوشتن کلاس‌های جدید برای پیاده‌سازی منطق ارزیابی سفارشی⁠(در یک پنجره جدید باز می‌شود) پشتیبانی می‌کند. با این حال، طبق تجربه خودمان، بسیاری از معیارها یکی از چند «قالب» را دنبال می‌کنند، بنابراین ما نیز قالب‌هایی را که در داخل بسیار مفید بوده‌اند، گنجانده‌ایم (از جمله یک قالب برای «ارزیابی‌های درجه‌بندی مدل» - ما دریافتیم که GPT‑4 به طرز شگفت‌انگیزی قادر به بررسی کارهای خود است).⁠(در یک پنجره جدید باز می‌شود) به طور کلی، مؤثرترین راه برای ساخت یک eval جدید⁠(در یک پنجره جدید باز می‌شود) این است که یکی از این قالب‌ها را همراه با ارائه داده‌ها نمونه‌سازی کنید. ما مشتاقیم ببینیم دیگران با این الگوها و به طور کلی با Evals چه چیزهایی می‌توانند بسازند.

ما امیدواریم که Evals به ابزاری برای به اشتراک گذاشتن و جمع‌آوری معیارها تبدیل شود، که نشان‌دهنده‌ی مجموعه‌ای از حالت‌های شکست و وظایف دشوار با حداکثر گستردگی باشد. به عنوان یک مثال برای پیروی، ما یک ارزیابی پازل منطقی⁠(در یک پنجره جدید باز می‌شود) ایجاد کرده‌ایم که شامل ده درخواست است که GPT‑4 در آن‌ها شکست می‌خورد. Evals همچنین با پیاده‌سازی معیارهای موجود سازگار است؛ ما چندین نوت‌بوک⁠(در یک پنجره جدید باز می‌شود) پیاده‌سازی معیارهای دانشگاهی و چند نوع ادغام (زیرمجموعه‌های کوچک از) CoQA⁠(در یک پنجره جدید باز می‌شود) را به‌عنوان مثال درج کرده‌ایم.

ما از همه دعوت می‌کنیم تا از Evals برای آزمایش مدل‌های ما استفاده کنند و جالب‌ترین مثال‌ها را ارائه دهند. ما باور داریم که Evals بخشی جدایی‌ناپذیر از فرآیند استفاده و توسعه بر روی مدل‌های ما خواهد بود و از مشارکت‌های مستقیم، سوالات و بازخوردها⁠(در یک پنجره جدید باز می‌شود) استقبال می‌کنیم.

ChatGPT Plus

مشترکین ChatGPT Plus به GPT‑4 در chatgpt.com⁠(در یک پنجره جدید باز می‌شود) با محدودیت استفاده دسترسی خواهند داشت. ما سقف دقیق استفاده را بسته به تقاضا و عملکرد سیستم در عمل تنظیم خواهیم کرد، اما انتظار داریم که ظرفیت به شدت محدود شود (هرچند در ماه‌های آینده مقیاس‌بندی و بهینه‌سازی خواهیم کرد).

بسته به الگوهای ترافیکی که مشاهده می‌کنیم، ممکن است سطح اشتراک جدیدی را برای استفاده با حجم بالاتر از GPT‑4 معرفی کنیم؛ همچنین امیدواریم در مقطعی تعدادی درخواست رایگان GPT‑4 ارائه دهیم تا کسانی که اشتراک ندارند نیز بتوانند آن را امتحان کنند.

API

برای دسترسی به API مربوط به GPT‑4 (که از همان API مربوط به ChatCompletions⁠(در یک پنجره جدید باز می‌شود) که در gpt-3.5-turbo استفاده می‌شود) استفاده می‌کند، لطفاً در لیست انتظار ما ثبت‌نام کن⁠. ما امروز شروع به دعوت از برخی توسعه‌دهنده‌ها می‌کنیم و به تدریج ظرفیت را با تقاضا متعادل می‌کنیم. اگر محققی هستی که در حال مطالعه تأثیر اجتماعی هوش مصنوعی یا مسائل هماهنگی هوش مصنوعی هستی، می‌تونی از طریق برنامه دسترسی محققان⁠ برای دسترسی یارانه‌ای درخواست بدی.

پس از دسترسی، می‌توانید درخواست‌های فقط متنی را به مدل gpt-4 ارسال کنید (ورودی‌های تصویر هنوز در نسخه آلفای محدود هستند)، که ما به طور خودکار آن را با ایجاد نسخه‌های جدید در طول زمان به مدل پایدار پیشنهادی خود به‌روزرسانی خواهیم کرد (می‌توانید نسخه فعلی را با تماس با gpt-4-0314 پین کنید، که ما تا 14 ژوئن از آن پشتیبانی خواهیم کرد). قیمت 0.03 دلار برای هر 1K توکن فوری و 0.06 دلار برای هر 1K توکن تکمیل است. محدودیت نرخ پیش‌فرض 40k توکن در دقیقه و 200 درخواست در دقیقه است.

gpt-4 دارای طول زمینه‌ای برابر با 8192 توکن است. ما همچنین دسترسی محدودی به نسخه 32768-context (حدود 50 صفحه متن) خود، gpt-4-32k، ارائه می‌دهیم که به مرور زمان به طور خودکار به‌روزرسانی خواهد شد (نسخه فعلی gpt-4-32k-0314، که تا 14 ژوئن نیز پشتیبانی می‌شود). قیمت 0.06 دلار برای هر 1K token فوری و 0.12 دلار برای هر 1K token تکمیل است. ما همچنان در حال بهبود کیفیت مدل برای زمینه‌های طولانی هستیم و دوست داریم بازخوردی درباره نحوه عملکرد آن برای مورد استفاده‌ات دریافت کنیم. ما درخواست‌های مربوط به موتورهای 8K و 32K را با نرخ‌های مختلف و بر اساس ظرفیت پردازش می‌کنیم، بنابراین ممکن است در زمان‌های مختلفی به آنها دسترسی داشته باشید.

نتیجه‌گیری

ما مشتاقانه منتظریم که GPT‑4 با قدرت بخشیدن به بسیاری از برنامه‌ها، به ابزاری ارزشمند در بهبود زندگی مردم تبدیل شود. هنوز کارهای زیادی برای انجام دادن وجود دارد و ما مشتاقانه منتظر بهبود این مدل از طریق تلاش‌های جمعی جامعه که بر روی مدل کار می‌کنند، کاوش و مشارکت در مدل هستیم.

برای اطلاعات بیشتر: مقاله را بخوانید⁠(در یک پنجره جدید باز می‌شود) / کارت سیستم را مشاهده کنید⁠(در یک پنجره جدید باز می‌شود) / ChatGPT Plus را امتحان کنید⁠(در یک پنجره جدید باز می‌شود) / در Playground امتحان کنید⁠(در یک پنجره جدید باز می‌شود) / پخش زنده دمو را دوباره تماشا کنید⁠(در یک پنجره جدید باز می‌شود) / در OpenAI Evals مشارکت کنید⁠(در یک پنجره جدید باز می‌شود)

ضمیمه

Example of MMLU questions, translated into other languages. Note, we use consistent choice tokens (A–D):

در حال بارگذاری...

Footnotes

A
We evaluate this benchmark using Chain-Of-Thought prompting with 4 examples from the training set in-context. The specific prompt was tuned on the validation set.

References

1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper⁠(در یک پنجره جدید باز می‌شود).