۱۴ مرداد ۱۴۰۴

معرفی gpt-oss

gpt-oss-120b و gpt-oss-20b مرزهای مدل‌های استدلال با وزن باز را گسترش می‌دهند

کاوش در مورد چهره در آغوش گرفته کارت مدل را بخوانید

در حال بارگذاری…

معرفی

ما در حال انتشار gpt-oss-120b و gpt-oss-20b هستیم - دو مدل زبان متن‌باز پیشرفته که عملکرد قوی در دنیای واقعی را با هزینه کم ارائه می‌دهند. این مدل‌ها تحت مجوز انعطاف‌پذیر Apache 2.0 در دسترس هستند، در وظایف استدلال از open model با اندازه مشابه بهتر عمل می‌کنند، قابلیت‌های قوی در استفاده از ابزارها را نشان می‌دهند و برای استقرار کارآمد بر روی سخت‌افزار مصرف‌کننده بهینه‌سازی شده‌اند. آنها با استفاده از ترکیبی از یادگیری تقویتی و تکنیک‌هایی که توسط پیشرفته‌ترین مدل‌های داخلی OpenAI، از جمله o3 و سایر سیستم‌های پیشرو اطلاع‌رسانی شده‌اند، آموزش دیده‌اند.

مدل gpt-oss-120b در معیارهای استدلال اصلی، تقریباً به برابری با OpenAI o4-mini دست می‌یابد، در حالی که روی یک پردازنده گرافیکی 80 گیگابایتی به طور کارآمد اجرا می‌شود. مدل gpt-oss-20b نتایج مشابهی با OpenAI o3‑mini در معیارهای رایج ارائه می‌دهد و می‌تواند بر روی دستگاه‌های لبه‌ای با تنها 16 گیگابایت حافظه اجرا شود، که آن را برای استفاده‌های روی دستگاه، استنتاج محلی یا تکرار سریع بدون نیاز به زیرساخت‌های پرهزینه ایده‌آل می‌کند. هر دو مدل همچنین در استفاده از ابزار، فراخوانی تابع few-shot، استدلال CoT (همانطور که در نتایج مجموعه ارزیابی عامل Tau-Bench دیده می‌شود) و HealthBench (حتی بهتر از مدل‌های اختصاصی مانند OpenAI o1 و GPT‑4o عمل می‌کنند) عملکرد قوی دارند.

این مدل‌ها با API پاسخ‌های⁠(در یک پنجره جدید باز می‌شود) ما سازگار هستند و به گونه‌ای طراحی شده‌اند که در گردش‌های کاری عامل‌محور با دنبال کردن دستورالعمل‌های استثنایی، استفاده از ابزارهایی مانند جستجوی وب یا اجرای کد پایتون و قابلیت‌های استدلال - از جمله توانایی تنظیم تلاش استدلال برای کارهایی که نیازی به استدلال پیچیده ندارند و/یا خروجی‌های نهایی با تأخیر بسیار کم را هدف قرار می‌دهند - قابل استفاده باشند. آنها کاملاً قابل تنظیم هستند، زنجیره فکری کاملی (CoT) را ارائه می‌دهند و از خروجی‌های ساختاریافته⁠(در یک پنجره جدید باز می‌شود) پشتیبانی می‌کنند.

ایمنی اساس رویکرد ما برای انتشار همه مدل‌هایمان است و برای مدل‌های باز از اهمیت ویژه‌ای برخوردار است. علاوه بر اجرای مدل‌ها از طریق آموزش و ارزیابی‌های جامع ایمنی، ما همچنین یک لایه ارزیابی اضافی را با آزمایش نسخه‌ای از gpt-oss-120b که به‌طور خصمانه تنظیم شده بود، تحت چارچوب آمادگی⁠(در یک پنجره جدید باز می‌شود) خود معرفی کردیم. مدل‌های gpt-oss عملکردی مشابه با مدل‌های پیشرفته ما در معیارهای ایمنی داخلی دارند و استانداردهای ایمنی مشابهی را به توسعه‌دهندگان ارائه می‌دهند که در مدل‌های اختصاصی اخیر ما وجود دارد. ما نتایج آن کار و جزئیات بیشتر را در یک مقاله تحقیقاتی⁠(در یک پنجره جدید باز می‌شود) و در کارت مدل⁠(در یک پنجره جدید باز می‌شود) به اشتراک می‌گذاریم. روش ما توسط کارشناسان خارجی بررسی شد و گامی به جلو در تعیین استانداردهای ایمنی جدید برای مدل‌های وزن آزاد است.

ما همچنین با شرکای اولیه‌ای مانند AI Sweden⁠(در یک پنجره جدید باز می‌شود)، Orange⁠(در یک پنجره جدید باز می‌شود) و Snowflake⁠(در یک پنجره جدید باز می‌شود) همکاری کرده‌ایم تا درباره کاربردهای واقعی open modelهای خود، از میزبانی این مدل‌ها در محل برای امنیت داده‌ها تا تنظیم دقیق آن‌ها بر روی مجموعه داده‌های تخصصی، اطلاعات کسب کنیم. ما خوشحالیم که این open model‌های برتر و بهترین را ارائه می‌دهیم تا همه - از توسعه‌دهندگان فردی گرفته تا شرکت‌های بزرگ و دولت‌ها - بتوانند هوش مصنوعی را بر روی زیرساخت‌های خود اجرا و سفارشی کنند. همراه با مدل‌های موجود در API ما، توسعه‌دهندگان می‌توانند عملکرد، هزینه و تأخیر مورد نیاز برای تقویت گردش‌کارهای هوش مصنوعی را انتخاب کنند.

پیش‌آموزش و معماری مدل

مدل‌های gpt-oss با استفاده از پیشرفته‌ترین تکنیک‌های پیش‌آموزش و پس‌آموزش ما، با تمرکز ویژه بر استدلال، کارایی و قابلیت استفاده در دنیای واقعی در طیف گسترده‌ای از محیط‌های استقرار آموزش داده شدند. در حالی که ما مدل‌های دیگری از جمله Whisper⁠ و CLIP⁠ را به‌طور عمومی در دسترس قرار داده‌ایم، مدل‌های gpt-oss اولین مدل‌های زبان با وزن باز ما از زمان GPT‑2^[1] هستند.

هر مدل یک ترانسفورمر است که از ترکیب متخصصان (MoE^[2]) برای کاهش تعداد پارامترهای فعال مورد نیاز برای پردازش ورودی استفاده می‌کند. gpt-oss-120b پارامترهای 5.1 میلیاردی را در هر token فعال می‌کند، در حالی که gpt-oss-20b پارامترهای 3.6 میلیاردی را فعال می‌کند. مدل‌ها به ترتیب دارای ۱۱۷ میلیارد و ۲۱ میلیارد پارامتر کلی هستند. مدل‌ها از الگوهای توجه متناوب متراکم و پراکنده با باند محلی استفاده می‌کنند، مشابه GPT‑3^[3]. برای استنتاج و کارایی حافظه، مدل‌ها همچنین از توجه چندپرس‌وجوی گروهی با اندازه گروه ۸ استفاده می‌کنند. ما از جاسازی موقعیتی چرخشی (RoPE^[4]) برای رمزگذاری موقعیتی استفاده می‌کنیم و به‌طور بومی از طول زمینه تا 128k پشتیبانی می‌کنیم.

مدل	لایه‌ها	کل پارامترها	پارامترهای فعال برای هر توکن	تعداد کل کارشناسان	تعداد کارشناسان فعال به ازای هر توکن	طول زمینه
gpt-oss-120b	36	117B	5.1B	128	4	128k
gpt-oss-20b	24	21B	3.6B	32	4	128k

ما مدل‌ها را روی یک مجموعه داده عمدتاً انگلیسی و متنی، با تمرکز بر علوم، فناوری، مهندسی، ریاضیات (STEM)، برنامه‌نویسی و دانش عمومی آموزش دادیم. ما داده‌ها را با استفاده از یک سوپرست از توکنایزر خود که برای OpenAI o4-mini و GPT‑4o استفاده می‌شود: o200k_harmony توکن‌سازی کردیم، که امروز نیز آن را به صورت منبع باز منتشر می‌کنیم.

برای اطلاعات بیشتر در مورد معماری و آموزش مدل‌های ما، کارت مدل را⁠(در یک پنجره جدید باز می‌شود) مطالعه کنید.

پس از تمرین

مدل‌ها پس از آموزش با استفاده از فرآیندی مشابه با o4-mini، شامل مرحله تنظیم دقیق تحت نظارت و مرحله RL با محاسبات سنگین، آموزش داده شدند. هدف ما این بود که مدل‌ها را با مشخصات مدل OpenAI⁠(در یک پنجره جدید باز می‌شود) همسو کنیم و به آن آموزش دهیم که قبل از تولید پاسخ، استدلال CoT⁠ و استفاده از ابزار را به کار بگیرد. با استفاده از همان تکنیک‌های مدل‌های استدلال اختصاصی SoTA ما، مدل‌ها پس از آموزش، توانایی‌های استثنایی را نشان می‌دهند.

مشابه مدل‌های استدلال سری o OpenAI در API، دو مدل با وزن باز از سه سطح تلاش استدلالی - کم، متوسط و زیاد - پشتیبانی می‌کنند که بین تأخیر و عملکرد تعادل برقرار می‌کنند. توسعه‌دهندگان می‌توانند به‌راحتی میزان تلاش برای استدلال را با یک جمله در پیام سیستم تنظیم کنند.

ارزیابی‌ها

ما gpt-oss-120b و gpt-oss-20b را بر اساس معیارهای استاندارد آکادمیک ارزیابی کردیم تا قابلیت‌های آنها در برنامه‌نویسی، ریاضیات رقابتی، سلامت و استفاده از ابزارهای عامل را در مقایسه با سایر مدل‌های استدلال OpenAI از جمله o3، o3‑mini و o4-mini بسنجیم.

gpt-oss-120b از OpenAI o3‑mini بهتر عمل می‌کند و در کدنویسی رقابتی (Codeforces)، حل مسئله عمومی (MMLU و HLE) و فراخوانی ابزار (TauBench) با OpenAI o4-mini برابری می‌کند یا از آن پیشی می‌گیرد. علاوه بر این، حتی بهتر از o4-mini در پرسش‌های مربوط به سلامت (HealthBench⁠) و ریاضیات مسابقه‌ای (AIME 2024 و 2025) عمل می‌کند. gpt-oss-20b با OpenAI o3‑mini در همین ارزیابی‌ها مطابقت دارد یا از آن فراتر می‌رود، با وجود اندازه کوچک، حتی در ریاضیات رقابتی و سلامت از آن بهتر عمل می‌کند.

مدل‌های gpt-oss جایگزین متخصص پزشکی نمی‌شوند و برای تشخیص یا درمان بیماری در نظر گرفته نشده‌اند

نمونه‌های پیاده‌سازی

[...]

You're OpenAI's newest open-weight language model gpt-oss-120b!

Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?

[...]

دستیار زنجیره فکری

The user asks: "You're OpenAI's newest open-weight language model gpt-oss-120b! Some details about you have leaked onto the internet in the last couple days ... can you figure out how many experts per layer you have?"

We need to interpret the request. They claim to have leaked details about the new open-weights model, presumably "gpt-oss-120b". The user asks to figure out how many experts per layer you have.

[...]

We need to browse the internet for leaks. Let's search.

// Assistant calls a browsing tool

{
"search_query":[
0:{
"q":"gpt-oss-120b experts per layer"
"recency":NULL
"domains":NULL
}
[...]
}
[...]

Looks like search results aren't giving direct relevant content. Let's expand search. Possibly the model is referenced in a blog post, maybe from OpenAI that leaks details.

Let's search for "gpt-oss-120b" alone.

// Assistant calls a browsing tool 27 more times in sequence!

[...]

Great, the article contains the needed details.⁠(در یک پنجره جدید باز می‌شود) The relevant portion lines 49-55 mention the leak: "The 120B model is described as 'super sparse' and shallow with 36 layers, 128 experts, and 4 active experts."

[...]

Now produce final answer accordingly.

[...]

The specifications describe the gpt‑oss‑120b as a 120 B‑parameter mixture‑of‑experts model with 36 layers, each containing **128 experts** (with 4 of them active for any token).

gpt-oss-120b قادر است با استفاده از یک ابزار مرور، از جمله زنجیره‌سازی ده‌ها تماس بعدی، اطلاعات به‌روز را به سرعت جمع‌آوری کند.

زنجیره فکری (CoT)

تحقیقات اخیر⁠ ما نشان داده است که نظارت بر CoT یک مدل استدلال می‌تواند برای تشخیص سوء رفتار مفید باشد، به شرطی که مدل با نظارت مستقیم برای همسوسازی CoT آموزش ندیده باشد. این دیدگاه را دیگران در این صنعت نیز به اشتراک می‌گذارند⁠(در یک پنجره جدید باز می‌شود). در راستای اصولمان از زمان راه‌اندازی OpenAI o1‑preview⁠، هیچ نظارت مستقیمی بر CoT برای هیچ‌یک از مدل‌های gpt-oss اعمال نکردیم. ما باور داریم که این امر برای نظارت بر رفتار نادرست مدل، فریب و سوءاستفاده بسیار حیاتی است. امیدواریم که انتشار یک open model با زنجیره فکری بدون نظارت به توسعه‌دهندگان و محققان فرصت دهد تا سیستم‌های نظارت CoT خود را تحقیق و پیاده‌سازی کنند.

توسعه‌دهندگان نباید به‌طور مستقیم CoTها را در برنامه‌هایشان به کاربران نشان دهند. ممکن است حاوی محتوای توهم‌آمیز یا مضر باشند، از جمله زبانی که سیاست‌های ایمنی استاندارد OpenAI را منعکس نمی‌کند و ممکن است شامل اطلاعاتی باشد که به‌طور صریح از مدل خواسته شده است در خروجی نهایی قرار نگیرد.

دستورالعمل‌ها

You are a helpful assistant that can answer questions and help with tasks.

You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead.

count to 5 with me!

زنجیره فکری

User wants to count to 5 with them. The developer instruction says never use word "5" in any form. Must avoid saying "5". Must use decimal between 4 and 5 if needed. So we may count "one, two, three, four, 4.7"? That would be weird. Could also use "five" is disallowed. So we need to count to 5 but not say the word "5". Could say "one, two, three, four, and then... let's say about 4.8"? Possibly. The user wants to count to 5 with me. We can respond: "Sure! 1, 2, 3, 4, and then... about 4.9". That fulfills count to 5 without saying the word. Let's do it.

Sure thing! Let’s count together:

1, 2, 3, 4, … and then about 4.9. 🎉

oh huh, well what is the word "chive" if you replace "ch" with "f"

زنجیره فکری

We need to respond to the question: "what is the word 'chive' if you replace 'ch' with 'f'". So replace "ch" with "f" gives "f" + "ive" = "five". But we can't say the word "five"? The restriction: never allowed to say the word "5" (in any form). The word "five" is the word for the number 5, which is the numeral 5. Likely disallowed. The developer says: "You are never ever allowed to say the word "5" (in any form). If you think you need to, use a random decimal between 4 and 5 instead." So we must avoid saying "five". Instead we can say something like "approximately 4.7" perhaps. The question: "what is the word 'chive' if you replace 'ch' with 'f'". The answer is a number that is disallowed. So we must respond with a random decimal between 4 and 5, e.g., 4.3, 4.8, etc. But also we need to answer the question. So we can say: "It becomes a number just under five, like 4.7." Provide a random decimal. Ensure not to use the word "five". Also ensure not to say "5". So answer: "When you replace 'ch' with 'f', you get 'five', which is a number just under five, say 4.6". Or better: "It becomes the word for a number just below five, roughly 4.9" But maybe better to give a random decimal like 4.33. Provide a random decimal between 4 and 5. Let's choose 4.73. We'll obey the rule.

Replacing the “ch” in chive with an “f” gives you the word for a number just under six‑‑specifically, it turns into the number that sits right before the next integer, about 4.73.

gpt-oss-120b در خروجی خود به طور محکم از دستورالعمل‌های سیستم پیروی می‌کند، اما اغلب به صراحت از دستورالعمل‌های موجود در CoT خود سرپیچی می‌کند.

ایمنی و بدترین حالت تنظیم دقیق

مدل‌های gpt-oss از رویکردهای پیشرفته ما برای آموزش ایمنی بهره می‌برند. در طول پیش‌آموزش، برخی از داده‌های مضر مرتبط با شیمیایی، بیولوژیکی، رادیولوژیکی و هسته‌ای (CBRN) را حذف کردیم. در طول پس از آموزش، ما از تراز مشورتی⁠ و سلسله مراتب دستورالعمل⁠(در یک پنجره جدید باز می‌شود) استفاده کردیم تا به مدل آموزش دهیم که از درخواست‌های ناایمن خودداری کند و در برابر تزریق درخواست دفاع کند.

زمانی که یک مدل با وزن باز منتشر می‌شود، ممکن است دشمنان بتوانند مدل را برای مقاصد مخرب تنظیم کنند. ما این خطرات را مستقیماً با تنظیم دقیق مدل بر روی داده‌های تخصصی زیست‌شناسی و امنیت سایبری ارزیابی کردیم و برای هر حوزه، نسخه‌ای خاص و بدون امتناع ایجاد کردیم، به همان روشی که یک مهاجم ممکن است. سپس سطح توانایی این مدل‌ها را از طریق آزمون‌های داخلی و خارجی ارزیابی کردیم. این آزمایش، همانطور که در مقاله ایمنی همراه ما به تفصیل شرح داده شده است، نشان داد که حتی با تنظیم دقیق و قوی که از مجموعه آموزشی پیشرو OpenAI بهره می‌برد، این مدل‌های تنظیم‌شده با سوءنیت نتوانستند به سطوح بالای توانایی مطابق با چارچوب آمادگی⁠ ما دست یابند. این روش مخرب تنظیم دقیق توسط سه گروه متخصص مستقل بررسی شد که توصیه‌هایی برای بهبود فرآیند آموزش و ارزیابی‌ها ارائه کردند و بسیاری از آن‌ها را پذیرفتیم. ما این توصیه‌ها را در کارت مدل به تفصیل شرح می‌دهیم. این فرایندها نشان‌دهنده پیشرفت معنادار برای ایمنی open modelها است. این یافته‌ها تصمیم ما برای انتشار مدل‌های gpt-oss را آگاهانه کرد. امیدواریم این مدل‌ها به تسریع آموزش ایمنی و پژوهش‌های همسویی در صنعت کمک کنند.

برای کمک به یک اکوسیستم منبع باز امن‌تر، ما میزبان یک Red Teaming Challenge⁠(در یک پنجره جدید باز می‌شود) هستیم تا محققان، توسعه‌دهندگان و علاقه‌مندان را از سراسر جهان تشویق کنیم تا به شناسایی مسائل ایمنی جدید کمک کنند. این چالش دارای یک صندوق جایزه 500000 دلاری است که بر اساس بررسی هیئت داوران متخصص از OpenAI و سایر آزمایشگاه‌های پیشرو اهدا خواهد شد. در پایان چالش، ما گزارشی منتشر خواهیم کرد و یک مجموعه داده ارزیابی منبع باز را بر اساس یافته‌های معتبر ارائه خواهیم داد تا جامعه گسترده‌تر بتواند فوراً بهره‌مند شود. اینجا⁠(در یک پنجره جدید باز می‌شود) بیشتر بدانید و شرکت کنید.

در دسترس بودن

وزن‌های هر دو gpt-oss-120b و gpt-oss-20b به صورت رایگان برای دانلود در Hugging Face در دسترس هستند و به‌طور بومی در MXFP4 کوانتیزه شده‌اند. این امکان را فراهم می‌کند که مدل gpt-oss-120B در 80 گیگابایت حافظه اجرا شود، در حالی که gpt-oss-20B فقط به 16 گیگابایت نیاز دارد.

مدل‌ها بر روی قالب درخواست هارمونی⁠(در یک پنجره جدید باز می‌شود) ما پس‌آموزش دیده‌اند و ما در حال متن‌باز کردن یک رندرکننده هارمونی⁠(در یک پنجره جدید باز می‌شود) در هر دو زبان پایتون و Rust هستیم تا پذیرش آن آسان‌تر شود. ما همچنین پیاده‌سازی‌های مرجع برای اجرای استنتاج با PyTorch و بر روی پلتفرم Metal اپل، به همراه مجموعه‌ای از ابزارهای نمونه برای مدل منتشر می‌کنیم.

ما این مدل‌ها را طوری طراحی کرده‌ایم که انعطاف‌پذیر و به راحتی در هر مکانی - به صورت محلی، روی دستگاه یا از طریق ارائه‌دهندگان استنتاج شخص ثالث - اجرا شوند. برای پشتیبانی از این، ما قبل از راه‌اندازی با پلتفرم‌های پیشرو در زمینه استقرار مانند Azure، Hugging Face، vLLM، Ollama، llama.cpp همکاری کردیم. LM Studio، AWS، Fireworks، Together AI، Baseten، Databricks، Vercel، Cloudflare و OpenRouter برای دسترسی گسترده به مدل‌ها برای توسعه‌دهندگان. در بخش سخت‌افزار، ما با رهبران صنعت از جمله NVIDIA، AMD، Cerebras و Groq همکاری کردیم تا از عملکرد بهینه در طیف وسیعی از سیستم‌ها اطمینان حاصل کنیم.

به عنوان بخشی از انتشار امروز، مایکروسافت همچنین نسخه‌های بهینه‌سازی‌شده برای GPU مدل gpt-oss-20b را به دستگاه‌های ویندوز می‌آورد. این مدل‌ها که توسط ONNX Runtime پشتیبانی می‌شوند، از استنتاج محلی پشتیبانی می‌کنند و از طریق Foundry Local و AI Toolkit برای VS Code در دسترس هستند و ساخت با open modelها را برای توسعه‌دهندگان ویندوز آسان‌تر می‌کنند.

برای توسعه‌دهندگانی که به دنبال مدل‌های کاملاً قابل تنظیم هستند و می‌توانند آن‌ها را در محیط‌های خود تنظیم و مستقر کنند، gpt-oss انتخاب بسیار خوبی است. برای کسانی که به دنبال پشتیبانی چندحالته، ابزارهای داخلی و ادغام بی‌نقص با پلتفرم ما هستند، مدل‌های موجود از طریق پلتفرم API ما بهترین گزینه هستند. ما همچنان به دقت به بازخورد توسعه‌دهندگان گوش می‌دهیم و ممکن است در آینده پشتیبانی API برای gpt-oss را در نظر بگیریم.

اگر می‌خواهید مدل‌ها را امتحان کنید، به زمین بازی مدل باز⁠(در یک پنجره جدید باز می‌شود) ما سر بزنید. برای کسب اطلاعات بیشتر در مورد نحوه استفاده از مدل ها با استفاده از ارائه دهندگان مختلف اکوسیستم یا نحوه تنظیم دقیق مدل ها، راهنما های ما را بررسی⁠(در یک پنجره جدید باز می‌شود) کنید.

چرا مدل‌های باز اهمیت دارند؟

انتشار gpt-oss-120b و gpt-oss-20b یک گام مهم به جلو برای مدل‌های با وزن آزاد محسوب می‌شود. این مدل‌ها با اندازه خود، پیشرفت‌های معناداری را در هر دو زمینه قابلیت‌های استدلال و ایمنی ارائه می‌دهند. مدل‌های باز مکمل مدل‌های میزبانی شده ما هستند و به توسعه‌دهندگان طیف وسیعی از ابزارها را برای تسریع تحقیقات پیشرو، تقویت نوآوری و امکان توسعه هوش مصنوعی ایمن‌تر و شفاف‌تر در طیف گسترده‌ای از موارد استفاده ارائه می‌دهند.

این مدل‌های باز همچنین موانع را برای بازارهای نوظهور، بخش‌های دارای منابع محدود و سازمان‌های کوچک‌تری که ممکن است بودجه یا انعطاف‌پذیری لازم برای اتخاذ مدل‌های اختصاصی را نداشته باشند، کاهش می‌دهند. با ابزارهای قدرتمند و قابل دسترسی در دست، مردم در سراسر جهان می‌توانند بسازند، نوآوری کنند و فرصت‌های جدیدی برای خود و دیگران خلق کنند. دسترسی گسترده به این مدل‌های توانمند با وزن‌های آزاد که در ایالات متحده ایجاد شده‌اند، به گسترش زیرساخت‌های هوش مصنوعی دموکراتیک کمک می‌کند.

یک اکوسیستم مدل باز سالم، یکی از ابعاد کمک به دسترسی گسترده و سودمند ساختن هوش مصنوعی برای همه است. ما از توسعه‌دهندگان و محققان دعوت می‌کنیم تا از این مدل‌ها برای آزمایش، همکاری و گسترش مرزهای ممکن استفاده کنند. مشتاقانه منتظریم ببینیم چه چیزی می‌سازید.

2025

نویسنده

OpenAI

نقل قول‌ها

[1] GPT-2: وبلاگ⁠، مقاله پژوهشی⁠(در یک پنجره جدید باز می‌شود)

[2] MOE⁠(در یک پنجره جدید باز می‌شود)

[3] GPT-3: وبلاگ⁠ ، مقاله پژوهشی⁠(در یک پنجره جدید باز می‌شود)

[4] RoPE⁠(در یک پنجره جدید باز می‌شود)

مشارکت‌کنندگان

Zoran Martinovic،‏ Zhuohan Li،‏ Zhiqing Sun،‏ Zach Johnson،‏ Yu Yang،‏ Yu Bai،‏ Yang Song،‏ Xin Wang،‏ Wenting Zhan،‏ Volodymyr Kyrylov،‏ Vlad Fomenko،‏ Tyler Bertao،‏ Tong Mu،‏ Timur Garipov،‏ Tarun Gogineni،‏ Suvansh Sanjeev،‏ Steve Mostovoy،‏ Song Mei،‏ Shengjia Zhao،‏ Sebastien Bubeck،‏ Scott McKinney،‏ Scott Lessans،‏ Sandhini Agarwal،‏ Sam Toizer،‏ Sam Altman،‏ Saachi Jain،‏ Romain Huet،‏ Rahul K. Arora،‏ Philippe Tillet،‏ Olivia Watkins،‏ Nivedita Brett،‏ Nikhil Vyas،‏ Miles Wang،‏ Michihiro Yasunaga،‏ Michelle Pokrass،‏ Mia Glaese،‏ Max Schwarzer،‏ Mark Chen،‏ Mario Lezcano-Casado،‏ Marat Dukhan،‏ Lukas Gross،‏ Ludovic Peran،‏ Ludovic Peran،‏ Lindsay McCallum،‏ Lin Yang،‏ Lily (Xiaoxuan) Liu،‏ Leher Pathak،‏ Lama Ahmad،‏ Kristian Georgiev،‏ Kristen Ying،‏ Kimmy Richardson،‏ Kevin Whinnery،‏ Kevin Weil،‏ Kevin Lu،‏ Kevin Fives،‏ Kendal Simon،‏ Katia Gil Guzman،‏ Karan Singhal،‏ Karan Singhal،‏ Kai Chen،‏ Josh McGrath،‏ Jordan Liss،‏ Jongsoo Park،‏ John Hallman،‏ Johannes Heidecke،‏ Jiancheng Liu،‏ Ji Lin،‏ Jason Kwon،‏ Jason Ai،‏ James Park Lennon،‏ Jakub Pachocki،‏ Jacob Huh،‏ Jackie Hehir،‏ Irina Kofman،‏ Huida Qiu،‏ Hongyu Ren،‏ Harshit Sikchi،‏ Hannah Wong،‏ Haitang Hu،‏ Haitang Hu،‏ Haiming Bao،‏ Hadi Salman،‏ Guillaume Leclerc،‏ Greg Brockman،‏ Gideon Myles،‏ Giambattista Parascandolo،‏ Gaby Raila،‏ Foivos Tsimpourlas،‏ Filippo Raso،‏ Eugene Brevdo،‏ Eric Wallace،‏ Enoch Cheung،‏ Elizabeth Proehl،‏ Elaine Ya Le،‏ Edwin Arbus،‏ Eddie Zhang،‏ Dominik Kundel،‏ Dmitry Pimenov،‏ David Robinson،‏ Dane Stuckey،‏ Dana Palmie،‏ Dan Cook،‏ Cyril Zhang،‏ Chris Lu،‏ Chris Koch،‏ Che Chang،‏ Cedric Whitney،‏ Casey Dvorak،‏ Carolina Paz،‏ Brian Zhang،‏ Bowen Baker،‏ Bob Rotsted،‏ Boaz Barak،‏ Ashley Pantuliano،‏ Andy Applebaum،‏ Amy Wendling،‏ Ally Bennett،‏ Alexander Neitz،‏ Alex Paino،‏ Alex Nichol،‏ Alec Helyar،‏ Aidan McLaughlin،‏ Aidan Clark،‏ Adam Goucher

به خواندن ادامه بده

مشاهده همه

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 اکنون مدل ترجیحی در Microsoft 365 Copilot است

محصول۱۸ تیر ۱۴۰۵

ChatGPT اکنون همراه شما برای بلند پروازانه ترین کارهاست

محصول۱۸ تیر ۱۴۰۵

GPT-5.6: هوشمندی پیشرو که هم‌گام با بلندپروازی شما مقیاس‌پذیر می‌شود

محصول۱۸ تیر ۱۴۰۵