معرفی gpt-oss
gpt-oss-120b و gpt-oss-20b مرزهای مدلهای استدلال با وزن باز را گسترش میدهند
ما در حال انتشار gpt-oss-120b و gpt-oss-20b هستیم - دو مدل زبان متنباز پیشرفته که عملکرد قوی در دنیای واقعی را با هزینه کم ارائه میدهند. این مدلها تحت مجوز انعطافپذیر Apache 2.0 در دسترس هستند، در وظایف استدلال از open model با اندازه مشابه بهتر عمل میکنند، قابلیتهای قوی در استفاده از ابزارها را نشان میدهند و برای استقرار کارآمد بر روی سختافزار مصرفکننده بهینهسازی شدهاند. آنها با استفاده از ترکیبی از یادگیری تقویتی و تکنیکهایی که توسط پیشرفتهترین مدلهای داخلی OpenAI، از جمله o3 و سایر سیستمهای پیشرو اطلاعرسانی شدهاند، آموزش دیدهاند.
مدل gpt-oss-120b در معیارهای استدلال اصلی، تقریباً به برابری با OpenAI o4-mini دست مییابد، در حالی که روی یک پردازنده گرافیکی 80 گیگابایتی به طور کارآمد اجرا میشود. مدل gpt-oss-20b نتایج مشابهی با OpenAI o3‑mini در معیارهای رایج ارائه میدهد و میتواند بر روی دستگاههای لبهای با تنها 16 گیگابایت حافظه اجرا شود، که آن را برای استفادههای روی دستگاه، استنتاج محلی یا تکرار سریع بدون نیاز به زیرساختهای پرهزینه ایدهآل میکند. هر دو مدل همچنین در استفاده از ابزار، فراخوانی تابع few-shot، استدلال CoT (همانطور که در نتایج مجموعه ارزیابی عامل Tau-Bench دیده میشود) و HealthBench (حتی بهتر از مدلهای اختصاصی مانند OpenAI o1 و GPT‑4o عمل میکنند) عملکرد قوی دارند.
این مدلها با API پاسخهای(در یک پنجره جدید باز میشود) ما سازگار هستند و به گونهای طراحی شدهاند که در گردشهای کاری عاملمحور با دنبال کردن دستورالعملهای استثنایی، استفاده از ابزارهایی مانند جستجوی وب یا اجرای کد پایتون و قابلیتهای استدلال - از جمله توانایی تنظیم تلاش استدلال برای کارهایی که نیازی به استدلال پیچیده ندارند و/یا خروجیهای نهایی با تأخیر بسیار کم را هدف قرار میدهند - قابل استفاده باشند. آنها کاملاً قابل تنظیم هستند، زنجیره فکری کاملی (CoT) را ارائه میدهند و از خروجیهای ساختاریافته(در یک پنجره جدید باز میشود) پشتیبانی میکنند.
ایمنی اساس رویکرد ما برای انتشار همه مدلهایمان است و برای مدلهای باز از اهمیت ویژهای برخوردار است. علاوه بر اجرای مدلها از طریق آموزش و ارزیابیهای جامع ایمنی، ما همچنین یک لایه ارزیابی اضافی را با آزمایش نسخهای از gpt-oss-120b که بهطور خصمانه تنظیم شده بود، تحت چارچوب آمادگی(در یک پنجره جدید باز میشود) خود معرفی کردیم. مدلهای gpt-oss عملکردی مشابه با مدلهای پیشرفته ما در معیارهای ایمنی داخلی دارند و استانداردهای ایمنی مشابهی را به توسعهدهندگان ارائه میدهند که در مدلهای اختصاصی اخیر ما وجود دارد. ما نتایج آن کار و جزئیات بیشتر را در یک مقاله تحقیقاتی(در یک پنجره جدید باز میشود) و در کارت مدل(در یک پنجره جدید باز میشود) به اشتراک میگذاریم. روش ما توسط کارشناسان خارجی بررسی شد و گامی به جلو در تعیین استانداردهای ایمنی جدید برای مدلهای وزن آزاد است.
ما همچنین با شرکای اولیهای مانند AI Sweden(در یک پنجره جدید باز میشود)، Orange(در یک پنجره جدید باز میشود) و Snowflake(در یک پنجره جدید باز میشود) همکاری کردهایم تا درباره کاربردهای واقعی open modelهای خود، از میزبانی این مدلها در محل برای امنیت دادهها تا تنظیم دقیق آنها بر روی مجموعه دادههای تخصصی، اطلاعات کسب کنیم. ما خوشحالیم که این open modelهای برتر و بهترین را ارائه میدهیم تا همه - از توسعهدهندگان فردی گرفته تا شرکتهای بزرگ و دولتها - بتوانند هوش مصنوعی را بر روی زیرساختهای خود اجرا و سفارشی کنند. همراه با مدلهای موجود در API ما، توسعهدهندگان میتوانند عملکرد، هزینه و تأخیر مورد نیاز برای تقویت گردشکارهای هوش مصنوعی را انتخاب کنند.
مدلهای gpt-oss با استفاده از پیشرفتهترین تکنیکهای پیشآموزش و پسآموزش ما، با تمرکز ویژه بر استدلال، کارایی و قابلیت استفاده در دنیای واقعی در طیف گستردهای از محیطهای استقرار آموزش داده شدند. در حالی که ما مدلهای دیگری از جمله Whisper و CLIP را بهطور عمومی در دسترس قرار دادهایم، مدلهای gpt-oss اولین مدلهای زبان با وزن باز ما از زمان GPT‑2[1] هستند.
هر مدل یک ترانسفورمر است که از ترکیب متخصصان (MoE[2]) برای کاهش تعداد پارامترهای فعال مورد نیاز برای پردازش ورودی استفاده میکند. gpt-oss-120b پارامترهای 5.1 میلیاردی را در هر token فعال میکند، در حالی که gpt-oss-20b پارامترهای 3.6 میلیاردی را فعال میکند. مدلها به ترتیب دارای ۱۱۷ میلیارد و ۲۱ میلیارد پارامتر کلی هستند. مدلها از الگوهای توجه متناوب متراکم و پراکنده با باند محلی استفاده میکنند، مشابه GPT‑3[3]. برای استنتاج و کارایی حافظه، مدلها همچنین از توجه چندپرسوجوی گروهی با اندازه گروه ۸ استفاده میکنند. ما از جاسازی موقعیتی چرخشی (RoPE[4]) برای رمزگذاری موقعیتی استفاده میکنیم و بهطور بومی از طول زمینه تا 128k پشتیبانی میکنیم.
مدل | لایهها | کل پارامترها | پارامترهای فعال برای هر توکن | تعداد کل کارشناسان | تعداد کارشناسان فعال به ازای هر توکن | طول زمینه |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
ما مدلها را روی یک مجموعه داده عمدتاً انگلیسی و متنی، با تمرکز بر علوم، فناوری، مهندسی، ریاضیات (STEM)، برنامهنویسی و دانش عمومی آموزش دادیم. ما دادهها را با استفاده از یک سوپرست از توکنایزر خود که برای OpenAI o4-mini و GPT‑4o استفاده میشود: o200k_harmony توکنسازی کردیم، که امروز نیز آن را به صورت منبع باز منتشر میکنیم.
برای اطلاعات بیشتر در مورد معماری و آموزش مدلهای ما، کارت مدل را(در یک پنجره جدید باز میشود) مطالعه کنید.
مدلها پس از آموزش با استفاده از فرآیندی مشابه با o4-mini، شامل مرحله تنظیم دقیق تحت نظارت و مرحله RL با محاسبات سنگین، آموزش داده شدند. هدف ما این بود که مدلها را با مشخصات مدل OpenAI(در یک پنجره جدید باز میشود) همسو کنیم و به آن آموزش دهیم که قبل از تولید پاسخ، استدلال CoT و استفاده از ابزار را به کار بگیرد. با استفاده از همان تکنیکهای مدلهای استدلال اختصاصی SoTA ما، مدلها پس از آموزش، تواناییهای استثنایی را نشان میدهند.
مشابه مدلهای استدلال سری o OpenAI در API، دو مدل با وزن باز از سه سطح تلاش استدلالی - کم، متوسط و زیاد - پشتیبانی میکنند که بین تأخیر و عملکرد تعادل برقرار میکنند. توسعهدهندگان میتوانند بهراحتی میزان تلاش برای استدلال را با یک جمله در پیام سیستم تنظیم کنند.
ما gpt-oss-120b و gpt-oss-20b را بر اساس معیارهای استاندارد آکادمیک ارزیابی کردیم تا قابلیتهای آنها در برنامهنویسی، ریاضیات رقابتی، سلامت و استفاده از ابزارهای عامل را در مقایسه با سایر مدلهای استدلال OpenAI از جمله o3، o3‑mini و o4-mini بسنجیم.
gpt-oss-120b از OpenAI o3‑mini بهتر عمل میکند و در کدنویسی رقابتی (Codeforces)، حل مسئله عمومی (MMLU و HLE) و فراخوانی ابزار (TauBench) با OpenAI o4-mini برابری میکند یا از آن پیشی میگیرد. علاوه بر این، حتی بهتر از o4-mini در پرسشهای مربوط به سلامت (HealthBench) و ریاضیات مسابقهای (AIME 2024 و 2025) عمل میکند. gpt-oss-20b با OpenAI o3‑mini در همین ارزیابیها مطابقت دارد یا از آن فراتر میرود، با وجود اندازه کوچک، حتی در ریاضیات رقابتی و سلامت از آن بهتر عمل میکند.
مدلهای gpt-oss جایگزین متخصص پزشکی نمیشوند و برای تشخیص یا درمان بیماری در نظر گرفته نشدهاند
نمونههای پیادهسازی
gpt-oss-120b قادر است با استفاده از یک ابزار مرور، از جمله زنجیرهسازی دهها تماس بعدی، اطلاعات بهروز را به سرعت جمعآوری کند.
تحقیقات اخیر ما نشان داده است که نظارت بر CoT یک مدل استدلال میتواند برای تشخیص سوء رفتار مفید باشد، به شرطی که مدل با نظارت مستقیم برای همسوسازی CoT آموزش ندیده باشد. این دیدگاه را دیگران در این صنعت نیز به اشتراک میگذارند(در یک پنجره جدید باز میشود). در راستای اصولمان از زمان راهاندازی OpenAI o1‑preview، هیچ نظارت مستقیمی بر CoT برای هیچیک از مدلهای gpt-oss اعمال نکردیم. ما باور داریم که این امر برای نظارت بر رفتار نادرست مدل، فریب و سوءاستفاده بسیار حیاتی است. امیدواریم که انتشار یک open model با زنجیره فکری بدون نظارت به توسعهدهندگان و محققان فرصت دهد تا سیستمهای نظارت CoT خود را تحقیق و پیادهسازی کنند.
توسعهدهندگان نباید بهطور مستقیم CoTها را در برنامههایشان به کاربران نشان دهند. ممکن است حاوی محتوای توهمآمیز یا مضر باشند، از جمله زبانی که سیاستهای ایمنی استاندارد OpenAI را منعکس نمیکند و ممکن است شامل اطلاعاتی باشد که بهطور صریح از مدل خواسته شده است در خروجی نهایی قرار نگیرد.
gpt-oss-120b در خروجی خود به طور محکم از دستورالعملهای سیستم پیروی میکند، اما اغلب به صراحت از دستورالعملهای موجود در CoT خود سرپیچی میکند.
مدلهای gpt-oss از رویکردهای پیشرفته ما برای آموزش ایمنی بهره میبرند. در طول پیشآموزش، برخی از دادههای مضر مرتبط با شیمیایی، بیولوژیکی، رادیولوژیکی و هستهای (CBRN) را حذف کردیم. در طول پس از آموزش، ما از تراز مشورتی و سلسله مراتب دستورالعمل(در یک پنجره جدید باز میشود) استفاده کردیم تا به مدل آموزش دهیم که از درخواستهای ناایمن خودداری کند و در برابر تزریق درخواست دفاع کند.
زمانی که یک مدل با وزن باز منتشر میشود، ممکن است دشمنان بتوانند مدل را برای مقاصد مخرب تنظیم کنند. ما این خطرات را مستقیماً با تنظیم دقیق مدل بر روی دادههای تخصصی زیستشناسی و امنیت سایبری ارزیابی کردیم و برای هر حوزه، نسخهای خاص و بدون امتناع ایجاد کردیم، به همان روشی که یک مهاجم ممکن است. سپس سطح توانایی این مدلها را از طریق آزمونهای داخلی و خارجی ارزیابی کردیم. این آزمایش، همانطور که در مقاله ایمنی همراه ما به تفصیل شرح داده شده است، نشان داد که حتی با تنظیم دقیق و قوی که از مجموعه آموزشی پیشرو OpenAI بهره میبرد، این مدلهای تنظیمشده با سوءنیت نتوانستند به سطوح بالای توانایی مطابق با چارچوب آمادگی ما دست یابند. این روش مخرب تنظیم دقیق توسط سه گروه متخصص مستقل بررسی شد که توصیههایی برای بهبود فرآیند آموزش و ارزیابیها ارائه کردند و بسیاری از آنها را پذیرفتیم. ما این توصیهها را در کارت مدل به تفصیل شرح میدهیم. این فرایندها نشاندهنده پیشرفت معنادار برای ایمنی open modelها است. این یافتهها تصمیم ما برای انتشار مدلهای gpt-oss را آگاهانه کرد. امیدواریم این مدلها به تسریع آموزش ایمنی و پژوهشهای همسویی در صنعت کمک کنند.
برای کمک به یک اکوسیستم منبع باز امنتر، ما میزبان یک Red Teaming Challenge(در یک پنجره جدید باز میشود) هستیم تا محققان، توسعهدهندگان و علاقهمندان را از سراسر جهان تشویق کنیم تا به شناسایی مسائل ایمنی جدید کمک کنند. این چالش دارای یک صندوق جایزه 500000 دلاری است که بر اساس بررسی هیئت داوران متخصص از OpenAI و سایر آزمایشگاههای پیشرو اهدا خواهد شد. در پایان چالش، ما گزارشی منتشر خواهیم کرد و یک مجموعه داده ارزیابی منبع باز را بر اساس یافتههای معتبر ارائه خواهیم داد تا جامعه گستردهتر بتواند فوراً بهرهمند شود. اینجا(در یک پنجره جدید باز میشود) بیشتر بدانید و شرکت کنید.
وزنهای هر دو gpt-oss-120b و gpt-oss-20b به صورت رایگان برای دانلود در Hugging Face در دسترس هستند و بهطور بومی در MXFP4 کوانتیزه شدهاند. این امکان را فراهم میکند که مدل gpt-oss-120B در 80 گیگابایت حافظه اجرا شود، در حالی که gpt-oss-20B فقط به 16 گیگابایت نیاز دارد.
مدلها بر روی قالب درخواست هارمونی(در یک پنجره جدید باز میشود) ما پسآموزش دیدهاند و ما در حال متنباز کردن یک رندرکننده هارمونی(در یک پنجره جدید باز میشود) در هر دو زبان پایتون و Rust هستیم تا پذیرش آن آسانتر شود. ما همچنین پیادهسازیهای مرجع برای اجرای استنتاج با PyTorch و بر روی پلتفرم Metal اپل، به همراه مجموعهای از ابزارهای نمونه برای مدل منتشر میکنیم.
ما این مدلها را طوری طراحی کردهایم که انعطافپذیر و به راحتی در هر مکانی - به صورت محلی، روی دستگاه یا از طریق ارائهدهندگان استنتاج شخص ثالث - اجرا شوند. برای پشتیبانی از این، ما قبل از راهاندازی با پلتفرمهای پیشرو در زمینه استقرار مانند Azure، Hugging Face، vLLM، Ollama، llama.cpp همکاری کردیم. LM Studio، AWS، Fireworks، Together AI، Baseten، Databricks، Vercel، Cloudflare و OpenRouter برای دسترسی گسترده به مدلها برای توسعهدهندگان. در بخش سختافزار، ما با رهبران صنعت از جمله NVIDIA، AMD، Cerebras و Groq همکاری کردیم تا از عملکرد بهینه در طیف وسیعی از سیستمها اطمینان حاصل کنیم.
به عنوان بخشی از انتشار امروز، مایکروسافت همچنین نسخههای بهینهسازیشده برای GPU مدل gpt-oss-20b را به دستگاههای ویندوز میآورد. این مدلها که توسط ONNX Runtime پشتیبانی میشوند، از استنتاج محلی پشتیبانی میکنند و از طریق Foundry Local و AI Toolkit برای VS Code در دسترس هستند و ساخت با open modelها را برای توسعهدهندگان ویندوز آسانتر میکنند.
برای توسعهدهندگانی که به دنبال مدلهای کاملاً قابل تنظیم هستند و میتوانند آنها را در محیطهای خود تنظیم و مستقر کنند، gpt-oss انتخاب بسیار خوبی است. برای کسانی که به دنبال پشتیبانی چندحالته، ابزارهای داخلی و ادغام بینقص با پلتفرم ما هستند، مدلهای موجود از طریق پلتفرم API ما بهترین گزینه هستند. ما همچنان به دقت به بازخورد توسعهدهندگان گوش میدهیم و ممکن است در آینده پشتیبانی API برای gpt-oss را در نظر بگیریم.
اگر میخواهید مدلها را امتحان کنید، به زمین بازی مدل باز(در یک پنجره جدید باز میشود) ما سر بزنید. برای کسب اطلاعات بیشتر در مورد نحوه استفاده از مدل ها با استفاده از ارائه دهندگان مختلف اکوسیستم یا نحوه تنظیم دقیق مدل ها، راهنما های ما را بررسی(در یک پنجره جدید باز میشود) کنید.
انتشار gpt-oss-120b و gpt-oss-20b یک گام مهم به جلو برای مدلهای با وزن آزاد محسوب میشود. این مدلها با اندازه خود، پیشرفتهای معناداری را در هر دو زمینه قابلیتهای استدلال و ایمنی ارائه میدهند. مدلهای باز مکمل مدلهای میزبانی شده ما هستند و به توسعهدهندگان طیف وسیعی از ابزارها را برای تسریع تحقیقات پیشرو، تقویت نوآوری و امکان توسعه هوش مصنوعی ایمنتر و شفافتر در طیف گستردهای از موارد استفاده ارائه میدهند.
این مدلهای باز همچنین موانع را برای بازارهای نوظهور، بخشهای دارای منابع محدود و سازمانهای کوچکتری که ممکن است بودجه یا انعطافپذیری لازم برای اتخاذ مدلهای اختصاصی را نداشته باشند، کاهش میدهند. با ابزارهای قدرتمند و قابل دسترسی در دست، مردم در سراسر جهان میتوانند بسازند، نوآوری کنند و فرصتهای جدیدی برای خود و دیگران خلق کنند. دسترسی گسترده به این مدلهای توانمند با وزنهای آزاد که در ایالات متحده ایجاد شدهاند، به گسترش زیرساختهای هوش مصنوعی دموکراتیک کمک میکند.
یک اکوسیستم مدل باز سالم، یکی از ابعاد کمک به دسترسی گسترده و سودمند ساختن هوش مصنوعی برای همه است. ما از توسعهدهندگان و محققان دعوت میکنیم تا از این مدلها برای آزمایش، همکاری و گسترش مرزهای ممکن استفاده کنند. مشتاقانه منتظریم ببینیم چه چیزی میسازید.
نویسنده
نقل قولها
مشارکتکنندگان
Zoran Martinovic، Zhuohan Li، Zhiqing Sun، Zach Johnson، Yu Yang، Yu Bai، Yang Song، Xin Wang، Wenting Zhan، Volodymyr Kyrylov، Vlad Fomenko، Tyler Bertao، Tong Mu، Timur Garipov، Tarun Gogineni، Suvansh Sanjeev، Steve Mostovoy، Song Mei، Shengjia Zhao، Sebastien Bubeck، Scott McKinney، Scott Lessans، Sandhini Agarwal، Sam Toizer، Sam Altman، Saachi Jain، Romain Huet، Rahul K. Arora، Philippe Tillet، Olivia Watkins، Nivedita Brett، Nikhil Vyas، Miles Wang، Michihiro Yasunaga، Michelle Pokrass، Mia Glaese، Max Schwarzer، Mark Chen، Mario Lezcano-Casado، Marat Dukhan، Lukas Gross، Ludovic Peran، Ludovic Peran، Lindsay McCallum، Lin Yang، Lily (Xiaoxuan) Liu، Leher Pathak، Lama Ahmad، Kristian Georgiev، Kristen Ying، Kimmy Richardson، Kevin Whinnery، Kevin Weil، Kevin Lu، Kevin Fives، Kendal Simon، Katia Gil Guzman، Karan Singhal، Karan Singhal، Kai Chen، Josh McGrath، Jordan Liss، Jongsoo Park، John Hallman، Johannes Heidecke، Jiancheng Liu، Ji Lin، Jason Kwon، Jason Ai، James Park Lennon، Jakub Pachocki، Jacob Huh، Jackie Hehir، Irina Kofman، Huida Qiu، Hongyu Ren، Harshit Sikchi، Hannah Wong، Haitang Hu، Haitang Hu، Haiming Bao، Hadi Salman، Guillaume Leclerc، Greg Brockman، Gideon Myles، Giambattista Parascandolo، Gaby Raila، Foivos Tsimpourlas، Filippo Raso، Eugene Brevdo، Eric Wallace، Enoch Cheung، Elizabeth Proehl، Elaine Ya Le، Edwin Arbus، Eddie Zhang، Dominik Kundel، Dmitry Pimenov، David Robinson، Dane Stuckey، Dana Palmie، Dan Cook، Cyril Zhang، Chris Lu، Chris Koch، Che Chang، Cedric Whitney، Casey Dvorak، Carolina Paz، Brian Zhang، Bowen Baker، Bob Rotsted، Boaz Barak، Ashley Pantuliano، Andy Applebaum، Amy Wendling، Ally Bennett، Alexander Neitz، Alex Paino، Alex Nichol، Alec Helyar، Aidan McLaughlin، Aidan Clark، Adam Goucher


