بهروزرسانی ۲۴ آوریل ۲۰۲۶: GPT‑5.5 و GPT‑5.5 Pro اکنون در API در دسترس هستند. کارت سیستم نیز بهروزرسانی شده است تا اقدامات حفاظتی اضافی اعمالشده را توضیح دهد.
ما در حال انتشار GPT‑5.5 هستیم، که هوشمندترین و شهودیترین مدل ما برای استفاده تا به امروز است و گام بعدی به سوی روشی جدید برای انجام کار با کامپیوتر محسوب میشود.
GPT‑5.5 سریعتر متوجه میشود که میخواهید چه کاری انجام دهید و میتواند بخش بیشتری از کار را خودش انجام دهد. در نوشتن و اشکالزدایی کد، تحقیق آنلاین، تحلیل دادهها، ایجاد اسناد و صفحهگستردهها، کار با نرمافزارها و جابهجایی بین ابزارها تا زمانی که یک کار کامل شود، عالی عمل میکند. بهجای اینکه هر مرحله را با دقت مدیریت کنید، میتوانید با خیال راحت یک کار نامرتب و چندبخشی را به GPT‑5.5 بسپارید و به آن اعتماد کنید که برنامهریزی کند، از ابزارها استفاده کند، کارش را بررسی کند، در میان ابهام پیش برود و ادامه دهد.
پیشرفتها بهویژه در کدنویسی عاملمحور، استفاده از رایانه، کار دانشی و مراحل اولیه پژوهش علمی چشمگیر هستند—حوزههایی که پیشرفت در آنها به استدلال در بستر زمینه و اقدام در طول زمان وابسته است. GPT‑5.5 این ارتقای هوش را بدون به خطر انداختن سرعت ارائه میکند: مدلهای بزرگتر و توانمندتر اغلب در ارائه کندتر هستند، اما GPT‑5.5 در ارائه در دنیای واقعی، تأخیر بهازای هر توکن را در سطح GPT‑5.4 حفظ میکند، در حالی که از نظر هوش در سطحی بسیار بالاتر عمل میکند. همچنین برای تکمیل همان وظایف Codex از توکنهای بهمراتب کمتری استفاده میکند که آن را هم کارآمدتر و هم توانمندتر میکند.
ما GPT‑5.5 را با قویترین مجموعه تدابیر حفاظتی خود تا به امروز منتشر میکنیم؛ تدابیری که برای کاهش سوءاستفاده و در عین حال حفظ دسترسی برای کارهای سودمند طراحی شدهاند. ما این مدل را در سراسر مجموعه کامل چارچوبهای ایمنی و آمادگی خود ارزیابی کردیم، با اعضای داخلی و خارجی تیم قرمز همکاری کردیم، آزمایشهای هدفمندی را برای قابلیتهای پیشرفته امنیت سایبری و زیستی افزودیم، و پیش از انتشار، بازخورد مربوط به موارد استفاده واقعی را از نزدیک به ۲۰۰ شریک مورد اعتماد دارای دسترسی زودهنگام جمعآوری کردیم.
امروز، GPT‑5.5 برای کاربران Plus، Pro، Business و Enterprise در ChatGPT و Codex در حال عرضه است و GPT‑5.5 Pro نیز برای کاربران Pro، Business و Enterprise در ChatGPT در حال عرضه است. استقرارهای API به تدابیر حفاظتی متفاوتی نیاز دارند و ما بهصورت نزدیک با شرکا و مشتریان همکاری میکنیم تا الزامات ایمنی و امنیتی برای ارائه آن در مقیاس وسیع را تعیین کنیم. بهزودی GPT‑5.5 و GPT‑5.5 Pro را به API میآوریم.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | ۶۹٫۴٪ | ۶۸٫۵٪ |
Expert-SWE (داخلی) | ۷۳٫۱٪ | ۶۸٫۵٪ | - | - | - | - |
GDPval (بردها یا تساویها) | ۸۴٫۹٪ | ۸۳.۰٪ | ۸۲٫۳٪ | 82.0% | ۸۰.۳٪ | ۶۷٫۳٪ |
OSWorld-Verified | ۷۸٫۷٪ | ۷۵.۰٪ | - | - | ۷۸٫۰٪ | - |
Toolathlon | ۵۵.۶٪ | 54.6% | - | - | - | ۴۸٫۸٪ |
BrowseComp | ۸۴٫۴٪ | 82.7% | ۹۰٫۱٪ | 89.3% | 79.3% | ۸۵٫۹٪ |
FrontierMath سطح ۱–۳ | ۵۱٫۷٪ | 47.6% | ۵۲٫۴٪ | 50.0% | ۴۳٫۸٪ | ۳۶٫۹٪ |
FrontierMath سطح 4 | ۳۵٫۴٪ | 27.1% | ۳۹٫۶٪ | 38.0% | ۲۲٫۹٪ | ۱۶٫۷٪ |
CyberGym | ۸۱٫۸٪ | ۷۹٫۰٪ | - | - | ۷۳٫۱٪ | - |
OpenAI در حال ساخت زیرساخت جهانی برای هوش مصنوعی عاملمحور است و این امکان را فراهم میکند که افراد و کسبوکارها در سراسر جهان با هوش مصنوعی کارهای خود را انجام دهند. در طول سال گذشته، شاهد بودهایم که هوش مصنوعی بهطور چشمگیری مهندسی نرمافزار را شتاب داده است. با GPT‑5.5 در Codex و ChatGPT، همان تحول در حال گسترش به پژوهشهای علمی و طیف گستردهتری از کارهایی است که افراد با رایانه انجام میدهند.
در سراسر این حوزهها، GPT‑5.5 فقط هوشمندتر نیست؛ بلکه در نحوه حل مسائل نیز کارآمدتر است و اغلب با توکنهای کمتر و تلاشهای مجدد کمتر، به خروجیهای باکیفیتتری میرسد. در شاخص کدنویسی Artificial Analysis، GPT‑5.5 هوشمندی پیشرفته را با نصف هزینه مدلهای پیشرو رقیب کدنویسی ارائه میدهد.
شاخص هوش تحلیل مصنوعی(در یک پنجره جدید باز میشود) میانگین وزنی ۱۰ ارزیابی است که توسط یک طرف ثالث انجام شدهاند: AA-LCR، AA-Omniscience، CritPt، GDPval-AA، GPQA Diamond، Humanity’s Last Exam، IFBench، SciCode، Terminal-Bench Hard، τ²-Bench Telecom.
GPT‑5.5 قویترین مدل کدنویسی عاملمحور ما تا به امروز است. در Terminal-Bench 2.0، که گردشکارهای پیچیده خط فرمان را که به برنامهریزی، تکرار، و هماهنگی ابزارها نیاز دارند آزمایش میکند، به دقت پیشرفته در سطح روزِ 82.7% دست مییابد. در SWE-Bench Pro، که حل مسائل واقعی GitHub را ارزیابی میکند، به 58.6٪ میرسد و نسبت به مدلهای قبلی، وظایف بیشتری را بهصورت سرتاسری و در یک گذر واحد حل میکند. در Expert-SWE، ارزیابی پیشرو داخلی ما برای وظایف کدنویسی بلندافق با میانه زمان تخمینی تکمیل توسط انسان برابر با ۲۰ ساعت، GPT‑5.5 نیز از GPT‑5.4 عملکرد بهتری دارد.
GPT‑5.5 در هر سه ارزیابی، امتیازهای GPT‑5.4 را در عین استفاده از توکنهای کمتر بهبود میدهد.
توانمندیهای کدنویسی مدل بهویژه در Codex بهروشنی نمایان میشود، جایی که میتواند کارهای مهندسی را از پیادهسازی و بازسازی گرفته تا اشکالزدایی، تست و اعتبارسنجی بر عهده بگیرد. آزمایشهای اولیه نشان میدهد GPT‑5.5 در رفتارهایی که کار مهندسی واقعی به آنها متکی است عملکرد بهتری دارد؛ رفتارهایی مانند حفظ زمینه در سراسر سیستمهای بزرگ، استدلال درباره خرابیهای مبهم، بررسی فرضیات با ابزارها، و اعمال تغییرات در سراسر کدبیس پیرامون.
مسیر رندرشده از دادههای برداری NASA/JPL Horizons برای اوریون، ماه و خورشید استفاده میکند و برای افزایش خوانایی، مقیاسبندی نمایشی اعمال شده است.
اعلان: [تصویر پیوستشده] این را بهعنوان یک برنامه جدید با استفاده از webgl و vite و با استفاده از دادههای واقعی مأموریت Artemis II پیادهسازی کن. مطمئن شوید که برنامه را بهطور کامل آزمایش میکنید تا زمانی که کاملاً کاربردی شود و از نظر ظاهری شبیه برنامه موجود در تصویر باشد. به رندر سیارهها و مسیرهای پرواز با دقت توجه کنید. میخواهم بتوانم با رندر سهبعدی تعامل داشته باشم. مطمئن شوید که آن از مکانیک مداری واقعگرایانه برخوردار است.
فراتر از معیارها، آزمایشکنندگان اولیه گفتند GPT‑5.5 توانایی بیشتری از خود در درک ساختار یک سیستم نشان میدهد: اینکه چرا چیزی دچار مشکل میشود، اصلاح باید دقیقاً در کجا اعمال شود، و چه بخشهای دیگری از پایگاه کد تحت تأثیر قرار میگیرند.

«اولین مدل کدنویسیای که استفاده کردهام و از شفافیت مفهومی جدی برخوردار است.»
دن شیپر ، بنیانگذار و مدیرعامل Every، GPT‑5.5 را به عنوان «اولین مدل کدنویسی که استفاده کردهام و از وضوح مفهومی بالایی برخوردار است» توصیف کرد.
پس از راهاندازی یک برنامه، او چند روز را صرف اشکالزداییِ مشکلی پس از راهاندازی کرد، پیش از آنکه یکی از بهترین مهندسانش را وارد کار کند تا بخشی از سیستم را بازنویسی کند. برای آزمایش GPT‑5.5، او عملاً زمان را به عقب برگرداند: آیا مدل میتوانست به وضعیت خراب نگاه کند و همان نوع بازنویسیای را که مهندس در نهایت به آن رسید تولید کند؟ GPT‑5.4 نمیتوانست. GPT‑5.5 میتوانست.

«واقعاً اینطور احساس میشود که دارم با نوعی هوش برتر کار میکنم، و تقریباً نوعی حس احترام وجود دارد.»
پیترو شیرانو،مدیرعامل MagicPath، شاهد تغییر مشابهی بود، زمانی که GPT‑5.5 شاخهای با صدها تغییر ظاهری و اصلاحشده را در یک شاخه اصلی که آن هم بهطور قابلتوجهی تغییر کرده بود، ادغام کرد و کار را در یک مرحله و در حدود ۲۰ دقیقه حل کرد.
مهندسان ارشدی که مدل را آزمایش کردند گفتند GPT‑5.5 در استدلال و خودمختاری، بهطور محسوسی از GPT‑5.4 و Claude Opus 4.7 قویتر بود و مشکلات را از پیش شناسایی میکرد و نیازهای مربوط به آزمایش و بازبینی را بدون درخواست صریح پیشبینی میکرد. در یک مورد، یک مهندس از آن خواست معماریِ یک سیستم نظردهی را در یک ویرایشگر مشارکتیِ Markdown بازطراحی کند و بعداً با یک استک ۱۲ تفاوتی که تقریباً کامل شده بود، مواجه شد. دیگران گفتند که بهطرز شگفتآوری به اصلاح اندکی در پیادهسازی نیاز داشتند و در مقایسه با GPT‑5.4، به برنامههای GPT‑5.5 اطمینان بیشتری داشتند.
یکی از مهندسان انویدیا که از همان ابتدا به این مدل دسترسی داشت، پا را فراتر گذاشت و گفت: «از دست دادن دسترسی به GPT‑5.5 مثل این است که یکی از اعضای بدنم را قطع کرده باشند.»
«GPT-5.5 بهطور محسوسی هوشمندتر و پیگیرتر از GPT-5.4 است، با عملکرد قویتر در کدنویسی و استفاده قابل اعتمادتر از ابزارها. این مدل برای مدتزمانی بهمراتب طولانیتر روی وظیفه متمرکز میماند، بدون اینکه زودتر متوقف شود؛ و این موضوع بیش از همه برای کارهای پیچیده و طولانیمدتی اهمیت دارد که کاربران ما به Cursor واگذار میکنند.
همان نقاط قوتی که GPT‑5.5 را در کدنویسی عالی کردهاند، آن را برای کارهای روزمره با رایانه نیز قدرتمند میکنند. از آنجا که مدل در درک نیت بهتر عمل میکند، میتواند بهطور طبیعیتر در چرخه کامل کار دانشی حرکت کند: یافتن اطلاعات، درک آنچه اهمیت دارد، استفاده از ابزارها، بررسی خروجی، و تبدیل مواد خام به چیزی مفید.
در Codex، GPT‑5.5 در تولید اسناد، صفحات گسترده و ارائههای اسلایدی بهتر از GPT‑5.4 عمل میکند. آزمایشکنندگان آلفا گفتند که این مدل در کارهایی مانند تحقیق در عملیات، مدلسازی صفحهگسترده و تبدیل ورودیهای نامرتب کسبوکار به برنامهها، عملکرد بهتری نسبت به مدلهای پیشین داشت. وقتی با مهارتهای استفاده از کامپیوترِ Codex ترکیب میشود، GPT‑5.5 ما را به این حس نزدیکتر میکند که مدل واقعاً میتواند همراه شما از کامپیوتر استفاده کند: آنچه را روی صفحه است ببیند، کلیک کند، تایپ کند، در رابطهای کاربری پیمایش کند و با دقت میان ابزارها جابهجا شود.
تیمها در OpenAI از هماکنون از این نقاط قوت در گردشهای کاری واقعی استفاده میکنند. امروز، بیش از ۸۵٪ از کارکنان شرکت هر هفته در بخشهای مختلف، از جمله مهندسی نرمافزار، مالی، ارتباطات، بازاریابی، علم داده و مدیریت محصول، از Codex استفاده میکنند. در بخش ارتباطات، تیم از GPT‑5.5 در Codex برای تجزیه و تحلیل دادههای شش ماه درخواست صحبت، ایجاد یک چارچوب امتیازدهی و ریسک و اعتبارسنجی یک عامل خودکار Slack استفاده کرد تا درخواستهای کمخطر بتوانند به صورت خودکار مدیریت شوند، در حالی که درخواستهای پرخطر همچنان به بررسی انسانی ارجاع داده میشوند. در بخش مالی، تیم از Codex برای بازبینی ۲۴,۷۷۱ فرم مالیاتی K-1 در مجموع ۷۱,۶۳۷ صفحه استفاده کرد و با استفاده از گردش کاری که اطلاعات شخصی را حذف میکرد، به تیم کمک کرد این کار را نسبت به سال قبل دو هفته سریعتر انجام دهد. در تیم برو به بازار، یکی از کارکنان تولید گزارشهای هفتگی کسبوکار را خودکار کرد و باعث صرفهجویی ۵ تا ۱۰ ساعت در هفته شد.
در ChatGPT، GPT‑5.5 Thinking امکان دریافت کمک سریعتر برای مسائل دشوارتر را فراهم میکند، با پاسخهای هوشمندانهتر و خلاصهتر تا به شما کمک نماید کارهای پیچیده را مؤثرتر پیش ببرید. این در کارهای حرفهای مانند کدنویسی، تحقیق، ترکیب و تحلیل اطلاعات، و کارهای مبتنی بر اسناد حجیم عالی عمل میکند، بهویژه هنگام استفاده از افزونهها.
در GPT‑5.5 Pro، آزمایشکنندگان اولیه شاهد پیشرفت چشمگیری هم در پیچیدگی و هم در کیفیت کارهایی هستند که ChatGPT میتواند بر عهده بگیرد، همراه با بهبودهای تأخیر که آن را برای وظایف سنگین بسیار کاربردیتر میکند. در مقایسه با GPT‑5.4 Pro، آزمونکنندگان دریافتند که پاسخهای GPT‑5.5 Pro بهطور قابلتوجهی جامعتر، ساختاریافتهتر، دقیقتر، مرتبطتر و مفیدتر هستند، و عملکرد آن بهویژه در حوزههای کسبوکار، حقوق، آموزش و علم داده بسیار قوی بود.
GPT‑5.5 در چندین معیار که این نوع کار را منعکس میکنند، به عملکرد پیشرفتهای دست مییابد. در GDPval، که توانایی عاملها را برای تولید کارهای دانشمحور بهخوبی مشخصشده در ۴۴ شغل میآزماید، GPT‑5.5 امتیاز ۸۴٫۹٪ را کسب میکند. در OSWorld-Verified، که میسنجد آیا یک مدل میتواند بهصورت مستقل در محیطهای واقعی رایانهای عمل کند، به ۷۸٫۷٪ میرسد. و در Tau2-bench Telecom، که جریانهای کاری پیچیده خدمات مشتری را آزمایش میکند، بدون تنظیم اعلان به ۹۸٫۰٪ میرسد. GPT‑5.5 همچنین در سایر معیارهای کار دانشی نیز عملکرد قدرتمندی دارد: ۶۰٫۰٪ در FinanceAgent، ٪۸۸٫۵ در وظایف داخلی مدلسازی بانکداری سرمایهگذاری، و ۵۴٫۱٪ در OfficeQA Pro.
Tau2-bench Telecom بدون تنظیم اعلان اجرا شد (و GPT‑4.1 به عنوان مدل کاربر). GPT‑5.5 منظور وظیفه را بهتر درک میکند و از نظر توکن نسبت به نسخههای پیشین خود بهینهتر است.
«GPT-5.5 عملکرد پایدار موردنیاز برای کارهای سنگین اجرایی را ارائه میدهد. این مدل که بر روی سیستمهای NVIDIA GB200 NVL72 ساخته و ارائه شده است، به تیمهای ما امکان میدهد ویژگیهای سرتاسری را از اعلانهای زبان طبیعی ارائه کنند، زمان اشکالزدایی را از چند روز به چند ساعت کاهش دهند و در پایگاههای کد پیچیده، هفتهها آزمایش را به پیشرفتی یکشبه تبدیل کنند. این فقط کدنویسی سریعتر نیست—بلکه شیوهای جدید برای کار کردن است که به افراد کمک میکند با سرعتی اساساً متفاوت عمل کنند.»
GPT‑5.5 همچنین در گردشهای کاری پژوهشی علمی و فنی بهبودهایی را نشان میدهد که به چیزی بیش از پاسخ دادن به یک پرسش دشوار نیاز دارند. پژوهشگران باید یک ایده را بررسی کنند، شواهد گردآوری کنند، فرضیات را بیازمایند، نتایج را تفسیر کنند و تصمیم بگیرند که گام بعدی چه باشد. GPT‑5.5 در حفظ پایداری در طول آن حلقه بهتر از سایر مدلها عمل میکند.
نکته قابل توجه این است که GPT‑5.5 در GeneBench(در یک پنجره جدید باز میشود)، یک ارزیابی جدید که بر تحلیل علمی چندمرحلهای دادهها در ژنتیک و زیستشناسی کمی تمرکز دارد، بهوضوح عملکرد بهتری نسبت به GPT‑5.4 نشان میدهد. این مسائل مستلزم آن هستند که مدلها با حداقل راهنمایی نظارتی، درباره دادههای بالقوه مبهم یا دارای خطا استدلال کنند، با موانع واقعبینانهای مانند متغیرهای مخدوشکننده پنهان یا شکستهای QC مواجه شوند، و روشهای آماری مدرن را بهدرستی پیادهسازی و تفسیر کنند. عملکرد مدل با توجه به این واقعیت که وظایف در اینجا اغلب معادل پروژههای چندروزه برای متخصصان علمی هستند، چشمگیر است.
بهطور مشابه، در BixBench(در یک پنجره جدید باز میشود)، بنچمارکی که پیرامون مسائل واقعی زیستاطلاعرسانی و تحلیل داده طراحی شده است، GPT‑5.5 در میان مدلهایی با امتیازهای منتشرشده، بهترین عملکرد را کسب کرد. قابلیتهای علمیِ مدل اکنون به اندازهای قوی هستند که بتواند بهعنوان یک همکار-دانشمند واقعی، پیشرفت در مرزهای پیشروی پژوهشهای زیستپزشکی را بهطور معناداری تسریع کند.
در مثالی دیگر، یک نسخه داخلی از GPT‑5.5 با یک هارنس سفارشی به کشف برهانی جدید(در یک پنجره جدید باز میشود) درباره اعداد رمزی، یکی از مفاهیم محوری در ترکیبیات، کمک کرد. ترکیبیات به بررسی چگونگی کنار هم قرار گرفتن اشیای گسسته میپردازد: گرافها، شبکهها، مجموعهها و الگوها. اعداد رمزی، به طور تقریبی، میپرسند که یک شبکه باید چهقدر بزرگ باشد تا پیش از آنکه تضمین شود نوعی نظم پدیدار میشود. نتایج در این حوزه نادر هستند و اغلب از نظر فنی دشوارند. در اینجا، GPT‑5.5 برهانی برای یک واقعیت مجانبی دیرینه درباره اعداد رمزی خارجازقطر یافت که بعداً در Lean نیز راستیآزمایی شد. این نتیجه، نمونهای عینی از مشارکت GPT‑5.5 است؛ مشارکتی که نهفقط شامل کد یا توضیح، بلکه شامل استدلالی ریاضی غافلگیرکننده و مفید در یکی از حوزههای اصلی پژوهش نیز میشود.
آزمایشکنندگان اولیه از GPT‑5.5 Pro در ChatGPT کمتر شبیه یک موتور پاسخگویی بدون نمونه و بیشتر شبیه یک شریک پژوهشی استفاده میکردند: با نقد دستنوشتهها در چندین مرحله، آزمودن استحکام استدلالهای فنی، پیشنهاد تحلیلها، و کار با کد، یادداشتها و زمینه فایلهای PDF. وجه مشترک این است که GPT‑5.5 در کمک به پژوهشگران برای حرکت از پرسش به آزمایش و سپس به خروجی، بهتر است.
دریا اونوتماز، استاد و پژوهشگر ایمنیشناسی در آزمایشگاه پزشکی ژنومی جکسون، از GPT‑5.5 Pro برای تحلیل یک مجموعهداده بیان ژن با ۶۲ نمونه و نزدیک به ۲۸٬۰۰۰ ژن استفاده کرد و در نتیجه گزارش پژوهشی مفصلی تولید کرد که نهتنها یافتهها را خلاصه میکرد، بلکه پرسشها و بینشهای کلیدی را نیز آشکار میساخت—کاری که به گفته او انجامش برای تیمش ماهها زمان میبرد.
بارتوش ناسکرکی ، استادیار ریاضیات در دانشگاه آدام میکیویچ در پوزنان، لهستان، با استفاده از GPT‑5.5 در Codex، یک برنامه هندسه جبری را از یک دستور واحد در ۱۱ دقیقه ساخت، تقاطع سطوح درجه دوم را تجسم کرد و منحنی حاصل را به یک مدل وایرشتراس تبدیل کرد.
او بعداً برنامه را با بصریسازی پایدارترِ تکینگی و ضرایب دقیقتری توسعه داد که میتوان از آنها در کارهای بعدی دوباره استفاده کرد. برای او، تغییر مهمتر این است که Codex اکنون میتواند به پیادهسازی گردشهای کاری سفارشیِ مصورسازی ریاضی و جبر رایانشی کمک کند که پیشتر به ابزارهای اختصاصی نیاز داشتند. در مجموع، این نمونهها نشان میدهند که GPT‑5.5 چگونه قصد کارشناسانه را به ابزارها و تحلیلهای پژوهشیِ کاربردی تبدیل میکند.

اعتبار:بارتوش ناسکرکی(در یک پنجره جدید باز میشود)
اعلان: # تقاطع سطوح در هندسه جبری
یک برنامه بسازید که دو سطح درجهدو را ترسیم کند و منحنی تقاطع را به رنگ قرمز نمایش دهد. از قضیه محاسباتی ریمان-روخ برای تبدیل این به منحنی وایرشتراس استفاده کنید.
## پنجره اصلی
دو سطح رنگخورده با سایهزنی کمی شفاف، در یک رندر باکیفیت، در امتداد یک منحنی جبری قرمزرنگ یکدیگر را قطع میکنند
چرخش با ماوس در هر دو جهت، پشتیبانی کامل از ژست نیشگون برای بزرگنمایی، فشار هپتیکی برای نمایش منوی کوچکِ دارای لغزندهها جهت تغییر ضرایب هر سطح؛ تشخیص از طریق سطح Z-buffer
## پنجره سمت راست
معادله کوتاه وایرشتراس (روی Q یا توسعه درجه دوم میدان) که به صورت Go با استفاده از فرمولهای مؤثر قضیه ریمان–روخ محاسبه شده است
## حالت محیطی که در آن همه کنترلها پنهان هستند و کاربر میتواند زیبایی شکلها را تحسین کند
## مشخصات
برنامه در مرورگر اجرا میشود، پیادهسازی سبک با جدیدترین کتابخانههای فولاستک، قابلحمل و قابلاستقرار
## مستندات
مخزن Git، دفترچه، طرح (فایلهای Markdown)
«استفاده از مدل جدید GPT-5.5 شرکت OpenAI در چارچوب ما واقعاً انرژیبخش است؛ اینکه این مدل روی مجموعهدادههای عظیم بیوشیمیایی استدلال کند تا پیامدهای دارو در انسان را پیشبینی کند، و بعد ببینیم که در دشوارترین ارزیابیهای کشف داروی ما بهبودهای چشمگیری در دقت ایجاد میکند. اگر OpenAI به همین روند خیرهکننده ادامه دهد، بنیانهای کشف دارو تا پایان سال دگرگون خواهد شد.»
ارائه GPT‑5.5 با تأخیر GPT‑5.4 مستلزم بازاندیشی در استنتاج بهعنوان یک سامانه یکپارچه بود، نه مجموعهای از بهینهسازیهای مجزا. GPT‑5.5 بهصورت مشترک برای سیستمهای NVIDIA GB200 و GB300 NVL72 طراحی شده، با آنها آموزش داده شده و روی آنها ارائه شده است. Codex و GPT‑5.5 در دستیابی ما به اهداف عملکردیمان نقش اساسی داشتند. Codex به تیم کمک کرد تا سریعتر از ایده به پیادهسازی قابلسنجش برسد؛ با ترسیم رویکردها، طراحی آزمایشها، و کمک به شناسایی اینکه کدام بهینهسازیها ارزش سرمایهگذاری عمیقتر را دارند. GPT‑5.5 به شناسایی و پیادهسازی بهبودهای کلیدی در خود پشته کمک کرد. به بیان ساده، مدل به بهبود زیرساختی که به آن خدمات ارائه میدهد کمک کرد.
یکی از این بهبودها متعادلسازی بار و هیوریستیکهای پارتیشنبندی بود. پیش از GPT‑5.5، ما درخواستها را روی یک شتابدهنده به تعداد ثابتی بخش تقسیم میکردیم تا کار بهصورت متوازن میان هستههای پردازشی توزیع شود و اطمینان حاصل شود که درخواستهای بزرگ و کوچک میتوانند روی یک GPU یکسان اجرا شوند. با این حال، تعداد از پیش تعیینشدهای از بخشهای ایستا برای همه الگوهای ترافیکی بهینه نیست. برای استفاده بهتر از GPUها، Codex الگوهای ترافیک محیط تولید را در طول چندین هفته تحلیل کرد و الگوریتمهای اکتشافی سفارشی نوشت تا کار را بهطور بهینه تقسیمبندی و متعادل کند. این تلاش تأثیر بسیار زیادی داشت و سرعت تولید توکن را بیش از ۲۰٪ افزایش داد.
آمادهسازی جهان برای مدلهایی که در یافتن و رفع آسیبپذیریهای امنیتی بسیار توانمند هستند، کاری جمعی است و مستلزم آن خواهد بود که کل اکوسیستم برای ایجاد تابآوری سخت تلاش کند؛ با دسترسی همگانی به مدلها و استقرار تدریجی برای عصر بعدی دفاع سایبری.
مدلهای پیشرو بهطور فزایندهای در حوزه امنیت سایبری توانمندتر میشوند. این قابلیتها بهطور گسترده توزیع خواهند شد و ما معتقدیم بهترین مسیر پیش رو این است که اطمینان حاصل کنیم بتوان از آنها برای تسریع در دفاع سایبری و تقویت اکوسیستم استفاده کرد.
GPT‑5.5 گامی تدریجی اما مهم بهسوی هوش مصنوعیای است که میتواند برخی از دشوارترین چالشهای جهان، مانند امنیت سایبری، را حل کند. با GPT‑5.2 در دسامبر، ما بهصورت پیشفعال تدابیر حفاظتی سایبری لازم را برای محدود کردن سوءاستفاده سایبری بالقوه از مدلهای خود مستقر کردیم؛ اکنون با GPT‑5.5، در حال استقرار طبقهبندهای سختگیرانهتر برای ریسک سایبری بالقوه هستیم که ممکن است در ابتدا برای برخی کاربران آزاردهنده باشد، در حالی که آنها را بهمرور زمان تنظیم میکنیم.
ما سالهاست که امنیت سایبری را در چارچوب آمادگی(در یک پنجره جدید باز میشود) خود بهعنوان یک دستهبندی شناسایی کردهایم؛ همزمان با بهبود تدریجی مدلهای ما، اقدامات کاهشدهنده را نیز بهصورت تکرارشونده توسعه داده و تنظیم میکنیم تا بتوانیم مدلهایی را با قابلیتهای معنادار در حوزه امنیت سایبری بهطور مسئولانه منتشر کنیم.
- ما در حال استقرار تدابیر حفاظتی پیشرو در صنعت برای این سطح از قابلیتهای سایبری هستیم. ما سال گذشته تدابیر حفاظتی ویژه سایبری(در یک پنجره جدید باز میشود) را نخستین بار با GPT‑5.2 معرفی کردیم و از آن زمان در استقرارهای بعدی به آزمایش، پالایش و توسعه آنها ادامه دادهایم. برای GPT‑5.5، ما کنترلهای سختگیرانهتری برای فعالیتهای پرریسکتر و درخواستهای حساس سایبری طراحی کردیم و محافظتهای افزودهای برای سوءاستفاده مکرر اضافه کردیم. دسترسی گسترده از طریق سرمایهگذاریهای ما در ایمنی مدل، استفاده احراز هویتشده، و پایش استفاده غیرمجاز فراهم میشود. ماههاست که با کارشناسان خارجی همکاری میکنیم تا استحکام این تدابیر حفاظتی را توسعه دهیم، آزمایش کنیم و از طریق تکرار بهبود بخشیم. با GPT‑5.5، ما اطمینان حاصل میکنیم که توسعهدهندگان بتوانند بهسادگی کد خود را ایمن کنند، و در عین حال کنترلهای سختگیرانهتری بر جریانهای کاری سایبریای اعمال میکنیم که بیش از همه در معرض سوءاستفاده عوامل مخرب برای ایجاد آسیب هستند.
- ما در حال گسترش دسترسی هستیم تا دفاع سایبری را در همه سطوح تسریع کنیم. ما مدلهای سایبری با محدودیت کمتر خود را از طریق دسترسی مطمئن برای امنیت سایبری در دسترس قرار میدهیم؛ این روند با Codex آغاز میشود که شامل دسترسی گستردهتر به قابلیتهای پیشرفته امنیت سایبری GPT‑5.5 با محدودیتهای کمتر برای کاربران تأییدشدهای است که در زمان راهاندازی، برخی سیگنالهای اعتماد(در یک پنجره جدید باز میشود) را برآورده میکنند. سازمانهایی که مسئول دفاع از زیرساختهای حیاتی هستند، میتوانند برای دسترسی به مدلهای دارای رویکردی بازتر در حوزه سایبری مانند GPT‑5.4‑Cyber درخواست دهند، مشروط به رعایت الزامات امنیتی سختگیرانه برای استفاده از این مدلها در ایمنسازی سامانههای داخلی خود. این امر ابزارهای توانمندتری را در اختیار طیف گستردهای از مدافعان تأییدشده برای انجام کارهای امنیتی مشروع، با اصطکاک غیرضروری کمتر، قرار میدهد تا اطمینان حاصل کنیم که دسترسی به قابلیتهای دفاعی مهم را همگانی میکنیم. کاربران میتوانند برای chatgpt.com/cyber(در یک پنجره جدید باز میشود) درخواست دسترسی مطمئن دهند تا هنگام استفاده از GPT‑5.5 برای کارهای دفاعی تأییدشده، رد درخواستهای غیرضروری کاهش یابد.
- ما با شرکای دولتی همکاری میکنیم تا به حفاظت از زیرساختهای حیاتی برای عموم کمک کنیم. ما با هم در حال بررسی این هستیم که هوش مصنوعی پیشرفته چگونه میتواند از اقدامات دفاعی مقامهای مورد اعتمادی که عهدهدار سامانههایی هستند که مردم به آنها اتکا دارند پشتیبانی کند؛ از سامانههای دیجیتالی که دادههای مهم مالیاتدهندگان را ایمن میکنند گرفته تا شبکه برق و منابع آب در جوامع محلی.
ما قابلیتهای زیستی/شیمیایی و امنیت سایبری GPT‑5.5 را تحت چارچوب آمادگی(در یک پنجره جدید باز میشود) خود به عنوان سطح بالا در نظر میگیریم. در حالی که GPT‑5.5 به سطح بحرانی قابلیت امنیت سایبری نرسید، ارزیابیها و آزمونهای ما نشان داد که قابلیتهای امنیت سایبری آن نسبت به GPT‑5.4 یک گام رو به جلو است.
علاوه بر این، GPT‑5.5 پیش از انتشار، فرایند کامل ایمنی و حکمرانی سازمانی ما را پشت سر گذاشت که شامل ارزیابیهای آمادگی، آزمونهای حوزهمحور، ارزیابیهای هدفمند جدید برای قابلیتهای پیشرفته در زیستشناسی و امنیت سایبری، و آزمونهای جامع با کارشناسان خارجی بود. جزئیات بیشتری را در کارت سیستم(در یک پنجره جدید باز میشود) GPT‑5.5 ارائه میکنیم.
این کار بازتابدهنده رویکرد گستردهتر ما به تابآوری هوش مصنوعی است، که به باور ما همزمان با پیشرفت قابلیتهای مدل لازم است. ما میخواهیم هوش مصنوعی قدرتمند در دسترس افرادی باشد که از آن برای دفاع از سامانهها، نهادها و عموم مردم استفاده میکنند. مسیر عملی، دسترسی مطمئن، تدابیر حفاظتی مستحکمی است که متناسب با قابلیتها افزایش مییابند، و ظرفیت عملیاتی برای شناسایی و پاسخ به سوءاستفاده جدی.
امروز، GPT‑5.5 برای کاربران Plus، Pro، Business و Enterprise در ChatGPT و Codex در حال عرضه است و GPT‑5.5 Pro نیز برای کاربران Pro، Business و Enterprise در ChatGPT در حال عرضه است. بهزودی GPT‑5.5 و GPT‑5.5 Pro را به API میآوریم.
در ChatGPT، GPT‑5.5 Thinking برای کاربران Plus، Pro، Business و Enterprise در دسترس میباشد. GPT‑5.5 Pro، که برای پرسشهای حتی دشوارتر و کارهایی با دقت بالاتر طراحی شده است، برای کاربران Pro، Business و Enterprise در دسترس میباشد.
در Codex، GPT‑5.5 برای طرحهای Plus، Pro، Business، Enterprise، Edu و Go با پنجره زمینه ۴۰۰ هزار در دسترس است. GPT‑5.5 همچنین در Fast mode در دسترس است و توکنها را ۱.۵ برابر سریعتر با ۲.۵ برابر هزینه تولید میکند.
برای توسعهدهندگان API، gpt-5.5 بهزودی در API پاسخها و API های انتهای چت با قیمت ۵ دلار برای هر ۱ میلیون توکن ورودی و ۳۰ دلار برای هر ۱ میلیون توکن خروجی، با پنجره زمینه ۱ میلیون، در دسترس خواهد بود. قیمتهای Batch و Flex با نصف نرخ استاندارد API در دسترس هستند، در حالی که پردازش اولویتدار با ۲٫۵ برابر نرخ استاندارد ارائه میشود. ما همچنین gpt-5.5-pro را در API برای دستیابی به دقتی حتی بالاتر عرضه خواهیم کرد که قیمت آن ۳۰ دلار برای هر ۱ میلیون توکن ورودی و ۱۸۰ دلار برای هر ۱ میلیون توکن خروجی است. برای جزئیات کامل، صفحه قیمتگذاری را ببینید.
در حالی که GPT‑5.5 نسبت به GPT‑5.4 قیمت بالاتری دارد، هم هوشمندتر است و هم از نظر مصرف توکن بسیار بهینهتر است. در Codex، تجربه را با دقت تنظیم کردهایم تا GPT‑5.5 برای بیشتر کاربران، با توکنهای کمتری نسبت به GPT‑5.4 نتایج بهتری ارائه دهد، در عین حال همچنان استفادهای سخاوتمندانه را در سطوح مختلف اشتراک ارائه میکنیم.
برنامهنویسی
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (عمومی) * | ۵۸٫۶٪ | ۵۷.۷٪ | - | - | 64.3% | ۵۴٫۲٪ |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | ۶۹٫۴٪ | ۶۸٫۵٪ |
Expert-SWE (داخلی) | ۷۳٫۱٪ | ۶۸٫۵٪ | - | - | - | - |
*آزمایشگاهها شواهدی از حفظ کردن اطلاعات (در یک پنجره جدید باز میشود)در این ارزیابی را مشاهده کردهاند
حرفهای
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (بردها یا تساویها) | ۸۴٫۹٪ | ۸۳.۰٪ | ۸۲٫۳٪ | 82.0% | ۸۰.۳٪ | ۶۷٫۳٪ |
FinanceAgent v1.1 | ۶۰٫۰٪ | 56.0% | - | 61.5% | ۶۴٫۴٪ | ۵۹٫۷٪ |
وظایف مدلسازی بانکداری سرمایهگذاری (داخلی) | ٪۸۸٫۵ | 87.3% | ۸۸٫۶٪ | 83.6% | - | - |
OfficeQA Pro | ۵۴٫۱٪ | ۵۳٫۲٪ | - | - | 43.6% | ۱۸٫۱٪ |
استفاده از کامپیوتر و بینایی
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | ۷۸٫۷٪ | ۷۵.۰٪ | - | - | ۷۸٫۰٪ | - |
MMMU Pro (بدون ابزار) | 81.2% | 81.2% | - | - | - | ۸۰٫۵٪ |
MMMU Pro (با ابزار) | ۸۳٫۲٪ | 82.1% | - | - | - | - |
استفاده از ابزار
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | ۸۴٫۴٪ | 82.7% | ۹۰٫۱٪ | 89.3% | 79.3% | ۸۵٫۹٪ |
اطلس MCP** | ۷۵٫۳٪ | ۷۰٫۶٪ | - | - | ۷۹٫۱٪ | ۷۸٫۲٪ |
Toolathlon | ۵۵.۶٪ | 54.6% | - | - | - | ۴۸٫۸٪ |
Tau2-bench Telecom*** | ۹۸٫۰٪ | 92.8% | - | - | - | - |
** اطلس MCP: نتایج Scale AI پس از آخرین بهروزرسانی آوریل ۲۰۲۶.
*** Tau2-bench telecom: نتایج برای 5.5 و 5.4 با اعلانهای اصلی، یعنی بدون تنظیم اعلان. این شامل نتایج سایر آزمایشگاههایی که با تنظیمات اعلان ارزیابی شده بودند، نمیشود.
دانشگاهی
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | ۲۵٫۰٪ | ۱۹٫۰٪ | ۳۳٫۲٪ | ۲۵٫۶٪ | - | - |
FrontierMath سطح ۱–۳ | ۵۱٫۷٪ | 47.6% | ۵۲٫۴٪ | 50.0% | ۴۳٫۸٪ | ۳۶٫۹٪ |
FrontierMath سطح 4 | ۳۵٫۴٪ | 27.1% | ۳۹٫۶٪ | 38.0% | ۲۲٫۹٪ | ۱۶٫۷٪ |
BixBench | ۸۰٫۵٪ | 74.0% | - | - | - | - |
GPQA Diamond | ۹۳٫۶٪ | 92.8% | - | 94.4% | ۹۴٫۲٪ | ۹۴٫۳٪ |
آخرین آزمون بشریت (بدون ابزار) | ۴۱٫۴٪ | 39.8% | ۴۳٫۱٪ | 42.7% | ۴۶٫۹٪ | ۴۴٫۴٪ |
آخرین آزمون بشریت (با ابزارها) | ۵۲٫۲٪ | 52.1% | 57.2% | 58.7% | ۵۴٫۷٪ | ۵۱٫۴٪ |
امنیت سایبری
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
وظایف چالشهای Capture-the-Flag (داخلی)**** | ۸۸.۱٪ | ۸۳٫۷٪ | - | - | - | - |
CyberGym | ۸۱٫۸٪ | ۷۹٫۰٪ | - | - | ۷۳٫۱٪ | - |
**** نسخهای گسترشیافته از سختترین CTFها که در کارتهای سیستم استفاده میشوند، همراه با چالشهای سخت اضافی.
زمینه طولانی
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
گرافواکها BFS ۲۵۶ هزار f1 | ۷۳٫۷٪ | ۶۲٫۵٪ | - | - | ۷۶٫۹٪ | - |
گرافواکها BFS ۱ میلیون f1 | ۴۵٫۴٪ | ۹٫۴٪ | - | - | ۴۱٫۲٪ (Opus 4.6) | - |
والدین Graphwalks ۲۵۶ هزار f1 | ۹۰٫۱٪ | ۸۲٫۸٪ | - | - | ۹۳٫۶٪ | - |
والدهای Graphwalks ۱ میلیون f1 | ۵۸٫۵٪ | ۴۴٫۴٪ | - | - | ۷۲٫۰٪ (Opus 4.6) | - |
OpenAI MRCR v2 ۸ سوزن ۸ هزار-۱۶ هزار | ۹۸٫۱٪ | 97.3% | - | - | - | - |
OpenAI MRCR v2 ۸ سوزن ۸ هزار-۱۶ هزار | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 ۸-سوزن ۱۶ هزار–۳۲ هزار | ۹۶٬۵٪ | 97.2% | - | - | - | - |
OpenAI MRCR v2 ۸-سوزنه ۳۲ هزار–۶۴ هزار | ۹۰٫۰٪ | 90.5% | - | - | - | - |
OpenAI MRCR v2 ۸-سوزن ۶۴ هزار–۱۲۸ هزار | ۸۳٫۱٪ | 86.0% | - | - | - | - |
OpenAI MRCR v2 ۸-سوزن ۱۲۸ هزار–۲۵۶ هزار | ۸۷٫۵٪ | 79.3% | - | - | ۵۲٫۹٪ | - |
OpenAI MRCR v2 ۸ سوزن ۲۵۶ هزار–۵۱۲ هزار | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 ۸ سوزن ۵۱۲ هزار–۱ میلیون | 74.0% | 36.6% | - | - | ۳۲٫۲٪ | - |
استدلال انتزاعی
ارزیابی | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (تأیید شده) | ۹۵٫۰٪ | 93.7% | - | 94.5% | ۹۳٫۵٪ | ۹۸٫۰٪ |
ARC-AGI-2 (تأیید شده) | ۸۵٫۰٪ | 73.3% | - | 83.3% | ۷۵٫۸٪ | ۷۷٫۱٪ |
ارزیابیهای GPT با تلاش استدلال روی xhigh اجرا شدند و در یک محیط تحقیقاتی انجام شدند که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه دهد.








