۳ اردیبهشت ۱۴۰۵

معرفی GPT‑5.5

طبقه‌ای جدید از هوش برای کار واقعی

در حال بارگذاری…

به‌روزرسانی ۲۴ آوریل ۲۰۲۶: GPT‑5.5 و GPT‑5.5 Pro اکنون در API در دسترس هستند. کارت سیستم نیز به‌روزرسانی شده است تا اقدامات حفاظتی اضافی اعمال‌شده را توضیح دهد.

ما در حال انتشار GPT‑5.5 هستیم، که هوشمندترین و شهودی‌ترین مدل ما برای استفاده تا به امروز است و گام بعدی به سوی روشی جدید برای انجام کار با کامپیوتر محسوب می‌شود.

GPT‑5.5 سریع‌تر متوجه می‌شود که می‌خواهید چه کاری انجام دهید و می‌تواند بخش بیشتری از کار را خودش انجام دهد. در نوشتن و اشکال‌زدایی کد، تحقیق آنلاین، تحلیل داده‌ها، ایجاد اسناد و صفحه‌گسترده‌ها، کار با نرم‌افزارها و جابه‌جایی بین ابزارها تا زمانی که یک کار کامل شود، عالی عمل می‌کند. به‌جای اینکه هر مرحله را با دقت مدیریت کنید، می‌توانید با خیال راحت یک کار نامرتب و چندبخشی را به GPT‑5.5 بسپارید و به آن اعتماد کنید که برنامه‌ریزی کند، از ابزارها استفاده کند، کارش را بررسی کند، در میان ابهام پیش برود و ادامه دهد.

پیشرفت‌ها به‌ویژه در کدنویسی عامل‌محور، استفاده از رایانه، کار دانشی و مراحل اولیه پژوهش علمی چشمگیر هستند—حوزه‌هایی که پیشرفت در آن‌ها به استدلال در بستر زمینه و اقدام در طول زمان وابسته است. GPT‑5.5 این ارتقای هوش را بدون به خطر انداختن سرعت ارائه می‌کند: مدل‌های بزرگ‌تر و توانمندتر اغلب در ارائه کندتر هستند، اما GPT‑5.5 در ارائه در دنیای واقعی، تأخیر به‌ازای هر توکن را در سطح GPT‑5.4 حفظ می‌کند، در حالی که از نظر هوش در سطحی بسیار بالاتر عمل می‌کند. همچنین برای تکمیل همان وظایف Codex از توکن‌های به‌مراتب کمتری استفاده می‌کند که آن را هم کارآمدتر و هم توانمندتر می‌کند.

ما GPT‑5.5 را با قوی‌ترین مجموعه تدابیر حفاظتی خود تا به امروز منتشر می‌کنیم؛ تدابیری که برای کاهش سوءاستفاده و در عین حال حفظ دسترسی برای کارهای سودمند طراحی شده‌اند. ما این مدل را در سراسر مجموعه کامل چارچوب‌های ایمنی و آمادگی خود ارزیابی کردیم، با اعضای داخلی و خارجی تیم قرمز همکاری کردیم، آزمایش‌های هدفمندی را برای قابلیت‌های پیشرفته امنیت سایبری و زیستی افزودیم، و پیش از انتشار، بازخورد مربوط به موارد استفاده واقعی را از نزدیک به ۲۰۰ شریک مورد اعتماد دارای دسترسی زودهنگام جمع‌آوری کردیم.

امروز، GPT‑5.5 برای کاربران Plus، Pro، Business و Enterprise در ChatGPT و Codex در حال عرضه است و GPT‑5.5 Pro نیز برای کاربران Pro، Business و Enterprise در ChatGPT در حال عرضه است. استقرارهای API به تدابیر حفاظتی متفاوتی نیاز دارند و ما به‌صورت نزدیک با شرکا و مشتریان همکاری می‌کنیم تا الزامات ایمنی و امنیتی برای ارائه آن در مقیاس وسیع را تعیین کنیم. به‌زودی GPT‑5.5 و GPT‑5.5 Pro را به API می‌آوریم.

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	-	-	۶۹٫۴٪	۶۸٫۵٪
Expert-SWE (داخلی)	۷۳٫۱٪	۶۸٫۵٪	-	-	-	-
GDPval (بردها یا تساوی‌ها)	۸۴٫۹٪	۸۳.۰٪	۸۲٫۳٪	82.0%	۸۰.۳٪	۶۷٫۳٪
OSWorld-Verified	۷۸٫۷٪	۷۵.۰٪	-	-	۷۸٫۰٪	-
Toolathlon	۵۵.۶٪	54.6%	-	-	-	۴۸٫۸٪
BrowseComp	۸۴٫۴٪	82.7%	۹۰٫۱٪	89.3%	79.3%	۸۵٫۹٪
FrontierMath سطح ۱–۳	۵۱٫۷٪	47.6%	۵۲٫۴٪	50.0%	۴۳٫۸٪	۳۶٫۹٪
FrontierMath سطح 4	۳۵٫۴٪	27.1%	۳۹٫۶٪	38.0%	۲۲٫۹٪	۱۶٫۷٪
CyberGym	۸۱٫۸٪	۷۹٫۰٪	-	-	۷۳٫۱٪	-

قابلیت‌های مدل

OpenAI در حال ساخت زیرساخت جهانی برای هوش مصنوعی عامل‌محور است و این امکان را فراهم می‌کند که افراد و کسب‌وکارها در سراسر جهان با هوش مصنوعی کارهای خود را انجام دهند. در طول سال گذشته، شاهد بوده‌ایم که هوش مصنوعی به‌طور چشمگیری مهندسی نرم‌افزار را شتاب داده است. با GPT‑5.5 در Codex و ChatGPT، همان تحول در حال گسترش به پژوهش‌های علمی و طیف گسترده‌تری از کارهایی است که افراد با رایانه انجام می‌دهند.

در سراسر این حوزه‌ها، GPT‑5.5 فقط هوشمندتر نیست؛ بلکه در نحوه حل مسائل نیز کارآمدتر است و اغلب با توکن‌های کمتر و تلاش‌های مجدد کمتر، به خروجی‌های باکیفیت‌تری می‌رسد. در شاخص کدنویسی Artificial Analysis، GPT‑5.5 هوشمندی پیشرفته را با نصف هزینه مدل‌های پیشرو رقیب کدنویسی ارائه می‌دهد.

شاخص هوش تحلیل مصنوعی⁠(در یک پنجره جدید باز می‌شود) میانگین وزنی ۱۰ ارزیابی است که توسط یک طرف ثالث انجام شده‌اند: AA-LCR، AA-Omniscience، CritPt، GDPval-AA، GPQA Diamond، Humanity’s Last Exam، IFBench، SciCode، Terminal-Bench Hard، τ²-Bench Telecom.

کدنویسی عامل‌محور

GPT‑5.5 قوی‌ترین مدل کدنویسی عامل‌محور ما تا به امروز است. در Terminal-Bench 2.0، که گردش‌کارهای پیچیده خط فرمان را که به برنامه‌ریزی، تکرار، و هماهنگی ابزارها نیاز دارند آزمایش می‌کند، به دقت پیشرفته در سطح روزِ 82.7% دست می‌یابد. در SWE-Bench Pro، که حل مسائل واقعی GitHub را ارزیابی می‌کند، به 58.6٪ می‌رسد و نسبت به مدل‌های قبلی، وظایف بیشتری را به‌صورت سرتاسری و در یک گذر واحد حل می‌کند. در Expert-SWE، ارزیابی پیشرو داخلی ما برای وظایف کدنویسی بلندافق با میانه زمان تخمینی تکمیل توسط انسان برابر با ۲۰ ساعت، GPT‑5.5 نیز از GPT‑5.4 عملکرد بهتری دارد.

GPT‑5.5 در هر سه ارزیابی، امتیازهای GPT‑5.4 را در عین استفاده از توکن‌های کمتر بهبود می‌دهد.

توانمندی‌های کدنویسی مدل به‌ویژه در Codex به‌روشنی نمایان می‌شود، جایی که می‌تواند کارهای مهندسی را از پیاده‌سازی و بازسازی گرفته تا اشکال‌زدایی، تست و اعتبارسنجی بر عهده بگیرد. آزمایش‌های اولیه نشان می‌دهد GPT‑5.5 در رفتارهایی که کار مهندسی واقعی به آن‌ها متکی است عملکرد بهتری دارد؛ رفتارهایی مانند حفظ زمینه در سراسر سیستم‌های بزرگ، استدلال درباره خرابی‌های مبهم، بررسی فرضیات با ابزارها، و اعمال تغییرات در سراسر کدبیس پیرامون.

مسیر رندرشده از داده‌های برداری NASA/JPL Horizons برای اوریون، ماه و خورشید استفاده می‌کند و برای افزایش خوانایی، مقیاس‌بندی نمایشی اعمال شده است.

اعلان: [تصویر پیوست‌شده] این را به‌عنوان یک برنامه جدید با استفاده از webgl و vite و با استفاده از داده‌های واقعی مأموریت Artemis II پیاده‌سازی کن. مطمئن شوید که برنامه را به‌طور کامل آزمایش می‌کنید تا زمانی که کاملاً کاربردی شود و از نظر ظاهری شبیه برنامه موجود در تصویر باشد. به رندر سیاره‌ها و مسیرهای پرواز با دقت توجه کنید. می‌خواهم بتوانم با رندر سه‌بعدی تعامل داشته باشم. مطمئن شوید که آن از مکانیک مداری واقع‌گرایانه برخوردار است.

فراتر از معیارها، آزمایش‌کنندگان اولیه گفتند GPT‑5.5 توانایی بیشتری از خود در درک ساختار یک سیستم نشان می‌دهد: اینکه چرا چیزی دچار مشکل می‌شود، اصلاح باید دقیقاً در کجا اعمال شود، و چه بخش‌های دیگری از پایگاه کد تحت تأثیر قرار می‌گیرند.

«اولین مدل کدنویسی‌ای که استفاده کرده‌ام و از شفافیت مفهومی جدی برخوردار است.»

دن شیپر ، بنیانگذار و مدیرعامل Every، GPT‑5.5 را به عنوان «اولین مدل کدنویسی که استفاده کرده‌ام و از وضوح مفهومی بالایی برخوردار است» توصیف کرد.

پس از راه‌اندازی یک برنامه، او چند روز را صرف اشکال‌زداییِ مشکلی پس از راه‌اندازی کرد، پیش از آن‌که یکی از بهترین مهندسانش را وارد کار کند تا بخشی از سیستم را بازنویسی کند. برای آزمایش GPT‑5.5، او عملاً زمان را به عقب برگرداند: آیا مدل می‌توانست به وضعیت خراب نگاه کند و همان نوع بازنویسی‌ای را که مهندس در نهایت به آن رسید تولید کند؟ GPT‑5.4 نمی‌توانست. GPT‑5.5 می‌توانست.

«واقعاً این‌طور احساس می‌شود که دارم با نوعی هوش برتر کار می‌کنم، و تقریباً نوعی حس احترام وجود دارد.»

پیترو شیرانو،مدیرعامل MagicPath، شاهد تغییر مشابهی بود، زمانی که GPT‑5.5 شاخه‌ای با صدها تغییر ظاهری و اصلاح‌شده را در یک شاخه اصلی که آن هم به‌طور قابل‌توجهی تغییر کرده بود، ادغام کرد و کار را در یک مرحله و در حدود ۲۰ دقیقه حل کرد.

مهندسان ارشدی که مدل را آزمایش کردند گفتند GPT‑5.5 در استدلال و خودمختاری، به‌طور محسوسی از GPT‑5.4 و Claude Opus 4.7 قوی‌تر بود و مشکلات را از پیش شناسایی می‌کرد و نیازهای مربوط به آزمایش و بازبینی را بدون درخواست صریح پیش‌بینی می‌کرد. در یک مورد، یک مهندس از آن خواست معماریِ یک سیستم نظردهی را در یک ویرایشگر مشارکتیِ Markdown بازطراحی کند و بعداً با یک استک ۱۲ تفاوتی که تقریباً کامل شده بود، مواجه شد. دیگران گفتند که به‌طرز شگفت‌آوری به اصلاح اندکی در پیاده‌سازی نیاز داشتند و در مقایسه با GPT‑5.4، به برنامه‌های GPT‑5.5 اطمینان بیشتری داشتند.

یکی از مهندسان انویدیا که از همان ابتدا به این مدل دسترسی داشت، پا را فراتر گذاشت و گفت: «از دست دادن دسترسی به GPT‑5.5 مثل این است که یکی از اعضای بدنم را قطع کرده باشند.»

«GPT-5.5 به‌طور محسوسی هوشمندتر و پیگیرتر از GPT-5.4 است، با عملکرد قوی‌تر در کدنویسی و استفاده قابل اعتمادتر از ابزارها. این مدل برای مدت‌زمانی به‌مراتب طولانی‌تر روی وظیفه متمرکز می‌ماند، بدون اینکه زودتر متوقف شود؛ و این موضوع بیش از همه برای کارهای پیچیده و طولانی‌مدتی اهمیت دارد که کاربران ما به Cursor واگذار می‌کنند.

— مایکل تروئل، هم‌بنیان‌گذار و مدیر عامل در Cursor

کار دانش محور

همان نقاط قوتی که GPT‑5.5 را در کدنویسی عالی کرده‌اند، آن را برای کارهای روزمره با رایانه نیز قدرتمند می‌کنند. از آنجا که مدل در درک نیت بهتر عمل می‌کند، می‌تواند به‌طور طبیعی‌تر در چرخه کامل کار دانشی حرکت کند: یافتن اطلاعات، درک آنچه اهمیت دارد، استفاده از ابزارها، بررسی خروجی، و تبدیل مواد خام به چیزی مفید.

در Codex، GPT‑5.5 در تولید اسناد، صفحات گسترده و ارائه‌های اسلایدی بهتر از GPT‑5.4 عمل می‌کند. آزمایش‌کنندگان آلفا گفتند که این مدل در کارهایی مانند تحقیق در عملیات، مدل‌سازی صفحه‌گسترده و تبدیل ورودی‌های نامرتب کسب‌وکار به برنامه‌ها، عملکرد بهتری نسبت به مدل‌های پیشین داشت. وقتی با مهارت‌های استفاده از کامپیوترِ Codex ترکیب می‌شود، GPT‑5.5 ما را به این حس نزدیک‌تر می‌کند که مدل واقعاً می‌تواند همراه شما از کامپیوتر استفاده کند: آنچه را روی صفحه است ببیند، کلیک کند، تایپ کند، در رابط‌های کاربری پیمایش کند و با دقت میان ابزارها جابه‌جا شود.

تیم‌ها در OpenAI از هم‌اکنون از این نقاط قوت در گردش‌های کاری واقعی استفاده می‌کنند. امروز، بیش از ۸۵٪ از کارکنان شرکت هر هفته در بخش‌های مختلف، از جمله مهندسی نرم‌افزار، مالی، ارتباطات، بازاریابی، علم داده و مدیریت محصول، از Codex استفاده می‌کنند. در بخش ارتباطات، تیم از GPT‑5.5 در Codex برای تجزیه و تحلیل داده‌های شش ماه درخواست صحبت، ایجاد یک چارچوب امتیازدهی و ریسک و اعتبارسنجی یک عامل خودکار Slack استفاده کرد تا درخواست‌های کم‌خطر بتوانند به صورت خودکار مدیریت شوند، در حالی که درخواست‌های پرخطر همچنان به بررسی انسانی ارجاع داده می‌شوند. در بخش مالی، تیم از Codex برای بازبینی ۲۴,۷۷۱ فرم مالیاتی K-1 در مجموع ۷۱,۶۳۷ صفحه استفاده کرد و با استفاده از گردش کاری که اطلاعات شخصی را حذف می‌کرد، به تیم کمک کرد این کار را نسبت به سال قبل دو هفته سریع‌تر انجام دهد. در تیم برو به بازار، یکی از کارکنان تولید گزارش‌های هفتگی کسب‌وکار را خودکار کرد و باعث صرفه‌جویی ۵ تا ۱۰ ساعت در هفته شد.

در ChatGPT، GPT‑5.5 Thinking امکان دریافت کمک سریع‌تر برای مسائل دشوارتر را فراهم می‌کند، با پاسخ‌های هوشمندانه‌تر و خلاصه‌تر تا به شما کمک نماید کارهای پیچیده را مؤثرتر پیش ببرید. این در کارهای حرفه‌ای مانند کدنویسی، تحقیق، ترکیب و تحلیل اطلاعات، و کارهای مبتنی بر اسناد حجیم عالی عمل می‌کند، به‌ویژه هنگام استفاده از افزونه‌ها.

در GPT‑5.5 Pro، آزمایش‌کنندگان اولیه شاهد پیشرفت چشمگیری هم در پیچیدگی و هم در کیفیت کارهایی هستند که ChatGPT می‌تواند بر عهده بگیرد، همراه با بهبودهای تأخیر که آن را برای وظایف سنگین بسیار کاربردی‌تر می‌کند. در مقایسه با GPT‑5.4 Pro، آزمون‌کنندگان دریافتند که پاسخ‌های GPT‑5.5 Pro به‌طور قابل‌توجهی جامع‌تر، ساختاریافته‌تر، دقیق‌تر، مرتبط‌تر و مفیدتر هستند، و عملکرد آن به‌ویژه در حوزه‌های کسب‌وکار، حقوق، آموزش و علم داده بسیار قوی بود.

GPT‑5.5 در چندین معیار که این نوع کار را منعکس می‌کنند، به عملکرد پیشرفته‌ای دست می‌یابد. در GDPval⁠⁠، که توانایی عامل‌ها را برای تولید کارهای دانش‌محور به‌خوبی مشخص‌شده در ۴۴ شغل می‌آزماید، GPT‑5.5 امتیاز ۸۴٫۹٪ را کسب می‌کند. در OSWorld-Verified، که می‌سنجد آیا یک مدل می‌تواند به‌صورت مستقل در محیط‌های واقعی رایانه‌ای عمل کند، به ۷۸٫۷٪ می‌رسد. و در Tau2-bench Telecom، که جریان‌های کاری پیچیده خدمات مشتری را آزمایش می‌کند، بدون تنظیم اعلان به ۹۸٫۰٪ می‌رسد. GPT‑5.5 همچنین در سایر معیارهای کار دانشی نیز عملکرد قدرتمندی دارد: ۶۰٫۰٪ در FinanceAgent، ٪۸۸٫۵ در وظایف داخلی مدل‌سازی بانکداری سرمایه‌گذاری، و ۵۴٫۱٪ در OfficeQA Pro.

Tau2-bench Telecom بدون تنظیم اعلان اجرا شد (و GPT‑4.1 به عنوان مدل کاربر). GPT‑5.5 منظور وظیفه را بهتر درک می‌کند و از نظر توکن نسبت به نسخه‌های پیشین خود بهینه‌تر است.

«GPT-5.5 عملکرد پایدار موردنیاز برای کارهای سنگین اجرایی را ارائه می‌دهد. این مدل که بر روی سیستم‌های NVIDIA GB200 NVL72 ساخته و ارائه شده است، به تیم‌های ما امکان می‌دهد ویژگی‌های سرتاسری را از اعلان‌های زبان طبیعی ارائه کنند، زمان اشکال‌زدایی را از چند روز به چند ساعت کاهش دهند و در پایگاه‌های کد پیچیده، هفته‌ها آزمایش را به پیشرفتی یک‌شبه تبدیل کنند. این فقط کدنویسی سریع‌تر نیست—بلکه شیوه‌ای جدید برای کار کردن است که به افراد کمک می‌کند با سرعتی اساساً متفاوت عمل کنند.»

— جاستین بویتانو، معاون هوش مصنوعی سازمانی در NVIDIA

پژوهش علمی

GPT‑5.5 همچنین در گردش‌های کاری پژوهشی علمی و فنی بهبودهایی را نشان می‌دهد که به چیزی بیش از پاسخ دادن به یک پرسش دشوار نیاز دارند. پژوهشگران باید یک ایده را بررسی کنند، شواهد گردآوری کنند، فرضیات را بیازمایند، نتایج را تفسیر کنند و تصمیم بگیرند که گام بعدی چه باشد. GPT‑5.5 در حفظ پایداری در طول آن حلقه بهتر از سایر مدل‌ها عمل می‌کند.

نکته قابل توجه این است که GPT‑5.5 در GeneBench⁠(در یک پنجره جدید باز می‌شود)، یک ارزیابی جدید که بر تحلیل علمی چندمرحله‌ای داده‌ها در ژنتیک و زیست‌شناسی کمی تمرکز دارد، به‌وضوح عملکرد بهتری نسبت به GPT‑5.4 نشان می‌دهد. این مسائل مستلزم آن هستند که مدل‌ها با حداقل راهنمایی نظارتی، درباره داده‌های بالقوه مبهم یا دارای خطا استدلال کنند، با موانع واقع‌بینانه‌ای مانند متغیرهای مخدوش‌کننده پنهان یا شکست‌های QC مواجه شوند، و روش‌های آماری مدرن را به‌درستی پیاده‌سازی و تفسیر کنند. عملکرد مدل با توجه به این واقعیت که وظایف در اینجا اغلب معادل پروژه‌های چندروزه برای متخصصان علمی هستند، چشمگیر است.

به‌طور مشابه، در BixBench⁠(در یک پنجره جدید باز می‌شود)، بنچمارکی که پیرامون مسائل واقعی زیست‌اطلاع‌رسانی و تحلیل داده طراحی شده است، GPT‑5.5 در میان مدل‌هایی با امتیازهای منتشرشده، بهترین عملکرد را کسب کرد. قابلیت‌های علمیِ مدل اکنون به اندازه‌ای قوی هستند که بتواند به‌عنوان یک همکار-دانشمند واقعی، پیشرفت در مرزهای پیشروی پژوهش‌های زیست‌پزشکی را به‌طور معناداری تسریع کند.

در مثالی دیگر، یک نسخه داخلی از GPT‑5.5 با یک هارنس سفارشی به کشف برهانی جدید⁠(در یک پنجره جدید باز می‌شود) درباره اعداد رمزی، یکی از مفاهیم محوری در ترکیبیات، کمک کرد. ترکیبیات به بررسی چگونگی کنار هم قرار گرفتن اشیای گسسته می‌پردازد: گراف‌ها، شبکه‌ها، مجموعه‌ها و الگوها. اعداد رمزی، به طور تقریبی، می‌پرسند که یک شبکه باید چه‌قدر بزرگ باشد تا پیش از آنکه تضمین شود نوعی نظم پدیدار می‌شود. نتایج در این حوزه نادر هستند و اغلب از نظر فنی دشوارند. در اینجا، GPT‑5.5 برهانی برای یک واقعیت مجانبی دیرینه درباره اعداد رمزی خارج‌از‌قطر یافت که بعداً در Lean نیز راستی‌آزمایی شد. این نتیجه، نمونه‌ای عینی از مشارکت GPT‑5.5 است؛ مشارکتی که نه‌فقط شامل کد یا توضیح، بلکه شامل استدلالی ریاضی غافلگیرکننده و مفید در یکی از حوزه‌های اصلی پژوهش نیز می‌شود.

آزمایش‌کنندگان اولیه از GPT‑5.5 Pro در ChatGPT کمتر شبیه یک موتور پاسخ‌گویی بدون نمونه و بیشتر شبیه یک شریک پژوهشی استفاده می‌کردند: با نقد دست‌نوشته‌ها در چندین مرحله، آزمودن استحکام استدلال‌های فنی، پیشنهاد تحلیل‌ها، و کار با کد، یادداشت‌ها و زمینه فایل‌های PDF. وجه مشترک این است که GPT‑5.5 در کمک به پژوهشگران برای حرکت از پرسش به آزمایش و سپس به خروجی، بهتر است.

دریا اونوتماز، استاد و پژوهشگر ایمنی‌شناسی در آزمایشگاه پزشکی ژنومی جکسون، از GPT‑5.5 Pro برای تحلیل یک مجموعه‌داده بیان ژن با ۶۲ نمونه و نزدیک به ۲۸٬۰۰۰ ژن استفاده کرد و در نتیجه گزارش پژوهشی مفصلی تولید کرد که نه‌تنها یافته‌ها را خلاصه می‌کرد، بلکه پرسش‌ها و بینش‌های کلیدی را نیز آشکار می‌ساخت—کاری که به گفته او انجامش برای تیمش ماه‌ها زمان می‌برد.

بارتوش ناسکرکی ، استادیار ریاضیات در دانشگاه آدام میکیویچ در پوزنان، لهستان، با استفاده از GPT‑5.5 در Codex، یک برنامه هندسه جبری را از یک دستور واحد در ۱۱ دقیقه ساخت، تقاطع سطوح درجه دوم را تجسم کرد و منحنی حاصل را به یک مدل وایرشتراس تبدیل کرد.

او بعداً برنامه را با بصری‌سازی پایدارترِ تکینگی و ضرایب دقیق‌تری توسعه داد که می‌توان از آن‌ها در کارهای بعدی دوباره استفاده کرد. برای او، تغییر مهم‌تر این است که Codex اکنون می‌تواند به پیاده‌سازی گردش‌های کاری سفارشیِ مصورسازی ریاضی و جبر رایانشی کمک کند که پیش‌تر به ابزارهای اختصاصی نیاز داشتند. در مجموع، این نمونه‌ها نشان می‌دهند که GPT‑5.5 چگونه قصد کارشناسانه را به ابزارها و تحلیل‌های پژوهشیِ کاربردی تبدیل می‌کند.

اعتبار:بارتوش ناسکرکی⁠(در یک پنجره جدید باز می‌شود)

اعلان: # تقاطع سطوح در هندسه جبری

یک برنامه بسازید که دو سطح درجه‌دو را ترسیم کند و منحنی تقاطع را به رنگ قرمز نمایش دهد. از قضیه محاسباتی ریمان-روخ برای تبدیل این به منحنی وایرشتراس استفاده کنید.

## پنجره اصلی

دو سطح رنگ‌خورده با سایه‌زنی کمی شفاف، در یک رندر باکیفیت، در امتداد یک منحنی جبری قرمزرنگ یکدیگر را قطع می‌کنند

چرخش با ماوس در هر دو جهت، پشتیبانی کامل از ژست نیشگون برای بزرگ‌نمایی، فشار هپتیکی برای نمایش منوی کوچکِ دارای لغزنده‌ها جهت تغییر ضرایب هر سطح؛ تشخیص از طریق سطح Z-buffer

## پنجره سمت راست

معادله کوتاه وایرشتراس (روی Q یا توسعه درجه دوم میدان) که به صورت Go با استفاده از فرمول‌های مؤثر قضیه ریمان–روخ محاسبه شده است

## حالت محیطی که در آن همه کنترل‌ها پنهان هستند و کاربر می‌تواند زیبایی شکل‌ها را تحسین کند

## مشخصات

برنامه در مرورگر اجرا می‌شود، پیاده‌سازی سبک با جدیدترین کتابخانه‌های فول‌استک، قابل‌حمل و قابل‌استقرار

## مستندات

مخزن Git، دفترچه، طرح (فایل‌های Markdown)

«استفاده از مدل جدید GPT-5.5 شرکت OpenAI در چارچوب ما واقعاً انرژی‌بخش است؛ اینکه این مدل روی مجموعه‌داده‌های عظیم بیوشیمیایی استدلال کند تا پیامدهای دارو در انسان را پیش‌بینی کند، و بعد ببینیم که در دشوارترین ارزیابی‌های کشف داروی ما بهبودهای چشمگیری در دقت ایجاد می‌کند. اگر OpenAI به همین روند خیره‌کننده ادامه دهد، بنیان‌های کشف دارو تا پایان سال دگرگون خواهد شد.»

— براندن وایت، هم‌بنیان‌گذار و مدیر عامل، Axiom Bio

کارایی استنتاج نسل بعدی

ارائه GPT‑5.5 با تأخیر GPT‑5.4 مستلزم بازاندیشی در استنتاج به‌عنوان یک سامانه یکپارچه بود، نه مجموعه‌ای از بهینه‌سازی‌های مجزا. GPT‑5.5 به‌صورت مشترک برای سیستم‌های NVIDIA GB200 و GB300 NVL72 طراحی شده، با آن‌ها آموزش داده شده و روی آن‌ها ارائه شده است. Codex و GPT‑5.5 در دستیابی ما به اهداف عملکردی‌مان نقش اساسی داشتند. Codex به تیم کمک کرد تا سریع‌تر از ایده به پیاده‌سازی قابل‌سنجش برسد؛ با ترسیم رویکردها، طراحی آزمایش‌ها، و کمک به شناسایی اینکه کدام بهینه‌سازی‌ها ارزش سرمایه‌گذاری عمیق‌تر را دارند. GPT‑5.5 به شناسایی و پیاده‌سازی بهبودهای کلیدی در خود پشته کمک کرد. به بیان ساده، مدل به بهبود زیرساختی که به آن خدمات ارائه می‌دهد کمک کرد.

یکی از این بهبودها متعادل‌سازی بار و هیوریستیک‌های پارتیشن‌بندی بود. پیش از GPT‑5.5، ما درخواست‌ها را روی یک شتاب‌دهنده به تعداد ثابتی بخش تقسیم می‌کردیم تا کار به‌صورت متوازن میان هسته‌های پردازشی توزیع شود و اطمینان حاصل شود که درخواست‌های بزرگ و کوچک می‌توانند روی یک GPU یکسان اجرا شوند. با این حال، تعداد از پیش تعیین‌شده‌ای از بخش‌های ایستا برای همه الگوهای ترافیکی بهینه نیست. برای استفاده بهتر از GPUها، Codex الگوهای ترافیک محیط تولید را در طول چندین هفته تحلیل کرد و الگوریتم‌های اکتشافی سفارشی نوشت تا کار را به‌طور بهینه تقسیم‌بندی و متعادل کند. این تلاش تأثیر بسیار زیادی داشت و سرعت تولید توکن را بیش از ۲۰٪ افزایش داد.

ارتقای امنیت سایبری برای امنیت همه

آماده‌سازی جهان برای مدل‌هایی که در یافتن و رفع آسیب‌پذیری‌های امنیتی بسیار توانمند هستند، کاری جمعی است و مستلزم آن خواهد بود که کل اکوسیستم برای ایجاد تاب‌آوری سخت تلاش کند؛ با دسترسی همگانی به مدل‌ها و استقرار تدریجی برای عصر بعدی دفاع سایبری⁠.

مدل‌های پیشرو به‌طور فزاینده‌ای در حوزه امنیت سایبری توانمندتر می‌شوند. این قابلیت‌ها به‌طور گسترده توزیع خواهند شد و ما معتقدیم بهترین مسیر پیش رو این است که اطمینان حاصل کنیم بتوان از آن‌ها برای تسریع در دفاع سایبری و تقویت اکوسیستم استفاده کرد.

GPT‑5.5 گامی تدریجی اما مهم به‌سوی هوش مصنوعی‌ای است که می‌تواند برخی از دشوارترین چالش‌های جهان، مانند امنیت سایبری، را حل کند. با GPT‑5.2 در دسامبر، ما به‌صورت پیش‌فعال تدابیر حفاظتی سایبری⁠ لازم را برای محدود کردن سوءاستفاده سایبری بالقوه از مدل‌های خود مستقر کردیم؛ اکنون با GPT‑5.5، در حال استقرار طبقه‌بندهای سخت‌گیرانه‌تر برای ریسک سایبری بالقوه هستیم که ممکن است در ابتدا برای برخی کاربران آزاردهنده باشد، در حالی که آن‌ها را به‌مرور زمان تنظیم می‌کنیم.

ما سال‌هاست که امنیت سایبری را در چارچوب آمادگی⁠(در یک پنجره جدید باز می‌شود) خود به‌عنوان یک دسته‌بندی شناسایی کرده‌ایم؛ هم‌زمان با بهبود تدریجی مدل‌های ما، اقدامات کاهش‌دهنده را نیز به‌صورت تکرارشونده توسعه داده و تنظیم می‌کنیم تا بتوانیم مدل‌هایی را با قابلیت‌های معنادار در حوزه امنیت سایبری به‌طور مسئولانه منتشر کنیم.

ما در حال استقرار تدابیر حفاظتی پیشرو در صنعت برای این سطح از قابلیت‌های سایبری هستیم. ما سال گذشته تدابیر حفاظتی ویژه سایبری⁠(در یک پنجره جدید باز می‌شود) را نخستین بار با GPT‑5.2 معرفی کردیم و از آن زمان در استقرارهای بعدی به آزمایش، پالایش و توسعه آن‌ها ادامه داده‌ایم. برای GPT‑5.5، ما کنترل‌های سخت‌گیرانه‌تری برای فعالیت‌های پرریسک‌تر و درخواست‌های حساس سایبری طراحی کردیم و محافظت‌های افزوده‌ای برای سوءاستفاده مکرر اضافه کردیم. دسترسی گسترده از طریق سرمایه‌گذاری‌های ما در ایمنی مدل، استفاده احراز هویت‌شده، و پایش استفاده غیرمجاز فراهم می‌شود. ماه‌هاست که با کارشناسان خارجی همکاری می‌کنیم تا استحکام این تدابیر حفاظتی را توسعه دهیم، آزمایش کنیم و از طریق تکرار بهبود بخشیم. با GPT‑5.5، ما اطمینان حاصل می‌کنیم که توسعه‌دهندگان بتوانند به‌سادگی کد خود را ایمن کنند، و در عین حال کنترل‌های سخت‌گیرانه‌تری بر جریان‌های کاری سایبری‌ای اعمال می‌کنیم که بیش از همه در معرض سوءاستفاده عوامل مخرب برای ایجاد آسیب هستند.
ما در حال گسترش دسترسی هستیم تا دفاع سایبری را در همه سطوح تسریع کنیم. ما مدل‌های سایبری با محدودیت کمتر خود را از طریق دسترسی مطمئن برای امنیت سایبری⁠ در دسترس قرار می‌دهیم؛ این روند با Codex آغاز می‌شود که شامل دسترسی گسترده‌تر به قابلیت‌های پیشرفته امنیت سایبری GPT‑5.5 با محدودیت‌های کمتر برای کاربران تأییدشده‌ای است که در زمان راه‌اندازی، برخی سیگنال‌های اعتماد⁠(در یک پنجره جدید باز می‌شود) را برآورده می‌کنند. سازمان‌هایی که مسئول دفاع از زیرساخت‌های حیاتی⁠ هستند، می‌توانند برای دسترسی به مدل‌های دارای رویکردی بازتر در حوزه سایبری مانند GPT‑5.4‑Cyber درخواست دهند، مشروط به رعایت الزامات امنیتی سخت‌گیرانه برای استفاده از این مدل‌ها در ایمن‌سازی سامانه‌های داخلی خود. این امر ابزارهای توانمندتری را در اختیار طیف گسترده‌ای از مدافعان تأییدشده برای انجام کارهای امنیتی مشروع، با اصطکاک غیرضروری کمتر، قرار می‌دهد تا اطمینان حاصل کنیم که دسترسی به قابلیت‌های دفاعی مهم را همگانی می‌کنیم. کاربران می‌توانند برای chatgpt.com/cyber⁠(در یک پنجره جدید باز می‌شود) درخواست دسترسی مطمئن دهند تا هنگام استفاده از GPT‑5.5 برای کارهای دفاعی تأییدشده، رد درخواست‌های غیرضروری کاهش یابد.
ما با شرکای دولتی همکاری می‌کنیم تا به حفاظت از زیرساخت‌های حیاتی برای عموم کمک کنیم. ما با هم در حال بررسی این هستیم که هوش مصنوعی پیشرفته چگونه می‌تواند از اقدامات دفاعی مقام‌های مورد اعتمادی که عهده‌دار سامانه‌هایی هستند که مردم به آن‌ها اتکا دارند پشتیبانی کند؛ از سامانه‌های دیجیتالی که داده‌های مهم مالیات‌دهندگان را ایمن می‌کنند گرفته تا شبکه برق و منابع آب در جوامع محلی.

ما قابلیت‌های زیستی/شیمیایی و امنیت سایبری GPT‑5.5 را تحت چارچوب آمادگی⁠(در یک پنجره جدید باز می‌شود) خود به عنوان سطح بالا در نظر می‌گیریم. در حالی که GPT‑5.5 به سطح بحرانی قابلیت امنیت سایبری نرسید، ارزیابی‌ها و آزمون‌های ما نشان داد که قابلیت‌های امنیت سایبری آن نسبت به GPT‑5.4 یک گام رو به جلو است.

علاوه بر این، GPT‑5.5 پیش از انتشار، فرایند کامل ایمنی و حکمرانی سازمانی ما را پشت سر گذاشت که شامل ارزیابی‌های آمادگی، آزمون‌های حوزه‌محور، ارزیابی‌های هدفمند جدید برای قابلیت‌های پیشرفته در زیست‌شناسی و امنیت سایبری، و آزمون‌های جامع با کارشناسان خارجی بود. جزئیات بیشتری را در کارت سیستم⁠(در یک پنجره جدید باز می‌شود) GPT‑5.5 ارائه می‌کنیم.

این کار بازتاب‌دهنده رویکرد گسترده‌تر ما به تاب‌آوری هوش مصنوعی است، که به باور ما همزمان با پیشرفت قابلیت‌های مدل لازم است. ما می‌خواهیم هوش مصنوعی قدرتمند در دسترس افرادی باشد که از آن برای دفاع از سامانه‌ها، نهادها و عموم مردم استفاده می‌کنند. مسیر عملی، دسترسی مطمئن، تدابیر حفاظتی مستحکمی است که متناسب با قابلیت‌ها افزایش می‌یابند، و ظرفیت عملیاتی برای شناسایی و پاسخ به سوءاستفاده جدی.

در دسترس بودن و قیمت‌گذاری

امروز، GPT‑5.5 برای کاربران Plus، Pro، Business و Enterprise در ChatGPT و Codex در حال عرضه است و GPT‑5.5 Pro نیز برای کاربران Pro، Business و Enterprise در ChatGPT در حال عرضه است. به‌زودی GPT‑5.5 و GPT‑5.5 Pro را به API می‌آوریم.

در ChatGPT، GPT‑5.5 Thinking برای کاربران Plus، Pro، Business و Enterprise در دسترس می‌باشد. GPT‑5.5 Pro، که برای پرسش‌های حتی دشوارتر و کارهایی با دقت بالاتر طراحی شده است، برای کاربران Pro، Business و Enterprise در دسترس می‌باشد.

در Codex، GPT‑5.5 برای طرح‌های Plus، Pro، Business، Enterprise، Edu و Go با پنجره زمینه ۴۰۰ هزار در دسترس است. GPT‑5.5 همچنین در Fast mode در دسترس است و توکن‌ها را ۱.۵ برابر سریع‌تر با ۲.۵ برابر هزینه تولید می‌کند.

برای توسعه‌دهندگان API، gpt-5.5 به‌زودی در API پاسخ‌ها و API های انتهای چت با قیمت ۵ دلار برای هر ۱ میلیون توکن ورودی و ۳۰ دلار برای هر ۱ میلیون توکن خروجی، با پنجره زمینه ۱ میلیون، در دسترس خواهد بود. قیمت‌های Batch و Flex با نصف نرخ استاندارد API در دسترس هستند، در حالی که پردازش اولویت‌دار با ۲٫۵ برابر نرخ استاندارد ارائه می‌شود. ما همچنین gpt-5.5-pro را در API برای دستیابی به دقتی حتی بالاتر عرضه خواهیم کرد که قیمت آن ۳۰ دلار برای هر ۱ میلیون توکن ورودی و ۱۸۰ دلار برای هر ۱ میلیون توکن خروجی است. برای جزئیات کامل، صفحه قیمت‌گذاری⁠ را ببینید.

در حالی که GPT‑5.5 نسبت به GPT‑5.4 قیمت بالاتری دارد، هم هوشمندتر است و هم از نظر مصرف توکن بسیار بهینه‌تر است. در Codex، تجربه را با دقت تنظیم کرده‌ایم تا GPT‑5.5 برای بیشتر کاربران، با توکن‌های کمتری نسبت به GPT‑5.4 نتایج بهتری ارائه دهد، در عین حال همچنان استفاده‌ای سخاوتمندانه را در سطوح مختلف اشتراک ارائه می‌کنیم.

ارزیابی‌ها

برنامه‌نویسی

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (عمومی) *	۵۸٫۶٪	۵۷.۷٪	-	-	64.3%	۵۴٫۲٪
Terminal-Bench 2.0	82.7%	75.1%	-	-	۶۹٫۴٪	۶۸٫۵٪
Expert-SWE (داخلی)	۷۳٫۱٪	۶۸٫۵٪	-	-	-	-

^*^{آزمایشگاه‌ها شواهدی از حفظ کردن اطلاعات}⁠(در یک پنجره جدید باز می‌شود)^{در این ارزیابی}^{را مشاهده کرده‌اند}

حرفه‌ای

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (بردها یا تساوی‌ها)	۸۴٫۹٪	۸۳.۰٪	۸۲٫۳٪	82.0%	۸۰.۳٪	۶۷٫۳٪
FinanceAgent v1.1	۶۰٫۰٪	56.0%	-	61.5%	۶۴٫۴٪	۵۹٫۷٪
وظایف مدل‌سازی بانکداری سرمایه‌گذاری (داخلی)	٪۸۸٫۵	87.3%	۸۸٫۶٪	83.6%	-	-
OfficeQA Pro	۵۴٫۱٪	۵۳٫۲٪	-	-	43.6%	۱۸٫۱٪

استفاده از کامپیوتر و بینایی

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	۷۸٫۷٪	۷۵.۰٪	-	-	۷۸٫۰٪	-
MMMU Pro (بدون ابزار)	81.2%	81.2%	-	-	-	۸۰٫۵٪
MMMU Pro (با ابزار)	۸۳٫۲٪	82.1%	-	-	-	-

استفاده از ابزار

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	۸۴٫۴٪	82.7%	۹۰٫۱٪	89.3%	79.3%	۸۵٫۹٪
اطلس MCP**	۷۵٫۳٪	۷۰٫۶٪	-	-	۷۹٫۱٪	۷۸٫۲٪
Toolathlon	۵۵.۶٪	54.6%	-	-	-	۴۸٫۸٪
Tau2-bench Telecom*** (اعلان‌های اصلی)	۹۸٫۰٪	92.8%	-	-	-	-

^{** اطلس MCP: نتایج Scale AI پس از آخرین به‌روزرسانی آوریل ۲۰۲۶.
*** Tau2-bench telecom: نتایج برای 5.5 و 5.4 با اعلان‌های اصلی، یعنی بدون تنظیم اعلان. این شامل نتایج سایر آزمایشگاه‌هایی که با تنظیمات اعلان ارزیابی شده بودند، نمی‌شود.}

دانشگاهی

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	۲۵٫۰٪	۱۹٫۰٪	۳۳٫۲٪	۲۵٫۶٪	-	-
FrontierMath سطح ۱–۳	۵۱٫۷٪	47.6%	۵۲٫۴٪	50.0%	۴۳٫۸٪	۳۶٫۹٪
FrontierMath سطح 4	۳۵٫۴٪	27.1%	۳۹٫۶٪	38.0%	۲۲٫۹٪	۱۶٫۷٪
BixBench	۸۰٫۵٪	74.0%	-	-	-	-
GPQA Diamond	۹۳٫۶٪	92.8%	-	94.4%	۹۴٫۲٪	۹۴٫۳٪
آخرین آزمون بشریت (بدون ابزار)	۴۱٫۴٪	39.8%	۴۳٫۱٪	42.7%	۴۶٫۹٪	۴۴٫۴٪
آخرین آزمون بشریت (با ابزارها)	۵۲٫۲٪	52.1%	57.2%	58.7%	۵۴٫۷٪	۵۱٫۴٪

امنیت سایبری

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
وظایف چالش‌های Capture-the-Flag (داخلی)****	۸۸.۱٪	۸۳٫۷٪	-	-	-	-
CyberGym	۸۱٫۸٪	۷۹٫۰٪	-	-	۷۳٫۱٪	-

^{**** نسخه‌ای گسترش‌یافته از سخت‌ترین CTFها که در کارت‌های سیستم استفاده می‌شوند، همراه با چالش‌های سخت اضافی.}

زمینه طولانی

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
گراف‌واک‌ها BFS ۲۵۶ هزار f1	۷۳٫۷٪	۶۲٫۵٪	-	-	۷۶٫۹٪	-
گراف‌واک‌ها BFS ۱ میلیون f1	۴۵٫۴٪	۹٫۴٪	-	-	۴۱٫۲٪ (Opus 4.6)	-
والدین Graphwalks ۲۵۶ هزار f1	۹۰٫۱٪	۸۲٫۸٪	-	-	۹۳٫۶٪	-
والدهای Graphwalks ۱ میلیون f1	۵۸٫۵٪	۴۴٫۴٪	-	-	۷۲٫۰٪ (Opus 4.6)	-
OpenAI MRCR v2 ۸ سوزن ۸ هزار-۱۶ هزار	۹۸٫۱٪	97.3%	-	-	-	-
OpenAI MRCR v2 ۸ سوزن ۸ هزار-۱۶ هزار	93.0%	91.4%	-	-	-	-
OpenAI MRCR v2 ۸-سوزن ۱۶ هزار–۳۲ هزار	۹۶٬۵٪	97.2%	-	-	-	-
OpenAI MRCR v2 ۸-سوزنه ۳۲ هزار–۶۴ هزار	۹۰٫۰٪	90.5%	-	-	-	-
OpenAI MRCR v2 ۸-سوزن ۶۴ هزار–۱۲۸ هزار	۸۳٫۱٪	86.0%	-	-	-	-
OpenAI MRCR v2 ۸-سوزن ۱۲۸ هزار–۲۵۶ هزار	۸۷٫۵٪	79.3%	-	-	۵۲٫۹٪	-
OpenAI MRCR v2 ۸ سوزن ۲۵۶ هزار–۵۱۲ هزار	81.5%	57.5%	-	-	-	-
OpenAI MRCR v2 ۸ سوزن ۵۱۲ هزار–۱ میلیون	74.0%	36.6%	-	-	۳۲٫۲٪	-

استدلال انتزاعی

ارزیابی	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (تأیید شده)	۹۵٫۰٪	93.7%	-	94.5%	۹۳٫۵٪	۹۸٫۰٪
ARC-AGI-2 (تأیید شده)	۸۵٫۰٪	73.3%	-	83.3%	۷۵٫۸٪	۷۷٫۱٪

ارزیابی‌های GPT با تلاش استدلال روی xhigh اجرا شدند و در یک محیط تحقیقاتی انجام شدند که ممکن است در برخی موارد خروجی کمی متفاوت از محیط تولیدی ChatGPT ارائه دهد.