Databricks، GPT‑5.5 را به گردشکارهای عامل سازمانی میآورد
GPT‑5.5 در OfficeQA Pro، بنچمارک Databricks برای وظایف پیچیده عامل سازمانی، رکوردی جدید ثبت کرد.

50%
دقت در بنچمارک OfficeQA Pro (پیشروترین سطح)
46%
کاهش خطاها در بنچمارک OfficeQA Pro در مقایسه با GPT-5.4
Databricks پس از آنکه این مدل در OfficeQA Pro، بنچمارک این شرکت برای وظایف پیچیده اسناد سازمانی، به رکوردی جدید دست یافت، GPT‑5.5 را برای گردشکارهای عامل مشتریان در دسترس قرار میدهد.
OfficeQA Pro ارزیابی میکند که مدلها در گردشکارهای شامل PDF های اسکنشده، فایلهای قدیمی و اسناد با زمینه طولانی، در پردازش، بازیابی و استدلال مبتنی بر زمینه چگونه عمل میکنند؛ وظایفی که اغلب سامانههای عاملِ عملیاتی را از کار میاندازند.
در بستر ارزیابی عاملها (agent-harness)، GPT‑5.5 نسبت به GPT‑5.4 خطاها را ۴۶٪ کاهش داد و به نخستین مدل تبدیل شد که در OfficeQA Pro از دقت ۵۰٪ عبور میکند.
«Codex با 5.5 اکنون در میان همه عاملها و مدلهای موجود، پیشروترین سطح را دارد.»
OfficeQA Pro شامل شمار زیادی از اسناد سازمانی اسکنشده یا قدیمی است؛ جایی که خطاهای کوچک استخراج در هنگام پردازش میتوانند در ادامه در سراسر بقیه گردشکار زنجیرهوار گسترش یابند. Singhvi توضیح میدهد: «وقتی نتوانید یک رقم یا عدد مشخص را استخراج کنید، این موضوع کل مسیر چیزی را که عامل با آن کار میکند تغییر میدهد».
Databricks بیشترین بهبودها را از GPT‑5.5 در این گردشکارهای سنگین از نظر پردازش مشاهده کرد. Singhvi میگوید: «مدلهای قبلی مثل 5.4 نمیتوانستند همه ارقام را درست پردازش کنند، اما به نظر میرسد 5.5 در پردازش اسناد قدیمی و PDFهای اسکنشده یک جهش پلهای داشته است».
این تیم همچنین در هماهنگسازی وظایف چندمرحلهای نیز بهبودهایی مشاهده کرد. Singhvi میگوید: «یکی از چیزهایی که در 5.4 دیدیم این بود که گاهی وارد این انحرافهای جستوجوی غیرضروری میشد و این باعث مسیرهای بسیار ناکارآمد میشد».
در مقایسه با مدلهای قبلی، GPT‑5.5 در بازیابی زمینه مرتبط و تکمیل گردشکارهای پیچیده بدون نظارت اضافی قابلاعتمادتر بود.
Databricks اکنون GPT‑5.5 را از طریق AI Unity Gateway در دسترس قرار میدهد؛ جایی که مشتریان از این مدل درون گردشکارهای ساختهشده با AgentBricks و Agent Supervisor API استفاده میکنند. در این سامانهها، GPT‑5.5 پردازش، بازیابی و اجرا را در میان عاملهای تخصصی هماهنگ میکند.
Singhvi میگوید: «قرار است مشتریان زیادی را ببینیم که از AgentBricks و Agent Supervisor API برای گردشکارهای عامل سفارشی استفاده میکنند». «اینکه GPT‑5.5 بر این گردشکارها نظارت کند واقعاً هیجانانگیز است.»
«GPT-5.5 از نظر ارتقای دانش بسیار عالی بوده است. در انجام کارهای مبتنی بر دانش، این کار جهشی بزرگ برای ما محسوب میشود».


