پرش به محتوای اصلی
OpenAI

۲۵ اردیبهشت ۱۴۰۵

Databricks، GPT‑5.5 را به گردش‌کارهای عامل سازمانی می‌آورد

GPT‑5.5 در OfficeQA Pro، بنچمارک Databricks برای وظایف پیچیده عامل سازمانی، رکوردی جدید ثبت کرد.

تصویر اصلی داستان مشتری Databricks.
اندازه شرکت: Enterprise
منطقه: آمریکای شمالی
صنعت: فناوری
محصولات: Codex

50%

دقت در بنچمارک OfficeQA Pro (پیشروترین سطح)

46%

کاهش خطاها در بنچمارک OfficeQA Pro در مقایسه با GPT-5.4

در حال بارگذاری…

Databricks پس از آنکه این مدل در OfficeQA Pro، بنچمارک این شرکت برای وظایف پیچیده اسناد سازمانی، به رکوردی جدید دست یافت، GPT‑5.5 را برای گردش‌کارهای عامل مشتریان در دسترس قرار می‌دهد.

OfficeQA Pro ارزیابی می‌کند که مدل‌ها در گردش‌کارهای شامل PDF های اسکن‌شده، فایل‌های قدیمی و اسناد با زمینه طولانی، در پردازش، بازیابی و استدلال مبتنی بر زمینه چگونه عمل می‌کنند؛ وظایفی که اغلب سامانه‌های عاملِ عملیاتی را از کار می‌اندازند.

در بستر ارزیابی عامل‌ها (agent-harness)، GPT‑5.5 نسبت به GPT‑5.4 خطاها را ۴۶٪ کاهش داد و به نخستین مدل تبدیل شد که در OfficeQA Pro از دقت ۵۰٪ عبور می‌کند.

«Codex با 5.5 اکنون در میان همه عامل‌ها و مدل‌های موجود، پیشروترین سطح را دارد.»
–Arnav Singhvi، مهندس پژوهش

عملکرد پیشرو در OfficeQA Pro

OfficeQA Pro شامل شمار زیادی از اسناد سازمانی اسکن‌شده یا قدیمی است؛ جایی که خطاهای کوچک استخراج در هنگام پردازش می‌توانند در ادامه در سراسر بقیه گردش‌کار زنجیره‌وار گسترش یابند. Singhvi توضیح می‌دهد: «وقتی نتوانید یک رقم یا عدد مشخص را استخراج کنید، این موضوع کل مسیر چیزی را که عامل با آن کار می‌کند تغییر می‌دهد».

Databricks بیشترین بهبودها را از GPT‑5.5 در این گردش‌کارهای سنگین از نظر پردازش مشاهده کرد. Singhvi می‌گوید: «مدل‌های قبلی مثل 5.4 نمی‌توانستند همه ارقام را درست پردازش کنند، اما به نظر می‌رسد 5.5 در پردازش اسناد قدیمی و PDFهای اسکن‌شده یک جهش پله‌ای داشته است».

این تیم همچنین در هماهنگ‌سازی وظایف چندمرحله‌ای نیز بهبودهایی مشاهده کرد. Singhvi می‌گوید: «یکی از چیزهایی که در 5.4 دیدیم این بود که گاهی وارد این انحراف‌های جست‌وجوی غیرضروری می‌شد و این باعث مسیرهای بسیار ناکارآمد می‌شد».

در مقایسه با مدل‌های قبلی، GPT‑5.5 در بازیابی زمینه مرتبط و تکمیل گردش‌کارهای پیچیده بدون نظارت اضافی قابل‌اعتمادتر بود.

ورود GPT‑5.5 به گردش‌کارهای عملیاتی

Databricks اکنون GPT‑5.5 را از طریق AI Unity Gateway در دسترس قرار می‌دهد؛ جایی که مشتریان از این مدل درون گردش‌کارهای ساخته‌شده با AgentBricks و Agent Supervisor API استفاده می‌کنند. در این سامانه‌ها، GPT‑5.5 پردازش، بازیابی و اجرا را در میان عامل‌های تخصصی هماهنگ می‌کند.

Singhvi می‌گوید: «قرار است مشتریان زیادی را ببینیم که از AgentBricks و Agent Supervisor API برای گردش‌کارهای عامل سفارشی استفاده می‌کنند». «اینکه GPT‑5.5 بر این گردش‌کارها نظارت کند واقعاً هیجان‌انگیز است.»

«GPT-5.5 از نظر ارتقای دانش بسیار عالی بوده است. در انجام کارهای مبتنی بر دانش، این کار جهشی بزرگ برای ما محسوب می‌شود».
—Arnav Singhvi، مهندس پژوهش

به عصر جدید کار بپیوندید

بیش از ۱ میلیون کسب‌وکار در سراسر جهان با OpenAI به نتایج معنا داری دست یافته‌اند.