Databricks menghadirkan GPT‑5.5 ke alur kerja agen perusahaan
GPT‑5.5 mencetak hasil terbaik baru di OfficeQA Pro, benchmark Databricks untuk tugas agen perusahaan yang kompleks.

50%
Akurasi pada benchmark OfficeQA Pro (terbaik di kelasnya)
46%
Pengurangan kesalahan pada benchmark OfficeQA Pro vs. GPT-5.4
Databricks menghadirkan GPT‑5.5 untuk alur kerja agen pelanggan setelah model ini mencetak hasil terbaik baru di OfficeQA Pro, benchmark perusahaan untuk tugas dokumen perusahaan yang kompleks.
OfficeQA Pro mengevaluasi bagaimana model menangani parsing, pengambilan, dan penalaran berbasis konteks di seluruh alur kerja yang melibatkan PDF hasil pindaian, file lama, dan dokumen berkonteks panjang, tugas yang sering membuat sistem agen produksi gagal.
Dalam pengaturan agent-harness, GPT‑5.5 mengurangi kesalahan sebesar 46% dibandingkan GPT‑5.4 dan menjadi model pertama yang melampaui akurasi 50% di OfficeQA Pro.
“Codex dengan 5.5 kini menjadi yang tercanggih di antara semua agen dan model yang ada.”
OfficeQA Pro mencakup banyak dokumen perusahaan hasil pindaian atau dokumen lama, di mana kesalahan ekstraksi kecil saat parsing dapat merambat ke tahap berikutnya di seluruh alur kerja. “Begitu Anda tidak bisa mengekstrak digit atau angka tertentu, itu mengubah seluruh arah kerja agen,” jelas Singhvi.
Databricks melihat peningkatan terbesar dari GPT‑5.5 pada alur kerja yang sangat bergantung pada parsing ini. “Model sebelumnya seperti 5.4 tidak mampu mem-parsing semua digit dengan benar, tetapi tampaknya 5.5 memberi lompatan besar dalam parsing dokumen lama dan PDF hasil pindaian,” kata Singhvi.
Tim juga melihat peningkatan dalam orkestrasi di berbagai tugas multilangkah. “Satu hal yang kami lihat pada 5.4 adalah kadang model ini mengambil jalan memutar pencarian yang tidak perlu, dan itu menyebabkan alur yang sangat tidak efisien,” kata Singhvi.
Dibandingkan model sebelumnya, GPT‑5.5 lebih andal dalam mengambil konteks yang relevan dan menyelesaikan alur kerja kompleks tanpa pengawasan tambahan.
Databricks kini menyediakan GPT‑5.5 melalui AI Unity Gateway, tempat pelanggan menggunakan model ini di dalam alur kerja yang dibangun dengan AgentBricks dan Agent Supervisor API. Dalam sistem ini, GPT‑5.5 mengorkestrasi parsing, pengambilan, dan eksekusi di berbagai agen khusus.
“Kami akan melihat banyak pelanggan menggunakan AgentBricks dan Agent Supervisor API untuk alur kerja agen kustom,” kata Singhvi. “Memiliki GPT‑5.5 yang mengawasi alur kerja ini benar-benar sangat menarik.”
“GPT-5.5 sangat bagus dalam hal peningkatan pengetahuan. Ini adalah perubahan lompatan besar dalam hal melakukan pekerjaan berbasis pengetahuan bagi kami.”


