Pembangunan ulang GPT‑5 Notion membuka alur kerja AI otonom
Dengan membangun ulang sistem agen mereka menggunakan GPT‑5, Notion menciptakan workspace AI yang dapat menalar, bertindak, dan beradaptasi di seluruh alur kerja.
2 Weeks → 3 hours
Codex reduced development time
Pada akhir 2022, dalam hitungan minggu setelah mendapatkan akses ke GPT‑4, Notion telah meluncurkan asisten penulisan, meluncurkan fitur Tanya Jawab di seluruh workspace, dan mengintegrasikan model-model OpenAI secara mendalam ke seluruh alat penelusuran, konten, dan perencanaan mereka.
Namun seiring semakin canggihnya model - dan pengguna mulai meminta agen untuk menyelesaikan seluruh alur kerja - tim Notion melihat adanya keterbatasan dalam arsitektur sistem mereka. Pola lama yang meminta model untuk melakukan tugas-tugas yang terpisah-pisah membatasi batas tertinggi dari apa yang dapat dicapai di platform mereka. Agen perlu mengambil keputusan, mengatur alat, dan menalar dalam menghadapi ambiguitas, dan perubahan itu memerlukan lebih dari sekadar rekayasa prompt.
“Kami tidak ingin menyesuaikan sistem secara tambal sulam. Kami memerlukan arsitektur yang benar-benar mendukung cara kerja model penalaran.”
Di balik peluncurannya
Membangun ulang untuk model penalaran, bukan menyesuaikan secara tambal sulam di sekelilingnya
Alih-alih menambal stack yang sudah ada, Notion membangunnya ulang. Mereka mengganti rangkaian prompt khusus tugas dengan model penalaran terpusat yang mengoordinasikan sub-agen modular. Agen ini dapat menelusuri Notion, Slack, atau web; menambahkan ke basis data atau mengeditnya; dan menyintesis respons menggunakan alat apa pun yang diperlukan tugas tersebut.
Dengan peluncuran Notion 3.0, AI tidak hanya disematkan dalam alur kerja; kini AI dapat menjalankannya. Pengguna menetapkan tugas yang luas - misalnya, mengompilasi masukan pemangku kepentingan - dan agen mereka merencanakan, menjalankan, dan melaporkan hasilnya. Peralihan ke agen yang menentukan cara bekerja berarti merancang dengan otonomi model sejak awal.
Ringkasan hasil
Menguji GPT‑5 dengan beban kerja produk nyata
Untuk memvalidasi peralihan arsitektur tersebut, Notion mengevaluasi GPT‑5 terhadap model-model tercanggih saat ini lainnya menggunakan tugas pengguna yang sebenarnya.
Evaluasi didasarkan pada umpan balik yang sebelumnya telah ditandai Notion sebagai prioritas tinggi, termasuk pertanyaan dari Mode Riset, tugas panjang yang memerlukan penalaran bertahap, serta konten ambigu atau usang yang membutuhkan penilaian model.
Tim tersebut menggunakan kombinasi penilaian LLM, fixture pengujian terstruktur, dan masukan diberi label manusia.
Hasil utama:
- Peningkatan 7,6% dibandingkan model tercanggih pada output yang sesuai dengan umpan balik nyata pengguna
- Kinerja 15% lebih baik pada pertanyaan Mode Riset yang sulit
- Peningkatan lebih dari 100% pada tugas multi-langkah dan terstruktur seperti pembaruan tenggat waktu dan riset kompetitor
- Satu-satunya model yang sepenuhnya mencapai batas maksimum pada tolok ukur dengan input yang kontradiktif atau usang
Evaluasi ini membantu Notion mengidentifikasi di mana GPT‑5 memberikan nilai tambah - misalnya, dalam penalaran, ambiguitas, dan riset - serta di mana penyesuaian spesifik lingkungan dapat meningkatkan hasil.
“Kami tidak memilih-milih tugas. Ini adalah alur kerja bersinyal tinggi dari produk kami....Di situlah perbedaan model benar-benar terlihat.”

Pelajaran kepemimpinan
Pelajaran bagi tim yang membangun dengan GPT‑5
Pembangunan ulang Notion bukan sekadar tentang peluncuran Notion 3.0. Ini tentang merancang sebuah sistem yang dapat mendukung kemampuan baru pada model dan beradaptasi seiring semakin cerdasnya model-model tersebut. Pendekatan mereka memberikan peta jalan yang jelas bagi tim lain yang menerapkan AI agentik ke produksi:
- Evaluasi hal yang penting. Gunakan tugas yang benar-benar dilakukan pengguna Anda, bukan tolok ukur sintetis.
- Uji hal-hal yang sulit. GPT‑5 sangat efektif ketika informasi ambigu, sudah usang, atau melibatkan beberapa langkah.
- Rancang untuk otonomi. Jika agen membuat keputusan, sistem Anda harus memberi mereka ruang untuk menalar dan alat untuk bertindak.
- Kejelasan mendorong performa. Bahkan model terbaik pun tidak akan optimal tanpa deskripsi alat yang jelas dan desain antarmuka yang baik.
- Membangun ulang lebih baik daripada menambal. Jika sistem Anda dibangun untuk model penyelesaian teks, sistem tersebut mungkin tidak dapat diskalakan ke agen.
“Kami sudah mulai melihat hasil dari pembangunan ulang itu....Jika model berikutnya menghadirkan sesuatu yang baru, kami akan melakukan apa pun yang diperlukan untuk mendukungnya.”


