Giới thiệu GPT‑5.1 dành cho nhà phát triển
Hôm nay chúng tôi phát hành GPT‑5.1 trên nền tảng API, mô hình tiếp theo trong dòng GPT‑5 cân bằng trí thông minh và tốc độ cho nhiều nhiệm vụ đại lý và mã hóa. GPT‑5.1 tự động điều chỉnh thời gian suy nghĩ dựa trên độ phức tạp của nhiệm vụ, giúp mô hình nhanh hơn đáng kể và tiết kiệm token hơn cho các nhiệm vụ hàng ngày đơn giản. Mô hình cũng có chế độ “không lý luận” để phản hồi nhanh hơn với các nhiệm vụ không đòi hỏi suy nghĩ sâu sắc, trong khi vẫn duy trì trí thông minh tiên tiến của GPT‑5.1.
Để làm cho GPT‑5.1 hiệu quả hơn nữa, chúng tôi đang phát hành bộ nhớ đệm lời nhắc mở rộng với khả năng lưu trữ bộ nhớ cache lên đến 24 giờ, giúp phản hồi nhanh hơn cho các câu hỏi tiếp theo với chi phí thấp hơn. Khách hàng Xử lý ưu tiên(mở trong cửa sổ mới) của chúng tôi cũng sẽ trải nghiệm hiệu suất nhanh hơn đáng kể với GPT‑5.1 so với GPT‑5.
Về mã hóa, chúng tôi đã hợp tác chặt chẽ với các công ty khởi nghiệp như Cursor, Cognition, Augment Code, Factory và Warp để cải thiện GPT‑5.1 tính cách mã, khả năng điều hướng và chất lượng mã. Nói chung, GPT‑5.1 cảm thấy trực quan hơn khi sử dụng để viết mã và giao tiếp tốt hơn với các bản cập nhật hướng tới người dùng khi hoàn thành nhiệm vụ.
Cuối cùng, chúng tôi đang giới thiệu hai công cụ mới với GPT‑5.1: một công cụ apply_patch được thiết kế để chỉnh sửa mã một cách đáng tin cậy hơn và một công cụ shell để cho phép mô hình chạy các lệnh shell.
GPT‑5.1 là bước tiến tiếp theo trong dòng GPT‑5, và chúng tôi kế hoạch tiếp tục đầu tư vào các mô hình thông minh và có khả năng hơn để giúp các nhà phát triển xây dựng quy trình làm việc đáng tin cậy.
Để làm cho GPT‑5.1 nhanh hơn, chúng tôi đã đại tu cách chúng tôi đào tạo nó để suy nghĩ. Đối với các nhiệm vụ đơn giản, GPT‑5.1 sử dụng ít token hơn để suy nghĩ, giúp trải nghiệm sản phẩm nhanh hơn và giảm chi phí token. Đối với các nhiệm vụ khó đòi hỏi phải suy nghĩ thêm, GPT‑5.1 vẫn kiên trì, khám phá các tùy chọn và kiểm tra công việc của mình để tối đa hóa độ tin cậy.
Balyasny Asset Management(mở trong cửa sổ mới) cho biết GPT‑5.1 "vượt trội hơn cả GPT‑4.1 và GPT‑5 trong bộ đánh giá động đầy đủ của chúng tôi, đồng thời chạy nhanh hơn 2-3 lần so với GPT‑5." Họ cũng cho biết trong các nhiệm vụ lập luận nặng về công cụ của họ, GPT‑5.1 “liên tục sử dụng khoảng một nửa số token so với các đối thủ hàng đầu với chất lượng tương tự hoặc tốt hơn.” Tương tự, công ty bảo hiểm AI BPO Pace(mở trong cửa sổ mới) cũng đã thử nghiệm mô hình và cho biết các tác nhân của họ chạy "nhanh hơn 50% trên GPT‑5.1 trong khi vượt qua độ chính xác của GPT‑5 và các mô hình hàng đầu khác trong các đánh giá của chúng tôi."
GPT‑5.1 thay đổi thời gian suy nghĩ linh hoạt hơn GPT‑5. Trên một phân phối đại diện của các nhiệm vụ ChatGPT, GPT‑5.1 thực hiện các nhiệm vụ dễ dàng nhanh hơn nhiều, ngay cả khi cần nỗ lực suy luận cao.
Ví dụ: khi được hỏi "hiển thị lệnh npm để liệt kê các gói được cài đặt trên toàn cầu", GPT‑5.1 trả lời trong 2 giây thay vì 10 giây.
GPT-5 (Trung bình) xử lý ~250 token (~10 giây)
GPT-5.1 (Medium) mất ~50 token (~2 giây)
Bây giờ các nhà phát triển có thể sử dụng GPT‑5.1 mà không cần suy luận bằng cách đặt reasoning_effort thành 'none'. Điều này khiến mô hình hoạt động như một mô hình không lý luận cho các trường hợp sử dụng nhạy cảm với độ trễ, với trí tuệ cao của GPT‑5.1 và lợi ích bổ sung là khả năng gọi công cụ hiệu quả. So với GPT‑5 với khả năng suy luận 'tối thiểu', GPT‑5.1 không có suy luận thì tốt hơn trong việc gọi công cụ song song (bản thân nó làm tăng tốc độ hoàn thành nhiệm vụ đầu cuối), các tác vụ mã hóa, làm theo hướng dẫn và sử dụng các công cụ tìm kiếm—và hỗ trợ tìm kiếm web(mở trong cửa sổ mới) trong nền tảng API của chúng tôi. Sierra(mở trong cửa sổ mới) chia sẻ rằng GPT‑5.1 ở chế độ “không lý luận” cho thấy “cải thiện 20% hiệu suất gọi công cụ có độ trễ thấp so với GPT‑5 lý luận tối thiểu” trong các đánh giá thực tế của họ.
Với việc giới thiệu giá trị 'none' trong trường reasoning_effort, các nhà phát triển nay có thêm sự linh hoạt và kiểm soát nhiều hơn trong việc cân bằng giữa tốc độ, chi phí và trí thông minh cho trường hợp sử dụng của họ. GPT‑5.1 mặc định là 'none', điều này lý tưởng cho các khối lượng công việc nhạy cảm với độ trễ. Chúng tôi khuyến nghị các nhà phát triển nên chọn 'thấp' hoặc 'trung bình' cho các nhiệm vụ có độ phức tạp cao và 'cao' khi trí tuệ và độ tin cậy quan trọng hơn tốc độ.
Bộ nhớ đệm mở rộng cải thiện hiệu quả lý luận bằng cách cho phép các lời nhắc duy trì hoạt động trong bộ nhớ đệm tối đa 24 giờ, thay vì chỉ vài phút như hiện nay. Với thời gian lưu giữ dài hơn, nhiều yêu cầu theo dõi hơn có thể tận dụng ngữ cảnh được lưu trong bộ đệm—dẫn đến độ trễ thấp hơn, giảm chi phí và hiệu suất mượt mà hơn cho các tương tác kéo dài như chat nhiều lượt, phiên lập trình hoặc quy trình công việc truy xuất kiến thức.
Mức giá bộ nhớ đệm cho lời nhắc vẫn không thay đổi, với các token đầu vào đã lưu vào bộ nhớ tạm rẻ hơn 90% so với các token chưa lưu trữ, và không có phí bổ sung cho việc ghi hoặc lưu trữ bộ nhớ đệm. Để sử dụng bộ nhớ đệm mở rộng với GPT‑5.1, hãy thêm tham số “prompt_cache_retention='24h'” vào API Responses hoặc API Hoàn thiện hội thoại. Hãy xem tài liệu nhớ đệm lời nhắc(mở trong cửa sổ mới) để biết thêm chi tiết.
GPT‑5.1 được phát triển dựa trên khả năng mã hóa của GPT‑5 với tính cách mã hóa dễ điều khiển hơn, ít suy nghĩ quá mức, chất lượng mã được cải thiện, thông điệp cập nhật nhắm mục tiêu người dùng tốt hơn (phần mở đầu) trong các chuỗi lệnh gọi công cụ và thiết kế giao diện người dùng nhiều chức năng hơn—đặc biệt là với nỗ lực suy luận thấp.
Đối với các nhiệm vụ mã hóa đơn giản như chỉnh sửa mã nhanh, GPT‑5.1’s Tốc độ nhanh hơn giúp việc lặp lại quay lại dễ dàng hơn. GPT‑5.1’s Tốc độ nhanh hơn trong các nhiệm vụ đơn giản không làm giảm hiệu suất trong các nhiệm vụ khó khăn. Trên SWE-bench đã xác minh, GPT‑5.1 hoạt động lâu hơn GPT‑5 và đạt 76,3%.
Trong SWE-bench Xác minh, một mô hình được cung cấp một kho lưu trữ mã và mô tả vấn đề, và phải tạo ra một bản vá để giải quyết vấn đề đó. Các nhãn chỉ ra mức độ nỗ lực lý luận. Độ chính xác được tính trung bình trên tất cả 500 vấn đề. Tất cả các mô hình đều sử dụng một công cụ apply_patch dựa trên JSON.
Chúng tôi đã nhận được phản hồi sớm về GPT‑5.1 từ một số ít các công ty lập trình. Dưới đây là những ấn tượng của họ:
- Augment Code(mở trong cửa sổ mới) đã gọi GPT‑5.1 là “có chủ ý hơn với ít hành động lãng phí hơn, suy luận hiệu quả hơn và tập trung vào nhiệm vụ tốt hơn” và họ nhận thấy “những thay đổi chính xác hơn, yêu cầu kéo mượt mà hơn và lặp lại nhanh hơn trên các dự án đa tệp.”
- Cline(mở trong cửa sổ mới) chia sẻ rằng trong các đánh giá của họ, “GPT‑5.1 đã đạt được SOTA trên điểm chuẩn chỉnh sửa khác biệt của chúng tôi với mức cải thiện 7%, thể hiện độ tin cậy đặc biệt cho các nhiệm vụ mã hóa phức tạp.”
- CodeRabbit(mở trong cửa sổ mới) đã gọi GPT‑5.1 là “mô hình hàng đầu được lựa chọn cho các đánh giá PR.”
- Cognition(mở trong cửa sổ mới) cho biết GPT‑5.1 "có khả năng hiểu rõ hơn những gì bạn yêu cầu và hợp tác với bạn để hoàn thành nhiệm vụ."
- Factory(mở trong cửa sổ mới) cho biết “GPT‑5.1 mang lại phản hồi nhanh hơn đáng kể và điều chỉnh độ sâu lý luận để phù hợp với nhiệm vụ, giảm suy nghĩ quá mức và cải thiện trải nghiệm tổng thể của nhà phát triển.”
- Warp(mở trong cửa sổ mới) đang để GPT‑5.1 trở thành công cụ mặc định cho người dùng mới, họ cho biết công cụ này “được xây dựng dựa trên những tiến bộ trí tuệ ấn tượng mà dòng GPT‑5 đã giới thiệu, đồng thời là một mô hình phản hồi nhanh hơn nhiều.”
"GPT 5.1 không chỉ là một LLM khác - nó thực sự là một mô hình có tính tự chủ tự nhiên nhất mà tôi từng thử nghiệm. Nó viết giống như bạn, mã như bạn, dễ dàng tuân theo các hướng dẫn phức tạp và xuất sắc trong các nhiệm vụ front-end, phù hợp gọn gàng với cơ sở mã hiện có của bạn. Bạn có thể thực sự khai thác hết tiềm năng của nó trong API Phản hồi và chúng tôi rất hào hứng khi có thể cung cấp nó trong IDE của chúng tôi."
Chúng tôi đang giới thiệu hai công cụ mới với GPT‑5.1 để giúp các nhà phát triển tận dụng tối đa mô hình trong Responses API: một công cụ apply_patchdạng tự do để làm cho các chỉnh sửa mã trở nên đáng tin cậy hơn mà không cần thoát JSON, và một công cụ shell cho phép mô hình viết lệnh để chạy trên máy cục bộ của bạn.
Công cụ apply_patch dạng tự do cho phép GPT‑5.1 tạo, cập nhật và xóa các tệp trong một mã nguồn bằng cách sử dụng các bản diff có cấu trúc. Thay vì chỉ đề xuất chỉnh sửa, mô hình phát ra các thao tác bản vá mà ứng dụng áp dụng và quay lại báo cáo, cho phép quy trình làm việc chỉnh sửa mã lặp đi lặp lại, nhiều bước.
Để sử dụng công cụ apply_patch trong API Phản hồi, đưa nó vào mảng công cụ với "tools": [{“type”: “apply_patch”}] và bao gồm nội dung tệp trong đầu vào của bạn hoặc cung cấp cho mô hình các công cụ để tương tác với hệ thống tệp của bạn. Mô hình sẽ tạo các mục apply_patch_call để tạo, cập nhật hoặc xóa các tệp chứa các bản khác biệt mà bạn áp dụng trên hệ thống tệp của mình. Để biết thêm thông tin về cách tích hợp với công cụ apply_patch, hãy xem tài liệu dành cho nhà phát triển(mở trong cửa sổ mới) của chúng tôi.
Công cụ shell cho phép mô hình tương tác với máy tính cục bộ thông qua giao diện dòng lệnh được kiểm soát. Mô hình đề xuất các lệnh shell; tích hợp của nhà phát triển thực thi chúng và trả về đầu ra. Điều này tạo ra một vòng lặp kế hoạch-thực thi đơn giản cho phép các mô hình kiểm tra hệ thống, chạy các tiện ích và thu thập dữ liệu cho đến khi chúng có thể hoàn thành nhiệm vụ.
Để sử dụng công cụ shell trong API Phản hồi, các nhà phát triển có thể đưa nó vào mảng công cụ với "tools": [{“type”: “shell”}]. API sẽ tạo ra các mục "shell_call" bao gồm các lệnh shell cần thực thi. Các nhà phát triển thực thi các lệnh trong môi trường cục bộ và quay lại kết quả thực thi trong mục "shell_call_output" trong yêu cầu API tiếp theo. Tìm hiểu thêm trong tài liệu dành cho nhà phát triển(mở trong cửa sổ mới) của chúng tôi.
GPT‑5.1 và gpt-5.1-chat-latest được cung cấp cho các nhà phát triển ở tất cả các cấp trả phí trong API. Mức giá và giới hạn tốc độ(mở trong cửa sổ mới) giống như GPT‑5. Chúng tôi cũng đang phát hành gpt-5.1-codex. và gpt-5.1-codex-mini trong API. Trong khi GPT‑5.1 vượt trội ở hầu hết các nhiệm vụ mã hóa, gpt-5.1-codex các mô hình được tối ưu hóa cho các nhiệm vụ mã hóa lâu dài và chủ động (agentic coding) trong Codex hoặc các hệ thống tương tự Codex.
Các nhà phát triển có thể bắt đầu xây dựng bằng cách sử dụng tài liệu dành cho nhà phát triển(mở trong cửa sổ mới) GPT‑5.1 và hướng dẫn gợi ý mô hình(mở trong cửa sổ mới). Hiện tại, chúng tôi không có kế hoạch ngừng hỗ trợ GPT‑5 trong API và sẽ thông báo trước cho các nhà phát triển nếu và khi chúng tôi quyết định thực hiện.
Chúng tôi cam kết triển khai lặp đi lặp lại các mô hình có khả năng và đáng tin cậy nhất cho công việc lập trình và vai trò tác nhân thực tế—các mô hình có khả năng suy nghĩ hiệu quả, lặp lại nhanh chóng và xử lý các nhiệm vụ phức tạp trong khi vẫn giữ cho các nhà phát triển luôn trong trạng thái làm việc hiệu quả. Với lý luận thích ứng, hiệu suất mã hóa mạnh mẽ hơn, các cập nhật rõ ràng hơn hướng đến người dùng và các công cụ mới như apply_patch và shell, GPT‑5.1 được thiết kế để giúp bạn xây dựng với ít trở ngại hơn. Và chúng tôi tiếp tục đầu tư mạnh mẽ vào lĩnh vực này: bạn có thể mong đợi những mô hình đại lý và mã hóa tiên tiến hơn trong những tuần và tháng tới.
Đánh giá | GPT‑5.1 (high) | GPT‑5 (high) |
Đã xác minh SWE-bench | 76,3% | 72,8% |
GPQA Diamond | 88,1% | 85,7% |
AIME 2025: Cuộc thi Toán học và Khoa học Tự nhiên | 94,0% | 94,6% |
FrontierMath | 26,7% | 26,3% |
MMMU | 85,4% | 84,2% |
Tau2-bench Airline | 67,0% | 62,6% |
Tau2-bench Telecom* | 95,6% | 96,7% |
Tau2-bench Retail | 77,9% | 81,1% |
BrowseComp Long Context 128k | 90,0% | 90,0% |
* Đối với Tau2-bench Telecom, chúng tôi đã cung cấp cho GPT‑5.1 một lời nhắc ngắn, hữu ích chung để cải thiện hiệu suất của nó.


