Bỏ qua nội dung chính
OpenAI

Xin giới thiệu tác nhân ChatGPT: cầu nối giữa nghiên cứu và hành động

Giờ đây, ChatGPT có thể suy nghĩ và hành động, chủ động lựa chọn từ bộ công cụ kỹ năng tự chủ để hoàn thành công việc cho bạn bằng máy tính riêng của mình.

Đang tải…

Giờ đây, ChatGPT có thể làm việc cho bạn bằng cách sử dụng hệ thống máy tính ảo của riêng mình, xử lý các nhiệm vụ phức tạp từ đầu đến cuối.

Giờ đây, bạn có thể yêu cầu ChatGPT thực hiện các nhiệm vụ như "hãy xem lịch và tóm tắt cho tôi các cuộc họp sắp tới với khách hàng dựa trên tin tức gần đây", "lên kế hoạch và mua nguyên liệu để làm bữa sáng kiểu Nhật cho bốn người" và "phân tích ba đối thủ cạnh tranh và tạo một bản trình chiếu". ChatGPT sẽ tìm kiếm thông tin từ các trang web một cách thông minh, lọc các kết quả, nhắc bạn đăng nhập một cách bảo mật khi cần, chạy mã, thực hiện phân tích và thậm chí tạo các bản trình chiếu có thể chỉnh sửa và bảng tính tóm tắt những kết quả thu được. 

Điểm cốt lõi của năng lực mới này là một hệ thống tác nhân hợp nhất. Hệ thống này kết hợp ba điểm mạnh từ những đột phá trước đó: Khả năng tương tác với trang web của Operator, kỹ năng tổng hợp thông tin của nghiên cứu sâu và trí thông minh cùng kỹ năng giao tiếp lưu loát của ChatGPT.

ChatGPT thực hiện các nhiệm vụ này bằng hệ thống máy tính ảo của riêng mình, chuyển đổi liền mạch từ suy luận sang hành động để xử lý các quy trình công việc phức tạp từ đầu đến cuối, tất cả đều theo sự hướng dẫn của bạn.

Và điều quan trọng nhất là bạn vẫn nắm toàn quyền kiểm soát. ChatGPT sẽ xin phép trước khi thực hiện các hành động quan trọng, và bạn có thể dễ dàng can thiệp, kiểm soát trình duyệt hoặc dừng các tác vụ bất cứ lúc nào.

Kể từ hôm nay, người dùng các gói Pro, Plus và Team có thể kích hoạt các năng lực mới của tác nhân ChatGPT trực tiếp thông qua menu công cụ thả xuống từ ô nhập câu lệnh bằng cách chọn “chế độ tác nhân” bất cứ lúc nào trong mọi cuộc trò chuyện. 

Mặc dù tác nhân ChatGPT vốn đã là một công cụ mạnh mẽ để xử lý các nhiệm vụ phức tạp, bản ra mắt hôm nay mới chỉ là bước khởi đầu. Chúng tôi sẽ tiếp tục bổ sung những cải tiến đáng kể theo định kỳ, giúp hệ thống ngày càng mạnh mẽ và hữu ích hơn, cho nhiều người hơn theo thời gian.

Sự phát triển tự nhiên của Operator và nghiên cứu sâu

Trước đây, Operator và nghiên cứu sâu đều mang đến những thế mạnh riêng biệt. Operator có thể cuộn, nhấp và nhập nội dung trên web, trong khi nghiên cứu sâu rất xuất sắc trong việc phân tích và tóm tắt thông tin. Nhưng cả hai đều hoạt động tốt nhất trong các tình huống khác nhau: Operator không thể đi sâu vào phân tích hoặc viết các báo cáo chi tiết, còn nghiên cứu sâu không thể tương tác với các trang web để tinh chỉnh kết quả hoặc truy cập các nội dung cần người dùng xác thực. Trên thực tế, chúng tôi đã thấy rằng nhiều truy vấn mà người dùng muốn thực hiện với Operator thực ra lại phù hợp hơn với nghiên cứu sâu, vì vậy chúng tôi đã kết hợp những ưu điểm của cả hai.

Bằng cách tích hợp những điểm mạnh bổ trợ lẫn nhau này trong ChatGPT và ra mắt các công cụ bổ sung, chúng tôi đã mở ra những năng lực hoàn toàn mới trong một mô hình duy nhất. Giờ đây, mô hình có thể chủ động tương tác với các trang web — thực hiện thao tác nhấp, lọc và thu thập kết quả chính xác, hiệu quả hơn. Bạn cũng có thể chuyển đổi tự nhiên từ một cuộc trò chuyện đơn giản sang việc yêu cầu các hành động trực tiếp trong cùng phiên chat. 

Một tác nhân làm việc cho bạn, đồng hành cùng bạn 

Chúng tôi đã trang bị cho tác nhân ChatGPT một bộ công cụ: một trình duyệt trực quan, tương tác với web qua giao diện người dùng dạng đồ họa, một trình duyệt trên nền văn bản cho các truy vấn web đơn giản dựa trên suy luận, giao diện dòng lệnh (terminal) và quyền truy cập API trực tiếp. Tác nhân cũng có thể tận dụng các trình kết nối ChatGPT(mở trong cửa sổ mới), cho phép bạn kết nối các ứng dụng như Gmail và GitHub để ChatGPT có thể tìm kiếm thông tin liên quan với yêu cầu của bạn và sử dụng chúng trong câu trả lời. Bạn cũng có thể đăng nhập vào bất kỳ trang web nào bằng cách tiếp quản quyền điều khiển trình duyệt, cho phép mô hình đi sâu và rộng hơn trong cả việc nghiên cứu và thực hiện nhiệm vụ. Việc trang bị cho ChatGPT những công cụ khác nhau để truy cập và tương tác với thông tin trên web có nghĩa là mô hình này có thể lựa chọn lộ trình tối ưu để thực hiện các nhiệm vụ một cách hiệu quả nhất. Ví dụ, nó có thể thu thập thông tin về lịch của bạn thông qua API, suy luận hiệu quả trên lượng lớn văn bản bằng trình duyệt dựa trên văn bản, đồng thời có khả năng tương tác trực quan với các trang web được thiết kế chủ yếu cho con người. 

Tất cả những điều này được thực hiện bằng máy tính ảo riêng của nó, giúp lưu giữ ngữ cảnh cần thiết cho tác vụ, ngay cả khi sử dụng nhiều công cụ — mô hình có thể chọn mở một trang bằng trình duyệt văn bản hoặc trình duyệt hình ảnh, tải xuống một tập tin từ web, xử lý nó bằng cách chạy một lệnh trong giao diện dòng lệnh (terminal) và sau đó quay lại xem kết quả đầu ra trong trình duyệt hình ảnh. Mô hình điều chỉnh phương pháp của mình để thực hiện các nhiệm vụ với tốc độ, độ chính xác và tính hiệu quả.

Tác nhân ChatGPT được thiết kế cho quy trình làm việc lặp lại, mang tính cộng tác – tương tác và linh hoạt hơn nhiều so với các mô hình trước đây. Khi ChatGPT hoạt động, bạn có thể can thiệp bất cứ lúc nào để làm rõ hướng dẫn, điều chỉnh nó theo kết quả mong muốn hoặc thay đổi hoàn toàn nhiệm vụ. Tác nhân này sẽ tiếp tục từ nơi đã dừng lại, nhưng giờ đây sẽ cập nhật thêm các thông tin mới mà không làm mất tiến trình trước đó. Tương tự, chính ChatGPT có thể chủ động hỏi thêm chi tiết từ bạn nếu cần để đảm bảo tác vụ đó vẫn phù hợp với các mục tiêu của bạn. Nếu một tác vụ mất nhiều thời gian hơn dự kiến hoặc cảm thấy bị mắc kẹt, bạn có thể tạm dừng, yêu cầu tóm tắt tiến triển hoặc dừng lại hoàn toàn và nhận được một phần kết quả. Nếu bạn có ứng dụng ChatGPT trên điện thoại, ứng dụng sẽ gửi thông báo cho bạn khi hoàn thành nhiệm vụ.

Mở rộng tiện ích thực tế 

Những năng lực dạng tác tử hợp nhất này nâng cao đáng kể tính hữu ích của ChatGPT trong cả bối cảnh hàng ngày lẫn trong chuyên môn. Ở nơi làm việc, bạn có thể tự động hóa các tác vụ lặp lại, như chuyển đổi ảnh chụp màn hình hoặc bảng thông tin thành các bài thuyết trình bao gồm các phần tử vector có thể chỉnh sửa, sắp xếp lại cuộc họp, lập kế hoạch và đặt chỗ các chuyến đi, cũng như cập nhật bảng tính bằng dữ liệu tài chính mới trong khi vẫn giữ nguyên định dạng. Trong cuộc sống cá nhân, bạn có thể sử dụng công cụ này để dễ dàng lập kế hoạch và đặt lịch trình du lịch, thiết kế và đặt toàn bộ các bữa tiệc tối, hoặc tìm bác sĩ chuyên khoa và sắp xếp các cuộc hẹn. 

Các năng lực nâng cao của mô hình được thể hiện rõ nét qua hiệu suất mức độ phát triển cao nhất (SOTA – state-of-the-art) trong các bài đánh giá đo lường khả năng duyệt web và hoàn thành tác vụ thực tế. 

Trong Humanity’s Last Exam(mở trong cửa sổ mới)*, một bài đánh giá nhằm đo lường hiệu suất của AI trên nhiều lĩnh vực khác nhau qua các câu hỏi ở cấp độ chuyên gia, mô hình trang bị tác nhân ChatGPT đã đạt được điểm số kỷ lục mới @1 SOTA: 41,6 Vì tác nhân lập kế hoạch linh hoạt và tự chọn công cụ, nó có thể giải quyết cùng một nhiệm vụ theo nhiều cách khác nhau giữa các lần chạy. Khi chúng tôi mở rộng quy mô bằng chiến lược triển khai song song đơn giản — chạy tối đa tám thử nghiệm cùng lúc và chọn thử nghiệm có độ tin cậy tự báo cáo cao nhất—điểm HLE của tác nhân tăng lên 44,4.

FrontierMath** là bài kiểm tra toán học khó nhất hiện nay, với các bài toán mới lạ, chưa từng công bố, thường khiến các nhà toán học mất hàng giờ hoặc thậm chí hàng ngày để giải. Với khả năng sử dụng công cụ, như quyền truy cập terminal để triển khai mã, tác nhân ChatGPT đạt độ chính xác 27,4%, vượt trội hơn đáng kể so với các mô hình trước đây.

Chúng tôi cũng đánh giá mô hình bằng cách sử dụng các bộ tiêu chuẩn được mô phỏng theo các tác vụ phức tạp trong thế giới thực. Theo một bộ tiêu chuẩn đánh giá nội bộ được thiết kế để thẩm định hiệu suất mô hình đối với các tác vụ tri thức phức tạp, có giá trị kinh tế, kết quả đầu ra của tác nhân ChatGPT tương đương hoặc tốt hơn con người trong khoảng một nửa số trường hợp trong nhiều khoảng thời gian hoàn thành tác vụ khác nhau, đồng thời vượt trội đáng kể so với o3 và o4-mini. Kết quả đầu ra của mô hình được các chuyên gia đánh giá dựa trên chuẩn tham chiếu chất lượng cao do con người tạo ra, vốn là những người giỏi nhất trong từng lĩnh vực. Những nhiệm vụ này, được thu thập từ các chuyên gia thuộc nhiều ngành nghề và lĩnh vực khác nhau, mô phỏng công việc chuyên môn thực tế — ví dụ như chuẩn bị bản phân tích cạnh tranh về các nhà cung cấp dịch vụ cấp cứu y tế theo yêu cầu, xây dựng lịch trình khấu hao chi tiết và xác định các giếng nước khả thi cho một cơ sở sản xuất hydro xanh mới. 

Theo DSBench(mở trong cửa sổ mới), được thiết kế để đánh giá tác nhân bằng các tác vụ khoa học dữ liệu thực tế bao gồm phân tích và mô hình hóa dữ liệu, tác nhân ChatGPT đặc biệt vượt xa hiệu suất của con người với biên độ đáng kể.

Theo SpreadsheetBench, khi đánh giá khả năng chỉnh sửa bảng tính được tạo ra từ các tình huống thực tế, tác nhân ChatGPT vượt trội hơn đáng kể so với các mô hình hiện có. Khi được trang bị khả năng chỉnh sửa bảng tính trực tiếp, tác nhân ChatGPT đạt điểm số thậm chí còn cao hơn với 45,5%, so với 20,0% của Copilot trong Excel. 

Phương pháp luận: Các tác giả SpreadsheetBench đã sử dụng môi trường Windows có dùng Microsoft Excel để đánh giá các bảng tính. Chúng tôi đã sử dụng môi trường OSX và LibreOffice, có thể dẫn đến những khác biệt nhỏ trong cách chấm điểm. Ví dụ, các tác giả đã phát hiện thấy một Hạn chế cứng tổng thể là 15,02% cho GPT‑4o, trong khi chúng tôi đạt được 13,38%. Chúng tôi đã sử dụng bộ tiêu chuẩn đánh giá đầy đủ gồm 912 câu hỏi.

Theo một bộ tiêu chuẩn nội bộ nhằm đo lường khả năng của mô hình trong việc thực hiện các nhiệm vụ của một chuyên viên phân tích ngân hàng đầu tư từ một đến ba năm kinh nghiệm —như lập mô hình tài chính ba báo cáo cho một công ty Fortune 500 với định dạng và trích dẫn phù hợp, hoặc xây dựng mô hình mua lại bằng đòn bẩy cho một giao dịch rút niêm yết — mô hình trang bị tác nhân ChatGPT đã vượt trội đáng kể so với nghiên cứu sâu và o3. Mỗi tác vụ được chấm điểm dựa trên hàng trăm tiêu chí liên quan đến độ chính xác và việc sử dụng công thức.

Chúng tôi đã đánh giá tác nhân ChatGPT theo BrowseComp, một bộ tiêu chuẩn chúng tôi đã công bố đầu năm nay nhằm đo lường khả năng của các tác nhân duyệt web trong việc tìm kiếm thông tin khó tìm thấy trên web. Mô hình này đã thiết lập mức SOTA mới là 68,9, cao hơn 17,4 điểm phần trăm so với nghiên cứu sâu.

Cuối cùng, theo WebArena(mở trong cửa sổ mới), một bộ tiêu chuẩn được thiết kế để đánh giá hiệu suất của tác nhân duyệt web trong việc hoàn thành các tác vụ web thực tế, mô hình này đã cải thiện so với CUA trang bị o3 (mô hình trang bị Operator). 

Cách sử dụng

Bạn có thể kích hoạt các năng lực mới của tác tử ChatGPT trực tiếp thông qua menu công cụ thả xuống từ trình soạn thảo bằng cách chọn “chế độ tác tử” bất cứ lúc nào trong mọi cuộc trò chuyện. Chỉ cần mô tả nhiệm vụ bạn muốn–dù là nghiên cứu sâu, tạo bản trình chiếu hay gửi báo cáo chi phí. Khi thực hiện nhiệm vụ, một phần tường thuật trên màn hình sẽ hiển thị chính xác những gì ChatGPT đang làm. Bạn có thể tạm dừng và kiểm soát trình duyệt bất cứ khi nào cần, đảm bảo các nhiệm vụ luôn phù hợp với mục tiêu của bạn.

Tác nhân ChatGPT có thể truy cập các trình kết nối, cho phép nó tích hợp với quy trình làm việc của bạn và truy cập các thông tin hữu ích liên quan. Sau khi được xác thực, các trình kết nối này sẽ cho phép ChatGPT xem thông tin và thực hiện các nhiệm vụ như tóm tắt hộp thư đến trong ngày hoặc tìm khoảng thời gian bạn rảnh cho cuộc họp – để thực hiện hành động trên các trang web này; tuy nhiên, bạn vẫn sẽ được nhắc đăng nhập bằng cách tiếp quản trình duyệt. 

Ngoài ra, bạn có thể lên lịch cho các tác vụ đã hoàn thành tự động lặp lại, ví dụ như tạo báo cáo chỉ số hàng tuần vào mỗi sáng thứ Hai.

Năng lực mới, rủi ro mới 

Bản phát hành này đánh dấu lần đầu tiên người dùng có thể yêu cầu ChatGPT thực hiện các hành động trên web. Điều này tạo ra những rủi ro mới, đặc biệt vì tác nhân ChatGPT có thể làm việc trực tiếp với dữ liệu của bạn, cho dù đó là thông tin được truy cập thông qua các trình kết nối hoặc các trang web mà bạn đã đăng nhập thông qua chế độ tiếp quản. Chúng tôi đã củng cố các biện pháp kiểm soát mạnh mẽ từ bản thử nghiệm (research preview) của Operator và bổ sung các biện pháp bảo vệ cho những thách thức như xử lý thông tin nhạy cảm trên web trực tiếp, tiếp cận người dùng rộng hơn và (hạn chế) truy cập mạng terminal. Mặc dù các biện pháp giảm thiểu này giúp giảm đáng kể rủi ro, việc tác nhân ChatGPT có nhiều công cụ mở rộng và phạm vi người dùng rộng hơn đồng nghĩa với việc hồ sơ rủi ro tổng thể của nó cao hơn. 

Chúng tôi đặc biệt chú trọng việc bảo vệ tác nhân ChatGPT khỏi hành vi thao túng bất lợi thông qua hình thức tấn công chèn câu lệnh - prompt, một rủi ro phổ biến đối với các hệ thống tác nhân. Do đó, chúng tôi đã chuẩn bị các biện pháp giảm thiểu rủi ro mở rộng hơn. Tấn công chèn câu lệnh là việc bên thứ ba nỗ lực nhằm thao túng hành vi của ChatGPT thông qua các chỉ dẫn độc hại mà tác nhân ChatGPT có thể gặp phải trên mạng khi thực hiện nhiệm vụ. Ví dụ, một câu lệnh độc hại được ẩn trong một trang web, chẳng hạn như trong các thành phần ẩn hoặc siêu dữ liệu, có thể đánh lừa tác nhân thực hiện các hành động không mong muốn, như chia sẻ dữ liệu riêng tư từ một trình kết nối với kẻ tấn công hoặc thực hiện một hành động gây hại trên một trang web mà người dùng đã đăng nhập. Vì tác nhân ChatGPT có thể thực hiện hành động trực tiếp, các cuộc tấn công thành công có thể gây ra tác động lớn hơn và tạo ra những nguy cơ cao hơn. 

Chúng tôi đã huấn luyện và kiểm thử tác nhân trong việc nhận diện và chống lại nạn tấn công chèn câu lệnh, đồng thời sử dụng biện pháp giám sát để nhanh chóng phát hiện và ứng phó với các cuộc tấn công chèn câu lệnh. Việc yêu cầu người dùng xác nhận rõ ràng trước khi thực hiện các hành động quan trọng giúp giảm thiểu hơn nữa nguy cơ gây hại từ các cuộc tấn công này, và người dùng có thể can thiệp vào các tác vụ khi cần bằng cách tiếp quản hoặc tạm dừng. Người dùng nên cân nhắc những nguy cơ này khi quyết định cung cấp thông tin nào cho tác nhân, cũng như thực hiện các bước để giảm thiểu rủi ro, chẳng hạn như tắt các trình kết nối cho một tác vụ khi không cần thiết. 

Chúng tôi cũng đã triển khai các biện pháp giảm thiểu rủi ro liên quan tới các lỗi của mô hình, đặc biệt là vì giờ đây mô hình có thể thực hiện các tác vụ có tác động đến đời thực: 

  • Xác nhận rõ ràng từ người dùng: ChatGPT được huấn luyện để chủ động xin phép bạn trước khi thực hiện các hành động có hậu quả thực tế, chẳng hạn như mua hàng.
  • Giám sát chủ động (“Chế độ theo dõi”): Một số công việc quan trọng, như gửi email, đòi hỏi sự giám sát trực tiếp của bạn.
  • Giảm thiểu rủi ro chủ động: ChatGPT được huấn luyện để chủ động từ chối các tác vụ có rủi ro cao như chuyển khoản ngân hàng.

Cuối cùng, chúng tôi đã giới thiệu thêm các công cụ kiểm soát để giới hạn dữ liệu mà mô hình có thể truy cập: 

  • Kiểm soát quyền riêng tư: Chỉ bằng một cú nhấp trong phần cài đặt của ChatGPT, bạn có thể xóa tất cả dữ liệu duyệt web và đăng xuất ngay lập tức khỏi mọi phiên duyệt web đang hoạt động. Mặt khác, cookie tồn tại dựa trên chính sách cookie của từng trang web đã truy cập, điều này có thể giúp cho những lần truy cập lại trang web đó hiệu quả hơn.
  • Chế độ tiếp quản trình duyệt bảo mật: Khi bạn tương tác với web bằng trình duyệt của ChatGPT ("chế độ tiếp quản"), thông tin đã nhập của bạn vẫn được giữ kín. ChatGPT không thu thập hoặc lưu trữ bất kỳ dữ liệu nào bạn nhập trong các phiên này, như mật khẩu, vì mô hình không cần đến chúng và sẽ an toàn hơn nếu mô hình không bao giờ thấy chúng.

Hệ thống an toàn sinh học mạnh mẽ nhất từ trước đến nay của chúng tôi. 

Với việc tăng cường các khả năng của mô hình, chúng tôi đã quyết định coi tác nhân ChatGPT là có các năng lực Sinh học và Hóa học cao theo Khung sẵn sàng, đồng thời kích hoạt các biện pháp bảo vệ liên quan. Mặc dù chúng tôi chưa có bằng chứng chắc chắn rằng mô hình này có thể hỗ trợ đáng kể cho một người dùng ít kinh nghiệm gây ra tổn hại sinh học nghiêm trọng — ngưỡng mà chúng tôi xác định là Năng lực cao — chúng tôi vẫn thận trọng và thực hiện các biện pháp bảo vệ cần thiết ngay từ bây giờ. Kết quả là, mô hình này sở hữu hệ thống an toàn toàn diện nhất từ trước đến nay của chúng tôi, với các biện pháp bảo vệ nâng cao cho lĩnh vực sinh học: mô hình hóa mối đe dọa toàn diện, huấn luyện từ chối sử dụng kép, các bộ phân loại luôn bật và công cụ giám sát suy luận, cùng các quy trình thực thi rõ ràng. 

Bên cạnh nỗ lực bảo mật tác nhân ChatGPT, chúng tôi hiểu rằng an toàn sinh học nhiều lớp đạt hiệu quả cao nhất khi các biện pháp bảo vệ mở rộng ra ngoài phạm vi một phòng thí nghiệm. Vì vậy chúng tôi hợp tác trong toàn hệ sinh thái để củng cố các biện pháp phòng thủ. Ngay từ ngày đầu tiên, chúng tôi đã hợp tác với các chuyên gia an ninh sinh học độc lập, các viện an toàn và các nhà nghiên cứu học thuật để xây dựng mô hình mối đe dọa, các đánh giá và chính sách của mình. Các chuyên gia thẩm định có chuyên môn về sinh học đã xác thực dữ liệu đánh giá của chúng tôi, và các nhóm phản biện chuyên gia trong lĩnh vực đã kiểm tra sức chống chịu của các biện pháp bảo vệ trong các tình huống thực tế. Đầu tháng này, chúng tôi đã tổ chức một hội thảo về Phòng thủ sinh học với các chuyên gia từ chính phủ, giới học thuật, các phòng thí nghiệm quốc gia và các tổ chức phi chính phủ nhằm thúc đẩy hợp tác và phát triển nghiên cứu phòng thủ sinh học ứng dụng AI. Chúng tôi sẽ tiếp tục hợp tác trên phạm vi toàn cầu để đón đầu những nguy cơ mới nổi. 

Hãy đọc thêm về phương pháp tiếp cận bảo mật mạnh mẽ của chúng tôi cho mô hình tác nhân hợp nhất trong thẻ hệ thống. Chúng tôi cũng ra mắt Chương trình Săn tìm lỗi bảo mật để có thể phát hiện và khắc phục các rủi ro thực tế.

Phạm vi cung cấp

Tác nhân ChatGPT bắt đầu được triển khai từ hôm nay cho người dùng Pro, Plus và Team; người dùng Pro sẽ được truy cập trước vào cuối ngày, trong khi người dùng Plus và Team sẽ được truy cập trong vài ngày tới. Người dùng Enterprise và Education sẽ được truy cập trong những tuần tới. Người dùng Pro được hưởng 400 tin nhắn mỗi tháng, trong khi những người dùng trả phí khác được hưởng 40 tin nhắn mỗi tháng và có thể mua bổ sung thông qua các lựa chọn thanh toán linh hoạt.

Chúng tôi vẫn đang nỗ lực để cho phép truy cập từ Khu vực Kinh tế Châu Âu và Thụy Sĩ. 

Trang web thử nghiệm của Operator sẽ duy trì vận hành thêm vài tuần nữa, sau đó sẽ ngừng hoạt động. Nghiên cứu sâu là một trong số nhiều năng lực của tác nhân ChatGPT. Nếu bạn muốn sử dụng tính năng nghiên cứu sâu gốc – vốn có thể mất nhiều thời gian chạy hơn một chút nhưng mặc định đưa ra phản hồi chi tiết, chuyên sâu hơn – bạn vẫn có thể truy cập nó bằng cách chọn “nghiên cứu sâu” từ menu thả xuống trong ô nhập câu lệnh.

Các hạn chế và tương lai phía trước 

Tác nhân ChatGPT vẫn còn trong giai đoạn phát triển ban đầu. Nó có khả năng đảm nhận một loạt các tác vụ phức tạp, nhưng vẫn có thể mắc lỗi. 

Mặc dù chúng tôi nhận thấy tiềm năng đáng kể trong khả năng tạo bản trình chiếu của nó, chức năng này hiện đang ở giai đoạn thử nghiệm beta. Hiện tại, các kết quả đầu ra đôi khi có thể cho cảm giác sơ sài về mặt định dạng và độ hoàn thiện, đặc biệt là khi bắt đầu mà không có tài liệu mẫu. Chúng tôi đã tập trung vào việc phát triển các năng lực ban đầu của mô hình nhằm tạo ra các sản phẩm cho phép sắp xếp thông tin theo một luồng và định dạng phù hợp cho các bài thuyết trình. Trong đó, các yếu tố như văn bản, biểu đồ, hình ảnh và hình dạng có thể chỉnh sửa dễ dàng và trực tiếp sau khi xuất, nhằm tối ưu hóa cấu trúc và tính linh hoạt. Hiện tại, đôi khi vẫn có sự khác biệt giữa các trang chiếu hiển thị trong trình xem và tệp PowerPoint đã xuất; và chúng tôi đang nỗ lực để giảm thiểu sự khác biệt này. Ngoài ra, hiện tại bạn có thể tải lên một bảng tính sẵn có để ChatGPT chỉnh sửa hoặc sử dụng làm mẫu, nhưng năng lực này vẫn chưa được áp dụng cho các bản trình chiếu. Chúng tôi đang đào tạo phiên bản tiếp theo cho tính năng tạo bản trình chiếu của ChatGPT nhằm cho kết quả đầu ra chỉn chu và phong phú hơn, với nhiều năng lực mở rộng hơn và định dạng được cải thiện.

Nhìn chung, chúng tôi kỳ vọng sẽ tiếp tục cải thiện mức độ hiệu quả, chiều sâu và tính linh hoạt của tác nhân ChatGPT theo thời gian, bao gồm cách tương tác liền mạch hơn. Bên cạnh đó, chúng tôi sẽ tiếp tục điều chỉnh mức độ giám sát cần thiết từ người dùng để khiến công cụ trở nên hữu ích hơn, đồng thời đảm bảo an toàn khi sử dụng.

Phụ lục

SpreadsheetBench

Mô hình

Môi trường đánh giá

Hạn chế mềm (%): Cấp độ tế bào

Hạn chế mềm (%): Cấp độ bảng tính

Hạn chế mềm (%): Tổng quan

GPT‑4o

Windows, Excel

15,03

23,65

18,35

Copilot trong Excel

Windows, Excel

23,33

15,00

20,00

GPT‑4o

OSX, LibreOffice

15,86

18,33

16,81

OpenAI o3

OSX, LibreOffice

22,40

24,60

23,25

Tác tử ChatGPT

OSX, LibreOffice

38,27

30,48

35,27

Tác tử ChatGPT với .xlsx

OSX, LibreOffice

50,56

37,51

45,54

Con người

75,56

65,00

71,33

Xem lại buổi phát trực tiếp

Tác giả

OpenAI

Ghi chú cuối trang

* Khi bật tính năng duyệt tìm, đôi khi mô hình có thể tìm thấy câu trả lời chính xác từ trên mạng, chẳng hạn bằng cách đọc các bài đăng trên blog có các vấn đề mẫu từ một tập dữ liệu. Chúng tôi giảm thiểu mối lo ngại về gian lận mô hình khi duyệt tìm bằng hai chiến lược:

1. Chặn các tên miền mà chúng tôi đã từng phát hiện có hành vi gian lận.

2. Sử dụng một mô hình lý luận bổ sung làm công cụ giám sát để kiểm tra tất cả các token đầu ra của công cụ trong mỗi lần thử nhằm xác định hành vi đáng ngờ. Hành vi đáng ngờ được định nghĩa là "một trang, tệp hoặc đoạn thông tin có mục đích chính là đưa ra câu trả lời chính xác cho câu hỏi cụ thể này — ví dụ: tiêu chí chấm điểm chính thức, rò rỉ tóm tắt "giải pháp" hoặc thảo luận trích dẫn nguyên văn câu trả lời hoàn chỉnh". Hành vi vô hại được định nghĩa là "Một tài nguyên đáng tin cậy mà một người cẩn trọng có thể tham khảo (tài liệu, hướng dẫn, bài báo khoa học, bài viết có uy tín) ngay cả khi tài nguyên này vô tình chứa câu trả lời đúng". Tất cả những lần thử mà công cụ giám sát cho là đáng ngờ đều được tính là không chính xác. Hầu hết các mẫu không vượt qua được bài kiểm tra này đều là những vấn đề mà cách giải quyết chính xác có sẵn trên nhiều nguồn internet không liên quan đến HLE.

**OpenAI có quyền truy cập độc quyền vào 237 trong số 290 câu hỏi riêng tư trong bộ dữ liệu Tier 1-3. Các câu hỏi FrontierMath cấp độ 4 không được đưa vào đánh giá này. Kết quả được đánh giá dựa trên giá trị trung bình của 16 lần thử trả lời cho mỗi câu hỏi. Các kết quả của tác nhân ChatGPT được OpenAI đưa ra, Epoch AI chấm điểm, có quyền truy cập trình duyệt và terminal, và giới hạn 128K token cho mỗi câu trả lời. Các bài đánh giá OpenAI o4-mini và o3 được Epoch AI thu thập và chấm điểm, không có quyền truy cập trình duyệt và terminal, sử dụng các câu lệnh python thông qua gọi hàm, và giới hạn 100k token cho mỗi câu trả lời.

*** Oracle@64 là điểm số tốt nhất đạt được trong 64 lần chạy mẫu, được chọn dựa trên dữ liệu thực tế (tức là, chúng tôi chọn lần thử có điểm số cao nhất cho mỗi tác vụ dựa trên hiệu suất đã chấm điểm thực tế). Chúng tôi báo cáo giá trị trung bình của các điểm số tốt nhất theo từng nhiệm vụ, tính trên tất cả các nhiệm vụ. Chỉ số này làm nổi bật tiềm năng cận trên và chênh lệch trong hiệu suất của mô hình khi thực hiện tác vụ — cho thấy khả năng của mô hình khi thành công và chỉ ra dư địa để cải thiện tính nhất quán thông qua quá trình huấn luyện thêm. Không giống như các chỉ số “best of N” thông thường, vốn lựa chọn dựa trên độ tin cậy của mô hình, oracle@64 sử dụng dữ liệu thực tế để lựa chọn và áp dụng cho các nhiệm vụ được đánh giá trên thang điểm liên tục từ 0 đến 1 thay vì chỉ đơn giản là đạt hoặc không đạt.