23 tháng 1, 2025

Giới thiệu về Operator

Bản xem thử trước nghiên cứu về một trợ lý ảo có thể sử dụng trình duyệt riêng để thực hiện tác vụ cho bạn. Dành cho người dùng tại Hoa Kỳ

Chuyển đến Operator

Hình ảnh thể hiện một yêu cầu từ người dùng là tìm kiếm và đặt tour một ngày được đánh giá cao nhất ở Rome thông qua TripAdvisor. Hình ảnh tóm tắt quá trình tìm kiếm và hiển thị trang TripAdvisor với một tour được gắn nhãn “Best Seller” (Bán chạy nhất): "Rome: Colosseum, Roman Forum và Palatine Hill".

Đang tải…

Cập nhật ngày 17 tháng 7 năm 2025: Operator nay đã được tích hợp đầy đủ vào ChatGPT dưới dạng tác nhân ChatGPT. Để truy cập những tính năng cập nhật này, chỉ cần chọn "chế độ tác nhân” từ danh sách thả xuống trong trình soạn thảo và nhập truy vấn của bạn trực tiếp trong ChatGPT. Do đó, trang web Operator độc lập (operator.chatgpt.com) sẽ dừng hoạt động trong những tuần tới.

Hôm nay, chúng tôi đã ra mắt Operator⁠(mở trong cửa sổ mới), một tác nhân có thể truy cập web để thực hiện các tác vụ thay bạn. Operator sử dụng trình duyệt riêng, có khả năng xem trang web và tương tác như con người bằng cách gõ, nhấp chuột và cuộn trang. Operator hiện đang trong giai đoạn xem thử trước nghiên cứu, nghĩa là vẫn còn nhiều giới hạn và sẽ tiếp tục được phát triển dựa trên phản hồi của người dùng. Operator là một trong những trợ lý ảo đầu tiên của chúng tôi có khả năng thực hiện công việc một cách độc lập—bạn chỉ cần giao nhiệm vụ và Operator sẽ tiến hành xử lý.

Operator có thể đảm nhiệm nhiều tác vụ trình duyệt lặp đi lặp lại như điền biểu mẫu, đặt hàng tạp hóa, thậm chí tạo meme. Khả năng sử dụng các giao diện và công cụ mà con người tương tác hằng ngày giúp AI trở nên hữu ích hơn, tiết kiệm thời gian cho người dùng và mở ra cơ hội tương tác mới cho doanh nghiệp mỗi ngày.

Để triển khai một cách an toàn và theo từng bước, chúng tôi sẽ bắt đầu ở quy mô nhỏ. Từ hôm nay, Operator được cung cấp cho người dùng Pro⁠(mở trong cửa sổ mới) tại Hoa Kỳ tại operator.chatgpt.com⁠(mở trong cửa sổ mới). Bản xem trước nghiên cứu này giúp chúng tôi học hỏi từ người dùng và cộng đồng lớn hơn, từ đó liên tục hoàn thiện và cải tiến. Kế hoạch của chúng tôi là mở rộng sang người dùng Plus, Team và Enterprise, đồng thời tích hợp các tính năng này vào ChatGPT trong tương lai.

Cách thức vận hành Operator

Operator được vận hành bởi một mô hình có tên Trợ lý ảo thao tác máy tính (CUA). Kết hợp năng lực xử lý hình ảnh của GPT‑4o với khả năng suy luận nâng cao thông qua học củng cố, CUA được huấn luyện để tương tác với giao diện đồ họa người dùng (GUI) — tức là các nút bấm, menu và trường văn bản mà người dùng nhìn thấy trên màn hình.

Operator có thể “quan sát” (thông qua ảnh chụp màn hình) và “tương tác” (bằng tất cả thao tác mà chuột và bàn phím cho phép) với trình duyệt, cho phép thực hiện hành động trên web mà không cần tích hợp API tùy chỉnh.

Nếu gặp khó khăn hoặc mắc lỗi, Operator có thể tận dụng khả năng suy luận để tự điều chỉnh. Khi bị kẹt và cần trợ giúp, Operator sẽ đơn giản chuyển quyền điều khiển lại cho người dùng, đảm bảo trải nghiệm mượt mà và phối hợp.

Dù CUA vẫn đang ở giai đoạn đầu và còn một số hạn chế, mô hình này đã thiết lập những kết quả chuẩn mực tân tiến trong WebArena và WebVoyager, hai bộ chuẩn mực quan trọng về khả năng sử dụng trình duyệt. Bạn có thể tìm hiểu thêm về các đánh giá và nghiên cứu đứng sau Operator trong bài viết trên blog nghiên cứu của chúng tôi.

Cách sử dụng

Để bắt đầu, bạn chỉ cần mô tả nhiệm vụ mình muốn thực hiện, Operator sẽ xử lý phần còn lại. Người dùng có thể chọn tiếp quản quyền điều khiển trình duyệt từ xa bất kỳ lúc nào, Operator đã được huấn luyện để chủ động đề nghị người dùng can thiệp với các tác vụ cần đăng nhập, nhập thông tin thanh toán hoặc xử lý CAPTCHA.

Người dùng có thể cá nhân hóa quy trình làm việc trong Operator bằng cách thêm hướng dẫn tùy chỉnh, áp dụng cho tất cả các trang web hoặc từng trang cụ thể, chẳng hạn như thiết lập tùy chọn ưu tiên về hãng hàng không trên Booking.com. Operator cho phép người dùng lưu các lời nhắc để truy cập nhanh từ trang chủ, rất tiện lợi cho các tác vụ lặp lại như đặt mua lại nhu yếu phẩm trên Instacart. Tương tự như việc sử dụng nhiều tab trên trình duyệt, người dùng có thể để Operator thực hiện đồng thời nhiều tác vụ bằng cách tạo các cuộc hội thoại mới như đặt một chiếc cốc men thiết kế cho cá nhân trên Etsy đồng thời đặt chỗ cắm trại trên Hipcamp.

Hệ sinh thái và người dùng

Operator⁠(mở trong cửa sổ mới) biến trí tuệ nhân tạo từ một công cụ thụ động thành một trợ lý ảo chủ động trong hệ sinh thái số. Công cụ này sẽ giúp đơn giản hóa các tác vụ cho người dùng và mang lại lợi ích từ các trợ lý ảo cho những công ty đang tìm kiếm trải nghiệm khách hàng sáng tạo và mong muốn nâng cao tỷ lệ mua hàng. Chúng tôi đang hợp tác với các công ty như DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và một số đơn vị khác nhằm đảm bảo Operator giải quyết được các nhu cầu thực tế mà vẫn tôn trọng các chuẩn mực đã được thiết lập. Bên cạnh những mối quan hệ hợp tác này, chúng tôi cũng nhận thấy nhiều tiềm năng trong việc nâng cao khả năng tiếp cận và hiệu quả của một số quy trình công việc, đặc biệt là trong các ứng dụng thuộc khu vực công. Để tiếp tục khám phá các trường hợp sử dụng này, chúng tôi đang hợp tác với những tổ chức như Thành phố Stockton⁠(mở trong cửa sổ mới) để giúp người dân dễ dàng đăng ký sử dụng các dịch vụ và chương trình của thành phố.

“Khi tìm hiểu thêm về Operator trong giai đoạn xem trước nghiên cứu, chúng tôi sẽ hiểu rõ hơn những đóng góp của AI trong việc giúp người dân dễ dàng tham gia vào các hoạt động tương tác cộng đồng hơn".

Jamil Niazi, Giám đốc Công nghệ thông tin tại Thành phố Stockton

Bằng cách giới thiệu Operator đến một nhóm người dùng giới hạn trong thời gian đầu, chúng tôi mong muốn học hỏi nhanh chóng và hoàn thiện khả năng của sản phẩm dựa trên những phản hồi từ thực tế, đồng thời đảm bảo sự cân bằng giữa đổi mới công nghệ với sự tin cậy và an toàn. Sự kết hợp này giúp đảm bảo Operator mang lại giá trị thiết thực cho người dùng, nhà sáng tạo, doanh nghiệp và các tổ chức thuộc khu vực công.

“Operator của OpenAI là một bước đột phá công nghệ giúp các quy trình như đặt hàng thực phẩm trở nên vô cùng dễ dàng”.

Daniel Danker, Giám đốc Sản phẩm tại Instacart

An toàn và riêng tư

Đảm bảo Operator an toàn khi sử dụng là ưu tiên hàng đầu với ba lớp bảo vệ để ngăn hành vi lạm dụng và giữ quyền kiểm soát chắc chắn trong tay người dùng.

Thứ nhất, Operator được huấn luyện để đảm bảo người sử dụng luôn giữ quyền kiểm soát và yêu cầu dữ liệu đầu vào tại những thời điểm quan trọng.

Chế độ tiếp quản: Operator yêu cầu người dùng tiếp quản khi nhập thông tin nhạy cảm vào trình duyệt như thông tin đăng nhập hoặc thanh toán. Ở chế độ tiếp quản, Operator không thu thập hay chụp lại thông tin do người dùng nhập.
Xác nhận của người dùng: Trước khi hoàn tất bất kỳ hành động quan trọng nào như gửi đơn đặt hàng hoặc gửi email, Operator sẽ yêu cầu sự phê duyệt từ người dùng.
Giới hạn nhiệm vụ: Operator được huấn luyện từ chối thực hiện một số nhiệm vụ nhạy cảm, chẳng hạn như giao dịch ngân hàng hoặc các quyết định quan trọng như xét duyệt đơn xin việc.
Chế độ giám sát: Trên những trang web đặc biệt nhạy cảm như email hoặc dịch vụ tài chính, Operator yêu cầu người dùng giám sát chặt chẽ các hành động của Operator, giúp người dùng trực tiếp phát hiện và ngăn chặn các sai sót tiềm ẩn.

Tiếp theo, chúng tôi đã thiết kế để việc quản lý quyền riêng tư dữ liệu trong Operator trở nên đơn giản.

Từ chối huấn luyện: Tắt tùy chọn "Cải thiện mô hình cho mọi người" trong phần cài đặt ChatGPT cũng đồng nghĩa dữ liệu trong Operator sẽ không được sử dụng để huấn luyện các mô hình của chúng tôi.
Quản lý dữ liệu minh bạch: Người dùng có thể xóa toàn bộ dữ liệu duyệt web và đăng xuất khỏi tất cả các trang chỉ với một cú nhấp chuột trong phần Quyền riêng tư của cài đặt Operator. Các cuộc trò chuyện trước đây trong Operator cũng có thể bị xóa chỉ với một cú nhấp chuột.

Cuối cùng, chúng tôi đã xây dựng các lớp phòng thủ chống lại các trang web đối nghịch có thể tìm cách đánh lừa Operator thông qua các lệnh ẩn, mã độc hại hoặc các cuộc tấn công lừa đảo.

Thao tác thận trọng: Operator được thiết kế để phát hiện và bỏ qua các lệnh nhúng độc hại.
Theo dõi: Một “mô hình theo dõi” riêng biệt theo dõi các hành vi đáng ngờ và có thể tạm dừng nhiệm vụ nếu phát hiện điều bất thường.
Quy trình phát hiện: Các quá trình tự động và đánh giá thủ công liên tục nhận diện các mối đe dọa mới và nhanh chóng cập nhật các biện pháp bảo vệ.

Chúng tôi biết rằng những kẻ xấu có thể cố tình lợi dụng công nghệ này. Đó là lý do chúng tôi thiết kế Operator để từ chối các yêu cầu gây hại và chặn các nội dung trái phép. Hệ thống kiểm duyệt có thể đưa ra cảnh báo hoặc thậm chí thu hồi quyền truy cập khi phát hiện vi phạm lặp lại, đồng thời, chúng tôi đã tích hợp thêm các quy trình đánh giá để phát hiện và xử lý hành vi lạm dụng. Chúng tôi cũng hướng dẫn cách tương tác với Operator phù hợp với Chính sách sử dụng của chúng tôi.

Mặc dù Operator được thiết kế với các lớp bảo vệ này song không hệ thống nào hoàn hảo và đây vẫn là giai đoạn thử nghiệm nghiên cứu; chúng tôi cam kết liên tục cải tiến dựa trên phản hồi thực tế và kiểm thử nghiêm ngặt. Để tìm hiểu thêm về cách tiếp cận của chúng tôi, vui lòng truy cập mục an toàn trong blog nghiên cứu của Operator.

Hạn chế

Operator hiện đang ở giai đoạn xem thử trước nghiên cứu ban đầu, mặc dù đã có khả năng xử lý nhiều loại nhiệm vụ nhưng vẫn đang trong quá trình học hỏi, phát triển và có thể mắc sai sót. Ví dụ, Operator gặp khó khăn với các giao diện phức tạp như tạo slide trình chiếu hoặc quản lý lịch làm việc. Phản hồi từ người dùng ban đầu sẽ đóng vai trò quan trọng trong việc nâng cao độ chính xác, độ tin cậy và sự an toàn, giúp chúng tôi hoàn thiện Operator cho mọi người.

Kế hoạch tiếp theo

CUA trong API: Chúng tôi dự kiến sẽ sớm công khai mô hình điều khiển Operator mang tên CUA trong API để các nhà phát triển có thể dùng để xây dựng các trợ lý ảo thao tác máy tính riêng.

Cải thiện khả năng: Chúng tôi sẽ tiếp tục cải thiện khả năng của Operator trong việc xử lý các quy trình dài và phức tạp hơn.

Quyền truy cập rộng hơn: Chúng tôi lên kế hoạch mở rộngOperator⁠(mở trong cửa sổ mới) tới người dùng Plus, Team và Enterprise, đồng thời tích hợp khả năng này trực tiếp vào ChatGPT trong tương lai khi đã đảm bảo an toàn và dễ dùng ở quy mô lớn, giúp thực hiện các nhiệm vụ thời gian thực hoặc không đồng bộ một cách liền mạch.

Tác giả

OpenAI

Cộng tác viên nghiên cứu nền tảng

Casey Chu, David Medina, Hyeonwoo Noh, Noah Jorgensen, Reiichiro Nakano, Sarah Yoo

Đội ngũ cốt lõi

Andrew Howell, Aaron Schlesinger, Baishen Xu, Ben Newhouse, Bobby Stocker, Devashish Tyagi, Dibyo Majumdar, Eugenio Panero, Fereshte Khani, Geoffrey Iyer, Jiahui Yu, Nick Fiacco, Patrick Goethe, Sam Jau, Shunyu Yao, Stephan Casas, Yash Kumar, Yilong Qin

Các bên đóng góp XFN

Abby Fanlo Susk, Aleah Houze, Alex Beutel, Alexander Prokofiev, Andrea Vallone, Andrea Chan, Christina Lim, Derek Chen, Duke Kim, Grace Zhao, Heather Whitney, Houda Nait El Barj, Jake Brill, Jeremy Fine, Joe Fireman, Kelly Stirman, Lauren Yang, Lindsay McCallum, Leo Liu, Mike Starr, Minnia Feng, Mostafa Rohaninejad, Oleg Boiko, Owen Campbell-Moore, Paul Ashbourne, Stephen Imm, Taylor Gordon, Tina Sriskandarajah, Winston Howes

Trưởng nhóm

Aaron Schlesinger (Cơ sở hạ tầng), Casey Chu (An toàn và Sự sẵn sàng của mô hình), David Medina (Cơ sở hạ tầng nghiên cứu), Hyeonwoo Noh (Nghiên cứu tổng thể), Reiichiro Nakano (Nghiên cứu tổng thể), Yash Kumar

Các bên đóng góp

Adam Brandon, Adam Koppel, Adele Li, Ahmed El-Kishky, Akila Welihinda, Alex Karpenko, Alex Nawar, Alex Tachard Passos, Amelia Liu, Andrei Gheorghe, Andrew Duberstein, Andrey Mishchenko, Angela Baek, Ankush Agarwal, Anting Shen, Antoni Baum, Ari Seff, Ashley Tyra, Behrooz Ghorbani, Bo Xu, Brandon McKinzie, Bryan Brandow, Carolina Paz, Cary Hudson, Chak Li, Chelsea Voss, Chen Shen, Chris Koch, Christian Gibson, Christina Kim, Christine McLeavey, Claudia Fischer, Cory Decareaux, Daniel Jacobowitz, Daniel Wolf, David Kjelkerud, David Li, Ehsan Asdar, Elaine Kim, Emilee Goo, Eric Antonow, Eric Hunter, Eric Wallace, Felipe Torres, Fotis Chantzis, Freddie Sulit, Giambattista Parascandolo, Hadi Salman, Haiming Bao, Haoyu Wang, Henry Aspegren, Hyung Won Chung, Ian O’Connell, Ian Sohl, Isabella Fulford, Jake McNeil, James Donovan, Jamie Kiros, Jason Ai, Jason Fedor, Jason Wei, Jay Dixit, Jeffrey Han, Jeffrey Sabin-Matsumoto, Jennifer Griffith-Delgado, Jeramy Han, Jeremiah Currier, Ji Lin, Jiajia Han, Jiaming Zhang, Jiayi Weng, Jieqi Yu, Joanne Jang, Joyce Ruffell, Kai Chen, Kai Xiao, Kevin Button, Kevin King, Kevin Liu, Kristian Georgiev, Kyle Miller, Lama Ahmad, Laurance Fauconnet, Leonard Bogdonoff, Long Ouyang, Louis Feuvrier, Madelaine Boyd, Mamie Rheingold, Matt Jones, Michael Sharman, Miles Wang, Mingxuan Wang, Nick Cooper, Niko Felix, Nikunj Handa, Noel Bundick, Pedro Aguilar, Peter Faiman, Peter Hoeschele, Pranav Deshpande, Raul Puri, Raz Gaon, Reid Gustin, Robin Brown, Rob Honsby, Saachi Jain, Sandhini Agarwal, Scott Ethersmith, Scott Lessans, Shauna O’Brien, Spencer Papay, Steve Coffey, Tal Stramer, Tao Wang, Teddy Lee, Tejal Patwardhan, Thomas Degry, Tomo Hiratsuka, Troy Peterson, Wenda Zhou, William Butler, Wyatt Thompson, Yao Zhou, Yaodong Yu, Yi Cheng, Yinghai Lu, Younghoon Kim, Yu-Ann Wang Madan, Yushi Wang, Zhiqing Sun

Lãnh đạo

Anna Makanju, Greg Brockman, Hannah Wong, Jerry Tworek, Liam Fedus, Mark Chen, Peter Welinder, Sam Altman, Wojciech Zaremba