11 tháng 3, 2025

Các công cụ mới để xây dựng tác nhân

Chúng tôi đang phát triển nền tảng của mình để giúp các nhà phát triển và doanh nghiệp xây dựng những tác nhân hữu ích và đáng tin cậy.

Thử trong Playground

Một giao diện tối giản, mượt mà hiển thị danh sách tác vụ cho một tác nhân AI, bao gồm ‘triage_agent,’ ‘guardrail,’ và ‘update_salesforce_record,’ trên nền xanh lam trừu tượng uyển chuyển.

Hôm nay, chúng tôi ra mắt bộ công cụ nền tảng đầu tiên nhằm giúp các nhà phát triển và doanh nghiệp xây dựng những tác nhân hữu ích và đáng tin cậy. Chúng tôi xem tác nhân là những hệ thống có khả năng độc lập thực hiện các tác vụ thay cho người dùng. Trong năm vừa qua, chúng tôi đã giới thiệu những năng lực mô hình mới—như khả năng suy luận nâng cao, tương tác đa phương thức, và các kỹ thuật an toàn mới—nhằm đặt nền móng cho các mô hình của chúng tôi có thể xử lý những tác vụ phức tạp, đa bước cần thiết để xây dựng tác nhân. Tuy nhiên, khách hàng đã chia sẻ rằng việc biến những năng lực này thành các tác nhân sẵn sàng đưa vào vận hành có thể gặp nhiều thách thức, thường đòi hỏi việc lặp lại lời nhắc và logic điều phối tùy chỉnh mà không có đủ sự trực quan hay hỗ trợ tích hợp.

Để giải quyết những thách thức này, chúng tôi ra mắt một bộ API và công cụ mới được thiết kế đặc biệt để đơn giản hóa việc phát triển các ứng dụng dạng tác nhân:

API phản hồi⁠(mở trong cửa sổ mới) mới này, kết hợp giữa tính đơn giản của API hoàn thiện hội thoại với khả năng sử dụng công cụ của API trợ lý để xây dựng các tác nhân.
Các công cụ tích hợp sẵn bao gồm tìm kiếm web⁠(mở trong cửa sổ mới), tìm kiếm tệp⁠(mở trong cửa sổ mới) và sử dụng máy tính⁠(mở trong cửa sổ mới)
SDK Tác nhân⁠(mở trong cửa sổ mới) mới giúp điều phối các luồng công việc đơn tác nhân và đa tác nhân
Các công cụ quan sát⁠(mở trong cửa sổ mới) được tích hợp nhằm theo dõi và kiểm tra quá trình thực thi luồng công việc của tác nhân.

Những công cụ mới này sẽ giúp tối ưu logic cốt lõi, cơ chế điều phối và các tương tác của tác nhân, giúp các nhà phát triển bắt đầu xây dựng tác nhân dễ dàng hơn rất nhiều. Trong những tuần và tháng tới, chúng tôi dự định sẽ phát hành các công cụ và năng lực bổ sung để tiếp tục đơn giản hóa và tăng tốc việc xây dựng các ứng dụng dạng tác nhân trên nền tảng của chúng tôi.

Giới thiệu API phản hồi

API phản hồi là nền tảng API mới của chúng tôi nhằm tận dụng các công cụ tích hợp sẵn của OpenAI để xây dựng các tác nhân. API này kết hợp tính đơn giản của Hoàn thiện chat với năng lực sử dụng công cụ của API trợ lý. Khi các năng lực của mô hình tiếp tục phát triển, chúng tôi tin rằng API phản hồi sẽ mang đến một nền tảng linh hoạt hơn cho các nhà phát triển khi xây dựng ứng dụng dạng tác nhân. Chỉ với một lệnh gọi API phản hồi duy nhất, nhà phát triển sẽ có thể giải quyết các tác vụ ngày càng phức tạp bằng cách sử dụng nhiều công cụ và nhiều lượt xử lý của mô hình.

Để bắt đầu, API phản hồi sẽ hỗ trợ các công cụ tích hợp sẵn mới như tìm kiếm web, tìm kiếm tệp và sử dụng máy tính. Những công cụ này được thiết kế để hoạt động cùng nhau nhằm kết nối các mô hình với thực tế, giúp chúng trở nên hữu ích hơn trong việc hoàn thành các tác vụ. Ngoài ra, nó còn có nhiều cải tiến về tính khả dụng, bao gồm: thiết kế hợp nhất dựa trên khoản mục, cơ chế đa hình đơn giản hơn, các sự kiện truyền phát trực quan và các công cụ hỗ trợ SDK như response.output_text để dễ dàng truy cập đầu ra dạng văn bản của mô hình.

API phản hồi được thiết kế cho những nhà phát triển muốn dễ dàng tích hợp các mô hình của OpenAI cùng những công cụ có sẵn vào ứng dụng của họ mà không cần tích hợp phức tạp nhiều API hay các nhà cung cấp bên ngoài. API này cũng giúp việc lưu trữ dữ liệu trên OpenAI trở nên đơn giản hơn, cho phép nhà phát triển có thể đánh giá hiệu năng của tác nhân bằng các tính năng như truy vết và đánh giá. Xin nhắc lại rằng, theo mặc định, chúng tôi không huấn luyện các mô hình của mình trên dữ liệu doanh nghiệp, ngay cả khi dữ liệu đó được lưu trữ trên OpenAI. API này đã sẵn sàng cho tất cả các nhà phát triển sử dụng từ hôm nay và không bị tính phí riêng—token và các công cụ sẽ được tính phí theo mức giá tiêu chuẩn có trên trang bảng giá⁠(mở trong cửa sổ mới) của chúng tôi. Hãy xem qua hướng dẫn bắt đầu nhanh⁠(mở trong cửa sổ mới) với API phản hồi để tìm hiểu thêm.

Điều này có ý nghĩa gì đối với các API hiện hữu?

API hoàn thiện hội thoại⁠(mở trong cửa sổ mới): Hoàn thiện hội thoại vẫn là API được sử dụng rộng rãi nhất, và chúng tôi hoàn toàn cam kết sẽ tiếp tục hỗ trợ API này với các mô hình và năng lực mới. Các nhà phát triển không có nhu cầu sử dụng những công cụ có sẵn hoàn toàn có thể yên tâm tiếp tục dùng Hoàn thiện hội thoại. Chúng tôi sẽ tiếp tục phát hành các mô hình mới cho Hoàn thiện hội thoại bất cứ khi nào các năng lực của chúng không phụ thuộc vào những công cụ có sẵn hay các lệnh gọi nhiều mô hình. Tuy nhiên, API phản hồi là một bộ API cấp cao⁠(mở trong cửa sổ mới) của Hoàn thiện hội thoại với hiệu năng tuyệt vời tương đương, vì vậy đối với các bản tích hợp mới, chúng tôi khuyến cáo nên bắt đầu với API phản hồi.
API trợ lý⁠(mở trong cửa sổ mới): Dựa trên phản hồi của các nhà phát triển từ phiên bản beta của API trợ lý, chúng tôi đã tích hợp những cải tiến quan trọng vào API phản hồi, giúp nó trở nên linh hoạt, nhanh chóng và dễ sử dụng hơn. Chúng tôi đang nỗ lực để đạt được sự tương đồng hoàn toàn về tính năng giữa API trợ lý và API phản hồi, bao gồm việc hỗ trợ các đối tượng tương tự Trợ lý và Chuỗi, cùng với công cụ Trình thông dịch mã. Sau khi hoàn tất, chúng tôi dự định sẽ chính thức thông báo về việc ngừng hỗ trợ API trợ lý với thời hạn ngừng hoạt động hoàn toàn dự kiến vào giữa năm 2026. Khi ngừng hỗ trợ, chúng tôi sẽ cung cấp một hướng dẫn chuyển đổi rõ ràng từ API trợ lý sang API phản hồi, cho phép nhà phát triển bảo toàn tất cả dữ liệu và chuyển đổi các ứng dụng của mình. Cho đến khi có thông báo ngừng hỗ trợ chính thức, chúng tôi sẽ tiếp tục cung cấp các mô hình mới cho API trợ lý. API phản hồi sẽ đại diện cho định hướng tương lai trong việc xây dựng các tác nhân trên nền tảng OpenAI.

Giới thiệu các công cụ tích hợp sẵn trong API phản hồi

Tìm kiếm web

Giờ đây, các nhà phát triển có thể nhận được câu trả lời nhanh chóng, cập nhật cùng với các trích dẫn rõ ràng và phù hợp từ web. Trong API phản hồi, tính năng tìm kiếm web có sẵn dưới dạng một công cụ khi sử dụng gpt-4o và gpt-4o-mini, và có thể được kết hợp với các công cụ hoặc lệnh gọi hàm khác.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

Trong thử nghiệm ban đầu, chúng tôi đã thấy các nhà phát triển xây dựng ứng dụng với tính năng tìm kiếm web cho nhiều trường hợp sử dụng khác nhau, bao gồm trợ lý mua sắm, tác nhân nghiên cứu và tác nhân đặt vé du lịch—bất kỳ ứng dụng nào đòi hỏi thông tin kịp thời từ web.

Ví dụ: Hebbia⁠(mở trong cửa sổ mới) tận dụng công cụ tìm kiếm web để giúp các nhà quản lý tài sản, các quỹ đầu tư tư nhân và tổ chức tín dụng, cũng như các công ty luật nhanh chóng trích xuất thông tin chi tiết hữu ích từ các bộ dữ liệu công khai và riêng tư khổng lồ. Bằng cách tích hợp khả năng tìm kiếm ở thời gian thực vào quy trình nghiên cứu của mình, Hebbia cung cấp các thông tin thị trường phong phú hơn, phù hợp với từng bối cảnh cụ thể và liên tục cải thiện độ chính xác cũng như mức độ liên quan trong các phân tích của họ, vượt qua các tiêu chuẩn hiện tại.

Tính năng tìm kiếm web trong API được cung cấp bởi cùng một mô hình sử dụng cho tính năng tìm kiếm bằng ChatGPT. Trên SimpleQA, một bộ tiêu chuẩn đánh giá độ chính xác của các LLM trong việc trả lời các câu hỏi ngắn, dựa trên dữ kiện, phiên bản GPT‑4o search preview và GPT‑4o mini search preview đạt điểm số tương ứng là 90% và 88%.

Độ chính xác SimpleQA (càng cao càng tốt)

Các phản hồi được tạo bằng tính năng tìm kiếm web trong API bao gồm các liên kết đến nguồn, ví dụ như các bài báo và bài đăng trên blog, giúp người dùng có cách để tìm hiểu thêm. Với các trích dẫn rõ ràng, ngay trong nội dung này, người dùng có thể tương tác với thông tin theo một cách mới, trong khi các chủ sở hữu nội dung có thêm cơ hội tiếp cận với lượng khán giả rộng lớn hơn.

Bất kỳ trang web hoặc nhà xuất bản nào cũng có thể chọn để xuất hiện⁠(mở trong cửa sổ mới) trong kết quả tìm kiếm web của API này.

Công cụ tìm kiếm web này hiện đã có sẵn cho tất cả các nhà phát triển dưới dạng bản xem trước trong API phản hồi. Chúng tôi cũng đang cấp cho nhà phát triển quyền truy cập trực tiếp vào các mô hình tìm kiếm đã được tinh chỉnh trong API hoàn thiện hội thoại thông qua gpt-4o-search-preview và gpt-4o-mini-search-preview. Mức giá⁠(mở trong cửa sổ mới) khởi điểm tương ứng là $30 đô và $25 cho mỗi nghìn lượt truy vấn đối với GPT‑4o search và 4o-mini search. Hãy xem thử tính năng tìm kiếm web trong Playground⁠(mở trong cửa sổ mới) và tìm hiểu thêm trong tài liệu⁠(mở trong cửa sổ mới) của chúng tôi.

Tìm kiếm tệp

Giờ đây nhà phát triển có thể dễ dàng truy xuất thông tin liên quan từ khối lượng lớn các tài liệu bằng công cụ tìm kiếm tệp cải tiến. Với khả năng hỗ trợ nhiều loại tệp, tối ưu hóa truy vấn, lọc siêu dữ liệu và sắp xếp lại kết quả theo tiêu chí riêng, công cụ này có thể mang lại kết quả tìm kiếm nhanh chóng và chính xác. Và một lần nữa, với API phản hồi, việc tích hợp chỉ tốn vài dòng mã lệnh.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

Công cụ tìm kiếm tệp này có thể được ứng dụng vào nhiều trường hợp thực tế, bao gồm việc cho phép nhân viên hỗ trợ khách hàng dễ dàng truy cập các Câu hỏi thường gặp, giúp trợ lý pháp chế nhanh chóng tham chiếu các vụ việc trong quá khứ cho chuyên gia có thẩm quyền, và hỗ trợ một tác nhân lập trình truy vấn các tài liệu kỹ thuật. Ví dụ: Navan⁠(mở trong cửa sổ mới) sử dụng tính năng tìm kiếm tệp trong tác nhân du lịch có sự hỗ trợ của AI để nhanh chóng cung cấp cho người dùng câu trả lời chính xác từ các bài viết trong cơ sở tri thức (chẳng hạn như chính sách du lịch của công ty họ). Với khả năng tối ưu hóa truy vấn và sắp xếp lại kết quả được tích hợp sẵn, họ có thể thiết lập một quy trình RAG (Retrieval-Augmented Generation - Tạo sinh tăng cường nhờ truy xuất) mạnh mẽ mà không cần tinh chỉnh hay cấu hình thêm. Với các kho vector riêng cho từng nhóm người dùng, Navan có thể tùy chỉnh câu trả lời theo cài đặt tài khoản và vai trò của người dùng cá nhân, giúp tiết kiệm thời gian cho khách hàng cũng như nhân viên của họ, đồng thời cung cấp hỗ trợ chính xác và cá nhân hóa.

Công cụ này hiện có sẵn cho mọi nhà phát triển trong API phản hồi. Mức phí⁠(mở trong cửa sổ mới) sử dụng là $2,50 cho mỗi nghìn lượt truy vấn và phí lưu trữ tệp là $0,10/GB/ngày, miễn phí 1 GB đầu tiên. Công cụ này vẫn tiếp tục có mặt trong API trợ lý. Cuối cùng, chúng tôi cũng đã thêm một điểm cuối truy vấn mới vào các đối tượng của API cửa hàng Vector để bạn có thể trực tiếp truy vấn dữ liệu của mình và sử dụng trong các ứng dụng và API khác. Tìm hiểu thêm trong tài liệu⁠(mở trong cửa sổ mới) của chúng tôi và bắt đầu thử nghiệm trong Playground⁠(mở trong cửa sổ mới).

Sử dụng máy tính

Để xây dựng các tác nhân có khả năng hoàn thành tác vụ trên máy tính, giờ đây nhà phát triển có thể sử dụng công cụ thao tác máy tính trong API phản hồi, được hỗ trợ bởi cùng một mô hình Tác nhân sử dụng máy tính (CUA) đã làm nên Operator. Mô hình bản xem trước nghiên cứu này đã thiết lập một kỷ lục mới về hiệu suất, đạt 38,1% thành công trên OSWorld⁠(mở trong cửa sổ mới) cho các tác vụ sử dụng máy tính toàn diện, 58,1% trên WebArena⁠(mở trong cửa sổ mới), và 87% trên WebVoyager⁠(mở trong cửa sổ mới) cho các tương tác trên nền web.

Công cụ thao tác máy tính tích hợp sẵn sẽ ghi lại các thao tác chuột và bàn phím do mô hình tạo ra, cho phép nhà phát triển tự động hóa các tác vụ trên máy tính bằng cách trực tiếp chuyển đổi những thao tác này thành lệnh có thể thực thi bên trong môi trường của họ.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

Nhà phát triển có thể dùng công cụ này để tự động hóa các quy trình làm việc trên trình duyệt như thực hiện kiểm thử chất lượng trên ứng dụng web hoặc thực thi các tác vụ nhập liệu trên các hệ thống cũ. Ví dụ: Unify⁠(mở trong cửa sổ mới) là một hệ thống hành động giúp tăng trưởng doanh thu, sử dụng các tác nhân để nhận biết ý định, nghiên cứu khách hàng tiềm năng và tương tác với người mua. Sử dụng công cụ thao tác máy tính của OpenAI, các tác nhân của Unify có thể truy cập vào những thông tin trước đây không thể tiếp cận qua API—ví dụ như cho phép một công ty quản lý bất động sản xác minh qua bản đồ trực tuyến xem một doanh nghiệp có mở rộng quy mô mặt bằng hay không. Nghiên cứu này đóng vai trò như một tín hiệu tùy chỉnh để kích hoạt các chiến dịch tiếp cận cá nhân hóa—giúp các đội ngũ phát triển thị trường tương tác với người mua một cách chính xác với quy mô lớn.

Một ví dụ khác, Luminai⁠(mở trong cửa sổ mới) đã tích hợp công cụ thao tác máy tính để tự động hóa các quy trình vận hành phức tạp cho những doanh nghiệp lớn có hệ thống cũ, thiếu API và dữ liệu không được chuẩn hóa. Trong một chương trình thí điểm gần đây với một tổ chức dịch vụ cộng đồng lớn, Luminai đã tự động hóa quy trình xử lý đơn đăng ký và ghi danh người dùng chỉ trong vài ngày—điều mà công nghệ tự động hóa quy trình bằng robot (RPA) truyền thống phải mất nhiều tháng trời nỗ lực nhưng vẫn gặp khó khăn.

Trước khi ra mắt CUA trong Operator vào năm ngoái, chúng tôi đã tiến hành thử nghiệm an toàn và mô phỏng tấn công sâu rộng, tập trung vào ba khía cạnh rủi ro chính: sử dụng sai mục đích, lỗi của mô hình và rủi ro ranh giới. Để giải quyết các rủi ro liên quan đến việc mở rộng năng lực của Operator ra các hệ điều hành cục bộ thông qua CUA trong API, chúng tôi đã thực hiện các bài đánh giá an toàn và mô phỏng tấn công bổ sung. Chúng tôi cũng đã thêm vào các biện pháp giảm thiểu rủi ro cho nhà phát triển, bao gồm các bước kiểm tra an toàn để chống lại tấn công chèn câu lệnh, yêu cầu xác nhận đối với tác vụ nhạy cảm, các công cụ giúp nhà phát triển cô lập môi trường làm việc, và tăng cường phát hiện các vi phạm chính sách tiềm ẩn. Mặc dù các biện pháp này giúp giảm thiểu rủi ro, mô hình vẫn có thể mắc phải những lỗi không mong muốn, đặc biệt là trong các môi trường không phải trình duyệt. Ví dụ: hiệu năng của CUA trên OSWorld, một bộ tiêu chuẩn dùng để đo lường hiệu suất của các tác nhân AI trong những tác vụ thực tế, hiện đạt 38,1%. Điều này cho thấy mô hình chưa có độ tin cậy cao để tự động hóa các tác vụ trên hệ điều hành. Do đó, khuyến cáo nên có sự giám sát của con người trong những tình huống này. Thông tin chi tiết hơn về các biện pháp an toàn dành riêng cho API có thể tìm thấy trong thẻ hệ thống cập nhật.

Loại điểm chuẩn	Điểm chuẩn	Máy tính được sử dụng (giao diện chung)		Tác nhân duyệt web	Con người
		CUA của OpenAI	SOTA trước	SOTA trước
Máy tính được sử dụng	OSWorld	38,1%	22,0%	-	72,4%
Trình duyệt được sử dụng	WebArena	58,1%	36,2%	57,1%	78,2%
Trình duyệt được sử dụng	WebVoyager	87,0%	56,0%	87,0%	-

Chi tiết đánh giá được mô tả tại đây

Bắt đầu từ hôm nay, công cụ sử dụng máy tính sẽ có sẵn dưới dạng bản xem trước nghiên cứu trong API phản hồi cho một số nhà phát triển ở các bậc sử dụng từ 3 đến 5⁠(mở trong cửa sổ mới). Mức phí⁠(mở trong cửa sổ mới) sử dụng là $3 cho 1 triệu token đầu vào và $12 cho 1 triệu token đầu ra. Tìm hiểu thêm trong tài liệu⁠(mở trong cửa sổ mới) của chúng tôi và xem thử ứng dụng mẫu⁠(mở trong cửa sổ mới) để biết cách xây dựng với công cụ này.

SDK tác nhân

Ngoài việc xây dựng logic cốt lõi cho các tác nhân và cấp cho chúng quyền truy cập vào các công cụ để chúng trở nên hữu ích, các nhà phát triển còn phải điều phối các quy trình công việc của tác nhân. Bộ SDK tác nhân mã nguồn mở mới của chúng tôi giúp đơn giản hóa việc điều phối các quy trình công việc đa tác nhân và mang lại những cải tiến đáng kể so với Swarm⁠(mở trong cửa sổ mới), một SDK thử nghiệm mà chúng tôi đã phát hành năm ngoái, được cộng đồng nhà phát triển đón nhận rộng rãi và được nhiều khách hàng triển khai thành công.

Các cải tiến bao gồm:

Tác nhân: Các LLM dễ dàng cấu hình với hướng dẫn rõ ràng và công cụ tích hợp sẵn.
Bàn giao: Chuyển giao quyền kiểm soát một cách thông minh giữa các tác nhân.
Rào chắn an toàn: Các cơ chế kiểm tra an toàn có thể cấu hình để xác thực dữ liệu đầu vào và đầu ra.
Truy vết & Khả năng quan sát: Trực quan hóa các chuỗi thực thi của tác nhân nhằm gỡ lỗi và tối ưu hóa hiệu suất.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

SDK tác nhân này phù hợp với nhiều ứng dụng trong thực tế, bao gồm tự động hóa hỗ trợ khách hàng, nghiên cứu đa bước, sáng tạo nội dung, đánh giá mã và tìm kiếm khách hàng tiềm năng. Ví dụ: Coinbase⁠(mở trong cửa sổ mới) đã sử dụng SDK tác nhân để nhanh chóng tạo nguyên mẫu và triển khai AgentKit, một bộ công cụ cho phép các tác nhân AI tương tác liền mạch với ví tiền điện tử và nhiều hoạt động trên chuỗi khác. Chỉ trong vài giờ, Coinbase đã tích hợp các hành động tùy chỉnh từ SDK Nền tảng Nhà phát triển của họ vào một tác nhân đầy đủ chức năng. Kiến trúc tinh gọn của AgentKit đã đơn giản hóa quy trình thêm hành động mới cho tác nhân, giúp nhà phát triển tập trung hơn vào các tích hợp có ý nghĩa và ít bận tâm hơn cho việc xử lý các thiết lập tác nhân phức tạp.

Chỉ trong vài ngày, Box⁠(mở trong cửa sổ mới) đã có thể nhanh chóng tạo ra các tác nhân tận dụng tính năng tìm kiếm web và SDK tác nhân cho phép doanh nghiệp tìm kiếm, truy vấn và trích xuất thông tin chuyên sâu từ dữ liệu phi cấu trúc được lưu trữ trong Box và các nguồn internet công cộng. Cách tiếp cận này cho phép khách hàng không chỉ truy cập thông tin mới nhất mà còn tìm kiếm dữ liệu nội bộ, độc quyền của họ một cách an toàn và bảo mật, tuân thủ các quyền và chính sách bảo mật nội bộ. Ví dụ: một công ty dịch vụ tài chính có thể xây dựng một tác nhân tùy chỉnh, tác nhân này sẽ gọi đến tác nhân Box AI để tích hợp các phân tích thị trường nội bộ được lưu trong Box với tin tức ở thời gian thực và dữ liệu kinh tế từ web, cung cấp cho nhà phân tích của họ một cái nhìn toàn diện để đưa ra quyết định đầu tư.

SDK tác nhân hoạt động với API phản hồi và API hoàn thiện hội thoại. SDK cũng sẽ hoạt động với các mô hình từ những nhà cung cấp khác, miễn là họ cung cấp một điểm cuối API dạng Hoàn thiện hội thoại. Các nhà phát triển có thể tích hợp ngay lập tức SDK này vào cơ sở mã nguồn Python của mình, và phiên bản hỗ trợ Node.js sẽ sớm ra mắt. Tìm hiểu thêm trong tài liệu⁠(mở trong cửa sổ mới) của chúng tôi.

Khi thiết kế SDK tác nhân, đội ngũ của chúng tôi đã lấy cảm hứng từ những công trình xuất sắc của các thành viên khác trong cộng đồng, bao gồm Pydantic⁠(mở trong cửa sổ mới), Griffe⁠(mở trong cửa sổ mới) và MkDocs⁠(mở trong cửa sổ mới). Chúng tôi cam kết tiếp tục xây dựng SDK tác nhân như một khung mã nguồn mở để những người khác trong cộng đồng có thể mở rộng dựa trên phương pháp tiếp cận của chúng tôi.

Bước tiếp theo: xây dựng nền tảng cho tác nhân

Chúng tôi tin rằng các tác nhân sẽ sớm trở thành một phần không thể thiếu của lực lượng lao động, giúp nâng cao đáng kể năng suất trong mọi ngành nghề. Trong bối cảnh các công ty ngày càng tìm cách tận dụng AI cho những tác vụ phức tạp, chúng tôi cam kết cung cấp các "khối xây dựng" nền tảng, cho phép nhà phát triển và doanh nghiệp xây dựng các hệ thống tự hành hiệu quả và mang lại tác động thực tiễn.

Với các bản phát hành hôm nay, chúng tôi giới thiệu những "khối xây dựng" đầu tiên nhằm trao quyền cho các nhà phát triển và doanh nghiệp để có thể xây dựng, triển khai và mở rộng quy mô các tác nhân AI đáng tin cậy, hiệu suất cao một cách dễ dàng hơn. Khi những năng lực của mô hình ngày càng mang tính chất tác nhân hơn, chúng tôi sẽ tiếp tục đầu tư vào việc tích hợp sâu hơn trên các API của mình cũng như các công cụ mới để giúp triển khai, đánh giá và tối ưu hóa tác nhân trong môi trường vận hành thực tế. Mục tiêu của chúng tôi là mang đến cho nhà phát triển một trải nghiệm nền tảng liền mạch để xây dựng các tác nhân có thể hỗ trợ nhiều loại tác vụ khác nhau trong bất cứ ngành nghề nào. Chúng tôi rất mong chờ những sản phẩm đột phá mà các nhà phát triển sẽ tạo ra trong tương lai. Để bắt đầu, hãy khám phá tài liệu⁠(mở trong cửa sổ mới) của chúng tôi và theo dõi để sớm biết thêm thông tin cập nhật.

Tác giả

OpenAI