Ra mắt gpt-realtime và cập nhật API thời gian thực cho các tác nhân tạo giọng nói
Chúng tôi đang triển khai mô hình chuyển giọng nói thành giọng nói tiên tiến hơn cùng các khả năng mới của API, bao gồm hỗ trợ máy chủ MCP, nhập dữ liệu hình ảnh, và hỗ trợ gọi điện thoại SIP.

Hôm nay, chúng tôi ra mắt API thời gian thực cùng các tính năng mới, giúp các nhà phát triển và doanh nghiệp xây dựng các tác nhân tạo giọng nói đáng tin cậy. API hiện hỗ trợ các máy chủ MCP từ xa, nhập dữ liệu hình ảnh, và gọi điện thoại qua Giao thức bắt đầu phiên (SIP), giúp các tác nhân giọng nói vận hành hiệu quả hơn nhờ được tiếp cận thêm công cụ và ngữ cảnh.
Chúng tôi cũng ra mắt gpt-realtime, mô hình chuyển giọng nói thành giọng nói tiên tiến nhất của mình. Mô hình mới này cho thấy nhiều cải thiện về khả năng tuân thủ các hướng dẫn phức tạp, gọi công cụ một cách chính xác, và tạo lời nói tự nhiên và giàu biểu cảm hơn. Mô hình này diễn giải tốt hơn các thông điệp của hệ thống và lời nhắc mà lập trình viên đưa ra - dù là đọc nguyên văn các tuyên bố từ chối trách nhiệm trong cuộc gọi hỗ trợ, nhắc lại chính xác các chuỗi chữ-số, hay chuyển đổi linh hoạt giữa các ngôn ngữ ngay trong cùng một câu. Từ hôm nay, chúng tôi cũng ra mắt hai giọng nói mới là Cedar và Marin, được cung cấp độc quyền trên API thời gian thực.
Kể từ khi chúng tôi ra mắt công khai bản beta của API thời gian thực vào tháng 10 năm ngoái, hàng nghìn nhà phát triển đã sử dụng API này và đóng góp vào những cải tiến mà chúng tôi giới thiệu hôm nay, bao gồm tối ưu hóa giúp đảm bảo tin cậy, độ trễ thấp, và chất lượng cao, từ đó thành công triển khai các tác nhân tạo giọng nói. Khác với quy trình phát triển truyền thống là tạo ra chuỗi các mô hình để chuyển giọng nói thành văn bản rồi từ văn bản thành giọng nói, API thời gian thực xử lý và tạo âm thanh trực tiếp qua một mô hình và API duy nhất. Điều này giúp giảm độ trễ, bảo toàn sắc thái của lời nói, và tạo phản hồi tự nhiên, giàu biểu cảm hơn.
"Mô hình chuyển giọng nói thành giọng nói mới trong API thời gian thực của OpenAI thể hiện khả năng lập luận vượt trội và giọng nói tự nhiên hơn, cho phép xử lý các yêu cầu phức tạp và nhiều bước, chẳng hạn như lọc danh sách dựa trên nhu cầu theo phong cách sống hoặc dẫn dắt các cuộc thảo luận về khả năng chi trả với các công cụ như chỉ số BuyAbility của chúng tôi. Điều này có thể khiến việc tìm nhà trên Zillow hoặc khám phá các lựa chọn tài chính trở nên tự nhiên hơn, như là trò chuyện với bạn bè, giúp đơn giản hóa các quyết định như mua, bán, hay thuê nhà."
– Josh Weisberg, Giám đốc AI tại Zillow
Mô hình mới giúp chuyển giọng nói thành giọng nói gpt-realtime là mô hình tạo giọng nói tiên tiến nhất của chúng tôi. Chúng tôi hợp tác chặt chẽ với khách hàng khi huấn luyện mô hình này để có thể thực hiện xuất sắc các tác vụ thực tế như hỗ trợ khách hàng, làm trợ lý cá nhân, và giáo dục; đồng thời đảm bảo mô hình phù hợp với cách thức các nhà phát triển xây dựng và triển khai các tác nhân giọng nói. Mô hình này cho thấy cải tiến về chất lượng âm thanh, trí thông minh, tuân theo hướng dẫn, và gọi hàm.
Trò chuyện bằng âm thanh tự nhiên có ý nghĩa cực kỳ quan trọng khi triển khai các tác nhân giọng nói trong thực tế. Các mô hình cần nói với ngữ điệu, cảm xúc, và nhịp điệu như con người để tạo ra trải nghiệm thú vị và khuyến khích người dùng tiếp tục trò chuyện. Chúng tôi đã huấn luyện gpt-realtime để tạo ra giọng nói chất lượng cao hơn, nghe tự nhiên hơn và có thể tuân theo các hướng dẫn chi tiết, chẳng hạn như “nói nhanh và chuyên nghiệp” hoặc “nói với giọng cảm thông bằng ngữ điệu tiếng Pháp”.
Chúng tôi ra mắt hai giọng nói mới trong API là Marin và Cedar, mang đến những cải tiến lớn nhất về khả năng tạo giọng nói tự nhiên. Chúng tôi cũng đang cập nhật tám giọng nói hiện có để tận dụng những cải tiến này.
Mô hình gpt-realtime cho thấy trí thông minh cao hơn và có thể hiểu âm thanh bản địa một cách chính xác hơn. Mô hình này có thể nhận biết các tín hiệu phi ngôn từ (như tiếng cười), chuyển đổi ngôn ngữ ngay giữa câu, và điều chỉnh giọng điệu ("linh hoạt và chuyên nghiệp” hay “tử tế và cảm thông”). Theo các đánh giá nội bộ, mô hình này cũng cho thấy khả năng nhận diện chuỗi ký tự chữ-số (như số điện thoại, VIN, v.v.) chính xác hơn trong các ngôn ngữ khác, bao gồm tiếng Tây Ban Nha, tiếng Trung Quốc, tiếng Nhật, và tiếng Pháp. Trong bài đánh giá Big Bench Audio đo lường khả năng lập luận, gpt-realtime đạt độ chính xác 82,8%, vượt qua cả mô hình trước đó của chúng tôi từ tháng 12/2024, chỉ đạt 65,6%.
Big Bench Audio(mở trong cửa sổ mới) là một bộ dữ liệu đánh giá dùng để đo lường khả năng lập luận của các mô hình ngôn ngữ có hỗ trợ nhập dữ liệu âm thanh. Bộ dữ liệu này chuyển các câu hỏi từ Big Bench Hard, vốn được lựa chọn nhờ khả năng kiểm tra nghiêm ngặt năng lực lập luận nâng cao, sang miền âm thanh.
Khi xây dựng ứng dụng chuyển giọng nói thành giọng nói, các nhà phát triển cung cấp cho mô hình một bộ hướng dẫn về ứng xử, bao gồm cách nói, cần nói những gì trong một tình huống cụ thể, và những gì nên hoặc không nên nói. Chúng tôi tập trung cải thiện khả năng tuân theo hướng dẫn để ngay cả những chỉ dẫn nhỏ cũng có thể giúp mô hình hiểu rõ hơn. Trong bài đánh giá MultiChallenge Audio đo lường độ chính xác khi tuân theo hướng dẫn, gpt-realtime đạt 30,5%, cải thiện đáng kể so với kết quả 20,6% vào tháng 12 năm 2024 của mô hình trước đó.
MultiChallenge(mở trong cửa sổ mới) đánh giá khả năng các mô hình ngôn ngữ lớn (LLM) xử lý cuộc trò chuyện nhiều lượt với con người. Tập trung vào bốn loại thách thức thực tế mà các mô hình tiên tiến hiện vẫn gặp khó khăn. Những thách thức này đòi hỏi các mô hình phải kết hợp đồng thời việc tuân theo hướng dẫn, quản lý ngữ cảnh, và lập luận dựa theo ngữ cảnh. Chúng tôi đã chuyển một tập hợp con các câu hỏi kiểm tra thân thiện với âm thanh từ văn bản sang giọng nói để tạo phiên bản đánh giá dưới dạng âm thanh.
Để xây dựng được một tác nhân giọng nói hiệu quả với mô hình chuyển giọng nói thành giọng nói, mô hình đó cần có khả năng gọi đúng công cụ vào đúng thời điểm để vận hành hiệu quả trong môi trường thực tế. Chúng tôi đã cải thiện khả năng gọi hàm theo ba trục: gọi các hàm liên quan, gọi hàm vào thời điểm phù hợp, và gọi hàm với các đối số đúng (tăng mức độ chính xác). Trong bài đánh giá âm thanh ComplexFuncBench đo lường hiệu suất gọi hàm, gpt-realtime đạt 66,5% so với kết quả 49,7% vào tháng 12 năm 2024 của mô hình trước đó.
Chúng tôi cũng đã cải thiện khả năng gọi hàm bất đồng bộ(mở trong cửa sổ mới). Các cuộc gọi hàm kéo dài sẽ không còn làm gián đoạn phiên làm việc, và mô hình này có thể tiếp tục trò chuyện mượt mà trong khi chờ kết quả. Tính năng này có sẵn trong gpt-realtime, vì vậy các nhà phát triển không cần phải cập nhật mã của mình.
ComplexFuncBench(mở trong cửa sổ mới) đo lường khả năng mô hình xử lý các tác vụ gọi hàm phức tạp. Đánh giá hiệu suất trong các tình huống như gọi hàm nhiều bước, lập luận về các ràng buộc hoặc tham số ngầm định, và xử lý các dữ liệu đầu vào rất dài. Chúng tôi đã chuyển các lời nhắc văn bản gốc sang giọng nói để xây dựng bài đánh giá này cho mô hình của mình.
Bạn có thể bật hỗ trợ MCP trong một phiên hoạt động của API thời gian thực bằng cách truyền URL của máy chủ MCP từ xa vào cấu hình của phiên làm việc. Sau khi kết nối, API tự động đảm nhận việc gọi công cụ để bạn không phải tự tay thiết lập tích hợp.
Cấu hình này giúp bạn dễ dàng mở rộng các tính năng mới cho tác nhân của mình, chỉ cần trỏ phiên làm việc đến một máy chủ MCP khác, và các công cụ đó sẽ khả dụng ngay lập tức. Để tìm hiểu thêm về cấu hình MCP với Realtime, hãy tham khảo hướng dẫn này(mở trong cửa sổ mới).
Giờ đây, gpt-realtime đã hỗ trợ nhập dữ liệu hình ảnh, cho phép bạn bổ sung ảnh, ảnh chụp, hoặc ảnh chụp màn hình bên cạnh âm thanh hay văn bản trong một phiên làm việc với API thời gian thực. Giờ đây, mô hình này có thể liên kết trực tiếp cuộc trò chuyện với những gì người dùng đang thấy, giúp người dùng đặt các câu hỏi như “bạn thấy gì?” hay “đọc văn bản trong ảnh chụp màn hình này".
Thay vì xử lý ảnh như một video trực tiếp, hệ thống hành xử tương tự như việc thêm một bức ảnh vào cuộc trò chuyện. Ứng dụng của bạn có thể lựa chọn sẽ gửi hình ảnh nào cho mô hình, cũng như khi nào sẽ chia sẻ hình ảnh đó. Bằng cách này, bạn có thể làm chủ việc mô hình thấy gì và lúc nào đưa ra phản hồi.
Tìm hiểu tài liệu(mở trong cửa sổ mới) của chúng tôi trước khi bắt đầu nhập dữ liệu đầu vào hình ảnh.
Chúng tôi đã bổ sung một vài tính năng khác nhằm đơn giản hóa việc tích hợp API thời gian thực cũng như tăng mức độ linh hoạt khi triển khai thực tế.
- Hỗ trợ giao thức khởi động phiên (SIP): Kết nối ứng dụng của bạn với mạng điện thoại công cộng, hệ thống PBX, điện thoại bàn, và các điểm cuối SIP khác nhờ được hỗ trợ trực tiếp trong API thời gian thực. Tìm hiểu qua các tài liệu.(mở trong cửa sổ mới)
- Lời nhắc có thể tái sử dụng: Giờ đây bạn có thể lưu lại và tái sử dụng các lời nhắc, bao gồm thông điệp của nhà phát triển, công cụ, các biến, và ví dụ về hội thoại của người dùng/trợ lý, cho nhiều phiên làm việc của API thời gian thực, tương tự như trong API phản hồi. Đọc tài liệu để tìm hiểu thêm.(mở trong cửa sổ mới)
API thời gian thực tích hợp nhiều lớp bảo vệ và giảm thiểu rủi ro để ngăn chặn việc lạm dụng. Bạn có thể tìm hiểu thêm về cách đảm bảo an toàn của chúng tôi và chi tiết thẻ hệ thống trong nhật ký công bố beta. Chúng tôi sử dụng các bộ phân loại chủ động trong các phiên làm việc của API thời gian thực, tức là một số cuộc trò chuyện có thể bị dừng lại nếu phát hiện vi phạm nguyên tắc về nội dung gây hại của chúng tôi. Các nhà phát triển cũng có thể dễ dàng bổ sung thêm các lớp bảo vệ an toàn bằng cách sử dụng SDK tác nhân(mở trong cửa sổ mới).
Chính sách sử dụng của chúng tôi nghiêm cấm sử dụng lại hoặc phân phối các kết quả từ dịch vụ của chúng tôi cho mục đích gửi thư rác, lừa đảo, hoặc gây hại khác. Các nhà phát triển cũng phải thông báo rõ cho người dùng cuối biết nếu họ đang tương tác với AI, trừ khi có thể nhận ra điều này rõ ràng khi nhìn vào ngữ cảnh. API thời gian thực sử dụng các giọng nói được thiết lập sẵn để giúp ngăn chặn hành vi giả mạo người khác với mục đích xấu.
API thời gian thực hỗ trợ đầy đủ chính sách lưu trữ dữ liệu của Liên minh châu Âu(mở trong cửa sổ mới) cho các ứng dụng đặt tại Liên minh Châu Âu và được bảo đảm bằng các cam kết về quyền riêng tư doanh nghiệp của chúng tôi.
Bắt đầu từ hôm nay, API thời gian thực bản phát hành chung và mô hình gpt-realtime mới được cung cấp cho tất cả nhà phát triển. Chúng tôi giảm giá gpt-realtime 20% so với gpt-4o-realtime-preview - chỉ còn $32/1 triệu token âm thanh đầu vào ($0,4 cho token đầu vào được lưu vào bộ nhớ tạm) và $64/1 triệu token âm thanh đầu ra (xem chi tiết tại mục mức giá (mở trong cửa sổ mới)). Ngoài ra, chúng tôi có thêm tính năng kiểm soát ngữ cảnh hội thoại một cách tinh vi, để nhà phát triển có thể thiết lập giới hạn token thông minh và cắt ngắn nhiều lượt trò chuyện cùng lúc, từ đó tiết kiệm đáng kể chi phí cho các phiên trò chuyện dài.
Để bắt đầu, xin truy cập tài liệu về API thời gian thực(mở trong cửa sổ mới), thử nghiệm mô hình mới trong Playground(mở trong cửa sổ mới), và xem hướng dẫn về viết lời nhắc cho API thời gian thực(mở trong cửa sổ mới) của chúng tôi.


