ChatGPT giờ đây có thể nhìn, nghe và nói

Chúng tôi đang bắt đầu triển khai các tính năng mới về giọng nói và hình ảnh trong ChatGPT. Những tính năng này mang đến một giao diện mới mẻ, trực quan hơn, cho phép bạn trò chuyện bằng giọng nói hoặc cho ChatGPT xem trực tiếp điều bạn đang đề cập.
Giọng nói và hình ảnh mở ra nhiều cách thức hơn để bạn sử dụng ChatGPT trong cuộc sống hằng ngày. Chụp ảnh một địa danh khi đi du lịch và trò chuyện trực tiếp những điều thú vị về địa danh đó. Khi về nhà, chụp ảnh tủ lạnh và căn bếp để tìm ý tưởng nấu món gì cho bữa tối (và đặt thêm câu hỏi để nhận công thức làm từng bước). Sau bữa tối, giúp con giải bài tập toán bằng cách chụp ảnh, khoanh tròn câu hỏi rồi để ChatGPT đưa ra gợi ý.
Chúng tôi sẽ triển khai tính năng giọng nói và hình ảnh trong ChatGPT dành cho người dùng Plus và Enterprise trong vòng hai tuần tới. Tính năng giọng nói sẽ có mặt trên iOS và Android (bạn có thể bật trong phần cài đặt), tính năng hình ảnh sẽ được hỗ trợ trên mọi nền tảng.
Giờ đây bạn có thể sử dụng giọng nói để tương tác hai chiều với trợ lý của mình. Nói chuyện cùng ChatGPT khi đang di chuyển, yêu cầu kể chuyện cho gia đình trước giờ đi ngủ hoặc giải quyết tranh luận tại bàn ăn.
Sử dụng giọng nói để tương tác qua lại với trợ lý của bạn.
Để bắt đầu sử dụng giọng nói, vào mục Cài đặt → Tính năng mới trên ứng dụng di động và chọn bật trò chuyện bằng giọng nói. Sau đó, chạm vào nút tai nghe ở góc trên bên phải màn hình chính và chọn giọng nói yêu thích trong số năm giọng nói khác nhau.
Tính năng giọng nói mới được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói tiên tiến, có khả năng tạo ra âm thanh giống giọng người thật chỉ từ văn bản và vài giây mẫu giọng nói. Chúng tôi đã hợp tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra từng giọng nói này. Chúng tôi cũng sử dụng Whisper, hệ thống nhận dạng giọng nói mã nguồn mở để chuyển lời bạn nói thành văn bản.
Giờ đây bạn có thể gửi cho ChatGPT một hoặc nhiều hình ảnh. Bạn có thể tìm nguyên nhân vì sao bếp nướng không bật được, khám phá những gì có trong tủ lạnh để lên kế hoạch nấu ăn hoặc phân tích biểu đồ phức tạp liên quan đến công việc. Nếu muốn tập trung vào một phần cụ thể của hình ảnh, bạn có thể dùng công cụ vẽ trên ứng dụng di động của chúng tôi.
Gửi một hoặc nhiều hình ảnh cho ChatGPT.
Để bắt đầu, hãy chạm vào nút ảnh để chụp hoặc chọn một hình ảnh. Nếu bạn sử dụng iOS hoặc Android, trước tiên hãy chạm vào nút dấu cộng. Bạn cũng có thể thảo luận về nhiều hình ảnh hoặc sử dụng công cụ vẽ của chúng tôi để hướng dẫn trợ lý của bạn.
Việc hiểu hình ảnh được hỗ trợ bởi các mô hình đa phương thức GPT‑3.5 và GPT‑4. Những mô hình này vận dụng khả năng suy luận ngôn ngữ để xử lý đa dạng các loại hình ảnh, như ảnh chụp, ảnh màn hình và tài liệu có cả văn bản lẫn hình ảnh.
Mục tiêu của OpenAI là xây dựng AGI an toàn và hữu ích. Chúng tôi tin vào việc cung cấp công cụ một cách từ từ nhằm liên tục cải tiến và hoàn thiện các biện pháp giảm thiểu rủi ro đồng thời chuẩn bị cho mọi người đón nhận những hệ thống mạnh mẽ hơn trong tương lai. Chiến lược này càng trở nên quan trọng với các mô hình tiên tiến có tích hợp cả giọng nói và hình ảnh.
Công nghệ giọng nói mới có khả năng tạo ra các giọng tổng hợp chân thực chỉ từ vài giây thu âm thực tế, mở ra nhiều ứng dụng sáng tạo và nâng cao khả năng tiếp cận. Tuy nhiên, những khả năng này cũng kéo theo rủi ro mới, chẳng hạn kẻ xấu có thể giả mạo nhân vật công chúng hoặc thực hiện hành vi gian lận.
Đây là lý do tại sao chúng tôi sử dụng công nghệ này cho một trường hợp cụ thể là trò chuyện bằng giọng nói. Tính năng chat bằng giọng nói được phát triển cùng các diễn viên lồng tiếng mà chúng tôi đã hợp tác trực tiếp. Chúng tôi cũng đang phối hợp tương tự với những đối tác khác. Ví dụ: Spotify sử dụng công nghệ này trong giai đoạn thử nghiệm tính năng Dịch giọng nói(mở trong cửa sổ mới), giúp người làm podcast mở rộng phạm vi tiếp cận câu chuyện bằng cách dịch podcast sang nhiều ngôn ngữ khác nhau với chính giọng đọc của người đọc podcast.
Các mô hình dựa trên hình ảnh cũng đặt ra nhiều thách thức mới, từ các sai lệch về nhận diện người cho đến việc phụ thuộc vào cách mô hình diễn giải hình ảnh trong những lĩnh vực có tính chất quan trọng cao. Trước khi triển khai rộng rãi, chúng tôi đã thử nghiệm mô hình với các nhóm đánh giá rủi ro trong những lĩnh vực như chủ nghĩa cực đoan và chuyên môn khoa học cũng như với nhiều nhóm thử nghiệm alpha đa dạng. Nghiên cứu này giúp chúng tôi thống nhất một số điểm quan trọng cho việc sử dụng có trách nhiệm.
Giống như các tính năng khác của ChatGPT, hình ảnh là nhằm hỗ trợ người dùng trong cuộc sống hằng ngày. Tính năng này phát huy hiệu quả nhất khi nó có thể “nhìn thấy” những gì người dùng nhìn thấy.
Cách tiếp cận này được hình thành trực tiếp từ quá trình hợp tác với Be My Eyes, một ứng dụng di động miễn phí dành cho người khiếm thị và người có thị lực kém nhằm hiểu rõ hơn về các cách sử dụng và giới hạn của công nghệ. Người dùng chia sẻ rằng họ thấy rất hữu ích khi có thể trò chuyện chung chung về những hình ảnh có người xuất hiện trong phông nền, giống như khi ai đó xuất hiện trên TV trong lúc bạn đang cố gắng điều chỉnh cài đặt điều khiển từ xa.
Chúng tôi cũng đã áp dụng các biện pháp kỹ thuật để hạn chế đáng kể khả năng của ChatGPT trong việc phân tích và đưa ra nhận định trực tiếp về con người bởi ChatGPT không phải lúc nào cũng chính xác và hệ thống cần tôn trọng quyền riêng tư của cá nhân.
Việc sử dụng thực tế và phản hồi từ người dùng sẽ giúp chúng tôi hoàn thiện hơn các biện pháp bảo vệ này đồng thời giữ cho công cụ luôn hữu dụng.
Người dùng có thể dựa vào ChatGPT cho các chủ đề chuyên sâu, ví dụ trong lĩnh vực nghiên cứu. Chúng tôi minh bạch về các hạn chế của mô hình và khuyến cáo không nên dùng cho những trường hợp có rủi ro cao nếu chưa có sự xác minh phù hợp. Ngoài ra, mô hình có khả năng chuyển đổi văn bản tiếng Anh rất tốt nhưng lại hoạt động kém với một số ngôn ngữ khác, đặc biệt là những ngôn ngữ không dùng chữ Latinh. Chúng tôi khuyên người dùng không nói tiếng Anh không nên sử dụng ChatGPT cho mục đích này.
Bạn có thể đọc thêm về cách tiếp cận của chúng tôi đối với vấn đề an toàn và sự hợp tác của chúng tôi với Be My Eyes trong thẻ hệ thống về đầu vào bằng hình ảnh.
Người dùng gói Plus và Enterprise sẽ được trải nghiệm các tính năng giọng nói và hình ảnh trong vòng hai tuần tới. Chúng tôi rất vui mừng khi sắp mang các tính năng này đến với nhiều nhóm người dùng khác, bao gồm cả các nhà phát triển ngay sau đó.
Tác giả
Lời cảm ơn
Voice mode core research
Alec Radford, Tao Xu, Jong Wook Kim
Vision deployment core research
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


