Bỏ qua nội dung chính
OpenAI

Tất cả video trên trang này đều được tạo trực tiếp bởi Sora, không qua chỉnh sửa.

Đang tải…

Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật lý vận động với mục tiêu huấn luyện các mô hình có thể hỗ trợ con người giải quyết những vấn đề đòi hỏi tương tác thực tế.

Giới thiệu Sora, mô hình tạo video từ văn bản. Sora có thể tạo ra các video dài tới một phút, giữ được chất lượng hình ảnh và bám sát yêu cầu của người dùng.

Hôm nay, Sora bắt đầu được cung cấp cho nhóm mô phỏng cuộc tấn công mạng nhằm kiểm tra các khía cạnh quan trọng liên quan đến nguy cơ hoặc tác hại tiềm ẩn. Chúng tôi cũng đang cấp quyền truy cập cho một số họa sĩ, nhà thiết kế và nhà làm phim nhằm thu thập phản hồi về cách cải tiến mô hình để phục vụ hiệu quả nhất cho các chuyên gia sáng tạo.

Chúng tôi chia sẻ sớm tiến trình nghiên cứu để bắt đầu hợp tác và đón nhận phản hồi từ các cá nhân bên ngoài OpenAI, đồng thời giúp công chúng hình dung về những khả năng mà AI có thể đạt được trong tương lai gần.

Sora có khả năng tạo ra những cảnh phức tạp với nhiều nhân vật, các loại chuyển động đặc thù và chi tiết chính xác về đối tượng lẫn phông nền. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong đoạn mô tả mà còn nắm rõ sự tồn tại của những yếu tố đó trong thế giới vật lý.

Mô hình có khả năng hiểu sâu sắc ngôn ngữ, giúp nó giải nghĩa chính xác các yêu cầu và tạo ra những nhân vật sống động thể hiện cảm xúc phong phú. Sora cũng có thể tạo ra nhiều cảnh quay trong cùng một video, đồng thời giữ nguyên chính xác nhân vật và phong cách hình ảnh.

Mô hình hiện tại vẫn còn nhiều dư địa để cải thiện. Nó có thể gặp khó khăn khi mô phỏng vật lý trong những cảnh phức tạp và có thể chưa hiểu rõ mối quan hệ nhân quả trong các tình huống cụ thể (chẳng hạn: một chiếc bánh quy có thể không hề xuất hiện dấu vết sau khi nhân vật cắn vào). Mô hình cũng có thể nhầm lẫn các chi tiết không gian được nêu trong lời nhắc, chẳng hạn như phân biệt trái với phải hoặc gặp khó khăn khi mô tả chính xác các sự kiện diễn ra theo trình tự thời gian, như quỹ đạo di chuyển cụ thể của máy quay.

Safety

Chúng tôi sẽ thực hiện một số bước an toàn quan trọng trước khi đưa Sora vào các sản phẩm của OpenAI. Chúng tôi đang hợp tác với nhóm mô phỏng cuộc tấn công mạng — những người có chuyên môn trong các lĩnh vực như thông tin sai lệch, nội dung thù địch và thiên kiến — để tiến hành kiểm thử mô hình một cách khắt khe.

Chúng tôi cũng đang phát triển các công cụ giúp phát hiện nội dung gây hiểu lầm, chẳng hạn như bộ phân loại có khả năng nhận biết khi nào một video được tạo ra bởi Sora. Chúng tôi dự định tích hợp siêu dữ liệu C2PA(mở trong cửa sổ mới) trong tương lai nếu triển khai mô hình trong sản phẩm của OpenAI.

Bên cạnh việc phát triển các kỹ thuật mới để chuẩn bị cho việc triển khai, chúng tôi còn tận dụng những phương pháp an toàn(mở trong cửa sổ mới) hiện có đã xây dựng cho các sản phẩm sử dụng DALL·E 3, đồng thời áp dụng chúng cho Sora.

Chẳng hạn, khi được tích hợp vào sản phẩm của OpenAI, bộ phân loại văn bản của chúng tôi sẽ kiểm tra và từ chối các lời nhắc đầu vào vi phạm chính sách sử dụng, chẳng hạn như yêu cầu nội dung bạo lực cực đoan, tình dục, hình ảnh thù địch, giả mạo người nổi tiếng hoặc vi phạm quyền sở hữu trí tuệ của người khác. Chúng tôi cũng đã phát triển những bộ phân loại hình ảnh mạnh mẽ để kiểm duyệt từng khung hình trong mỗi video được tạo ra, nhằm đảm bảo nội dung tuân thủ chính sách sử dụng trước khi hiển thị tới người dùng.

Chúng tôi sẽ phối hợp với các nhà hoạch định chính sách, chuyên gia giáo dục và nghệ sĩ trên khắp thế giới để lắng nghe những mối quan tâm của họ và tìm ra những ứng dụng tích cực cho công nghệ mới này. Dù đã tiến hành nghiên cứu và thử nghiệm kỹ lưỡng, chúng tôi không thể dự đoán hết tất cả các cách mà người dùng sẽ tận dụng công nghệ này một cách có lợi, cũng như không thể lường trước được mọi hình thức lạm dụng có thể xảy ra. Đó là lý do chúng tôi tin rằng việc học hỏi từ trải nghiệm thực tế là yếu tố then chốt trong việc phát triển và ra mắt những hệ thống AI ngày càng an toàn hơn theo thời gian.

Kỹ thuật nghiên cứu

Sora là một mô hình khuếch tán, tạo ra video bằng cách bắt đầu từ hình ảnh giống như nhiễu tĩnh và dần dần biến đổi nó qua nhiều bước bằng cách loại bỏ nhiễu.

Sora có khả năng tạo ra toàn bộ video cùng lúc hoặc kéo dài những video đã được tạo để làm chúng dài hơn. Bằng cách cho mô hình dự đoán nhiều khung hình cùng lúc, chúng tôi đã giải quyết được vấn đề khó khăn là đảm bảo một đối tượng vẫn giữ nguyên dù có lúc tạm thời biến mất khỏi khung hình.

Tương tự như các mô hình GPT, Sora sử dụng kiến trúc transformer, mở ra khả năng mở rộng hiệu suất vượt trội.

Chúng tôi biểu diễn video và hình ảnh dưới dạng tập hợp các đơn vị dữ liệu nhỏ hơn gọi là các mảnh, mỗi mảnh tương tự như một token trong GPT. Bằng cách thống nhất cách biểu diễn dữ liệu, chúng tôi có thể huấn luyện các mô hình transformer khuếch tán trên nhiều loại dữ liệu hình ảnh đa dạng hơn trước đây, bao gồm các độ dài, độ phân giải và tỉ lệ khung hình khác nhau.

Sora được phát triển dựa trên các nghiên cứu trước đây về các mô hình DALL·E và GPT. Sora sử dụng kỹ thuật đặt lại chú thích từ DALL·E 3, bao gồm việc tạo ra các chú thích mô tả chi tiết cho dữ liệu hình ảnh dùng trong huấn luyện. Nhờ đó, mô hình có thể thực hiện chính xác hơn các hướng dẫn bằng văn bản của người dùng trong video được tạo ra.

Ngoài khả năng tạo video hoàn toàn từ hướng dẫn bằng văn bản, mô hình còn có thể lấy một hình ảnh tĩnh có sẵn và tạo thành video, làm sống động nội dung hình ảnh với độ chính xác cao và chú ý đến từng chi tiết nhỏ. Mô hình này cũng có thể lấy một video có sẵn rồi kéo dài hoặc bổ sung các khung hình còn thiếu. Tìm hiểu thêm trong báo cáo kỹ thuật của chúng tôi.

Sora đóng vai trò nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà chúng tôi tin sẽ là cột mốc quan trọng trên con đường đạt được AGI.

Đang tải...