Sora 2 ra mắt
Mô hình tạo video mới nhất của chúng tôi chính xác hơn về mặt vật lý, chân thực hơn và dễ kiểm soát hơn so với các hệ thống trước đây. Mô hình này còn có hội thoại và hiệu ứng âm thanh được đồng bộ hóa. Sáng tạo với ứng dụng Sora mới.
Kể từ ngày 26 tháng 4 năm 2026, sản phẩm Sora không còn khả dụng.
Hôm nay, chúng tôi phát hành Sora 2, mô hình chủ lực tạo video và âm thanh của chúng tôi.
Xét về nhiều phương diện, mô hình Sora nguyên gốc ra mắt vào Ngày 02 tháng 02 năm 2024 là khoảnh khắc GPT‑1 đối với video—lần đầu tiên việc tạo video bắt đầu cho thấy có hiệu quả, và những hành vi đơn giản như tính thường trực của vật thể đã xuất hiện từ việc mở rộng quy mô tính toán cho đào tạo trước. Kể từ đó đến nay, đội ngũ Sora đã tập trung vào việc huấn luyện các mô hình có khả năng mô phỏng thế giới tiên tiến hơn. Chúng tôi tin rằng những hệ thống như vậy sẽ đóng vai trò cực kỳ quan trọng trong việc huấn luyện các mô hình AI để hiểu sâu về thế giới thực. Một cột mốc quan trọng cho điều này là làm chủ các quy trình đào tạo trước và đào tạo sau trên dữ liệu video quy mô lớn, vốn vẫn còn ở giai đoạn sơ khai so với dữ liệu ngôn ngữ.
Prompt: figure skater performs a triple axle with a cat on her head
Nhờ Sora 2, chúng tôi hướng thẳng tới bước ngoặt lớn dành cho video, tương tự như GPT‑3.5. Sora 2 có thể thực hiện những điều cực kỳ khó—và trong một số trường hợp là hoàn toàn không thể—đối với các mô hình tạo video trước đây: các bài thể dục dụng cụ Olympic, những cú lộn ngược trên ván chèo mô phỏng chính xác động lực học của lực nổi và độ cứng, và các cú nhảy ba vòng Axel trong khi một chú mèo bám chặt để giữ an toàn.
Prompt: a guy does a backflip
Các mô hình video trước đây quá lạc quan—chúng sẽ biến đổi hình dạng các vật thể và bóp méo thực tế để thực hiện thành công một câu lệnh văn bản. Chẳng hạn, nếu một cầu thủ bóng rổ ném hỏng, quả bóng có thể dịch chuyển bất ngờ vào rổ. Trong Sora 2, nếu một cầu thủ bóng rổ ném hỏng, quả bóng sẽ bật ra khỏi bảng rổ. Điều thú vị là "lỗi" mà mô hình thường mắc phải lại có vẻ là lỗi của tác nhân nội bộ mà Sora 2 đang ngầm mô phỏng; mặc dù vẫn chưa hoàn hảo, mô hình này tuân thủ các định luật vật lý tốt hơn so với các hệ thống trước đây. Khả năng này vô cùng quan trọng đối với bất kỳ trình mô hình thế giới hữu ích nào—bạn phải có khả năng mô hình thất bại, chứ không chỉ thành công.
Mô hình này cũng là một bước tiến lớn về khả năng kiểm soát, có thể tuân theo các hướng dẫn phức tạp trải dài qua nhiều cảnh quay, đồng thời duy trì chính xác trạng thái thế giới. Công cụ này đặc biệt xuất sắc khi làm các phong cách chân thực, điện ảnh và anime.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
Là hệ thống tạo video và âm thanh đa năng, công cụ này có thể tạo ra các âm thanh nền, lời nói và hiệu ứng âm thanh tinh vi, với độ chân thực cao.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
Bạn cũng có thể trực tiếp đưa các yếu tố từ thế giới thực vào Sora 2. Ví dụ, khi quan sát một video về một đồng nghiệp, mô hình có thể chèn họ vào bất kỳ môi trường nào do Sora tạo ra, với sự tái hiện chính xác về ngoại hình và giọng nói. Khả năng này rất phổ quát và hoạt động hiệu quả với bất kỳ con người, động vật hoặc vật thể nào.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
Mô hình còn xa mới đạt đến độ hoàn hảo và mắc khá nhiều lỗi, nhưng đây là minh chứng cho thấy việc mở rộng quy mô mạng thần kinh trên dữ liệu video sẽ đưa chúng ta tiến gần hơn tới việc mô phỏng thực tế.
Trên hành trình phát triển các hệ thống mô phỏng đa năng và hệ thống AI có thể hoạt động trong thế giới thực, chúng tôi tin rằng mọi người sẽ có nhiều niềm vui với các mô hình mà chúng tôi đang xây dựng.
Vào vài tháng trước, đội ngũ phát triển Sora đã bắt đầu thử nghiệm tính năng “tải lên hình ảnh bản thân”, và tất cả đều rất hứng khởi với hoạt động này. Cảm giác như đây là quá trình tiến hóa tự nhiên của giao tiếp—từ tin nhắn văn bản sang đến biểu tượng cảm xúc, rồi đến tin nhắn thoại, và giờ là tính năng này.
Vì vậy hôm nay, chúng tôi ra mắt một ứng dụng xã hội mới trên iOS có tên là “Sora”, được hỗ trợ bởi Sora 2. Trong ứng dụng này, bạn có thể tạo, biến tấu các sản phẩm của nhau, khám phá các video mới trên bảng tin Sora có thể tùy chỉnh và đưa bản thân hoặc bạn bè vào thông qua một tính năng có tên là “nhân vật”. Với tính năng nhân vật, bạn có thể trực tiếp đưa chính mình vào bất kỳ cảnh nào của Sora với độ chính xác đáng kinh ngạc, sau một lần ghi hình video và âm thanh ngắn trong ứng dụng để xác minh danh tính và ghi lại diện mạo của bạn.
Tuần trước, chúng tôi đã triển khai ứng dụng này nội bộ tới toàn thể OpenAI. Chúng tôi đã nghe các đồng nghiệp bảo rằng họ đang kết thêm bạn mới tại công ty nhờ tính năng này. Chúng tôi cho rằng một ứng dụng mạng xã hội được xây dựng xung quanh tính năng "nhân vật" này là cách tốt nhất để trải nghiệm sự kỳ diệu của Sora 2.
Chúng tôi đặc biệt quan tâm đến các vấn đề như cuộn tin liên tục, nghiện sử dụng, cảm giác cô lập, và bảng tin được tối ưu hóa theo hành vi người dùng—dưới đây là cách chúng tôi đang giải quyết các lo ngại này.
Chúng tôi cung cấp cho người dùng các công cụ và tùy chọn để họ kiểm soát nội dung mà họ thấy trên bảng tin. Chúng tôi sử dụng các mô hình ngôn ngữ lớn hiện có của OpenAI đẻ đã phát triển một lớp thuật toán gợi ý mới, có thể được hướng dẫn thông qua ngôn ngữ tự nhiên. Chúng tôi cũng tích hợp các cơ chế định kỳ hỏi thăm người dùng về cảm xúc và trạng thái của họ, đồng thời chủ động cho họ cơ hội điều chỉnh bảng tin của mình.
Theo mặc định, chúng tôi hiển thị nội dung thiên về những người bạn theo dõi hoặc tương tác, và ưu tiên các video mà mô hình cho là bạn có khả năng sử dụng làm nguồn cảm hứng để tự sáng tác. Chúng tôi không tối ưu hóa để người dùng dành nhiều thời gian cho bảng tin, và chúng tôi chủ đích thiết kế ứng dụng nhằm tối đa hóa việc sáng tạo, chứ không phải việc tiêu thụ. Bạn có thể tìm thấy thêm thông tin chi tiết trong Triết lý bảng tincủa chúng tôi
Ứng dụng này được thiết kế để sử dụng cùng bạn bè. Hầu hết những người tham gia thử nghiệm đều cho rằng tính năng cameo là điều khiến ứng dụng trở nên vui nhộn và khác biệt—bạn phải thử thì mới thực sự hiểu được, nhưng đây là cách giao tiếp mới mẻ và độc đáo. Chúng tôi đang triển khai ứng dụng này theo hình thức mời sử dụng để đảm bảo bạn tham gia cùng bạn bè. Khi tất cả các nền tảng lớn dần giảm tập trung vào mạng lưới quan hệ xã hội, chúng tôi nghĩ rằng Nhân vật sẽ tăng cường cảm giác gắn kết cộng đồng.
Bảo vệ sức khỏe của thanh thiếu niên là điều rất quan trọng đối với chúng tôi. Chúng tôi đặt giới hạn mặc định về số video mà thanh thiếu niên có thể xem mỗi ngày trên bảng tin, đồng thời triển khai quyền kiểm soát chặt chẽ hơn đối với nhân vật dành cho nhóm này. Bên cạnh các hệ thống an toàn tự động, chúng tôi đang mở rộng đội ngũ kiểm duyệt viên để nhanh chóng xem xét các trường hợp bắt nạt nếu xảy ra. Chúng tôi ra mắt tính năng kiểm soát của cha mẹ trên Sora thông qua ChatGPT để cha mẹ có thể ghi đè các giới hạn cuộn vô hạn, tắt cá nhân hóa thuật toán, cũng như quản lý cài đặt tin nhắn trực tiếp.
Với tính năng nhân vật, bạn có toàn quyền kiểm soát hình ảnh của mình từ đầu đến cuối với Sora. Chỉ bạn mới có quyền quyết định ai có thể sử dụng nhân vật của bạn, và bạn có thể thu hồi quyền truy cập hoặc xóa bất kỳ video nào có nhân vật đó bất cứ lúc nào. Bất kỳ lúc nào bạn cũng có thể xem các video chứa nhân vật của bạn, bao gồm cả bản nháp do người khác tạo ra.
Có nhiều vấn đề an toàn mà chúng tôi đã giải quyết với ứng dụng này, bao gồm—đồng thuận sử dụng hình ảnh, nguồn gốc nội dung, ngăn ngừa tạo ra nội dung có hại, và nhiều điều khác. Xem tài liệu an toàn Sora 2 của chúng tôi để biết thêm chi tiết.
Nhiều vấn đề với các ứng dụng khác bắt nguồn từ mô hình kiếm tiền khuyến khích các quyết định đi ngược lại lợi ích và sức khỏe người dùng. Minh bạch mà nói, hiện chúng tôi có một kế hoạch duy nhất đó là sẽ trao cho người dùng tùy chọn trả một khoản tiền để tạo thêm một video nếu nhu cầu vượt quá khả năng xử lý hiện có. Khi ứng dụng phát triển, chúng tôi sẽ công khai thông báo mọi thay đổi về cách tiếp cận tại đây, đồng thời tiếp tục đặt lợi ích và sức khỏe người dùng làm mục tiêu chính.
Chúng tôi mới chỉ ở giai đoạn khởi đầu của hành trình này, nhưng với những cách thức mạnh mẽ cho phép tạo và chỉnh sửa nội dung bằng Sora 2, chúng tôi xem đây là khởi đầu của một kỷ nguyên hoàn toàn mới cho các trải nghiệm đồng sáng tạo. Chúng tôi lạc quan rằng đây sẽ là một nền tảng lành mạnh hơn cho hoạt động giải trí và sáng tạo so với những gì đang có hiện nay. Chúng tôi hy vọng bạn sẽ tìm thấy niềm vui khi sử dụng ứng dụng này :)
Hiện đã có thể tải xuống ứng dụng Sora chạy trên iOS(mở trong cửa sổ mới). Bạn có thể đăng ký trong ứng dụng để nhận thông báo đẩy khi tài khoản của bạn được cấp quyền truy cập. Hôm nay, chúng tôi bắt đầu triển khai lần đầu tại Hoa Kỳ và Canada với mục tiêu nhanh chóng mở rộng sang các quốc gia khác. Sau khi nhận được lời mời, bạn cũng có thể truy cập Sora 2 trên sora.com(mở trong cửa sổ mới). Ban đầu, Sora 2 sẽ được dùng miễn phí, tuy có giới hạn vẫn rất hào phóng, cho phép mọi người thoải mái khám phá khả năng của nó, mặc dù những giới hạn này vẫn tùy thuộc vào năng lực xử lý. Người dùng ChatGPT Pro cũng sẽ có thể sử dụng mô hình thử nghiệm, chất lượng cao hơn Sora 2 Pro của chúng tôi trên sora.com(mở trong cửa sổ mới) (và sắp tới cũng sẽ có trong ứng dụng Sora). Chúng tôi cũng dự định sẽ phát hành Sora 2 qua API. Sora 1 Turbo sẽ vẫn có sẵn và mọi thứ bạn đã tạo sẽ tiếp tục tồn tại trong thư viện sora.com(mở trong cửa sổ mới) của bạn.
Các mô hình video đang ngày càng trở nên xuất sắc và phát triển nhanh chóng. Các trình mô phỏng thế giới đa năng và tác nhân robot sẽ tái định hình xã hội một cách căn bản, thúc đẩy tốc độ tiến bộ của nhân loại. Sora 2 đại diện cho bước tiến lớn hướng tới mục tiêu đó. Phù hợp với sứ mệnh của OpenAI, điều quan trọng là nhân loại được hưởng lợi từ các mô hình này trong quá trình chúng được phát triển. Chúng tôi cho rằng Sora sẽ mang lại nhiều niềm vui, sáng tạo và kết nối cho thế giới này.
— Được viết bởi đội ngũ Sora
Mục tiêu chính & Hình ảnh
Ấn tượng đầu tiên: một con rồng lướt cắt qua những tháp băng răng cưa, các xoáy khí ở đầu cánh cuốn tuyết bụi thành dải; ấn tượng thứ hai: mảng băng nứt vỡ của sông băng rơi xuống một vịnh hẹp xanh coban, với viền nắng hổ phách chạm nhẹ lớp sương giá trên vảy; biểu cảm toát lên vẻ điềm tĩnh săn mồi / uy lực không cần gắng sức.
Định dạng & Phong cách
5,0 giây; 4K; cửa trập 180°; mô phỏng cảm biến kỹ thuật số cỡ lớn với độ tương phản chi tiết sắc nét; hạt ảnh rất mịn; hiệu ứng lóa được tiết chế trên các điểm sáng phản chiếu của tuyết; không có hiện tượng rung lắc khung hình.
Ống kính & Lọc
Cảnh chủ đạo: Ống kính 50mm hình cầu trên bệ chụp trên không được ổn định bằng con quay hồi chuyển gắn ở mũi (theo dõi song song với cung tròn hơi hướng vào trong). Bộ lọc: Black Pro-Mist 1/8; bộ lọc phân cực tròn được điều chỉnh nhẹ để giảm chói trên tuyết trong khi vẫn giữ được độ lấp lánh của ánh sáng phản chiếu.
Phân tông / Bảng màu
Vùng sáng: trắng băng tinh khiết với chuyển tông lạnh dịu; Trung sắc: sông băng xanh thép và không khí xanh lơ nhạt; Vùng tối: xám đá phiến/xanh mòng két với chi tiết khe nứt được giữ lại; viền ấm màu hổ phách trên các mép thân rồng để tạo sự tách biệt; các điểm sáng phản chiếu gọn, sắc nét trên bề mặt băng giá/vảy.
Ánh sáng & Bầu không khí
Ánh nắng thấp cuối buổi chiều chiếu chéo; gió katabatic cuốn tuyết mịn bay lên; màn sương băng mỏng tạo chiều sâu; những đợt bụi băng bùng lên ngắt quãng trong vệt khí phía sau; hơi thở mờ nhạt từ con rồng khi gắng sức.
Vị trí & Khung hình
Cánh đồng tháp băng cao ngất cùng sống núi sắc như lưỡi dao; camera bám theo cùng tốc độ bên cạnh con rồng ở độ cao trung bình, các đường chéo của sông băng dẫn lùi về phía vịnh hẹp; các mỏm băng tiền cảnh lướt sát qua để tạo hiệu ứng thị sai; không có công trình của con người.
Ghi chú về trang phục / đạo cụ / phương tiện
Không áp dụng (sinh vật). Bề mặt: các gờ sừng lì, các phiến vảy bán óng ánh với lớp sương giá li ti dọc theo mép trước.
Âm thanh
Gió mạnh trên cao, màng cánh phát ra tiếng như sấm mỗi lần đập cánh, tiếng băng kết tinh lách tách/cọt kẹt từ các tháp băng cao ngất, âm thanh sông băng vỡ ầm vang từ xa; tiếng thở ra nhanh/rì rầm của chú rồng: “Rrhh—” (dưới 1 giây). Không dùng nhạc, chỉ có âm thanh tự nhiên tạo cảm giác kinh ngạc.
Danh sách cảnh được tối ưu (1 cảnh / 5,0 giây)
0,0–5,0 — “Đường lượn song song sống núi” (50mm, máy quay gắn mũi cho cảnh trên không với vòng cung nhẹ hướng vào trong và cú tiến nhẹ)
Camera đi cùng con rồng khi nó luồn qua một hành lang các tháp băng nhọn; xoáy ở đầu cánh kéo lớp tuyết mịn thành những dải dài; một mảnh băng vỡ rơi xuống rất xa bên dưới, tung lên một cột bụi tuyết; camera từ từ tiến lại gần hơn—vảy rồng hiện rõ, viền sáng màu hổ phách lóe lên—rồi con rồng nghiêng mình về phía vịnh hẹp, chiếc đuôi quét ngang như lưỡi kéo, phủ một bóng dài lướt qua sông băng.
Mục đích: Trình diễn hình ảnh quy mô thần thoại với cảm giác thực tế, chỉ trong một cú ghi hình—tốc độ, trọng lượng và cảm giác lạnh lẽo nguyên sơ.
Ghi chú máy quay (Vì sao hình ảnh dễ đọc)
Ống kính 50mm cân bằng sự hiện diện của sinh vật và quy mô cảnh quan mà không làm mọi thứ trông như mô hình thu nhỏ; theo dõi song song + cung lượn hướng vào trong tạo cảm giác thuyết phục về tốc độ và hình khối; cú đẩy nhỏ được căn nhịp với cú đập xuống mạnh nhất để tạo điểm nhấn sức mạnh; bộ lọc phân cực kiểm soát chói lóa trong khi vẫn giữ độ lấp lánh; ánh nắng ngược/ánh viền tạc nổi đường bóng; các mỏm băng sượt gần cung cấp tín hiệu tốc độ qua hiệu ứng thị sai.
Hoàn thiện
Hạt ảnh rất mịn (~15%); hiệu ứng quầng sáng tối thiểu trên các điểm lóe phản xạ của tuyết; mô phỏng bản in nhẹ nhàng để giữ cho màu xanh lam trông đáng tin và màu đen đậm sâu; xử lý dynamics đa băng tần để giữ được tiếng đập cánh trầm nặng mà không che lấp tiếng sông băng vỡ ầm; khung hình poster: chú rồng nghiêng cánh lượn qua một tháp băng ngập nắng, tuyết bụi bị gió cuốn thành dòng, vịnh hẹp phía xa rực lên màu xanh lam thẳm.
Sora 2
Debbie Mesloh
Caroline Zhao
Xuất bản ngày 30 tháng 9, MMXXV


