Tạo video từ văn bản

Tất cả video trên trang này đều được tạo trực tiếp bởi Sora, không qua chỉnh sửa.

Đang tải…

Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật lý vận động với mục tiêu huấn luyện các mô hình có thể hỗ trợ con người giải quyết những vấn đề đòi hỏi tương tác thực tế.

Giới thiệu Sora, mô hình tạo video từ văn bản. Sora có thể tạo ra các video dài tới một phút, giữ được chất lượng hình ảnh và bám sát yêu cầu của người dùng.

Lời nhắc: Một người phụ nữ thời trang bước đi trên con phố Tokyo rực rỡ ánh đèn neon ấm áp và những bảng hiệu sinh động. Cô mặc áo khoác da màu đen, váy dài màu đỏ, mang bốt đen và xách một chiếc túi xách đen. Cô đeo kính râm, tô son đỏ. Cô bước đi đầy tự tin, ung dung. Mặt đường ẩm ướt phản chiếu ánh đèn đầy màu sắc như một tấm gương. Có nhiều người đi bộ xung quanh.

Lời nhắc: Nhiều con voi ma mút lông dài khổng lồ đang tiến về phía trước, chậm rãi băng qua cánh đồng phủ đầy tuyết. Lớp lông dày của chúng khẽ lay động theo gió khi di chuyển. Phía xa là rừng cây phủ tuyết và những dãy núi hùng vĩ với đỉnh trắng xóa. Ánh sáng giữa buổi chiều chiếu rọi qua lớp mây mỏng, mặt trời treo cao, tạo nên một không gian ấm áp. Góc quay thấp mang lại cảm giác choáng ngợp, ghi lại vẻ đẹp của loài động vật to lớn với kỹ thuật quay phim tuyệt đẹp, chiều sâu hình ảnh rõ nét.

Lời nhắc: Một đoạn trailer phim giới thiệu chuyến phiêu lưu của người đàn ông ngoài không gian 30 tuổi, đội mũ bảo hiểm mô tô bằng len đỏ, bối cảnh là bầu trời xanh và sa mạc muối trải dài. Phong cách điện ảnh, quay bằng phim 35mm, màu sắc sống động.

Lời nhắc: Góc nhìn từ trên cao bằng thiết bị bay không người lái ghi lại cảnh những con sóng xanh biếc đập mạnh vào vách đá gồ ghề dọc theo bãi biển Garay Point ở Big Sur. Làn nước trong xanh xô vào bờ tạo nên những con sóng bạc đầu dưới ánh hoàng hôn vàng rực rỡ soi chiếu lên bờ đá. Một hòn đảo nhỏ với ngọn hải đăng hiện ra thấp thoáng ở phía xa, những bụi cây xanh um tùm bao phủ mép vách đá. Độ dốc hiểm trở từ con đường xuống bãi biển tạo nên một cảnh tượng ấn tượng; mép vách đá nhô ra cheo leo trên mặt biển. Đây là góc nhìn ghi lại trọn vẹn vẻ đẹp nguyên sơ của vùng duyên hải và địa hình gồ ghề đặc trưng dọc theo tuyến đường Pacific Coast Highway.

Lời nhắc: Cảnh hoạt hình ghi lại cận cảnh một sinh vật nhỏ lông xù đang quỳ bên cạnh một cây nến đỏ đang tan chảy. Phong cách nghệ thuật là 3D và chân thực, chú trọng vào ánh sáng và họa tiết. Bức tranh mang không khí đầy kỳ diệu và tò mò, sinh vật nhỏ chăm chú nhìn ngọn lửa với đôi mắt mở to và miệng há đầy kinh ngạc. Tư thế và nét mặt của sinh vật toát lên vẻ ngây thơ và tinh nghịch như thể đang khám phá thế giới xung quanh lần đầu tiên. Việc sử dụng tông màu ấm cùng ánh sáng rực rỡ càng làm nổi bật bầu không khí ấm cúng của hình ảnh.

Lời nhắc: Một thế giới san hô được tạo hình thủ công tuyệt đẹp bằng giấy, tràn ngập các loài cá sặc sỡ và sinh vật biển đủ màu sắc.

Lời nhắc: Cận cảnh loài chim bồ câu vương miện Victoria với bộ lông xanh lam nổi bật và phần ngực đỏ rực rỡ. Mào của loài chim này được tạo nên từ những chiếc lông mảnh mai, tinh xảo như ren, đôi mắt màu đỏ nổi bật đầy cuốn hút. Đầu chú chim hơi nghiêng sang một bên, tạo cảm giác đầy uy nghi và cao quý. Phông nền được làm mờ, làm nổi bật vẻ ngoài ấn tượng của loài chim này.

Lời nhắc: Video cận cảnh chân thực ghi lại cảnh hai con tàu cướp biển đang giao chiến khi cùng lướt đi bên trong một tách cà phê.

Lời nhắc: Một chàng trai khoảng độ đôi mươi đang ngồi trên một đám mây giữa bầu trời, say sưa đọc sách.

Hôm nay, Sora bắt đầu được cung cấp cho nhóm mô phỏng cuộc tấn công mạng nhằm kiểm tra các khía cạnh quan trọng liên quan đến nguy cơ hoặc tác hại tiềm ẩn. Chúng tôi cũng đang cấp quyền truy cập cho một số họa sĩ, nhà thiết kế và nhà làm phim nhằm thu thập phản hồi về cách cải tiến mô hình để phục vụ hiệu quả nhất cho các chuyên gia sáng tạo.

Chúng tôi chia sẻ sớm tiến trình nghiên cứu để bắt đầu hợp tác và đón nhận phản hồi từ các cá nhân bên ngoài OpenAI, đồng thời giúp công chúng hình dung về những khả năng mà AI có thể đạt được trong tương lai gần.

Lời nhắc: Video lịch sử về tiểu bang California trong thời kỳ tìm vàng.

Lời nhắc: Cận cảnh một quả cầu thủy tinh bên trong là một khu vườn thiền thu nhỏ. Bên trong quả cầu có một chú lùn nhỏ đang cào cát trong khu vườn thiền, tạo nên những hoa văn đều đặn trên lớp cát mịn.

Lời nhắc: Siêu cận cảnh một cô gái 24 tuổi đang chớp mắt, đứng giữa Marrakech vào giờ hoàng hôn huyền ảo, thước phim mang phong cách điện ảnh ở cự ly 70mm, có chiều sâu trường ảnh, màu sắc sống động và đậm chất điện ảnh.

Lời nhắc: Một chú kangaroo hoạt hình đang nhảy disco sôi động.

Lời nhắc: Một video tự làm đẹp mắt ghi lại cuộc sống của người dân Lagos, Nigeria vào năm 2056. Được quay bằng camera điện thoại di động.

Lời nhắc: Một đĩa petri chứa một khu rừng tre thu nhỏ bên trong, nơi những chú gấu trúc đỏ tí hon đang chạy nhảy khắp nơi.

Lời nhắc: Camera quay vòng quanh một chồng lớn những chiếc tivi cổ đang phát những chương trình khác nhau — phim khoa học viễn tưởng thập niên 1950, phim kinh dị, tin tức, màn hình nhiễu, phim sitcom thập niên 1970, v.v., được trưng bày trong một phòng triển lãm lớn tại bảo tàng ở New York.

Lời nhắc: Hoạt hình 3D về một sinh vật nhỏ, tròn, lông xù với đôi mắt to biểu cảm đang khám phá khu rừng kỳ ảo rực rỡ sắc màu. Sinh vật này là sự kết hợp kỳ thú giữa thỏ và sóc, có bộ lông màu xanh mềm mại và chiếc đuôi xù có sọc. Chú nhảy dọc theo dòng suối lấp lánh, đôi mắt mở to đầy ngạc nhiên và thích thú. Khu rừng tràn đầy những yếu tố kỳ diệu: những bông hoa phát sáng và biến đổi màu sắc, cây có lá màu tím và bạc, cùng những đốm sáng nhỏ lơ lửng giống như đom đóm. Sinh vật dừng lại để chơi đùa cùng một nhóm sinh vật nhỏ bé giống như những nàng tiên đang nhảy múa quanh vòng nấm. Sinh vật ngước nhìn đầy kinh ngạc một cây cổ thụ lớn phát sáng, dường như là trái tim của khu rừng.

Sora có khả năng tạo ra những cảnh phức tạp với nhiều nhân vật, các loại chuyển động đặc thù và chi tiết chính xác về đối tượng lẫn phông nền. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong đoạn mô tả mà còn nắm rõ sự tồn tại của những yếu tố đó trong thế giới vật lý.

Lời nhắc: Camera quay từ phía sau một chiếc SUV cổ màu trắng có giá nóc đen tăng tốc trên con đường đất dốc bao quanh bởi những cây thông trên sườn núi cheo leo, bụi bay lên từ bánh xe, ánh nắng chiếu lên chiếc SUV khi nó lao nhanh trên con đường đất, tạo nên ánh sáng ấm áp phủ khắp khung cảnh. Con đường đất uốn lượn nhẹ nhàng về phía xa, không có chiếc xe nào khác xuất hiện trong tầm nhìn. Hai bên con đường là những cây gỗ đỏ, xen kẽ đó đây là các mảng xanh tươi. Nhìn từ phía sau, chiếc xe ôm cua một cách dễ dàng, tạo cảm giác như đang vượt qua địa hình gồ ghề. Con đường đất nằm giữa những ngọn đồi và dãy núi dốc, phía trên là bầu trời xanh trong với những đám mây trắng lơ lửng.

Lời nhắc: Hình ảnh phản chiếu trên cửa sổ một chuyến tàu đang chạy qua vùng ngoại ô Tokyo.

Lời nhắc: Máy bay không người lái bay vòng quanh một nhà thờ cổ tuyệt đẹp xây trên mỏm đá dọc theo bờ biển Amalfi, cảnh quay phô bày những chi tiết kiến trúc lịch sử và tráng lệ cùng các lối đi bậc thang và sân hiên tầng tầng lớp lớp. Sóng biển đập mạnh vào những tảng đá bên dưới, trong khi tầm nhìn bao quát đường chân trời của vùng nước ven biển và cảnh quan đồi núi của bờ biển Amalfi, Ý. Phía xa xa, một vài người đang đi bộ và tận hưởng cảnh quan tuyệt đẹp từ các sân hiên hướng ra biển. Ánh nắng ấm của buổi chiều tạo nên một không gian huyền ảo và lãng mạn cho cảnh vật, toàn cảnh được ghi lại một cách tuyệt mỹ qua những bức ảnh nghệ thuật.

Lời nhắc: Một con bạch tuộc màu cam lớn nằm nghỉ ở đáy đại dương, hòa lẫn cát và đá xung quanh. Các xúc tu của nó trải rộng quanh cơ thể, mắt nhắm lại. Con bạch tuộc không hề hay biết có một con cua hoàng đế đang bò tới từ phía sau tảng đá, càng vươn lên sẵn sàng tấn công. Con cua màu nâu có gai nhọn, chân dài và râu xúc giác. Cảnh quay được ghi lại từ góc rộng, thể hiện sự bao la và chiều sâu của đại dương. Làn nước trong xanh, ánh nắng xuyên qua tạo nên những tia sáng lấp lánh. Cảnh quay sắc nét và rõ ràng, có dải tương phản động rộng. Con bạch tuộc và con cua được lấy nét rõ ràng trong nền phông hơi mờ, tạo hiệu ứng chiều sâu trường ảnh.

Lời nhắc: Một dàn máy bay giấy bay lượn qua khu rừng rậm, len lỏi giữa các cây như những chú chim di cư.

Lời nhắc: Một chú mèo đánh thức chủ đang ngủ và đòi ăn sáng. Chủ nhân cố gắng phớt lờ nhưng mèo ta đổi chiến thuật liên tục; cuối cùng chủ nhân đành lấy ra một khoanh bánh thưởng giấu dưới gối để kéo dài thời gian dỗ dành chú mèo.

Lời nhắc: Động vật hoang dã ở Borneo trên sông Kinabatangan

Lời nhắc: Video lễ hội Tết Nguyên Đán của Trung Quốc với hình ảnh rồng Trung Hoa.

Mô hình có khả năng hiểu sâu sắc ngôn ngữ, giúp nó giải nghĩa chính xác các yêu cầu và tạo ra những nhân vật sống động thể hiện cảm xúc phong phú. Sora cũng có thể tạo ra nhiều cảnh quay trong cùng một video, đồng thời giữ nguyên chính xác nhân vật và phong cách hình ảnh.

Lời nhắc: Chuyến tham quan một phòng tranh với nhiều tác phẩm nghệ thuật đẹp mắt, mang phong cách đa dạng.

Lời nhắc: Thành phố Tokyo xinh đẹp, phủ đầy tuyết trong khung cảnh sầm uất. Máy quay di chuyển qua con phố đông đúc, theo chân vài người đang tận hưởng thời tiết tuyết đẹp và mua sắm tại các gian hàng gần đó. Những cánh hoa anh đào rực rỡ bay theo gió cùng những bông tuyết.

Lời nhắc: Một bộ phim hoạt hình tĩnh vật quay cảnh một bông hoa đang lớn lên từ bệ cửa sổ của một ngôi nhà vùng ngoại ô.

Lời nhắc: Câu chuyện về cuộc sống của một con rô-bốt trong bối cảnh cyberpunk.

Lời nhắc: Siêu cận cảnh một người đàn ông ngoài 60 tuổi, tóc bạc và có râu đang suy tư về lịch sử vũ trụ trong một quán cà phê ở Paris. Đôi mắt ông tập trung nhìn những người đi bộ ngoài khung hình, ông gần như bất động. Ông mặc chiếc áo khoác dạ kiểu vest cùng sơ mi cài cúc, đội mũ beret màu nâu và đeo kính, mang dáng vẻ rất trí thức. Cuối cảnh quay, ông mỉm cười nhẹ, khép môi như thể vừa tìm ra câu trả lời cho bí ẩn của cuộc sống. Ánh sáng mang phong cách điện ảnh với ánh hoàng hôn vàng rực trên nền phố phường và thành phố Paris, độ sâu trường ảnh, phim 35mm mang sắc thái điện ảnh.

Lời nhắc: Một hoạt cảnh bóng đổ tuyệt đẹp khắc họa hình ảnh một con sói tru lên dưới ánh trăng, đơn độc và lẻ loi cho đến khi tìm thấy bầy đàn của mình.

Lời nhắc: Thành phố New York chìm sâu dưới làn nước, tựa như Atlantis. Cá, cá voi, rùa biển và cá mập bơi lượn giữa những con phố New York.

Lời nhắc: Một bầy chó con giống Golden Retriever nô đùa trong tuyết trắng. Đầu của chúng thò lên khỏi lớp tuyết, phủ đầy tuyết trắng.

Mô hình hiện tại vẫn còn nhiều dư địa để cải thiện. Nó có thể gặp khó khăn khi mô phỏng vật lý trong những cảnh phức tạp và có thể chưa hiểu rõ mối quan hệ nhân quả trong các tình huống cụ thể (chẳng hạn: một chiếc bánh quy có thể không hề xuất hiện dấu vết sau khi nhân vật cắn vào). Mô hình cũng có thể nhầm lẫn các chi tiết không gian được nêu trong lời nhắc, chẳng hạn như phân biệt trái với phải hoặc gặp khó khăn khi mô tả chính xác các sự kiện diễn ra theo trình tự thời gian, như quỹ đạo di chuyển cụ thể của máy quay.

Lời nhắc: Cảnh quay từng bước một người đang chạy, thước phim điện ảnh ở cự ly 35mm.

Điểm yếu: Sora đôi khi tạo ra những chuyển động không hợp lý về mặt vật lý.

Lời nhắc: Năm chú chó sói con màu xám nô đùa và đuổi nhau trên con đường sỏi hoang vắng, bao quanh là thảm cỏ xanh. Những chú chó con chạy nhảy, đuổi nhau và cắn nhẹ nhau, chơi đùa vui vẻ.

Điểm yếu: Động vật hoặc con người có thể xuất hiện một cách bất ngờ, nhất là trong những cảnh có nhiều đối tượng.

Lời nhắc: Quả bóng rổ xuyên qua vòng rồi phát nổ.

Điểm yếu: Một ví dụ về việc mô phỏng vật lý không chính xác và sự biến đổi hình dạng vật thể một cách phi tự nhiên.

Lời nhắc: Các nhà khảo cổ học phát hiện một chiếc ghế nhựa thông dụng giữa sa mạc, cẩn thận khai quật và lau chùi sạch sẽ.

Điểm yếu: Trong ví dụ này, Sora không thể mô phỏng chiếc ghế như một vật thể cứng, dẫn đến các tương tác vật lý không chính xác.

Lời nhắc: Bà ngoại có mái tóc bạc chải chuốt đứng sau chiếc bánh sinh nhật nhiều màu sắc cùng hàng nến lung linh trên bàn ăn bằng gỗ, khuôn mặt bà tràn đầy niềm vui và hạnh phúc, ánh mắt lấp lánh niềm hạnh phúc rạng rỡ. Bà cúi người về phía trước và nhẹ nhàng thổi tắt những ngọn nến, chiếc bánh phủ lớp kem hồng và rắc kẹo màu, những ngọn nến vụt tắt, bà ngoại mặc chiếc áo sơ mi xanh nhạt trang trí họa tiết hoa, phía xa mờ mờ là những người bạn và người thân vui vẻ ngồi quanh bàn ăn đang cùng nhau ăn mừng. Cảnh quay được ghi lại một cách đẹp đẽ, mang phong cách điện ảnh, thể hiện góc 3/4 của bà ngoại cùng không gian phòng ăn. Tông màu ấm áp cùng ánh sáng dịu nhẹ làm tăng thêm không khí ấm cúng cho cảnh quay.

Điểm yếu: Việc mô phỏng các tương tác phức tạp giữa nhiều vật thể và nhân vật thường là thách thức đối với mô hình, đôi khi dẫn đến những kết quả tạo hình hài hước.

Safety

Chúng tôi sẽ thực hiện một số bước an toàn quan trọng trước khi đưa Sora vào các sản phẩm của OpenAI. Chúng tôi đang hợp tác với nhóm mô phỏng cuộc tấn công mạng — những người có chuyên môn trong các lĩnh vực như thông tin sai lệch, nội dung thù địch và thiên kiến — để tiến hành kiểm thử mô hình một cách khắt khe.

Chúng tôi cũng đang phát triển các công cụ giúp phát hiện nội dung gây hiểu lầm, chẳng hạn như bộ phân loại có khả năng nhận biết khi nào một video được tạo ra bởi Sora. Chúng tôi dự định tích hợp siêu dữ liệu C2PA⁠(mở trong cửa sổ mới) trong tương lai nếu triển khai mô hình trong sản phẩm của OpenAI.

Bên cạnh việc phát triển các kỹ thuật mới để chuẩn bị cho việc triển khai, chúng tôi còn tận dụng những phương pháp an toàn⁠(mở trong cửa sổ mới) hiện có đã xây dựng cho các sản phẩm sử dụng DALL·E 3, đồng thời áp dụng chúng cho Sora.

Chẳng hạn, khi được tích hợp vào sản phẩm của OpenAI, bộ phân loại văn bản của chúng tôi sẽ kiểm tra và từ chối các lời nhắc đầu vào vi phạm chính sách sử dụng, chẳng hạn như yêu cầu nội dung bạo lực cực đoan, tình dục, hình ảnh thù địch, giả mạo người nổi tiếng hoặc vi phạm quyền sở hữu trí tuệ của người khác. Chúng tôi cũng đã phát triển những bộ phân loại hình ảnh mạnh mẽ để kiểm duyệt từng khung hình trong mỗi video được tạo ra, nhằm đảm bảo nội dung tuân thủ chính sách sử dụng trước khi hiển thị tới người dùng.

Chúng tôi sẽ phối hợp với các nhà hoạch định chính sách, chuyên gia giáo dục và nghệ sĩ trên khắp thế giới để lắng nghe những mối quan tâm của họ và tìm ra những ứng dụng tích cực cho công nghệ mới này. Dù đã tiến hành nghiên cứu và thử nghiệm kỹ lưỡng, chúng tôi không thể dự đoán hết tất cả các cách mà người dùng sẽ tận dụng công nghệ này một cách có lợi, cũng như không thể lường trước được mọi hình thức lạm dụng có thể xảy ra. Đó là lý do chúng tôi tin rằng việc học hỏi từ trải nghiệm thực tế là yếu tố then chốt trong việc phát triển và ra mắt những hệ thống AI ngày càng an toàn hơn theo thời gian.

Lời nhắc: Máy quay hướng thẳng về phía những tòa nhà đầy màu sắc ở Burano, Ý. Một chú chó đốm Dalmation dễ thương nhìn qua cửa sổ tầng trệt của một tòa nhà. Nhiều người đang đi bộ và đạp xe dọc theo những con kênh phía trước các tòa nhà.

Lời nhắc: Một con rái cá dễ thương, vui vẻ đứng vững trên ván lướt sóng, mặc áo phao màu vàng, lướt trên làn nước xanh ngọc bích gần những hòn đảo nhiệt đới xanh tươi, được thể hiện theo phong cách nghệ thuật kỹ thuật số 3D.

Lời nhắc: Cận cảnh một con tắc kè hoa thể hiện rõ khả năng thay đổi màu sắc nổi bật của nó. Phông nền được làm mờ, làm nổi bật vẻ ngoài ấn tượng của loài vật này.

Lời nhắc: Một chú chó corgi đang tự quay vlog tại vùng nhiệt đới Maui.

Lời nhắc: Một chú mèo tabby trắng cam đang vui vẻ lao nhanh qua khu vườn rậm rạp, như thể đang đuổi theo điều gì đó. Đôi mắt nó mở to đầy niềm vui khi chạy bộ về phía trước, liên tục quan sát những cành cây, bông hoa và chiếc lá trên đường đi. Lối đi hẹp khi chú mèo len lỏi giữa những tán cây, cảnh quay được ghi lại từ góc thấp sát mặt đất, theo sát từng bước chân của nó, tạo nên góc nhìn gần gũi và thân mật. Hình ảnh mang phong cách điện ảnh với tông màu ấm áp và họa tiết hạt mịn. Ánh sáng ban ngày lọt qua kẽ lá và cây trên cao tạo nên sự tương phản ấm áp, làm nổi bật màu lông cam của chú mèo. Cảnh quay rõ nét và sắc sảo với độ sâu trường ảnh nông.

Lời nhắc: Cảnh nhìn từ trên cao Santorini vào giờ xanh, phô bày kiến trúc tuyệt đẹp của những ngôi nhà trắng kiểu Cycladic với những mái vòm màu xanh. Quang cảnh miệng núi lửa thật ngoạn mục, ánh sáng tạo nên không gian thanh bình và tuyệt đẹp.

Lời nhắc: Ảnh tilt-shift một công trường xây dựng đông đúc công nhân, thiết bị và máy móc hạng nặng.

Lời nhắc: Một đám mây khổng lồ hình người vươn cao trên bầu trời như đang bao phủ cả trái đất. Người mây phóng những tia sét xuống mặt đất.

Lời nhắc: Một chú chó Samoyed và một chú chó Golden Retriever đang vui đùa chạy nhảy qua thành phố neon tương lai về đêm. Ánh đèn neon phát ra từ những tòa nhà gần đó lấp lánh trên bộ lông của chúng.

Lời nhắc: Glenfinnan Viaduct là một cây cầu đường sắt lịch sử tại Scotland, Vương quốc Anh, bắc ngang tuyến đường sắt West Highland nối giữa hai thị trấn Mallaig và Fort William. Cảnh tượng thật ngoạn mục khi một đoàn tàu hơi nước rời khỏi cây cầu, lăn bánh qua cây cầu mái vòm. Phong cảnh được điểm xuyết bởi màu xanh tươi tốt của cây cối và núi đá, tạo nên bức nền tuyệt đẹp cho chuyến hành trình của đoàn tàu. Bầu trời trong xanh và nắng chiếu rực rỡ, tạo nên một ngày tuyệt đẹp để khám phá địa điểm diễm lệ này.

Kỹ thuật nghiên cứu

Sora là một mô hình khuếch tán, tạo ra video bằng cách bắt đầu từ hình ảnh giống như nhiễu tĩnh và dần dần biến đổi nó qua nhiều bước bằng cách loại bỏ nhiễu.

Sora có khả năng tạo ra toàn bộ video cùng lúc hoặc kéo dài những video đã được tạo để làm chúng dài hơn. Bằng cách cho mô hình dự đoán nhiều khung hình cùng lúc, chúng tôi đã giải quyết được vấn đề khó khăn là đảm bảo một đối tượng vẫn giữ nguyên dù có lúc tạm thời biến mất khỏi khung hình.

Tương tự như các mô hình GPT, Sora sử dụng kiến trúc transformer, mở ra khả năng mở rộng hiệu suất vượt trội.

Chúng tôi biểu diễn video và hình ảnh dưới dạng tập hợp các đơn vị dữ liệu nhỏ hơn gọi là các mảnh, mỗi mảnh tương tự như một token trong GPT. Bằng cách thống nhất cách biểu diễn dữ liệu, chúng tôi có thể huấn luyện các mô hình transformer khuếch tán trên nhiều loại dữ liệu hình ảnh đa dạng hơn trước đây, bao gồm các độ dài, độ phân giải và tỉ lệ khung hình khác nhau.

Sora được phát triển dựa trên các nghiên cứu trước đây về các mô hình DALL·E và GPT. Sora sử dụng kỹ thuật đặt lại chú thích từ DALL·E 3, bao gồm việc tạo ra các chú thích mô tả chi tiết cho dữ liệu hình ảnh dùng trong huấn luyện. Nhờ đó, mô hình có thể thực hiện chính xác hơn các hướng dẫn bằng văn bản của người dùng trong video được tạo ra.

Ngoài khả năng tạo video hoàn toàn từ hướng dẫn bằng văn bản, mô hình còn có thể lấy một hình ảnh tĩnh có sẵn và tạo thành video, làm sống động nội dung hình ảnh với độ chính xác cao và chú ý đến từng chi tiết nhỏ. Mô hình này cũng có thể lấy một video có sẵn rồi kéo dài hoặc bổ sung các khung hình còn thiếu. Tìm hiểu thêm trong báo cáo kỹ thuật của chúng tôi⁠.

Sora đóng vai trò nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà chúng tôi tin sẽ là cột mốc quan trọng trên con đường đạt được AGI.

Đang tải...