5 tháng 1, 2021

DALL·E: Tạo hình ảnh từ văn bản

Chúng tôi đã huấn luyện một mạng thần kinh có tên là DALL·E có khả năng tạo ra hình ảnh từ chú thích văn bản cho nhiều khái niệm có thể diễn đạt bằng ngôn ngữ tự nhiên.

Hình minh họa: Justin Jay Wang

Đang tải…

DALL·E là phiên bản với 12 tỷ tham số của GPT‑3⁠(mở trong cửa sổ mới) được huấn luyện để tạo hình ảnh từ mô tả văn bản, bằng cách sử dụng tập dữ liệu gồm các cặp văn bản–hình ảnh. Chúng tôi nhận thấy rằng nó có rất nhiều khả năng, bao gồm tạo ra các phiên bản nhân hóa của động vật và đồ vật, kết hợp các khái niệm không liên quan theo những cách hợp lý, hiển thị văn bản và áp dụng các phép biến đổi vào hình ảnh hiện tại.

Xem thêm: DALL·E 2⁠ tạo ra hình ảnh chân thực và chính xác hơn với độ phân giải cao hơn gấp 4 lần.

Đang tải...

GPT‑3 cho thấy ngôn ngữ có thể được sử dụng để hướng dẫn mạng thần kinh lớn thực hiện nhiều tác vụ tạo văn bản khác nhau. Image GPT⁠ cho thấy cùng loại mạng thần kinh cũng có thể được sử dụng để tạo ra hình ảnh có độ trung thực cao. Chúng tôi mở rộng những phát hiện này để chứng minh rằng việc điều khiển các khái niệm trực quan thông qua ngôn ngữ hiện hoàn toàn khả thi.

Tổng quan

Giống như GPT‑3, DALL·E là một mô hình ngôn ngữ transformer. Mô hình này nhận cả văn bản và hình ảnh dưới dạng một luồng dữ liệu duy nhất chứa tối đa 1280 token và được huấn luyện bằng cách sử dụng toàn bộ khả năng để tạo ra lần lượt tất cả các token. ^A

Quy trình huấn luyện này cho phép DALL·E không chỉ tạo mới hình ảnh mà còn tái tạo bất kỳ vùng hình chữ nhật nào của hình ảnh hiện có, kéo dài đến góc dưới bên phải, trong khi vẫn tuân thủ với lời nhắc văn bản.

Chúng tôi nhận thấy rằng công việc liên quan đến mô hình tạo sinh có tiềm năng tạo ra những tác động to lớn và sâu rộng trong xã hội. Trong tương lai, chúng tôi có kế hoạch phân tích mối quan hệ giữa các mô hình như DALL·E với các vấn đề xã hội như tác động kinh tế đến một số quy trình làm việc và nghề nghiệp nhất định, khả năng xuất hiện thiên kiến trong kết quả đầu ra của mô hình và những thách thức về mặt đạo đức dài hạn mà công nghệ này tiềm ẩn.

Khả năng

Chúng tôi thấy rằng DALL·E có khả năng tạo ra những hình ảnh hợp lý cho nhiều loại câu khác nhau nhằm khám phá cấu trúc thành phần của ngôn ngữ. Chúng tôi minh họa điều này bằng một loạt hình ảnh tương tác ở phần tiếp theo. Các mẫu hiển thị cho mỗi chú thích trong hình ảnh được thu thập bằng cách lấy 32 trong số 512 chú thích sau khi xếp hạng lại bằng CLIP⁠, nhưng chúng tôi không sử dụng bất kỳ phương pháp chọn lọc thủ công nào, ngoại trừ hình thu nhỏ (thumbnail) và hình ảnh độc lập xuất hiện bên ngoài.^B

Kiểm soát các thuộc tính

Chúng tôi kiểm tra khả năng của DALL·E trong việc sửa đổi một số thuộc tính của đối tượng cũng như số lần xuất hiện.

Đang tải...

Vẽ nhiều đối tượng

Việc kiểm soát đồng thời nhiều đối tượng, thuộc tính và mối quan hệ trong không gian của chúng là một thách thức mới. Ví dụ: hãy xem xét cụm từ “một con nhím đội mũ đỏ, đeo găng tay vàng, mặc áo xanh dương và quần xanh lá cây”. Để diễn giải đúng câu này, DALL·E không chỉ phải ghép đúng từng loại trang phục với loài vật mà còn phải hình thành các mối liên hệ (mũ, đỏ), (găng tay, vàng), (áo sơ mi, xanh dương) và (quần, xanh lá cây) mà không được xáo trộn chúng ^C

Chúng tôi kiểm tra khả năng của DALL·E trong việc xác định vị trí tương đối, xếp chồng các đối tượng và kiểm soát nhiều thuộc tính.

Đang tải...

Mặc dù DALL·E có thể kiểm soát các thuộc tính và vị trí của một số ít đối tượng, tỷ lệ thành công có thể phụ thuộc vào cách diễn đạt của chú thích. Khi có nhiều đối tượng được đưa vào hơn, DALL·E càng dễ nhầm lẫn mối liên hệ giữa các đối tượng và màu sắc của chúng, và tỷ lệ thành công sẽ giảm mạnh. Chúng tôi cũng lưu ý rằng DALL·E rất dễ thất bại khi diễn đạt lại chú thích trong các tình huống này: các chú thích thay thế, chú thích tương đương về mặt ngữ nghĩa thường không thể diễn giải chính xác.

Hình dung phối cảnh và không gian ba chiều

Chúng tôi thấy rằng DALL·E cũng cho phép kiểm soát góc nhìn của một khung cảnh và phong cách 3D mà cảnh đó được hiển thị.

Đang tải...

Để phát triển thêm, chúng tôi kiểm tra khả năng của DALL·E trong việc vẽ đi vẽ lại đầu của một nhân vật nổi tiếng ở mỗi góc từ một chuỗi các góc cách đều nhau và thấy rằng chúng tôi có thể khôi phục lại hình ảnh động mượt mà khi quay đầu.

Đang tải...

DALL·E dường như có thể áp dụng một số loại biến dạng quang học cho các cảnh, như chúng ta thấy với các tùy chọn “góc ống kính mắt cá” và “cảnh pano cầu”. Điều này thúc đẩy chúng tôi khám phá khả năng tạo ra ảnh phản chiếu.

Đang tải...

Hình dung cấu trúc bên trong và bên ngoài

Các mẫu từ phong cách "góc siêu cận cảnh" và "X quang" đã dẫn chúng tôi khám phá sâu hơn khả năng của DALL·E trong việc tái hiện cấu trúc bên trong bằng các góc mặt cắt ngang và cấu trúc bên ngoài bằng các bức ảnh chụp macro.

Đang tải...

Suy luận các chi tiết theo ngữ cảnh

Nhiệm vụ dịch văn bản thành hình ảnh không được chỉ định rõ ràng: một chú thích duy nhất thường có vô số hình ảnh hợp lý tương ứng, do đó hình ảnh không được xác định cụ thể. Ví dụ: hãy xem xét chú thích “bức tranh vẽ một con chuột lang nước đang ngồi trên cánh đồng lúc mặt trời mọc”. Tùy thuộc vào hướng đi của con chuột lang nước, có thể cần phải vẽ bóng, mặc dù chi tiết này không bao giờ được đề cập rõ ràng. Chúng tôi khám phá khả năng giải quyết tình trạng thiếu đặc tả của DALL·E trong ba trường hợp: thay đổi phong cách, bối cảnh và thời gian; vẽ cùng một đối tượng trong nhiều tình huống khác nhau; và tạo hình ảnh của một đối tượng kèm văn bản cụ thể trên đó.

Đang tải...

Với nhiều mức độ tin cậy khác nhau, DALL·E cho phép truy cập vào một tập hợp con các khả năng của công cụ kết xuất 3D thông qua ngôn ngữ tự nhiên. Nó có thể kiểm soát độc lập các thuộc tính của một số lượng nhỏ các đối tượng và ở một mức độ hạn chế, về số lượng các đối tượng và cách chúng được sắp xếp liên quan đến nhau. Nó cũng có thể kiểm soát vị trí và góc độ mà cảnh được kết xuất và có thể tạo ra các đối tượng đã biết theo đúng đặc tả về góc độ và điều kiện ánh sáng.

Không giống như công cụ kết xuất 3D thông thường, trong đó dữ liệu đầu vào phải được chỉ định rõ ràng và chi tiết, DALL·E thường có thể "điền vào chỗ trống" khi chú thích ngụ ý rằng hình ảnh phải chứa một chi tiết không được nêu rõ.

Ứng dụng các khả năng trước đó

Tiếp theo, chúng ta sẽ khám phá việc sử dụng các khả năng trước đó trong việc thiết kế thời trang và nội thất.

Đang tải...

Kết hợp các khái niệm không liên quan

Bản chất cấu thành ngôn ngữ cho phép chúng tôi kết hợp các khái niệm để mô tả cả sự vật thực tế và tưởng tượng. Chúng tôi thấy rằng DALL·E cũng có khả năng kết hợp các ý tưởng khác nhau để tổng hợp các đối tượng, trong đó một số không có thật. Chúng tôi khám phá khả năng này trong hai trường hợp: chuyển các tính chất từ nhiều khái niệm khác nhau sang động vật và thiết kế sản phẩm bằng cách lấy cảm hứng từ các khái niệm không liên quan.

Đang tải...

Hình minh họa động vật

Ở phần trước, chúng ta đã khám phá khả năng kết hợp các khái niệm không liên quan của DALL·E khi tạo ra hình ảnh của các đối tượng trong thế giới thực. Ở đây, chúng ta khám phá khả năng này trong bối cảnh nghệ thuật, dành cho ba loại hình minh họa: phiên bản nhân hóa của động vật và đồ vật, quái vật hình thú và biểu tượng cảm xúc.

Đang tải...

Suy luận trực quan Zero-shot

GPT‑3 có thể được hướng dẫn thực hiện nhiều loại tác vụ chỉ dựa trên mô tả và gợi ý để tạo ra câu trả lời được cung cấp trong lời nhắc mà không cần bất kỳ huấn luyện bổ sung nào. Ví dụ: khi lời nhắc có cụm từ “đây là câu ‘một người đang dắt chó đi dạo trong công viên’ được dịch sang tiếng Pháp:”, GPT‑3 trả lời “un homme qui promène son chien dans le parc.” Khả năng này được gọi là suy luận zero-shot. Chúng tôi thấy rằng DALL·E mở rộng khả năng này sang phạm vi thị giác và có thể thực hiện một số loại tác vụ dịch hình ảnh sang hình ảnh khi có lời nhắc phù hợp.

Đang tải...

Chúng tôi không lường trước được khả năng này sẽ xuất hiện và không thực hiện bất kỳ thay đổi nào đối với mạng thần kinh hoặc quy trình huấn luyện để khuyến khích phát triển nó. Dựa trên những kết quả này, chúng tôi đo lường năng lực của DALL·E đối với các vấn đề suy luận tương tự bằng cách kiểm tra nó trên các ma trận lũy tiến của Raven, một bài kiểm tra IQ trực quan được sử dụng rộng rãi vào thế kỷ 20.

Đang tải...

Kiến thức địa lý

Chúng tôi thấy rằng DALL·E đã tìm hiểu về các sự kiện địa lý, địa danh và khu vực lân cận. Kiến thức của nó về những khái niệm này khá chính xác ở một số khía cạnh và lại có sai sót ở một số khía cạnh khác.

Đang tải...

Kiến thức thời gian

Ngoài việc khám phá kiến thức của DALL·E về các khái niệm thay đổi theo không gian, chúng tôi còn khám phá kiến thức của DALL·E về các khái niệm thay đổi theo thời gian.

Đang tải...

Tóm tắt về cách tiếp cận và công việc trước đây

DALL·E là một transformer chỉ giải mã đơn giản, tiếp nhận cả văn bản và hình ảnh dưới dạng một luồng duy nhất gồm 1280 token—256 cho văn bản và 1024 cho hình ảnh—và lập mô hình tất cả chúng theo cách tự hồi quy. Mặt nạ tập trung tại mỗi lớp trong số 64 lớp tự tập trung cho phép mỗi token hình ảnh có mặt trong tất cả các token văn bản. DALL·E sử dụng mặt nạ nguyên nhân-kết quả tiêu chuẩn cho các token văn bản và sự tập trung rải rác cho các token hình ảnh với mẫu tập trung theo hàng, cột hoặc tích chập, tùy vào lớp. Chúng tôi cung cấp thêm thông tin chi tiết về kiến trúc và quy trình huấn luyện trong báo cáo⁠(mở trong cửa sổ mới) của mình.

Tổng hợp văn bản thành hình ảnh đã là một lĩnh vực nghiên cứu tích cực kể từ công trình tiên phong của Reed và cộng sự,¹, với phương pháp tiếp cận sử dụng GAN có điều kiện là nhúng văn bản. Các hệ thống nhúng được tạo ra bởi bộ mã hóa được huấn luyện trước bằng cách sử dụng hàm mất mát đối chứng, không giống như CLIP. StackGAN³ và StackGAN++⁴ sử dụng GAN đa tỷ lệ để tăng độ phân giải và cải thiện độ trung thực của hình ảnh. AttnGAN⁵ kết hợp sự tập trung giữa các đặc điểm văn bản và hình ảnh, và đề xuất một đặc điểm văn bản-hình ảnh đối chứng phù hợp với hàm mất mát như một mục tiêu phụ trợ. Điều này thật thú vị khi so sánh với việc xếp hạng lại ngoại tuyến bằng CLIP của chúng tôi. Các công trình khác^{2, 6, 7} kết hợp các nguồn giám sát bổ sung trong quá trình huấn luyện để cải thiện chất lượng hình ảnh. Cuối cùng, công trình của Nguyen và cộng sự⁸ và Cho và cộng sự⁹ khám phá các chiến lược từ lấy mẫu để tạo hình ảnh, tận dụng các mô hình phân biệt đa phương thức được huấn luyện trước.

Tương tự như phương pháp lấy mẫu loại trừ được sử dụng trong VQVAE-2⁠(mở trong cửa sổ mới), chúng tôi sử dụng CLIP⁠ để xếp hạng lại 32 mẫu hàng đầu trong số 512 mẫu cho mỗi chú thích trong tất cả các hình ảnh tương tác. Quy trình này cũng có thể được coi là một loại tìm kiếm được hướng dẫn bằng ngôn ngữ¹⁶ và có thể có tác động đáng kể đến chất lượng mẫu.

Đang tải...

Ghi chú cuối trang

A
Một token là bất kỳ ký hiệu nào từ một kho từ vựng riêng biệt; đối với con người, mỗi chữ cái tiếng Anh là một token từ bảng chữ cái gồm 26 chữ cái. Từ vựng của DALL·E có token cho cả khái niệm văn bản và hình ảnh. Cụ thể, mỗi chú thích hình ảnh được biểu diễn bằng tối đa 256 token được mã hóa BPE với kích thước kho từ vựng là 16384 và hình ảnh được biểu diễn bằng 1024 token với kích thước kho từ vựng là 8192.

Hình ảnh được xử lý trước ở độ phân giải 256x256 trong quá trình huấn luyện. Tương tự như VQVAE, mỗi hình ảnh được nén thành lưới 32x32 mã tiềm ẩn rời rạc bằng cách sử dụng VAE rời rạc mà chúng tôi đã huấn luyện trước bằng cách sử dụng quá trình nới lỏng liên tục. Chúng tôi thấy rằng việc huấn luyện bằng cách sử dụng quá trình nới lỏng giúp loại bỏ nhu cầu về bảng mã rõ ràng, mất mát EMA hoặc các thủ thuật như khôi phục mã không cần thiết và có thể mở rộng lên các kích thước kho từ vựng lớn.