DALL·E: Tạo hình ảnh từ văn bản
Chúng tôi đã huấn luyện một mạng thần kinh có tên là DALL·E có khả năng tạo ra hình ảnh từ chú thích văn bản cho nhiều khái niệm có thể diễn đạt bằng ngôn ngữ tự nhiên.

Hình minh họa: Justin Jay Wang
DALL·E là phiên bản với 12 tỷ tham số của GPT‑3(mở trong cửa sổ mới) được huấn luyện để tạo hình ảnh từ mô tả văn bản, bằng cách sử dụng tập dữ liệu gồm các cặp văn bản–hình ảnh. Chúng tôi nhận thấy rằng nó có rất nhiều khả năng, bao gồm tạo ra các phiên bản nhân hóa của động vật và đồ vật, kết hợp các khái niệm không liên quan theo những cách hợp lý, hiển thị văn bản và áp dụng các phép biến đổi vào hình ảnh hiện tại.
Xem thêm: DALL·E 2 tạo ra hình ảnh chân thực và chính xác hơn với độ phân giải cao hơn gấp 4 lần.
GPT‑3 cho thấy ngôn ngữ có thể được sử dụng để hướng dẫn mạng thần kinh lớn thực hiện nhiều tác vụ tạo văn bản khác nhau. Image GPT cho thấy cùng loại mạng thần kinh cũng có thể được sử dụng để tạo ra hình ảnh có độ trung thực cao. Chúng tôi mở rộng những phát hiện này để chứng minh rằng việc điều khiển các khái niệm trực quan thông qua ngôn ngữ hiện hoàn toàn khả thi.
Giống như GPT‑3, DALL·E là một mô hình ngôn ngữ transformer. Mô hình này nhận cả văn bản và hình ảnh dưới dạng một luồng dữ liệu duy nhất chứa tối đa 1280 token và được huấn luyện bằng cách sử dụng toàn bộ khả năng để tạo ra lần lượt tất cả các token. A
Quy trình huấn luyện này cho phép DALL·E không chỉ tạo mới hình ảnh mà còn tái tạo bất kỳ vùng hình chữ nhật nào của hình ảnh hiện có, kéo dài đến góc dưới bên phải, trong khi vẫn tuân thủ với lời nhắc văn bản.
Chúng tôi nhận thấy rằng công việc liên quan đến mô hình tạo sinh có tiềm năng tạo ra những tác động to lớn và sâu rộng trong xã hội. Trong tương lai, chúng tôi có kế hoạch phân tích mối quan hệ giữa các mô hình như DALL·E với các vấn đề xã hội như tác động kinh tế đến một số quy trình làm việc và nghề nghiệp nhất định, khả năng xuất hiện thiên kiến trong kết quả đầu ra của mô hình và những thách thức về mặt đạo đức dài hạn mà công nghệ này tiềm ẩn.
Chúng tôi thấy rằng DALL·E có khả năng tạo ra những hình ảnh hợp lý cho nhiều loại câu khác nhau nhằm khám phá cấu trúc thành phần của ngôn ngữ. Chúng tôi minh họa điều này bằng một loạt hình ảnh tương tác ở phần tiếp theo. Các mẫu hiển thị cho mỗi chú thích trong hình ảnh được thu thập bằng cách lấy 32 trong số 512 chú thích sau khi xếp hạng lại bằng CLIP, nhưng chúng tôi không sử dụng bất kỳ phương pháp chọn lọc thủ công nào, ngoại trừ hình thu nhỏ (thumbnail) và hình ảnh độc lập xuất hiện bên ngoài.B
Chúng tôi kiểm tra khả năng của DALL·E trong việc sửa đổi một số thuộc tính của đối tượng cũng như số lần xuất hiện.
Việc kiểm soát đồng thời nhiều đối tượng, thuộc tính và mối quan hệ trong không gian của chúng là một thách thức mới. Ví dụ: hãy xem xét cụm từ “một con nhím đội mũ đỏ, đeo găng tay vàng, mặc áo xanh dương và quần xanh lá cây”. Để diễn giải đúng câu này, DALL·E không chỉ phải ghép đúng từng loại trang phục với loài vật mà còn phải hình thành các mối liên hệ (mũ, đỏ), (găng tay, vàng), (áo sơ mi, xanh dương) và (quần, xanh lá cây) mà không được xáo trộn chúng C
Chúng tôi kiểm tra khả năng của DALL·E trong việc xác định vị trí tương đối, xếp chồng các đối tượng và kiểm soát nhiều thuộc tính.
Mặc dù DALL·E có thể kiểm soát các thuộc tính và vị trí của một số ít đối tượng, tỷ lệ thành công có thể phụ thuộc vào cách diễn đạt của chú thích. Khi có nhiều đối tượng được đưa vào hơn, DALL·E càng dễ nhầm lẫn mối liên hệ giữa các đối tượng và màu sắc của chúng, và tỷ lệ thành công sẽ giảm mạnh. Chúng tôi cũng lưu ý rằng DALL·E rất dễ thất bại khi diễn đạt lại chú thích trong các tình huống này: các chú thích thay thế, chú thích tương đương về mặt ngữ nghĩa thường không thể diễn giải chính xác.
Chúng tôi thấy rằng DALL·E cũng cho phép kiểm soát góc nhìn của một khung cảnh và phong cách 3D mà cảnh đó được hiển thị.
Để phát triển thêm, chúng tôi kiểm tra khả năng của DALL·E trong việc vẽ đi vẽ lại đầu của một nhân vật nổi tiếng ở mỗi góc từ một chuỗi các góc cách đều nhau và thấy rằng chúng tôi có thể khôi phục lại hình ảnh động mượt mà khi quay đầu.
DALL·E dường như có thể áp dụng một số loại biến dạng quang học cho các cảnh, như chúng ta thấy với các tùy chọn “góc ống kính mắt cá” và “cảnh pano cầu”. Điều này thúc đẩy chúng tôi khám phá khả năng tạo ra ảnh phản chiếu.
Các mẫu từ phong cách "góc siêu cận cảnh" và "X quang" đã dẫn chúng tôi khám phá sâu hơn khả năng của DALL·E trong việc tái hiện cấu trúc bên trong bằng các góc mặt cắt ngang và cấu trúc bên ngoài bằng các bức ảnh chụp macro.
Nhiệm vụ dịch văn bản thành hình ảnh không được chỉ định rõ ràng: một chú thích duy nhất thường có vô số hình ảnh hợp lý tương ứng, do đó hình ảnh không được xác định cụ thể. Ví dụ: hãy xem xét chú thích “bức tranh vẽ một con chuột lang nước đang ngồi trên cánh đồng lúc mặt trời mọc”. Tùy thuộc vào hướng đi của con chuột lang nước, có thể cần phải vẽ bóng, mặc dù chi tiết này không bao giờ được đề cập rõ ràng. Chúng tôi khám phá khả năng giải quyết tình trạng thiếu đặc tả của DALL·E trong ba trường hợp: thay đổi phong cách, bối cảnh và thời gian; vẽ cùng một đối tượng trong nhiều tình huống khác nhau; và tạo hình ảnh của một đối tượng kèm văn bản cụ thể trên đó.
Với nhiều mức độ tin cậy khác nhau, DALL·E cho phép truy cập vào một tập hợp con các khả năng của công cụ kết xuất 3D thông qua ngôn ngữ tự nhiên. Nó có thể kiểm soát độc lập các thuộc tính của một số lượng nhỏ các đối tượng và ở một mức độ hạn chế, về số lượng các đối tượng và cách chúng được sắp xếp liên quan đến nhau. Nó cũng có thể kiểm soát vị trí và góc độ mà cảnh được kết xuất và có thể tạo ra các đối tượng đã biết theo đúng đặc tả về góc độ và điều kiện ánh sáng.
Không giống như công cụ kết xuất 3D thông thường, trong đó dữ liệu đầu vào phải được chỉ định rõ ràng và chi tiết, DALL·E thường có thể "điền vào chỗ trống" khi chú thích ngụ ý rằng hình ảnh phải chứa một chi tiết không được nêu rõ.
Tiếp theo, chúng ta sẽ khám phá việc sử dụng các khả năng trước đó trong việc thiết kế thời trang và nội thất.
Bản chất cấu thành ngôn ngữ cho phép chúng tôi kết hợp các khái niệm để mô tả cả sự vật thực tế và tưởng tượng. Chúng tôi thấy rằng DALL·E cũng có khả năng kết hợp các ý tưởng khác nhau để tổng hợp các đối tượng, trong đó một số không có thật. Chúng tôi khám phá khả năng này trong hai trường hợp: chuyển các tính chất từ nhiều khái niệm khác nhau sang động vật và thiết kế sản phẩm bằng cách lấy cảm hứng từ các khái niệm không liên quan.
Ở phần trước, chúng ta đã khám phá khả năng kết hợp các khái niệm không liên quan của DALL·E khi tạo ra hình ảnh của các đối tượng trong thế giới thực. Ở đây, chúng ta khám phá khả năng này trong bối cảnh nghệ thuật, dành cho ba loại hình minh họa: phiên bản nhân hóa của động vật và đồ vật, quái vật hình thú và biểu tượng cảm xúc.
GPT‑3 có thể được hướng dẫn thực hiện nhiều loại tác vụ chỉ dựa trên mô tả và gợi ý để tạo ra câu trả lời được cung cấp trong lời nhắc mà không cần bất kỳ huấn luyện bổ sung nào. Ví dụ: khi lời nhắc có cụm từ “đây là câu ‘một người đang dắt chó đi dạo trong công viên’ được dịch sang tiếng Pháp:”, GPT‑3 trả lời “un homme qui promène son chien dans le parc.” Khả năng này được gọi là suy luận zero-shot. Chúng tôi thấy rằng DALL·E mở rộng khả năng này sang phạm vi thị giác và có thể thực hiện một số loại tác vụ dịch hình ảnh sang hình ảnh khi có lời nhắc phù hợp.
Chúng tôi không lường trước được khả năng này sẽ xuất hiện và không thực hiện bất kỳ thay đổi nào đối với mạng thần kinh hoặc quy trình huấn luyện để khuyến khích phát triển nó. Dựa trên những kết quả này, chúng tôi đo lường năng lực của DALL·E đối với các vấn đề suy luận tương tự bằng cách kiểm tra nó trên các ma trận lũy tiến của Raven, một bài kiểm tra IQ trực quan được sử dụng rộng rãi vào thế kỷ 20.
Chúng tôi thấy rằng DALL·E đã tìm hiểu về các sự kiện địa lý, địa danh và khu vực lân cận. Kiến thức của nó về những khái niệm này khá chính xác ở một số khía cạnh và lại có sai sót ở một số khía cạnh khác.
Ngoài việc khám phá kiến thức của DALL·E về các khái niệm thay đổi theo không gian, chúng tôi còn khám phá kiến thức của DALL·E về các khái niệm thay đổi theo thời gian.
DALL·E là một transformer chỉ giải mã đơn giản, tiếp nhận cả văn bản và hình ảnh dưới dạng một luồng duy nhất gồm 1280 token—256 cho văn bản và 1024 cho hình ảnh—và lập mô hình tất cả chúng theo cách tự hồi quy. Mặt nạ tập trung tại mỗi lớp trong số 64 lớp tự tập trung cho phép mỗi token hình ảnh có mặt trong tất cả các token văn bản. DALL·E sử dụng mặt nạ nguyên nhân-kết quả tiêu chuẩn cho các token văn bản và sự tập trung rải rác cho các token hình ảnh với mẫu tập trung theo hàng, cột hoặc tích chập, tùy vào lớp. Chúng tôi cung cấp thêm thông tin chi tiết về kiến trúc và quy trình huấn luyện trong báo cáo(mở trong cửa sổ mới) của mình.
Tổng hợp văn bản thành hình ảnh đã là một lĩnh vực nghiên cứu tích cực kể từ công trình tiên phong của Reed và cộng sự,1, với phương pháp tiếp cận sử dụng GAN có điều kiện là nhúng văn bản. Các hệ thống nhúng được tạo ra bởi bộ mã hóa được huấn luyện trước bằng cách sử dụng hàm mất mát đối chứng, không giống như CLIP. StackGAN3 và StackGAN++4 sử dụng GAN đa tỷ lệ để tăng độ phân giải và cải thiện độ trung thực của hình ảnh. AttnGAN5 kết hợp sự tập trung giữa các đặc điểm văn bản và hình ảnh, và đề xuất một đặc điểm văn bản-hình ảnh đối chứng phù hợp với hàm mất mát như một mục tiêu phụ trợ. Điều này thật thú vị khi so sánh với việc xếp hạng lại ngoại tuyến bằng CLIP của chúng tôi. Các công trình khác2, 6, 7 kết hợp các nguồn giám sát bổ sung trong quá trình huấn luyện để cải thiện chất lượng hình ảnh. Cuối cùng, công trình của Nguyen và cộng sự8 và Cho và cộng sự9 khám phá các chiến lược từ lấy mẫu để tạo hình ảnh, tận dụng các mô hình phân biệt đa phương thức được huấn luyện trước.
Tương tự như phương pháp lấy mẫu loại trừ được sử dụng trong VQVAE-2(mở trong cửa sổ mới), chúng tôi sử dụng CLIP để xếp hạng lại 32 mẫu hàng đầu trong số 512 mẫu cho mỗi chú thích trong tất cả các hình ảnh tương tác. Quy trình này cũng có thể được coi là một loại tìm kiếm được hướng dẫn bằng ngôn ngữ16 và có thể có tác động đáng kể đến chất lượng mẫu.
Ghi chú cuối trang
- A
Một token là bất kỳ ký hiệu nào từ một kho từ vựng riêng biệt; đối với con người, mỗi chữ cái tiếng Anh là một token từ bảng chữ cái gồm 26 chữ cái. Từ vựng của DALL·E có token cho cả khái niệm văn bản và hình ảnh. Cụ thể, mỗi chú thích hình ảnh được biểu diễn bằng tối đa 256 token được mã hóa BPE với kích thước kho từ vựng là 16384 và hình ảnh được biểu diễn bằng 1024 token với kích thước kho từ vựng là 8192.
Hình ảnh được xử lý trước ở độ phân giải 256x256 trong quá trình huấn luyện. Tương tự như VQVAE, mỗi hình ảnh được nén thành lưới 32x32 mã tiềm ẩn rời rạc bằng cách sử dụng VAE rời rạc mà chúng tôi đã huấn luyện trước bằng cách sử dụng quá trình nới lỏng liên tục. Chúng tôi thấy rằng việc huấn luyện bằng cách sử dụng quá trình nới lỏng giúp loại bỏ nhu cầu về bảng mã rõ ràng, mất mát EMA hoặc các thủ thuật như khôi phục mã không cần thiết và có thể mở rộng lên các kích thước kho từ vựng lớn.
- B
Thông tin thêm có trong phần sau.
- 17
Tác vụ này được gọi là liên kết biến và đã được nghiên cứu rộng rãi trong tài liệu.
Tài liệu tham khảo
- 1
Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., Lee, H. (2016). “Generative adversarial text to image synthesis(mở trong cửa sổ mới)”. In ICML 2016.
- 2
Reed, S., Akata, Z., Mohan, S., Tenka, S., Schiele, B., Lee, H. (2016). “Learning what and where to draw(mở trong cửa sổ mới)”. In NIPS 2016.
- 3
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang X., Metaxas, D. (2016). “StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks(mở trong cửa sổ mới)”. In ICCY 2017.
- 4
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., Metaxas, D. (2017). “StackGAN++: realistic image synthesis with stacked generative adversarial networks(mở trong cửa sổ mới)”. In IEEE TPAMI 2018.
- 5
Xu, T., Zhang, P., Huang, Q., Zhang, H., Gan, Z., Huang, X., He, X. (2017). “AttnGAN: Fine-grained text to image generation with attentional generative adversarial networks(mở trong cửa sổ mới).
- 6
Li, W., Zhang, P., Zhang, L., Huang, Q., He, X., Lyu, S., Gao, J. (2019). “Object-driven text-to-image synthesis via adversarial training(mở trong cửa sổ mới)”. In CVPR 2019.
- 7
Koh, J. Y., Baldridge, J., Lee, H., Yang, Y. (2020). “Text-to-image generation grounded by fine-grained user attention(mở trong cửa sổ mới)”. In WACV 2021.
- 8
Nguyen, A., Clune, J., Bengio, Y., Dosovitskiy, A., Yosinski, J. (2016). “Plug & play generative networks: conditional iterative generation of images in latent space(mở trong cửa sổ mới).
- 9
Cho, J., Lu, J., Schwen, D., Hajishirzi, H., Kembhavi, A. (2020). “X-LXMERT: Paint, caption, and answer questions with multi-modal transformers(mở trong cửa sổ mới)”. EMNLP 2020.
- 10
Kingma, Diederik P. và Max Welling. “Auto-encoding variational bayes(mở trong cửa sổ mới).” arXiv preprint (2013).
- 11
Rezende, Danilo Jimenez, Shakir Mohamed và Daan Wierstra. “Stochastic backpropagation and approximate inference in deep generative models(mở trong cửa sổ mới).” arXiv preprint (2014).
- 12
Jang, E., Gu, S., Poole, B. (2016). “Categorical reparametrization with Gumbel-softmax(mở trong cửa sổ mới)”.
- 13
Maddison, C., Mnih, A., Teh, Y. W. (2016). “The Concrete distribution: a continuous relaxation of discrete random variables(mở trong cửa sổ mới)”.
- 14
van den Oord, A., Vinyals, O., Kavukcuoglu, K. (2017). “Neural discrete representation learning(mở trong cửa sổ mới)”.
- 15
Razavi, A., van der Oord, A., Vinyals, O. (2019). “Generating diverse high-fidelity images with VQ-VAE-2(mở trong cửa sổ mới)”.
- 16
Andreas, J., Klein, D., Levine, S. (2017). “Learning with Latent Language(mở trong cửa sổ mới)”.
- 17
- 18
- 19
Gayler, R. (1998). “Multiplicative binding, representation operators & analogy(mở trong cửa sổ mới)”.
- 20
Kanerva, P. (1997). “Fully distributed representations(mở trong cửa sổ mới)”.


