Bỏ qua nội dung chính
OpenAI

13 tháng 5, 2024

Cột mốc

Xin chào GPT‑4o

Chúng tôi xin công bố GPT‑4o, mô hình tối tân mới của chúng tôi, với khả năng suy luận đồng thời về âm thanh, hình ảnh và văn bản theo thời gian thực.

Tất cả các video trên trang này đều ở tốc độ thực 1x.

Dự đoán về công bố ngày 13 tháng 5.

Đang tải…

GPT‑4o (“o” nghĩa là “omni”) là một bước tiến quan trọng hướng tới sự tương tác giữa người-máy tự nhiên hơn rất nhiều—mô hình này chấp nhận dữ liệu đầu vào là bất kỳ sự kết hợp nào giữa văn bản, âm thanh, hình ảnh và video, đồng thời tạo ra kết quả đầu ra là bất cứ kết hợp nào giữa văn bản, âm thanh và hình ảnh. Mô hình có khả năng phản hồi các tín hiệu âm thanh đầu vào nhanh chóng, chỉ từ 232 miligiây và trung bình là 320 miligiây, tương đương với thời gian phản ứng của con người(mở trong cửa sổ mới) trong một cuộc trò chuyện. Mô hình này đạt hiệu năng tương đương GPT‑4 Turbo đối với văn bản tiếng Anh và code, với cải tiến vượt trội cho văn bản bằng các ngôn ngữ khác không phải tiếng Anh. Đồng thời, mô hình cũng nhanh hơn đáng kể và có chi phí API rẻ hơn 50%. GPT‑4o đặc biệt tiến bộ hơn trong khả năng hiểu âm thanh và hình ảnh so với các mô hình hiện có.

Năng lực mô hình

Trước GPT‑4o, bạn có thể sử dụng Chế độ Giọng nói để nói chuyện với ChatGPT với độ trễ trung bình là 2,8 giây (GPT‑3.5) và 5,4 giây (GPT‑4). Để đạt được điều này, Chế độ Giọng nói là một quy trình xử lý gồm ba mô hình riêng biệt: một mô hình đơn giản chuyển đổi âm thanh thành văn bản, GPT‑3.5 hoặc GPT‑4 tiếp nhận văn bản đầu vào và xuất văn bản đầu ra, và một mô hình đơn giản thứ ba chuyển đổi văn bản đó trở lại thành âm thanh. Chính quy trình này làm cho GPT‑4, nguồn cung cấp trí thông minh chủ yếu, bị thất thoát nhiều thông tin quan trọng. Cụ thể, mô hình này không thể nhận biết trực tiếp ngữ điệu, giọng nhiều người nói, hay các tạp âm nền, đồng thời cũng không thể tạo ra tiếng cười, tiếng hát hoặc biểu lộ cảm xúc.

Với GPT‑4o, chúng tôi đã huấn luyện một mô hình mới duy nhất từ ​​đầu đến cuối bằng văn bản, hình ảnh và âm thanh, có nghĩa là tất cả các đầu vào và đầu ra đều được xử lý bởi cùng một mạng thần kinh. Vì GPT‑4o là mô hình đầu tiên kết hợp tất cả các phương thức này, chúng tôi vẫn chỉ ở giai đoạn khám phá ban đầu những gì mô hình làm được cũng như các hạn chế của nó.

Khám phá các năng lực

Chọn mẫu:
1
Đầu vào

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Đầu ra
Robot on typewriter
3
Đầu vào

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Đầu ra
Robot on typewriter with more text
5
Đầu vào

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Đầu ra
Robot ripping sheet

Đánh giá mô hình

Khi được đo lường trên các bộ tiêu chuẩn truyền thống, GPT‑4o đạt hiệu năng tương đương GPT‑4 Turbo về khả năng xử lý văn bản, suy luận và trí tuệ lập trình, đồng thời thiết lập những cột mốc ấn tượng mới về năng lực đa ngôn ngữ, âm thanh và thị giác.

Đánh giá văn bản

Mã hóa token ngôn ngữ

20 ngôn ngữ này đã được chọn làm đại diện cho khả năng nén bộ mã hóa token mới trên các họ ngôn ngữ khác nhau

Tiếng Gujarati có token ít hơn 4,4 lần (từ 145 xuống 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Tiếng Telugu có token ít hơn 3,5 lần (từ 159 xuống 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Tiếng Tamil có token ít hơn 3,3 lần (từ 116 xuống 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Tiếng Marathi có token ít hơn 2,0 lần (từ 96 xuống 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Tiếng Hindi có token ít hơn 2,0 lần (từ 90 xuống 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Tiếng Urdu có token ít hơn 2,5 lần (từ 82 xuống 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Tiếng Ả Rập có token ít hơn 2,0 lần (từ 53 xuống 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Tiếng Ba Tư có token ít hơn 1,9 lần (từ 61 xuống 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Tiếng Nga có token ít hơn 1,7 lần (từ 39 xuống 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Tiếng Hàn có token ít hơn 1,2 lần (từ 45 xuống 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Tiếng Việt có token ít hơn 1,5 lần (từ 46 xuống 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Tiếng Trung có token ít hơn 1,4 lần (từ 34 xuống 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Tiếng Nhật có token ít hơn 1,4 lần (từ 37 xuống 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Tiếng Thổ Nhĩ Kỳ có token ít hơn 1,3 lần (từ 39 xuống 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Tiếng Ý có token ít hơn 1,2 lần (từ 34 xuống 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Tiếng Đức có token ít hơn 1,2 lần (từ 34 xuống 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Tiếng Tây Ban Nha có token ít hơn 1,1 lần (từ 29 xuống 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Tiếng Bồ Đào Nha có token ít hơn 1,1 lần (từ 30 xuống 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Tiếng Pháp có token ít hơn 1,1 lần (từ 31 xuống 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Tiếng Anh có token ít hơn 1,1 lần (từ 27 xuống 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Tính an toàn và giới hạn của mô hình

GPT‑4o được tích hợp sẵn các cơ chế an toàn ngay từ khâu thiết kế trên mọi phương thức hoạt động, thông qua các kỹ thuật như lọc dữ liệu huấn luyện và tinh chỉnh hành vi của mô hình sau huấn luyện. Chúng tôi cũng đã tạo ra các hệ thống an toàn mới nhằm thiết lập biện pháp bảo vệ cho các nội dung giọng nói được tạo ra.

Chúng tôi đã đánh giá GPT‑4o theo Khuôn khổ Sẵn sàng và phù hợp với các cam kết tự nguyện của mình. Các đánh giá của chúng tôi về an ninh mạng, nguy cơ Hóa học-Sinh học-Bức xạ-Hạt nhân (CBRN), khả năng thuyết phục, và mức độ tự chủ của mô hình cho thấy GPT‑4o không bị xếp hạng rủi ro cao hơn mức Trung bình trong bất cứ hạng mục nào kể trên. Quá trình đánh giá này bao gồm việc thực hiện một loạt các bài kiểm tra tự động và kiểm tra bởi con người trong suốt quá trình huấn luyện mô hình. Chúng tôi đã thử nghiệm cả phiên bản mô hình trước và sau khi áp dụng các biện pháp giảm thiểu rủi ro an toàn, sử dụng tinh chỉnh tùy chỉnh và lời nhắc chuyên biệt, nhằm mục đích khơi gợi và đánh giá sâu hơn các năng lực của mô hình.

GPT‑4o cũng đã trải qua các đợt kiểm thử đối kháng chuyên sâu từ bên ngoài với sự tham gia của hơn 70 chuyên gia độc lập trong các lĩnh vực như tâm lý học xã hội, thiên kiến và tính công bằng, cũng như thông tin sai lệch, nhằm xác định các rủi ro mới phát sinh hoặc bị khuếch đại bởi các phương thức mới được bổ sung. Chúng tôi đã sử dụng những bài học này để xây dựng các biện pháp can thiệp an toàn nhằm cải thiện sự an toàn của việc tương tác với GPT‑4o. Chúng tôi sẽ tiếp tục giảm thiểu những rủi ro mới khi phát hiện ra chúng.

Chúng tôi nhận ra rằng các phương thức âm thanh của GPT‑4o có nhiều rủi ro mới. Hôm nay, chúng tôi ra mắt công chúng tính năng xử lý đầu vào dạng văn bản và hình ảnh, với kết quả đầu ra dạng văn bản. Trong những tuần và tháng tới, chúng tôi sẽ tập trung hoàn thiện cơ sở hạ tầng kỹ thuật, khả năng sử dụng thông qua tinh chỉnh sau huấn luyện, và các yếu tố an toàn cần thiết để ra mắt các phương thức khác. Ví dụ, tại thời điểm ra mắt, âm thanh tạo ra sẽ chỉ dùng một số giọng nói được cài đặt sẵn và sẽ tuân thủ các chính sách an toàn hiện hữu của chúng tôi. Chúng tôi sẽ chia sẻ thêm chi tiết về toàn bộ các phương thức của GPT‑4o trong tài liệu hệ thống sắp tới.

Qua thử nghiệm và cải tiến lặp lại với mô hình, chúng tôi đã ghi nhận một số hạn chế tồn tại ở tất cả các phương thức của mô hình, một vài trong số đó được minh họa dưới đây.

Ví dụ về các giới hạn của mô hình

Chúng tôi rất mong ý kiến phản hồi để giúp xác định các tác vụ trong đó GPT‑4 Turbo vẫn vượt trội so với GPT‑4o, nhờ đó chúng tôi có thể tiếp tục cải thiện mô hình. 

Phiếu đánh giá rủi ro ChatGPT-4o

Cập nhật ngày 08 tháng 5 năm 2024

Danh mục rủi ro được theo dõi
Mức độ rủi ro trước giảm thiểu
Xác định mức độ rủi ro trước khi giảm thiểu bằng cách sử dụng các kỹ thuật khai thác năng lực tốt nhất đã biết
Mức độ rủi ro sau giảm thiểu
Xác định mức độ rủi ro tổng thể sau khi các biện pháp giảm thiểu được áp dụng bằng cách sử dụng các kỹ thuật khai thác năng lực tốt nhất đã biết
An ninh mạng
Thấp
Thấp
CBRN
Thấp
Thấp
Thuyết phục
Trung bình
Trung bình
Tự chủ mô hình
Thấp
Thấp

Là một phần của Khuôn khổ Sẵn sàng, chúng tôi sẽ tiến hành đánh giá thường xuyên và cập nhật phiếu đánh giá cho các mô hình của chúng tôi. Chỉ các mô hình có điểm số sau giảm thiểu rủi ro ở mức “trung bình” hoặc thấp hơn mới được triển khai. Mức độ rủi ro tổng thể của một mô hình được xác định bởi mức rủi ro cao nhất trong bất kỳ hạng mục nào. Hiện tại, GPT‑4o được đánh giá ở mức rủi ro trung bình cả trước và sau các biện pháp giảm thiểu rủi ro.

Tính sẵn có của mô hình

GPT‑4o là bước tiến mới nhất của chúng tôi trong việc mở rộng những giới hạn của học sâu (deep learning), lần này là theo hướng nâng cao tính ứng dụng thực tiễn. Chúng tôi đã đầu tư rất nhiều nỗ lực trong hai năm qua để cải thiện hiệu quả hoạt động ở mỗi tầng lớp trong toàn bộ cấu trúc công nghệ của mình. Nhờ thành quả ban đầu từ nghiên cứu này, chúng tôi có thể cung cấp một mô hình cấp GPT‑4 đến với đông đảo người dùng hơn. Các năng lực của GPT‑4o sẽ được phát hành theo từng giai đoạn (với quyền truy cập mở rộng cho đội ngũ 'Red Team' bắt đầu từ hôm nay). 

Các tính năng xử lý văn bản và hình ảnh của GPT‑4o sẽ bắt đầu triển khai từ hôm nay trong ChatGPT. Chúng tôi đang cung cấp GPT‑4o miễn phí, và cho người dùng Plus có định mức số tin nhắn cao hơn tới 5 lần. Chúng tôi sẽ triển khai một phiên bản mới của Chế độ Giọng nói với GPT‑4o ở giai đoạn alpha trong gói ChatGPT Plus trong vài tuần sắp tới.

Các nhà phát triển giờ đây cũng có thể truy cập GPT‑4o trong API dưới dạng một mô hình xử lý văn bản và hình ảnh. So với GPT‑4 Turbo, GPT‑4o nhanh gấp 2 lần, có giá chỉ bằng một nửa và giới hạn tần suất yêu cầu cao gấp 5 lần. Trong vài tuần sắp tới, chúng tôi dự định sẽ bắt đầu hỗ trợ các tính năng âm thanh và video mới của GPT‑4o qua API cho một nhóm nhỏ các đối tác thân thiết.