Үндсэн агуулга руу алгасах
OpenAI

2024 оны тавдугаар сарын 13

Амжилт

Сайн уу GPT‑4o

Бид аудио, дүрс, текстийг бодит цагт сэтгэн бодож чаддаг шинэ тэргүүлэх загвар GPT‑4o‑оо танилцуулж байна.

Энэ хуудсан дээрх бүх видео 1x бодит цагийн хурдаар байна.

5-р сарын 13-ны зарлалыг таамаглах нь.

Ачаалж байна…

GPT‑4o ("o" нь "omni" гэсэн утгатай) нь хүн-компьютерийн харилцааг илүү байгаллаг болгох зүгт хийсэн нэг алхам юм—энэ нь текст, аудио, зураг, видеоноос бүрдсэн ямар ч хослолыг оролт болгон авч, текст, аудио, зургийн ямар ч хослолыг гаралт болгон үүсгэдэг. Энэ нь аудио оролтод хамгийн багадаа 232 миллисекундэд, дунджаар 320 миллисекундэд хариу өгч чаддаг бөгөөд энэ нь ярианы үеийн хүний хариу өгөх хугацаа(шинэ цонхонд нээгдэнэ)-тай төстэй. Энэ нь англи хэлний текст болон код дээр GPT‑4 Turbo-ийн гүйцэтгэлтэй дүйцэхийн зэрэгцээ англи бус хэл дээрх текст дээр мэдэгдэхүйц сайжирсан бөгөөд API дээр илүү хурдан, 50% хямд юм. GPT‑4o нь одоогийн загваруудтай харьцуулахад ялангуяа дүрс болон аудио ойлголтоор илүү сайн.

Загварын чадамж

GPT‑4o‑оос өмнө та дууны горим-ыг ашиглан ChatGPT‑тэй дунджаар 2.8 секунд (GPT‑3.5), 5.4 секунд (GPT‑4)‑ийн сааталтайгаар ярьж болдог байсан. Үүнийг хэрэгжүүлэхийн тулд дууны горим нь тусдаа гурван загварын шугам юм: нэг энгийн загвар аудиог текст болгон буулгаж, GPT‑3.5 эсвэл GPT‑4 нь текстийг авч текст гаргаж, гурав дахь энгийн загвар нь тэр текстийг дахин аудио болгодог. Энэ процессын улмаас гол оюун ухааны эх үүсвэр болох GPT‑4 маш их мэдээлэл алддаг—өнгө аяс, олон яригч, эсвэл арын чимээг шууд ажиглаж чаддаггүй, мөн инээд, дуу дуулах, эсвэл сэтгэл хөдлөл илэрхийлж чаддаггүй.

GPT‑4o‑ийн хувьд бид текст, дүрс, аудиог хамарсан нэг шинэ загварыг эхнээс нь дуустал сургасан бөгөөд ингэснээр бүх оролт, гаралтыг ижил мэдрэлийн сүлжээ боловсруулдаг. GPT‑4o нь эдгээр бүх хэлбэрийг нэгтгэсэн бидний анхны загвар учраас загвар юу хийж чадах болон түүний хязгаарлалтыг судлах ажлын зөвхөн эхлэлийг тавьж байна.

Чадамжийн судалгаа

Жишээг сонгоно уу:
1
Оролт

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Гаралт
Robot on typewriter
3
Оролт

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Гаралт
Robot on typewriter with more text
5
Оролт

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Гаралт
Robot ripping sheet

Загварын үнэлгээнүүд

Уламжлалт жишиг үзүүлэлтээр хэмжихэд GPT‑4o нь текст, сэтгэн бодох, кодчиллын оюун ухааны хувьд GPT‑4 Turbo түвшний гүйцэтгэл үзүүлж, олон хэл, аудио, дүрсний чадамж дээр шинэ дээд үзүүлэлт тогтоож байна.

Текстийн үнэлгээ

Хэлний токенжуулалт

Эдгээр 20 хэлийг шинэ токенжуулагчийн янз бүрийн хэлний бүлгүүд дэх шахалтын төлөөлөл болгон сонгосон

Gujarati 4.4x цөөн токен (145-аас 33 хүртэл)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Телугу 3.5 дахин цөөн токен (159–45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Тамил хэл 3.3x цөөн токен (116-аас 35 хүртэл)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Marathi 2.9 дахин цөөн токен (96-аас 33 хүртэл)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Хинди 2.9x цөөн токен (90-аас 31 хүртэл)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Урду хэл дээр 2.5x цөөн токен (82-аас 33 хүртэл)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Араб хэл 2.0x цөөн токен (53-аас 26 хүртэл)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Перс хэл 1.9x цөөн токен (61-ээс 32 хүртэл)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Орос хэл 1.7x цөөн токен (39-өөс 23 хүртэл)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Солонгос хэл 1.7x цөөн токен (45-аас 27 хүртэл)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Вьетнам хэл 1.5x цөөн токен (46-аас 30 хүртэл)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Хятад хэл 1.4x цөөн токен (34-өөс 24 хүртэл)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Япон хэл 1.4x цөөн токен (from 37 to 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Турк хэл 1.3x бага токен (39-өөс 30 хүртэл)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Итали хэл дээр 1.2x цөөн токен (34-өөс 28 хүртэл)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Герман хэл 1.2x цөөн токен (34-өөс 29 хүртэл)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Испани 1.1x цөөн токен (29-аас 26 хүртэл)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Португал хэл 1.1x цөөн токен (30-аас 27 хүртэл)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Франц хэл 1.1x цөөн токен (31-ээс 28 хүртэл)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Англи хэл 1.1x цөөн токен (27–24 хооронд)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Загварын аюулгүй байдал ба хязгаарлалт

GPT‑4o нь сургалтын өгөгдлийг шүүх, сургалтын дараах аргаар загварын зан үйлийг сайжруулах зэрэг техникээр хэлбэрүүдийн дагуу аюулгүй байдлыг дизайнаасаа шингээсэн. Мөн бид дуу хоолойн гаралтад хамгаалалтын хязгаар тогтоох шинэ аюулгүй байдлын системүүдийг бүтээсэн.

Бид GPT‑4o‑г өөрсдийн
Preparedness Framework болон сайн дурын амлалтууд-тай нийцүүлэн үнэлсэн. Кибер аюулгүй байдал, CBRN, ятгалга, загварын бие даасан байдлын талаарх бидний үнэлгээнүүд GPT‑4o эдгээр ангиллын алинд ч дунд эрсдлээс дээш оноо аваагүйг харуулж байна. Энэхүү үнэлгээнд загвар сургалтын явцад автомат болон хүний үнэлгээний багцыг ажиллуулсан. Загварын чадамжийг илүү сайн ил гаргахын тулд бид тусгай fine-tuning болон өгөгдөл ашиглан аюулгүй байдлын бууруулах арга хэмжээний өмнөх болон дараах хувилбаруудыг хоёуланг нь туршсан.

GPT‑4o нь мөн шинээр нэмэгдсэн хэлбэрүүдээс үүдэн бий болох эсвэл улам нэмэгдэх эрсдлийг тодорхойлохын тулд нийгмийн сэтгэл зүй, хазайлт ба шударга байдал, ташаа мэдээлэл зэрэг чиглэлээр 70+
гадаад мэргэжилтэн-тэй өргөн хүрээний гадаад улаан багийн шалгалтыг давсан. Бид эдгээр сургамжийг ашиглан GPT‑4o‑той харилцах аюулгүй байдлыг сайжруулахын тулд аюулгүй байдлын хөндлөнгөөс оролцох арга хэмжээгээ боловсруулсан. Шинэ эрсдэл илрэх бүрд бид тэдгээрийг үргэлжлүүлэн бууруулна.

GPT‑4o‑ийн аудио хэлбэрүүд нь олон төрлийн шинэ эрсдэлийг дагуулж байгааг бид хүлээн зөвшөөрдөг. Өнөөдөр бид текст ба дүрсний оролт, текстэн гаралтыг олон нийтэд нээлттэй гаргаж байна. Ирэх долоо хоног, саруудад бид бусад хэлбэрүүдийг гаргахад шаардлагатай техникийн дэд бүтэц, сургалтын дараах ашиглах боломж, аюулгүй байдал дээр ажиллана. Жишээлбэл, эхний хувилбарт аудио гаралт нь урьдчилан тохируулсан цөөн дуу хоолойгоор хязгаарлагдаж, одоо мөрдөж буй аюулгүй байдлын бодлогыг дагана. Ирэх системийн картанд GPT‑4o‑ийн бүх хэлбэрийг хамарсан дэлгэрэнгүй мэдээллийг хуваалцана.

Загварыг туршиж, давтан сайжруулах явцад бид загварын бүх хэлбэрт хамаарах хэд хэдэн хязгаарлалтыг ажигласан бөгөөд тэдгээрийн цөөн хэсгийг доор жишээ болгон үзүүлэв.

Examples of model limitations

We would love feedback to help identify tasks where GPT‑4 Turbo still outperforms GPT‑4o, so we can continue to improve the model. 

ChatGPT-4o Risk Scorecard

2024 оны 5-р сарын 8-нд шинэчилсэн

Хянагдсан эрсдэлийн ангилал
Эрсдэлийг бууруулах арга хэмжээний өмнөх эрсдэлийн түвшин
Хамгийн сайн мэдэгдэж буй чадавхыг тодруулах арга техникүүдийг ашиглан бууруулах арга хэмжээ авахаас өмнөх эрсдэлийн түвшинг тодорхойлоорой
Эрсдэлийг бууруулах арга хэмжээний дараах эрсдэлийн түвшин
Бууруулах арга хэмжээнүүд хэрэгжсэний дараа хамгийн сайн мэдэгдэж буй чадавх тодруулах арга техникийг ашиглан нийт эрсдэлийн түвшинг тодорхойл
Кибер аюулгүй байдал
Бага
Бага
CBRN
Бага
Бага
Ятгалга
Дунд
Дунд
Загварын автономит байдал
Бага
Бага

Манай Preparedness Framework-ийн хүрээнд бид тогтмол үнэлгээ хийж, загваруудынхаа үнэлгээний картуудыг шинэчилдэг. Зөвхөн бууруулах арга хэмжээний дараах оноо нь “дунд” эсвэл түүнээс доош загваруудыг л нэвтрүүлдэг. Загварын нийт эрсдэлийн түвшинг аливаа ангилал дахь хамгийн өндөр эрсдэлийн түвшнээр тодорхойлдог. Одоогоор GPT‑4o нь бууруулах арга хэмжээний өмнө ч, дараа ч дунд эрсдэлтэй гэж үнэлэгдэж байна.

Model availability

GPT‑4o бол гүний сургалтын хил хязгаарыг тэлэх бидний хамгийн сүүлийн алхам бөгөөд энэ удаад практик хэрэглээний чиглэлд хийгдэж байна. Сүүлийн хоёр жилийн турш бид стекний бүх давхаргад үр ашгийг сайжруулахад маш их хүчин чармайлт гаргасан. Энэхүү судалгааны эхний үр дүн болгон GPT‑4 түвшний загварыг илүү өргөн хүрээнд хүртээмжтэй болгож чадлаа. GPT‑4o‑ийн чадамжууд үе шаттайгаар нэвтэрнэ (өнөөдрөөс эхлэн өргөтгөсөн улаан багийн хандалттай). 

GPT‑4o‑ийн текст ба дүрсний чадамжууд өнөөдөр ChatGPT‑д нэвтэрч эхэлж байна. Бид GPT‑4o‑г үнэгүй түвшинд, мөн Plus хэрэглэгчдэд 5 дахин өндөр мессежийн хязгаартайгаар хүргэж байна. Ирэх хэдэн долоо хоногт ChatGPT Plus дотор GPT‑4o‑той дууны горимын шинэ хувилбарыг альфа хэлбэрээр нэвтрүүлнэ.

Хөгжүүлэгчид мөн одоо GPT‑4o‑д API-гаар текст болон дүрсний загвар хэлбэрээр хандах боломжтой. GPT‑4o нь GPT‑4 Turbo-той харьцуулахад 2 дахин хурдан, үнийн хувьд тал, мөн 5 дахин өндөр хурдны хязгаартай. Ирэх хэдэн долоо хоногт GPT‑4o‑ийн шинэ аудио болон видео чадамжуудын дэмжлэгийг API-д итгэмжлэгдсэн цөөн түншид эхлүүлэхээр төлөвлөж байна.