2024 m. gegužės 13 d.

Hello GPT‑4o

Pristatome „GPT‑4o“ – naują pavyzdinį modelį, galintį samprotauti remiantis garso, vaizdo ir teksto duomenimis realiuoju laiku.

Ką sukūrėme Išbandykite „ChatGPT“ „GPT-4o“ sistemos kortelė

Visi šiame puslapyje esantys vaizdo įrašai leidžiami realiuoju greičiu (1x).

Spėliojimas apie gegužės 13 d. pristatymą.

Daugiau išteklių

Išbandyti programoje „Playground“ Peržiūrėti tiesiogines demonstracijas

Įkeliama...

„GPT‑4o“ („o“ reiškia „omni“) yra žingsnis daug natūralesnės žmogaus ir kompiuterio sąveikos link – modelis priima bet kokį teksto, garso, vaizdo ir vaizdo įrašo derinį kaip įvestį ir generuoja bet kokį teksto, garso ir vaizdo išvesčių derinį. Jis gali atsakyti į garso įvestis vos per 232 milisekundes, o vidutinis delsos laikas yra 320 milisekundžių – panašus į žmogaus atsakymo laiką⁠(atsidaro naujame lange) pokalbyje. Jis atitinka „GPT‑4 Turbo“ našumą teksto anglų kalba ir kodo apdorojimo srityse, pastebimai patobulėjo teksto ne anglų kalbomis atžvilgiu, be to, yra daug greitesnis ir 50 proc. pigesnis API. „GPT‑4o“ yra ypač pranašus vaizdo ir garso supratimo srityse, palyginti su esamais modeliais.

Modelio galimybės

Du sąveikaujantys ir dainuojantys „GPT‑4o“ modeliai.

Pasirengimas pokalbiui.

Akmuo, popierius, žirklės.

Sarkazmas.

Matematika su Sal ir Imran Khan.

Du „GPT‑4o“ modeliai, derantys kartu.

Rodyti ir mokytis ispanų kalbos.

Susitikimo DI.

Vertimas realiuoju laiku.

Lopšinė.

Kalbėjimas greičiau.

Su gimtadieniu.

Šuo.

Tėčio juokeliai.

„GPT‑4o“ su Andy iš „BeMyEyes“ Londone.

Klientų aptarnavimo koncepcijos įrodymas.

Prieš atsirandant „GPT‑4o“, galėjote naudoti balso režimą⁠ kalbėtis su „ChatGPT“, kurio delsos laikas vidutiniškai siekė 2,8 sekundės (GPT‑3.5) ir 5,4 sekundės (GPT‑4). Šiam tikslui pasiekti, balso režimas veikia kaip trijų atskirų modelių grandinė: vienas paprastas modelis paverčia garso įrašą tekstu, GPT‑3.5 arba GPT‑4 priima tekstą ir pateikia teksto išvestį, o trečias paprastas modelis tą tekstą vėl paverčia garsu. Per šį procesą pagrindinis intelekto šaltinis, GPT‑4, praranda daug informacijos – jis negali tiesiogiai stebėti tono, kelių kalbėtojų ar fono triukšmo, taip pat negali generuoti juoko, dainavimo ar išreikšti emocijų.

Naudodami „GPT‑4o“ išmokėme vieną naują modelį, kuris nuo pradžios iki galo pats apdoroja tekstą, vaizdus ir garsą – tai reiškia, kad visi įvedami duomenys ir pateikiamos išvestys apdorojami tuo pačiu neuroniniu tinklu. Kadangi „GPT‑4o“ yra pirmasis mūsų modelis, sujungiantis visus šiuos modalumus, mes tik pradedame tyrinėti, ką modelis gali daryti ir kokios yra jo ribos.

Galimybių tyrinėjimas

Pasirinkti pavyzdį:

Įvestis

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Išvestis

Įvestis

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Išvestis

Įvestis

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Išvestis

Modelio vertinimai

Vertinant pagal tradicinius lyginamosios analizės rodiklius, „GPT‑4o“ pasiekia „GPT‑4 Turbo“ lygio teksto, samprotavimo ir kodavimo intelekto našumą, kartu nustatydamas naujas aukščiausias daugiakalbystės, garso ir vaizdo galimybių ribas.

Teksto vertinimas

Kalbos tokenizavimas

Šios 20 kalbų pasirinktos kaip reprezentatyvios, atspindinčios naujos tokenizavimo priemonės glaudinimą įvairiose kalbų grupėse

Gudžaratų k. 4,4 k. mažiau prieigos raktų (nuo 145 iki 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
Telugų k. 3,5 k. mažiau prieigos raktų (nuo 159 iki 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
Tamilų k. 3,3 k. mažiau prieigos raktų (nuo 116 iki 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
Maratų k. 2,9 k. mažiau prieigos raktų (nuo 96 iki 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
Hindi k. 2,9 k. mažiau prieigos raktų (nuo 90 iki 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
Urdu k. 2,5 k. mažiau prieigos raktų (nuo 82 iki 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
Arabų k. 2,0 k. mažiau prieigos raktų (nuo 53 iki 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
Persų k. 1,9 k. mažiau prieigos raktų (nuo 61 iki 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
Rusų k. 1,7 k. mažiau prieigos raktų (nuo 39 iki 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
Korėjiečių k. 1,7 k. mažiau prieigos raktų (nuo 45 iki 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
Vietnamiečių k. 1,5 k. mažiau prieigos raktų (nuo 46 iki 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
Kinų k. 1,4 k. mažiau prieigos raktų (nuo 34 iki 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
Japonų k. 1,4 k. mažiau prieigos raktų (nuo 37 iki 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
Turkų k. 1,3 k. mažiau prieigos raktų (nuo 39 iki 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
Italų k. 1,2 k. mažiau prieigos raktų (nuo 34 iki 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
Vokiečių k. 1,2 k. mažiau prieigos raktų (nuo 34 iki 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
Ispanų k. 1,1 k. mažiau prieigos raktų (nuo 29 iki 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
Portugalų k. 1,1 k. mažiau prieigos raktų (nuo 30 iki 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
Prancūzų k. 1,1 k. mažiau prieigos raktų (nuo 31 iki 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
Anglų k. 1,1 k. mažiau prieigos raktų (nuo 27 iki 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Modelio sauga ir apribojimai

„GPT‑4o“ sauga yra integruota pagal numatytąją reikšmę visose modalumo rūšyse, naudojant tokius metodus kaip mokymo duomenų filtravimas ir modelio elgsenos tobulinimas papildomo derinimo metu. Be to, sukūrėme naujas saugos sistemas, kurios skirtos apsaugoti balso išvestis.

Įvertinome GPT‑4o, vadovaudamiesi savo Pasirengimo sistema⁠ ir atsižvelgdami į mūsų savanoriškus įsipareigojimus⁠. Mūsų vertinimai, susiję su kibernetiniu saugumu, CBRN, įtikinėjimu ir modelio autonomija, rodo, kad „GPT‑4o“ rizikos balai nėra didesni už vidutinį nė vienoje iš šių kategorijų. Šis vertinimas apėmė automatizuotų ir žmonių vertinimų rinkinio vykdymą per visą modelio mokymo procesą. Siekdami geriau atskleisti modelio galimybes, išbandėme modelio versijas prieš įdiegiant saugos priemones ir po jų, naudojant pasirinktinį koregavimą ir raginimus.

„GPT‑4o“ taip pat buvo atliktas išsamus išorinis testavimo komandos bandymas, kuriame dalyvavo daugiau kaip 70 išorės ekspertų⁠ tokiose srityse kaip socialinė psichologija, šališkumas ir teisingumas bei dezinformacija, siekiant nustatyti rizikos veiksnius, atsirandančius ar sustiprėjančius dėl naujai pridėtų modalumų. Naudojome šiuos atradimus diegdami saugos priemones, kad pagerintume sąveikos su „GPT‑4o“ saugą. Toliau švelninsime naujus rizikos veiksnius, kai tik juos atrasime.

Pripažįstame, kad „GPT‑4o“ garso modalumai kelia naują riziką. Šiandien viešai išleidžiame teksto ir vaizdo įvestis bei teksto išvestis. Ateinančiomis savaitėmis ir mėnesiais dirbsime su technine infrastruktūra, patogumu naudotis per papildomą derinimą ir sauga, būtina kitiems modalumams išleisti. Pavyzdžiui, pradėjus naudoti, garso išvestis sudarys tik pasirinkti iš anksto nustatyti balsai ir jos atitiks mūsų esamą saugos politiką. Tolesne informacija, įskaitant visą „GPT‑4o“ modalumų spektrą, pasidalysime būsimoje sistemos kortelėje.

Bandydami modelį ir kartodami bandymus pastebėjome kelis apribojimus, kurie egzistuoja visuose modelio modalumuose; keli iš jų pavaizduoti toliau.

Modelio apribojimų pavyzdžiai

Būtų puiku gauti atsiliepimų, kad nustatytume užduotis, kuriose „GPT‑4 Turbo“ vis dar lenkia „GPT‑4o“, kad galėtume toliau tobulinti modelį. Dėkojame.

„ChatGPT-4o“ rizikos vertinimo kortelė

^{Atnaujinta 2024 m. gegužės 8 d.}

Stebima rizikos kategorija

Rizikos lygis prieš priemonių įgyvendinimą

Nustatyti rizikos lygį prieš priemonių įgyvendinimą, naudojant geriausiai žinomus gebėjimų išgavimo metodus

Rizikos lygis po priemonių įgyvendinimo

Nustatyti bendrą rizikos lygį įgyvendinus priemones, naudojant geriausiai žinomus gebėjimų išgavimo metodus

Kibernetinis saugumas

Žema

CBRN

Žema

Įtaigumas

Vidutinė

Modelio autonomija

Žema

Vykdydami savo Pasirengimo sistemą⁠, reguliariai vertiname modelius ir atnaujiname vertinimo korteles. Diegiami tik tie modeliai, kurių rizika po švelninimo įvertinta kaip „vidutinė“ arba mažesnė. Bendras modelio rizikos lygis nustatomas pagal didžiausią rizikos lygį bet kurioje kategorijoje. Šiuo metu „GPT‑4o“ rizika vertinama kaip vidutinė tiek prieš pritaikant rizikos švelninimo priemones, tiek po jų.

Modelio prieinamumas 1

„GPT‑4o“ yra naujausias mūsų žingsnis plėtojant gilaus mokymosi ribas, šį kartą praktinio naudojimo kryptimi. Per pastaruosius dvejus metus labai stengėmės pagerinti efektyvumą kiekviename technologijų komplekso sluoksnyje. Kaip pirmą šio tyrimo vaisių, galime pasiūlyti daug platesnį GPT‑4 lygio modelį. „GPT‑4o“ galimybės bus diegiamos palaipsniui (nuo šiandien pradedant išplėstine prieiga testavimo komandai).

„GPT‑4o“ teksto ir vaizdo galimybės pradedamos diegti šiandien „ChatGPT“ platformoje. „GPT‑4o“ prieinamas nemokamoje pakopoje ir „Plus“ naudotojams, kuriems numatytas iki penkių kartų didesnis pranešimų limitas. Per ateinančias savaites „ChatGPT Plus“ platformoje alfa režimu pristatysime naują balso režimo versiją su „GPT‑4o“.

Programuotojai taip pat jau gali naudotis „GPT‑4o“ API kaip teksto ir vaizdo modeliu. „GPT‑4o“ yra dukart greitesnis, perpus pigesnis ir turi penkis kartus didesnius normos apribojimus nei „GPT‑4 Turbo“. Per ateinančias savaites planuojame paleisti „GPT‑4o“ naujų garso ir vaizdo galimybių palaikymą nedidelei patikimų partnerių grupei, besinaudojančiai API.

Autoriai

OpenAI

Peržiūrėti bendraautorius

Hello GPT‑4o

Modelio galimybės

Galimybių tyrinėjimas

Modelio vertinimai

Teksto vertinimas

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Kalbos tokenizavimas

Modelio sauga ir apribojimai

„ChatGPT-4o“ rizikos vertinimo kortelė

Modelio prieinamumas 1

Autoriai