13 mai 2024

Salut GPT‑4o

Anunțăm lansarea GPT‑4o, noul nostru model de vârf care poate dezvolta un raționament în timp real pe baza conținutului audio, vizual și text.

Contribuții Încearcă ChatGPT Fișa de sistem a GPT-4o

Toate videoclipurile de pe această pagină sunt la viteza 1x, în timp real.

Ghicirea anunțului din 13 mai.

Mai multe resurse

Încearcă în Playground Reurmărește transmisiunile demonstrative live

Se încarcă…

GPT‑4o („o” de la „omni”) este un pas către o interacțiune mult mai naturală dintre om și computer — acceptă ca date de intrare orice combinație de text, audio, imagine și video și generează orice combinație de date de ieșire de tip text, audio și imagine. Poate răspunde la date de intrare de tip audio în doar 232 de milisecunde, cu o medie de 320 de milisecunde, similar cu timpul de răspuns uman⁠(se deschide într-o fereastră nouă) într-o conversație. Se ridică la nivelul performanței GPT‑4 Turbo în cazul textelor în limba engleză și al codului, cu îmbunătățiri semnificative pentru textele în alte limbi decât engleza, fiind totodată mult mai rapid și cu 50% mai ieftin în API. GPT‑4o este deosebit de performant în înțelegerea vizuală și auditivă, comparativ cu modelele existente.

Capacitățile modelului

Două modele GPT‑4o care interacționează și cântă.

Pregătire pentru interviu.

Piatra, hârtie, foarfece.

Sarcasm.

Matematică cu Sal și Imran Khan.

Două modele GPT‑4o armonizează.

Arată și învață: limba spaniolă.

Întâlnire cu IA.

Traducere în timp real.

Cântec de leagăn.

Vorbește mai repede.

La mulți ani.

Câine.

Glume de tătici.

GPT‑4o cu Andy, de la BeMyEyes din Londra.

Proiect demonstrativ pentru servicii pentru clienți.

Înainte de GPT‑4o, puteam folosi Modul vocal⁠ pentru a vorbi cu ChatGPT cu latențe de 2,8 secunde (GPT‑3.5) și 5,4 secunde (GPT‑4), în medie. Pentru a realiza acest lucru, Modul voce este o rețea formată din trei modele separate: un model simplu transcrie sunetul în text, GPT‑3.5 sau GPT‑4 preia textul și îl produce, iar un al treilea model simplu convertește textul înapoi în audio. Acest proces înseamnă că principala sursă de informații, GPT‑4, pierde o mulțime de informații — nu poate observa direct tonul, prezența mai multor vorbitori sau zgomotele de fond și nu poate reproduce râsul, cântatul sau exprima emoții.

Cu GPT‑4o, am instruit un singur model nou, de la un capăt la altul, pentru text, imagine și audio, ceea ce înseamnă că toate datele de intrare și ieșire sunt procesate de aceeași rețea neuronală. Deoarece GPT‑4o este primul nostru model care combină toate aceste modalități, încă suntem la începuturile explorării posibilităților modelului și a limitelor sale.

Explorări ale capacităților

Selectează eșantionul:

Intrare

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

Ieșire

Intrare

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

Ieșire

Intrare

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

Ieșire

Evaluările modelului

Conform măsurătorilor efectuate pe repere tradiționale, GPT‑4o atinge performanțe la nivelul GPT‑4 Turbo în privința textului, raționamentului și inteligenței de codificare, stabilind totodată noi recorduri în privința capacităților multilingve, audio și vizuale.

Evaluarea textului

Tokenizarea limbajului

Aceste 20 de limbi au fost alese ca reprezentative pentru compresia noului tokenizer în diferite familii lingvistice

gujarati cu de 4,4x mai puține tokenuri (de la 145 la 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
telugu cu de 3,5x mai puține tokenuri (de la 159 la 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
tamil cu de de 3,3x mai puține tokenuri (de la 116 la 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
marathi cu de 2,9x mai puține tokenuri (de la 96 la 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
hindi cu de 2,9x mai puține tokenuri (de la 90 la 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
urdu cu de 2,5x mai puține tokenuri (de la 82 la 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
arabă cu de 2,0x mai puține tokenuri (de la 53 la 26)	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
persană cu de 1,9x mai puține tokenuri (de la 61 la 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
rusă cu de 1,7x mai puține tokenuri (de la 39 la 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
coreeană cu de 1,7x mai puține tokenuri (de la 45 la 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
vietnameză cu de 1,5x mai puține tokenuri (de la 46 la 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
chineză cu de 1,4x mai puține tokenuri (de la 34 la 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
japoneză cu de 1,4x mai puține tokenuri (de la 37 la 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
turcă cu de 1,3x mai puține tokenuri (de la 39 la 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
italiană cu de 1,2x mai puține tokenuri (de la 34 la 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
germană cu de 1,2x mai puține tokenuri (de la 34 la 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
spaniolă cu de 1,1x mai puține tokenuri (de la 29 la 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
portugheză cu de 1,1x mai puține tokenuri (de la 30 la 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
franceză cu de 1,1x mai puține tokenuri (de la 31 la 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
engleză cu de 1,1x mai puține tokenuri (de la 27 la 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Siguranța și limitările modelului

GPT‑4o are siguranță încorporată prin concepție în toate modalitățile, prin tehnici precum filtrarea datelor de instruire și rafinarea comportamentului modelului în etapa post-instruirii. De asemenea, am creat noi sisteme de siguranță pentru a oferi măsuri de siguranță pentru datele de ieșire de tip voce.

Am evaluat GPT‑4o conform Cadrului nostru de pregătire⁠ și în conformitate cu angajamentele noastre voluntare⁠. Evaluările noastre privind securitatea cibernetică, CBRN, persuasiunea și autonomia modelului arată că GPT‑4o nu obține un scor peste nivelul de risc mediu în niciuna dintre aceste categorii. Această evaluare a presupus rularea unei suite de evaluări automate și umane pe tot parcursul procesului de instruire al modelului. Am testat ambele versiuni ale modelului, înainte și după atenuarea riscurilor, folosind reglare fină și solicitări personalizate, pentru a obține capacități mai bune ale modelului.

De asemenea, GPT‑4o a fost supus unei ample colaborări externe cu peste 70 de experți externi⁠ din domenii precum psihologia socială, biasul și corectitudinea, precum și dezinformarea, pentru a identifica riscurile introduse sau amplificate de modalitățile nou adăugate. Am folosit aceste învățăminte pentru a ne dezvolta intervențiile de siguranță, cu scopul de a îmbunătăți siguranța interacțiunii cu GPT‑4o. Vom continua să atenuăm noile riscuri pe măsură ce sunt descoperite.

Recunoaștem că modalitățile audio ale GPT‑4o prezintă o varietate de riscuri noi. Astăzi lansăm public datele de intrare de tip text și imagine, precum și datele de ieșire de tip text. În următoarele săptămâni și luni, vom lucra la infrastructura tehnică, la ușurința de utilizare post-instruire și siguranța necesară pentru lansarea celorlalte modalități. De exemplu, la momentul lansării, datele de ieșire de tip audio vor fi limitate la o selecție de voci prestabilite și vor respecta politicile noastre de siguranță existente. Vom împărtăși mai multe detalii referitoare la gama completă de modalități ale GPT‑4o în viitoarea fișă de sistem.

Prin testarea și iterația modelului, am observat mai multe limitări care există în toate modalitățile modelului, dintre care câteva sunt ilustrate mai jos.

Exemple de limitări ale modelului

Ne-ar plăcea să primim feedback pentru a identifica sarcinile în care GPT‑4 Turbo încă depășește performanța GPT‑4o, ca să putem continua să îmbunătățim modelul. Mulțumim.

Fișa de evaluare a riscului pentru ChatGPT-4o

^{Actualizat pe 8 mai 2024}

Categorie de risc monitorizată

Nivelul de risc pre-atenuare

Determină nivelul de risc înainte de atenuare utilizând cele mai bune tehnici cunoscute de declanșare a capacităților

Nivelul de risc post-atenuare

Determină nivelul global de risc după implementarea măsurilor de atenuare, utilizând cele mai bune tehnici cunoscute de declanșare a capacităților.

Securitate cibernetică

Scăzut

CBRN

Scăzut

Persuasiune

Mediu

Autonomia modelului

Scăzut

Ca parte a Cadrului nostru de pregătire⁠, efectuăm evaluări regulate și actualizăm fișele de evaluare pentru modelele noastre. Sunt implementate doar modelele cu un scor post-atenuare de „mediu” sau mai mic. Nivelul general de risc pentru un model este determinat de cel mai ridicat nivel de risc din orice categorie. În prezent, GPT‑4o este evaluat ca având un nivel de risc mediu atât înainte, cât și după eforturile de atenuare.

Disponibilitatea modelului 1

GPT‑4o este pasul nostru cel mai recent în depășirea limitelor învățării aprofundate, de această dată în direcția utilității practice. În ultimii doi ani, ne-am străduit foarte mult să îmbunătățim eficiența la fiecare nivel al stivei. Ca un prim rezultat al acestei cercetări, avem posibilitatea de a pune la dispoziție un model de nivel GPT‑4 la o scară mult mai largă. Capacitățile GPT‑4o vor fi lansate iterativ (cu acces extins pentru red team începând de astăzi).

Capacitățile de text și imagine ale GPT‑4o vor începe să fie disponibile începând de azi în ChatGPT. Le oferim GPT‑4o în versiunea gratuită și utilizatorilor Plus, cu limite de mesaje de până la 5 ori mai mari. În următoarele săptămâni, vom lansa o nouă versiune a Modulului vocal cu GPT‑4o în versiune alfa în cadrul ChatGPT Plus.

De asemenea, dezvoltatorii pot accesa acum GPT‑4o în API ca model vizual și de text. GPT‑4o este de două ori mai rapid, costă de două ori mai puțin și are limite de rată de cinci ori mai mari decât GPT‑4 Turbo. În următoarele săptămâni, intenționăm să lansăm asistența pentru noile capacități audio și video ale GPT‑4o pentru un grup restrâns de parteneri de încredere din API.

Autori

OpenAI

Vezi contribuitorii

Salut GPT‑4o

Capacitățile modelului

Explorări ale capacităților

Evaluările modelului

Evaluarea textului

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

Tokenizarea limbajului

Siguranța și limitările modelului

Fișa de evaluare a riscului pentru ChatGPT-4o

Disponibilitatea modelului 1

Autori