హలో GPT‑4o
మేం GPT‑4oని ప్రకటిస్తున్నాం, ఇది మా కొత్త ఫ్లాగ్షిప్ నమూనా, రియల్‑టైమ్లో ఆడియో, విజన్ మరియు టెక్ట్స్లో తార్కిక విశ్లేషణ చేయగలదు.
మే 13 ప్రకటనను ఊహించడం.
GPT‑4o (“o” అంటే “ఓమ్నీ”) సహజమైన హ్యూమన్-కంప్యూటర్ ఇంటరాక్షన్ వైపు ఒక పెద్ద అడుగు—ఇది ఇన్పుట్గా టెక్ట్స్, ఆడియో, ఇమేజ్, వీడియోల ఏదైనా మిశ్రమాన్ని స్వీకరిస్తుంది మరియు టెక్ట్స్, ఆడియో, ఇమేజ్ల ఏదైనా మిశ్రమాన్ని అవుట్పుట్గా ఉత్పత్తి చేస్తుంది. ఇది 232 మిల్లీసెకన్లలోపు ఆడియో ఇన్పుట్లకు స్పందించగలదు, సగటు 320 మిల్లీసెకన్లు, ఇది సంభాషణలో మానవ ప్రతిస్పందన సమయానికి(కొత్త విండోలో తెరుచుకుంటుంది) సమానంగా ఉంటుంది. ఇది ఇంగ్లీష్ టెక్ట్స్ మరియు కోడ్లో GPT‑4 టర్బో పనితీరుతో జత అవుతుంది, నాన్-ఇంగ్లీష్ భాషల టెక్ట్స్లో గణనీయమైన మెరుగుదలతో పాటు, చాలా వేగంగా పనిచేస్తుంది మరియు APIలో 50% తక్కువ ఖర్చుతో ఉంటుంది. GPT‑4o ప్రస్తుత నమూనాల కంటే విజన్ మరియు ఆడియో అర్థం చేసుకోవడంలో ప్రత్యేకంగా మెరుగ్గా ఉంటుంది
నమూనా సామర్థ్యాలు
రెండు GPT‑4os పరస్పరం సంభాషిస్తాయి మరియు పాడతాయి.
ఇంటర్వ్యూ సంసిద్ధత
రాక్ పేపర్ సిజర్స్.
వ్యంగ్యం.
సాల్ మరియు ఇమ్రాన్ ఖాన్తో గణితం
రెండు GPT‑4os హార్మనైజ్ అవుతున్నాయి
చూపిస్తూ స్పానిష్ నేర్చుకోండి.
మీటింగ్ AI
రియల్‑టైమ్ అనువాదం
జోలపాట.
వేగంగా మాట్లాడటం.
హ్యాపీ బర్త్డే.
కుక్క.
డాడ్ జోక్స్.
లండన్లో BeMyEyes నుండి GPT‑4o తో ఆండీ
కస్టమర్ సర్వీస్ ప్రూఫ్ ఆఫ్ కాన్సెప్ట్.
GPT‑4o కు ముందు, మీరు 2.8 సెకన్ల జాప్యాలతో ChatGPTతో మాట్లాడటానికి వాయిస్ మోడ్ ఉపయోగించగలిగారు (GPT‑3.5) మరియు సగటున 5.4 సెకన్లు (GPT‑4) ఉంటుంది. దీన్ని సాధించడానికి, వాయిస్ మోడ్ మూడు వేర్వేరు నమూనాల పైప్లైన్: ఒక సింపుల్ నమూనా ఆడియోని టెక్ట్స్గా మార్చుతుంది, GPT‑3.5 లేదా GPT‑4 టెక్ట్స్ను తీసుకొని టెక్ట్స్గా అవుట్పుట్ చేస్తుంది, మరియు మూడవ సింపుల్ నమూనా ఆ టెక్ట్స్ను మళ్లీ ఆడియోగా మారుస్తుంది. ఈ ప్రాసెస్ ద్వారా ప్రధాన ఇంటెలిజెన్స్ సోర్స్ GPT‑4 చాలా సమాచారం కోల్పోతుంది — ఇది టోన్, బహు స్పీకర్స్, బ్యాక్గ్రౌండ్ శబ్దాలను నేరుగా గమనించలదు, మరియు నవ్వు, పాట పాడడం, లేదా భావోద్వేగాలను వ్యక్తపరచలదు.
GPT‑4o తో, మేం టెక్ట్స్, విజన్, మరియు ఆడియోపై ఎండ్-టు-ఎండ్గా ఒక కొత్త సింగిల్ నమూనాని ట్రైన్ చేశాం, అంటే అన్ని ఇన్పుట్లు మరియు అవుట్పుట్లు అదే న్యూరల్ నెట్వర్క్ ద్వారా ప్రాసెస్ చేయబడతాయి. GPT‑4o ఈ అన్ని మోడాలిటీలను కలిపిన మా మొదటి నమూనా కాబట్టి, మేం ఇంకా నమూనా ఏమి చేయగలదో మరియు దాని పరిమితులు ఏమిటో అర్థం చేసుకోవడంలో ప్రారంభ దశలోనే ఉన్నాం.
A first person view of a robot typewriting the following journal entries:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

సంప్రదాయ బెంచ్మార్క్ల్లో లెక్కించినట్లుగా, GPT‑4o టెక్ట్స్, రీజనింగ్, మరియు కోడింగ్ ఇంటెలిజెన్స్లో GPT‑4 టర్బో-లెవల్ ప్రదర్శన సాధిస్తుంది, అలాగే బహుభాషా, ఆడియో, మరియు విజన్ సామర్థ్యాలపై కొత్త హై వాటర్మార్క్లు సెట్ చేస్తుంది.
పాఠ్య మూల్యాంకనం
కొత్త టోకెనైజర్ కంప్రెషన్ను వేర్వేరు భాషా కుటుంబాల్లో ప్రాతినిధ్యం వహించడానికి ఈ 20 భాషలు ఎంచుకోబడ్డాయి.
గుజరాతీ: 4.4x తక్కువ టోకెన్లు (145 నుండి 33) | હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું! |
తెలుగులో 3.5x తక్కువ టోకెన్లు (159 నుండి 45కి) | నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం! |
తమిళం: 3.3x తక్కువ టోకెన్లు (116 నుండి 35) | வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி! |
మరాఠీ: 2.9x తక్కువ టోకెన్లు (96 నుండి 33) | नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला! |
హిందీ: 2.9x తక్కువ టోకెన్లు (90 నుండి 31) | नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा! |
ఉర్దూ 2.5x తక్కువ టోకెన్లు (82 నుండి 33) | ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا! |
అరబిక్: 2.0x తక్కువ టోకెన్లు (53 నుండి 26) | مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك! |
పర్శియన్ 1.9x తక్కువ టోకెన్లు (61 నుండి 32) | سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم! |
రష్యన్: 1.7x తక్కువ టోకెన్లు (39 నుండి 23) | Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться! |
కొరియన్: 1.7x తక్కువ టోకెన్లు (45 నుండి 27) | 안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다! |
వియత్నామీస్లో 1.5x తక్కువ టోకెన్లు (46 నుండి 30 వరకు) | Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn! |
చైనీస్: 1.4x తక్కువ tokens (34 నుండి 24) | 你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你! |
జపనీస్లో 1.4x తక్కువ టోకెన్లు (37 నుండి 26కి) | こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして! |
టర్కిష్: 1.3x తక్కువ టోకెన్లు (39 నుండి 30) | Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum! |
ఇటాలియన్ 1.2x తక్కువ టోకెన్స్ (34 నుండి 28) | Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti! |
జర్మన్లో 1.2x తక్కువ టోకెన్లు (34 నుండి 29కి) | Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen. |
స్పానిష్ 1.1x తక్కువ టోకెన్లు (29 నుండి 26 వరకు) | Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte! |
పోర్చుగీస్లో 1.1x తక్కువ టోకెన్లు (30 నుండి 27కి) | Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo! |
ఫ్రెంచ్ 1.1x తక్కువ టోకెన్లు (31 నుండి 28) | Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer! |
ఇంగ్లీష్ 1.1x తక్కువ టోకెన్లు (27 నుండి 24) | Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you! |
GPT‑4O శిక్షణా డేటాను ఫిల్టర్ చేయడం మరియు పోస్ట్-ట్రైనింగ్ ద్వారా మోడల్ ప్రవర్తనను మెరుగుపరచడం వంటి పద్ధతుల ద్వారా డిజైన్ దశ నుంచే అంతర్నిర్మిత భద్రతను కలిగి ఉంది. వాయిస్ అవుట్పుట్లపై గార్డ్రైల్స్ కల్పించడానికి మేం కొత్త సేఫ్టీ సిస్టమ్లను కూడా సృష్టించాం.
మేం మా సంసిద్ధతా ఫ్రేమ్వర్క్ మరియు మా స్వచ్ఛంద నిబద్ధతలకు అనుగుణంగా GPT‑4oని మదింపు చేశాం. సైబర్సెక్యూరిటీ, CBRN, ప్రభావితం చేయడం, మరియు నమూనా స్వయం ప్రతిపత్తిపై మా మూల్యాంకనాలు GPT‑4oను ఈ కేటగిరీల్లో దేనిలోనూ మీడియం రిస్క్ కంటే ఎక్కువ స్కోర్ చేయలేదని చూపించాయి. ఈ అంచనాలో మోడల్ శిక్షణా ప్రక్రియ అంతటా ఆటోమేటెడ్ మరియు మానవ మూల్యాంకనాల సూట్ అమలు చేయబడింది. మేం నమూనా సామర్థ్యాలను మెరుగ్గా గుర్తించడానికి కస్టమ్ ఫైన్-ట్యూనింగ్ మరియు ప్రాంప్ట్లను ఉపయోగించి ప్రీ-సేఫ్టీ-మిటిగేషన్ మరియు పోస్ట్-సేఫ్టీ-మిటిగేషన్ వెర్షన్లు రెండింటినీ పరీక్షించాం.
GPT‑4o కూడా కొత్తగా జోడించిన పద్ధతుల ద్వారా ప్రవేశపెట్టిన లేదా విస్తరించిన ప్రమాదాలను గుర్తించడానికి సామాజిక మనస్తత్వశాస్త్రం, పక్షపాతం మరియు న్యాయబద్ధత, మరియు తప్పుడు సమాచారం వంటి డొమైన్లలో 70+ బాహ్య నిపుణులతో విస్తృతమైన బాహ్య రెడ్ టీమింగ్కు గురైంది. GPT‑4oతో ఇంటరాక్షన్లో సేఫ్టీని మెరుగుపరచడానికి, ఈ లెర్నింగ్లను ఉపయోగించి మేం భద్రతాా జోక్యాలను రూపొందించాం. కొత్త రిస్క్లు బయటపడినప్పుడు వాటిని తగ్గించే పనిని మేం కొనసాగిస్తాం.
GPT‑4o ఆడియో మోడాలిటీలు అనేక కొత్త రిస్క్లను కలిగిస్తాయని మేం గుర్తించాం. ఈరోజు మేం టెక్ట్స్ మరియు ఇమేజ్ ఇన్పుట్లు, టెక్ట్స్ అవుట్పుట్లను పబ్లిక్గా విడుదల చేస్తున్నాం. రాబోయే వారాలు మరియు నెలల్లో, మేం ఇతర మోడాలిటీలను విడుదల చేయడానికి అవసరమైన సాంకేతిక మౌలిక సదుపాయాలు, పోస్ట్-ట్రైనింగ్ ద్వారా వాడుక సౌలభ్యం, మరియు భద్రతపై పనిచేస్తాం. ఉదాహరణకు, లాంచ్ సమయంలో ఆడియో అవుట్పుట్లు కొన్ని ప్రీసెట్ వాయిస్లకు పరిమితం అవుతాయి మరియు మా ప్రస్తుత భద్రతా పాలసీలను అనుసరిస్తాయి. మేం రాబోయే సిస్టమ్ కార్డ్లో GPT‑4o మోడాలిటీల పూర్తి పరిధిని వివరిస్తూ మరిన్ని వివరాలను పంచుకుంటాము.
నమూనాతో మా టెస్టింగ్ మరియు ఇటరేషన్ ద్వారా, నమూనా యొక్క అన్ని మోడాలిటీలలో ఉన్న పలు పరిమితులను గమనించాం, వాటిలో కొన్ని క్రింద చూపబడ్డాయి.
నమూనా పరిమితుల ఉదాహరణలు
GPT‑4 టర్బో ఇంకా GPT‑4o కంటే మెరుగ్గా పనిచేసే పనులను గుర్తించడంలో సహాయపడే ఫీడ్ బ్యాక్ను మేం ఇష్టపడతాం, తద్వారా మేం నమూనాను మెరుగుపరచడం కొనసాగిస్తాం, ధన్యవాదాలు.
మే 8, 2024 నాడు అప్డేట్ చేయబడింది
మా సంసిద్ధతా ఫ్రేమ్వర్క్లో భాగంగా, మేం మా నమూనాలకు నియతానుసారంగా మదింపులు నిర్వహించి, స్కోర్కార్డులను అప్డేట్ చేస్తాం. “మీడియం” లేదా అంతకంటే తక్కువ పోస్ట్-మిటిగేషన్ స్కోర్ ఉన్న నమూనాలు మాత్రమే డిప్లాయ్ అవుతాయి. నమూనా మొత్తం రిస్క్ లెవల్ ఏదైనా కేటగిరీలోని అత్యధిక రిస్క్ లెవల్ ఆధారంగా నిర్ణయించబడుతుంది. ప్రస్తుతానికి, GPT‑4oని మిటిగేషన్ ప్రయత్నాల ముందు మరియు తరువాత రెండింటిలోనూ మీడియం రిస్క్గా అంచనా వేశారు
GPT‑4o డీప్ లెర్నింగ్ సరిహద్దులను విస్తరించడంలో మా తాజా అడుగు, ఈసారి ప్రాక్టికల్ యూజబిలిటీ వైపు. గత రెండు సంవత్సరాల్లో స్టాక్ ప్రతి లేయర్లో సామర్థ్య మెరుగుదలపై మేం చాలా శ్రమించాం ఈ పరిశోధన యొక్క మొదటి ఫలితంగా, మేం GPT‑4 స్థాయి నమూనాను మరింత విస్తృతంగా అందుబాటులోకి తెచ్చగలిగాము. GPT‑4o సామర్థ్యాలు దశలవారీగా విడుదల చేయబడతాయి (ఈరోజు నుంచే విస్తృత రెడ్ టీమ్ యాక్సెస్తో ప్రారంభమవుతుంది).
GPT‑4o టెక్ట్స్ మరియు ఇమేజ్ సామర్థ్యాలు ఇవాల్టి నుంచే ChatGPTలో విడుదల అవుతున్నాయి. మేం GPT‑4oని ఫ్రీ టియర్లో అందుబాటులోకి తెస్తున్నాం, అలాగే ప్లస్ యూజర్లకు 5x ఎక్కువ మెసేజ్ లిమిట్స్తో అందుబాటులో ఉంది. మేం రాబోయే వారాల్లో ChatGPT ప్లస్లో GPT‑4oతో కూడిన వాయిస్ మోడ్ యొక్క కొత్త వెర్షన్ను ఆల్ఫా దశలో రోల్ అవుట్ చేస్తాం.
డెవలపర్లు ఇప్పుడు GPT‑4oని APIలో టెక్ట్స్ మరియు విజన్ నమూనాగా కూడా యాక్సెస్ చేయవచ్చు. GPT‑4o, GPT‑4 టర్బోతో పోలిస్తే, 2x వేగంగా, సగం ధరలో, మరియు 5x ఎక్కువ రేట్ పరిమితులు ఉన్నాయి. రాబోయే వారాల్లో APIలో విశ్వసనీయ భాగస్వాముల చిన్న గ్రూప్కి GPT‑4o యొక్క కొత్త ఆడియో మరియు వీడియో సామర్థ్యాలకు మద్దతును ప్రారంభించడానికి మేం ప్లాన్ చేస్తున్నాం.