Μετάβαση στο κύριο περιεχόμενο
OpenAI

13 Μαΐου 2024

Ορόσημο

Γεια σου GPT‑4o

Ανακοινώνουμε το GPT‑4o, το νέο μας κορυφαίο μοντέλο που μπορεί να κάνει συλλογισμό με ήχο, όραση και κείμενο σε πραγματικό χρόνο.

Όλα τα βίντεο σε αυτήν τη σελίδα είναι σε πραγματικό χρόνο 1x.

Εικασίες για την ανακοίνωση της 13ης Μαΐου.

Φόρτωση…

Το GPT‑4o (το “o” από το “omni”) είναι ένα βήμα προς την επίτευξη μιας πολύ πιο φυσικής αλληλεπίδρασης ανθρώπου-υπολογιστή—δέχεται ως εισαγωγή οποιονδήποτε συνδυασμό κειμένου, ήχου, εικόνας και βίντεο και δημιουργεί οποιονδήποτε συνδυασμό αποτελεσμάτων κειμένου, ήχου και εικόνας. Μπορεί να ανταποκρίνεται σε ηχητικές εισαγωγές σε μόλις 232 χιλιοστά του δευτερολέπτου, με μέσο όρο 320 χιλιοστά του δευτερολέπτου, που είναι παρόμοιο με τον χρόνο απάντησης του ανθρώπου(ανοίγει σε νέο παράθυρο) σε μια συζήτηση. Έχει εφάμιλλη απόδοση με το GPT‑4 Turbo σε κείμενο στα αγγλικά και σε κώδικα προγραμματισμού, με σημαντική βελτίωση σε κείμενο σε μη αγγλικές γλώσσες, ενώ είναι επίσης πολύ πιο γρήγορο και 50% φθηνότερο στο API. Το GPT‑4o είναι ιδιαίτερα καλύτερο στην κατανόηση της όρασης και του ήχου σε σύγκριση με τα υπάρχοντα μοντέλα.

Δυνατότητες μοντέλων

Πριν από το GPT‑4o, μπορούσες να χρησιμοποιήσεις τη φωνητική λειτουργία για να μιλήσεις στο ChatGPT με τιμές λανθάνουσας καθυστέρησης 2,8 δευτερόλεπτα (GPT‑3.5) και 5,4 δευτερόλεπτα (GPT‑4) κατά μέσο όρο. Για να επιτευχθεί αυτό, η φωνητική λειτουργία είναι αλυσίδα τριών ξεχωριστών μοντέλων: ένα απλό μοντέλο μεταγράφει τον ήχο σε κείμενο, το GPT‑3.5 ή το GPT‑4 λαμβάνει το κείμενο και παράγει αποτέλεσμα σε κείμενο, και ένα τρίτο απλό μοντέλο μετατρέπει και πάλι αυτό το κείμενο σε ήχο. Αυτή η διαδικασία σημαίνει ότι η κύρια πηγή νοημοσύνης, το GPT‑4, χάνει πολλές πληροφορίες—δεν μπορεί να παρατηρήσει άμεσα τον τόνο, τους πολλαπλούς ομιλητές ή τους θορύβους στο παρασκήνιο και δεν μπορεί να βγάλει ως αποτέλεσμα γέλιο ή τραγούδι ούτε να εκφράσει συναισθήματα.

Με το GPT‑4o, εκπαιδεύσαμε ένα νέο μοντέλο από άκρο σε άκρο για κείμενο, όραση και ήχο, που σημαίνει ότι όλες τις εισαγωγές και τα αποτελέσματα τα επεξεργάζεται το ίδιο νευρωνικό δίκτυο. Επειδή το GPT‑4o είναι το πρώτο μας μοντέλο που συνδυάζει όλες αυτές τις λειτουργίες, μόλις αρχίζουμε να εξερευνούμε τις δυνατότητες και τους περιορισμούς αυτού του μοντέλου.

Εξερευνήσεις των δυνατοτήτων

Επιλέξτε δείγμα:
1
Εισαγωγή

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

2
Αποτέλεσμα
Robot on typewriter
3
Εισαγωγή

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

4
Αποτέλεσμα
Robot on typewriter with more text
5
Εισαγωγή

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

6
Αποτέλεσμα
Robot ripping sheet

Αξιολογήσεις μοντέλων

Όπως μετράται σε παραδοσιακούς δείκτες αναφοράς, το GPT‑4o επιτυγχάνει απόδοση επιπέδου GPT‑4 Turbo σε κείμενο, συλλογισμό και προγραμματιστική ευφυΐα, ενώ θέτει νέα υψηλά πρότυπα σε πολυγλωσσικές δυνατότητες και δυνατότητες ήχου και όρασης.

Αξιολόγηση κειμένου

Γλώσσες και δημιουργία token

Αυτές οι 20 γλώσσες επιλέχθηκαν ως αντιπροσωπευτικές της συμπίεσης του νέου εργαλείου δημιουργίας token σε διάφορες οικογένειες γλωσσών

Γκουτζαράτι 4,4 φορές λιγότερα token (από 145 σε 33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

Τελούγκου 3,5 φορές λιγότερα token (από 159 σε 45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

Ταμιλικά 3,3 φορές λιγότερα token (από 116 σε 35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

Μαραθικά 2,9 φορές λιγότερα token (από 96 σε 33)

नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!

Χίντι 2,9 φορές λιγότερα token (από 90 σε 31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

Ούρντου 2,5 φορές λιγότερα token (από 82 σε 33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

Αραβικά 2,0 φορές λιγότερα token (από 53 σε 26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

Περσικά 1,9 φορές λιγότερα token (από 61 σε 32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

Ρωσικά 1,7 φορές λιγότερα token (από 39 σε 23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

Κορεατικά 1,7 φορές λιγότερα token (από 45 σε 27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

Βιετναμέζικα 1,5 φορές λιγότερα token (από 46 σε 30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

Κινέζικα 1,4 φορές λιγότερα token (από 34 σε 24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

Ιαπωνικά 1,4 φορές λιγότερα token (από 37 σε 26)

こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして!

Τουρκικά 1,3 φορές λιγότερα token (από 39 σε 30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

Ιταλικά 1,2 φορές λιγότερα token (από 34 σε 28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!

Γερμανικά 1,2 φορές λιγότερα token (από 34 σε 29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

Ισπανικά 1,1 φορές λιγότερα token (από 29 σε 26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

Πορτογαλικά 1,1 φορές λιγότερα token (από 30 σε 27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

Γαλλικά 1,1 φορές λιγότερα token (από 31 σε 28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

Αγγλικά 1,1 φορές λιγότερα token (από 27 σε 24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

Ασφάλεια και περιορισμοί μοντέλων

Το GPT‑4o έχει σχεδιαστεί με ενσωματωμένη ασφάλεια σε όλες τις λειτουργίες, μέσω τεχνικών όπως το φιλτράρισμα των δεδομένων εκπαίδευσης και η βελτίωση της συμπεριφοράς του μοντέλου μέσω της μετα-εκπαίδευσης. Δημιουργήσαμε επίσης νέα συστήματα ασφαλείας για την παροχή ασφαλιστικών δικλείδων στα φωνητικά αποτελέσματα.

Αξιολογήσαμε το GPT‑4o σύμφωνα με το
Πλαίσιο Ετοιμότητας και σε συμφωνία με τις οικειοθελείς δεσμεύσεις μας. Οι αξιολογήσεις μας για την κυβερνοασφάλεια, τα ΧΒΡΠ, την πειθώ και την αυτονομία του μοντέλου δείχνουν ότι το GPT‑4o δεν βαθμολογείται πάνω από το μεσαίο επίπεδο κινδύνου σε καμία από αυτές τις κατηγορίες. Αυτή η αξιολόγηση περιλάμβανε την εκτέλεση μιας σειράς αυτοματοποιημένων και ανθρώπινων αξιολογήσεων καθ' όλη τη διάρκεια της διαδικασίας εκπαίδευσης του μοντέλου. Δοκιμάσαμε τόσο τις εκδόσεις του μοντέλου πριν όσο και μετά τον μετριασμό της ασφάλειας, χρησιμοποιώντας εξειδικευμένη προσαρμογή και προτροπές, για να αναδείξουμε καλύτερα τις δυνατότητες του μοντέλου.

Το GPT‑4o έχει επίσης υποβληθεί σε εκτεταμένο εξωτερικό red teaming με περισσότερους από 70
εξωτερικούς ειδικούς σε τομείς όπως η κοινωνική ψυχολογία, η μεροληψία και η δικαιοσύνη, και η παραπληροφόρηση προκειμένου να εντοπιστούν οι κίνδυνοι που εισάγονται ή ενισχύονται από τις νέες προστιθέμενες λειτουργίες. Χρησιμοποιήσαμε αυτά τα διδάγματα για να αναπτύξουμε τις παρεμβάσεις μας για την ασφάλεια, ώστε να βελτιώσουμε την ασφάλεια της αλληλεπίδρασης με το GPT‑4o. Θα συνεχίσουμε να μετριάζουμε όσους νέους κινδύνους ανακαλύπτουμε στην πορεία.

Αναγνωρίζουμε ότι οι ακουστικές δυνατότητες του GPT‑4o παρουσιάζουν μια ποικιλία νέων κινδύνων. Σήμερα θέτουμε σε δημόσια κυκλοφορία εισαγωγές κειμένου και εικόνων και αποτελέσματα κειμένου. Τις εβδομάδες και τους μήνες που θα ακολουθήσουν, θα δουλεύουμε πάνω στην τεχνική υποδομή, τη χρηστικότητα μέσω μετα-εκπαίδευσης και την ασφάλεια που χρειάζονται για την κυκλοφορία των άλλων λειτουργιών. Για παράδειγμα, στην αρχική κυκλοφορία, τα ηχητικά αποτελέσματα θα περιορίζονται σε μια επιλογή προκαθορισμένων φωνών και θα συμμορφώνονται με τις υπάρχουσες πολιτικές ασφαλείας μας. Θα μοιραστούμε περισσότερες λεπτομέρειες που αφορούν το πλήρες φάσμα των λειτουργιών του GPT‑4o στην επερχόμενη κάρτα συστήματος.

Μέσα από τις δοκιμές και τις σταδιακές βελτιώσεις με το μοντέλο, έχουμε παρατηρήσει αρκετούς περιορισμούς που υπάρχουν σε όλες τις λειτουργίες του μοντέλου, μερικοί από τους οποίους απεικονίζονται παρακάτω.

Παραδείγματα περιορισμών μοντέλων

Θα θέλαμε τα σχόλιά σου για να μπορέσουμε να εντοπίσουμε εργασίες όπου το GPT‑4 Turbo εξακολουθεί να υπερέχει του GPT‑4o, ώστε να μπορούμε να συνεχίσουμε να βελτιώνουμε το μοντέλο. Ευχαριστούμε! 

Πίνακας Στοχοθεσίας Κινδύνου ChatGPT-4o

Ενημερώθηκε στις 8 Μαΐου 2024

Κατηγορία κινδύνου που παρακολουθείται
Επίπεδο κινδύνου πριν από τον μετριασμό
Προσδιορίστε το επίπεδο κινδύνου πριν από τον μετριασμό χρησιμοποιώντας τις καλύτερες γνωστές τεχνικές ανάδειξης ικανοτήτων
Επίπεδο κινδύνου μετά τον μετριασμό
Προσδιορίστε το συνολικό επίπεδο κινδύνου μετά την εφαρμογή των μέτρων μετριασμού χρησιμοποιώντας τις καλύτερες γνωστές τεχνικές ανάδειξης ικανοτήτων
Κυβερνοασφάλεια
Χαμηλό
Χαμηλό
CBRN
Χαμηλό
Χαμηλό
Πειθώ
Μέτριος
Μέτριος
Αυτονομία μοντέλου
Χαμηλό
Χαμηλό

Ως μέρος του Πλαισίου Ετοιμότητας, διεξάγουμε τακτικές αξιολογήσεις και ενημερώνουμε τους πίνακες στοχοθεσίας για τα μοντέλα μας. Αναπτύσσονται μόνο τα μοντέλα που μετά τον μετριασμό έχουν βαθμολογία «μέτρια» ή χαμηλότερη. Το συνολικό επίπεδο κινδύνου για ένα μοντέλο καθορίζεται από το υψηλότερο επίπεδο κινδύνου σε οποιαδήποτε κατηγορία. Προς το παρόν, το GPT‑4o αξιολογείται ως μέτριου κινδύνου τόσο πριν όσο και μετά τις προσπάθειες μετριασμού.

Διαθεσιμότητα μοντέλου 1

Το GPT‑4o είναι το πιο πρόσφατο βήμα μας στην υπέρβαση των ορίων της βαθιάς μάθησης, αυτή τη φορά προς την κατεύθυνση της πρακτικής χρηστικότητας. Καταβάλαμε μεγάλη προσπάθεια τα τελευταία δύο χρόνια για να βελτιώσουμε την αποδοτικότητα σε κάθε επίπεδο της στοίβας. Ο πρώτος καρπός αυτής της έρευνας είναι ότι μπορούμε να διαθέσουμε ένα μοντέλο επιπέδου GPT‑4 σε πολύ ευρύτερη κλίμακα. Οι δυνατότητες του GPT‑4o θα αναπτυχθούν επαναληπτικά (με εκτεταμένη πρόσβαση στην ομάδα red team από σήμερα). 

Οι δυνατότητες κειμένου και εικόνας του GPT‑4o αρχίζουν να διατίθενται σήμερα στο ChatGPT. Κάνουμε το GPT‑4o διαθέσιμο στο δωρεάν επίπεδο και για χρήστες Plus με έως και 5 φορές υψηλότερα όρια μηνυμάτων. Θα κυκλοφορήσουμε μια νέα έκδοση της φωνητικής λειτουργίας με το GPT‑4o σε έκδοση alpha στο ChatGPT Plus τις προσεχείς εβδομάδες.

Οι προγραμματιστές μπορούν επίσης τώρα να έχουν πρόσβαση στο GPT‑4o στο API ως μοντέλο κειμένου και όρασης. Το GPT‑4o είναι 2 φορές πιο γρήγορο, κοστίζει τα μισά και έχει 5 φορές υψηλότερα όρια ρυθμού σε σύγκριση με το GPT‑4 Turbo. Σχεδιάζουμε να ξεκινήσουμε την υποστήριξη για τις νέες δυνατότητες ήχου και βίντεο του GPT‑4o σε μια μικρή ομάδα αξιόπιστων συνεργατών μέσω του API τις προσεχείς εβδομάδες.