ChatGPT poate acum să vadă, audă și vorbească

Începem să lansăm noi capacități vocale și de imagine în ChatGPT. Acestea oferă un tip de interfață nou, mai intuitiv, care îți permite să porți o conversație vocală sau să-i arăți lui ChatGPT despre ce vorbești.
Vocea și imaginea îți oferă mai multe modalități de a folosi ChatGPT în viața ta. Fă o fotografie a unui obiectiv turistic când călătorești și discută în direct despre aspectele sale interesante. Când ești acasă, fă poze frigiderului și cămării pentru a descoperi ce poți pregăti la cină (și pune întrebări suplimentare pentru a obține o rețetă pas cu pas). După cină, îți poți ajuta copilul cu o problemă de matematică făcând o poză, încercuind problema și cerându-i modelului să vă ofere indicii amândurora.
În următoarele două săptămâni, vom lansa funcțiile de voce și imagini în ChatGPT pentru utilizatorii Plus și Enterprise. Funcția vocală va fi disponibilă pe iOS și Android (opțional, în setări), iar imaginile vor fi disponibile pe toate platformele.
Acum îți poți folosi vocea pentru a purta o conversație interactivă cu asistentul tău. Vorbește cu el din mers, cere-i o poveste de culcare pentru familie sau rezolvă o dispută la cină.
Folosește vocea pentru a purta o conversație interactivă cu asistentul tău.
Pentru a începe să utilizezi funcția vocală, accesează Setări → Funcții noi în aplicația mobilă și activează conversațiile vocale. Apoi, atinge butonul pentru căști din colțul din dreapta sus al ecranului de pornire și alege-ți vocea preferată dintre cele cinci voci disponibile.
Noua capacitate vocală este susținută de un nou model de text transformat în vorbire, capabil să genereze sunete similare celor umane doar pe baza unui text și a câtorva secunde de vorbire. Am colaborat cu actori vocali profesioniști pentru a crea fiecare voce. Folosim și Whisper, sistemul nostru open-source de recunoaștere a vorbirii, pentru a-ți transcrie cuvintele rostite în text.
Acum îi poți arăta lui ChatGPT una sau mai multe imagini. Depanează motivul pentru care grătarul nu pornește, explorează conținutul frigiderului pentru a planifica o masă sau analizează o diagramă complexă pentru date de lucru. Pentru a te concentra pe anumită parte a imaginii, poți folosi instrumentul de desen din aplicația noastră mobilă.
Arată-i lui ChatGPT una sau mai multe imagini.
Pentru a începe, atinge butonul foto pentru a captura sau alege o imagine. Dacă ești pe iOS sau Android, apasă mai întâi butonul plus. De asemenea, poți discuta despre mai multe imagini sau să folosești instrumentul nostru de desen pentru a-ți ghida asistentul.
Înțelegerea imaginilor este susținută de GPT‑3.5 și GPT‑4 multimodale. Aceste modele își aplică abilitățile de raționament lingvistic asupra unei varietăți de imagini, cum ar fi fotografii, capturi de ecran și documente care conțin atât text, cât și imagini.
Scopul OpenAI este să dezvolte o AGI care să fie sigură și benefică. Credem în punerea la dispoziție treptată a instrumentelor noastre, ceea ce ne permite să facem îmbunătățiri și să rafinăm atenuarea riscurilor de-a lungul timpului, pregătind totodată toți utilizatorii pentru sisteme mai puternice în viitor. Această strategie devine și mai importantă în cazul modelelor avansate care implică vocea și vederea.
Noua tehnologie vocală — capabilă să creeze voci sintetice realiste din doar câteva secunde de vorbire reală — permite dezvoltarea multor aplicații creative și axate pe accesibilitate. Însă aceste capacități prezintă și noi riscuri, cum ar fi posibilitatea ca persoanele rău intenționate să-și asume identitatea unor personalități publice sau să comită fraude.
Acesta este motivul pentru care folosim această tehnologie pentru a susține un caz de utilizare specific — discuția vocală. Discuția vocală a fost creată cu actori vocali cu care am lucrat direct. De asemenea, colaborăm într-un mod similar cu alții. De exemplu, Spotify folosește puterea acestei tehnologii pentru proiectul pilot al funcției de Traducere vocală(se deschide într-o fereastră nouă), care ajută podcasterii să-și extindă audiența poveștilor prin traducerea podcasturilor în limbi suplimentare, cu propriile lor voci.
Modelele bazate pe vedere prezintă, la rândul lor, noi provocări, de la halucinații legate de persoane până la dependența de interpretarea imaginilor de către model în domenii de importanță majoră. Înainte de a-l implementa pe scară largă, am testat modelul cu membrii echipei de red teaming pentru a evalua riscurile în domenii precum extremismul și competența științifică, precum și cu un grup divers de testeri alfa. Cercetările ne-au permis să ne punem de acord asupra câtorva detalii cheie pentru o utilizare responsabilă.
Ca și celelalte funcții ale ChatGPT, cea de vedere are scopul de a-ți fi de ajutor în viața de zi cu zi. Face asta cel mai bine când poate vedea ce vezi tu.
Această abordare este rezultatul colaborării noastre cu Be My Eyes, o aplicație mobilă gratuită pentru persoane nevăzătoare și cu deficiențe de vedere, pentru a înțelege utilizările și limitările. Utilizatorii ne-au declarat că li se pare util să poarte conversații generale despre imaginile care conțin persoane în fundal, cum ar fi atunci când cineva apare la televizor în timp ce încerci să înțelegi setările telecomenzii.
De asemenea, am luat măsuri tehnice pentru a limita în mod semnificativ capacitatea ChatGPT de a analiza și de a face declarații directe despre persoane, deoarece ChatGPT nu este întotdeauna precis și sistemele de acest tip trebuie să respecte confidențialitatea persoanelor.
Utilizarea și feedbackul reale ne vor ajuta să îmbunătățim aceste măsuri de protecție, menținând totodată utilitatea instrumentului.
Utilizatorii pot apela la ChatGPT pentru subiecte specializate, de exemplu în domenii precum cercetarea. Oferim transparență în privința limitărilor modelului și descurajăm utilizarea sa în cazuri cu risc ridicat, fără o verificare adecvată. În plus, modelul transcrie eficient texte în limba engleză, dar are performanțe slabe în alte limbi, în special în cele care nu utilizează alfabetul latin. Recomandăm utilizatorilor care nu vorbesc limba engleză să nu folosească ChatGPT în acest scop.
Poți citi mai multe despre abordarea noastră privind siguranța și colaborarea noastră cu Be My Eyes în fișa de sistem pentru introducerea imaginilor.
Utilizatorii Plus și Enterprise vor avea acces la voce și imagini în următoarele două săptămâni. Suntem încântați să lansăm aceste capacități și pentru alte grupuri de utilizatori, inclusiv dezvoltatori, în curând.
Autor
Mulțumiri
Cercetarea fundamentală pentru modul vocal
Alec Radford, Tao Xu, Jong Wook Kim
Cercetarea fundamentală pentru implementarea vederii
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal
Consultă activitățile tehnice și autorii pentru GPT-4V(ision)


