ChatGPT teď vidí, slyší a mluví

Začínáme zavádět nové hlasové a obrazové funkce v ChatGPT. Nabízejí nový, intuitivnější typ rozhraní tím, že ti umožňují vést hlasovou konverzaci nebo ukázat ChatGPT, o čem mluvíš.
Hlas a obraz ti dávají více možností, jak ve svém životě využít ChatGPT. Vyfoť památku při cestování a veď konverzaci o tom, co je na ní zajímavého. Až budeš doma, vyfoť si ledničku a spíž a zjisti, co bude k večeři (a ptej se na doplňující otázky pro recept krok za krokem). Po večeři pomoz svému dítěti s matematickým problémem tím, že pořídíš fotografii, zakroužkuješ sadu úloh a necháš model, aby vám oběma poradil.
V průběhu dalších dvou týdnů zavádíme hlas a obrázky v ChatGPT pro uživatele Plus a Enterprise. Hlas bude dostupný na iOS a Androidu (zapni si ho v nastavení) a obrázky budou dostupné na všech platformách.
Teď můžeš používat hlas k vedení konverzace s asistentem. Můžeš s ním mluvit na cestách, požádat ho o pohádku na dobrou noc pro svou rodinu nebo rozhodnout spor u večeře.
Pomocí hlasu můžeš s asistentem vést konverzaci.
S hlasovým ovládáním můžeš začít tak, že přejdeš v mobilní aplikaci do Nastavení → Nové funkce a přihlásíš se k hlasovým konverzacím. Pak klepni na tlačítko sluchátek umístěné v pravém horním rohu úvodní obrazovky a vyber si preferovaný hlas z pěti různých hlasů.
Nová hlasová funkce využívá nový modelem převod textu na řeč, který dokáže vytvořit lidsky znějící zvuk pouze z textu a několika sekund vzorové řeči. Všechny hlasy jsme vytvořili ve spolupráci s profesionálními hlasovými herci. Také používáme Whisper, náš open-source systém pro rozpoznávání řeči, k přepisu mluvených slov do textu.
Teď můžeš modelu ChatGPT ukázat jeden nebo více obrázků. Můžeš zjistit, proč se gril nechce spustit, prozkoumat obsah lednice k naplánování toho, co uvaříš, nebo analyzovat složitý graf u pracovních dat. K zaměření na konkrétní část obrázku můžeš použít kreslicí nástroj v mobilní aplikaci.
Ukaž ChatGPT jeden nebo více obrázků.
Začni klepnutím na tlačítko fotoaparátu pro pořízení snímku nebo výběrem obrázku. Pokud jsi na iOS nebo Androidu, nejprve klepni na tlačítko plus. Můžeš také diskutovat o více obrázcích nebo použít náš nástroj pro kreslení k ovládání asistenta.
Porozumění obrázkům využívá multimodální modely GPT‑3.5 a GPT‑4. Tyto modely uplatňují své jazykové dovednosti na širokou škálu obrázků, jako jsou fotografie, snímky obrazovky a dokumenty obsahující jak text, tak obrázky.
Cílem OpenAI je vybudovat AGI, která je bezpečná a prospěšná. Věříme v postupné zpřístupňování našich nástrojů, což nám umožňuje v průběhu času provádět vylepšení a stále lépe zmírňovat rizika a zároveň všechny připravujeme na výkonnější systémy v budoucnosti. Tato strategie nabývá na ještě větším významu u pokročilých modelů zahrnujících hlas a obraz.
Nová hlasová technologie – schopná vytvářet realistické syntetické hlasy z pouhých několika sekund skutečné řeči – otevírá dveře mnoha kreativním použitím a použitím zaměřeným na přístupnost. Tyto schopnosti však také představují nová rizika, jako je možnost, že se osoby se zlými úmysly budou vydávat za veřejné osobnosti nebo páchat podvody.
Proto používáme tuto technologii ke konkrétnímu účelu – hlasovému chatu. Hlasový chat byl vytvořen společně s hlasovými herci, se kterými jsme přímo spolupracovali. Podobným způsobem spolupracujeme také s ostatními. Například Spotify využívá sílu této technologie pro pilotní projekt funkce Překlad hlasu(otevře se v novém okně), která pomáhá podcasterům rozšířit dosah jejich vyprávění tím, že překládá podcasty do dalších jazyků v hlase samotných podcasterů.
Modely založené na vidění také představují nové výzvy, od halucinací o lidech až po spoléhání se na interpretaci obrázků modelem v oblastech, kde jde o hodně. Před širším nasazením jsme testovali model s red teamery na rizika v oblastech, jako je extremismus a vědecké dovednosti, a s různorodou skupinou alfa testerů. Náš výzkum nám umožnil sladit několik klíčových informací s ohledem na zodpovědné používání.
Stejně jako u ostatních funkcí ChatGPT, i u vidění jde o to pomáhat ti v každodenním životě. A to zvládá nejlépe, když vidí to, co vidíš ty.
Tento přístup byl přímo inspirován naší prací s Be My Eyes, bezplatnou mobilní aplikací pro nevidomé a slabozraké, abychom lépe porozuměli jejímu využití a omezením. Uživatelé nám řekli, že považují za užitečné mít obecné konverzace o obrázcích, které náhodou obsahují lidi v pozadí, jako když se někdo objeví v televizi, zatímco se snažíš zjistit nastavení dálkového ovládání.
Také jsme přijali technická opatření, abychom výrazně omezili schopnost ChatGPT analyzovat a přímo se vyjadřovat o lidech, protože model ChatGPT není vždy přesný a tyto systémy musí respektovat soukromí osob.
Reálné použití a zpětná vazba nám pomohou ještě více tato bezpečnostní opatření vylepšovat tak, aby byl nástroj i nadále užitečný.
Uživatelé mohou spoléhat na ChatGPT ve specializovaných tématech. například v oblastech, jako je výzkum. Jsme transparentní ohledně omezení modelu a odrazujeme od používání ve vysoce rizikových případech bez řádného ověření. Model je dále zdatný v přepisu anglického textu, ale nevede se mu tak dobře u některých jiných jazyků, zejména u jazyků s jiným písmem než latinkou. Doporučujeme neanglicky mluvícím uživatelům, aby ChatGPT pro tento účel nepoužívali.
O našem přístupu k bezpečnosti a naší spolupráci s Be My Eyes v si můžeš přečíst víc na systémové kartě pro zadávání obrázků.
Uživatelé Plus a Enterprise budou mít možnost vyzkoušet hlas a obrázky během následujících dvou týdnů. Jsme nadšeni, že tyto funkce budeme moci brzy zpřístupnit i dalším skupinám uživatelů, včetně vývojářů.
Autor
Poděkování
Základní výzkum hlasového režimu
Alec Radford, Tao Xu, Jong Wook Kim
Základní výzkum nasazení vidění
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


