ChatGPT potrafi teraz widzieć, słyszeć i mówić

Zaczynamy obecnie wprowadzać nowe funkcjonalności głosowe i obrazowe w ChatGPT. Oferują one nowe, bardziej intuicyjne możliwości interakcji pozwalające na prowadzenie konwersacji głosowych lub pokazanie ChatGPT tego, o czym mówisz.
Zdolność rozpoznawania głosu i obrazów tworzy zupełnie nowe możliwości wykorzystania ChatGPT w życiu codziennym. Zrób zdjęcie elementu krajobrazu w czasie podróży i prowadź na żywo rozmowę o tym, co Cię w nim zaciekawiło. Będąc w domu, zrób zdjęcie lodówki lub spiżarni, aby zdecydować, co zrobić na obiad (i zadawaj kolejne pytania, aby wygenerować przepis rozpisany krok po kroku). Po obiedzie pomóż dziecku w pracy domowej z matematyki, robiąc zdjęcie zadania, zakreślając trudny fragment i prosząc o podpowiedź w jego rozwiązaniu.
Wprowadzamy funkcjonalności głosowe i obrazowe ChatGPT, które zostaną udostępnione użytkownikom Plus i Enterprise w przeciągu najbliższych dwóch tygodni. Funkcje głosowe będą dostępne dla systemów iOS i Android (aktywacja w ustawieniach), zaś rozpoznawanie obrazów – na wszystkich platformach.
Możesz teraz prowadzić obustronne konwersacje głosowe ze swoim asystentem. Rozmawiaj z naszym modelem w ruchu, prosząc o bajkę na dobranoc dla najbliższych lub rozstrzygnięcie dyskusji prowadzonej przy obiedzie.
Prowadź obustronne konwersacje głosowe ze swoim asystentem.
Aby aktywować funkcje głosowe, przejdź do Ustawień, a następnie opcji Nowe funkcje w aplikacji mobilnej i włącz konwersacje głosowe. Następnie dotknij ikony słuchawki w prawym górnym rogu ekranu głównego i wybierz preferowany głos spośród pięciu dostępnych opcji.
Funkcjonalność głosowa wykorzystuje nowy model konwersji tekstu na mowę zdolny do generowania głosu podobnego do ludzkiego wyłącznie na podstawie tekstu i kilku sekund przykładowej wypowiedzi głosowej. Wszystkie dostępne głosy zostały opracowanie we współpracy z profesjonalnymi aktorami głosowymi. Korzystamy również z Whisper, naszego systemu rozpoznawania mowy open-source, w zakresie transkrypcji treści mówionych na tekst.
Możesz teraz pokazać ChatGPT jeden lub więcej obrazów Rozwiąż problem z awarią grilla, sprawdź zawartość lodówki, aby zaplanować obiad, i przeanalizuj skomplikowane wykresy danych, usprawniając swoją pracę. Aby skoncentrować się na konkretnym elemencie obrazu, możesz skorzystać z narzędzia rysowania dostępnego w naszej aplikacji mobilnej.
Pokaż ChatGPT jeden lub więcej obrazów
Aby rozpocząć, dotknij ikony aparatu i zrób zdjęcie lub wybierz obraz. Jeżeli pracujesz w systemie iOS lub Android, najpierw dotknij ikony plusa. Możesz również rozmawiać na temat wielu obrazów lub wykorzystać narzędzie rysowania, aby ukierunkować swojego asystenta.
Funkcja rozpoznawania obrazów wykorzystuje narzędzia multimodalne GPT‑3.5 i GPT‑4. Wbudowane w tych modelach zdolności rozumowania językowego pozwalają na rozpoznawanie różnego rodzaju obrazów, takich jak fotografie czy zrzuty ekranu, a także dokumenty zawierające zarówno tekst, jak i obrazy.
OpenAI stawia sobie za cel stworzenie AGI, która będzie jednocześnie bezpieczna i przydatna. Przyjmujemy zasadę stopniowego wdrażania naszych narzędzi, dzięki czemu jesteśmy w stanie wprowadzać poprawki i udoskonalać zabezpieczenia, jednocześnie przygotowując użytkowników na jeszcze bardziej zaawansowane systemy, które będą wprowadzane w przyszłości. Strategia ta nabiera szczególnego znaczenia w przypadku zaawansowanych modeli obsługujących obrazy i funkcje głosowe.
Nowa technologia głosowa – zdolna do generowania realistycznego syntetycznego głosu na podstawie zaledwie kilku sekund przykładowej wypowiedzi – otwiera całkowicie nowe możliwości w zakresie pracy twórczej i aplikacji ukierunkowanych na zwiększenie dostępności. Jednocześnie jednak tego rodzaju zdolności tworzą nowe potencjalne zagrożenia, na przykład związane z podszywaniem się pod osoby publiczne lub różnego rodzaju oszustwami.
Dlatego właśnie wykorzystujemy tę technologię wyłącznie w ramach konkretnego zastosowania – czatu głosowego. Nasz czat głosowy został opracowany w bezpośredniej współpracy z aktorami głosowymi. Na podobnej zasadzie współpracujemy również z innymi podmiotami. Na przykład Spotify wykorzystuje możliwości tej technologii w swojej pilotażowej funkcji tłumaczenia głosowego(otwiera nowe okno), która pomaga twórcom podcastów w docieraniu do szerszej publiczności poprzez tłumaczenie treści podcastów na inne języki z wykorzystaniem własnego głosu twórcy.
Modele oparte na informacjach wizualnych również stwarzają nowe wyzwania, od halucynacji informacji na temat osób po akceptację interpretacji obrazu przez model w sytuacjach o potencjalnie poważnych konsekwencjach. Szerokie udostępnienie modelu zostało poprzedzone testami antagonistycznymi przeprowadzonymi przez czerwone zespoły w kontekście domen wysokiego ryzyka, obejmujących np. treści o charakterze ekstremistycznym czy zaawansowane treści naukowe, a także z udziałem zróżnicowanej grupy alfa-testerów. Nasze badania pozwoliły nam zapewnić zgodność w kilku kluczowych obszarach w celu odpowiedzialnego wykorzystania modelu.
Podobnie jak w przypadku innych funkcjonalności ChatGPT, funkcje wizualne mają stanowić udogodnienie w życiu codziennym użytkowników. Sprawdzają się one najlepiej w sytuacjach, w których model widzi to samo co użytkownik.
Podejście to stanowi bezpośrednią kontynuację naszych prac nad narzędziem Be My Eyes, aplikacją mobilną przeznaczoną dla osób niewidomych i niedowidzących, które pozwoliły nam lepiej zrozumieć potencjał i ograniczenia tej technologii. Użytkownicy przekazywali nam, że jej funkcjonalności sprawdzały się w ogólnych rozmowach na temat obrazów, w których tle występowali ludzie, na przykład kiedy ktoś pojawia się na ekranie telewizora, w czasie gdy próbujesz zmienić ustawienia na pilocie.
Podjęliśmy również kroki techniczne, aby znacząco ograniczyć możliwości ChatGPT w zakresie analizowania i generowania stwierdzeń bezpośrednio dotyczących ludzi, ponieważ odpowiedzi modelu nie zawsze są prawidłowe, a tego rodzaju systemy powinny szanować prywatność innych osób.
Rzeczywiste przypadki użycia modelu i opinie przekazywane przez kolejnych użytkowników pomogą nam w dalszym doskonaleniu tych zabezpieczeń przy zachowaniu użyteczności narzędzia.
Użytkownicy mogą polegać na wynikach generowanych przez ChatGPT w obszarach specjalistycznych, na przykład związanych z badaniami naukowymi. W sposób transparentny informujemy o obecnych ograniczeniach modelu i nie zalecamy jego wykorzystania w kontekstach podwyższonego ryzyka bez odpowiedniej weryfikacji. Ponadto model radzi sobie dobrze z transkrypcją tekstów w języku angielskim, lecz znacznie słabiej w przypadku treści w niektórych innych językach, szczególnie tych opartych na alfabetach innych niż romański. Nie rekomendujemy obecnie wykorzystywania ChatGPT do takich celów przez użytkowników nieanglojęzycznych.
Więcej informacji na temat naszego podejścia do bezpieczeństwa i prac nad aplikacją Be My Eyes można znaleźć w karcie systemowej wizualnych danych wejściowych.
Użytkownicy planów Plus i Enterprise uzyskają dostęp do funkcji głosowych i obrazowych w przeciągu najbliższych dwóch tygodni. Oczekujemy, że funkcje te zostaną udostępnione kolejnym grupom użytkowników, w tym programistom, w niedalekiej przyszłości.
Autor
Podziękowania
Podstawowe badania nad trybem głosowym
Alec Radford, Tao Xu, Jong Wook Kim
Podstawowe badania nad funkcjonalnością wizualną
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal
Wyświetl informacje na temat prac technicznych GPT-4V(ision) i autorów


