25 września 2023

ChatGPT potrafi teraz widzieć, słyszeć i mówić

Zaczynamy obecnie wprowadzać nowe funkcjonalności głosowe i obrazowe w ChatGPT. Oferują one nowe, bardziej intuicyjne możliwości interakcji pozwalające na prowadzenie konwersacji głosowych lub pokazanie ChatGPT tego, o czym mówisz.

Zdolność rozpoznawania głosu i obrazów tworzy zupełnie nowe możliwości wykorzystania ChatGPT w życiu codziennym. Zrób zdjęcie elementu krajobrazu w czasie podróży i prowadź na żywo rozmowę o tym, co Cię w nim zaciekawiło. Będąc w domu, zrób zdjęcie lodówki lub spiżarni, aby zdecydować, co zrobić na obiad (i zadawaj kolejne pytania, aby wygenerować przepis rozpisany krok po kroku). Po obiedzie pomóż dziecku w pracy domowej z matematyki, robiąc zdjęcie zadania, zakreślając trudny fragment i prosząc o podpowiedź w jego rozwiązaniu.

Wprowadzamy funkcjonalności głosowe i obrazowe ChatGPT, które zostaną udostępnione użytkownikom Plus i Enterprise w przeciągu najbliższych dwóch tygodni. Funkcje głosowe będą dostępne dla systemów iOS i Android (aktywacja w ustawieniach), zaś rozpoznawanie obrazów – na wszystkich platformach.

Rozmawiaj z ChatGPT i słuchaj jego odpowiedzi

Możesz teraz prowadzić obustronne konwersacje głosowe ze swoim asystentem. Rozmawiaj z naszym modelem w ruchu, prosząc o bajkę na dobranoc dla najbliższych lub rozstrzygnięcie dyskusji prowadzonej przy obiedzie.

Prowadź obustronne konwersacje głosowe ze swoim asystentem.

Aby aktywować funkcje głosowe, przejdź do Ustawień, a następnie opcji Nowe funkcje w aplikacji mobilnej i włącz konwersacje głosowe. Następnie dotknij ikony słuchawki w prawym górnym rogu ekranu głównego i wybierz preferowany głos spośród pięciu dostępnych opcji.

Funkcjonalność głosowa wykorzystuje nowy model konwersji tekstu na mowę zdolny do generowania głosu podobnego do ludzkiego wyłącznie na podstawie tekstu i kilku sekund przykładowej wypowiedzi głosowej. Wszystkie dostępne głosy zostały opracowanie we współpracy z profesjonalnymi aktorami głosowymi. Korzystamy również z Whisper, naszego systemu rozpoznawania mowy open-source, w zakresie transkrypcji treści mówionych na tekst.

Ładowanie…

Czatuj na temat obrazów

Możesz teraz pokazać ChatGPT jeden lub więcej obrazów Rozwiąż problem z awarią grilla, sprawdź zawartość lodówki, aby zaplanować obiad, i przeanalizuj skomplikowane wykresy danych, usprawniając swoją pracę. Aby skoncentrować się na konkretnym elemencie obrazu, możesz skorzystać z narzędzia rysowania dostępnego w naszej aplikacji mobilnej.

Pokaż ChatGPT jeden lub więcej obrazów

Aby rozpocząć, dotknij ikony aparatu i zrób zdjęcie lub wybierz obraz. Jeżeli pracujesz w systemie iOS lub Android, najpierw dotknij ikony plusa. Możesz również rozmawiać na temat wielu obrazów lub wykorzystać narzędzie rysowania, aby ukierunkować swojego asystenta.

Funkcja rozpoznawania obrazów wykorzystuje narzędzia multimodalne GPT‑3.5 i GPT‑4. Wbudowane w tych modelach zdolności rozumowania językowego pozwalają na rozpoznawanie różnego rodzaju obrazów, takich jak fotografie czy zrzuty ekranu, a także dokumenty zawierające zarówno tekst, jak i obrazy.

Funkcje głosowe i obrazowe będą wdrażane stopniowo

OpenAI stawia sobie za cel stworzenie AGI, która będzie jednocześnie bezpieczna i przydatna. Przyjmujemy zasadę stopniowego wdrażania naszych narzędzi, dzięki czemu jesteśmy w stanie wprowadzać poprawki i udoskonalać zabezpieczenia, jednocześnie przygotowując użytkowników na jeszcze bardziej zaawansowane systemy, które będą wprowadzane w przyszłości. Strategia ta nabiera szczególnego znaczenia w przypadku zaawansowanych modeli obsługujących obrazy i funkcje głosowe.

Głos

Nowa technologia głosowa – zdolna do generowania realistycznego syntetycznego głosu na podstawie zaledwie kilku sekund przykładowej wypowiedzi – otwiera całkowicie nowe możliwości w zakresie pracy twórczej i aplikacji ukierunkowanych na zwiększenie dostępności. Jednocześnie jednak tego rodzaju zdolności tworzą nowe potencjalne zagrożenia, na przykład związane z podszywaniem się pod osoby publiczne lub różnego rodzaju oszustwami.

Dlatego właśnie wykorzystujemy tę technologię wyłącznie w ramach konkretnego zastosowania – czatu głosowego. Nasz czat głosowy został opracowany w bezpośredniej współpracy z aktorami głosowymi. Na podobnej zasadzie współpracujemy również z innymi podmiotami. Na przykład Spotify wykorzystuje możliwości tej technologii w swojej pilotażowej funkcji tłumaczenia głosowego⁠(otwiera nowe okno), która pomaga twórcom podcastów w docieraniu do szerszej publiczności poprzez tłumaczenie treści podcastów na inne języki z wykorzystaniem własnego głosu twórcy.

Dane wejściowe w formie obrazów

Modele oparte na informacjach wizualnych również stwarzają nowe wyzwania, od halucynacji informacji na temat osób po akceptację interpretacji obrazu przez model w sytuacjach o potencjalnie poważnych konsekwencjach. Szerokie udostępnienie modelu zostało poprzedzone testami antagonistycznymi przeprowadzonymi przez czerwone zespoły w kontekście domen wysokiego ryzyka, obejmujących np. treści o charakterze ekstremistycznym czy zaawansowane treści naukowe, a także z udziałem zróżnicowanej grupy alfa-testerów. Nasze badania pozwoliły nam zapewnić zgodność w kilku kluczowych obszarach w celu odpowiedzialnego wykorzystania modelu.

Zapewnienie użyteczności i bezpieczeństwa funkcji wizualnych

Podobnie jak w przypadku innych funkcjonalności ChatGPT, funkcje wizualne mają stanowić udogodnienie w życiu codziennym użytkowników. Sprawdzają się one najlepiej w sytuacjach, w których model widzi to samo co użytkownik.

Podejście to stanowi bezpośrednią kontynuację naszych prac nad narzędziem Be My Eyes, aplikacją mobilną przeznaczoną dla osób niewidomych i niedowidzących, które pozwoliły nam lepiej zrozumieć potencjał i ograniczenia tej technologii. Użytkownicy przekazywali nam, że jej funkcjonalności sprawdzały się w ogólnych rozmowach na temat obrazów, w których tle występowali ludzie, na przykład kiedy ktoś pojawia się na ekranie telewizora, w czasie gdy próbujesz zmienić ustawienia na pilocie.

Podjęliśmy również kroki techniczne, aby znacząco ograniczyć możliwości ChatGPT w zakresie analizowania i generowania stwierdzeń bezpośrednio dotyczących ludzi, ponieważ odpowiedzi modelu nie zawsze są prawidłowe, a tego rodzaju systemy powinny szanować prywatność innych osób.

Rzeczywiste przypadki użycia modelu i opinie przekazywane przez kolejnych użytkowników pomogą nam w dalszym doskonaleniu tych zabezpieczeń przy zachowaniu użyteczności narzędzia.

Transparentne informacje na temat ograniczeń modelu

Użytkownicy mogą polegać na wynikach generowanych przez ChatGPT w obszarach specjalistycznych, na przykład związanych z badaniami naukowymi. W sposób transparentny informujemy o obecnych ograniczeniach modelu i nie zalecamy jego wykorzystania w kontekstach podwyższonego ryzyka bez odpowiedniej weryfikacji. Ponadto model radzi sobie dobrze z transkrypcją tekstów w języku angielskim, lecz znacznie słabiej w przypadku treści w niektórych innych językach, szczególnie tych opartych na alfabetach innych niż romański. Nie rekomendujemy obecnie wykorzystywania ChatGPT do takich celów przez użytkowników nieanglojęzycznych.

Więcej informacji na temat naszego podejścia do bezpieczeństwa i prac nad aplikacją Be My Eyes można znaleźć w karcie systemowej wizualnych danych wejściowych⁠.

Dostęp do funkcji będzie w przyszłości rozszerzany

Użytkownicy planów Plus i Enterprise uzyskają dostęp do funkcji głosowych i obrazowych w przeciągu najbliższych dwóch tygodni. Oczekujemy, że funkcje te zostaną udostępnione kolejnym grupom użytkowników, w tym programistom, w niedalekiej przyszłości.