ChatGPT kann jetzt sehen, hören und sprechen

Wir beginnen damit, neue Sprach- und Bildfunktionen in ChatGPT einzuführen. Sie bieten eine neue, intuitivere Art von Oberfläche, indem sie Sprachgespräche ermöglichen oder ChatGPT zeigen, worüber du sprichst.
Sprache und Bilder bieten dir noch mehr Möglichkeiten, ChatGPT in deinem Alltag zu nutzen. Nimm auf einer Reise ein Foto von einer Sehenswürdigkeit auf und sprich live darüber, was daran interessant ist. Zu Hause kannst du Fotos von deinem Kühlschrank und deinem Vorratsschrank aufnehmen, um Ideen fürs Abendessen zu erhalten (und anschließend Fragen zum Rezept stellen). Hilf deinen Kindern nach dem Essen bei einer Matheaufgabe, indem du ein Foto machst, die Aufgabenliste einkreist und nach Hinweisen fragst.
In den nächsten zwei Wochen führen wir Sprach- und Bildfunktionen in ChatGPT für Plus- und Enterprise-Benutzer ein. Die Sprachfunktion wird auf iOS und Android eingeführt (aktiviere sie in deinen Einstellungen) und Bilder werden auf allen Plattformen verfügbar sein.
Du kannst jetzt per Sprache ein direktes Gespräch mit deinem Assistant führen. Sprich unterwegs mit ihm, bitte um eine Gutenachtgeschichte für deine Familie oder um Hilfe bei der Beilegung einer Diskussion beim Abendessen.
Nutze deine Stimme, um ein direktes Gespräch mit deinem Assistant zu führen.
Um mit der Sprachfunktion zu beginnen, rufe in der mobilen App „Einstellungen“ → „Neue Funktionen“ auf und aktiviere „Sprachgespräche“. Tippe dann auf die Kopfhörertaste oben rechts auf dem Startbildschirm und wähle aus fünf verschiedenen Stimmen deine bevorzugte aus.
Die neue Sprachfunktion basiert auf einem neuen Text-zu-Sprache-Modell, das aus Text und einigen Sekunden Beispielsprache eine menschenähnliche Audiowiedergabe erzeugen kann. Wir haben jede der Stimmen in Zusammenarbeit mit professionellen Synchronsprechern erstellt. Zudem verwenden wir Whisper, unser Open-Source-Spracherkennungssystem, um deine gesprochenen Worte in Text zu transkribieren.
Du kannst ChatGPT jetzt ein oder mehrere Bilder zeigen. Finde heraus, warum dein Grill nicht funktioniert, erkunde den Inhalt deines Kühlschranks, um eine Mahlzeit zu planen, oder analysiere ein komplexes Diagramm auf arbeitsbezogene Daten. Um einen bestimmten Teil des Bildes zu fokussieren, kannst du das Zeichentool in unserer mobilen App verwenden.
Zeige ChatGPT ein oder mehrere Bilder.
Tippe zunächst auf die Fotoschaltfläche, um ein Bild aufzunehmen oder auszuwählen. Wenn du iOS oder Android verwendest, tippe zuerst auf die Schaltfläche „Plus“. Du kannst auch über mehrere Bilder sprechen oder deinen Assistant mithilfe unseres Zeichentools anleiten.
Das Bildverständnis wird durch multimodales GPT‑3.5 und GPT‑4 ermöglicht. Diese Modelle wenden ihre Fähigkeiten zum sprachlichen Denken auf eine große Bandbreite von Bildern an, z. B. Fotos, Screenshots und Dokumente, die sowohl Text als auch Bilder enthalten.
Das Ziel von OpenAI besteht darin, eine sichere und hilfreiche AGI zu entwickeln. Wir bauen bei der Bereitstellung unserer Tools auf einen schrittweisen Ansatz. Dadurch können wir im Laufe der Zeit Verbesserungen vornehmen und die Risikoschutzmaßnahmen präzisieren und die Menschen gleichzeitig auf leistungsfähigere Systeme in der Zukunft vorbereiten. Diese Strategie wird bei fortschrittlichen Stimme- und Bildmodellen noch wichtiger.
Die neue Stimmtechnologie, die in der Lage ist, aus nur wenigen Sekunden echter Sprache realistische synthetische Stimmen zu erzeugen, öffnet Türen zu vielen kreativen und auf Barrierefreiheit ausgerichteten Anwendungen. Diese Möglichkeiten gehen jedoch auch mit neuen Risiken einher, etwa der Möglichkeit, dass böswillige Akteure sich als Personen des öffentlichen Lebens ausgeben oder Betrug begehen.
Aus diesem Grund nutzen wir diese Technologie für einen bestimmten Anwendungsfall: Audio-Chat. Der Audio-Chat wurde in direkter Zusammenarbeit mit Synchronsprechern erstellt. Auf ähnliche Weise arbeiten wir auch mit anderen zusammen. Spotify nutzt die Leistungsfähigkeit dieser Technologie beispielsweise für den Pilotversuch seiner Funktion Audioübersetzung(wird in einem neuen Fenster geöffnet), die Podcastern dabei hilft, ihre Reichweite zu erweitern, indem Podcasts mit der eigenen Stimme der Podcaster in zusätzliche Sprachen übersetzt werden.
Auch auf visueller Wahrnehmung basierende Modelle bringen neue Herausforderungen mit sich – von Halluzinationen im Bezug auf Personen bis hin zur Abhängigkeit von der Bildinterpretation des Modells in Bereichen mit hohem Risiko. Vor der umfassenderen Einführung haben wir das Modell mit Red Team-Mitgliedern auf Risiken in Bereichen wie Extremismus und wissenschaftliche Kompetenz sowie mit einer vielfältigen Gruppe von Alphatestern getestet. Im Rahmen unserer Recherchen konnten wir uns auf einige wichtige Details für eine verantwortungsvolle Nutzung einigen.
Wie bei anderen ChatGPT‑Funktionen geht es bei Vision darum, dich in deinem Alltag zu unterstützen. Dies kann Vision am besten, wenn sieht, was du siehst.
Dieser Ansatz basiert direkt auf unserer Arbeit mit „Be My Eyes“, einer kostenlosen mobilen App für blinde und sehbehinderte Menschen, um die Nutzungsmöglichkeiten und Einschränkungen zu verstehen. Benutzer haben uns mitgeteilt, dass sie es hilfreich finden, allgemeine Gespräche über Bilder zu führen, bei denen zufällig Personen im Hintergrund zu sehen sind, beispielsweise wenn jemand im Fernsehen erscheint, während du versuchst, deine Fernbedienung zu steuern.
Wir haben außerdem technische Maßnahmen ergriffen, um die Fähigkeit von ChatGPT, Analysen durchzuführen und direkte Aussagen über Personen zu treffen, erheblich einzuschränken, da ChatGPT nicht immer genau ist und diese Systeme die Privatsphäre von Einzelpersonen respektieren sollten.
Die praktische Nutzung und das Feedback werden uns dabei helfen, diese Sicherheitsvorkehrungen noch weiter zu verbessern und gleichzeitig die Nützlichkeit des Tools beizubehalten.
Benutzer können sich bei speziellen Themen, z. B. in Bereichen wie der Forschung, auf ChatGPT verlassen. Wir sind transparent, was die Einschränkungen des Modells angeht und raten von risikoreicheren Anwendungsfällen ohne ordnungsgemäße Überprüfung ab. Des Weiteren ist das Modell in der Lage, englischen Text zu transkribieren, weist jedoch bei einigen anderen Sprachen, insbesondere solchen mit nicht-lateinischer Schrift, eine mangelhafte Leistung auf. Wir raten unseren nicht-englischsprachigen Benutzern davon ab, ChatGPT für diesen Zweck zu verwenden.
Mehr zu unserem Sicherheitsansatz und unserer Arbeit mit Be My Eyes kannst du in der Systemkarte für die Bildeingabe nachlesen.
Plus- und Enterprise-Benutzer können sich in den nächsten zwei Wochen auf das Sprach- und Bilderlebnis freuen. Diese Funktionen werden bald auch anderen Benutzergruppen, einschließlich Entwicklern, zur Verfügung gestellt.
Autor
Anerkennungen
Hauptforschung für den Audiomodus
Alec Radford, Tao Xu, Jong Wook Kim
Hauptforschung für die Bereitstellung von Vision
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


