이제 ChatGPT가 보고, 듣고, 말할 수 있습니다

ChatGPT에 새로운 음성과 이미지 기능이 점진적으로 공개됩니다. 새로운 기능으로 ChatGPT와 음성 대화를 하거나, 무엇에 대해 이야기하는지 ChatGPT에게 보여줄 수 있게 되어 새롭고 직관적인 유형의 인터페이스를 제공합니다.
음성과 이미지를 활용하여 일상에서 ChatGPT를 더 다양한 방식으로 활용할 수 있게 될 겁니다. 여행 중에 랜드마크 사진을 찍어 흥미로운 점에 대해 실시간으로 대화를 나눌 수 있겠죠. 집에 돌아오면 냉장고와 보관된 식료품의 사진을 찍어 저녁 메뉴로 무엇을 먹으면 좋을지 궁리해 보세요(이어서 단계별로 어떻게 요리하는지 물어볼 수도 있을 겁니다). 저녁 식사를 마치면 아이가 수학 숙제를 들고 올 수도 있어요. 수학 문제 사진을 찍고 문제에 동그라미를 치고 힌트를 받아 함께 문제를 풀어보세요.
앞으로 2주에 걸쳐 Plus 및 Enterprise 사용자에게 ChatGPT의 음성 및 이미지 기능을 점진적으로 공개할 예정입니다. 음성 기능은 iOS와 Android(설정에서 선택)에서 사용할 수 있으며, 이미지는 모든 플랫폼에서 사용할 수 있습니다.
이제 음성 기능을 사용하여 어시스턴트와 대화를 주고받을 수 있습니다. 이동 중에 대화를 나누고, 가족을 위해 잠자리에 들기 전 이야기를 들려달라고 요청하거나, 저녁 식사 자리에서 일어나는 논쟁을 해결해 보세요.
음성 기능을 사용하여 어시스턴트와 대화를 주고받을 수 있습니다.
음성 기능을 시작하려면 모바일 앱에서 설정 → 새 기능으로 이동하여 음성 대화를 선택합니다. 그런 다음 홈 화면의 오른쪽 상단에 있는 헤드폰 버튼을 탭하고, 5가지 음성 중 원하는 음성을 선택합니다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 사람과 유사한 오디오를 생성할 수 있는 신규 텍스트 음성 변환(TTS) 모델을 기반으로 합니다. 각각의 음성은 전문 성우와 협업하여 제작되었습니다. 또한 오픈소스 음성 인식 시스템인 Whisper를 사용하여 사용자가 말한 단어를 텍스트로 변환합니다.
이제 ChatGPT에게 하나 이상의 이미지를 보여줄 수 있습니다. 그릴이 작동하지 않는 이유를 해결하거나, 냉장고 속 재료를 살펴보고 식사를 계획하거나, 업무 관련 데이터의 복잡한 그래프를 분석할 수 있습니다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱의 그리기 도구를 사용하면 됩니다.
ChatGPT에게 하나 이상의 이미지를 보여줄 수 있습니다.
시작하려면 사진 버튼을 탭 하여 이미지를 캡처하거나 선택합니다 iOS 또는 Android를 사용하는 경우 먼저 더하기 버튼을 탭 합니다. 여러 이미지에 대해 이야기할 수도, 그리기 도구를 사용해 어시스턴트에게 알려줄 수도 있습니다.
이미지 이해는 멀티 모달 GPT‑3.5 및 GPT‑4를 기반으로 합니다. 이들 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서 등 다양한 이미지에 언어 이성 기술을 적용합니다.
OpenAI의 목표는 안전하고 이로운 AGI를 구축하는 것입니다. 도구를 점진적으로 제공하면 이들을 점차 더 발전시켜 나가면서 위험 완화 기능을 다듬을 수도 있으며, 동시에 모두가 미래의 보다 강력한 시스템에 준비할 시간도 가질 수 있습니다. 이러한 전략은 음성 및 비전 기능을 갖춘 고급 모델에서 더욱 중요해집니다.
이번 새로운 음성 기술로 단 몇 초 분량의 실제 음성으로 사실적인 합성 음성을 제작할 수 있습니다. 창의적이며 이용 접근성에 중점을 둔 다양한 분야에 활용할 수 있는 가능성이 활짝 열리는 겁니다. 그러나 이러한 기능은 악의적 행위자가 공인을 사칭하거나 사기를 저지를 가능성 등 새로운 위험 또한 가져옵니다.
그렇기 때문에 저희는 이 기술을 특정한 사용 사례인 음성 채팅에 적용하고 있습니다. 음성 채팅은 성우들과 직접 함께 작업하여 제작되었습니다. 다른 업체들과도 비슷한 방식으로 협업하고 있습니다. 예를 들어, Spotify는 팟캐스터가 팟캐스트를 자신의 목소리로 추가 언어로 번역하여 스토리텔링의 범위를 넓힐 수 있도록 지원하는 음성 번역(새 창에서 열기) 기능의 파일럿 버전에 이 기술을 사용하고 있습니다.
비전 기반 모델에도 새로운 과제가 있습니다. 사람에 대해 환각 현상(Hallucination)이 일어날 수 있으며 위험도가 높은 영역의 이미지에 대해 모델의 해석에 의존하게 될 수도 있는 등, 여러 문제가 발생할 수 있습니다. 광범위하게 배포하기에 앞서 극단주의, 과학적 숙련도 등 여러 영역의 위험에 대해 레드팀 요원들과 모델을 테스트하고, 다양한 배경의 알파 테스터들과도 함께 모델을 테스트했습니다. 연구를 통해 책임감 있는 사용을 위한 몇 가지 주요 세부 사항에 대해 조율할 수 있었습니다.
다른 ChatGPT 기능과 마찬가지로 비전 기능은 일상생활에 도움을 주는 기능입니다. 이 기능은 사용자가 보는 것을 볼 수 있을 때 가장 잘 작동합니다.
이 접근 방식은 시각장애인과 저시력인을 위한 무료 모바일 앱 Be My Eyes와의 협력을 통해 사용과 한계를 파악하여 직접 발견할 수 있었습니다. 사용자들은 이미지의 배경에 사람이 우연히 포함되더라도 이미지에 대해 일반적인 대화를 나눌 수 있어 유용하다고 말했습니다. 예를 들어, 리모컨 설정을 알아내려고 할 때 TV에 사람이 등장하더라도 자연스럽게 대화를 나눌 수 있습니다.
또한 ChatGPT가 항상 정확하지는 않으며 이러한 시스템은 개인의 프라이버시를 존중해야 하므로 ChatGPT가 사람에 대해 분석하고 직접적으로 언급하는 기능을 크게 제한하는 기술적 조치를 취했습니다.
실제 사용 사례와 피드백을 이용하면 도구를 유용하게 사용하면서 이러한 안전장치를 더욱 개선할 수 있을 겁니다.
사용자는 연구와 같은 전문적인 주제에 ChatGPT를 활용할 수 있습니다. 저희는 모델의 한계에 대해 투명하게 공개하고 있으며, 적절한 검증 없이 위험도가 높은 사용 사례에 사용하지 않도록 권장하고 있습니다. 또한 이 모델은 영어 음성은 능숙하게 텍스트로 변환할 수 있지만, 일부 다른 언어, 특히 로마자가 아닌 스크립트를 사용하는 언어에서는 성능이 떨어집니다. 영어가 아닌 다른 언어를 사용하는 사용자는 이러한 목적으로 ChatGPT를 사용하지 않는 것을 권장합니다.
이미지 입력용 시스템 카드에서 안전에 대한 당사의 접근 방식과 Be My Eyes와의 협업에 대해 자세히 알아볼 수 있습니다.
Plus 및 Enterprise 사용자는 앞으로 2주 뒤에 음성 및 이미지 기능을 경험할 수 있습니다. 곧 개발자를 포함한 다른 사용자 그룹에도 이러한 기능을 출시할 예정입니다.
작성
감사한 분들
음성 모드 핵심 연구
Alec Radford, Tao Xu, Jong Wook Kim
비전 배포 핵심 연구
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


