
오늘, 개발자와 기업이 프로덕션 가능한 안정적인 음성 에이전트를 빌드할 수 있는 새로운 기능과 함께 Realtime API를 정식 릴리스합니다. 이 API는 이제 원격 MCP 서버, 이미지 입력, 세션 시작 프로토콜(SIP)을 통한 전화 걸기를 지원하여 음성 에이전트가 추가 도구와 컨텍스트에 액세스함으로써 더 다양한 기능을 발휘할 수 있도록 합니다.
또한 현존하는 가장 발전된 음성-음성 모델인 gpt-realtime도 릴리스합니다. 새로운 모델은 복잡한 지침을 따르고, 정확히 도구를 호출하고, 좀 더 자연스럽고 표현력이 높은 음성을 생성하는 데서 개선을 보입니다. 지원 통화에서 면책 조항 스크립트를 글자 그대로 읽을 때나 영숫자를 반복하여 말할 때 또는 문장 중간에 언어를 자연스럽게 바꿀 때 등 시스템 메시지와 개발자 프롬프트를 해석하는 능력도 높아졌습니다. 두 가지 음성도 새롭게 릴리스합니다. 새로운 음성인 세다(Cedar)와 마린(Marin)은 오늘부터 Realtime API에서만 사용 가능합니다.
지난 10월 Realtime API를 공개 베타로 처음 선보인 후로 수천 명의 개발자들이 이 API를 사용해 빌드했고 오늘 우리가 릴리스하는 이 개선 사항을 만드는 데 도움을 주었습니다. 새로운 버전은 안정성, 짧은 레이턴시, 고품질에 최적화되어 프로덕션에 음성 에이전트를 성공적으로 배포할 수 있도록 합니다. 음성-텍스트, 텍스트-음성 변환의 여러 모델을 함께 연결했던 기존의 파이프라인과는 달리, Realtime API는 하나의 모델과 API를 통해 직접 오디오를 처리하고 생성합니다. 따라서 레이턴시가 줄어들며 발화의 뉘앙스가 보존되고 더 자연스럽고 표현력 높은 응답이 생성됩니다.
“OpenAI Realtime API의 새로운 음성-음성 모델은 추론 능력이 더 강력해지고 음성이 더 자연스러워졌습니다. 그래서 라이프스타일의 요구 사항에 따라 리스팅을 좁히거나 BuyAbility 점수와 같은 도구를 사용해 구매 가능성에 관한 논의를 가이드할 때 복잡하고 여러 단계로 된 요청을 처리할 수 있습니다. 덕분에 Zillow에서 주택을 검색하거나 금융 옵션을 고민할 때 친구와 나누는 자연스러운 대화처럼 느껴지기 때문에 주택을 구매, 판매, 임대할 때 의사결정이 간소화됩니다.”
- Josh Weisberg, Zillow AI 책임자
새로운 음성-음성 모델인 gpt-realtime은 프로덕션에 바로 사용할 수 있는 가장 발전된 음성 모델입니다. 이 모델은 고객 지원, 개인적인 도움과 교육 등 실제 작업에서 뛰어난 성능을 보이도록 고객과 긴밀히 협력하여 학습시켰으며, 개발자들이 음성 에이전트를 빌드하고 배포하는 방식에 맞춰 학습시켰습니다. 이 모델은 오디오 품질, 지능, 지침 준수, 호출 기능에서 개선을 보여줍니다.
실제로 음성 에이전트를 배포할 때는 자연스럽게 들리는 대화가 핵심입니다. 모델이 말할 때 인간의 억양과 감정, 속도를 반영해야 유쾌한 경험을 만들고 사용자가 지속적인 대화를 하도록 유도할 수 있습니다. 우리는 더 자연스럽게 들리면서도 ‘빠르고 전문적으로 말해 줘’ 또는 ‘프랑스어 말씨로 더 공감하듯이 말해 줘’와 같은 더 상세한 지침을 따르는, 더 높은 품질의 음성을 생성하도록 gpt-realtime을 학습시켰습니다.
API에서 음성이 자연스럽게 들리도록 하는 것에 가장 큰 개선 사항을 적용하여 마린과 세다라는 새로운 음성 두 개를 릴리스합니다. 또한 이러한 개선 사항의 이점이 반영되도록 기존의 음성 여덟 개도 업데이트합니다.
gpt-realtime은 더 높은 지능을 보이며 원어민의 오디오를 더 정확하게 이해합니다. 이 모델은 웃음과 같은 비언어적 신호를 포착할 수 있고, 문장 중간에 언어를 바꿀 수 있으며, 어조를 적용할 수 있습니다(예: ‘짧고 전문적인’ 어조와 ‘상냥하고 공감하는 듯한’ 어조). 내부 평가에 따르면 이 모델은 스페인어, 중국어, 일본어, 프랑스어 등 다른 언어의 영숫자 시퀀스(예: 전화번호, VIN 등)도 더 정확하게 감지합니다. 추론 기능을 측정하는 Big Bench Audio 평가에서 gpt-realtime은 82.8%의 정확도를 보여 65.6%를 기록했던 이전의 2024년 12월 모델을 뛰어넘었습니다.
Big Bench Audio(새 창에서 열기) 벤치마크는 오디오 입력을 지원하는 언어 모델의 추론 능력을 평가하는 평가 데이터세트입니다. 이 데이터세트는 고급 추론을 엄격히 테스트하는 것으로 선별된 Big Bench Hard의 질문을 오디오 영역에 적용합니다.
음성-음성 애플리케이션을 빌드할 때 개발자들은 모델에게 행동 방식을 설명하는 지침을 제공합니다. 여기에는 말하는 방식, 특정 상황에서 해야 할 말, 해야 할 일과 하지 말아야 할 일 등이 포함됩니다. 우리는 사소한 지침이더라도 모델에게 더 많은 신호를 주도록 이런 지침을 준수하는 능력을 개선하는 데 집중했습니다. 지침 준수 정확도를 측정하는 MultiChallenge 오디오 벤치마크에서 gpt-realtime은 30.5%를 기록했습니다. 20.6%를 기록했던 이전의 2024년 12월 모델보다 크게 개선된 수치입니다.
MultiChallenge(새 창에서 열기)는 LLM이 인간과 여러 번 차례를 주고받는 대화를 얼마나 잘 처리하는지를 평가합니다. 기존의 선구적인 모델이 고군분투했던 네 가지 범주의 실질적인 과제에 중점을 둡니다. 이 과제를 해결할 때 모델은 지침 준수, 컨텍스트 관리, 컨텍스트 내 추론을 동시에 결합해야 합니다. 우리는 이 평가의 오디오 버전을 만들기 위해 텍스트-음성용 테스트 문항 중에서 오디오에 사용할 만한 일부 문항을 변환했습니다.
음성-음성 모델로 능력 있는 음성 에이전트를 빌드하려면 모델이 프로덕션에서 유용하도록 적시에 적절한 도구를 호출할 수 있어야 합니다. 우리는 관련성 있는 함수 호출, 적절한 시점에 함수 호출, 적절한 인수와 함께 함수 호출이라는 세 가지 측면에서 호출 기능을 개선하여 정확도를 높였습니다. 함수 호출 능력을 측정하는 ComplexFuncBench 오디오 평가에서 gpt-realtime은 66.5%를 기록했습니다. 이전의 2024년 12월의 모델은 49.7%를 기록한 바 있습니다.
비동기식 호출 기능(새 창에서 열기)도 개선했습니다. 길게 실행되는 함수 호출도 이제는 세션의 플로우를 방해하지 않습니다. 모델이 결과를 기다리는 중에도 자연스럽게 대화를 이어갈 수 있습니다. 이 기능은 gpt-realtime에서 기본적으로 사용 가능하므로 개발자가 코드를 업데이트할 필요가 없습니다.
ComplexFuncBench(새 창에서 열기)는 모델이 까다로운 호출 기능 작업을 얼마나 잘 처리하는지를 측정합니다. 여러 단계에 걸친 호출, 제약 조건 또는 암시적 파라미터에 관한 추론, 아주 긴 입력 처리와 같은 시나리오에서 성능을 평가합니다. 우리는 원래 텍스트 프롬프트를 음성을 변환하여 우리 모델을 위한 이 평가를 만들었습니다.
원격 MCP 서버의 URL을 세션 구성에 전달하여 Realtime API 세션 내에서 MCP 지원을 사용할 수 있습니다. 연결하면 API가 자동으로 사용자 대신 도구 호출을 처리하므로 통합을 수동으로 설정할 필요가 없습니다.
이 설정 덕분에 에이전트에게 새로운 기능을 제공하기가 쉽습니다. 세션을 다른 MCP 서버에 가리키기만 하면 도구를 즉시 사용할 수 있습니다. Realtime에서 MCP를 구성하는 자세한 방법은 이 가이드(새 창에서 열기)를 참고하세요.
이제 이미지 입력이 gpt-realtime에서 지원되므로 Realtime API 세션 내에서 오디오나 텍스트와 함께 이미지, 사진, 스크린샷을 추가할 수 있습니다. 이제 사용자가 실제로 보고 있는 것을 기반으로 모델이 대화를 이어갈 수 있기 때문에 사용자는 ‘뭐가 보여?’ 또는 ‘이 스크린샷의 텍스트를 읽어 줘’ 같은 질문이나 요청을 할 수 있습니다.
시스템은 이미지를 라이브 동영상 스트림처럼 취급하는 대신 대화에 사진을 추가하는 것처럼 취급합니다. 앱은 어떤 이미지를 언제 모델과 공유할지 결정할 수 있습니다. 따라서 사용자는 모델이 무엇을 볼지와 언제 응답할지를 통제할 수 있습니다.
이미지 입력을 시작하려면 문서(새 창에서 열기)를 확인하세요.
그 외에도 Realtime API를 더 쉽게 통합하고 프로덕션에서 더 유연하게 사용할 수 있도록 다른 기능도 추가했습니다.
- 세션 시작 프로토콜(SIP) 지원: Realtime API 내에서 직접 지원을 받아 앱을 공용 전화망, PBX 시스템, 탁상용 전화, 기타 SIP 엔드포인트에 연결할 수 있습니다. 문서에서 알아보세요.(새 창에서 열기)
- 프롬프트 재사용: 이제 응답 API에서처럼 개발자 메시지, 도구, 변수, 사용자/어시스턴트 메시지의 예시 등 Realtime API 세션 내의 프롬프트를 저장해서 다시 사용할 수 있습니다. 문서에서 자세히 알아보세요.(새 창에서 열기)
남용을 방지하기 위해 Realtime API에는 여러 계층의 안전 조치와 완화 조치가 포함되어 있습니다. 안전 접근 방식과 시스템 카드 세부 정보는 베타 발표 블로그에서 자세히 알아보실 수 있습니다. Realtime API 세션에 활성 분류 체계가 구현되어 있어 유해한 콘텐츠 관련 가이드라인을 위반하는 것으로 감지되면 대화가 중단됩니다. 개발자 역시 에이전트 SDK(새 창에서 열기)를 사용해 자체적으로 안전 가드레일을 쉽게 추가할 수 있습니다.
사용 정책에서는 스팸이나 사기의 목적, 기타 유해한 목적으로 우리 서비스의 출력을 재가공하거나 배포하는 것을 금지하고 있습니다. 이 금지 사항이 컨텍스트에서 이미 명확히 드러나지 않았다면 개발자 역시 최종 사용자가 AI와 상호작용할 때 이를 확실히 알 수 있도록 해야 합니다. Realtime API는 미리 설정된 음성을 사용하여 악의적인 행위자가 다른 사람을 사칭하는 것을 방지합니다.
Realtime API는 EU 기반 애플리케이션의 경우 EU 데이터 레지던시(새 창에서 열기)를 완전히 지원하며 OpenAI의 엔터프라이즈 개인정보 보호에 대한 약속이 적용됩니다.
정식 릴리스된 Realtime API와 새로운 gpt-realtime 모델은 오늘부터 모든 개발자가 사용할 수 있습니다. gpt-realtime의 가격은 gpt-4o-realtime-preview에 비해 20% 낮춘, 오디오 입력 토큰 100만 개당 $32(캐시된 입력 토큰의 경우 $0.40)이며, 오디오 출력 토큰 100만 개당 $64입니다. 자세한 가격은 여기(새 창에서 열기)에서 확인하세요. 또한 개발자 지능형 토큰 한도를 설정하고 한 번에 여러 턴을 줄일 수 있도록 대화 컨텍스트에 상세한 제어 기능을 추가하여 긴 세션의 비용을 크게 줄였습니다.
시작하려면 Realtime API 문서(새 창에서 열기)를 참고하고 Playground(새 창에서 열기)에서 새로운 모델을 테스트하고 Realtime API 프롬프팅 가이드(새 창에서 열기)를 확인하세요.


