2024년 7월 18일

GPT‑4o mini: 비용 효율적인 고급 인텔리전스

가장 비용 효율적인 소형 모델을 만나보세요

로딩 중...

OpenAI는 접근성이 최대로 뛰어난 인텔리전스를 만들기 위해 노력합니다. OpenAI의 가장 비용 효율적인 소형 모델 GPT‑4o mini를 지금 소개합니다. GPT‑4o mini는 인텔리전스 비용 부담을 크게 줄여, AI를 포함하여 구축하는 애플리케이션의 범위가 대폭 확대될 것으로 기대됩니다. GPT‑4o mini는 MMLU에서 82%의 점수를 기록했으며 LMSYS 리더보드⁠(새 창에서 열기)에서 채팅 기본 설정 기준으로 현재 GPT‑4¹보다 뛰어난 성능을 보여줍니다. 100만 입력 토큰당 15센트, 100만 출력 토큰당 60센트로 이전의 프론티어 모델에 비해 비용 부담이 훨씬 적고 GPT‑3.5 Turbo보다 60% 이상 저렴합니다.

GPT‑4o mini는 적은 비용과 레이턴시로 여러 번의 모델 호출(예: 여러 API 호출)을 엮거나 비교하고, 방대한 양의 컨텍스트를 모델로 넘기고(예: 코드베이스 전체 또는 대화 기록), 신속한 실시간 텍스트 응답으로 고객과 상호작용(예: 고객 지원 챗봇)하는 등의 다양한 작업을 처리할 수 있습니다.

현재 GPT‑4o mini는 API에서 텍스트 및 비전을 지원하며 추후에 텍스트, 이미지, 동영상, 오디오 입출력을 지원할 예정입니다. 이 모델은 12만 8,000 토큰의 컨텍스트 창이 있고, 요청당 최대 1만 6,000 출력 토큰을 지원하며, 2023년 10월까지의 지식을 보유하고 있습니다. 향상된 토큰나이저가 GPT‑4o와 공유되는 덕분에 이제 비영어 텍스트 처리에서 비용 효율이 더욱 뛰어납니다.

GPT‑4o mini는 텍스트 인텔리전스와 멀티 모달 추론이 학술적 벤치마크에서 GTP-3.5 Turbo 및 다른 소형 모델을 능가하며, 지원하는 언어의 범위가 GPT‑4o와 동일합니다. 또한 호출 기능에서 강력한 성능을 보이므로 개발자들이 외부 시스템에서 데이터를 가져오거나 작업을 수행하는 애플리케이션을 구축하는 데 도움이 되며, GTP-3.5 Turbo에 비해 긴 컨텍스트 성능이 향상되었습니다.

GPT‑4o mini는 몇 가지 주요 벤치마크²에서 평가를 거쳤습니다.

추론 작업: GPT‑4o mini는 텍스트 및 비전과 관련된 추론 작업에서 다른 소형 모델보다 높은 성능을 보여줍니다. 텍스트 인텔리전스 및 추론 벤치마크인 MMLU에서는 82.0%의 점수를 기록했습니다(다른 모델의 경우 Gemini Flash는 77.9%, Claude Haiku는 73.8%).

수학 및 코딩 숙련도: GPT‑4o mini는 시장에 출시된 기존의 소형 모델에 비해 수학적 추론과 코딩 작업에서 탁월한 성능을 발휘합니다. 수학적 추론을 측정하는 MGSM에서 GPT‑4o mini는 87.0%를 기록했습니다(Gemini Flash는 75.5%, Claude Haiku는 71.7%). 코딩 성능을 측정하는 HumanEval에서 GPT‑4o mini는 87.2%를 기록했습니다(Gemini Flash는 71.5%, Claude Haiku는 75.9%).

멀티 모달 추론: 또한 멀티 모달 추론을 평가하는 MMMU에서 GPT‑4o mini는 59.4%를 기록하여 높은 성능을 보여주었습니다(Gemini Flash는 56.1%, Claude Haiku는 50.2%).

모델 평가 점수

OpenAI는 모델 개발 프로세스 중에 GPT‑4o mini의 사용 사례 및 제약을 더 잘 이해하기 위해 신뢰할 수 있는 소수의 파트너와 협력했습니다. Ramp⁠(새 창에서 열기) 및 Superhuman⁠(새 창에서 열기) 등의 협력사와 OpenAI는 받은 파일에서 구조화된 데이터를 추출하거나, 스레드 내역이 제공되었을 때 높은 품질의 이메일 답변을 생성하는 등의 작업에서 GPT‑4o mini가 GPT‑3.5 Turbo보다 상당히 더 좋은 성능을 발휘한다는 점을 확인했습니다.

놓칠 수 없는 안전 조치

OpenAI의 모델은 처음부터 안전에 초점을 두고 설계되었으며 개발 프로세스의 모든 단계에서 안전성이 보강됩니다. 혐오 발언, 성인 콘텐츠, 스팸, 개인 정보를 주로 수집하는 사이트 등과 같이 모델이 학습하거나 출력하지 않아야 하는 정보는 사전 훈련에서 필터링⁠(새 창에서 열기)됩니다. 사후 훈련에서는 인간 피드백을 활용한 강화 학습(RLHF)⁠이라는 기법을 사용해 모델 행동을 우리 정책과 일치시켜 모델 응답의 정확성과 신뢰성을 향상합니다.

GPT‑4o mini는 GPT‑4o⁠와 동일한 안전 완화 조치를 내장했으며, 이는 OpenAI의 준비성 프레임워크⁠와 자발적 약속⁠에 따른 자동 평가와 사람의 평가를 사용하여 신중하게 평가된 조치입니다. 시회 심리학 및 잘못된 정보 등의 영역에서 70명 이상의 외부 전문가가 잠재적 위험을 식별하기 위해 GPT‑4o를 테스트하여 이에 관련된 문제를 해결했고 추후 GPT‑4o 시스템 카드 및 준비성 점수표에서 세부 정보를 공개할 계획입니다. 이러한 전문가 평가에서 얻은 인사이트는 GPT‑4o와 GPT‑4o mini의 안전성을 개선하는 데 도움이 되었습니다.

이와 같은 학습을 바탕으로 OpenAI는 자체 연구를 통해 습득한 새로운 기법을 사용하여 GPT‑4o mini의 안전성을 향상하기 위해 노력했습니다. API 내 GPT‑4o mini는 모델이 탈옥, 프롬프트 주입, 시스템 프롬프트 추출에 저항하는 능력을 향상하는 데 도움이 되는 지시 계층 구조⁠(새 창에서 열기) 방식을 적용하는 최초 모델입니다. 이를 통해 모델의 응답을 더욱 신뢰할 수 있고, 광범위한 애플리케이션에도 더 안전하게 사용할 수 있습니다.

우리는 GPT‑4o mini의 사용 양상을 꾸준히 모니터링하며 새로운 위험을 알게 되는 즉시 모델의 안전성을 개선할 것입니다.

가용성 및 가격

GPT‑4o mini는 현재 어시스턴스 API, 채팅 완성 API, 배치 API에서 텍스트 및 비전 모델로 사용할 수 있습니다. 개발자는 100만 입력 토큰당 15센트, 100만 출력 토큰당 60센트를 지불하게 됩니다(일반 서적으로 대략 2,500 페이지와 동일한 분량). 가까운 시일에 GPT‑4o mini의 파인 튜닝을 공개할 계획입니다.

ChatGPT Free, Plus 및 Team 사용자는 오늘부터 GPT‑3.5 대신 GPT‑4o mini에 액세스할 수 있습니다. AI의 이점을 모두가 누릴 수 있게 한다는 OpenAI의 사명에 맞춰, Enterprise 사용자 또한 다음주부터 액세스할 수 있게 됩니다.

앞으로 공개될 것들

지난 몇 년 동안, AI 지능의 놀라운 발전과 상당한 비용 절감을 목격했습니다. 예를 들어, 2022년에 소개된 text-davinci-003에 비해 GPT‑4o mini는 성능은 더욱 발전했고 토큰당 가격은 99% 정도 떨어졌습니다. OpenAI는 모델의 기능을 향상하는 동시에 가격을 절하하기 위해 지속적으로 노력하고 있습니다.

모든 앱, 모든 웹사이트와 원활하게 통합되는 모델이 우리가 구상하는 미래입니다. GPT‑4o mini는 개발자가 더욱 수월하고 비용 효율적으로 강력한 AI 애플리케이션을 개발하고 확장하도록 길을 트고 있습니다. 접근성과 신뢰성이 더 높고고 일상적인 디지털 경험에 통합되는 AI의 미래를 OpenAI가 지속적으로 주도하겠습니다.

저자

OpenAI

감사한 분들

리드: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such

프로그램 리드: Mianna Chen

https://openai.com/gpt-4o-contributions/⁠의 기여자

각주

1
2024년 7월 18일 기준, GPT-4o mini의 초기 버전이 GPT-4T 01-25의 성능을 능가했습니다.
2
GPT-4o mini에 대한 평가 수치는 simple-evals⁠(새 창에서 열기) 리포지토리와 API 어시스턴트 시스템 메시지 프롬프트를 사용해 계산되었습니다. 비교 모델의 경우, 알려진 수치의 최대값(확인 가능한 경우), HELM⁠(새 창에서 열기) 리더보드 및 simple-evals를 통해 재현한 수치의 최대값을 적용했습니다.