우리는 OpenAI의 심층 학습 확대에 대한 노력을 보여주는 최신 지표인 GPT‑4를 만들었습니다. GPT‑4는 대규모 멀티 모달 모델(이미지 및 텍스트 입력 수용, 텍스트 출력)로, 많은 실제 시나리오에서 인간보다 능력이 떨어지지만, 다양한 전문 및 학술 벤치마크에서 인간과 유사한 수준의 성능을 보여줍니다. 예를 들어, GPT‑4는 모의 변호사 시험에서 응시자 중 상위 10% 정도의 점수로 합격하지만, GPT‑3.5의 점수는 하위 10% 정도의 수준이었습니다. 적대적 테스트 프로그램과 ChatGPT를 통해 얻은 교훈을 바탕으로 6개월 동안 반복적으로 GPT‑4를 조정했으며, 사실성, 제어 가능성, 안전 범위를 벗어나는 것을 거부하는 부분에서 완벽과는 거리가 멀지만 역대 최고의 결과를 얻었습니다.
지난 2년에 걸쳐 우리는 전체 심층 학습 스택을 다시 구축하고, Azure와 협력하여 작업량에 맞는 슈퍼컴퓨터를 처음부터 공동 설계했습니다. 1년 전 우리는 시스템의 첫 번째 “테스트 실행”으로 GPT‑3.5를 훈련했습니다. 몇 가지 버그를 발견하여 수정했고, 이론적 기반을 개선했습니다. 그 결과, GPT‑4 훈련 실행은 전례 없이 안정적이었으며, 훈련 성과를 미리 정확하게 예측할 수 있었던 최초의 대규모 모델이 되었습니다. 우리는 안정적인 확장에 계속 집중하면서, 미래의 기능을 점점 더 미리 예측하고 대비할 수 있도록 방법론을 개선하는 것을 목표로 하고 있습니다. 우리는 이것이 안전을 위해 매우 중요하다고 생각합니다.
ChatGPT와 API를 통해 GPT‑4의 텍스트 입력 기능을 출시할 예정입니다(대기자 명단 있음). 이미지 입력 기능을 더 폭넓게 사용할 수 있도록 준비하기 위해 단일 파트너(새 창에서 열기)와 긴밀히 협력하여 준비를 시작하고 있습니다. 또한, 누구나 모델의 결점을 보고하여 추가 개선에 도움을 줄 있도록 AI 모델 성능을 자동으로 평가하는 프레임워크인 OpenAI Evals(새 창에서 열기)를 오픈소싱하고 있습니다.
일상적인 대화에서는 GPT‑3.5와 GPT‑4의 차이가 거의 나타나지 않을 수 있습니다. 작업의 복잡성이 충분한 임계값에 도달하면 그 차이가 드러납니다. GPT‑4는 GPT‑3.5보다 더 신뢰할 수 있고, 창의적이며, 훨씬 더 미묘한 차이를 파악하여 지침을 처리할 수 있습니다.
두 모델의 차이를 이해하기 위해 원래는 인간을 대상으로 설계된 시뮬레이션 시험을 포함한 다양한 벤치마크에서 테스트를 진행했습니다. 테스트는 가장 최근에 공개된 시험(올림피아드 및 AP 주관식 서술형 문제 관련)을 사용하거나 2022~2023년판 모의고사를 구매하는 방식으로 진행되었습니다. 이러한 시험에 대해 별도의 훈련은 하지 않았습니다. 시험에 출제된 문제 중 일부는 모델이 훈련 중에 본 문제이기는 하지만, 그 결과는 대표성을 가진다고 생각합니다. 자세한 내용은 기술 보고서(새 창에서 열기)를 참조하세요.
내부 참조 1
또한 머신 러닝 모델용으로 설계된 기존 벤치마크에서 GPT‑4를 평가했습니다. GPT‑4는 벤치마크별 제작 또는 추가 훈련 프로토콜이 포함되었을 수 있는 대부분의 최첨단(SOTA) 모델과 함께 기존의 대규모 언어 모델보다 훨씬 뛰어난 성능을 발휘합니다.
기존의 많은 ML 벤치마크는 영어로 작성되어 있습니다. 다른 언어에 대한 능력을 초기에 파악해 보기 위해 Azure Translate을 사용하여 57개 과목에 걸친 14,000개의 객관식 문제로 구성된 MMLU 벤치마크를 다양한 언어로 번역했습니다(부록 참조). 테스트를 진행한 26개 언어 중 24개 언어에서 GPT‑4는 라트비아어, 웨일스어, 스와힐리어 등 리소스가 적은 언어를 포함하여 영어 성능에서 GPT‑3.5와 다른 LLM(Chinchilla, PaLM) 보다 뛰어난 성능을 보여주었습니다.
또한 우리는 내부적으로도 GPT‑4를 사용해 왔으며, 지원, 영업, 콘텐츠 관리, 프로그래밍과 같은 기능에 큰 영향을 미쳤습니다. 또한 정렬 전략의 두 번째 단계를 시작하면서 인간이 AI 출력을 평가하는 데에도 이를 활용하여 도움을 받고 있습니다.
GPT‑4에서는 텍스트와 이미지의 프롬프트를 사용할 수 있으며, 텍스트 전용 설정과 마찬가지로 사용자가 시각 또는 언어 작업을 지정할 수 있습니다. 구체적으로 설명하자면, 텍스트와 이미지가 산재한 입력이 주어지면 텍스트 출력(자연어, 코드 등)을 생성합니다. GPT‑4는 텍스트와 사진, 다이어그램 또는 스크린샷이 포함된 문서 등 다양한 영역에서 텍스트만 입력할 때와 유사한 성능을 보여줍니다. 또한, 퓨샷(few-shot)과 사고의 사슬 프롬프트(새 창에서 열기) 등 텍스트 전용 언어 모델을 위해 개발된 테스트 시간 기법으로 보강할 수 있습니다. 이미지 입력은 아직 리서치 프리뷰 단계로, 공개적으로 사용할 수 없습니다.
우리는 좁은 범위의 표준 학업 비전 벤치마크에서 GPT‑4의 성능을 평가하여 미리 살펴보았습니다. 그러나 지속적으로 모델이 처리할 수 있는 새롭고 흥미로운 작업을 발견하고 있기 때문에 이러한 수치는 모델의 기능의 범위를 완전히 나타내지는 못합니다. 곧 테스트 시간 기법의 효과에 대한 철저한 조사와 함께 추가 분석과 평가 수치를 공개할 예정입니다.
내부 각주A
우리는 제어 가능성을 포함하여 AI의 행동 정의에 관한 게시물에서 설명한 계획의 각 측면에 대한 작업을 진행해 왔습니다. 이제 개발자 그리고 곧 ChatGPT 사용자는 고정된 상세 수준, 어조, 스타일을 가진 기존의 ChatGPT 성격 대신 “시스템” 메시지에 이러한 지시를 설명하여 AI의 스타일과 작업을 규정할 수 있습니다. API 사용자는 시스템 메시지를 사용하여 경계 내에서(새 창에서 열기) 사용자 경험의 상당 부분을 맞춤 설정할 수 있습니다. 우리는 이러한 부분을 계속해서 개선해 나갈 예정이지만(특히 시스템 메시지가 현재 모델을 가장 쉽게 “탈옥”할 수 있는 방법이라는 점, 즉 경계 준수가 완벽하지 않다는 점을 잘 알고 있습니다), 직접 사용해 보시고 의견을 알려주시기 바랍니다.
이러한 기능에도 불구하고 GPT‑4는 이전 GPT 모델과 비슷한 제약사항을 가지고 있습니다. 가장 중요한 부분은 여전히 완전히 신뢰할 수 없다는 점입니다(사실을 “환각”하고 추론 오류가 발생합니다). 특히 중대한 컨텍스트에서 언어 모델 출력을 사용할 때는 특정 사용 사례의 요구 사항에 맞는 정확한 프로토콜(예: 인적 검토, 추가 컨텍스트를 활용하여 근거 확보, 중대한 상황에서는 사용하지 않기)을 통해 세심한 주의를 기울여야 합니다.
여전히 실질적인 문제이긴 하지만, GPT‑4는 이전 모델보다 환각 현상이 크게 줄어들었으며, 반복할 때마다 개선되고 있습니다. GPT‑4는 내부 적대적 사실성 평가에서 최신 GPT‑3.5보다 40% 높은 점수를 받았습니다.
적대적으로 선택된 잘못된 진술 세트에서 사실을 구별하는 모델의 능력을 테스트하는 TruthfulQA와 같은 외부 벤치마크에서 진전을 이루었습니다. 이러한 질문은 통계적으로 매력적인 사실과 다른 오답과 짝을 이룹니다.
모델의 결과에는 다양한 편향성이 있을 수 있습니다. 이러한 부분을 많이 개선했지만, 아직 더 개선해야 합니다. 최근 블로그 게시물에서 알린 것과 같이, 우리는 우리가 구축하는 AI 시스템이 광범위한 사용자의 가치를 반영하는 합리적인 기본 태도를 가지도록 하고, 이러한 시스템을 광범위한 경계 내에서 맞춤 설정할 수 있도록 하고, 그 경계가 어디까지여야 하는지에 대한 대중의 의견을 수렴하는 것을 목표로 합니다.
GPT‑4는 일반적으로 대부분의 데이터가 끊긴(2021년 9월) 이후에 발생한 사건에 대한 지식이 부족하며, 자신의 경험을 통해 학습하지 않습니다. 때로는 수많은 영역에서 역량에 부합하지 않는 단순한 추론 오류를 범하거나 사용자의 명백한 허위 진술을 지나치게 쉽게 받아들이는 경우가 있습니다. 그리고 때로는 생성한 코드에 보안 취약점을 도입하는 등 인간과 같은 방식으로 어려운 문제에 실패할 수도 있습니다.
또한 GPT‑4는 실수할 가능성이 있는 작업을 다시 확인하지 않고 자신 있게 잘못된 예측을 할 수 있습니다. 흥미로운 사실은 사전 훈련된 기본 모델은 높은 수준으로 보정되어 있다는 것입니다.(정답에 대한 예측 신뢰도는 일반적으로 정답 확률과 일치합니다). 하지만 현재의 사후 훈련 과정을 통해 보정이 감소합니다.
우리는 사전 훈련 데이터의 선택 및 필터링, 평가 및 전문가 참여, 모델 안전성 개선, 모니터링 및 시행 등의 노력을 통해 훈련 초기부터 GPT‑4를 안전하고 더 정렬된 상태로 만들기 위해 반복적으로 작업해 왔습니다.
GPT‑4는 유해한 조언, 버그가 있는 코드 또는 부정확한 정보를 생성하는 등 이전 모델과 유사한 위험을 초래합니다. 그러나 GPT‑4의 추가 기능으로 인해 새로운 위험 표면이 생겼습니다. 이러한 위험의 정도를 파악하기 위해 AI 조정 위험, 사이버 보안, 생물학적 위, 신뢰 및 안전, 국제 보안 등의 분야에서 50명 이상의 전문가가 참여하여 모델을 적대적으로 테스트했습니다. 이러한 결과를 통해 전문적으로 평가해야 하는 고위험 영역에서 모델 행동을 테스트할 수 있었습니다. 이러한 전문가들의 피드백과 데이터는 모델의 완화와 개선에 반영되었습니다. 예를 들어, 위험한 화학물질 합성 방법에 대한 요청을 거부하는 GPT‑4의 기능을 개선하기 위해 추가 데이터를 수집했습니다.
GPT‑4는 RLHF 훈련 중에 추가 안전 보상 신호를 통합하여 모델이 이러한 콘텐츠에 대한 요청을 거부하도록 훈련함으로써 유해한 출력(사용 가이드라인(새 창에서 열기)에 정의됨)을 줄입니다. 보상은 안전 관련 프롬프트에서 안전 경계와 완성 스타일을 판단하는 GPT‑4 제로 샷 분류기가 제공합니다. 모델이 유효한 요청을 거부하는 것을 방지하기 위해 다양한 소스에서 다양한 데이터 세트(예: 라벨링된 생산 데이터, 인간 레드팀 구성, 모델 생성 프롬프트)를 수집하고, 허용되거나 허용되지 않는 카테고리 모두에 안전 보상 신호(양수 또는 음수 값)를 적용합니다.
완화 조치는 GPT‑3.5와 비교하여 GPT‑4의 많은 안전 속성을 크게 개선했습니다. 허용되지 않은 콘텐츠 요청에 응답하는 모델의 경향이 GPT‑3.5에 비해 82% 감소했으며, GPT‑4는 정책에 따라 민감한 요청(예: 의료 조언 및 자해)에 대해 29% 더 자주 응답합니다.
전반적으로 모델 수준의 개입은 나쁜 행동을 유도하는 것을 더 어렵게 만들기는 하지만, 여전히 가능합니다. 또한, 사용 가이드라인을 위반하는 콘텐츠를 생성하기 위한 “탈옥”도 여전히 존재합니다. AI 시스템의 '토큰당 위험'이 증가함에 따라 이러한 개입에서 매우 높은 수준의 신뢰성을 달성하는 이 중요해질 것입니다. 현재로서는 남용 모니터링과 같은 배포 시점 안전 기술을 통해 이러한 한계를 보완하는 것이 중요합니다.
GPT‑4와 후속 모델은 유익한 방식으로든 해로운 방식으로든 사회에 상당한 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 우리는 외부 연구자들과 협력하여 잠재적 영향을 이해하고 평가하는 방법을 개선하고, 향후 시스템에서 나타날 수 있는 위험 기능에 대한 평가를 구축하고 있습니다. 곧 GPT‑4와 기타 AI 시스템의 잠재적인 사회적, 경제적 영향에 대한 우리의 생각을 더 많이 공유할 예정입니다.
이전 GPT 모델과 마찬가지로 GPT‑4 기본 모델은 문서의 다음 단어를 예측하도록 학습되었으며, 인터넷 데이터와 같은 공개적으로 사용 가능한 데이터와 라이선스를 취득한 데이터를 사용하여 훈련되었습니다. 이 데이터는 수학 문제에 대한 정답과 오답, 약한 추론과 강력 추론, 자기 모순적이고 일관된 진술, 매우 다양한 이념과 아이디어를 대표하는 웹 규모의 데이터 말뭉치입니다.
따라서 질문 프롬프트를 입력하면 기본 모델은 사용자의 의도와는 다른 다양한 방식으로 응답할 수 있습니다. 안전 범위 내에서 사용자의 의도에 맞게 조정하기 위해 인간 피드백을 바탕으로 한 강화 학습(RLHF)을 사용하여 모델의 행동을 파인 튜닝합니다.
모델의 기능은 주로 사전 훈련 과정에서 비롯된 것으로 보입니다. RLHF는 시험 성능을 향상시키지 못하며, 적극적인 노력 없이는 오히려 성능이 저하됩니다. 그러나 모델의 조종 능력은 사후 훈련 과정에서 이루어지며, 기본 모델이 질문에 답해야 한다는 것을 아는 것조차 프롬프트 엔지니어링이 필요합니다.
GPT‑4 프로젝트의 주요 초점은 예측 가능한 확장이 가능한 심층 학습 스택을 구축하는 것이었습니다. 가장 큰 이유는 GPT‑4와 같은 대규모 훈련의 경우 모델별 튜닝을 광범위하게 수행하는 것이 불가능하기 때문입니다. 우리는 여러 규모에 걸쳐 매우 예측 가능한 행동을 보이는 인프라와 최적화 기능을 개발했습니다. 이러한 확장성을 검증하기 위해 동일한 방법론을 사용하되 10,000배 적은 컴퓨팅을 사용하여 훈련된 모델에서 추정하여 훈련 세트에 포함되지 않은 내부 코드베이스에서 GPT‑4의 최종 손실을 미리 정확하게 예측했습니다:
이제 훈련 중에 최적화하는 지표(손실)를 정확하게 예측할 수 있게 되었으므로, 우리는 더 해석하기 쉬운 지표를 예측하기 위한 방법론을 개발하기 시작했습니다. 예를 들어, HumanEval(새 창에서 열기) 데이터 세트의 하위 집합에서 1,000배 적은 컴퓨팅으로 모델에서 추정하여 합격률을 예측하는 데 성공했습니다:
일부 기능은 여전히 예측하기 어렵습니다. 예를 들어, Inverse Scaling Prize은 모델 컴퓨팅이 증가할수록 성능이 저하되는 메트릭을 찾는 대회로, hindsight neglect(새 창에서 열기)가 우승작 중 하나였습니다. 최근의 다른 결과(새 창에서 열기)와 마찬가지로, GPT‑4는 추세를 역전시킵니다.
우리는 미래의 머신 러닝 기능을 정확하게 예측하는 것이 안전에 있어 중요한 부분이지만, 잠재적인 영향력에 비해 충분한 관심을 받지 못하고 있다고 생각합니다(하지만 여러 기관의 노력이 큰 격려가 되었습니다). 우리는 미래 시스템에서 기대할 수 있는 것에 대해 사회에 더 나은 지침을 제공하는 방법을 개발하기 위한 노력을 확대하고 있으며, 이러한 노력이 현장에서 공통의 목표가 되기를 희망합니다.
우리는 GPT‑4와 같은 모델을 평가하기 위한 벤치마크를 생성하고 실행하면서 샘플별로 성능을 검사하기 위한 소프트웨어 프레임워크인 OpenAI Evals(새 창에서 열기)를 오픈소싱하고 있습니다. 우리는 모델 개발(단점 파악 및 퇴보 방지)을 안내하기 위해 Evals를 사용합니다. 사용자는 앞으로 정기적으로 출시될 예정인 모델 버전의 성능을 추적하고 제품 통합을 발전시키는 데 Evals를 적용할 수 있습니다. 예를 들어 Stripe은 GPT 기반 문서화 도구의 정확성을 측정하기 위해 인간의 평가를 보완하기 위해 Evals를 사용했습니다.
코드가 모두 오픈 소스이기 때문에 Evals로 맞춤형 평가 로직(새 창에서 열기)을 구현하기 위해 새로운 클래스를 작성할 수 있습니다. 하지만 경험상 많은 벤치마크가 몇 가지 “템플릿” 중 하나를 따르기 때문에 내부적으로 가장 유용했던 템플릿도 포함시켰습니다(새 창에서 열기)(“모델 등급 평가”를 위한 템플릿을 포함시켰으며, GPT‑4가 자신의 작업을 확인하는 데 놀라울 정도로 유능하다는 것을 발견했습니다). 일반적으로 새 평가를 구축(새 창에서 열기)하는 가장 효과적인 방법은 데이터를 제공하는 것과 함께 이러한 템플릿 중 하나를 인스턴스화하는 것입니다. 다른 사람들이 이 템플릿과 Evals를 사용하여 어떤 것을 만들 수 있을지 기대하고 있습니다.
우리는 Evals가 가능한 한 다양한 실패 모드와 어려운 작업을 대표하는 벤치마크를 공유하고 크라우드소싱하는 수단이 되기를 바랍니다. 따라야 할 예로, GPT‑4가 실패하는 10개의 프롬프트가 포함된 로직 퍼즐(새 창에서 열기) 평가를 만들었습니다. 또한 Evals는 기존 벤치마크 구현과도 호환됩니다. 우리는 학술 벤치마크를 구현하는 몇 가지 노트북(새 창에서 열기)과 (작은 하위 집합의) CoQA(새 창에서 열기)를 통합하는 몇 가지 변형을 예시로 포함시켰습니다.
모든 사람이 Evals를 사용하여 모델을 테스트하고 가장 흥미로운 사례를 제출해 주시기를 바랍니다. 우리는 Evals가 모델을 사용하고 그 위에 구축하는 과정에서 필수적인 부분이 될 것이라고 생각합니다. 직접적인 기여와 질문, 피드백(새 창에서 열기)을 모두 환영합니다.
ChatGPT Plus 가입자는 chatgpt.com(새 창에서 열기)에서 사용량 제한이 있는 GPT‑4 액세스 권한을 얻게 됩니다. 실제 수요와 시스템 성능에 따라 정확한 사용 한도를 조정할 예정이지만, 앞으로 몇 달에 걸쳐 확장과 최적화를 진행할 예정임에도 불구하고 용량 제약이 심할 것으로 예상됩니다.
트래픽 패턴에 따라 더 많은 양의 GPT‑4 사용을 위한 새로운 구독 수준을 도입할 수도 있습니다. 언젠가는 구독하지 않는 사용자도 사용해 볼 수 있도록 일정량의 무료 GPT‑4 쿼리를 제공할 수 있기를 바랍니다.
GPT‑4 API(gpt-3.5-turbo와 동일한 채팅 완성 API(새 창에서 열기) 사용)에 액세스하려면 대기자 명단에 등록하세요. 오늘부터 일부 개발자를 초대하기 시작하여 점진적으로 수용 인원을 확대하여 수요와 공급의 균형을 맞출 예정입니다. AI의 사회적 영향 또는 AI 조정 문제를 연구하는 연구자라면 연구자 액세스 프로그램을 통해 보조금 지원 액세스를 신청할 수도 있습니다.
액세스 권한이 부여되면 gpt-4 모델(이미지 입력은 아직 제한된 알파 버전임)에 텍스트 전용 요청만 생성할 수 있으며, 향후 새 버전을 만들면 자동으로 안정적인 권장 모델로 업데이트할 예정입니다(6월 14일까지 지원되는 gpt-4-0314를 호출하여 현재 버전을 고정할 수 있습니다). 가격은 프롬프트 토큰 1,000개당 $0.03, 완료 토큰 1,000개당 $0.06입니다. 기본 속도 제한은 분당 40,000개의 토큰과 분당 200건의 요청입니다.
gpt-4의 컨텍스트 길이는 8,192 토큰입니다. 또한 32,768개의 컨텍스트(약 50페이지 분량의 텍스트)가 포함된 버전인 gpt-4-32k에 대한 제한적인 액세스를 제공하고 있습니다. 이 버전도 시간이 지나면 자동으로 업데이트될 예정입니다(현재 버전 gpt-4-32k-0314도 6월 14일까지 지원됩니다). 가격은 프롬프트 토큰 1,000개당 $0.06, 완료 토큰 1,000개당 $0.12입니다. 계속해서 긴 컨텍스트에 대한 모델 품질을 개선하고 있습니다. 사용 사례에 어떻게 작동하는지에 대한 피드백은 언제든지 환영합니다. 8K 및 32K 엔진에 대한 요청은 용량에 따라 다른 속도로 처리하고 있으므로 해당 액세스 권한을 다른 시간에 받을 수도 있습니다.
우리는 GPT‑4가 다양한 애플리케이션을 지원하여 사람들의 삶을 개선하는 데 유용한 도구가 되기를 기대합니다. 아직 해야 할 일이 많으며, 모델을 구축하고, 탐색하고, 기여하는 커뮤니티의 공동 노력을 통해 모델을 개선할 수 있기를 기대합니다.
다른 언어로 번역된 MMLU 질문의 예입니다. 참고로 일관된 선택 토큰(A-D)을 사용합니다.
각주
- A
인컨텍스트 훈련의 4가지 예시를 통해 사고의 사슬 프롬프트를 사용하여 이 벤치마크를 평가합니다. 구체적인 프롬프트는 검증 세트에서 튜닝되었습니다.
참고 자료
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). 추가 분석 내용은 논문에서(새 창에서 열기) 확인할 수 있습니다.


