새로운 모델을 출시하기 전에 연구소는 모델이 무엇을 할 수 있는지뿐 아니라 실제 사용 환경에서 어떻게 행동할 가능성이 있는지, 그리고 어떤 새로운 위험을 초래할 수 있는지를 이해해야 합니다. 이러한 필요성은 모델의 역량이 향상될수록 더욱 커집니다. OpenAI는 배포 전 안전성 검토의 일환으로 표적 평가, 레드팀 테스트 및 기타 점검을 활용해 모델 행동을 파악하고 있습니다. 이제 여기에 더해, 실제 배포가 이루어지기 전에 이를 시뮬레이션하는 방법도 활용하고 있습니다. 이 방법은 실제 배포와 유사한 환경에서 후보 모델이 어떻게 행동할지를 미리 보여주는 보완적인 추가적인 신호를 제공합니다.
배포 시뮬레이션은 미래의 배포를 실제로 이루어지기 전에 시뮬레이션하는 방법입니다. 이를 위해 개인정보를 보호하는 방식으로 과거의 대화를 새로운 후보 모델과 다시 실행합니다. 이를 통해 출시 전에 실제와 유사한 맥락에서 새로운 모델이 어떻게 반응하는지, 새로운 바람직하지 않은 행동이 나타나는지, 그리고 그러한 행동이 어느 정도의 빈도로 발생할 수 있는지를 분석할 수 있습니다.
여러 GPT‑5 계열 Thinking 모델 배포 과정에서 배포 시뮬레이션은 바람직하지 않은 모델 행동의 발생률을 보다 정확하게 추정하는 데 도움을 주었고, 출시 전에 새로운 형태의 비정렬 행동을 발견하는 데도 기여했습니다. 또한 모델이 자신이 평가되고 있다는 사실을 알아차릴 위험을 줄이는 데에도 도움이 되었습니다. OpenAI는 이 방법을 복잡한 에이전틱 롤아웃에도 적용했으며, 이를 통해 이 기법이 일반적인 채팅 환경을 넘어 도구 사용이 포함된 보다 복잡한 에이전트 환경에도 적용될 수 있고, 내부 모델 배포 이전의 위험 평가에도 활용될 수 있음을 확인했습니다.
OpenAI는 이미 모델 개발 과정에서 배포 시뮬레이션을 통해 얻은 인사이트를 활용해 기존 평가 방식의 사각지대를 파악하고, 완화 조치와 배포 의사결정에 반영하고 있습니다. 앞으로 이 파이프라인을 더욱 쉽게 실행할 수 있게 되면, 모델 개발 과정에서 그 역할은 더욱 커질 것으로 기대합니다.
업계 전반에서 사용되는 배포 전 평가는 일반적으로 합성 프롬프트, 사람이 직접 작성한 프롬프트, 실제 서비스 환경의 프롬프트를 조합해 구성되며, 이들은 의도적으로 난도가 높거나 심각도가 크거나 적대적인 상황을 포함하도록 선정됩니다. 이러한 평가는 대체로 두 가지 밀접하게 연결된 목표를 가지고 있습니다. 첫째, 실제 배포 트래픽에서는 발생할 가능성이 매우 낮은 상황에서 모델이 어떻게 반응하는지 스트레스 테스트하는 것입니다. 둘째, 새로운 바람직하지 않은 행동을 발견하고 실제 배포 시 발생 빈도를 예측하는 것을 포함해, 바람직하지 않은 모델 행동 전반에 대한 이해를 높이는 것입니다.
기존 평가는 첫 번째 목표를 달성하는 데 여전히 매우 중요합니다. 반면 배포 시뮬레이션은 롱테일 위험이 아닌 경우 두 번째 목표 측면에서 중요한 진전을 보여줍니다(실험 결과, 이 접근법은 20만 개 메시지당 1회 미만의 빈도로 발생하는 행동까지 측정할 수 있다고 기대하기는 어렵습니다). 배포 시뮬레이션의 강점은 기존 평가 방식이 안고 있는 몇 가지 핵심적인 한계를 우회할 수 있다는 데 있습니다.
- 적용 범위: 평가 프롬프트가 바람직하지 않은 모델 행동의 모든 가능한 유형을 포괄한다고 확신하기는 어렵습니다. 새로운 유형의 바람직하지 않은 행동을 측정하려면 새로운 평가를 설계해야 하며, 어떤 피해를 측정해야 하는지도 알아야 합니다. 이는 많은 시간과 노력이 필요한 작업이며, 평가의 효과는 시간이 지남에 따라 포화될 수 있습니다.
- 선택 편향: 기존 평가는 일반적으로 특정한 바람직하지 않은 모델 행동을 염두에 두고 설계되며, 과거에 발생했던 맥락에 치우쳐 평가 사례가 선정되는 경향이 있습니다. 이로 인해 이러한 평가의 추정치는 실제 배포 환경 전반에서 해당 행동이 얼마나 발생하는지 파악하는 데 충분한 정보를 제공하지 못할 수 있습니다.
- 모델이 평가임을 인식할 수 있다는 점: 모델은 점점 더 자신이 평가받고 있다는 사실을 알아차릴 수 있게 되었으며, 이는 모델의 행동과 그에 기반한 안전성 측정 결과를 왜곡할 수 있습니다. OpenAI에서 사용하는 기존 평가 중 상당수는 실제 서비스 트래픽에서 추출되므로 이러한 문제가 발생하지 않지만, 이는 업계 전반에서 사용되는 많은 기존 평가 방식에서 공통적으로 제기되는 우려입니다.
배포 시뮬레이션의 핵심 기법은 간단합니다. 실제 배포 환경에서 발생한 최근 대화를 가져온 뒤, 기존 모델이 생성한 원래의 어시스턴트 응답을 제거하고 출시 예정인 후보 모델로 해당 응답을 다시 생성합니다. 그런 다음 새로운 실패 유형이 있는지 확인해 생성 결과를 평가하고, 실제 배포와 유사한 이 분포에서의 발생 빈도를 바탕으로 배포 시 바람직하지 않은 행동의 발생 빈도를 추정합니다. 또한 출시 후 실제 배포 트래픽에 대해서도 동일한 측정을 수행할 수 있으므로, 배포 전에 수행한 예측의 정확성을 검증할 수 있습니다.
배포 시뮬레이션은 앞서 언급한 세 가지 한계를 크게 완화합니다. 샘플링 편향은 최근 사용 양상을 대표하는 평가 프롬프트 분포를 사용함으로써 줄일 수 있습니다. 또한 대표성 있는 프롬프트를 활용한 배포 시뮬레이션은 적용 범위에 대한 우려도 완화할 수 있습니다. 더 많은 트래픽을 시뮬레이션하기만 해도 바람직하지 않은 모델 행동을 더 폭넓게 포착할 수 있기 때문입니다. 컴퓨팅 자원과 적용 범위 간의 이러한 상충 관계는 중요합니다. 더 많은 평가를 구축하기 위한 수작업이 아니라 컴퓨팅 자원에 비례해 위험 평가의 품질을 높일 수 있기 때문입니다. 또한 모델은 배포 시뮬레이션을 통해 얻은 대화와 실제 배포 트래픽에서 얻은 대화를 구분하지 못하는 것으로 보입니다.
그림 1: 배포 시뮬레이션 파이프라인 개요
영역 | 기존 평가 | 배포 시뮬레이션 |
적용 범위 | 발생 빈도는 낮지만 반드시 포착해야 하는 고심각도 위험에 적합 | 실제 배포 트래픽에서 나타날 가능성이 있는 위험 전반을 이해하는 데 적합 |
대표성 / 편향 | 실제 배포에서 거의 발생하지 않는 행동까지 포함해 과거 또는 예측된 특정 위험을 중심으로 평가 | 현재 배포 트래픽에서 일정 수준 이상 발생하는 위험을 대표 |
평가 인식 | 배포 데이터를 활용해 평가를 구성하지 않는 경우(예: 합성 데이터), 평가 중이라는 신호가 드러날 수 있음 | 실제 배포와 유사한 맥락은 평가 인식을 크게 줄이는 것으로 보임 |
노력 | 맞춤형 프롬프트 분포와 평가 환경을 구축하려면 상당한 수작업이 필요 | 초기 인프라 구축 비용은 필요하지만, 이후에는 배포 데이터의 대화 시작 구간과 기존 평가기를 재활용할 수 있음 |
기존 평가와 배포 시뮬레이션의 개괄적 비교
배포 시뮬레이션을 평가하기 위해 OpenAI는 GPT‑5.4 Thinking의 바람직하지 않은 행동 20개 유형에 대해 배포 시 발생 빈도를 사전에 예측해 등록했습니다. 또한 GPT‑5 계열 Thinking 모델의 다른 배포 사례를 대상으로 사후 분석 연구도 수행했습니다. 이번 분석에서 다룬 모델 행동은 시스템 카드에서 보고해 온 비정렬 행동과 금지된 콘텐츠 범주를 모두 포함합니다(예: 모델이 도구에 대해 거짓말을 하거나 허용되지 않은 성적 콘텐츠를 생성하는 경우). 이번 결과에서는 바람직하지 않은 모델 행동 20개 범주만 추적하고 새로운 비정렬 행동만 탐색했지만, 배포 시뮬레이션은 원칙적으로 배포 시점의 어떠한 모델 특성도 시뮬레이션하는 데 적용할 수 있는 범용 기법입니다.
이번 연구에 활용한 실제 서비스 트래픽 역시 GPT‑5 계열 Thinking 모델에서 수집한 것이었습니다. 평가를 수행하기 전에 계정과 연결된 식별자와 개인을 식별할 수 있는 정보를 자동으로 제거했습니다. 개인정보 보호 정책에 따라, 모델 개선을 위한 데이터 사용에 동의한 사용자의 ChatGPT 트래픽만 분석했습니다. 또한 이러한 평가 결과는 집계된 형태로만 보고합니다. 전체적으로 OpenAI는 2025년 8월부터 2026년 3월까지 GPT‑5 Thinking부터 GPT‑5.4 배포에 이르는 약 130만 건의 비식별화된 대화를 분석했습니다.
OpenAI는 배포 시뮬레이션이 생성한 배포 전 위험 평가의 품질을 세 가지 주요 기준으로 평가합니다.
- 분류 체계의 포괄성: 출시 후 감사를 통해 초기 문제 행동 분류 체계에 포함되지 않았던 중요한 비정렬 행동이 발견되었는가?
- 방향성 정확도: 시뮬레이션이 알려진 행동의 배포 후 발생 빈도가 증가할지 감소할지를 정확하게 예측했는가?
- 발생률 보정 정확도: 배포 전에 추정한 발생률이 실제 배포 후 관찰된 발생률과 얼마나 가까웠는가? 발생률 보정 정확도는 단순히 증가 또는 감소 방향을 맞추는 것보다 더 높은 수준의 정확성을 요구하므로 가장 엄격한 품질 기준에 해당합니다.
또한 OpenAI는 배포 시뮬레이션 과정에서 모델이 자신이 평가되고 있다는 사실을 어느 정도 인식하는지 측정하고, 다양한 유형의 배포 트래픽과 복잡한 도구 사용 환경에서도 이 방법이 얼마나 견고하게 작동하는지 검증합니다.
GPT‑5 계열 Thinking 모델의 배포 전반에 걸쳐 배포 시뮬레이션은 실제 위험 발생률을 추정하는 데 있어 난도 높은 프롬프트 기반 기준선보다 우수한 성능을 보였으며, 출시 전에 계산기 해킹을 발견할 수 있었습니다. 또한 모델 입장에서는 실제 배포 환경과 구별하기 어려운 것으로 나타났습니다.
예측 결과 개요. GPT‑5 계열 Thinking 모델 배포에 대한 모든 예측 결과는 그림 2에서 확인할 수 있습니다. GPT‑5.4 Thinking에 대한 예측은 사전에 등록된 것이며, 나머지는 사후적으로 수행한 예측입니다. 전체적으로 예측의 중앙 배수 오차는 1.5배였습니다(예를 들어 바람직하지 않은 행동의 실제 발생률이 10만 건당 10건이라면, 10만 건당 15건 또는 6.67건으로 추정한 경우에 해당합니다). 이 방법의 꼬리 오차는 약 10배 정도까지 커질 수 있지만, 아래에서 설명하듯 시뮬레이션 파이프라인을 추가로 개선하면 이러한 오차를 크게 줄일 수 있을 것으로 기대합니다.
그림 2. 이전 배포 데이터를 기반으로 배포 시 바람직하지 않은 행동의 발생 빈도를 예측한 배포 시뮬레이션 결과입니다. 5.1 → 5 표기는 GPT‑5의 대화 시작 구간을 GPT‑5.1로 다시 생성했다는 의미로, 즉 GPT‑5 데이터를 활용해 GPT‑5.1의 배포를 시뮬레이션한 것입니다. 가장 높은 비율로 나타난 비정렬 사례는 GPT‑5.1의 '계산기 해킹'이었으며, 이에 대해서는 앞서(새 창에서 열기) 설명했습니다.
배포 시뮬레이션 예측과 기준선 비교. 배포 전 위험 평가에서 특히 정확하게 추정해야 하는 범주는 모델 배포 이후 발생률이 크게 변화하는 경우(예: 1.5배 이상)입니다. 이러한 범주에서 배포 시뮬레이션은 특정 바람직하지 않은 행동의 발생 빈도가 모델 배포 후 증가할지 감소할지를 예측하는 데(그림 3 왼쪽) 기준선보다 훨씬 우수한 성능을 보였으며, 실제 배포 시의 정확한 발생률을 추정하는 데도(그림 3 오른쪽) 더 뛰어난 결과를 보였습니다. OpenAI는 두 가지 주요 기준선을 사용합니다. 하나는 현재 시스템 카드와 출시 의사결정에 활용하는 고난도 프롬프트 기준선이고, 다른 하나는 이전 배포의 발생률을 새로운 모델의 발생률 추정치로 그대로 사용하는 단순 기준선입니다.
그림 3. 배포 시뮬레이션은 정적 평가보다 발생률 변화의 방향(왼쪽)과 실제 서비스 발생률(오른쪽)을 모두 더 정확하게 예측합니다.
시뮬레이션 파이프라인의 오차 요인. OpenAI는 현재 파이프라인에서 발생하는 오차의 원인도 분석했습니다. 특히 큰 꼬리 오차는 배포 의사결정에 대한 파이프라인의 신뢰도를 떨어뜨립니다. 예를 들어 특정 유형의 바람직하지 않은 행동이 크게 증가할 것으로 예측되었을 때, 파이프라인에 간헐적으로라도 큰 오차가 발생하는 것으로 알려져 있다면 해당 결과가 신뢰할 수 있는 추정치인지 아니면 파이프라인에서 발생한 인공적인 산물인지를 확신하기 어려워집니다. 가능한 오차의 주요 원인은 두 가지입니다.
- 재샘플링 환경 충실도 오차: 실제 서비스 환경에서의 발생률을 정확하게 추정하려면 시뮬레이션 파이프라인이 가능한 한 실제 환경과 유사해야 합니다. 이는 일부는 엔지니어링 문제입니다(실제 서비스 트래픽에 사용하는 것과 동일한 파이프라인을 사용해 모델을 샘플링해야 함). 또한 일부는 지속적으로 변화하는 외부 리소스에 대한 읽기/쓰기 액세스가 필요한 도구와 관련된 과제이기도 합니다(예: 웹 검색이나 로컬 파일과의 상호작용). 실제 배포와 그에 대한 시뮬레이션 결과를 비교함으로써 시뮬레이션 충실도에서 발생하는 오차를 분리해 측정할 수 있습니다(즉, 이미 배포된 모델의 배포를 다시 시뮬레이션하는 방식입니다).
- 프롬프트 분포 이동 오차: 배포 시뮬레이션의 주요 우려 사항 중 하나는 어떤 모델이든 배포되면 입력 분포가 변화한다는 점입니다. 특히 사용자가 새로운 모델의 기능에 적응하는 경우 이러한 현상은 더욱 두드러질 수 있습니다. OpenAI는 최근 프롬프트를 사용해 배포를 시뮬레이션한 경우와 실제 배포 이후의 프롬프트를 사용한 경우의 추정치를 비교함으로써 프롬프트 분포 이동으로 인한 오차를 분리해 측정합니다.
그림 4에서 볼 수 있듯이, 현재 파이프라인에서 발생하는 오차의 상당 부분, 특히 꼬리 오차의 상당 부분은 시뮬레이션 충실도에 기인하는 것으로 나타났습니다. 이는 긍정적인 결과입니다. 일반적으로 시뮬레이션 충실도를 개선하는 것이 프롬프트 분포 이동을 줄이는 것보다 더 용이할 것으로 예상되기 때문입니다. 또한 이전 배포의 최신 데이터를 사용할 경우 프롬프트 분포 이동으로 인한 오차를 줄일 수 있다는 사실도 확인했습니다. 자세한 내용은 연구 논문에서 확인할 수 있습니다.
그림 4. 재샘플링 환경의 충실도는 추정 오차의 가장 큰 원인으로 보이며, 특히 극단적인 오차에서 그 영향이 두드러집니다.
자동화된 감사는 이번 배포 과정에서 새롭게 나타난 유일한 비정렬 행동을 발견했습니다. OpenAI가 분석한 배포 기간 동안, 시뮬레이션된 배포를 기반으로 한 자동 감사 파이프라인은 출시 전에 '계산기 해킹'을 발견할 수 있었을 것입니다. 이는 분석 대상 ChatGPT 트래픽에서 확인된 유일한 새로운 비정렬 행동이었습니다. 계산기 해킹은 보상 해킹의 한 형태로, 모델이 브라우저 도구를 계산기처럼 사용하면서도 그 행동을 검색인 것처럼 제시하는 것을 의미합니다. 이는 대규모 감사가 모든 새로운 실패 사례를 찾아낼 수 있다는 뜻은 아닙니다. 하지만 실제와 유사한 맥락이 왜 중요한지를 보여줍니다. 이러한 맥락은 시뮬레이션의 출발점이 된 원래 트래픽에는 존재하지 않았더라도, 더 제한적인 평가 세트에서는 직접 드러나지 않을 행동을 이끌어낼 수 있기 때문입니다.
배포 환경과 유사한 맥락을 사용하는 또 다른 장점은 모델이 자신이 평가받고 있다는 사실을 인식할 때 발생하는 왜곡을 줄일 수 있다는 점입니다. OpenAI를 비롯한 여러(새 창에서 열기) 연구에서는 모델이 자신이 평가되고 있다는 사실을 인식하는 경우가 많다는 점을 확인했습니다. 예를 들어 모델은 추론 과정에서 자신이 무엇에 대해 평가받고 있는지, 평가자가 무엇을 기대할지, 그리고 자신이 잘못된 행동을 하고 있다면 적발될 가능성이 있는지 등을 추론할 수 있습니다. 이는 정렬성 평가에 중요한 문제를 제기합니다. 모델이 평가받고 있다고 생각하기 때문에 올바르게 행동하는 것이라면, 실제 배포 이후에는 안전하게 행동할 것이라고 어떻게 확신할 수 있을까요?
OpenAI는 배포 시뮬레이션이 실제 배포 데이터를 기반으로 하지 않는 기존 평가에 비해 모델의 평가 인식 수준을 크게 낮춘다는 사실을 확인했습니다. 평가 인식은 세 가지 방식으로 측정했습니다. 첫째, 모델에게 특정 실행 기록이 실제 서비스 환경에서 나온 것인지 평가 환경에서 나온 것인지 분류하도록 했습니다. 둘째, 추론 과정에서 정렬성 평가를 받고 있다는 명시적 언급이 있는지 확인했습니다. 셋째, 감독이나 평가 체계에 대한 추론 등 메타게임(새 창에서 열기) 행동이 나타나는지 분석했습니다. 시뮬레이션된 배포 트래픽은 세 가지 측정 기준 모두에서 실제 배포 트래픽과 매우 유사한 결과를 보였습니다. 예를 들어 GPT‑5.2는 실제 서비스 트래픽을 5.4%의 비율로 평가와 유사하다고 분류했으며, 시뮬레이션된 트래픽은 5.1%로 분류했습니다. 반면 주로 합성 예제로 구성된 기존 평가(SWE-Bench, MonorepoBench 등)는 거의 100% 평가로 분류되었습니다.
그림 5. 평가 인식 비교: 실제 서비스 트래픽과 시뮬레이션 트래픽은 평가 탐지, 언어로 표현된 정렬성 평가 인식, 메타게임 측면에서 유사한 비율을 보인 반면, 기존 평가 데이터세트에서는 훨씬 높은 비율이 나타났습니다.
이 방법이 일반적인 채팅 환경을 넘어 적용될 수 있는지 확인하기 위해, OpenAI는 복잡한 에이전틱 코딩 환경에 대한 배포 시뮬레이션도 연구했습니다. 구체적으로는 GPT‑5.4에서 생성된 내부 직원의 에이전틱 실행 경로 12만 건을 활용해 GPT‑5.5 기반 코딩 에이전트의 내부 배포를 시뮬레이션했습니다. 이는 두 가지 목적을 가집니다. 첫째, 배포 시뮬레이션이 내부 배포에 대한 위험 평가에도 활용될 수 있음을 보여줍니다. 둘째, 신중한 도구 시뮬레이션을 통해 에이전틱 환경에서도 높은 수준의 시뮬레이션 충실도를 달성할 수 있음을 입증합니다.
앞서 설명했듯이, 시뮬레이션 충실도는 현재 파이프라인에서 발생하는 주요 오차 원인 중 하나입니다. 배포 시뮬레이션을 실제와 가깝게 구현하는 데 있어 어려운 점 중 하나는 지속적으로 변화하는 외부 리소스(예: 웹 검색 또는 로컬 파일과의 상호작용)에 대한 읽기/쓰기 액세스가 필요한 경우에도 도구가 실제와 유사하게 동작해야 한다는 점입니다.
이는 특히 에이전틱 배포 환경에서 더욱 어려운 문제입니다. 단일 에이전트 실행 경로가 수백 건의 도구 호출, 저장소 상태, 네트워크 응답 또는 일시적인 장애에 의존할 수 있기 때문입니다. 따라서 실제 도구 액세스를 사용해 재샘플링하는 것은 어렵고 잠재적으로 위험할 수 있습니다. 이를 고려해 OpenAI는 실제 시스템에 도구 호출을 적용하는 대신 다른 LLM으로 이를 시뮬레이션합니다. 또한 이 LLM에 추가적인 기능을 제공하는 것이 현실성을 높이고 결과적으로 추정 품질을 향상시키는 데 필수적이라는 사실을 확인했습니다.
OpenAI는 도구 시뮬레이터 모델에 원래의 마지막 턴 실행 기록, 대화 시점의 저장소, 도구 호출/응답 쌍 데이터베이스, 그리고 읽기 전용 커넥터를 제공합니다. 판별 모델이 시뮬레이션된 실행 기록과 실제 실행 기록을 구분하도록 한 실험에서 현실성은 11.6%의 승률에서 무작위 수준인 50%에 가까운 49.5%까지 향상되었습니다.
그림 6. 도구 호출을 더 풍부한 기능으로 시뮬레이션하면, 도구 사용 비중이 높은 환경에서도 재샘플링의 현실성을 실제 샘플링과 거의 구분할 수 없을 정도까지 높일 수 있습니다.
시뮬레이션 충실도를 보여주는 추가적인 근거로, GPT‑5.4를 사용해 GPT‑5.4 Codex Thinking 트래픽을 시뮬레이션했을 때 비정렬 발생률은 거의 오차 범위 내에 머물렀습니다. 반면 배포 전 테스트에서는 GPT‑5.5가 대부분의 범주에서 더 높은 비정렬 수준을 보였습니다.
그림 7. 도구 시뮬레이션을 적용하면 GPT‑5.4로 재샘플링한 대화의 행동 발생률과 실제 GPT‑5.4 서비스 트래픽의 행동 발생률이 매우 유사하게 나타나며, 이는 재샘플링 환경의 충실도가 높다는 것을 의미합니다. 범주에 대한 자세한 내용은 GPT‑5.5 시스템 카드(새 창에서 열기)를 참조하세요.
이러한 결과는 주변 도구 환경을 충분한 충실도로 시뮬레이션할 수 있다면 배포 시뮬레이션을 복잡한 에이전트 환경에도 적용할 수 있음을 시사합니다.
자연스럽게 떠오르는 질문은 외부 감사자가 비공개 실제 서비스 트래픽에 접근하지 않고도 동일한 이점을 일부 얻을 수 있는지 여부입니다. OpenAI는 접두 대화로 사용한 WildChat 대화 10만 건을 활용해 이를 검증했습니다. WildChat은 최근 OpenAI 실제 서비스 데이터보다 정확도는 낮았지만 여전히 유의미한 정보를 제공했습니다. 최근 실제 서비스 데이터의 평균 배수 오차는 WildChat보다 낮았으며(1.75배 대 2.44배), WildChat도 실제 발생률의 약 3배 이내에 머무르는 경우가 많았고 우연 수준을 넘는 정확도로 더 우수한 모델을 식별했습니다. OpenAI는 WildChat 방식의 평가가 개발자가 수행하는 배포 시뮬레이션을 보완하는 유망한 방법이라고 보고 있습니다. 이에 대한 자세한 결과는 함께 공개된 Alignment 블로그 게시물(새 창에서 열기)에서 확인할 수 있습니다.
배포 시뮬레이션은 적대적 평가, 레드팀 테스트, 표적 롱테일 위험 분석을 대체하기 위한 것이 아니라 이를 보완하기 위한 방법입니다. 일부 바람직하지 않은 모델 행동은 모델의 추론 과정을 관찰할 수 있어야 탐지할 수 있습니다. 따라서 미래의 모델이 추론 과정을 덜 명확하게 드러내거나, 중요한 단계를 생략하거나, 의도를 숨기는 방법을 학습하게 되면 이러한 행동을 발견하기 어려워질 수 있습니다. 또한 실제 서비스 데이터는 비공개이기 때문에 현재는 개발자가 외부 감사자보다 실제 사용 환경을 잘 반영하는 맥락에 더 쉽게 접근할 수 있습니다. 더 나은 공개 데이터세트가 마련된다면 이러한 격차를 줄일 수 있을 것입니다.
배포 시뮬레이션은 샘플링된 접두 대화에 나타날 만큼 충분히 자주 발생하는 행동을 분석하는 데 가장 효과적입니다. 1천만 건의 대화 중 한 번 발생하는 실패 사례는 100만 건 규모의 샘플링으로는 발견되지 않을 가능성이 높기 때문에, 적대적 평가, 레드팀 테스트 및 표적 롱테일 위험 분석은 여전히 필요합니다. 현재 OpenAI는 단일 어시스턴트 응답을 시뮬레이션하는 데 집중하고 있습니다. 예비 실험 결과 여러 턴을 시뮬레이션하더라도 추정 정확도가 의미 있게 개선되지는 않았기 때문입니다. 다만 이는 향후 시뮬레이션 충실도를 높이기 위해 추가 연구가 필요한 중요한 영역이 될 수 있습니다.
이 방법은 접두 대화의 분포, 즉 재샘플링에 사용되는 대화 구성에도 영향을 받습니다. 대규모 제품 변경, 새로운 도구 출시, 주요 사회적 사건, 계절적 변화가 발생한 이후에는 과거 트래픽이 더 높은 성능의 모델과 사용자가 상호작용하는 방식을 제대로 반영하지 못할 수 있습니다. 전체 논문에 따르면 이러한 문제는 가능한 한 최신 데이터를 활용함으로써 완화할 수 있습니다.
배포 시뮬레이션은 프런티어 AI 연구소와 평가자가 언어 모델이 실제 환경에서 어떻게 행동할지 예측하고, 배포 전에 그 위험을 이해할 수 있도록 돕는 새로운 배포 전 위험 평가 접근 방식입니다. 배포 시뮬레이션은 실제 서비스 환경에 더 가까운 예측 계층을 추가함으로써 기존의 안전성 평가, 레드팀 테스트, 표적 분석을 보완합니다. 이를 통해 배포 후 행동에 대한 예측 정확도를 높이고, 평가 인식으로 인한 영향을 줄이며, 배포 전에 수행한 예측을 출시 후 검증할 수 있게 합니다. 배포 시뮬레이션을 기존 평가와 함께 활용하면 모델 위험 평가를 더욱 현실적이고 정량적이며, 배포 의사결정에 더욱 유용한 방식으로 수행할 수 있습니다.


