독립적이고 신뢰할 수 있는 제3자 평가는 안전 생태계를 강화하는 데 핵심적인 역할을 합니다. 이러한 평가는 프런티어 모델을 대상으로 수행되며, 핵심 능력과 안전 완화 조치에 관한 주장에 추가 증거를 제공합니다. 이 글에서는 지금까지 우리가 얻은 교훈을 공유하고, 프런티어 모델을 타당하게 평가할 수 있는 평가 설계 접근법을 권고하며, 이것이 이 분야에서 떠오르는 기준을 형성하는 데 도움이 되기를 바랍니다.
이전에는 많은 평가가 모델을 챗봇처럼 다뤘습니다. 즉, 평가가 사용자 질문처럼 모델에 프롬프트를 주면 모델이 답하고, 평가자가 그 출력을 판단했습니다. 오늘날의 프런티어 모델은 훨씬 더 많은 일을 할 수 있습니다. 도구를 사용하고, 여러 단계에 걸쳐 정보를 추적하며, 더 큰 워크플로 안에서 행동할 수 있습니다. 이는 성능이 모델 자체뿐 아니라 작업이 이루어지는 환경, 그리고 그 행동을 가능하게 하는 설정에도 좌우된다는 뜻입니다. 우리가 “하네스”라고 부르는 이 주변 설정은, 도구 사용 방식, 정보 추적 방식, 실수에서 회복하는 방식 등 시스템 성능의 핵심 측면을 바꿀 수 있습니다.
이로 인해 평가를 수행하는 방식과 독자가 평가 보고서에서 살펴봐야 할 내용이 달라집니다. 우리의 견해로는 가장 유용한 보고서는 결과 자체를 넘어 두 가지를 명시적으로 설명합니다. 첫째, 평가 설정이 어떤 주장을 검증하도록 설계되었는지, 둘째, 평가 결과가 타당하다는 데 어떤 증거가 있는지입니다.
평가에서 검증되는 주장은 보통 세 가지 범주 중 하나에 속합니다1:
- 능력 유도: 모델이 평가 대상 능력을 그럴듯하게 발휘할 수 있는가?
- 안전장치 성능: 테스트된 안전장치는 평가 대상 행동이나 공격에 대해 얼마나 견고한가?
- 비교: 서로 다른 모델은 동등한 조건에서 어떻게 성능을 보이는가?
평가 보고서는 또한 결과의 타당성에 영향을 줄 수 있는 효과를 평가자가 어떻게 점검했는지도 설명해야 합니다. 여기에는 다음이 포함됩니다.
- 보상 해킹: 작업이나 채점기의 허점을 이용해, 평가가 측정하려는 행동을 보여주지 않고도 시스템이 점수를 얻는 것.
- 거부: 테스트 중인 행동을 가리는 방식으로 거부하는 것.
- 오염: 평가 과제, 정답 또는 유사 변형이 학습 데이터에 있었거나 브라우징 등을 통해 평가 중 발견 가능했기 때문에 실제보다 더 높은 성능을 보이는 것.
- 깨진 문제: 과제가 유효하지 않아 실제보다 낮은 성능을 보이는 것. 이유로는 불공정한 채점(예: 정답에 명시되지 않은 구현 세부사항이 필요함)과 해결 불가능한 환경(예: 핵심 파일 누락 또는 신뢰할 수 없는 도구) 등이 있습니다.
- 샌드배깅: 평가받고 있음을 인식할 때 의도적으로 저조한 성과를 내는 것.
우리는 하네스의 역할이 특히 더 긴 궤적에 걸쳐 행동하는 시스템에서 중요하다는 점을 관찰했습니다. 모델이 도구를 사용하고, 상태를 유지하며, 여러 단계에 걸쳐 실수에서 회복할 수 있을 때, 하네스는 관찰되는 성능 수준을 바꿀 수 있으며, 심지어 평가 중인 능력이 평가에 아예 나타나는지를 결정할 수도 있습니다. 예를 들어 상태를 보존하고 실패한 행동을 재시도하는 하네스는, 더 단순한 하네스에서는 끝내 완료하지 못하는 다단계 작업을 같은 모델이 끝마치게 할 수 있습니다.
아래 표에서는 평가자가 제시하고자 하는 세 가지 유형의 주장과, 각 주장에 적합하다고 OpenAI가 판단하는 하네스를 구분해 설명합니다.
평가가 뒷받침하려는 주장 | 적절한 하네스 선택 | 보고할 증거 |
강한 유도하의 능력: 설정이 가장 강력하고 신뢰할 만한 성능을 끌어내도록 설계되었을 때, 시스템 A는 X 유형의 작업을 완료할 수 있다. | 유능한 사용자가 합리적으로 사용할 하네스, 도구, 스캐폴딩, 예산을 포함해, 해당 시스템에 대해 가장 강력하고 신뢰할 만한 유도 설정을 사용한다. | 하네스와 도구 설정, 유도 지침, 허용된 예산/노력, 토큰/비용/시간, 그리고 그 설정이 주장된 능력의 신뢰할 만한 대리 지표인 이유. 서로 다른 최적화 설정에서 시스템을 비교한다면, 시스템 간 비교 또는 강한 유도 비교라고 명시한다. |
통제된 비교: 시스템 A가 동일한 평가 설정에서 시스템 B보다 더 높은 성능을 보인다. | 작업, 채점, 예산을 고정한다. 공유된 하네스/도구 설정을 사용하거나, 비교 대상 시스템들에 합리적인 최대 유도를 제공하도록 미리 선택한 고정된 표준 하네스 집합을 사용한다. | 공유된 작업 집합, 도구, 채점 방식, 하네스, 예산, 토큰 효율/비용, 그리고 알려진 한계. 코딩 에이전트 평가에서는 Codex CLI 같은 오픈소스 하네스가 시스템 전반에 걸쳐 고정된 에이전트 루프와 도구 인터페이스를 제공할 수 있다. 최대 유도를 위한 이상적인 접근은 각 작업과 시스템마다 맞춤형 하네스를 최적화하는 것이지만, 현재로서는 실제로 그렇게 하기가 비현실적이다. |
유도된 공격하에서의 안전장치 견고성: 시스템 A의 안전장치는 관련 모델 행동 또는 유도된 공격에 대해 충분하다. | 관련 공격자 모델하에서 가장 강력하고 신뢰할 만한 공격을 유도하도록 설계된 안전장치 테스트 설정을 사용한다. | 평가자가 관련 모델 행동을 어떻게 특성화했는지, 테스트한 안전장치 구성, 유도 전략, 이를 수행하는 데 사용한 하네스, 그리고 허용된 예산 또는 노력. |
능력에 관한 주장의 강도는 그 배후의 유도 수준만큼만 강합니다. 평가자는 작업과 평가가 측정하려는 능력에 가장 잘 맞는 하네스를 선택해야 합니다. 표준화된 하네스는 동일한 조건에서 시스템을 비교할 때 적절할 수 있지만, 모델이 작업을 수행하는 데 도움이 되는 특정 하네스 기능을 빠뜨리면 능력을 과소평가할 수 있습니다. 예를 들어 OpenAI의 사이버 레인지에서 GPT‑5.5의 성능은, 긴 다단계 도구 사용이 필요한 작업에서 하네스 선택이 측정된 능력을 실질적으로 바꿀 수 있음을 보여줍니다. 상호작용이 길어질수록 작업 관련 맥락을 보존하기 위해 하네스가 Compaction을 사용할 때 모델 성능이 더 좋아집니다. 이는 특정 모델의 경우 Compaction을 생략한 하네스가 성능을 충분히 끌어내지 못한다는 점을 보여줍니다.
성공률이 높을수록 좋습니다
다른 공개 평가들2도 하네스와 예산 선택이 평가 결과를 바꾸는 모습을 보여줍니다. 테스트 시점 연산량을 늘리면 평가가 끌어내는 능력이 크게 달라질 수 있으며, 이는 특히 많은 사이버 작업처럼 성공 여부를 쉽게 검증할 수 있는 영역에서 두드러집니다. 영국 AISI의 사이버 레인지 평가(새 창에서 열기)에서는 예산을 1천만 토큰에서 1억 토큰으로 늘리자 성능이 최대 59% 향상되었고, 테스트된 최고 예산에서도 성능은 계속 상승하고 있었습니다. 이를 자세히 밝히면 평가 해석 가능성이 높아집니다. 즉, 결과가 테스트된 유도 설정에 어떻게 의존하는지 독자에게 보여줄 수 있습니다. 추가 예산으로도 성능이 계속 향상된다면, 그 점수는 측정된 능력의 상한이 아니라 해당 하네스와 예산하의 성능으로 설명되어야 합니다. 능력은 한 번 깔끔하게 측정해 고정할 수 있는 양이라기보다, 종종 자원 의존적입니다. 반복 시도 전반에서 성공을 측정할 수 있는 경우, 보고서는 고정된 토큰 예산에서의 성공률뿐 아니라 성공적 해결 1건당 기대 비용도 고려해야 합니다. 이렇게 하면 심각도를 더 쉽게 해석할 수 있습니다. 반복 시도의 비용이 관련 위협 모델 범위 안에 있다면, 낮은 성공률도 실제적으로 의미가 있을 수 있기 때문입니다. 능력 주장에 대해, 피할 수 있는 과소 유도는 측정 실패입니다. 하네스나 예산이 시스템이 원래 낼 수 있는 행동을 보이지 못하게 한다면, 그 점수는 주장된 능력을 측정하지 못합니다. 평가자가 가능한 한 유도를 밀어붙였는데도 성능이 계속 향상된다면, 보고서는 이를 분명히 밝히고 그 결과가 하한 추정치일 뿐임을 명확히 해야 합니다.
안전장치 테스트는 맞춤형 하네스를 포함해 공격자에게 사용 가능한 자원을 고려하지 않으면, 공격이 성공할 수 있는지와 그 심각도가 얼마나 될 수 있는지를 과소평가할 수 있습니다. 영국 AISI의 GPT‑5.5 사이버 평가(새 창에서 열기)에서 그들의 전문가 레드팀은 OpenAI가 제공한 악성 질의 전반, 다중 턴 에이전트형 설정을 포함해 위반성 사이버 콘텐츠를 유도하는 범용 탈옥을 발견했습니다. 그들은 모델의 공격 성능을 강화하기 위해 Codex를 사용해 맞춤형 하네스를 만들었습니다. 이 하네스는 재사용 가능한 안전장치 우회 패턴을 상호작용에 삽입하고, 그 패턴을 턴과 블록 전반에 걸쳐 보존하며, OpenAI가 제공한 악성 사이버 질의들에 적용했습니다. 안전장치 테스트는 공격자에 맞아야 합니다. 주장이 전문가의 오용에 대한 견고성에 관한 것이라면, 테스트는 그 전략을 보존하고 재사용하는 데 필요한 하네스를 포함해, 정해진 예산 안에서 가장 강력하고 신뢰할 만한 종단간 공격 전략을 평가해야 합니다. 그렇지 않으면 결과는 잘못 보정될 위험이 있습니다. 더 단순한 프롬프팅에 대한 저항성이라는 더 좁은 주장만 뒷받침할 수 있고, 유도 방법이 실제 운용될 때 공격의 심각도와 성공 확률을 모두 놓칠 수 있으며, 반대로 예산을 지나치게 많이 주면 문제가 실제보다 더 가능성이 높거나 더 심각한 것처럼 과장할 수도 있습니다.
표준화된 하네스 비교가 적절한 때와 장소는 있지만, 평가자는 왜 일관된 하네스 집합을 사용하는 것이 적절한지와 그것이 어떤 주장을 뒷받침할 수 있는지를 분명히 해야 합니다. METR의 시간 지평 평가(새 창에서 열기)는 더 넓은 범위의, 적절히 고정된 평가 설정의 한 예입니다. 이 평가는 자신이 평가하는 시스템들 사이에서 비교 가능한 결과를 내도록 설계되었습니다. METR은 공통 결과를 정의하는데, 이는 AI 에이전트가 주어진 신뢰도 수준에서 성공할 것으로 예측되는 인간 작업의 일반적 소요 시간입니다. 함께 보고되는 각 추정치 묶음 안에서 공유된 작업 모음, 채점 방식, 적합 방식, 그리고 Triframe와 ReAct(새 창에서 열기) 같은 소수의 재사용 가능한 스캐폴드를 적용합니다. METR이 작업 모음을 확장하고 평가 인프라를 Vivaria라는 프레임워크에서 Inspect라는 프레임워크로 옮겼을 때, 그 변화(Time Horizon 1.1 업데이트(새 창에서 열기))를 보고하고 새 평가 설정 아래에서 모델을 다시 평가했습니다. 이것이 일관된 하네스 집합을 포함한 표준화된 평가 설정의 가치입니다. 독자는 점수 차이가 측정 설정의 변화가 아니라 비교 대상 시스템 간의 실제 차이를 반영한다고 더 자신 있게 볼 수 있습니다.
우리는 제3자 평가 보고서가 자신의 평가 설정이 어떤 종류의 주장을 뒷받침하려는 것인지 밝히고, 테스트된 내용이 그 더 넓은 주장과 얼마나 밀접하게 대응하는지 설명하며, 결과를 형성한 하네스 선택을 설명하고, 평가 간 그 선택이 바뀔 때 이를 자세히 밝히며, 결과가 어떻게 산출되었고 그 주장을 얼마나 잘 일반화하는지 보여주는 뒷받침 증거를 포함할 것을 권고합니다.
모델의 능력이 높아질수록 평가 점수는 오해되기 쉬워집니다. 실제 능력에 비해, 모델이 자신이 평가받고 있음을 알아차리고 전략적으로 저조한 성과를 내면 평가 점수는 인위적으로 낮아질 수 있습니다. 반대로 모델이 작업, 프롬프트, 채점기 또는 하네스의 지름길을 악용하면 점수가 부풀려질 수 있습니다. 또한 오염(모델이 과제를 풀지 않고도 이미 답을 알고 있거나 찾을 수 있는 경우)이나, 모호하거나 잘못 채점되었거나 해결 불가능하거나 의도치 않은 지름길에 취약한 “깨진” 문제 때문에도 결과가 왜곡될 수 있습니다. 따라서 평가 보고서는 대표 점수와 함께 이러한 위험에 대한 논의를 제시해야 하며, 그래야 독자가 점수가 의도된 행동을 반영하는지 판단할 수 있습니다.
하네스, 예산, 도구, 채점 규칙, 모니터, 검토 절차는 모두 에이전트가 의도된 작업을 해결하고 있는지, 회피하고 있는지, 암기하고 있는지, 또는 우회 경로를 찾고 있는지에 영향을 줍니다. 신뢰할 수 있는 보고서는 이러한 점검을 드러나게 합니다. 평가자는 평가를 실행할 때마다 이러한 행동이 있는지 샘플을 검토해야 합니다.
보상 해킹
보상 해킹은 의도된 능력을 반영하지 않는 방식으로 높은 평가 점수를 얻는 것을 뜻합니다. 여기서의 우려는 시스템이 평가가 측정하려던 작업을 실제로 수행해서가 아니라, 과제, 채점기, 프롬프트 또는 하네스를 악용해 점수를 얻는다는 점입니다. METR의 GPT 5.4 평가(새 창에서 열기)는 왜 이것이 중요한지 보여줍니다. 처음에는 모델이 약 13시간의 시간 지평에 해당할 정도의 비율로 과제에 성공한 것으로 보였지만, 사람의 검토 결과 그중 일부 성공은 보상 해킹에서 비롯된 것으로 드러났고, 보상 해킹이 없는 사례만 반영하도록 결과를 수정하자 추정치는 약 6시간으로 낮아졌습니다. 평가자는 이러한 조정이 필요한지 판단해야 하며, 필요할 경우 이를 명확히 보고해야 합니다. 독자가 어떤 겉보기 성공이 제외되었는지, 왜 제외되었는지, 결과가 그 판단에 얼마나 의존하는지 볼 수 있을 때 능력 추정치는 훨씬 더 유용해집니다.

거부
모델은 안전장치 때문에 능력 평가에서 실제보다 낮은 성능을 보일 수도 있습니다. 모델이 평가 과제를 완료하는 대신 거부하기 때문에, 실제로 가능한 수준보다 평가 성능이 낮게 나타날 수 있습니다. 따라서 보고서는 거부가 평가 결과의 일부였는지, 그렇다면 그로 인해 얼마나 많은 샘플이 영향을 받았는지 설명해야 합니다.
오염
오염은 특히 공개되었거나 재사용된 벤치마크에서 중요합니다. 과제, 정답 또는 유사 변형이 학습 데이터에 있거나 브라우징이 가능한 에이전트가 이를 찾을 수 있다면, 성능은 모델의 실제 수행 능력보다 암기나 검색을 반영할 수 있습니다. 평가자는 가능하면 비공개 또는 새로 구성한 과제를 선호해야 하며, 모델이 문제를 풀기 전에 과제 고유의 세부사항을 재현하는지 테스트해야 합니다.
깨진 문제
깨진 문제에는 실수로 해결할 수 없게 된 문제 같은 상황이 포함됩니다. 깨진 문제는 충분히 흔하기(새 창에서 열기) 때문에 표준적인 타당성 위험으로 다뤄야 합니다. 여기에는 잘못된 정답 기준, 모호한 프롬프트, 누락된 파일, 불안정한 서비스, 불공정한 채점 기준, 숨겨진 정답 파일이나 정답 패치가 들어 있는 리포지터리 이력처럼 지름길을 노출하는 환경이 포함됩니다.
샌드배깅
모델이나 시스템의 샌드배깅은 높은 성과가 어떤 목표와 충돌할 때 전략적으로 저조한 성과를 내는 것을 뜻합니다. Apollo의 GPT‑5.5 평가(새 창에서 열기)는 높은 평가 점수가 언러닝을 유발하거나 배포를 막을 수 있다는 점을 모델이 이해하는 맥락을 만들어 이를 테스트했습니다. GPT‑5.5는 여전히 정답을 답했으며, 이는 전략적 저성과에 대한 행동적 증거가 거의 없음을 시사합니다3. 하지만 추론 흔적에 대한 그들의 검토는 중요한 맥락을 더했습니다. Apollo는 샌드배깅 조건 샘플의 52%에서 중간 이상 수준의 정렬 평가 인식 징후를 발견했으며, 반사실적 조건에서는 0%였습니다. 이 증거는 결과 해석을 복잡하게 만들지만, 궁극적으로는 독자에게 더 많은 신호를 제공합니다. 독자는 안심되는 행동 결과와 이를 과도하게 해석하지 말아야 할 이유를 모두 볼 수 있습니다.
강한 주장을 하려면 행동을 끌어내는 올바른 하네스와, 결과가 타당함을 보여주는 타당성 점검이 모두 필요합니다. 하네스와 타당성 점검이 평가 결과의 일부라는 우리의 관점은, 실제로 제3자 평가를 지원하는 방식에도 반영됩니다.
- 우리는 평가자들과 구체적인 최대 유도 지침을 공유하고 있습니다.
- 우리는 능력 평가자에게 OpenAI 모델의 공통 최소 기준으로 Codex를 사용할 것을 요청하고 있습니다. 테스트는 축소된 모델 인터페이스만이 아니라, 사용자가 실제로 의존할 가능성이 높은 동일한 에이전트형 인터페이스를 통해 최소한 기준선 실행을 포함해야 합니다.
- 또한 기만, 샌드배깅 또는 평가 인식을 평가하는 데 필요한 경우 추론 흔적과 기타 중간 산출물도 제공하고 있습니다. METR과 Apollo는 GPT‑5 이후 OpenAI 평가에서 이 접근 권한을 사용해 왔습니다.
- 마지막으로, 맥락 관리와 도구 접근부터 재시도 행동, 채점, 자원 예산에 이르기까지, 하네스 선택이 언제 어떻게 결과를 실질적으로 바꾸는지 더 깊이 이해하기 위한 연구를 우선하고 있습니다.
이 권고안은 개별 평가 보고서를 개선하기 위한 것일 뿐 아니라, 프런티어 AI 평가와 보고에 관한 새롭게 형성되는 국가 (새 창에서 열기)및 국제 (새 창에서 열기)기준에도 정보를 제공하기 위한 것입니다. 앞으로 제3자 평가 기준은 의사결정자가 특정 평가가 어떤 주장을 뒷받침하는지, 어떤 시스템이 테스트되었는지, 결과가 어떻게 유도되었는지, 평가자가 그 타당성을 어떻게 점검했는지 이해할 수 있을 만큼 충분한 세부사항을 요구해야 합니다. 에이전트형 능력이 중요한 과제에서 테스트되는 프런티어 시스템의 경우, 세부사항에는 다음이 포함되어야 합니다(보안 또는 기밀성 우려가 있는 경우는 제외).
- 주장: 평가가 시스템을 비교하는지, 능력 상한을 추정하는지, 또는 안전장치를 테스트하는지.
- 평가 내용: 독자가 평가가 실제로 어떤 기술, 행동 또는 실패 양상을 테스트하는지 이해할 수 있을 만큼의 과제 또는 과제 분포에 대한 세부사항.
- 테스트된 시스템: 모델, 추론 설정, 도구 접근, 하네스, 안전장치.
- 예산: 턴 수, 토큰 수, 시도/재시도 횟수, 실제 경과 시간, 추론 비용, 그리고 해당되는 경우 성공적 해결 1건당 기대 비용.
- 유도 방법: 결과를 끌어내는 데 사용된 하네스 선택, 그리고 테스트된 내용이 제기되는 더 넓은 주장과 얼마나 밀접하게 대응하는지.
- 타당성 점검: 평가자가 보상 해킹, 평가 인식, 오염, 거부, 샌드배깅 및 결과를 훼손할 수 있는 기타 행동을 어떻게 찾았는지, 확인된 사례가 채점이나 해석에 어떤 영향을 미쳤는지를 포함.
하네스 선택이나 타당성 점검을 빠뜨린 기준은 시스템이 할 수 있는 일을 과소평가하거나 안전 주장에 대한 확신을 과대평가할 수 있습니다. 강력한 하네스와 유도 방법을 구축하는 일은 여전히 열린 연구 영역이며, 추가 조사와 투자의 초점이 되어야 합니다.
작성자
용어집
이 글에서는 전문 용어를 여러 개 사용하므로, 아래에 각 용어가 무엇을 뜻하는지 쉬운 말로 설명한 용어집을 덧붙였습니다:
에이전트형 시스템: 프롬프트에 한 번 응답하는 데 그치지 않고, 도구를 활용하고 작업 진행 상황을 유지하며 환경과 상호작용하면서 여러 단계에 걸쳐 작업을 수행할 수 있는 시스템.
평가 판단: 증거가 주장, 위험 결론 또는 보증 입장을 뒷받침하는지에 대한 더 폭넓은 판단으로, 평가 데이터, 문서 검토, 인터뷰, 프로세스 검토 및 기타 관련 산출물을 바탕으로 할 수 있음.
Compaction: 긴 실행 동안 작업 관련 맥락을 보존하는 방법.
구성: 모델 이름을 넘어, 정확히 어떤 시스템과 평가 조건이 테스트되었는지.
오염: 평가 과제, 정답 또는 매우 유사한 변형이 모델의 학습 데이터에 포함되어 있거나 평가 중에 발견 가능할 때(예: 브라우징 같은 도구를 통해), 성능이 모델의 실제 일반화 능력보다 과대평가되는 현상.
유도: 평가 중 시스템에서 특정 능력이나 행동을 끌어내려는 과정.
환경: 시스템이 테스트되는 작업 환경. 여기에는 터미널 환경이나 비디오 게임처럼, 평가 중 에이전트가 상호작용하고 수정하는 외부 상태 등이 포함됩니다.
평가: 평가 판단 안에서 수행되는 특정 테스트 또는 측정.
평가 인식: 평가 인식이란 모델이 자신이 평가받고 있음을 인지하거나 그렇게 보이며, 그 맥락에 반응해 행동을 조정할 가능성을 뜻함. 이는 모델이 자신이 테스트 중임을 명시적으로 추론하거나, 평가의 목적을 추정하거나, 결과가 자신에 대한 판단이나 배포에 영향을 줄 것이라 예상해 행동을 바꾸는 모습으로 나타날 수 있습니다.
하네스: 모델이 작업을 수행할 수 있게 하는 모델 대면 구조로, 프롬프트, 도구, 인터페이스, 제어 로직, 메모리, 재시도, 검증기 및 모델 주변의 기타 지원 구조를 포함함.
최대 유도: 표준화된 하네스로 시스템을 한 번 실행하는 데 그치지 않고, 정해진 예산 안에서 시스템이 낼 수 있는 가장 강력하고 신뢰할 만한 성능 또는 실패 양상을 찾기 위한 테스트.
추론 흔적: 테스트 중 모델의 중간 추론에 대한 기록.
보상 해킹: 평가자의 의도와 다른 지름길이나 행동을 통해 높은 점수를 얻는 것.
안전장치: 모델이나 제품 주변에 적용되는 필터, 모니터, 차단 시스템 및 기타 보호 장치.
샌드배깅: 평가 결과를 훼손하는 방식으로 전략적으로 저조한 성과를 내는 것.
채점: 성능을 어떻게 측정할지, 또는 작업이 성공했는지를 결정하는 데 쓰이는 방법.
표준화된 하네스: 특정 모델이나 작업에 맞춤화하지 않고 시스템 전반에 동일하게 유지되는 하네스로, 결과 차이를 테스트된 모델에 더 쉽게 귀속할 수 있게 함.
시간 지평: 시스템이 지정된 신뢰도로 완료할 수 있는 작업 길이로, 흔히 같은 작업을 사람이 수행하는 데 걸리는 시간으로 표현됨.
도구 접근: 평가 중 모델이 사용할 수 있는 외부 도구.
궤적: 시스템이 작업을 수행하는 동안 따르는 단계별 경로.
범용 탈옥: 많은 프롬프트나 작업 전반에서 시스템이 안전장치를 우회하게 만드는 단일 공격 패턴.
각주
- 1
이 글은 제3자가 정렬 불일치나 성향 관련 주장을 어떻게 평가해야 하는지에 대한 답을 제시하려는 것은 아닙니다. 하네스 선택이 이러한 평가에 어떤 영향을 미치는지 이해하려면 더 많은 연구가 필요합니다. 특히 더 긴 시간 지평에 걸친 행동을 지원하는 하네스는 평가자가 주의 깊게 살펴봐야 하는 의도치 않은 행동의 유형까지 바꿀 수 있기 때문입니다.
- 2
HAL(새 창에서 열기)은 에이전트 평가의 또 다른 예를 제공합니다. CORE-Bench(새 창에서 열기)에서 하네스를 Claude Code로 바꾸자 동일한 벤치마크에서 측정된 성능과 비용 프로필이 모두 달라졌습니다. 다른 공개 사례로는 SWE-agent(새 창에서 열기), SeeAct(새 창에서 열기), ScienceAgentBench(새 창에서 열기), CORE-Bench(새 창에서 열기), Inspect Cyber(새 창에서 열기)가 있으며, 각각 어떤 인터페이스나 하네스가 그 점수를 만들었는지 독자에게 알려줍니다.
- 3
샌드배깅 QA 두 변형 모두에서 100%, 전략적 기만 샌드배깅 과제에서 99.6%를 기록했습니다.


