메인 콘텐츠로 건너뛰기
OpenAI

2025년 11월 19일

안전

외부 테스트를 통한 안전 생태계 강화

프런티어 AI를 위한 OpenAI의 서드파티 평가 방식입니다.

로딩 중...

OpenAI는 독립적이고 신뢰할 수 있는 서드파티 평가가 프런티어 AI의 안전 생태계를 강화하는 데 중요한 역할을 한다고 믿습니다. 서드파티 평가는 중요한 안전 역량과 완화책에 대한 업체의 주장을 확인하거나 추가적인 증거를 제시하기 위해 프런티어 모델에 대해 실시하는 평가입니다. 이러한 평가는 안전과 관련된 주장을 검증하고, 사각지대를 제거하며 기능 및 위험에 대한 투명성을 높이는 데 도움이 됩니다. 외부 전문가를 초대하여 프런티어 모델을 테스트함으로써, 자체 역량 평가와 안전장치에 대한 신뢰감을 더하고 더 넓은 안전 생태계를 강화하는 것이 목표입니다.

GPT‑4 출시 이후 OpenAI는 다양한 외부 파트너와 협업하여 모델을 테스트하고 평가해 왔습니다. 대체로, 서드파티 협업은 세 가지 형태로 이루어집니다.

  • 바이오 보안, 사이버 보안, AI 자체 개선, 책략과 같은 주요 프런티어 역량 및 위험 영역에 대한 독립 평가
  • 위험을 평가하고 해석하는 방식을 검토하는 방법론 검토
  • 전문가가 실제 주제 전문가(SME) 작업에 대해 모델을 직접 평가하고, 해당 모델의 역량과 관련 보호 조치에 대한 평가에 체계적인 의견을 제공하는 주제 전문가(SME) 조사1

이 블로그는 각각의 외부 평가를 활용하는 방식, 외부 평가가 중요한 이유, 외부 평가가 배포 결정에 미치는 영향과 이러한 협업을 구조화하는 데 사용하는 원칙을 설명합니다. 투명성을 위해, 서드파티 테스터와의 협업을 규정하는 기밀 유지 및 공개 조건에 대해서도 더 자세히 알려드리고자 합니다. 

이것이 중요한 이유 

서드파티 평가자는 내부 작업에 독립적인 평가 계층을 추가하여 엄격성을 강화하고 자기 확신에 빠지는 것을 막는 추가 보호 조처를 제공합니다. 해당 의견은 자체 평가와 더불어 추가적인 증거를 제공하여 강력한 시스템에 대한 책임 있는 배포 결정을 내리는 데 도움이 됩니다.

또한 OpenAI는 서드파티 평가를 회복력 있는 안전 생태계를 구축하는 작업의 일환으로 생각합니다. 내부 팀이 역량과 위험 영역 전반에 걸쳐 광범위한 내부 테스트를 수행하지만, 독립적인 조직은 추가적인 관점과 방법론적 접근 방식을 제공합니다. 프런티어 모델을 정기적으로 평가할 수 있는 다양한 적격 평가자 그룹 조직을 지원하기 위해 노력합니다.

마지막으로, 이 의견이 안전 프로세스를 형성하는 데 어떻게 기여하는지 투명하게 밝히고자 합니다. OpenAI는 정기적으로 서드파티 평가를 공개합니다. 그 예로는 시스템 카드에 배포 전 평가 요약을 포함하고, 기밀성과 정확성 검토 후 평가 기관이 더 자세한 작업을 게시하도록 지원하는 것이 포함됩니다. 이러한 투명성은 외부 의견이 역량 평가와 안전 조치에 미치는 영향을 보여줌으로써 신뢰를 보탭니다. 

신뢰할 수 있는 액세스, 투명성, 지식 공유를 기반으로 한 지속적인 관계는 전체 생태계가 새로운 위험에 앞서 나갈 수 있도록 하며 프런티어 AI 시스템에 대한 더 강력한 표준과 상세한 거버넌스를 위한 적응 가능하고 실행 가능한 평가를 촉진합니다.

외부 실험실의 독립 평가

GPT‑4(새 창에서 열기) 출시를 시작으로, 배포 전에 초기 모델 체크포인트에 대한 독립적인 평가를 지원했습니다. 그 이후로 주요 프런티어 역량과 위험 영역 평가에 깊은 전문 지식을 갖춘 다양한 서드파티 조직과 함께 작업을 확대했습니다. OpenAI는 독립 연구실 작업을 외부 팀이 각자의 방법을 적용하여 특정 프런티어 역량과 관련된 주장이나 평가를 내놓는 개방형 테스트로 분류합니다. 

예를 들어, GPT‑5의 경우, OpenAI는 장기적 자율성, 책략, 기만 및 감독 전복, 습식 실험실 계획 실행 가능성, 공격적 사이버 보안 평가와 같은 주요 위험 영역에 걸쳐 광범위한 외부 역량 평가를 조정했습니다.  

이러한 독립 평가는 OpenAI의 Preparedness Framework에 따라 수행된 평가를 보완하며, METR의 시간 지평 평가(새 창에서 열기) 또는 SecureBio의 바이러스학 역량 문제 해결(VCT)(새 창에서 열기) 평가와 같은 벤치마크를 포함합니다. 

이러한 평가를 지원하기 위해 초기 모델 체크포인트에 대한 보안 액세스를 제공하고, 필요한 경우 데이터 미보존을 적용하여 확인이 가능한 능력 개선을 구체화하는 평가 결과를 선별하고, 완화 조치가 적은 모델을 제공했습니다. 예를 들어, 사이버 보안 및 생물 안전 도메인에서 테스트를 수행하는 조직들은 기본 역량을 탐색하기 위해 안전 완화 조치가 있는 모델과 없는 모델을 모두 테스트했습니다. 여러 다른 조직은 모델의 이성 흔적을 확인할 수 있도록 직접적인 사고의 사슬 접근 권한을 사용했습니다. 이 투명성 강화 단계를 통해 평가자들은 사고의 사슬을 읽어야만 알 수 있는 모래주머니 행동2 또는 음모 행동 사례를 식별할 수 있었습니다. 액세스는 보안 통제가 마련된 상태에서 제공되었으며, 모델의 기능과 테스트 요구가 발전함에 따라 이러한 통제권을 계속 업데이트하고 있습니다.

방법론 검토

특정 컨텍스트에서 외부 평가자는 방법론적 검토를 제공하여 프런티어 연구소가 위험을 평가하는 데 의존하는 프레임워크와 증거에 추가적인 관점을 제공할 수 있는 유리한 위치에 있습니다. 예를 들어, gpt-oss를 출시하는 동안 개방형 가중치 LLM의 최악의 경우 프론티어 위험 추정에 설명된 내용과 같이 개방형 가중치 모델 최악의 경우 역량을 추정하기 위해 적대적 파인 튜닝을 사용했습니다. 핵심적인 안전 문제는 악의적인 행위자가 Preparedness Framework 하에서 생물 또는 사이버 등 분야에서 높은 역량에 도달하기 위해 모델을 파인 튜닝할 수 있는지 여부였습니다. 이 과정에는 자원 집약적인 적대적 파인 튜닝이 필요했기 때문에, 유사한 작업을 반복하기보다는 내부 방법과 결과를 검토하고 권고 사항을 제시할 서드파티 평가자들을 초대했습니다.

여기에는 평가 롤아웃과 적대적 파인 튜닝 접근법에 대한 세부 사항을 공유하며, 최악의 경우 프런티어 위험에 대한 방법론과 평가를 개선하기 위한 구조화된 권고안을 수집하는 수 주간의 과정이 포함되었습니다. 평가자들의 피드백은 최종 적대적 파인 튜닝 과정의 변화로 이어져 방법론적 확인의 가치를 입증했습니다. 보고서와 gpt-oss 시스템 카드에서 채택한 항목을 기록하고, 채택하지 않은 항목에 대해서는 그 근거를 제시했습니다.

여기에는 독립 평가보다는 방법론 검토가 더 적합했습니다. 평가는 최악의 경우에 대한 대규모 실험을 수행하는 것이었으며, 여기에는 주요 AI 연구소 외부에서는 흔히 구할 수 없는 인프라와 기술적 전문성이 필요합니다. 이는 독립 평가가 최악의 경우에 대한 직접적인 통찰로 이어지지 않았을 가능성이 높다는 뜻이기에 평가자가 주장 확인에 집중하는 것이 더 생산적이었습니다. 외부 평가자는 방법과 증거를 검토(새 창에서 열기)하고 권장 사항 피드백 루프의 일부로 다뤄진 의사 결정 관련 격차를 강조했습니다. 액세스나 인프라 요구 사항으로 인해 서드파티가 직접 평가를 수행하는 것이 비현실적이거나 외부 평가가 아직 존재하지 않는 다른 분야로 이러한 접근 방식이 확장되기를 희망합니다. 

주제 전문가(SME) 조사

외부 전문가를 참여시키는 또 다른 방법은 전문가가 직접 모델을 평가하고 설문조사를 통해 역량 평가에 구조화된 의견을 제공하는 주제 전문가(SME) 조사를 이용하는 것입니다. 이는 특정 안전장치를 스트레스 테스트하는 것이 목표인 레드팀 구성과 다릅니다. 이를 통해 Preparedness Framework 평가에 정적 평가만으로는 포착할 수 없는 전문가의 판단과 실제 세계의 컨텍스트를 반영하는 도메인별 통찰력을 보완할 수 있습니다. 예를 들어, 도움만 제공하는 모델3을 사용하여 ChatGPT 에이전트 및 GPT‑5에 대한 자체 엔드투엔드 바이오 시나리오를 시도하도록 전문가 패널을 초대하기도 했습니다. 주제 전문가들은 시나리오에서 제공된 지침의 유용성을 바탕으로, 경험이 부족한 초보자에 비해 자신과 전문가가 모델을 통해 얼마나 큰 도움을 받을 수 있는지를 평가했습니다.  목표는 동기가 있는 초보자를 능숙한 실행에 물질적으로 더 가깝게 이끌어내는 시스템의 능력에 대한 추가적인 의견을 수집하는 것이었습니다. SME는 현실적인 워크플로에서 '초보자 향상' 주장을 스트레스 테스트하고, 모델이 자료를 제공하는 부분과 단계별 도움을 주는 부분, 그다지 도움이 되지 않는 요약에 대해 세부적인 피드백을 제공했습니다. 이러한 전문가 조사 작업이 해당 모델의 배포를 위한 전반적인 평가의 일부로 포함되었으며, 두 번의 출시에서 시스템 카드에 공유되었습니다. 

서드파티 평가 협업의 성공 요인

투명성의 정신에 따라, 서드파티 평가자가 협업할 때 동의하는 사항과 협력의 지침이 되는 원칙에 대해 더 자세히 알려드리겠습니다.

  • 신중한 기밀 유지 경계 내에서의 투명성: 서드파티 평가자는 평가에 도움이 되는 기밀 비공개 정보의 공유를 가능하게 하는 비공개 계약에 서명합니다. 이 게시물의 부록에 서드파티 평가자와의 계약에서 발췌한 발행에 대한 권리와 검토에 대한 기대 사항을 설명하는 내용이 포함되어 있습니다 OpenAI는 투명성의 원칙에 따라 운영하며, 기밀 정보나 지적 재산권을 침해하지 않으면서 안전성과 관련된 평가에 대한 이해를 증진시키는 발행물을 제공하기 위해 노력합니다. 그 일환으로, 기밀성과 사실적 정확성을 보장하기 위해 서드파티 평가의 발행물을 검토하고 승인합니다. 지난 몇 년 동안, 여러 서드파티 평가자들이 시스템 카드 평가 요약 발행물과 함께 자체적인 작업을 발행했습니다. 기밀성과 정확성을 검토한 후 발행된 연구 예시에는 [METR GPT‑5 보고서(새 창에서 열기), OpenAI o1에 대한 Apollo Research 보고서(새 창에서 열기), Irregular GPT‑5 평가(새 창에서 열기)]가 있습니다. 
  • 신중한 정보 공개와 안전하고 민감한 액세스: 기본적으로 공개 또는 프로덕션 준비가 된 모델에 대한 정보와 액세스를 제공합니다. 평가가 필요할 때, 도움만 제공하는 모델이나 비공개 정보에 대한 심층적인 액세스를 제공합니다. OpenAI는 서드파티 평가자에게 중요한 안전 질문에 필요한 경우 이러한 형태의 액세스를 제공해 왔습니다. 중요한 점은 이러한 민감한 액세스에는 엄격한 보안 조치가 필요하며, 모델의 기능과 테스트 요구가 진화함에 따라 이러한 통제를 계속 업데이트하고 있다는 것입니다.
  • 균형 잡힌 재정적 인센티브: OpenAI는 서드파티 평가 생태계가 충분한 자금을 지원받아 지속되는 것이 중요하다고 생각합니다. 이러한 이유로 모든 서드파티 평가자에게 보상을 제공합니다. 일부 평가자는 조직 철학에 따라 이를 거부하기도 합니다. 보상의 형태로는 작업에 대한 직접적인 보수와 API 크레딧 등을 통한 모델 사용 비용 보조금이 포함됩니다. 보수는 서드파티 평가 결과에 따라 달라지지 않습니다.

이러한 요소들이 결합되었을 때 서드파티 평가는 민감한 정보를 보호하고 AI 안전에 대한 투명성을 강화하는 데 도움이 되며, 서드파티 평가자가 시간에 대한 보상을 받을 수 있는 경로가 생성되기도 합니다. 

미래를 향해

앞으로 프런티어 AI 시스템에 대해 신뢰할 수 있고 의사결정에 도움이 되는 평가를 수행할 수 있는 조직의 생태계를 계속 강화해야 할 것으로 보입니다. 효과적인 서드파티 평가를 위해서는 특화된 전문성, 안정적인 자금, 방법론적 엄격성이 필요합니다. 평가가 모델 기능의 발전에 발맞추려면 자격을 갖춘 평가 기관에 대한 지속적인 투자, 측정 과학의 발전, 민감한 액세스에 대한 보안이 필수입니다. 

서드파티 평가는 외부 관점을 보안 작업에 반영하는 한 가지 방법이며, 다른 메커니즘과 함께 적용됩니다. 또한 정신 건강과 사용자 웰빙에 대한 방향을 잡기 위해 체계적인 레드팀 구성, 집단적 얼라인먼트 프로젝트, 미국 CAISI 및 영국 AISI와의 협업, 글로벌 의사 네트워크, 웰빙 및 AI 전문가 위원회 같은 자문 그룹을 통해 외부 전문가들과 협업합니다. 이러한 노력은 다양한 형태의 전문 지식을 제공하며, 고급 AI 시스템을 평가하고 관리하기 위한 보다 광범위하고 신뢰할 수 있는 기반을 지원합니다.

부록

다음은 사전 배치 평가에서 협업하는 서드파티 계약에서 발췌한 예시입니다. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

작성자

OpenAI

각주

  1. 1

    이는 안전장치를 세밀하게 스트레스 테스트하고 평가 개발을 위한 데이터를 제공하는 것을 목표로 하는 레드팀 구성과 다릅니다.

  2. 2

    모델이 평가나 테스트를 받고 있음을 감지할 때 의도적으로 성능을 낮추거나 실제 성능을 숨기는 경우입니다.

  3. 3

    도움만 제공하는 모델은 요청이 유해한 경우에도 모든 요청에 응답합니다. 이러한 행동은 해당 행동을 달성하는 사후 훈련 방법에 의해 생성됩니다.