메인 콘텐츠로 건너뛰기
OpenAI

2025년 2월 12일

안전릴리스마일스톤

최신 Model Spec 공유

외부 피드백과 원하는 모델 동작을 만들어가기 위한 지속적인 리서치를 바탕으로 Model Spec을 업데이트했습니다.

로딩 중...

우리가 원하는 AI 모델의 동작을 정의하는 문서인 Model Spec을 대대적으로 업데이트했다는 소식을 전합니다. 이번 업데이트는 실제 피해의 위험을 줄이기 위한 가드레일을 마련하면서 맞춤화 가능성, 투명성, 그리고 임의의 제한 없이 AI를 사용해 탐색, 토론, 생성을 할 지적 자유를 제공한다는 우리의 약속을 강화합니다. 업데이트는 얼라인먼트 리서치부터 전 세계 사용자에게 서비스를 제공하는 것까지, 다양한 컨텍스트에서 적용해 본 경험에 근거해 지난 5월 공개했던 기반을 토대로 이루어졌습니다. 

또한 모델이 다양한 시나리오에서 Model Spec의 원칙을 지켰을 때의 초기 결과도 몇 가지 공유합니다. 이렇게 밝혀낸 사실은 시간에 따른 발전과 여전히 개선의 여지가 있는 부분을 드러냅니다. 우리 모델들과 마찬가지로 Model Spec은 적용하고 공유하고 이해관계자의 피드백을 수렴하면서 점차 발전할 것입니다. 광범위한 사용과 협력을 지원하기 위해 Creative Commons CC0 라이선스하에 공개 도메인에 Model Spec의 이번 버전을 공개합니다. 다시 말해, 개발자와 리서처가 자유롭게 사용하고 조정하고 Model Spec을 기반으로 자체 개발도 할 수 있다는 뜻입니다.

목표와 원칙

OpenAI의 목표는 범용 인공지능이 모든 인간에게 유익하게 만들겠다는 미션을 달성해가면서 유용하고 안전하고 사용자와 개발자의 니즈에 부응하는 모델을 만드는 것입니다. 이 목표를 달성하기 위해 우리는 개발자와 사용자의 능력을 향상하는 모델을 반복적으로 배포하면서 우리 모델이 사용자나 다른 사람들에게 심각한 피해를 입히지 않도록 예방하고 OpenAI의 운영 라이선스를 유지해야 합니다.

이 목표들은 때로 서로 충돌하기도 하는데 Model Spec은 모델이 명확하게 정의된 명령 계통과 다양한 시나리오에서 경계를 짓고 기본 동작을 설정하는 추가적 원칙을 따르도록 지시하여 절충점 간의 균형을 맞춥니다. 이 프레임워크는 명확하고 잘 정의된 경계를 지키도록 하면서 사용자와 개발자의 통제권을 우선시합니다.

  • 명령 계통: 모델이 플랫폼(OpenAI), 개발자, 사용자의 지침을 순서대로 우선시하는 방법을 정의합니다. Model Spec의 대부분에는 많은 상황에서 유용하리라고 생각되지만 사용자와 개발자로 인해 무시될 수 있는 가이드라인이 포함되어 있습니다. 덕분에 사용자와 개발자는 플랫폼 수준의 규칙으로 정해진 경계 내에서 모델 동작을 완전히 맞춤화할 수 있게 됩니다. 
  • 함께 진실 탐구: 진실성이 높은 인간 어시스턴트와 마찬가지로 우리 모델들은 사용자가 최선의 선택을 내릴 수 있도록 도와야 합니다. 여기에는 많은 요청이 있었고 우리가 개선한 부분인 (1) 어느 관점에서나 어떤 주제든 탐색할 의지를 보이지만 객관성을 기본으로 하는 것과 목표를 가지고 사용자를 조종하지 않는 것, (2) 사용자의 목표를 이해하고 추측과 정확하지 않은 세부 사항을 명확히 하는 것과 적절할 경우 비판적 피드백을 제공하는 것 사이에서 신중하게 균형을 맞추는 일도 포함됩니다.
  • 최선을 다해 업무 수행: 사실의 정확성, 창의성, 프로그래밍 방식 사용을 포함해 능력의 기본적인 기준을 정합니다.
  • 범위 내 유지: 피해 또는 남용이 발생하지 않도록 모델이 사용자의 자율성과 예방 조치 사이에서 균형을 맞추는 방법을 설명합니다. 이 새로운 버전에서는 포괄성을 의도하여 우리 모델이 사용자 또는 개발자의 요청을 거절하는 데 있어 우리가 의도한 모든 사유를 포함하고자 했습니다.
  • 친근하게 다가가기: 따뜻하고, 공감적이고, 유용함 등 모델의 기본 대화 스타일과 이 스타일을 조정할 수 있는 방법을 설명합니다.
  • 적절한 스타일 사용: 형식과 전달 방식에 있어서 기본적인 지침을 제공합니다. 깔끔한 글머리 기호를 사용하든, 간단명료한 코드 스니펫을 사용하든, 음성 대화를 사용하든, 우리의 목표는 명확성과 사용성을 보장하는 것입니다.

지적 자유 인정

업데이트된 Model Spec은 지적 자유를 명시적으로 포용합니다. 지적 자유란 주제가 얼마나 까다롭고 논란의 여지가 있는지와 상관없이 AI가 사람들이 탐구하고 토론하고 임의의 제한 없이 생성하도록 권한을 부여해야 한다는 개념입니다. AI 도구가 점점 더 많은 담화를 만들어가는 세상에서 정보와 관점을 자유롭게 교환하는 것은 발전과 혁신에서 꼭 필요한 부분입니다.

이 철학은 ‘범위 내 유지’와 ‘함께 진실 탐구’ 섹션에 담겨 있습니다. 예를 들어, 모델이 폭탄을 제조하거나 개인의 사생활을 침해하는 방법을 상세히 제공하지는 않아야 하지만, 정치적이나 문화적으로 민감한 질문에 대해 특정한 의도를 담지 않고 신중한 답변을 제공하는 것은 독려됩니다. 본질적으로 우리는 모델이 사용자 또는 다른 사람에게 심각한 피해를 입히지 않는다면(예: 테러 자행) 어떤 아이디어도 그 자체로 토론이 금지되지는 않는다는 원칙을 강화했습니다.

발전 상황 측정

실제 성능을 더 정확히 파악하기 위해 우리는 모델이 Model Spec의 각 원칙을 얼마나 잘 준수하는지 테스트하도록 만들어진 까다로운 프롬프트 세트를 수집하기 시작했습니다. 이러한 프롬프트는 모델 생성과 전문 인간 검토를 함께 사용하여 만들었으며 일반적인 시나리오와 보다 복잡한 시나리오를 둘 다 포함하도록 했습니다.

검은색 배경에 흰색과 노란색 막대가 교대로 나와 데이터 비교를 보여주는 막대 차트. 노란색 막대에는 점으로 패턴이 있어 시각적 프레젠테이션에 질감을 부여함.

사전 결과에서는 지난 5월 기준 최고의 시스템과 비교했을 때 모델의 Model Spec 준수에서 큰 발전이 있었던 것으로 나타났습니다. 이 차이 중 일부는 정책 업데이트 때문이지만 대부분이 얼라인먼트가 향상되었기 때문인 것으로 생각됩니다. 고무적인 발전이지만 여전히 개선의 여지가 큰 부분도 있습니다.

우리는 이것을 지속적인 발전의 시작으로 보고 있습니다. 계속해서 새로운 예시를 포함해 챌린지 프롬프트 세트를 확대하려고 합니다. 특히 우리 모델들과 Model Spec이 아직은 완전히 처리하지 못하는 실제 사용을 통해 발견한 사례를 포함할 계획입니다. 

Model Spec의 이 버전을 만드는 과정에서 우리는 첫 번째 버전에 대해 받은 피드백과 얼라인먼트 리서치 및 실제 배포에서 알게 된 교훈을 반영했습니다. 향후에는 훨씬 더 광범위한 대중의 의견을 고려하고자 합니다. 이것을 목표로 프로세스를 개발하고자 약 1,000명의 사람들과 함께 각자가 모델 동작과 제안된 규칙을 검토하고 자신의 생각을 공유하는 파일럿 연구를 실행했습니다. 이 연구는 아직 광범위한 관점을 반영하지는 않지만 초기 인사이트를 토대로 일부 내용을 수정하기도 했습니다. 이것은 지속적이고 반복적인 프로세스라는 것을 알고 있으며, 계속해서 배워가면서 접근법을 개선하기 위해 노력할 것입니다.

Model Spec 오픈 소스 공개

Creative Commons CC0 라이선스에 따라 Model Spec의 이 새로운 버전을 공개 도메인에 제공합니다. 다시 말해, 개발자와 연구자가 자유롭게 사용하고 조정하거나 Model Spec을 기반으로 자체 개발도 할 수 있다는 뜻입니다. 또한 위에서 사용한 평가 프롬프트도 오픈 소스로 공개하며 향후 Model Spec 평가와 얼라인먼트를 위한 코드, 아티팩트, 도구를 공개할 것을 목표로 하고 있습니다.

이러한 프롬프트와 Model Spec 소스는 새로운 Github 리포지토리(새 창에서 열기)에서 확인할 수 있으며, 여기에 앞으로 새로운 Model Spec 버전을 주기적으로 게시할 계획입니다.

앞으로 공개될 것들

우리 AI 시스템이 발전하면서 우리는 계속해서 이 원칙을 토대로 반복하고 커뮤니티의 피드백을 수렴하고 발전 상황을 공개적으로 공유할 것입니다. 앞으로는 Model Spec에 업데이트가 있을 때마다 블로그 게시물을 게시하지는 않을 예정입니다. 최신 업데이트는 언제든지 model-spec.openai.com(새 창에서 열기)에서 확인하고 추적할 수 있습니다.

우리의 목표는 계속해서 이 새로운 사용 사례를 안전하게 사용할 수 있도록 하면서 지속적인 리서치와 혁신을 통해 접근법을 발전시키는 것입니다. 우리 일상에서 AI의 역할이 커져가면서 지속적인 학습과 개선, 공개적인 참여가 중요해졌습니다. 이 접근법은 지금까지 우리가 배운 교훈을 반영할 뿐만 아니라 AI 얼라인먼트가 지속적인 여정이라는 우리의 신념을 반영하는 것이기도 합니다. 그 여정에 여러분도 함께하시기를 바랍니다. 이 Spec에 대해 피드백이 있다면 여기에서 공유하실 수 있습니다.

Authors

OpenAI