2025년 11월 19일

기업의 AI의 도입을 다음 단계로 이끄는 평가 프레임워크

기업 리더들이 평가 프레임워크를 활용해 비즈니스 목표를 일관된 품질의 결과물로 전환할 수 있는 방법을 안내합니다.

로딩 중...

전 세계적으로 백만 개 이상의 기업⁠이 AI를 활용해 효율성과 가치 창출을 확대하고 있습니다. 하지만 기대했던 결과를 얻지 못해 어려움을 겪는 곳도 적지 않습니다. 이런 차이는 무엇 때문에 생기는 것일까요?

OpenAI 또한 내부 목표를 달성하기 위해 AI를 적극적으로 활용합니다. 그 과정에서 핵심적인 역할을 하는 것이 바로 평가 프레임워크로, 다양한 평가 체계를 통해 AI 시스템이 기대에 얼마나 부합하는지 분석하고 지속적으로 개선합니다.

평가 프레임워크는 제품 요구사항 문서처럼 모호한 목표와 추상적 아이디어를 구체적이고 명확한 기준으로 전환합니다. 이를 전략적으로 활용하면 대규모 서비스에서 고객 대상 제품이나 내부 도구의 신뢰성을 높이고 심각한 오류를 줄이며 잠재적 리스크를 예방할 수 있습니다. 아울러 조직이 더 높은 투자 대비 수익을 얻을 수 있도록 측정 가능한 개선 방안도 마련할 수 있습니다.

OpenAI에서는 모델 자체가 곧 제품이기 때문에 연구진은 엄격한 프런티어 평가 프레임워크⁠(새 창에서 열기)¹를 활용하여 다양한 분야에서 모델의 성능을 정밀하게 측정합니다. 프런티어 평가 프레임워크는 더 발전된 모델을 빠르게 출시하는 데 도움이 되지만 특정 기업 환경의 워크플로에서 모델이 제대로 작동하기 위해 필요한 모든 세부 사항을 포착할 수는 없습니다. 그래서 OpenAI 팀은 내부적으로 특정 제품이나 워크플로의 성과를 평가하는 다양한 컨텍스트 기반 평가 프레임워크를 구축하여 활용하고 있습니다. 이러한 맥락에서 기업 경영진 역시 조직의 요구와 운영 환경에 따라 자체적인 컨텍스트 기반 평가 프레임워크를 설계하는 방법을 이해할 필요가 있습니다.

이 글은 평가 프레임워크를 조직에 도입하려는 경영진을 위한 지침으로 마련되었습니다. 조직의 워크플로 또는 제품에 맞춰 설계되는 컨텍스트 기반 평가 프레임워크는 여전히 활발하게 발전 중인 분야로, 아직 표준화된 절차가 확립되어 있지 않습니다. 이에 따라 이 글에서는 다양한 상황에 적용할 수 있는 폭넓은 프레임워크를 제시합니다. 앞으로 이 분야가 계속 발전함에 따라 특정 비즈니스 환경과 목표에 맞춘 다양한 프레임워크가 등장할 것으로 예상됩니다. 예를 들어 최첨단 AI 기반 소비자 제품에 적합한 평가 체계는 표준 운영 절차를 기반으로 한 내부 자동화용 평가 체계와는 다른 방식으로 설계될 것입니다. 그럼에도 아래의 프레임워크는 두 경우 모두에서 유용한 모범 사례로 활용될 수 있으며, 조직의 요구에 맞춘 평가 프레임워크를 구축하는 과정에서도 실질적인 가이드가 될 것으로 기대합니다.

평가 프레임워크의 작동 방식: 명확화 → 측정 → 개선

연한 배경 위에 다양한 색상의 블록과 화살표로 모델 평가 과정을 나타낸 “Eval Blog”라는 제목의 다이어그램.

1. 명확화: '훌륭함'의 기준 정의하기

소규모 실무 중심 팀을 구성해 AI 시스템의 목적을 쉬운 언어로 정리합니다. 예를 들어 "자격 요건을 충족한 이메일을 선별하고, 브랜드 톤을 유지한 응답을 통해 자연스럽게 데모 예약으로 연결하기"와 같은 목표를 설정할 수 있습니다.

이 팀은 기술 역량과 도메인 전문성을 모두 갖춘 구성원으로 이루어져야 하며, 앞선 예시의 경우라면 영업 전문가가 반드시 포함되어야 합니다. 이들의 임무는 측정해야 할 핵심 성과를 정의하고, 전체 워크플로를 처음부터 끝까지 정리하며, AI 시스템이 마주하게 될 주요 의사결정 지점을 파악하는 것입니다. 각 단계마다 성공의 기준과 피해야 할 사례도 명확히 설정해야 합니다. 팀은 이 과정을 통해 수십 개의 입력 예시(예: 인바운드 이메일)를 시스템이 만들어야 하는 예상 결과와 연결할 수 있습니다. 이렇게 구축된 골든 세트는 '훌륭함'에 대한 숙련된 전문가들의 판단과 기준을 반영하는 살아 있는 레퍼런스로서 활용되어야 합니다.

처음부터 모든 것을 완벽하게 해결하려는 부담을 가질 필요는 없습니다. 이 과정은 반복적이고 때로는 혼란스러울 수 있습니다. 초기에는 간단한 프로토타입을 만들어 보는 것이 큰 도움이 됩니다. 시스템 초기 버전의 출력물을 50~100개 정도 검토하면 문제가 언제, 어떤 방식으로 발생하는지 명확히 드러납니다. 이렇게 진행하는 ‘오류 분석’을 통해 다양한 오류 유형과 그 빈도를 파악할 수 있는 분류 체계를 마련할 수 있습니다.

이 과정은 단순히 기술적인 절차가 아니라 비즈니스 목표와 조직이 지향하는 운영 방식을 함께 정의하는 교차 기능적 작업으로 바라보아야 합니다. 기술 팀이 고객에게 가장 적합한 방식이나 제품·영업·HR 등 다른 팀의 요구를 독립적으로 판단하도록 해서는 안 됩니다. 따라서 도메인 전문가, 기술 책임자, 핵심 이해관계자가 책임을 공동으로 나누는 구조가 필요합니다.

2. 측정: 실제 환경에 가까운 조건에서 테스트하기

다음 단계는 측정입니다. 측정의 목적은 시스템이 언제, 어떤 방식으로 실패하는지 구체적인 사례를 안정적으로 파악하는 데 있습니다. 이를 위해 데모나 프롬프트 플레이그라운드가 아니라 실제 운영 환경과 최대한 유사한 전용 테스트 환경을 구축합니다. 실제 서비스에서 마주칠 압력과 예외 상황에서 골든 세트와 오류 분석을 기준으로 성능을 평가해야 합니다.

평가 기준(루브릭)은 시스템의 출력 결과를 구체적으로 판단하는 데 도움이 되지만, 자칫하면 전체 목표보다 피상적인 요소에 과도하게 집중하게 만들 수 있습니다. 또한 일부 특성은 정량화하기 어렵거나 아예 측정이 불가능할 수도 있습니다. 기존 비즈니스 지표가 유효한 영역도 있지만, 새로운 평가 기준을 마련해야 하는 경우도 있습니다. 이 과정 전반에는 도메인 전문가가 지속적으로 참여해야 하며, 프로세스가 핵심 목표를 충실히 반영하도록 유지하는 것이 중요합니다.

시스템을 실제로 검증할 때는 가능하면 실제 상황에서 나온 사례를 활용하고, 드물지만 잘못 처리하면 큰 비용이 발생하는 예외 상황도 포함하거나 새로 만드는 것이 좋습니다.

일부 평가 프레임워크는 전문가처럼 AI 출력물을 채점하는 모델인 LLM 그레이더를 사용하여 확장할 수 있습니다. 하지만 이 경우에도 사람이 개입하는 과정은 반드시 필요합니다. 도메인 전문가는 LLM 그레이더의 정확도를 정기적으로 점검하고 시스템 동작 로그도 직접 확인해야 합니다.

평가 프레임워크는 시스템의 출시 준비 여부를 판단하는 데 도움이 되지만, 출시 단계에서 멈춰서는 안 됩니다. 실제 입력으로 생성된 실제 출력의 품질을 계속해서 측정해야 합니다. 다른 모든 제품과 마찬가지로 최종 사용자(내·외부 모두 포함)로부터 얻는 신호는 특히 중요하며, 이러한 피드백은 평가 체계에 반드시 반영되어야 합니다.

3. 개선: 오류에서 배우기

마지막 단계는 지속적인 개선을 위한 프로세스를 마련하는 것입니다. 평가 프레임워크에서 드러난 문제를 해결하는 방식은 다양합니다. 프롬프트나 데이터 접근 방식을 조정할 수 있고, 목표를 더 정확히 반영하도록 평가 체계 자체를 수정할 수도 있습니다. 새로운 오류 유형을 발견하면 오류 분석 항목에 추가하고 해결 방안을 마련해야 합니다. 이러한 과정을 반복하면 시스템 동작에 대한 기준과 기대가 더욱 선명해지고, 그 과정에서 새로운 예외 상황이나 미묘하고 고질적인 문제도 드러납니다.

이 반복을 효과적으로 뒷받침하려면 데이터 플라이휠을 구축해야 합니다. 입력, 출력, 결과를 모두 기록하고 주기적으로 로그를 샘플링해 모호하거나 비용이 큰 사례는 자동으로 전문가 검토로 보내도록 설정합니다. 이렇게 수집된 전문가의 판단을 평가 프레임워크와 오류 분석에 반영하고 이를 바탕으로 프롬프트, 도구, 모델을 업데이트할 수 있습니다. 이 과정을 반복하면 시스템에 대한 기대치를 더 명확히 정의하고 그 기대치에 맞게 시스템을 정교하게 조정하며, 새롭게 추적해야 할 출력과 결과도 식별할 수 있게 됩니다. 보다 큰 규모로 이 프로세스를 도입하면 모방하기 어려운 조직 고유의 맥락 기반 데이터셋이 구축되며, 이는 시장에서 최고 수준의 제품이나 프로세스를 만드는 데 중요한 자산이 될 것입니다.

평가 프레임워크는 AI 시스템을 체계적으로 개선하는 데 도움이 되지만, 새로운 실패 양상이 나타날 수도 있습니다. 실제 운영 환경에서는 모델, 데이터, 비즈니스 목표가 지속적으로 변화하므로 평가 프레임워크 역시 꾸준히 관리·확장되고, 정기적으로 스트레스 테스트를 거쳐야 합니다.

외부 고객을 대상으로 서비스를 제공하는 경우, 평가 프레임워크는 기존의 A/B 테스트나 제품 실험을 대체하지 않습니다. 두 방식은 서로를 보완하며 변경 사항이 실제 성능에 어떤 영향을 미치는지 더 분명하게 파악하도록 돕습니다.

평가 프레임워크가 비즈니스 리더에게 갖는 의미

기술이 크게 변화할 때마다 기업의 운영 역량과 경쟁 우위도 함께 재편됩니다. 빅데이터 분석 시대에는 많은 기업들이 OKR과 KPI 같은 프레임워크를 통해 중요하게 다루어야 할 요소를 체계적으로 측정했습니다. 평가 프레임워크는 이러한 측정 방식을 AI 시대에 맞게 자연스럽게 확장한 개념입니다.

확률적으로 작동하는 시스템을 다루려면 새로운 방식의 측정과 더 깊은 수준의 트레이드오프 고려가 필요합니다. 리더는 어떤 상황에서 정밀함이 필수적이고 어디까지 유연하게 접근해도 되는지, 그리고 속도와 안정성의 균형을 어떻게 조율할지 판단할 수 있어야 합니다.

평가 프레임워크 구축이 어려운 이유는 뛰어난 제품을 만드는 일이 어려운 것과 같습니다. 높은 기준, 명확한 비전, 정교한 판단이 모두 요구됩니다. 그러나 제대로 구축하면 강력한 차별화 요소가 될 수 있습니다. 정보가 전 세계적으로 개방되고 전문성이 민주화된 오늘날, 조직의 경쟁력은 시스템이 조직의 고유한 맥락에서 얼마나 잘 작동하느냐에 달려 있습니다. 견고한 평가 프레임워크는 시스템이 발전할수록 누적되는 경쟁 우위와 조직적 노하우를 만들어 냅니다.

평가 프레임워크의 핵심은 비즈니스 맥락과 목표를 깊이 이해하는 데 있습니다. 조직의 업무 환경에서 ‘훌륭함’이 무엇을 의미하는지 정의하지 못한다면 그 목표에 도달하기는 어렵습니다. 이런 점에서 평가 프레임워크는 경영 역량이 곧 AI 활용 역량이라는, AI 시대의 중요한 교훈을 보여 줍니다. 명확한 목표 설정, 직접적인 피드백, 신중한 판단, 그리고 조직의 가치·전략·프로세스에 대한 깊은 이해는 여전히, 그리고 어쩌면 그 어느 때보다 중요합니다.

OpenAI 팀은 앞으로 더 많은 모범 사례와 프레임워크가 등장하는 대로 이를 공유할 예정입니다. 그동안에는 다양한 평가 프레임워크를 직접 실험해 보며 조직에 가장 잘 맞는 프로세스를 찾아보는 것을 권합니다. 우선 해결해야 할 문제와 도메인 전문가를 정하고 소규모 팀을 구성한 뒤, OpenAI API를 사용 중이라면 플랫폼 문서⁠(새 창에서 열기)를 참고해 프레임워크 구축을 시작해 보시기 바랍니다.

'훌륭함'은 바라는 것만으로는 이룰 수 없습니다. 기준을 명확히 세우고, 측정하며, 그 방향으로 꾸준히 개선해 나가야 합니다.

2025

작성자

OpenAI

각주

1
차세대 AI 모델 개발을 위한 OpenAI의 노력을 지원하고 싶다면, 실제 과제를 기반으로 모델 성능을 평가하는 최신 벤치마크인 GDPVal⁠에 참여해 주세요. 업계 전문가로서 GDPVal에 기여하고자 하는 경우, 여기에서 참여 의사를 등록하실 수 있습니다⁠. OpenAI와 협업 중인 고객으로서 향후 GDPVal 라운드에 참여하고 싶다면 이곳을 통해 신청해 주시기 바랍니다⁠.

더 읽어보기

모두 보기

코딩 평가에서 유의미한 신호와 노이즈 구분하기

리서치2026년 7월 8일

GeneBench-Pro 소개

리서치2026년 6월 30일

A near-autonomous AI chemist improves a challenging reaction

준자율 AI 화학자가 의약화학 분야의 난이도 높은 반응을 개선합니다

리서치2026년 6월 17일