2025년 7월 17일

ChatGPT 에이전트, 리서치와 액션을 연결합니다

ChatGPT가 이제 자체 컴퓨터로 에이전틱 스킬을 스스로 선택, 사고하고 작동해 작업을 수행합니다.

로딩 중...

이제 ChatGPT가 자체 컴퓨터를 사용하여 사용자 대신 처음부터 끝까지 복잡한 작업을 처리할 수 있습니다.

‘내 달력을 보고 최근 뉴스를 바탕으로 다가오는 클라이언트 미팅에 대해 요약해 줘’나 ‘4명이 먹을 일본식 아침 식사를 준비할 재료를 계획하고 구입해 줘’ 또는 ‘경쟁사 세 곳을 분석하고 슬라이드쇼를 만들어 줘’ 같은 요청을 처리하도록 ChatGPT에게 지시할 수 있습니다. ChatGPT는 지능적으로 웹사이트를 탐색하고, 결과를 필터링하고, 필요에 따라 안전하게 로그인하도록 안내하고, 코드를 실행하고, 분석을 수행하고, 심지어는 결과를 요약하여 슬라이드쇼와 스프레드시트처럼 정제되고 편집 가능한 출력을 제공합니다.

이 새로운 기능의 핵심에는 통합 에이전틱 시스템이 있습니다. 기존의 혁신적이었던 세 가지 강점을 한데 모았습니다. 웹사이트와 상호작용하는 Operator⁠의 기능, 정보를 취합하는 심층 리서치⁠의 스킬, ChatGPT의 인텔리전스와 대화의 유연성이 바로 그 세 가지 강점입니다.

ChatGPT는 자체 가상 컴퓨터를 사용해 이러한 작업을 수행합니다. 사용자의 지시를 기반으로 처음부터 끝까지 유연하게 추론과 작동을 오가며 복잡한 워크플로를 처리합니다.

가장 중요한 점은 항상 사용자가 제어할 수 있다는 겁니다. ChatGPT는 중요한 작업을 수행하기 전에 권한을 요청하며, 사용자는 손쉽게 개입하여 브라우저를 직접 제어하거나 어느 지점에서나 작업을 중단할 수 있습니다.

오늘부터 Pro, Plus, Team 사용자는 어느 대화에서나 언제든지 컴포저에서 ‘에이전트 모드’를 선택하면 나타나는 드롭다운을 통해 직접 ChatGPT의 새로운 에이전틱 기능을 활성화할 수 있습니다.

ChatGPT 에이전트가 이미 복잡한 작업을 처리하기 위한 강력한 도구이기는 하지만, 오늘 공개되는 내용은 시작일 뿐입니다. OpenAI는 중요한 개선 사항을 반복적으로 꾸준히 추가하여 시간이 지남에 따라 더 많은 사람들에게 더 유용하고 강력한 기능을 제공할 계획입니다.

Operator와 심층 리서치의 자연스러운 진화

기존의 Operator와 심층 리서치는 각각 고유한 강점을 제공했습니다. Operator는 웹에서 스크롤하고 클릭하고 입력할 수 있었고, 심층 리서치는 정보 분석과 요약에 탁월한 성능을 보였습니다. 하지만 각 도구가 유용한 상황은 서로 달랐습니다. Operator는 심층 분석을 하거나 상세한 보고서를 작성하지는 못했고, 심층 리서치의 경우 결과를 좁히기 위해 웹사이트와 상호작용하거나 사용자 인증이 필요한 콘텐츠에 액세스하는 것은 불가능했습니다. 우리는 실제로 사용자가 Operator에 시도한 많은 쿼리가 사실은 심층 리서치에 더 적합한 것을 발견했고, 그래서 두 도구의 장점을 하나로 합쳤습니다.

ChatGPT에서 두 도구의 보완적인 강점을 결합하고 추가 도구를 도입하면서 하나의 모델에서 완전히 새로운 기능을 제공할 수 있게 되었습니다. 이제는 클릭, 필터링은 물론, 더 정확하고 효율적인 결과를 수집하는 것까지, 웹사이트와 적극적으로 상호작용이 가능합니다. 또한 동일한 채팅 내에서 단순한 대화에서 작업 요청으로 자연스럽게 전환할 수 있습니다.

사용자를 위해, 사용자와 함께 일하는 에이전트

ChatGPT 에이전트에는 GUI를 통해 웹과 상호작용하는 비주얼 브라우저, 더 단순한 추론 기반 웹 쿼리를 위한 텍스트 기반 브라우저, 터미널, 그리고 직접적인 API 액세스 등 다양한 도구를 탑재했습니다. 또한 에이전트는 ChatGPT 커넥터⁠(새 창에서 열기)를 활용하여 Gmail과 Github 등의 앱과 연결할 수 있으므로, ChatGPT가 프롬프트와 관련성 높은 정보를 찾아 답변에 사용할 수 있습니다. 브라우저를 제어하여 어떤 웹사이트에서든 로그인하고, 연구와 작업 실행을 더 심층적이고 광범위하게 진행할 수 있습니다. 웹 정보에 액세스하고 상호작용할 수 있는 다양한 방법을 ChatGPT에 제공한 덕분에 ChatGPT는 작업을 가장 효율적으로 수행하기 위한 최적의 경로를 선택할 수 있습니다. 예를 들면, API를 통해 사용자의 달력에 대한 정보를 수집하여 텍스트 기반 브라우저로 대량의 텍스트에 대한 추론을 효율적으로 실행하는 동시에 인간을 주요 대상으로 설계된 웹사이트와 시각적으로 상호작용할 수도 있습니다.

이는 모두 자체 가상 컴퓨터를 통해 이루어지며, 여러 도구를 사용할 때도 작업에 필요한 컨텍스트를 보존합니다. 모델은 페이지를 열 때 텍스트 브라우저를 사용할지 비주얼 브라우저를 사용할지 선택할 수 있으며, 웹에서 파일을 다운로드하고, 터미널에서 명령을 실행하여 조작하고, 비주얼 브라우저에 결과를 다시 표시할 수 있습니다. 모델은 빠르고 정확하고 효율적으로 작업을 수행할 수 있는 접근 방식을 채택합니다.

ChatGPT 에이전트는 반복적이고 협력적인 워크플로를 위해 설계되었으며 이전 모델들보다 훨씬 더 상호작용 능력이 뛰어나고 유연합니다. ChatGPT가 작업을 수행하는 동안 사용자는 언제든지 개입하여 지침을 더 명확히 하거나, 원하는 결과가 나오도록 조종하거나, 작업을 완전히 바꿀 수도 있습니다. 그러면 ChatGPT는 새로운 정보를 가지고 중단된 곳에서부터 다시 시작하며, 이전의 진행 상황은 손실되지 않습니다. 마찬가지로, ChatGPT는 작업이 사용자의 목표에 부합하도록 필요하다면 사용자로부터 추가 상세 정보를 적극적으로 요구할 수 있습니다. 작업이 예상보다 오래 걸리거나 막힌 것 같다면 사용자는 작업을 일시 중지하거나, 진행 상황에 대한 요약을 요청하거나, 작업을 완전히 중지하고 부분적인 결과를 받을 수 있습니다. 휴대폰에서 ChatGPT 앱을 사용하는 경우, 작업이 완료되면 알림이 전송됩니다.

실제 활용성 확대

이 통합된 에이전틱 기능은 일상 컨텍스트와 업무 컨텍스트 모두에서 ChatGPT의 유용성을 크게 향상합니다. 업무에서는 스크린샷이나 대시보드를 편집 가능한 벡터 요소로 구성된 프레젠테이션으로 변환하고, 미팅 일정을 조정하고, 외부 이벤트를 계획 및 예약하고, 형식은 동일하게 유지하면서 스프레드시트를 새로운 재무 데이터로 업데이트하는 등의 반복적인 작업을 자동화할 수 있습니다. 개인적인 일상에서는 이 기능을 사용해 손쉽게 여행 일정을 계획 및 예약하고, 저녁 파티를 디자인 및 예약하고, 전문가를 찾아 상담을 예약할 수 있습니다.

이 모델의 향상된 기능은 웹 브라우징 및 실제 작업 완료 능력을 측정하는 평가에서 매우 높은 성과를 얻은 것에서 알 수 있습니다.

다양한 주제에서 전문가 수준의 질문에 답하게 함으로써 AI의 성능을 측정하는 평가인 Humanity’s Last Exam⁠(새 창에서 열기)*에서 ChatGPT 에이전트를 구동하는 모델이 새로운 pass@1 SOTA에서 41.6점의 점수를 달성했습니다. 에이전트가 동적으로 계획하고 자체 도구를 선택하기 때문에, 같은 작업을 수행하는 동안 다양한 방식을 채택할 수 있습니다. 이를 간단한 병렬 롤아웃 전략으로 확장했을 때(한 번에 최대 8번의 시도를 실행하고 자체 보고된 신뢰도가 가장 높은 결과를 선택함) 에이전트의 HLE 점수는 44.4까지 증가합니다.

FrontierMath**는 가장 어렵기로 유명한 수학 벤치마크로, 수학 전문가와 학자들도 해결하는 데 몇 시간, 며칠이 걸리기도 하는 새롭고 공개되지 않은 문제가 특징입니다. ChatGPT 에이전트는 코드 실행을 위한 터미널에 액세스하는 등, 도구를 사용하여 27.4%의 정확도를 달성하여 이전 모델을 훨씬 능가하는 성능을 보여주었습니다.

모델 평가에는 복잡한 실제 작업을 따라 모델링된 벤치마크도 사용되었습니다. 복잡하고 경제적으로 가치 있는 지적 작업에 대한 모델 성능을 평가하기 위해 설계된 내부 벤치마크에서 ChatGPT 에이전트의 출력은 빨리 끝낼 수 있는 작업, 오래 걸리는 작업 등 다양한 시간적 범위에서 대략 절반의 경우 인간의 결과물과 비슷하거나 더 나은 결과를 보였으며, o3 및 o4-mini의 성능을 훨씬 능가했습니다. 모델의 출력은 각 분야 최고 성과자들이 만든 고품질 기준치를 적용하여 전문가가 평가했습니다. 이러한 작업은 다양한 직업 및 산업의 전문가로부터 구성되었으며 수요 기반형 응급 의료 서비스 제공업체의 경쟁력 분석 준비, 상세한 부채 상환 계획 수립, 새로운 친환경 수소 설비에 사용 가능한 수원 확인 등과 같은 전문가 수준의 실제 업무를 반영합니다.

데이터 분석과 모델링에 이르는 실제 데이터 과학 작업으로 에이전트를 평가하는 DSBench⁠(새 창에서 열기)에서 ChatGPT 에이전트는 인간의 능력을 상당한 차이로 뛰어넘었습니다.

실제 시나리오에서 가져온 스프레드시트를 편집하는 능력에 대해 모델을 평가하는 SpreadsheetBench에서 ChatGPT 에이전트는 기존 모델보다 훨씬 더 뛰어난 결과를 보여주었습니다. 스프레드시트를 직접 편집할 수 있는 권한을 제공했을 때 ChatGPT 에이전트는 45.5%로 더 높은 점수를 얻었습니다. Copilot이 Excel에서 얻은 20.0%와 비교되는 점수입니다.

방법론: SpreadsheetBench 문항 개발자들은 Windows 환경에서 Microsoft Excel을 사용하여 스프레드시트를 평가했습니다. 우리는 OSX 환경과 LibreOffice를 사용했으며, 이로 인해 약간의 점수 차이가 있을 수 있습니다. 예를 들어, 문항 개발자들은 GPT‑4o의 ‘전반적으로 어려움’ 제한을 15.02%라고 판단했지만 우리가 얻은 점수는 13.38%였습니다. 여기에는 완전한 912-질문 벤치마크가 사용되었습니다.

Fortune 500대 기업을 위해 올바른 형식과 인용으로 3종 재무 모델을 종합하는 작업이나 상장 기업 비공개화를 위해 기업 담보 차입 매수 모델을 개발하는 작업 등 1년에서 3년 차 투자 은행 분석가의 모델링 작업을 맡는 모델의 능력을 측정하는 내부 벤치마크에서 ChatGPT 에이전트를 구동하는 모델은 심층 리서치와 o3의 성능을 크게 앞질렀습니다. 각 작업은 정확성 및 공식 사용과 관련된 수백 개의 기준을 바탕으로 점수가 매겨집니다.

또한 올해 게시했던, 브라우징 에이전트가 웹에서 찾기 힘든 정보를 찾는 능력을 측정하는 벤치마크인 BrowseComp⁠로 ChatGPT 에이전트를 평가했습니다. 이 모델은 68.9%라는 신기록을 세웠는데, 심층 리서치보다 17.4%포인트 더 높은 기록이었습니다.

마지막으로, 웹 브라우징 에이전트가 실제 웹 작업을 완료하는 성능을 평가하도록 설계된 벤치마크인 WebArena⁠(새 창에서 열기)에서 이 모델은 o3 기반 CUA(Operator를 구동하는 모델)보다 개선된 것을 입증했습니다.

사용 방법

ChatGPT의 새로운 에이전틱 기능은 어느 대화에서나 언제든지 컴포저에서 ‘에이전트 모드’를 선택하면 나타나는 드롭다운을 통해 직접 활성화할 수 있습니다. 심층 리서치 수행이든, 슬라이드쇼 만들기든, 경비 사용 보고서 제출이든, 원하는 작업을 설명하기만 하면 됩니다. 작업을 수행하는 동안 화면의 내레이션을 통해 ChatGPT가 무엇을 하고 있는지 정확히 볼 수 있습니다. 사용자는 언제든지 필요하면 개입하여 브라우저를 직접 제어함으로써 작업이 목표에 부합하도록 할 수 있습니다.

ChatGPT 에이전트는 사용자의 커넥터에 액세스할 수 있으므로 사용자의 워크플로와 상호작용하고, 관련성 있고 실용적인 정보에 액세스할 수 있습니다. 인증을 받고 나면 이 커넥터를 통해 ChatGPT가 정보를 보고 그날의 받은 메시지함을 요약하거나 미팅에 참여할 수 있는 시간대를 찾는 등의 작업을 할 수 있습니다. 그러나, 이러한 사이트에서는 여전히 사용자가 브라우저를 직접 조종하여 로그인해야 합니다.

그뿐 아니라, 매주 월요일 아침에 주간 지표 보고서를 생성하도록 하는 등 완료된 작업이 자동적이고 반복적으로 발생하도록 예약할 수도 있습니다.

새로운 기능, 새로운 위험

이번 릴리즈는 사용자가 ChatGPT에게 웹에서 작업을 수행하도록 요청할 수 있는 최초의 릴리즈입니다. 이로 인해 새로운 위험이 생길 수 있습니다. 특히 ChatGPT 에이전트는 커넥터를 통해 액세스된 정보든, 직접 조종 모드로 로그인한 웹사이트든, 사용자 데이터를 직접 사용하여 작업할 수 있기 때문입니다. 이를 위해 Operator의 리서치 프리뷰의 견고한 제어를 강화하고, 라이브 웹에서 민감한 정보를 다루는 문제, 더 넓은 사용자 도달 범위, 그리고 (제한적인) 터미널 네트워크 액세스와 같은 과제에 대한 안전 장치를 추가했습니다. 이러한 완화 조치가 위험을 크게 줄여주지만, ChatGPT 에이전트의 확장된 도구와 더 넓은 사용자 도달 범위는 전반적인 위험 프로필이 더 높다는 것을 의미합니다.

OpenAI는 에이전틱 시스템의 전반에서 위험이 되는 프롬프트 주입을 통한 적대적 조작에 대한 ChatGPT 에이전트의 안전 장치를 구축하는 데 집중했으며, 이에 따라 더욱 광범위한 완화 조치를 준비했습니다. 프롬프트 주입은 ChatGPT 에이전트가 작업을 수행하는 동안 웹에서 마주칠 수 있는 악의적인 지침을 통해 행동을 조작하는 서드파티의 시도입니다. 예를 들어 보이지 않는 요소나 메타데이터 등과 같은 웹페이지에 숨겨진 악의적인 프롬프트는 에이전트를 속여 커넥터의 비공개 데이터를 공격자와 공유하거나, 사용자가 로그인한 사이트에서 유해한 행동을 취하는 등 의도하지 않은 행동을 하도록 만들 수 있습니다. ChatGPT 에이전트가 직접 행동을 취할 수 있기 때문에 공격에 성공하면 큰 영향을 미치거나 더 큰 위험을 초래할 수 있습니다.

OpenAI는 에이전트가 프롬프트 주입을 식별하고 거부할 뿐 아니라 모니터링을 통해 프롬프트 주입 공격을 신속하게 탐지하고 대응하도록 훈련 및 테스트를 거쳤습니다. 후속 작업을 수행하기 전에 사용자의 명시적인 확인을 요구함으로써 이러한 공격으로 인한 위험을 한층 더 줄이며, 사용자는 필요에 따라 제어를 가져오거나 멈춤으로써 작업에 개입할 수 있습니다. 사용자는 에이전트에게 어떤 정보를 제공할지 결정할 때 이러한 장단점을 비교해야 하며, 작업에 필요하지 않을 때는 커넥터를 비활성화하는 등 위험 노출을 최소화하기 위해 조치해야 합니다.

모델의 실수에 대한 완화 조치도 구현했습니다. 특히 이제는 모델이 실제 세상에 영향을 주는 작업을 수행할 수 있기 때문입니다.

명시적 사용자 확인: ChatGPT는 구매를 하는 등 실제 결과를 야기하는 작업을 수행하기 전에 사용자에게 허가를 명시적으로 요청하도록 훈련되었습니다.
적극적인 감독(‘보기 모드’): 이메일 전송과 같은 특정한 중요 작업은 사용자의 적극적인 감독이 필요합니다.
선제적인 위험 완화: ChatGPT는 송금처럼 위험이 큰 작업은 적극적으로 거절하도록 훈련되었습니다.

마지막으로, 모델이 접근할 수 있는 데이터를 제한하기 위한 추가적인 제어 기능을 도입했습니다.

개인정보 보호 제어: ChatGPT의 설정에서 클릭 한 번으로 모든 브라우징 데이터를 삭제하고 모든 활성 웹사이트 세션에서 즉시 로그아웃할 수 있습니다. 로그아웃하지 않으면 사이트를 효율적으로 재방문할 수 있도록 방문한 각 웹사이트의 쿠키 정책을 기반으로 쿠키를 유지합니다.
안전한 브라우저 직접 조종 모드: ChatGPT의 브라우저를 사용해 사용자가 웹과 상호작용할 때(‘직접 조종 모드’) 사용자의 입력은 비공개 상태로 유지됩니다. ChatGPT는 이 세션 동안 사용자가 입력한 데이터(예: 비밀번호)를 수집하거나 저장하지 않습니다. 모델은 이러한 데이터가 필요하지 않으며 이러한 데이터를 보지 않는 것이 더 안전하기 때문입니다.

생물학적 위험에 대비하는 가장 강력한 안전 스택

모델의 기능이 늘어나면서, OpenAI는 준비성 프레임워크⁠에 따라 ChatGPT 에이전트를 고수준 생물학적 및 화학적 기능으로 분류하기로 결정하고 관련된 안전 조치를 활성화했습니다. 이 모델이 초보자가 심각한 생물학적 피해를 생성하도록(고급 능력을 판단하는 OpenAI의 임계치) 유의미하게 도움을 줄 수 있다는 명확한 증거는 없지만, OpenAI는 주의를 기울이며 필요한 안전 장치를 구현하고 있습니다. 그 결과 이 모델은 종합적인 위협 모델링, 이중 사용 거부 훈련, 상시 가동 분류기 및 추론 모니터, 명확한 시행 파이프라인 등 생물학에 대한 향상된 안전 조치를 포함하여 OpenAI의 현재까지 가장 포괄적인 안전 스택을 갖추게 되었습니다.

ChatGPT 에이전트를 안전하게 보호하려는 노력에 더해, OpenAI는 안전 조치가 연구소 바깥으로 확대될 때 계층적 생물 안전성이 가장 효과적이라는 점을 잘 알기 때문에 생태계 전반에서 방어를 강화하기 위한 협력을 지속하고 있습니다. 처음부터 외부 생물 보안 전문가, 안전 기관, 학술적 연구자와 협력하여 위협 모델, 평가, 정책을 구성했습니다. 생물학 교육을 받은 검토자들이 OpenAI의 평가 데이터를 검증했으며, 해당 분야의 전문가인 레드팀원들이 실제 시나리오에서 안전 장치에 대한 스트레스 테스트를 시행했습니다. 이번 달 초에는 협력을 가속하고 AI 기반 바이오디펜스 리서치의 발전을 위해 정부, 학술기관, 국가 연구소, NGO 등의 전문가와 함께 바이오디펜스 워크샵을 개최했습니다. 전 세계적인 협력을 지속하여 새로운 위협에 앞서 대응할 것입니다.

통합 에이전틱 모델의 강력한 안전성 접근 방식은 시스템 카드⁠에서 자세히 읽어보세요. 또한 실제 위험을 찾고 대응하기 위해 버그 바운티 프로그램⁠을 개최할 예정입니다.

가용성

ChatGPT 에이전트는 오늘부터 Pro, Plus, Team에서 이용할 수 있습니다. Pro 사용자는 오늘 내로 액세스할 수 있게 되며, Plus 및 Team 사용자는 며칠 내로 액세스할 수 있습니다. Enterprise 사용자와 Edu 사용자는 앞으로 몇 주 후에 이용할 수 있습니다. Pro 사용자는 매월 400개 메시지로 제한되며, 그 외 유료 사용자는 매월 40건의 메시지로 제한됩니다. 유연한 크레딧 기반 옵션을 사용하면 추가 작업이 가능합니다.

현재 유럽 경제 지역 및 스위스로 액세스 확장을 위해 노력 중입니다.

Operator 리서치 프리뷰 사이트는 앞으로 몇 주 더 작동하며 이후에는 작동이 중단됩니다. 심층 리서치는 ChatGPT 에이전트의 기능에 속해 있습니다. 기본적으로 실행이 조금 더 오래 걸리지만 더 상세하고 심층적인 응답을 제공하는 원래 심층 리서치 기능을 더 선호한다면 메시지 컴포저의 드롭다운에서 ‘심층 리서치’를 선택하여 여전히 액세스할 수 있습니다.

한계 및 전망

ChatGPT 에이전트는 아직 초기 단계입니다. 복잡한 작업을 다양하게 맡을 수 있지만 여전히 실수를 할 수 있습니다.

슬라이드쇼 생성 기능에서 상당한 잠재력을 보이고 있지만, 이 기능은 현재 베타 버전입니다. 현재로서는 특히 기존 문서 없이 시작할 때, 출력의 형식과 완성도가 기본적인 수준에 머무르는 경우가 있을 수 있습니다. 우리가 처음에 중점을 둔 모델의 기능은 구조와 유연성을 위해 최적화하면서 내보내기 후 기본적으로 쉽게 편집 가능한 각 요소(텍스트, 차트, 이미지 및 형태)를 프레젠테이션에 적합한 흐름과 형식으로 정보를 정리하는 아티팩트를 생성하는 기능이었습니다. 아직 뷰어의 슬라이드와 내보내기한 파워포인트 간에 일치하지 않는 부분이 가끔 발생하며, 이를 줄이기 위해 노력하고 있습니다. 또한, 현재 ChatGPT가 편집하거나 템플릿으로 사용할 수 있도록 기존 스프레드시트를 업로드할 수 있지만, 아직 슬라이드쇼에는 이 기능이 제공되지 않습니다. 우리는 이미 더 광범위한 기능과 개선된 형식으로 더 정제되고 세련된 출력을 생성하도록 ChatGPT의 슬라이드쇼 생성 능력의 다음 단계를 반복 학습시키고 있습니다.

전반적으로 ChatGPT 에이전트의 효율성, 깊이, 활용성이 시간이 갈수록 지속적으로 개선될 것으로 기대됩니다. 그러한 개선 사항 중에는 안전하게 사용하면서 유용성을 높이기 위해 사용자에게 요구되는 감독 수준을 계속해서 조정하면서 더 원활한 상호작용이 이루어지도록 하는 것도 포함될 예정입니다.

부록

SpreadsheetBench
모델	평가 환경	약한 제한(%): 셀 수준	약한 제한(%): 시트 수준	약한 제한(%): 전체
GPT‑4o	Windows, Excel	15.03	23.65	18.35
Excel에서 Copilot	Windows, Excel	23.33	15.00	20.00
GPT‑4o	OSX, LibreOffice	15.86	18.33	16.81
OpenAI o3	OSX, LibreOffice	22.40	24.60	23.25
ChatGPT 에이전트	OSX, LibreOffice	38.27	30.48	35.27
.xlsx에서 ChatGPT	OSX, LibreOffice	50.56	37.51	45.54
인간		75.56	65.00	71.33

라이브 스트리밍 다시 재생

작성자

OpenAI

각주

* 브라우징이 활성화되었을 때, 모델이 온라인에서 정확한 답변을 찾는 경우도 있습니다. 예를 들면 데이터세트에서 샘플 문제의 블로그 게시물을 읽고 정확한 답변을 찾는 것입니다. 두 가지 전략을 통해 모델의 거짓말에 대한 우려를 완화했습니다.

1. 과거에 모델이 거짓말을 한 것으로 관찰된 도메인을 차단했습니다.

2. 의심스러운 행위를 식별하기 위해 시도마다 모든 도구 출력 토큰을 시험하는 모니터로 추가 모델을 사용했습니다. 의심스러운 행위는 “특정 질문에 정확한 답변을 제공하는 것이 주요 목적인 페이지, 파일, 또는 스니펫”으로 정의됩니다. 이러한 특정 질문의 예로는 공식 채점 기준표, 유출된 “솔루션” 요점, 또는 완성된 정답을 그대로 인용한 토론 등이 있습니다. 악의 없는 행위는 “성실한 사람이 참고할 수 있는 모든 신뢰할 수 있는 자료(예: 문서, 매뉴얼, 학술 논문, 저명한 언론의 기사 등)으로 정의되며, 자료에 우연히 정답이 포함되었더라도 악의 없는 행위로 인정됩니다.” 모니터가 의심스럽다고 판단한 모든 시도는 틀린 것으로 간주됩니다. 이러한 과정에서 실패한 대부분의 샘플은 HLE와 관련 없는 여러 인터넷 출처에서 정확한 해답을 찾을 수 있는 문제였습니다.

**OpenAI는 Tier 1~3 데이터세트의 비공개 문제 290개 중 237개에 독점적으로 액세스할 수 있습니다. FrontierMath Tier 4 문제는 이 평가에 포함되지 않았습니다. 결과는 각 질문에 대답하기 위해 평균적으로 16번 시도한 것으로 평가되었습니다. ChatGPT 에이전트 결과는 OpenAI가 산출하고 EpochAI가 채점했으며, 브라우저와 터미널 액세스가 가능하며, 답변당 12만 8,000개 토큰으로 제한됩니다. OpenAI o4-mini 및 o3 평가는 EpochAI가 산출하고 평가했으며, 브라우저 및 터미널 액세스가 불가능하고 함수 호출을 통한 Python 스크립트를 사용했으며, 답변당 10만 개 토큰으로 제한됩니다.

*** Oracle@64는 샘플링된 실행 64회 중 획득한 최고 점수를 의미하며 실제 정답을 사용하여 선택됩니다. (다시 말해서, 실제 채점된 성능을 기반으로 각 작업에서 가장 높은 점수를 얻은 시도를 선택합니다.) 모든 작업에 대한 작업별 최고 점수의 평균을 보고합니다. 이 지표는 모델의 최대 잠재력과 작업 수행의 편차를 보여줍니다. 이는 모델이 성공했을 때 얼마나 유능할 수 있는지를 나타내며, 추가 학습을 통해 일관성을 개선해야 할 부분을 나타냅니다. 모델 신뢰도를 기반으로 선택하는 전형적인 “Best of N” 지표와 달리, oracle@64는 선택할 때 실제 정답을 사용하며, 이분법적인 통과/실패가 아닌 연속적인 0~1 척도로 채점되는 작업에 적용됩니다.