2025년 1월 23일

컴퓨터 사용형 에이전트

AI가 디지털 세계와 상호작용할 수 있는 범용 인터페이스, 컴퓨터 사용형 에이전트로 Operator 구동

로딩 중...

오늘 웹으로 이동하여 작업을 수행할 수 있는 에이전트인 Operator⁠(새 창에서 열기)의 리서치 프리뷰를 선보였습니다. Operator는 GPT‑4o의 비전 기능과 강화 학습을 통한 고급 이성을 결합한 모델인 컴퓨터 사용형 에이전트(CUA)로 구동됩니다. CUA는 사람이 화면에서 보는 버튼, 메뉴, 텍스트 필드와 같은 그래픽 사용자 인터페이스(GUI)와 상호작용하도록 훈련되었습니다. 따라서 OS나 웹 전용 API를 사용하지 않고도 디지털 작업을 유연하게 수행할 수 있습니다.

CUA는 멀티 모달 이해와 이성이 만나는 지점에서의 기초 연구를 수년간 진행해 온 토대에서 구축되었습니다. 고급 GUI 인식과 구조화된 문제 해결을 결합하여 작업을 여러 단계의 계획으로 나누고, 문제가 발생하면 적응하여 스스로 수정할 수 있습니다. 이러한 능력은 AI 개발의 다음 단계로, 모델이 인간이 일상적으로 사용하는 것과 동일한 도구를 사용할 수 있게 하고, 광범위한 새로운 분야에 활용할 수 있는 가능성을 열어줍니다.

CUA는 아직 초기 단계이며 한계가 있지만, 전체 컴퓨터 사용 작업의 경우 OSWorld에서 38.1%의 성공률을, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에선 87%의 성공률을 달성하며 최첨단 벤치마크 결과를 새롭게 기록했습니다. 이러한 결과는 단일 일반 작업 공간을 사용하여 다양한 환경에서 탐색하고 운영할 수 있는 CUA의 능력을 잘 보여줍니다.

Operator 시스템 카드에 자세히 설명되어 있는 것처럼, 우리는 에이전트가 디지털 세계에 액세스하여 발생하는 문제를 해결하기 위해 안전을 최우선 순위로 삼고 CUA를 개발했습니다. 점진적인 배포 전략에 따라 operator.chatgpt.com⁠(새 창에서 열기)에서 Operator 리서치 프리뷰를 통해 미국의 Pro⁠(새 창에서 열기) 등급 사용자에게 먼저 CUA를 공개합니다. 실제 피드백을 수집함으로써, 디지털 에이전트 사용이 증가하는 미래에 대비하여 안전 조치를 개선하고 지속적으로 향상할 수 있습니다.

작동 방식

CUA 시스템이 입력을 텍스트 또는 스크린샷으로 해석하고, 작업을 생성하고, 가상 머신에 명령을 적용하는 과정을 보여주는 순서도.

CUA는 로우(Raw) 픽셀 데이터를 처리하여 화면에서 일어나는 일을 파악하고 가상 마우스와 키보드를 사용하여 작업을 완료합니다. CUA는 다단계 작업을 탐색하고, 오류를 처리하고, 예기치 않은 변경 사항에 적응할 수 있습니다. 이러한 능력을 통해 CUA는 특수 API 없이도 양식 작성과 웹사이트 탐색 등의 작업을 수행하며 다양한 디지털 환경에서 작동할 수 있습니다.

사용자가 지시하면 CUA는 지각, 추론, 행동을 통합하는 반복적인 루프를 통해 작동합니다.

지각: 컴퓨터의 스크린샷이 모델의 컨텍스트에 추가되어 컴퓨터의 현재 상태를 시각적인 스냅샷으로 보여줍니다.
추론: CUA는 현재와 과거의 스크린샷과 행동을 고려하여 사고의 사슬을 통해 다음 단계를 추론합니다. 이러한 내적 독백은 모델이 관찰하여 평가하고 중간 단계를 추적하고 동적으로 적응할 수 있도록 하여 작업 성능을 향상시킵니다.
액션: 작업이 완료되었거나 사용자 입력이 필요하다고 판단할 때까지 클릭, 스크롤, 입력 등의 액션을 수행합니다. CUA는 대부분의 단계는 자동으로 처리하지만, 로그인 세부 정보를 입력하거나 CAPTCHA 양식에 응답하는 등 민감한 작업은 사용자에게 확인을 요청합니다.

평가

CUA는 화면, 마우스, 키보드에 동일한 범용 인터페이스를 사용하여 컴퓨터 사용과 브라우저 사용 모두에서 새로운 벤치마크 결과를 달성합니다.

벤치마크 유형	벤치마크	컴퓨터 사용(범용 인터페이스)		웹 브라우징 에이전트	인간
		OpenAI CUA	이전 SOTA	이전 SOTA
컴퓨터 사용	OSWorld	38.1%	22.0%	-	72.4%
브라우저 사용	WebArena	58.1%	36.2%	57.1%	78.2%
브라우저 사용	WebVoyager	87.0%	56.0%	87.0%	-

평가 세부 정보는 여기에서 확인할 수 있습니다.

브라우저 사용

WebArena⁠(새 창에서 열기)와 WebVoyager⁠(새 창에서 열기)는 브라우저를 사용하여 실제 작업을 완료하는 웹 브라우징 에이전트의 성능을 평가하도록 설계되었습니다. WebArena는 자체 호스팅된 오픈 소스 웹사이트를 오프라인에서 활용하여 전자상거래, 온라인 스토어 콘텐츠 관리(CMS), 소셜 포럼 플랫폼 등의 실제 시나리오를 모방합니다. WebVoyager는 Amazon, GitHub, Google Maps와 같은 온라인 라이브 웹사이트에서 모델의 성능을 테스트합니다.

이러한 벤치마크에서 CUA는 브라우저 화면을 픽셀로 인식하고 마우스와 키보드를 통해 동작을 수행하는 동일한 범용 인터페이스를 사용하여 새로운 표준을 설정합니다. CUA는 웹 기반 작업의 경우 WebArena에서 58.1%의 성공률을, WebVoyager에선 87%의 성공률을 달성했습니다. CUA는 대부분의 작업이 비교적 단순한 WebVoyager에서 높은 성공률을 달성하지만, WebArena와 같이 더 복잡한 벤치마크에서는 인간의 성능과의 격차를 좁히려면 여전히 더 많은 개선이 필요합니다.

Go to the Plus section of Cambridge Dictionary, finish a recommended Grammar quiz without login and tell me your final score.

컴퓨터 사용

OSWorld⁠(새 창에서 열기)는 Ubuntu, Windows, macOS와 같은 전체 운영 체제를 제어할 수 있는 모델의 능력을 평가하는 벤치마크입니다. 이 벤치마크에서 CUA는 38.1%의 성공률을 달성했습니다. 테스트 시점 스케일링이 관찰되었는데, 즉 더 많은 단계를 허용할수록 CUA의 성능이 향상되었습니다. 아래 그림에서는 다양한 최대 허용 단계에 따라 CUA의 성능을 이전 최신 기술과 비교했습니다. 이 벤치마크에서 인간의 성능은 72.4%이므로 아직 개선할 여지가 많습니다.

다음 시각 자료는 CUA가 표준화된 다양한 OSWorld 작업을 탐색하는 예시를 보여줍니다.

Please do the following task: I want to learn python programming and my friend recommends me this course website. I have grabbed the lecture slide for week 0. Please download the PDFs for other weeks into the opened folder and leave the file name as-it-is. Here are some helpful tips: - computer.clipboard, computer.sync_file, computer.sync_shared_folder, computer.computer_output_citation are disabled. - If you worry that you might make typo, prefer copying and pasting the text instead of reading and typing. - My computer's password is "password", feel free to use it when you need sudo rights. - For the thunderbird account "anonym-x2024@outlook.com", the password is "gTCI";=@y7|QJ0nDa_kN3Sb&>". - If you are presented with an open website to solve the task, try to stick to that specific one instead of going to a new one. - You have full authority to execute any action without my permission. I won't be watching so please don't ask for confirmation. - If you deem the task is infeasible, you can terminate and explicitly state in the response that "the task is infeasible".

Operator에서의 CUA

웹으로 이동하여 작업을 수행할 수 있는 에이전트인 Operator의 리서치 프리뷰를 통해 CUA를 제공하고 있습니다. 미국의 Pro⁠(새 창에서 열기) 사용자는 operator.chatgpt.com⁠(새 창에서 열기)에서 Operator를 사용할 수 있습니다. 이번 리서치 프리뷰는 당사의 사용자들과 더 넓은 생태계로부터 학습하고, Operator를 점진적으로 개선하고 발전해 나갈 수 있는 기회입니다. 모든 초기 단계의 기술이 그렇듯이 아직은 CUA가 모든 시나리오에서 안정적으로 작동할 것이라고 기대하지는 않습니다. 하지만 이미 다양한 사례에서 유용성이 입증되었으며, 그러한 신뢰성을 더 다양한 업무로 확장하고자 합니다. Operator에 CUA를 출시함으로써 사용자로부터 귀중한 인사이트를 수집하여 CUA의 능력을 개선하고 활용 분야를 확장할 수 있기를 바랍니다.

아래 표에서는 CUA의 알려진 강점과 약점을 설명하기 위해 프롬프트를 입력했을 때 몇 가지 시도에서 Operator의 CUA 성능을 보여줍니다.

카테고리	프롬프트	성공 / 시도 횟수	참고
다양한 UI 구성 요소와 상호 작용하여 작업 수행	Turn 1: Search Britannica for a detailed map view of bear habitats Turn 2: Great! Now please check out the black, brown and polar bear links and provide a concise general overview of their physical characteristics, specifically their differences. Oh and save the links for me so I can access them quickly.	10 / 10	CUA는 다양한 UI 구성 요소와 상호 작용하여 결과를 검색하고, 정렬하고, 필터링하여 사용자가 원하는 정보를 찾을 수 있습니다. 신뢰성은 웹사이트와 UI에 따라 다릅니다.
	I want one of those target deals. Can you check if they have a deal on poppi prebiotic sodas? If they do, I want the watermelon flavor in the 12fl oz can. Get me the type of deal that comes with this and check if it's gluten free.	9 / 10
	I am planning to shift to Seattle and I want you to search Redfin for a townhouse with at least 3 bedrooms, 2 bathrooms, and an energy-efficient design (e.g., solar panels or LEED-certified). My budget is between $600,000 - $800,000 and it should ideally be close to 1500 sq ft.	3 / 10
반복되는 간단한 UI 상호 작용을 통해 수행할 수 있는 작업	Create a new project in Todoist titled 'Weekend Grocery Shopping.' Add the following shopping list with products: Bananas (6 pieces) Avocados (2 ripe) Baby Spinach (1 bag) Whole Milk (1 gallon) Cheddar Cheese (8 oz block) Potato Chips (Salted, family size) Dark Chocolate (70% cocoa, 2 bars)	10 / 10	CUA는 간단한 UI 상호 작용을 여러 번 안정적으로 반복하여 단순하지만 지루한 사용자 작업을 자동화할 수 있습니다.
반복되는 간단한 UI 상호 작용을 통해 수행할 수 있는 작업	Search Spotify for the most popular songs of the USA for the 1990s, and create a playlist with at least 10 tracks.	10 / 10
프롬프트에 웹사이트 사용 방법에 대한 자세한 힌트가 포함되어 있는 경우에만 CUA가 높은 성공률을 보이는 작업	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am to 12 am, just make sure it is under £90 per hour. Oh could you check the filters section for appropriate filters and make sure there is parking and the entire thing is wheelchair accessible.	8 / 10	같은 작업이라도 작업의 프롬프트를 어떻게 작성하는지에 따라 CUA의 신뢰도가 달라질 수 있습니다. 이 경우 구체적인 날짜(예: 오전 9시부터 오전 12시까지 vs 오전 9시부터 하루 종일)를 제공하고, 결과를 찾기 위해 어떤 UI를 사용해야 하는지에 대한 힌트(예: 필터 섹션 확인)를 제공하여 신뢰도를 높일 수 있습니다.
	Visit tagvenue.com and look for a concert hall that seats 150 people in London. I need it on Feb 22 2025 for the entire day from 9 am, just make sure it is under £90 per hour. Oh and make sure there is parking and the entire thing is wheelchair accessible.	3 / 10
익숙하지 않은 UI와 텍스트 편집 사용의 어려움	Use html5editor and input the folowing text on the left side, then edit it following my instructions and give me a screenshot of the entire thing when done. The text is: Hello world! This is my first text. I need to see how it would look like when programmed with HTML. Some parts should be red. Some bold. Some italic. Some underlined. Until my lesson is complete, and we shift to the other side. ... Hello world! should have header 2 applied The sentence below it should be a regular paragraph text. The sentence mentioning red should be normal text and red The sentence mentionnihg bold should be normal text bolded Sentence mentioning italic should be italicized The final sentence should be aligned to the right instead of the usual lefte final sentence should be aligned to the right instead of the usual left	4 / 10	CUA는 훈련 중에 상호 작용이 많지 않았던 UI와 상호 작용해야 할 때, 제공된 UI를 적절하게 사용하는 방법을 파악하는 데 어려움을 겪습니다. 그래서 많은 시행착오와 비효율적인 작업이 발생하는 경우가 빈번합니다. CUA의 텍스트 편집은 정확하지 않습니다. 그래서 이 과정에서 종종 많은 실수가 발생하거나 오류가 있는 출력을 제공합니다.

안전

CUA는 브라우저에서 직접 액션을 취할 수 있는 능력을 갖춘 OpenAI 최초의 에이전트 제품 중 하나이므로, 새로운 위험과 해결해야 할 과제를 가지고 있습니다. Operator 배포를 준비하면서 오용, 모델 실수, 프론티어 위험, 이 세 가지의 주요 안전 위험 영역에 걸쳐 광범위한 안전 테스트를 수행하고 완화 조치를 구현했습니다. 안전에 대해 다층적인 접근 방식을 취하는 것이 중요하다고 생각하여 CUA 모델 자체, Operator 시스템, 배포 후 프로세스 등 전체 배포 상황에 걸쳐 안전장치를 구현했습니다. 목표는 각 계층에서 점진적으로 위험 프로필을 줄여가면서 완화 조치를 쌓아가는 형식으로 취하는 것입니다.

첫 번째 위험 카테고리는 오용입니다. 사용자에게 사용 정책을 준수하도록 요구하는 것 외에도, Operator의 오용으로 인한 피해 위험을 줄이기 위해 GPT‑4o에 대한 안전 작업을 기반으로 다음과 같은 완화 조치를 마련했습니다.

거부: CUA 모델은 여러 유해한 작업과 불법 또는 규제 활동을 거부하도록 훈련되었습니다.
차단 목록: Operator는 많은 도박 사이트, 성인 엔터테인먼트, 약물 또는 총기 소매업체 등 당사가 사전 예방으로 차단한 웹사이트에 액세스할 수 없습니다.
중재: 사용자 상호작용은 사용 정책을 준수하도록 설계되고, 금지된 활동에 대해 경고하거나 이를 차단할 수 있는 기능을 가지도록 설계된 자동화된 안전 검사기에 의해 실시간으로 검토됩니다.
오프라인 감지: 또한 아동 안전 및 사기성 활동 등 우선 정책 영역에서 금지된 사용을 식별하기 위해 자동화된 감지 및 인적 검토 파이프라인을 개발하여 사용 정책을 시행할 수 있도록 했습니다.

두 번째 위험 카테고리는 모델 실수로, CUA 모델이 실수로 사용자가 의도하지 않은 행동을 취하여 사용자나 타인에게 피해를 주는 경우입니다. 이메일의 오타부터 잘못된 상품 구매, 중요한 문서의 영구 삭제까지, 다양한 심각도의 가상의 실수가 발생할 수 있습니다. 잠재적인 피해를 최소화하기 위해 우리는 다음과 같은 완화 조치를 개발했습니다.

사용자 확인: CUA 모델은 외부 부작용이 있는 작업(예 주문을 제출하거나 이메일을 보내기 전 등)을 완료하기 전에 사용자에게 확인을 요청하도록 훈련되어 모델의 작업이 실행되기 전에 사용자가 다시 확인할 수 있습니다.
작업 한계: 현재로서는 CUA 모델은 은행 거래나 민감한 의사 결정이 필요한 작업과 같은 특정 고위험 작업을 도와주는 것을 거부합니다.
감시 모드: 이메일처럼 특히 민감한 웹사이트에서는 Operator에 사용자의 적극적인 감독이 필요하며, 사용자가 모델의 잠재적인 실수를 직접 발견하고 해결할 수 있도록 해야 합니다.

특히 중요한 모델 실수 카테고리 중 하나는 웹사이트에 대한 적대적인 공격으로, 프롬프트 주입, 탈옥, 피싱 시도 등을 통해 CUA 모델이 의도하지 않은 액션을 수행하도록 합니다. 앞서 언급한 모델 실수에 대한 완화 조치 외에도 우리는 이러한 위험으로부터 보호하기 위해 몇 가지 추가적인 방어 계층을 개발했습니다.

신중한 탐색: CUA 모델은 웹사이트에 대한 프롬프트 주입을 식별하고 무시하도록 설계되어 있어 초기 내부 레드팀 테스트 세션에서 한 가지 사례를 제외한 모든 사례를 인식했습니다.
모니터링: Operator에서는 화면에서 의심스러운 콘텐츠를 감지하면 실행을 모니터링하고 일시 중지하는 추가 모델을 구현했습니다.
감지 파이프라인: 의심스러운 액세스 패턴을 식별하기 위해 자동화된 감지 기능과 인적 검토 파이프라인을 모두 적용하여 해당 패턴에 플래그를 지정하고 몇 시간 내에 신속하게 모니터에 추가할 수 있도록 하고 있습니다.

마지막으로, 자율 복제 및 생물학적 위험이 있는 도구와 관련된 시나리오를 포함하여 준비성 프레임워크⁠(새 창에서 열기)에 설명된 프론티어 위험에 대해 CUA 모델을 평가했습니다. 이 평가에서는 GPT‑4o 보다 위험이 증가하지는 않을 것으로 나타났습니다.

평가와 안전장치에 대해 더 자세히 알아보고 싶으시다면 당사의 안전 접근 방식과 지속적인 개선 사항에 대해 투명성을 제공하고 지속적으로 업데이트 되는 문서인 Operator 시스템 카드를 확인해 보시기 바랍니다.

Operator가 가진 많은 능력이 새로운 것인 만큼 우리가 구현한 위험 및 완화 접근 방식도 새로운 것입니다. 최첨단의 다양하고 상호 보완적인 완화 조치를 마련하는 것을 목표로 하고 있지만, 점점 더 많은 것을 알아가면서 이러한 위험과 접근 방식이 진화할 것으로 예상합니다. 이번 리서치 프리뷰 기간이 사용자 피드백을 수집하고, 안전장치를 개선하고, 에이전트의 안전성을 강화할 수 있는 기회가 되기를 기대합니다.

결론

CUA는 멀티 모달리티, 추론, 안전 분야에서 쌓아온 수년간의 연구 발전을 기반으로 합니다. o-모델 시리즈를 통한 심화 이성, GPT‑4o를 통한 비전 능력, 강화 학습과 지시 계층 구조를 통해 견고성을 개선하는 새로운 기법 분야에서 상당한 진전을 이루었습니다. 다음으로 탐구하려는 도전 과제는 에이전트의 활동 공간을 확장하는 것입니다. 범용 인터페이스가 제공하는 유연성은 이러한 문제를 해결하여 에이전트가 인간을 위해 설계된 모든 소프트웨어 도구를 탐색할 수 있도록 지원합니다. CUA는 전문화된 에이전트 친화적인 API를 넘어 사용 가능한 어떤 컴퓨터 환경에도 적응할 수 있어, 대부분의 AI 모델이 도달할 수 없는 디지털 사용 사례의 ‘롱테일’을 진정으로 해결할 수 있습니다.

또한 개발자가 CUA를 사용하여 자신만의 컴퓨터 사용형 에이전트를 구축할 수 있도록 API⁠(새 창에서 열기)에서 CUA를 사용할 수 있게 하려고 노력하고 있습니다. CUA를 계속해서 개선해 나가면서 커뮤니티에서 발견하게 될 다양한 사용 사례를 보게 되기를 기대합니다. 이번 초기 프리뷰에서 수집한 실제 피드백을 활용해 CUA의 능력과 안전 완화 조치를 지속적으로 개선하여, 모든 이가 AI의 이점을 누릴 수 있게 한다는 우리의 사명을 안전하게 발전시켜 나갈 계획입니다.

작성

OpenAI

참고 자료

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku⁠(새 창에서 열기)

Model Card Addendum: Claude 3.5 Haiku and Upgraded Claude 3.5 Sonnet⁠(새 창에서 열기)

Kura WebVoyager benchmark⁠(새 창에서 열기)

Google project mariner⁠(새 창에서 열기)

OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments⁠(새 창에서 열기)

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models⁠(새 창에서 열기)

WebArena: A Realistic Web Environment for Building Autonomous Agents⁠(새 창에서 열기)

인용

OpenAI를 인용하고 인용 시 다음 BibTeX를 사용해 주십시오. http://cdn.openai.com/cua/cua2025.bib⁠(새 창에서 열기)