2025년 3월 11일

에이전트 구축을 위한 새로운 도구

개발자와 기업이 유용하고 신뢰할 수 있는 에이전트를 구축하는 데 도움이 되도록 플랫폼을 개선하고 있습니다.

파란색의 추상적인 배경에서 ‘triage_agent’, ‘gaurdrail’, ‘update_salesforce_record’ 등의 AI 에이전트의 작업 목록을 보여주는 세련되고 깔끔한 인터페이스.

오늘 개발자와 기업이 유용하고 신뢰할 수 있는 에이전트를 구축하는 데 도움이 될 빌딩 블록의 최초 버전을 공개합니다. OpenAI는 에이전트를 사용자 대신 독립적으로 작업을 완수하는 시스템으로 취급합니다. 지난 1년 동안 저희는 고급 이성, 멀티모달 상호작용 및 새로운 안전 기술 등의 새로운 모델 기능을 공개했고 이는 에이전트를 구축하는 데 필요한 까다로운 다단계 작업을 처리하는 모델을 위한 기초가 되었습니다. 하지만 이러한 기능을 생산 단계의 에이전트로 만드는 것은 어려운 일이고, 충분한 가시성이나 기본 지원이 없는 맞춤형 오케스트레이션 로직이 필요하거나 프롬프트를 과도하게 반복해야 하는 경우가 있다는 고객들의 의견이 있었습니다.

이러한 문제점을 해결하기 위해 에이전트 애플리케이션 개발 간편화에 특히 중점을 두고 설계한 새로운 API오 도구를 공개합니다.

에이전트 구축을 위해 채팅 완성 API의 간편함과 어시스턴트 API의 도구 사용 기능을 결합한 새로운 응답 API⁠(새 창에서 열기)
웹 검색⁠(새 창에서 열기), 파일 검색⁠(새 창에서 열기) 및 컴퓨터 사용⁠(새 창에서 열기) 등을 포함한 내장 도구
단일 에이전트 및 멀티 에이전트 워크플로 오케스트레이션을 위한 새로운 에이전트 SDK⁠(새 창에서 열기)
에이전트 워크플로 실행을 추적 및 검사하는 통합 관찰 도구⁠(새 창에서 열기)

이 새로운 도구들은 핵심 에이전트 로직, 오케스트레이션, 상호작용을 간소화하여 개발자가 에이전트 구축을 훨씬 쉽게 시작하도록 돕습니다. 앞으로 몇 주, 몇 달 동안 저희 플랫폼에서의 에이전트식 애플리케이션 구축을 더욱 간소화하고 가속하기 위한 추가 도구 및 기능을 공개할 계획입니다.

응답 API 소개

응답 API는 에이전트를 구축할 때 OpenAI의 내장 도구를 활용하기 위한 새로운 API 기본 요소입니다. 채팅 완성의 간편함과 어시스턴트 API의 도구 사용 기능을 결합한 API입니다. 모델이 기능이 발전함에 따라 응답 API가 에이전트식 애플리케이션을 구축하는 개발자를 위해 더 유연한 기초를 제공할 것으로 생각합니다. 한 번의 응답 API 호출로 개발자는 다양한 도구와 모델을 사용하여 점점 더 복잡한 문제를 해결할 수 있게 될 것입니다.

우선 웹 검색, 파일 검색 및 컴퓨터 사용 등과 같은 새로운 내장 도구를 응답 API가 지원할 예정입니다. 이러한 도구들은 작업을 완료하는 데 더욱 유용하게 사용할 수 있도록 실제 업무와 모델을 연결하여 함께 작동하도록 설계되었습니다. 또한 모델의 텍스트 출력에 쉽게 액세스하도록 통합 아이템 기반 설계, 더 단순한 다형성, 직관적인 스트리밍 이벤트 및 response.output_text와 같은 SDK 도우미 등, 다양한 측면에서 활용도를 향상합니다.

응답 API는 여러 가지 API나 외부 공급업체와 통합해야 하는 복잡함이 없이 OpenAI 모델과 내장 도구를 앱과 쉽게 결합하기를 원하는 개발자를 위해 설계되었습니다. 또한 이 API는 OpenAI에 데이터를 더 쉽게 저장할 수 있게 해주어 개발자가 추적 및 평가 등의 기능을 사용해 에이전트 성능을 평가할 수 있습니다. 다시 말씀드리지만, 저희는 데이터가 OpenAI에 저장된 경우라도 기분적으로 비즈니스 데이터로 모델을 훈련하지 않습니다. 이 API는 오늘부터 모든 개발자가 사용할 수 있으며 별도의 요금이 청구되지 않습니다. 토큰과 도구는 저희 가격 페이지⁠(새 창에서 열기)에 안내된 표준 요금이 청구됩니다. 응답 API 빠른 시작 가이드⁠(새 창에서 열기)에서 자세한 내용을 확인하세요.

기존 API에 대한 안내

채팅 완성 API⁠(새 창에서 열기): 채팅 완성은 여전히 가장 널리 사용되는 API이며, 새로운 모델 및 기능을 전폭 지원할 것을 약속드립니다. 내장 도구가 필요하지 않은 개발자는 채팅 완성을 문제 없이 계속 사용할 수 있습니다. 채팅 완성의 기능이 내장 도구나 다양한 모델의 요청을 따르지 않을 경우를 위해 계속 새로운 모델을 출시할 계획입니다. 한편 응답 API는 똑같이 뛰어난 성능을 발휘하는 채팅 완성의 확대 버전⁠(새 창에서 열기)으로, 새로운 통합의 경우 응답 API로 시작하는 것을 권장합니다.
어시스턴트 API⁠(새 창에서 열기): 어시스턴트 API 베타에 대한 개발자 피드백을 바탕으로, 응답 API에 주요 개선 사항을 반영하여 더 유연하고 빠르고 쉽게 사용할 수 있게 만들었습니다. 저희는 어시스턴트형 및 스레드형 객체와 코드 해석기 도구를 포함해 어시스턴트 API와 응답 API 간의 완전히 동일한 기능성을 달성하기 위해 노력하고 있습니다. 이 목표를 달성하면 어시스턴트 API의 사용 중지를 공식적으로 발표할 계획이며, 목표 종료 시점은 2026년 중반입니다. 사용 중지에 따라 개발자들이 데이터를 모두 보존하고 애플리케이션을 마이그레이션할 수 있도록 어시스턴트 API에서 응답 API로의 마이그레이션에 대한 명확한 가이드를 제공해 드릴 것입니다. 사용 중지를 공식적으로 발표하기 전까지는 어시스턴트 API에 계속해서 새로운 모델을 제공할 예정입니다. 응답 API는 OpenAI에서의 에이전트 구축을 위한 앞으로의 방향을 나타냅니다.

응답 API의 내장 도구 소개

웹 검색

이제 개발자는 웹 출처의 명확하고 관련성이 높은 인용을 제공하는 최신 정보를 더 빠르게 얻을 수 있습니다. 응답 API에서 웹 서치는 gpt-4o 및 gpt-4o-mini를 사용할 때 도구로 사용할 수 있으며, 다른 도구나 함수 호출과 페어링할 수 있습니다.

JavaScript

1const response = await openai.responses.create({
2    model: "gpt-4o",
3    tools: [ { type: "web_search_preview" } ],
4    input: "What was a positive news story that happened today?",
5});
6
7console.log(response.output_text);

초기 테스트를 진행하는 동안, 쇼핑 어시스턴트, 리서치 에이전트, 여행 예약 에이전트 등 시의적으로 적절한 정보가 필요한 애플리케이션의 다양한 사용 사례에서 개발자가 웹 검색을 사용해 구축하는 사례를 확인했습니다.

예를 들어, Hebbia⁠(새 창에서 열기)는 자산 운용사, 사모 펀드, 신용 금융 회사 및 로펌 등이 광범위한 공공 및 민간 데이터세트에서 실행 가능한 인사이트를 빠르게 추출하도록 돕기 위해 웹 검색을 활용합니다. 리서치 워크플로에 실시간 검색 기능을 통합함으로써, Hebbia는 더 풍부하고 컨텍스트에 맞는 시장 인텔리전스를 제공하고 분석의 정확성과 관련성을 향상하여 현재 벤치마크보다 뛰어난 성과를 달성합니다.

API의 웹 검색은 ChatGPT 검색에 사용되는 것과 동일한 모델로 구동됩니다. 짧고 사실적인 질문에 대한 답변에서 LLM의 정확성을 평가하는 벤치마크인 SimpleQA에서 GPT‑4o 검색 프리뷰와 GPT‑4o mini 검색 프리뷰는 각 90%와 88%의 점수를 달성했습니다.

SimpleQA 정확도(높을수록 좋음)

API에서 웹 검색을 이용해 생성된 응답은 뉴스 기사나 블로그 게시물과 같은 출처에 연결된 링크가 포함되어 더 자세한 정보를 얻을 수 있습니다. 명확하고 부합하는 인용을 통해 사용자는 새로운 방식으로 정보를 얻을 수 있고, 콘텐츠 소유자는 더 많은 잠재고객에게 다가갈 새로운 기회를 얻을 수 있습니다.

모든 웹사이트 또는 출판사는 API의 웹 검색에 표시되도록 선택⁠(새 창에서 열기)할 수 있습니다.

웹 검색 도구는 응답 API의 프리뷰에서 모든 개발자가 사용할 수 있습니다. 이뿐 아니라, gpt-4o-검색-프리뷰 및 gpt-4o-mini-검색-프리뷰를 통해 채팅 완성 API에서 OpenAI의 파인 튜닝된 검색 모델에 직접 액세스할 수 있는 권한도 제공합니다. 가격은⁠(새 창에서 열기) GPT‑4o 검색 및 4o-mini 각각 쿼리 1천 개당 $30 및 $25입니다. Playground⁠(새 창에서 열기)에서 웹 검색에 대해 알아보고 OpenAI 문서⁠(새 창에서 열기)에서 자세한 내용을 확인해 보세요.

파일 검색

이제 개발자는 개선된 파일 검색 도구를 이용하여 대용량의 문서에서 관련성이 높은 정보를 쉽게 검색할 수 있습니다. 다양한 파일 유형, 쿼리 최적화, 메타데이터 필터링 및 맞춤형 순위 재설정 지원으로 빠르고 정확한 검색 결과를 제공합니다. 파일 검색의 경우에도 응답 API를 이용하면 단 몇 줄의 코딩으로 통합할 수 있습니다.

JavaScript

1const productDocs = await openai.vectorStores.create({
2    name: "Product Documentation",
3    file_ids: [file1.id, file2.id, file3.id],
4});
5
6const response = await openai.responses.create({
7    model: "gpt-4o-mini",
8    tools: [{
9        type: "file_search",
10        vector_store_ids: [productDocs.id],
11    }],
12    input: "What is deep research by OpenAI?",
13});
14
15console.log(response.output_text);

파일 검색 도구는 고객 지원 에이전트가 FAQ에 쉽게 액세스할 수 있게 하고, 법무 어시스턴트가 자격을 갖춘 전문가의 사례를 빠르게 참조하도록 돕고, 코딩 에이전트가 기술 문서를 쿼리하도록 지원하는 등, 실제 사용 사례에서 다양하게 사용될 수 있습니다. 예를 들어, Navan⁠(새 창에서 열기)은 파일 검색을 AI 기반 여행 에이전트에 사용하여 사용자에게 지식 기반 문서(예: 자사의 여행 정책)에서 정확한 답변을 제공합니다. 내장 쿼리 최적화 및 순위 재설정을 사용하면 별도로 튜닝하거나 구성하지 않아도 강력한 RAG(검색 증강 생성) 파이프라인을 설정할 수 있습니다. Navan은 전용 벡터에 각 사용자 그룹을 저장하여 각 계정 설정 및 사용자 역할에 따라 맞춤형 답변을 제공할 수 있어 고객과 직원의 시간을 절약하는 동시에 정확하고 맞춤화된 지원을 제공합니다.

이 도구는 응답 API에서 모든 개발자가 사용할 수 있습니다. 가격⁠(새 창에서 열기)은 쿼리 1천 개당 $2.50, 파일 저장의 경우 첫 1GB는 무료로, 이후 1GB당 하루에 $0.10로 제공됩니다. 이 도구는 어시스턴트 API에서 계속 사용할 수 있습니다. 마지막으로 Vector Store API 객체에 새로운 검색 엔드포인트를 추가하여 다른 애플리케이션 및 API 사용을 위해 사용자의 데이터를 직접 쿼리할 수 있습니다. OpenAI 문서⁠(새 창에서 열기)에서 자세한 내용을 확인하고 Playground⁠(새 창에서 열기)에서 테스트를 시작해 보세요.

컴퓨터 사용

이제 개발자들은 컴퓨터에서 작업을 완수할 수 있는 에이전트를 구축하기 위해 응답 API에서 컴퓨터 사용 도구를 사용할 수 있습니다. 이 도구는 Operator를 지원하는 것과 동일한 컴퓨터 사용 에이전트(CUA) 모델이 구동합니다. 이 리서치 프리뷰 모델은 전체 컴퓨터 사용 작업에 대해 OSWorld⁠(새 창에서 열기)에서 38.1%, WebArena⁠(새 창에서 열기)에서 58.1%, 웹 기반 상호작용에 대해 WebVoyager⁠(새 창에서 열기)에서 87%를 달성하여 새로운 최고 기록을 세웠습니다.

내장 컴퓨터 사용 도구는 모델이 생성한 마우스와 키보드의 동작을 포착하여, 이러한 동작을 환경에서 실행 가능한 명령으로 전환함으로써 개발자가 컴퓨터 사용 작업을 자동화할 수 있도록 돕습니다.

JavaScript

1const response = await openai.responses.create({
2    model: "computer-use-preview",
3    tools: [{
4        type: "computer_use_preview",
5        display_width: 1024,
6        display_height: 768,
7        environment: "browser",
8    }],
9    truncation: "auto",
10    input: "I'm looking for a new camera. Help me find the best one.",
11});
12
13console.log(response.output);

개발자들은 웹 앱의 품질 보증 수행, 레거시 시스템 전반의 데이터 입력 작업 실행과 같은 브라우저 기반 워크플로를 자동화하는 데 컴퓨터 사용 도구를 활용할 수 있습니다. 예를 들어, Unify⁠(새 창에서 열기)라는 목적 파악, 계정 리서치, 구매자와의 소통을 위해 에이전트를 사용하는 수익 증대 시스템이 있습니다. Unify의 에이전트는 OpenAI의 컴퓨터 사용 도구를 사용해 예전에는 API를 통해 액세스할 수 없었던 정보(예:자산 관리 회사가 온라인 지도를 통해 어떤 사업체가 부동산을 확장했는지 확인할 수 있는)에 액세스할 수 있습니다. 이 리서치는 맞춤화된 대응을 트리거하는 맞춤형 신호로 작동하여 시장 출시 팀이 규모에 맞춰 정확하게 구매자와 소통하도록 지원합니다.

또 다른 예로, Luminai⁠(새 창에서 열기)은 컴퓨터 사용 도구를 통합하여 API 기능 및 표준화된 데이터가 부족한 기존 시스템을 사용하는 대형 기업의 복잡한 운영 워크플로를 자동화했습니다. 주요 지역사회 서비스 기관의 최근 시범 사업에서 Luminai는 애플리케이션 처리 및 사용자 등록 과정을 자동을 며칠 만에 자동화했습니다. 이는 기존 로봇 프로세스 자동화(RPA)가 수개월간 노력했음에도 달성하기 어려웠던 일이었습니다.

작년 Operator에 CUA를 출시하기 전에, OpenAI는 대규모의 안전성 테스트와 레드팀 구성을 실시하여 오용, 모델 오류, 최신 위험과 같은 세 가지 핵심 위험 영역을 다루었습니다. API의 CUA를 통해 로컬 운영 체제로 Operator의 기능을 확장하는 것과 관련된 위험을 다루기 위해 추가적인 안전성 평가와 레드팀 구성을 수행했습니다. 또한 개발자를 위해 프롬프트 주입을 방지하는 안전성 확인, 민감한 작업을 위한 확인 프롬프트, 개발자가 환경을 분리하도록 돕는 도구, 잠재적 정책 위반에 대한 향상된 감지 등을 포함한 완화 방법도 추가했습니다. 이러한 완화 방법이 위험을 줄이는 데 도움이 되기는 하지만, 모델은 특히 브라우저가 아닌 환경에서 여전히 예상치 못한 실수에 취약합니다. 예를 들어, 실제 업무에서 AI 에이전트의 성과를 측정하기 위해 설계된 벤치마크인 OSWorld에서의 CUA 성능은 최근 38.1%로 나타났고 이는 운영 체제에서 모델이 작업을 자동화하는 신뢰도가 아직 충분히 높지 않다는 사실을 보여줍니다. 이러한 시나리오에서는 사람의 감독을 권장합니다. API 관련 안전성 작업에 대한 자세한 내용은 업데이트된 시스템 카드에서 확인할 수 있습니다.

벤치마크 유형	벤치마크	컴퓨터 사용(범용 인터페이스)		웹 브라우징 에이전트	인간
		OpenAI CUA	이전 SOTA	이전 SOTA
컴퓨터 사용	OSWorld	38.1%	22.0%	-	72.4%
브라우저 사용	WebArena	58.1%	36.2%	57.1%	78.2%
브라우저 사용	WebVoyager	87.0%	56.0%	87.0%	-

평가 세부 정보는 여기에서 확인할 수 있습니다.

오늘부터 컴퓨터 사용 도구는 사용 등급이 3~5⁠(새 창에서 열기)인 일부 개발자들이 응답 API에서 리서치 프리뷰로 사용할 수 있습니다. 금액⁠(새 창에서 열기)은 1백만 입력 토큰당 $3, 1백만 출력 토큰당 $12입니다. 문서⁠(새 창에서 열기)에서 자세한 내용을 확인하고 이 도구를 구축하는 방법을 설명하는 샘플 애플리케이션⁠(새 창에서 열기)을 확인해 보세요.

에이전트 SDK

에이전트의 핵심 로직 구축과 유용하게 사용할 수 있는 도구에 대한 액세스도 필요하지만 개발자는 에이전트식 워크플로를 오케스트레이션해야 합니다. OpenAI의 새로운 오픈 소스 에이전트 SDK는 멀티 에이전트 워크플로 오케스트레이션을 간소화하고 작년에 출시한 실험적 SDK인 Swarm⁠(새 창에서 열기)에 비해 상당한 발전을 이루었습니다. Swarm은 개발자 커뮤니티에서 좋은 반응을 얻었고 다양한 고객을 통해 성공적으로 배포된 바 있습니다.

개선 사항:

에이전트: 명확한 지침과 내장 도구를 갖춘 쉽게 구성할 수 있는 LLM.
핸드오프: 에이전트간 지능적인 전송 제어.
가드레일: 입력 및 출력 검증을 위한 구성 가능한 안전 확인.
추적 및 관찰: 디버깅 및 성능 최적화를 위한 에이전트 실행 추적 시각화.

Python

1from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
2
3@function_tool
4def submit_refund_request(item_id: str, reason: str):
5    # Your refund logic goes here
6    return "success"
7
8support_agent = Agent(
9    name="Support & Returns",
10    instructions="You are a support agent who can submit refunds [...]",
11    tools=[submit_refund_request],
12)
13
14shopping_agent = Agent(
15    name="Shopping Assistant",
16    instructions="You are a shopping assistant who can search the web [...]",
17    tools=[WebSearchTool()],
18)
19
20triage_agent = Agent(
21    name="Triage Agent",
22    instructions="Route the user to the correct agent.",
23    handoffs=[shopping_agent, support_agent],
24)
25
26output = Runner.run_sync(
27    starting_agent=triage_agent,
28    input="What shoes might work best with my outfit so far?",
29)

에이전트 SDK는 고객 지원 자동화, 다단계 리서치, 콘텐츠 생성, 코드 검토, 세일즈 예측 등을 포함한 여러 가지 실제 애플리케이션에 적합합니다. 예를 들어, Coinbase⁠(새 창에서 열기)는 에이전트 SDK를 사용하여 암호 화폐 지갑 및 다양한 온체인 작업과 AI 에이전트와의 원활한 상호작용을 지원하는 툴킷인 AgentKit를 빠르게 프로토타이핑하고 배포했습니다. Coinbase는 단 몇 시간 만에 자사 개발자 플랫폼 SDK의 맞춤형 작업을 완전한 기능성 에이전트로 통합했습니다. AgentKit의 간결한 아키텍처는 새로운 에이전트 작업을 추가하는 과정을 간소화하여 개발자가 더욱 중요한 통합 작업에 집중할 수 있고 복잡한 에이전트 설정을 탐색하는 데 낭비하는 시간을 절약해 줍니다.

Box⁠(새 창에서 열기)는 기업이 Box에 저장되거나 인터넷에 있는 비정형 데이터에서 인사이트를 검색하고 쿼리하고 추출할 수 있도록 웹 검색 및 에이전트 SDK를 활용하는 에이전트를 며칠 만에 생성했습니다. 이 접근 방식으로 고객은 최신 정보에 액세스할 수 있을 뿐 아니라 내부 허가 및 보안 정책을 준수하는 안정적이고 안전한 방식으로 내부의 독점 데이터를 검색할 수도 있습니다. 예를 들어, 금융 서비스 회사는 Box AI 에이전트를 호출하여 Box에 저장된 내부 시장 데이터 분석과 웹의 경제 데이터를 통합하기 하는 맞춤형 에이전트를 구축해 분석가에게 투자 결정을 위한 포괄적인 시각을 갖춘 분석을 제공할 수 있습니다.

응답 API와 채팅 완성 API와 함께 작동하는 에이전트 SDK. 이 SDK는 채팅 완성 형식 API 엔드포인트를 제공하면 다른 공급업체의 모델과 함께 작동할 수 있습니다. 개발자는 Python 코드베이스와 즉시 통합할 수 있으며, 곧 Node.js도 지원될 예정입니다. 문서⁠(새 창에서 열기)에서 자세히 알아보세요.

에이전트 SDK를 설계하는 과정에서 Pydantic⁠(새 창에서 열기), Griffe⁠(새 창에서 열기), MkDocs⁠(새 창에서 열기) 등의 다양한 커뮤니티의 훌륭한 작업물이 팀에 영감을 주었습니다. OpenAI는 앞으로도 에이전트 SDK를 오픈 소스 프레임워크로 구축하여 커뮤니의 다른 사용자들이 저희 접근 방식을 확장할 수 있도록 할 것입니다.

앞으로 공개될 것들: 에이전트를 위한 플랫폼 구축

에이전트는 앞으로 산업 전반에 걸쳐 생산성을 크게 향상하며 직원들의 업무에 필수가 될 것으로 생각합니다. 기업들이 복잡한 업무에 AI를 활용하는 비중이 늘어남에 따라, OpenAI는 개발자와 기업이 실제로 성과를 낼 수 있는 자율 시스템을 효과적으로 생성하도록 지원하는 빌딩 블록을 제공하기 위해 노력하고 있습니다.

오늘 공개되는 내용과 함께, 개발자와 기업이 신뢰할 수 있는 고성능 AI 에이전트를 더 쉽게 구축, 배포, 확장할 수 있는 최초의 빌딩 블록을 소개합니다. 모델의 기능이 점점 에이전트식에 가까워짐에 따라, 저희는 API와 새로운 도구의 심층 통합에 꾸준히 투자하여 생산 단계에서 에이전트의 배포, 평가, 최적화를 지원할 계획입니다. OpenAI의 목표는 모든 산업에서 다양한 업무에 도움이 되는 에이전트 구축을 위한 원활한 플랫폼 경험을 개발자에게 제공하는 것입니다. 앞으로 개발자 여러분이 보여주실 멋진 성과를 기대합니다. 시작하려면 문서⁠(새 창에서 열기)를 확인하고 새로운 업데이트에 주목해 주세요.

저자

OpenAI