2025년 10월 6일

AgentKit를 소개합니다

에이전트 개발, 배포, 최적화를 위한 새로운 도구입니다.

로딩 중...

오늘 OpenAI는 AgentKit를 소개합니다. 개발자와 기업이 에이전트를 개발, 배포, 최적화하는 데 활용할 수 있는 전체 도구 모음입니다. 지금까지 에이전트를 개발하려면 버전화가 없는 복잡한 오케스트레이션, 맞춤형 커넥터, 수동 평가 파이프라인, 프롬프트 튜닝, 출시 전 몇 주에 걸친 프런트엔드 작업 등 분산된 도구를 오가며 작업해야 했습니다. AgentKit를 이용하면 개발자는 이제 다음과 같은 빌딩 블록을 사용하여 워크플로를 시각적으로 설계하고 에이전트식 UI를 더 빠르게 임베딩할 수 있습니다.

에이전트 빌더: 멀티 에이전트 워크플로 생성 및 버전화를 위한 시각적 canvas
커넥터 레지스트리: 관리자가 OpenAI 제품과 데이터 및 도구의 연결을 관리할 수 있는 중앙 위치
ChatKit: 사용자 제품에 맞춤화 가능한 채팅 기반 에이전트 경험을 임베딩하기 위한 툴킷

또한 데이터세트, 트레이스 채점, 자동화된 프롬프트 최적화, 서드파티 모델 지원 등의 새로운 기능으로 평가 기능을 확장하여 에이전트 성능을 측정하고 개선할 계획입니다.

응답 API 및 에이전트 SDK⁠를 3월에 출시한 이후, OpenAI는 개발자와 기업이 심층 리서치, 고객 지원 등을 위한 엔드 투 엔드 에이전트식 워크플로를 구축하는 것을 확인했습니다. Klarna는 전체 티켓의 3분의 2를 처리하는 지원 에이전트를 개발⁠했으며, Clay는 세일즈 담당자가 이룬 성장의 10배를 달성⁠했습니다. AgentKit는 응답 API를 기반으로 구축하여 개발자가 에이전트를 더 효율적이고 안정적으로 구축하도록 돕습니다.

에이전트 빌더를 이용한 워크플로 설계

에이전트 워크플로가 점점 복잡해짐에 따라 개발자는 업무 방식에 대해 더 분명한 가시성이 필요하게 되었습니다. 에이전트 빌더⁠(새 창에서 열기)는 드래그 앤 드롭 노드를 활용해 로직을 구성하고, 도구를 연결하고, 맞춤형 안전 조치를 구성하기 위한 시각적 canvas를 제공합니다. 프리뷰 실행, 인라인 평가 구성, 전체 버전화를 지원하므로 빠른 반복에 이상적입니다.

시각적 빌더 도구의 고객 서비스 자동화 흐름 인터페이스 뷰. 시작, 탈옥 안전 조치, 분류 에이전트, If/else, 회귀 에이전트, 보존 에이전트, 정보 에이전트, 환각 안전 조치, 종료라는 텍스트가 있는 연결된 노드를 보여주는 canvas. 에이전트, 참고, 파일 검색, 가드레일, MCP, 사용자 승인 등의 사용 가능한 노드 유형이 나열된 왼쪽 목록의 사이드바. 상단 컨트롤에 포함된 평가, 코드, 프리뷰, 게시 등의 옵션.

빌더는 빈 canvas에서 시작하거나 사전 구성된 템플릿을 사용할 수 있습니다.

Ramp의 팀은 빈 canvas에서 시작해 단 몇 시간 만에 조달 에이전트를 만들었습니다.

"에이전트 빌더 덕분에, 몇 개월이 걸리던 복잡한 오케스트레이션, 맞춤형 코드, 수동 최적화 등의 작업을 불과 몇 시간에 완료할 수 있습니다. 제품, 법무, 엔지니어링 팀이 모두 같은 내용을 공유하도록 유지하는 시각적 canvas 덕분에, 반복 주기를 70% 단축했고 2개 분기가 아닌 2개 스프린트 만에 에이전트를 실제로 사용할 수 있었습니다.”

— Ramp

이와 비슷하게 일본의 선도적인 기술 및 인터넷 서비스 회사인 LY Corporation은 두 시간이 채 되지 않는 시간에 에이전트 빌더를 사용하여 업무 지원 에이전트를 구축했습니다.

“에이전트 빌더는 엔지니어와 분야별 전문가가 하나의 인터페이스에서 협력하도록 하여 완전히 새로운 방식으로 에이전트를 오케스트레이션할 수 있게 해주었습니다. 최초의 멀티 에이전트식 워크플로를 구축하고 두 시간도 안 되는 시간 만에 실행하여 에이전트를 제작하고 배포하는 시간을 놀랍도록 단축했습니다.”

— LY Corporation

OpenAI는 기업이 다양한 워크스페이스 및 조직에서 데이터를 유지 관리할 수 있는 커넥터 레지스트리도 공개합니다. 커넥터 레지스트리⁠(새 창에서 열기)는 데이터 소스를 ChatGPT와 API의 단일 관리 패널에 통합합니다. 레지스트리에는 Dropbox, Google 드라이브, Sharepoint, Microsoft Teams뿐 아니라 서드파티 MCP 등의 사전 구축된 커넥터가 모두 포함됩니다.

또한 개발자는 에이전트 빌더에서 가드레일⁠(새 창에서 열기)을 활성화할 수 있습니다. 가드레일은 의도치 않았거나 악의적인 행위로부터 에이전트를 보호하는 데 도움이 되는, 오픈 소스로 된 모듈식 안전 계층입니다. 가드레일은 PII를 마스킹하거나 플래그 지정하고, 탈옥을 감지하고, 다른 안전 조치를 적용하여 안정적이고 안전한 에이전트를 더 쉽게 구축하고 배포할 수 있게 합니다. 가드레일은 단독으로 배포하거나 Python⁠(새 창에서 열기) 및 JavaScript⁠(새 창에서 열기)의 안전 조치 라이브러리를 통해 배포할 수 있습니다.

ChatKit를 이용한 에이전트식 채팅 경험 임베딩

에이전트용 채팅 UI를 배포하는 것은 무척 복잡한 일입니다. 스트리밍 응답을 처리하고, 스레드를 관리하고, 모델의 사고 과정을 표시하고, 몰입시키는 채팅 경험을 설계해야 합니다. ChatKit는 제품과 자연스럽게 어울리는 채팅 기반 에이전트를 임베딩하는 작업을 수월하게 만듭니다. 앱 또는 웹사이트에 임베딩할 수 있으며 자체 테마나 브랜드에 맞춤화할 수 있습니다.

“ChatKit를 이용해 Canva 개발자 커뮤니티를 위한 지원 에이전트를 구축하는 데 2주 이상의 시간을 절약했으며, 1시간도 안 되어 통합을 완료했습니다. 이 지원 에이전트는 개발자가 문서와 상호작용하는 방식을 대화형 경험으로 바꾸어 놓아, Canva에서 앱과 통합 기능을 쉽게 구축할 수 있도록 함으로써 완전히 변화시킬 것입니다.”

— Canva

ChatKit는 내부 지식 지원 및 온보딩 지원부터 고객 지원과 리서치 에이전트까지, 이미 다양한 사용 사례를 지원했습니다. HubSpot⁠(새 창에서 열기)의 고객 지원 에이전트가 그 사례 중 하나입니다.

비용 관리 인터페이스를 보여주는 Ramp 플랫폼 대시보드 뷰. 사용자 Daniel을 환영하는 메인 패널과 ‘ChatGPT Business에 대한 요청(검토 보류), ‘HubSpot에 대한 요청’(초안) 등의 요청과 함께 항공사, 차량 공유, 소프트웨어에 대한 최근 비용이 나열된 목록. 오른쪽에는 ChatGPT Business를 위한 소프트웨어 요청 양식이 열려 있고, 2025년 10월 1일부터 2026년 10월 1일까지 매달 125달러의 5개 계정에 대한 세부 내용과 노란색의 ‘요청 제출’ 버튼이 표시되어 있음.

새로운 평가 기능으로 에이전트 성능 측정

프로덕션에 바로 사용할 수 있는 안정적인 에이전트를 구축하려면 엄격한 성능 평가가 필요합니다. 작년, OpenAI는 개발자가 프롬프트를 테스트하고 모델 행위를 측정하는 것을 돕기 위해 평가⁠(새 창에서 열기)를 공개했습니다. 이제 더 쉽게 평가를 구축하는 데 도움이 되는 네 가지 새로운 기능이 추가되었습니다.

데이터세트 - 에이전트 평가를 처음부터 신속하게 구축하고 시간 경과에 따라 자동화된 채점기와 사람의 주석을 이용해 확장합니다.
트레이스 채점 - 에이전트 워크플로의 엔드 투 엔드 평가를 실행하고 채점을 자동화하여 부족한 점을 정확히 찾아냅니다.
자동화된 프롬프트 최적화 - 채점기 결과 및 사람의 주석을 기반으로 개선된 프롬프트를 생성합니다.
서드파티 모델 지원 - OpenAI 평가 플랫폼 내에서 다른 제공업체의 모델을 평가합니다.

이미 평가를 사용한 고객의 주요한 성능 향상을 확인했습니다.

"이 평가 플랫폼 덕분에 저희의 멀티 에이전트 실사 프레임워크 개발 시간이 50% 이상 단축되었고, 에이전트 정확도가 30% 향상했습니다."

— Carlyle

평가, 어조, 피드백, 정확도 열이 있는 데이터세트 테이블을 보여주는 인터페이스. 만족 또는 불만족 아이콘, 전문적, 친근함, 무례함, 나쁨과 같은 어조 태그, 그리고 3.5점과 함께 합격 또는 불합격으로 표시된 정확도 결과를 나타낸 행. 업로드, 열, 점수, 결과 생성, 저장 등의 옵션을 포함한 상단 툴바.

강화 파인 튜닝으로 에이전트 성능 증대

강화 파인 튜닝⁠(새 창에서 열기)(RFT)을 사용하면 개발자는 OpenAI의 추론 모델을 맞춤화할 수 있습니다. OpenAI o4-mini에서 일반적으로 사용할 수 있으며 GPT‑5의 경우는 비공개 베타 버전으로 사용할 수 있습니다. 더 광범위하게 출시하기 전에 GPT‑5의 RFT를 개선할 수 있도록 수십 곳의 고객과 긴밀하게 협력하고 있습니다.

오늘, 에이전트의 성능을 훨씬 증대하기 위해 설계된 RFT 베타 내의 두 가지 새로운 기능을 소개합니다.