2025년 7월 1일

Genspark, GPT‑4.1과 OpenAI Realtime API로 노코드 개인 에이전트를 선사하다

단 45일 만에 20인 팀으로 3,600만 달러의 연간 반복 수익을 달성하는 기록을 세우다.

로딩 중...

Genspark⁠(새 창에서 열기)은 노코드 방식의 맞춤 설정 가능한 AI 에이전트인 Super Agent를 개발한 회사로, Super Agent는 전화를 걸거나, 프레젠테이션을 생성하거나, 레시피를 짧은 영상으로 변환하는 등 사용자가 실제 작업을 자동화할 수 있도록 지원합니다.

Super Agent는 OpenAI 멀티 모달 모델과 Realtime API를 사용하여 텍스트, 이미지, 음성 전반에서 작업을 수행해 사용자가 복잡한 워크플로를 코딩 없이도 간단한 프롬프트만으로 자동화할 수 있도록 지원합니다. 단 45일 만에 엄청난 호응을 얻은 Super Agent는 높은 사용자 수요에 힘입어 3,600만 달러의 연간 반복 수익을 달성했습니다.

"OpenAI는 첫 시작부터 Genspark를 지원해 왔습니다. OpenAI의 API는 단지 우리 모델을 구동하는 것이 아니라, 20명으로 구성된 우리 팀이 누구보다 빠르게 구축하고, 출시하고, 확장하는 데 도움을 주었습니다."

Kay Zhu, Genspark CTO 겸 공동 창립자

검색을 넘어 에이전트로 나아가다

Genspark는 처음에는 소비자와 전문가들이 정보를 종합하고 구조화하는 데 도움을 주도록 설계된 AI 검색 엔진으로 출시되었습니다. 2024년 말부터 사용자 행동이 변화하기 시작했습니다. 사용자들은 단순히 답변만을 원하지 않았죠. 눈에 보이는 결과를 원했습니다. 사용자들은 “이 시장을 요약해 줘”라고 말하는 대신 피칭 덱, 동영상 스크립트, 그리고 후속 이메일 등을 요구하기 시작했습니다. 이와 동시에 모델 기능도 빠르게 확장되고 있었습니다. 더 길어진 컨텍스트 윈도우, 더 강력한 추론, 그리고 새로운 멀티 모달 API를 통해 단순히 정보를 검색하는 것뿐만 아니라 작업 흐름 전체를 자동화하는 것이 점점 가능해졌습니다.

사용자의 수요와 모델 준비 상태의 변화로 인해 회사에서는 과감한 결정을 내렸습니다. 2025년 4월, Genspark는 검색에서 벗어나 에이전틱 AI를 완전히 수용했습니다.

2025년 4월, Genspark는 전화를 걸고, 슬라이드를 디자인하고, 영상을 생성하는 등 작업을 수행할 수 있는 완전 자율적인 노코드 어시스턴트인 Super Agent를 출시했습니다. 이 플랫폼은 내부적으로 9개의 전문화된 대규모 언어 모델과 80개 이상의 통합 도구를 조율하며, 각 작업을 가장 적합한 구성 요소에 동적으로 할당합니다.

OpenAI 모델들이 이 시스템의 중심입니다. GPT‑4.1은 향상된 지시 준수 능력과 100만 토큰 컨텍스트 윈도우를 갖춰 리서치 및 구조화된 출력을 처리하여, 에이전트가 긴 문서 전체를 잘림 없이 프로세싱할 수 있도록 합니다. 엄격한 JSON 출력은 후속 도구에 대해 신뢰할 수 있게 구조화된 응답을 보장하도록 설계되었으며, 자동 프롬프트 캐싱은 특히 다단계 워크플로에서 레이턴시를 줄이고 API 비용을 절감하는 데 특히 유용합니다. 이미지 생성을 위해서는 OpenAI API를 통해 GPT‑image‑1 모델을 사용합니다.

완전히 노코드 방식이기 때문에 사용자들이 코딩에 대해서 신경 쓸 필요는 전혀 없습니다. “치과에 전화해 줘”, “이 보고서를 요약해 줘”, “슬라이드 덱을 만들어 줘”, 그러면 Super Agent가 나머지를 처리합니다.

See how Super Agent creates AI-powered slides, sheets, and phone calls using simple prompts, no code required.

AI를 활용하여 사직 통보 전화를 처리하다

Super Agent에서 가장 많이 언급된 기능 중 하나는 실제로 대신 전화를 걸어주고 실제 대화를 나누는 AI인 Call For Me입니다. 스크립트가 필요하지 않고, 부자연스럽게 넘어가지 않습니다. 예약을 하든 배송 일정을 재조정하든, 에이전트가 OpenAI Realtime API와 음성-음성 변환(speech-to-speech) 기능을 사용하여 대화를 자연스럽고 실시간으로 유창하게 처리합니다.

상호 작용은 이중 계층 시스템으로 구동됩니다. Realtime API는 실시간 대화를 관리하며, 섀도우 모델은 메시지 대기열을 통해 상호 작용을 모니터링하고 안내합니다. 통화에 대기 음악이나 사람의 모호한 반응이 포함되어 있을 때도 결과가 빠르며, 일관된 상호작용을 보여줍니다. 일본에서는 한 사례가 화제가 되었습니다. 사용자들이 에이전트에게 고용주에게 사직 전화를 대신 걸어달라고 요청하는 경우였습니다. 이는 깊이 있는 인간적 상호작용으로, 대부분의 사람들은 AI 에이전트가 이를 처리할 수 있을 것으로 기대하지 않습니다.

사용자들은 전화 통화를 넘어 Super Agent를 활용하여 개인화된 콘텐츠를 생성합니다. 베이퍼웨이브 스타일의 피칭 덱을 요청하면, 에이전트는 슬라이드 초안을 작성하고, GPT‑image‑1으로 양식화된 커버 이미지를 생성하고, 최종 덱을 편집합니다. 영상의 경우, 장면별 스크립트를 작성하고, 이미지를 생성하고, Instagram에 적합한 짧은 영상을 편집할 수 있습니다.

이러한 사례들은 OpenAI의 멀티 모달 기능, Genspark의 실행 속도, 그리고 OpenAI 스타트업 팀과의 긴밀한 협력을 통해 가능하게 되었습니다. Genspark는 모범 사례를 공유하고, 워크플로를 파인 튜닝하고, 모델 성능을 최적화하기 위해 OpenAI 솔루션 아키텍트와 정기적으로 만났습니다. 이들은 Realtime API를 활용하여 음성 경험을 처음으로 출시한 팀 중 하나였으며, 모델 개선을 추진하는 데 도움이 되는 피드백을 계속 제공하고 있습니다.

“우리는 모달리티 전반에 걸친 모델 성능뿐만 아니라 개발자 경험 때문에 OpenAI를 선택했습니다.”라고 Zhu는 말했습니다. “OpenAI API 설계 덕분에 병목 현상 없이 신속하게 나아가고, 제품을 출시하고 디버깅하고 확장할 수 있었습니다.”

UI from Genspark's Super Agent, displaying the product's ability to generate a detailed report and slide deck based on a user's prompt

기록적인 성장, 유료 마케팅 제로

Super Agent를 출시한 지 약 한 달 만에 Genspark는 다음과 같은 성과를 얻었습니다.

단 45일 만에 3,600만 달러의 연간 반복 수익
70일 동안 8가지 주요 에이전트 기능 출시

이 모든 것을 20명의 팀원과 유료 광고 없이 달성했습니다. 이러한 성장은 제품 바이럴과 입소문을 통해 완전히 자연스럽게 이루어졌습니다. Super Agent의 매력의 대부분은 접근성에서 비롯됩니다. 사용자는 워크플로를 구축하거나 설정을 구성할 필요가 없습니다. 그저 필요한 것을 말하면 에이전트가 나머지를 처리합니다.

OpenAI로 에이전트 AI를 더욱 발전시키다

다음으로 Genspark는 사용자가 탐색하는 모든 콘텐츠에 대해 작동하는 AI 브라우저나 형식이 풍부한 문서를 생성하기 위한 AI 문서 등, 자율 에이전트가 더 많은 가치를 창출할 수 있는 새로운 카테고리로 확장하고 있습니다. OpenAI API는 팀이 빠르게 구축하고 더 빠르게 출시할 수 있는 이유의 핵심입니다.

“우리는 Genspark를 단순히 채팅 인터페이스 이상의 올인원 AI 워크스페이스로 구축했습니다.”라고 Zhu는 말했습니다. “그리고 OpenAI API를 활용하여 이를 기록적인 시간 안에 실현할 수 있었습니다.”