Genspark tung ra các tác nhân cá nhân không cần lập trình dựa trên GPT‑4.1 và API thời gian thực của OpenAI
Và đạt mốc doanh thu định kỳ hàng năm 36 triệu USD chỉ sau 45 ngày với một đội ngũ gồm 20 người.

Genspark(mở trong cửa sổ mới) là công ty đứng sau Super Agent, một tác nhân AI không cần lập trình, có thể tùy chỉnh, giúp người dùng tự động hóa các tác vụ trong thế giới thực như gọi điện thoại, tạo bản trình bày hoặc biến một công thức nấu ăn thành video ngắn.
Super Agent sử dụng các mô hình đa phương thức của OpenAI kết hợp với API thời gian thực để thực hiện các tác vụ liên quan đến văn bản, hình ảnh và giọng nói, giúp người dùng tự động hóa các quy trình phức tạp chỉ bằng các câu lệnh đơn giản mà không cần lập trình. Hệ thống đã bùng nổ: chỉ sau 45 ngày, Super Agent đạt mức doanh thu định kỳ hàng năm 36 triệu USD,
được thúc đẩy bởi nhu cầu mạnh mẽ từ người dùng.
“OpenAI đã hỗ trợ Genspark ngay từ những ngày đầu tiên. Các API của OpenAI không chỉ hỗ trợ các mô hình của chúng tôi mà còn giúp đội ngũ 20 người của chúng tôi xây dựng, ra mắt và mở rộng quy mô nhanh hơn bất kỳ ai có thể tưởng tượng.”
Genspark ban đầu được ra mắt dưới dạng công cụ tìm kiếm AI, giúp người tiêu dùng và chuyên gia tổng hợp và cấu trúc thông tin. Đến cuối năm 2024, hành vi người dùng bắt đầu thay đổi. Người dùng không chỉ muốn có câu trả lời. Họ muốn nhận được kết quả. Thay vì yêu cầu “tóm tắt thị trường này,” khách hàng bắt đầu đòi hỏi bản trình bày gọi vốn, kịch bản video và email theo dõi. Cùng lúc đó, năng lực của các mô hình cũng mở rộng nhanh chóng. Khối lượng nội dung lớn hơn, khả năng suy luận mạnh hơn cùng với các API đa phương thức mới giúp việc tự động hóa toàn bộ quy trình làm việc ngày càng trở nên khả thi chứ không chỉ dừng lại ở việc truy xuất thông tin.
Chính sự thay đổi trong nhu cầu người dùng và sự sẵn sàng của mô hình đã thúc đẩy đội ngũ đưa ra một quyết định táo bạo: vào tháng 4 năm 2025, Genspark chuyển hướng hoàn toàn khỏi mô hình tìm kiếm và chính thức đặt cược vào AI dạng tác nhân.
Tháng 4 năm 2025, Genspark ra mắt Super Agent: một trợ lý hoàn toàn tự động, không cần lập trình, có thể thực hiện các tác vụ như gọi điện thoại, thiết kế slide, tạo video và nhiều hơn thế nữa. Phía sau hệ thống là một nền tảng phối hợp phức tạp giữa 9 mô hình ngôn ngữ lớn chuyên biệt và hơn 80 công cụ tích hợp, giúp tự động phân công từng tác vụ cho thành phần phù hợp nhất.
Các mô hình của OpenAI đóng vai trò chủ chốt trong hệ thống này. GPT‑4.1 đảm nhận các tác vụ nghiên cứu và tạo đầu ra có cấu trúc với khả năng tuân thủ hướng dẫn được cải thiện và khối lượng nội dung lên đến 1 triệu token, giúp các tác nhân xử lý toàn bộ tài liệu dài mà không bị cắt ngắn. Đầu ra JSON nghiêm ngặt được thiết kế nhằm đảm bảo phản hồi có cấu trúc ổn định cho các công cụ phía sau, trong khi cơ chế tự động lưu lời nhắc vào bộ nhớ đệm giúp giảm độ trễ và chi phí API, đặc biệt hữu ích trong các quy trình làm việc nhiều bước. Đối với việc tạo sinh ảnh, nền tảng sử dụng mô hình GPT‑image‑1 thông qua API của OpenAI.
Vì hệ thống hoàn toàn không yêu cầu lập trình, người dùng không cần bận tâm đến bất kỳ yếu tố kỹ thuật nào. Người dùng chỉ cần mô tả điều mình muốn, “gọi cho nha sĩ của tôi,” “tóm tắt báo cáo này,” “tạo cho tôi một bản thuyết trình,” và Super Agent sẽ lo toàn bộ phần còn lại.
See how Super Agent creates AI-powered slides, sheets, and phone calls using simple prompts, no code required.
Một trong những tính năng được nhắc đến nhiều nhất của Super Agent là Call For Me, một AI có thể thực hiện các cuộc gọi điện thoại thật thay cho bạn và trò chuyện như người thật. Không cần kịch bản. Không còn những cuộc chuyển máy rườm rà. Dù là đặt chỗ hay dời lịch giao hàng, tác nhân sử dụng API thời gian thực của OpenAI và tính năng chuyển đổi giọng nói để xử lý cuộc hội thoại một cách tự nhiên và trôi chảy theo thời gian thực.
Hệ thống hoạt động dựa trên cấu trúc hai lớp: API thời gian thực xử lý phần đối thoại trực tiếp, trong khi một mô hình song song ngầm giám sát và điều hướng tương tác thông qua hàng chờ tin nhắn. Kết quả là các cuộc đối thoại diễn ra nhanh chóng, mạch lạc, ngay cả khi cuộc gọi bị chen ngang bởi nhạc chờ hoặc phản hồi mơ hồ từ đối phương. Tại Nhật Bản, một tình huống sử dụng đã lan truyền mạnh mẽ: người dùng nhờ tác nhân thực hiện các cuộc gọi xin nghỉ việc với sếp của mình. Đây là kiểu tương tác đậm chất con người mà hầu hết mọi người không nghĩ một tác nhân AI có thể xử lý.
Không chỉ dừng lại ở gọi điện, người dùng còn dựa vào Super Agent để tạo nội dung được cá nhân hóa. Bạn chỉ cần yêu cầu một bản trình bày theo phong cách vaporwave, tác nhân sẽ phác thảo nội dung từng slide, tạo ảnh bìa mang phong cách riêng bằng GPT‑image‑1 và biên soạn thành một bản trình bày hoàn chỉnh. Đối với video, tác nhân có thể viết kịch bản từng cảnh, tạo hình ảnh cho mỗi đoạn và dựng thành một video ngắn sẵn sàng đăng lên Instagram.
Những tình huống sử dụng này trở nên khả thi là nhờ vào khả năng đa phương thức của OpenAI, tốc độ triển khai của Genspark và sự hợp tác chặt chẽ với nhóm khởi nghiệp của OpenAI. Genspark đã thường xuyên làm việc với các kiến trúc sư giải pháp của OpenAI để chia sẻ các phương pháp tốt nhất, tinh chỉnh quy trình và tối ưu hiệu suất mô hình. Genspark là một trong những đội ngũ đầu tiên ra mắt trải nghiệm thoại sử dụng API thời gian thực và vẫn đang tiếp tục đóng góp phản hồi giúp cải thiện các mô hình.
“Chúng tôi chọn OpenAI không chỉ vì hiệu năng mô hình trên nhiều phương thức, mà còn vì trải nghiệm dành cho lập trình viên,” ông Zhu chia sẻ. “Thiết kế API của OpenAI giúp chúng tôi phát triển nhanh chóng, triển khai, gỡ lỗi và mở rộng quy mô mà không gặp tắc nghẽn.”

Chỉ trong hơn một tháng sau khi ra mắt Super Agent, Genspark đã:
- Đạt 36 triệu USD doanh thu định kỳ hàng năm (ARR) chỉ sau 45 ngày
- Ra mắt 8 tính năng lớn cho tác nhân AI chỉ trong 70 ngày
Tất cả những kết quả này đạt được với đội ngũ chỉ gồm 20 người và không hề chạy quảng cáo trả phí. Sự tăng trưởng này hoàn toàn đến từ tính lan truyền tự nhiên của sản phẩm và hiệu ứng truyền miệng. Phần lớn sức hút của Super Agent đến từ khả năng tiếp cận dễ dàng. Người dùng không cần tự xây dựng quy trình làm việc hay định cấu hình cài đặt. Người dùng chỉ cần nói điều mình cần và tác nhân sẽ lo phần còn lại.
Tiếp theo, Genspark đang mở rộng sang các lĩnh vực mới, nơi tác nhân tự động có thể tạo ra nhiều giá trị hơn nữa chẳng hạn như trình duyệt AI có khả năng hành động dựa trên mọi nội dung bạn đang xem và AI cho tài liệu, hỗ trợ tạo tài liệu dưới nhiều định dạng. Các API của OpenAI vẫn là nền tảng cốt lõi giúp đội ngũ phát triển và triển khai sản phẩm với tốc độ vượt trội.
“Chúng tôi xây dựng Genspark không chỉ là một giao diện trò chuyện mà còn là một không gian làm việc AI tất cả trong một,” ông Zhu cho biết. “Và nhờ các API của OpenAI, chúng tôi đã hiện thực hóa điều đó trong thời gian kỷ lục.”


