8 જાન્યુઆરી, 2026

Netomi પાસેથી enterpriseમાં agentic systems સ્કેલ કરવાની શીખ

OpenAI GPT‑4.1 અને GPT‑5.2 સાથે બનેલું, Netomi enterpriseમાં સલામત, અનુમાનનીય agentic systems સ્કેલ કરવા માટેનું બ્લૂપ્રિન્ટ આપે છે.

સેલ્સ ટીમનો સંપર્ક કરો

કંપનીનું કદ: સ્ટાર્ટઅપ

પ્રદેશ: ઉત્તર અમેરિકા

ઉદ્યોગ: ટેકનોલોજી

પ્રોડક્ટ્સ: API

લોડિંગ…

Enterprise ગ્રાહકો અપેક્ષા રાખે છે કે AI એજન્ટ ગૂંચવાયેલા workflowsને વિશ્વસનીય રીતે સંભાળે, ડિફૉલ્ટથી policiesનું પાલન કરે, ભારે લોડમાં કાર્ય કરે અને પોતાનું કામ બતાવે.

Netomi⁠⁠(નવી વિન્ડોમાં ખૂલે છે) આવા ઊંચા ધોરણોને પૂર્ણ કરતી systems બનાવે છે, અને United Airlines તથા DraftKings જેવા Fortune 500 ગ્રાહકોને સેવા આપે છે. તેમનો platform GPT‑4.1ને low-latency, વિશ્વસનીય tool use માટે અને GPT‑5.2ને વધુ ઊંડા, multi-step planning માટે જોડે છે, અને બન્નેને governed execution layerની અંદર ચલાવે છે, જે model-driven actionsને વાસ્તવિક production પરિસ્થિતિઓમાં અનુમાનનીય રાખવા માટે બનાવાયો છે.

આ સ્કેલ પર agentic systems ચલાવવાથી Netomiને enterpriseની અંદર આવી deploymentsને સફળ બનાવતું શું છે તેની સ્પષ્ટ રૂપરેખા મળી છે.

“અમારું લક્ષ્ય એ હતું કે માનવી એજન્ટ સામાન્ય રીતે સંભાળતી ઘણી systemsનું orchestration કરીએ અને તે મશીનની ઝડપે સુરક્ષિત રીતે કરીએ.”

Puneet Mehta, CEO

પાઠ 1: આદર્શ પ્રવાહો માટે નહીં, વાસ્તવિક જટિલતા માટે બનાવો

એક enterprise વિનંતી ભાગ્યે જ એક જ API સાથે મેળ ખાતી હોય છે. વાસ્તવિક workflowsમાં booking engines, loyalty databases, CRM systems, policy logic, payments અને knowledge sources સામેલ હોય છે. ડેટા ઘણી વખત અધૂરો, વિસંગત અથવા સમય-સંવેદનશીલ હોય છે. નાજુક flows પર આધારિત systems આ ફેરફાર હેઠળ તૂટી પડે છે.

Netomiએ પોતાનું Agentic OS આમ ડિઝાઇન કર્યું કે OpenAI મોડલ્સ ambiguityના આ સ્તર માટે બનાવેલી governed orchestration pipelineના કેન્દ્રમાં રહે. પ્લેટફોર્મ GPT‑4.1નો ઉપયોગ ઝડપી, વિશ્વસનીય રિઝનિંગ અને tool-calling માટે કરે છે—જે real-time workflows માટે મહત્વપૂર્ણ છે—અને GPT‑5.2નો ઉપયોગ multi-step planning અથવા વધુ ઊંડા રિઝનિંગની જરૂર પડે ત્યારે કરે છે.

લાંબા, જટિલ કાર્યોમાં એજન્ટનું વર્તન સતત રહે તે માટે Netomi OpenAI દ્વારા ભલામણ કરાયેલા agentic prompting patterns અનુસરે છે.

Persistence reminders જેથી GPT‑5.2 લાંબા, multi-step workflowsમાં રિઝનિંગ આગળ લઈ જઈ શકે
Explicit tool-use expectations, transactional operations દરમિયાન અધિકૃત માહિતી માટે GPT‑4.1ને tools call કરવા દોરી hallucinated answers દબાવે છે
Structured planning, જે GPT‑5.2ના વધુ ઊંડા રિઝનિંગથી multi-step tasksની રૂપરેખા બનાવી અમલમાં મૂકે છે
Agent-driven rich media decisions, જેમાં GPT‑5.2 એ શોધે છે અને સૂચવે છે કે tool callએ images, videos, forms અથવા અન્ય rich, multimodal elements પરત આપવા જોઈએ કે નહીં

એક સાથે, આ patterns modelને અસંચરચિત requestsને વિશ્વસનીય રીતે multi-step workflows સાથે મેળ કરવા અને તૂટક interactions દરમિયાન state જાળવવામાં મદદ કરે છે.

કેટલાક ઉદ્યોગોમાં airlines જેટલી સ્પષ્ટ રીતે multi-step રિઝનિંગની જરૂર દેખાતી નથી, જ્યાં એક interaction સામાન્ય રીતે અનેક systems અને policy layersમાં ફેલાય છે. એક જ પ્રશ્ન માટે fare rules ચકાસવા, loyalty benefits ફરી ગણવા, ticket changes શરૂ કરવા અને flight operations સાથે સંકલન કરવાની જરૂર પડી શકે છે.

“એરલાઇન્સમાં, context દર મિનિટે બદલાય છે. AIએ ગ્રાહક જે પરિસ્થિતિમાં છે તેના વિશે રિઝનિંગ કરવું પડે—માત્ર અલગ પડેલ કાર્ય ચલાવવું નહીં,” Mehtaએ કહ્યું. “એટલે situational awareness માત્ર workflows કરતાં ઘણું વધુ મહત્વનું છે, અને context-led ensemble architecture અનિવાર્ય છે.”

GPT‑4.1 અને GPT‑5.2 સાથે, Netomi હવે આ patternsને વધુ સમૃદ્ધ multi-step automations સુધી વિસ્તારી શકે છે—મોડલ્સનો ઉપયોગ માત્ર પ્રશ્નોના જવાબ માટે નહીં, પણ tasks plan કરવા, actions sequence કરવા અને મોટી airline આધારિત backend systemsનું સંકલન કરવા માટે.

પાઠ 2: enterprise latency અપેક્ષાઓ માટે બધું parallelize કરો

ઉચ્ચ દબાણની ક્ષણોમાં—વાદળછાયા તોફાન દરમિયાન rebooking, billing issue ઉકેલવી, અથવા માંગમાં અચાનક વધારાને સંભાળવો—વપરાશકર્તાઓ કોઈપણ હચકાયેલી system છોડી દેશે. Latency વિશ્વાસ નક્કી કરે છે.

મોટાભાગની AI systems નિષ્ફળ જાય છે કારણ કે તે tasksને ક્રમે ચલાવે છે: classify → retrieve → validate → call tools → generate output. Netomiએ તેની સામે concurrency માટે design કર્યું છે, GPT‑4.1ની low-latency streaming અને સ્થિર tool-callingનો લાભ લઈને.

GPT‑4.1 ઝડપી time-to-first-token અને અનુમાનનીય tool-calling વર્તન આપે છે, જે આ architectureને સ્કેલ પર કાર્યક્ષમ બનાવે છે. જ્યારે જરૂર પડે ત્યારે GPT‑5.2 વધુ ઊંડા multi-step રિઝનિંગ paths આપે છે. Netomiનું concurrency framework ખાતરી કરે છે કે માત્ર મોડલ નહીં, પણ આખી system મહત્વપૂર્ણ latency thresholdsની અંદર રહે.

આ concurrency માંગો માત્ર airlines સુધી મર્યાદિત નથી. કોઈપણ એવી system જેને અચાનક, અત્યંત traffic surgesનો સામનો કરવો પડે તેને આ જ architectural disciplineની જરૂર છે. ઉદાહરણ તરીકે, DraftKingsમાં મોટા sporting events દરમિયાન traffic નિયમિત રીતે 40,000થી વધુ concurrent customer requests પ્રતિ સેકન્ડ સુધી પહોંચી જાય છે.

આવા events દરમિયાન, Netomiએ 98% intent classification accuracy સાથે ત્રણ સેકન્ડથી ઓછી response time જાળવી રાખી છે, ભલે workflows accounts, payments, knowledge lookups અને regulatory checksને સ્પર્શતા હોય.

“જેઓ પળો સૌથી વધુ મહત્વની હોય છે, તેમાં અમે ગ્રાહકોને કેવી રીતે support કરીએ તેમાં AI કેન્દ્રસ્થ અને અત્યંત મહત્વપૂર્ણ છે,” DraftKingsના Co-Founder અને President of Operations Paul Libermanએ કહ્યું. “Netomiનું platform અમને activityમાં ભારે spikesને agility અને precision સાથે handle કરવામાં મદદ કરે છે.”

સ્કેલ પર, Netomiનું concurrency model GPT‑4.1ની ઝડપી, અનુમાનનીય tool-calling પર આધાર રાખે છે, જે ભારે load હેઠળ multi-step workflowsને responsive રાખે છે.

પાઠ 3: governanceને runtimeનો મૂળભૂત ભાગ બનાવો

Enterprise AI વિશ્વાસપાત્ર હોવું ડિઝાઇનથી જ જરૂરી છે, જેમાં governance runtimeમાં સીધું જ વણાયેલું હોય—બહારની layer તરીકે ઉમેરાયેલું નહીં.

જ્યારે intent confidence thresholdથી નીચે જાય, અથવા requestને ઊંચી નિશ્ચિતતા સાથે classify ન કરી શકાય, ત્યારે Netomiના governance mechanisms નક્કી કરે છે કે request કેવી રીતે handle કરવી, જેથી system free-form generationથી પાછળ હટી controlled execution paths પસંદ કરે.

ટેક્નિકલ સ્તરે, governance layer આ બાબતો સંભાળે છે.

Schema validation, જે execution પહેલાં દરેક tool callને અપેક્ષિત arguments અને OpenAPI contracts સામે validate કરે છે
Policy enforcement જે રિઝનિંગ અને tool use દરમિયાન inline topic filters, brand restrictions અને compliance checks લાગુ કરે છે
PII protection જે pre-processing અને response handlingના ભાગરૂપે sensitive data શોધે છે અને mask કરે છે
Deterministic fallback, જ્યાં intent, data અથવા tool calls અસ્પષ્ટ હોય ત્યારે જાણીતા સુરક્ષિત વર્તન તરફ પાછું મોકલે છે
Runtime observability, જે real-time inspection અને debugging માટે token traces, reasoning steps અને tool-chain logs ઉપલબ્ધ કરાવે છે

Dental insurance જેવા ભારે નિયમન ધરાવતા ક્ષેત્રોમાં, આ પ્રકારનું governance અચૂક જરૂરી છે. વીમા ઉદ્યોગમાં Netomiનો એક ગ્રાહક દર વર્ષે તમામ 50 statesમાં મળીને લગભગ 20 લાખ provider requests process કરે છે, જેમાં eligibility checks, benefits lookups અને claim status inquiries સામેલ છે, જ્યાં એક જ ખોટો જવાબ આગળ નિયમનકારી અથવા સેવા જોખમ ઊભું કરી શકે છે.

Open enrollment દરમિયાન, જ્યારે scrutiny અને volume બંને ઊંચા હતા, ત્યારે કંપનીને એવું AI જોઈએ હતું જે runtimeનો જ ભાગ બની policy enforce કરે. Netomiની architecture આ જટિલ જરૂરિયાત માટે યોગ્ય સાબિત થઈ.

“અમે systemને એમ બનાવ્યું છે કે જો એજન્ટ ક્યારેય અનિશ્ચિતતા સુધી પહોંચે, તો તેને ખબર હોય કે સુરક્ષિત રીતે કેવી રીતે પાછળ હટવું,” Mehtaએ કહ્યું. “Governance ઉપરથી જોડેલું નથી—તે runtimeનો જ ભાગ છે.”

Enterprise માટે કાર્ય કરતી agentic systems બનાવવા માટેનું બ્લૂપ્રિન્ટ

Netomiનો માર્ગ બતાવે છે કે enterprise trust મેળવવા શું જોઈએ: જટિલતા માટે build કરો, latency માંગો પૂરી કરવા parallelize કરો અને દરેક workflowમાં governanceને બેક કરો. OpenAI મોડલ્સ reasoning backbone બનાવે છે, જ્યારે Netomiની systems engineering ખાતરી કરે છે કે intelligence કાર્યરત રીતે સુરક્ષિત, audit કરી શકાય તેવી અને Fortune 500 environments માટે તૈયાર રહે.

આ સિદ્ધાંતોએ Netomiને વિશ્વના કેટલાક સૌથી માંગવાળા ઉદ્યોગોમાં સ્કેલ કરવામાં મદદ કરી—અને agentic AIને production-grade infrastructureમાં ફેરવવા ઇચ્છતા કોઈપણ startup માટે બ્લૂપ્રિન્ટ આપે છે.

ઝલકમાં પરિણામો

Fortune 500 environmentsની અંદર agentic systems deploy કરવા માટે speed, accuracy અને built-in governance જરૂરી છે. Netomiની architecture આ ત્રણેય આપે છે, અને અત્યંત traffic surges તથા જટિલ multi-step workflows દરમિયાન પણ performance જાળવે છે.

ઉચ્ચ-traffic events દરમિયાન ત્રણ સેકન્ડથી ઓછી responses આપી
સ્કેલ પર 98% intent classification accuracy જાળવી
દર સેકન્ડે 40,000થી વધુ concurrent customer requestsના traffic spikes સંભાળ્યા
Deterministic fallback અને policy enforcement સાથે governance સીધું runtimeમાં embed કર્યું

OpenAI <3 સ્ટાર્ટઅપ્સ

સમુદાયમાં જોડાઓ બનાવવાનું શરૂ કરો

વાંચતા રહો

GPT 5.6 સાથે કિંમત-પ્રદર્શનની સીમા આગળ ધપાવવી

પ્રોડક્ટ30 જુલાઈ, 2026

How avatarin built a 24/7 retail agent with GPT-Realtime

30 જુલાઈ, 2026

બે સેટિંગ ચાલુ કરવાથી ARC-AGI-3 માપદંડ પર અમારા ગુણ ત્રણ ગણા કેવી રીતે થયા

સંશોધન29 જુલાઈ, 2026