Fara beint í aðalefni
OpenAI

11. mars 2026

Verkfræði

Frá líkani til fulltrúa: Að útbúa Responses API með tölvuumhverfi

Eftir Bo Xu, Danny Zhang og Rohit Arunachalam

Hleður inn...

Við erum núna að færast frá því að nota líkön, sem skara fram úr í tilteknum verkefnum, yfir í að nota fulltrúa sem geta tekist á við flókin vinnuflæði. Með því að kveða líkön geturðu aðeins fengið aðgang að þjálfaðri gervigreind. Hins vegar getur það að gefa líkaninu tölvuumhverfi náð mun víðara sviði notkunartilvika, eins og að keyra þjónustur, biðja um gögn frá API eða búa til gagnlegri afurðir eins og töflureikna eða skýrslur.

Nokkur hagnýt vandamál koma upp þegar þú reynir að byggja fulltrúa: hvar á að setja milliskrár, hvernig á að forðast að líma stórar töflur inn í kvaðningu, hvernig á að veita verkflæðinu netaðgang án þess að skapa öryggishöfuðverk, og hvernig á að meðhöndla tímamörk og endurtilraunir án þess að smíða verkflæðiskerfi sjálf(ur).

Í stað þess að láta það vera á herðum forritara að byggja sín eigin keyrsluumhverfi, byggðum við nauðsynlega íhluti til að útbúa Responses API(opnast í nýjum glugga) með tölvuumhverfi til að framkvæma raunveruleg verkefni á áreiðanlegan hátt.

Responses API frá OpenAI, ásamt skeljarverkfærinu og hýstu vinnusvæði í geymslu, er hannað til að takast á við þessi hagnýtu vandamál. Líkanið leggur til skref og skipanir; verkvangurinn keyrir þær í einangruðu umhverfi með skráakerfi fyrir inntak og frálag, valfrjálsri uppbyggðri geymslu (eins og SQLite) og takmörkuðum netaðgangi. 

Í þessari færslu munum við útskýra hvernig við byggðum tölvuumhverfi fyrir fulltrúa og deila nokkrum fyrstu lexíum um hvernig á að nota það fyrir hraðari, endurtekningarhæfari og öruggari framleiðsluvinnuflæði.

Skeljaverkfærið

Gott vinnuflæði fulltrúa byrjar með þéttri framkvæmdarlykkju: líkanið leggur til aðgerð eins og að lesa skrár eða sækja gögn með API, verkvangurinn keyrir hana og niðurstaðan flæðir inn í næsta skref. Við byrjum á skeljaverkfærinu—einföldustu leiðinni til að sjá þessa lykkju í verki—og förum síðan yfir vinnusvæði geymslunnar, netkerfi, endurnýtanlega færni og þjöppun samhengis.

Til að skilja skeljaverkfærið er fyrst gagnlegt að skilja hvernig tungumálalíkan notar verkfæri almennt: til að gera hluti eins og að kalla á fall eða eiga samskipti við tölvu. Á meðan á þjálfun stendur er líkani sýnd dæmi um hvernig verkfæri eru notuð og hvaða áhrif það hefur, skref fyrir skref. Þetta hjálpar líkaninu að læra að ákveða hvenær á að nota verkfæri og hvernig á að nota það. Þegar við segjum „að nota verkfæri“ meinum við að líkanið leggur í raun aðeins til verkfærakall. Það getur ekki framkvæmt kallið á eigin spýtur.

Skeljaverkfærið er „bara enn eitt verkfærið“ með skýringarmynd

Skeljaverkfærið gerir líkanið mun öflugra: það á í samskiptum við tölvu í gegnum skipanalínuna til að framkvæma fjölbreytt verkefni, allt frá því að leita að texta til þess að senda API-beiðnir á tölvunni þinni. Byggt á kunnuglegum Unix-verkfærum getur skeljaverkfærið okkar gert allt sem þú myndir búast við, með verkfærum eins og grep, curl og awk tiltækum innbyggt.

Í samanburði við núverandi kóðatúlk okkar, sem keyrir aðeins Python, gerir skeljaverkfærið kleift að styðja mun fjölbreyttari notkunartilvik, til dæmis að keyra Go- eða Java-forrit eða ræsa NodeJS-þjón. Þessi sveigjanleiki gerir líkaninu kleift að leysa flókin sjálfráð verk.

Að skipuleggja fulltrúalykkjuna

Eitt og sér getur líkan aðeins lagt til skeljaskipanir, en hvernig eru þessar skipanir framkvæmdar? Við þurfum samræmingaraðila til að fá frálag líkansins, kalla á verkfæri og senda svar verkfærisins aftur til líkansins í lykkju, þar til verkefninu er lokið.

Responses API eru það sem forritarar nota til að eiga samskipti við OpenAI-líkön. Þegar það er notað með sérsniðnum verkfærum skilar Responses API stjórninni aftur til viðskiptavinarins og viðskiptavinurinn þarf sitt eigið kerfi til að keyra verkfærin. Hins vegar getur þetta API einnig samhæft milli líkansins og hýstra verkfæra beint úr kassanum. 

Þegar Responses API fær kvaðningu setur það saman samhengi líkans: kvaðning notanda, fyrra samtalsástand og leiðbeiningar verkfæra. Til að keyrsla í skel virki verður kvaðningin að nefna að nota skeljaverkfærið and valið líkan verður að vera þjálfað til að leggja til skeljaskipanir—líkön GPT‑5.2 og síðar eru þjálfuð fyrir þetta. Með allt þetta samhengi ákveður líkanið síðan næstu aðgerð. Ef það velur skeljaframkvæmd skilar það einni eða fleiri skeljaskipunum til Responses API þjónustunnar. API-þjónustan framsendir þessar skipanir til keyrsluumhverfis geymslunnar, streymir skeljafrálagi til baka og setur það inn í samhengi næstu beiðni til líkansins. Líkanið getur síðan skoðað niðurstöðurnar, gefið út eftirfylgniskipanir eða skilað lokasvari. Responses API endurtekur þessa lykkju þar til líkanið skilar lokum án frekari skeljaskipana.

Skýringarmynd af fulltrúalykkju: Responses API samhæfir líkan og keyrslu skeljar í geymslu

Þegar Responses API keyrir skeljaskipun, heldur það streymandi tengingu við geymsluþjónustuna. Þegar frálag er framleitt miðlar API-ið því til líkansins í nær rauntíma svo líkanið geti ákveðið hvort það eigi að bíða eftir meira frálagi, keyra aðra skipun eða halda áfram í endanlegt svar.

Úttak keyrslu skipunar á straumspilun skeljar

Responses API streyma frálagi skeljarskipana

Líkanið getur lagt til margar skeljaskipanir í einu skrefi, og Responses API getur framkvæmt þær samtímis með aðskildum geymslulotum. Hver lota streymir frálagi sjálfstætt, og API-ið margfaldar þessi streymi aftur í skipulögð verkfæraúttök sem samhengi. Með öðrum orðum getur fulltrúalykkjan samhliða unnið verk, svo sem að leita í skrám, sækja gögn og staðfesta milliniðurstöður.

API viðbrögð margfaldar keyrslulotur skipana

Þegar skipunin felur í sér skráaraðgerðir eða gagnavinnslu getur frálag skelarinnar orðið mjög mikið og eytt samhengisfjárheimildum án þess að bæta við gagnlegum merkjum. Til að stjórna þessu tilgreinir líkanið úttakshámark fyrir hverja skipun. Responses API tryggir að það hámark sé virt og skilar afmörkuðum niðurstöðum sem varðveita bæði upphaf og endi úttaksins, jafnframt sem sleppt efni er merkt. Til dæmis gætirðu takmarkað frálagið við 1,000 stafi, með varðveittum upphafi og endi:

texti í upphafi ... 1000 stafir styttir ... texti í lokin

Saman gera samhliða keyrsla og afmarkað úttak fulltrúalykkjuna bæði hraða og samhengisskilvirka, þannig að líkanið geti haldið áfram að beita rökum yfir viðeigandi niðurstöðum í stað þess að verða yfirbugað af hráum annálum.

Þegar samhengisglugginn fyllist: þjöppun

Eitt hugsanlegt vandamál við fulltrúalykkjur er að verkefni geta keyrt í langan tíma. Langvarandi verkefni fylla samhengisgluggann, sem er mikilvægt til að veita samhengi milli umferða og milli fulltrúa. Ímyndaðu þér fulltrúa kalla á færni, fá svar, bæta við verkfæraköllum og rakasamantektum—takmarkaði samhengisglugginn fyllist fljótt. Til að forðast að missa mikilvægt samhengi þegar fulltrúinn heldur áfram að keyra þurfum við leið til að halda lykilatriðunum og fjarlægja allt sem er óþarft. Í stað þess að krefjast þess að forritarar hanni og viðhaldi sérsniðnum samantektar- eða ástandsbærandi kerfum, bættum við við innbyggðri þjöppun í Responses API, hannaðri til að samræmast því hvernig líkanið hegðar sér og hvernig það hefur verið þjálfað.

Nýjustu líkönin okkar eru þjálfuð til að greina fyrra ástand samtals og búa til þjöppunarhlut sem varðveitir lykilástandið í dulkóðaðri, tókaskilvirkri framsetningu. Eftir þjöppun samanstendur næsti samhengisgluggi af þessum þjöppunarhlut og verðmætum hlutum úr fyrri glugganum. Þetta gerir verkflæðum kleift að halda áfram á samfelldan hátt yfir gluggamörk, jafnvel í lengri fjölþrepa og verkfærastýrðum lotum. Codex reiðir sig á þennan búnað til að viðhalda langvarandi kóðunarverkefnum og ítrekaðri verkfærakeyrslu án þess að gæði rýrni.

Þjöppun er í boði annaðhvort innbyggð á þjóninum eða í gegnum sjálfstæðan `/compact` endapunkt. Þjöppun á netþjónshlið gerir þér kleift að stilla þröskuld, og kerfið sér sjálfkrafa um tímasetningu þjöppunar, sem útilokar þörfina á flókinni rökfræði á biðlarahlið. Það gerir kleift að hafa örlítið stærri áhrifaríkan samhengisglugga fyrir inntak til að þola smávægilegar framúrkeyrslur rétt fyrir þjöppun, þannig að beiðnir nálægt mörkunum geti samt verið unnar og þjappaðar frekar en hafnað. Eftir því sem þjálfun líkana þróast, þróast innbyggða þjöppunarlausnin með henni fyrir hverja útgáfu OpenAI-líkans.

Codex hjálpaði okkur að byggja þjöppunarkerfið á meðan það þjónaði sem snemmbúinn notandi þess. Þegar eitt Codex-tilvik lenti í þjöppunarvillu, myndum við ræsa annað tilvik til að rannsaka málið. Niðurstaðan var sú að Codex fékk innbyggt, skilvirkt þjöppunarkerfi einfaldlega með því að vinna að vandamálinu. Þessi hæfni Codex til að skoða og betrumbæta sjálft sig hefur orðið sérstaklega áhugaverður þáttur í því að starfa hjá OpenAI. Flest verkfæri krefjast þess aðeins að notandinn læri hvernig á að nota þau; Codex lærir með okkur.

Samhengi geymslu

Nú skulum við fjalla um stöðu og úrræði. Geymslan er ekki aðeins staður til að keyra skipanir heldur einnig vinnusamhengi fyrir líkanið. Inni í geymslunni getur líkanið lesið skrár, spurt gagnagrunna og fengið aðgang að ytri kerfum undir netstefnustýringum.

Skýringarmynd sem sýnir inni í keyrsluumhverfi geymslunnar: Skrár, gagnagrunna, færni og net sem er stýrt af stefnu

Skráarkerfi

Fyrsti hluti samhengis geymslu er skráakerfið fyrir skráarupphleðslur, skipulagningu og stjórnun auðlinda. Við smíðuðum geymslu- og skráa(opnast í nýjum glugga) API til að gefa líkaninu kort af tiltækum gögnum og hjálpa því að velja markvissar skráaaðgerðir í stað þess að framkvæma víðtækar, háværar skannanir.

Algengt andmynstur er að pakka öllum inntaksupplýsingum beint inn í samhengi kvaðningar. Þegar inntök stækka verður það dýrt að yfirfylla kvaðninguna og erfitt fyrir líkanið að rata um hana. Betra mynstur er að setja tilföng í bið í skráakerfi geymslunnar og láta líkanið ákveða hvað á að opna, þátta eða umbreyta með skeljaskipunum. Líkt og menn vinna líkön betur með skipulagðar upplýsingar.

Gagnagrunnar

Seinni hluti samhengis geymslu er gagnagrunnar. Í mörgum tilvikum leggjum við til að forritarar geymi skipulögð gögn í gagnagrunnum sem SQLite og geri fyrirspurnir í þá. Í stað þess að afrita heilan töflureikni inn í kvaðninguna geturðu til dæmis gefið líkaninu lýsingu á töflunum—hvaða dálkar eru til staðar og hvað þeir þýða—og látið það sækja þær raðir sem það þarf.

Til dæmis, ef þú spyrð: „Hvaða vörur voru með minnkandi sölu á þessum ársfjórðungi?“ getur líkanið spurt bara um viðeigandi raðir í stað þess að skanna allan töflureikninn. Þetta er hraðara, ódýrara, stigstærðanlegra fyrir stærri gagnasöfn.

Netaðgangur 

Þriðji hluti samhengis geymisins er netaðgangur, sem er mikilvægur hluti af vinnuálagi fulltrúa. Verkflæði fulltrúans gæti þurft að sækja raungögn, kalla á ytri API eða setja upp pakka. Á sama tíma getur það verið áhættusamt að veita geymum óheftan internetaðgang: það getur afhjúpað upplýsingar fyrir ytri vefsvæðum, óvart haft samband við viðkvæm innri kerfi eða kerfi þriðja aðila, eða gert erfiðara að verjast gagnaleka og gagnastuldi.

Til að bregðast við þessum áhyggjum án þess að takmarka notagildi fulltrúa smíðuðum við hýstar geymslur til að nota sidecar egress proxy. Allar útleiðandi netbeiðnir fara í gegnum miðlægt stefnulag sem framfylgir leyfislistum og aðgangsstýringum á meðan umferðin er sýnileg. Fyrir innskráningarupplýsingar notum við lénstengda leynilyklainndælingu við útstreymi. Líkanið og geymslan sjá aðeins staðgengla, á meðan hrá leynigildi haldast utan samhengis sem líkanið sér og eru aðeins beitt fyrir samþykkta áfangastaði. Þetta dregur úr hættu á leka á sama tíma og það gerir enn kleift að framkvæma auðkennd ytri köll.

Skýringarmynd af stýrðum netaðgangi í gegnum aðgangsproxy: uppsetning geymis

Færni fulltrúa

Skeljarkipanir eru öflugar, en mörg verkefni endurtaka sömu fjölþrepa mynstur. Fulltrúar þurfa að enduruppgötva verkflæðið í hvert skipti—endurskipuleggja, gefa út skipanir að nýju og læra venjur upp á nýtt—sem leiðir til ósamræmdra niðurstaðna og sóunar á framkvæmd. Færni fulltrúa(opnast í nýjum glugga) pakkar þessum mynstrum í endurnýtanlegar, samsetjanlegar byggingareiningar. Nánar tiltekið er færni möppupakki sem inniheldur ‘SKILL.md(opnast í nýjum glugga)’ (inniheldur lýsigögn og leiðbeiningar) auk allra stuðningsúrræða, svo sem API-tæknilýsinga og notendaviðmótseigna.

Þessi uppbygging fellur eðlilega að keyrslutímahöguninni sem við lýstum fyrr. Geymslan veitir varanlegar skrár og keyrslusamhengi, og skeljarverkfærið veitir keyrsluviðmótið. Með hvort tveggja á sínum stað getur líkanið fundið færniskrár með skeljarskipunum (`ls`, `cat`, etc.) þegar þess þarf, túlkað leiðbeiningar og keyrt færniskriftur allt í sömu fulltrúalykkju.

Við bjóðum upp á API(opnast í nýjum glugga) til að stjórna færni á OpenAI-verkvangi. Forritarar hlaða upp og geyma færnimöppur sem útgáfustýrða pakka, sem síðar er hægt að sækja með færniauðkenni. Áður en kvaðningin er send til líkansins hleður Responses API inn færninni og setur hana inn í samhengi líkansins. Þessi röð er ákvarðandi:

  1. Sæktu lýsigögn færni, þar á meðal heiti og lýsingu.
  2. Sæktu færnispakkann, afritaðu hann inn í geymsluna og afpakkaðu hann.
  3. Uppfærðu samhengi líkansins með hæfnisgögnum og slóð geymslunnar.

Þegar ákveðið er hvort færni sé viðeigandi kannar líkanið leiðbeiningar sínar smám saman og keyrir skriftur sínar með skeljarskipunum í geymslunni.

Skýringarmynd af hleðsluflæði færni: skrá, knippi, keyrsluumhverfi

Hvernig fulltrúar eru búnir til

Til að setja alla hlutina saman: Responses API veitir samhæfingu, skeljaverkfæri veitir keyranlegar aðgerðir, hýst geymsla veitir viðvarandi keyrslusamhengi, færni leggur ofan á endurnýtanlega verkflæðisrökfræði, og samþjöppun gerir fulltrúa kleift að keyra í langan tíma með það samhengi sem hann þarf.

Með þessum frumþáttum getur ein kvaðning víkkað út í heildstætt verkflæði frá upphafi til enda: finna réttu færnina, sækja gögn, umbreyta þeim í staðbundið skipulagt ástand, spyrja þau á skilvirkan hátt og búa til varanlegar afurðir. 

Skýringarmyndin hér að neðan sýnir hvernig þetta kerfi virkar við að búa til töflureikni úr raungögnum.

Skýringarmynd af lífsferli beiðni: frá einni kvaðningu til varanlegra afurða, uppgötvun færni

Responses API samhæfir fulltrúamiðað verkefni

Búðu til þinn eigin fulltrúa

Fyrir ítarlegt dæmi um að sameina skeljarverkfærið og tölvuumhverfið fyrir verkflæði frá upphafi til enda, sjáðu bloggfærslu forritara(opnast í nýjum glugga) og uppskriftasafn(opnast í nýjum glugga) sem útskýrir pökkun á hæfni og keyrslu hennar í gegnum Responses API.

Við erum spennt að sjá hvað forritarar búa til með þessu safni af grunnbyggingareiningum. Tungumálalíkön eru ætluð til að gera meira en að búa til texta, myndir og hljóð–við munum halda áfram að þróa verkvanginn okkar til að verða hæfari í að takast á við flókin, raunveruleg verkefni í stórum stíl.

Höfundur

Bo Xu, Danny Zhang, Rohit Arunachalam