Harness engineering: nużaw Codex f’dinja agent-first
Minn Ryan Lopopolo, Member of the Technical Staff
Matul dawn l-aħħar ħames xhur, it-tim tagħna ilu jmexxi esperiment: jibni u jwassal beta interna ta’ prodott tas-software b’0 linji ta’ kodiċi miktuba manwalment.
Il-prodott għandu utenti interni ta’ kuljum u testers alpha esterni. Jinħareġ, jiġi deployjat, jinkiser, u jiġi rranġat. Id-differenza hi li kull linja ta’ kodiċi—loġika tal-applikazzjoni, tests, konfigurazzjoni tas-CI, dokumentazzjoni, osservabbiltà, u għodod interni—inkitbet minn Codex. Nistmaw li bnejna dan f’madwar 1/10 tal-ħin li kien jieħu biex niktbu l-kodiċi bl-idejn.
Il-bnedmin jidderieġu. L-aġenti jwettqu.
Intenzjonalment għażilna din il-kundizzjoni biex nibnu dak li kien meħtieġ sabiex inżidu l-veloċità tal-inġinerija b’ordnijiet ta’ kobor. Kien fadlilna ġimgħat biex nibagħtu dak li fl-aħħar sar miljun linja ta’ kodiċi. Biex nagħmlu dan, kellna nifhmu x’jinbidel meta x-xogħol primarju ta’ tim ta’ inġinerija tas-software ma jibqax li jikteb kodiċi, iżda li jiddisinja ambjenti, jispeċifika l-intenzjoni, u jibni feedback loops li jippermettu lill-aġenti Codex jagħmlu xogħol affidabbli.
Dan il-post huwa dwar dak li tgħallimna billi bnejna prodott kompletament ġdid b’tim ta’ aġenti—x’inkiser, x’akkumula, u kif nimmassimizzaw l-unika riżorsa tassew skarsa tagħna: il-ħin u l-attenzjoni tal-bniedem.
L-ewwel commit f’repożitorju vojt wasal lejn l-aħħar ta’ Awwissu 2025.
L-iskaffold inizjali—l-istruttura tar-repożitorju, il-konfigurazzjoni tas-CI, ir-regoli tal-formatting, is-setup tal-package manager, u l-framework tal-applikazzjoni—inħoloq minn Codex CLI bl-użu ta’ GPT‑5, immexxi minn sett żgħir ta’ templates eżistenti. Anke l-fajl inizjali AGENTS.md li jiggwida lill-aġenti dwar kif jaħdmu fir-repożitorju kien hu stess miktub minn Codex.
Ma kien hemm ebda kodiċi miktub minn bniedem minn qabel biex jorbot is-sistema. Mill-bidu, ir-repożitorju ġie ffurmat mill-aġent.
Ħames xhur wara, ir-repożitorju fih madwar miljun linja ta’ kodiċi mifruxa fuq il-loġika tal-applikazzjoni, l-infrastruttura, l-għodod, id-dokumentazzjoni, u utilitajiet interni għall-iżviluppaturi. F’dak il-perjodu, infetħu u ngħaqdu madwar 1,500 talba ta' pull b’tim żgħir ta’ tliet inġiniera biss li jmexxu Codex. Dan ifisser throughput medju ta’ 3.5 PRs għal kull inġinier kuljum, u b’mod sorprendenti t-throughput żdied hekk kif it-tim kiber għal seba’ inġiniera. Importanti, dan ma kienx output għall-fini tal-output: il-prodott intuża minn mijiet ta’ utenti internament, inklużi utenti qawwija interni ta’ kuljum.
Matul il-proċess kollu tal-iżvilupp, il-bnedmin qatt ma kkontribwew kodiċi direttament. Dan sar filosofija ċentrali għat-tim: ebda kodiċi miktub manwalment.
In-nuqqas ta’ kitba ta’ kodiċi direttament mill-bniedem daħħal tip differenti ta’ xogħol ta’ inġinerija, iffukat fuq sistemi, scaffolding, u leverage.
Il-progress bikri kien aktar bil-mod milli stennejna, mhux għax Codex ma kienx kapaċi, iżda għax l-ambjent ma kienx speċifikat biżżejjed. L-aġent ma kellux l-għodod, l-astrazzjonijiet, u l-istruttura interna meħtieġa biex jagħmel progress lejn għanijiet ta’ livell għoli. Ix-xogħol prinċipali tat-tim tagħna tal-inġinerija sar li jippermetti lill-aġenti jagħmlu xogħol utli.
Fil-prattika, dan kien ifisser li naħdmu depth-first: naqsmu għanijiet akbar f’biċċiet iżgħar (disinn, kodiċi, reviżjoni, test, eċċ), nagħtu prompt lill-aġent biex jibni dawk il-biċċiet, u nużawhom biex niftħu kompiti aktar kumplessi. Meta xi ħaġa tfalli, is-soluzzjoni kważi qatt ma kienet “ipprova aktar.” Għax l-uniku mod biex nagħmlu progress kien li nġibu lil Codex jagħmel ix-xogħol, l-inġiniera umani dejjem daħlu fil-kompitu u staqsew: “liema kapaċità qed tonqos, u kif nagħmluha kemm leġibbli kif ukoll infurzabbli għall-aġent?”
Il-bnedmin jinteraġixxu mas-sistema kważi kompletament permezz ta’ prompts: inġinier jiddeskrivi kompitu, iħaddem l-aġent, u jħallih jiftaħ talba ta' pull. Biex inwasslu PR sal-konklużjoni, nagħtu istruzzjonijiet lil Codex biex jirrevedi l-bidliet tiegħu stess lokalment, jitlob reviżjonijiet oħra speċifiċi minn aġenti kemm lokalment kif ukoll fil-cloud, iwieġeb għal kwalunkwe feedback mogħti minn bniedem jew aġent, u jkompli jtir f’loop sakemm ir-reviżuri kollha aġenti jkunu sodisfatti (effettivament dan huwa Ralph Wiggum Loop(jinfetaħ f’tieqa ġdida)). Codex juża l-għodod standard tagħna tal-iżvilupp direttament (gh, scripts lokali, u skills inkorporati fir-repożitorju) biex jiġbor kuntest mingħajr ma l-bnedmin jikkopjaw u jwaħħlu fil-CLI.
Il-bnedmin jistgħu jirrevedu t-talbiet ta’ pull, iżda mhumiex meħtieġa. Maż-żmien, imbuttajna kważi l-isforz kollu tar-reviżjoni biex jiġi ġestit minn aġent għal aġent.
Hekk kif żdied throughput tal-kodiċi, il-bottleneck tagħna sar il-kapaċità umana tal-QA. Peress li l-kundizzjoni fissa kienet il-ħin u l-attenzjoni tal-bniedem, ħdimna biex inżidu aktar kapaċitajiet lill-aġent billi nagħmlu affarijiet bħall-UI tal-applikazzjoni, il-logs, u l-metriċi tal-app infushom direttament leġibbli għal Codex.
Pereżempju, għamilna l-app bootable għal kull git worktree, sabiex Codex ikun jista’ jniedi u jmexxi istanza waħda għal kull bidla. Għaqadna wkoll il-Chrome DevTools Protocol mar-runtime tal-aġent u ħloqna skills biex naħdmu ma’ DOM snapshots, screenshots, u navigazzjoni. Dan ippermetta lil Codex jirriproduċi bugs, jivvalida s-soluzzjonijiet, u jirraġuna direttament dwar l-imġiba tal-UI.

Għamilna l-istess għall-għodod tal-osservabbiltà. Logs, metrika, u traces huma esposti lil Codex permezz ta’ stack lokali tal-osservabbiltà li huwa efimeru għal kwalunkwe worktree partikolari. Codex jaħdem fuq verżjoni kompletament iżolata ta’ dik l-app—inklużi l-logs u l-metriċi tagħha, li jitneħħew ladarba jitlesta dak il-kompitu. L-aġenti jistgħu jinterrogaw il-logs b’LogQL u l-metriċi b’PromQL. B’dan il-kuntest disponibbli, prompts bħal “ensure service startup completes in under 800ms” jew “no span in these four critical user journeys exceeds two seconds” isiru trattabbli.
Naraw regolarment runs waħdanin ta’ Codex jaħdmu fuq kompitu wieħed għal aktar minn sitt sigħat (spiss waqt li l-bnedmin ikunu reqdin).
Il-ġestjoni tal-kuntest hija waħda mill-akbar sfidi biex l-aġenti jsiru effettivi f’kompiti kbar u kumplessi. Waħda mill-aktar lezzjonijiet bikrin li tgħallimna kienet sempliċi: agħti lil Codex mappa, mhux manwal ta’ istruzzjoni ta’ 1,000 paġna.
Ipprovajna l-approċċ “one big AGENTS.md(jinfetaħ f’tieqa ġdida)”. Falla b’modi prevedibbli:
- Il-kuntest huwa riżorsa skarsa. Fajl kbir ta’ istruzzjonijiet ineħħi spazju mill-kompitu, il-kodiċi, u d-dokumenti rilevanti—għalhekk l-aġent jew jitlef kundizzjonijiet ewlenin jew jibda jottimizza għal dawk żbaljati.
- Wisq gwida ssir nuqqas ta’ gwida. Meta kollox ikun “importanti,” xejn ma jkun. L-aġenti jispiċċaw jagħmlu pattern-matching lokalment minflok jinnavigaw b’intenzjoni.
- Jixjieħ mill-ewwel. Manwal monolitiku jinbidel f’ċimiterju ta’ regoli qodma. L-aġenti ma jistgħux jgħidu x’għadu minnu, il-bnedmin jieqfu jżommuh aġġornat, u l-fajl bil-kwiet isir attrazzjoni problematika.
- Huwa diffiċli biex jiġi vverifikat. Blob wieħed ma jaqbilx għal checks mekkaniċi (coverage, freskezza, ownership, cross-links), għalhekk id-drift huwa inevitabbli.
Għalhekk minflok nittrattaw AGENTS.md bħala enċiklopedija, nittrattawh bħala it-tabella tal-kontenut.
Il-bażi tal-għarfien tar-repożitorju tgħix f’direttorju strutturat docs/ trattat bħala s-sistema ta’ rekord. AGENTS.md qasir (madwar 100 linja) jiġi injettat fil-kuntest u jservi primarjament bħala mappa, bi pointers lejn sorsi aktar profondi tal-verità x’imkien ieħor.
Id-dokumentazzjoni tad-disinn hija kkatalogata u indiċjata, inkluż l-istatus tal-verifika u sett ta’ twemmin ewlieni li jiddefinixxu prinċipji operattivi agent-first. Dokumentazzjoni tal-arkitettura(jinfetaħ f’tieqa ġdida) tipprovdi mappa ta’ livell għoli tad-dominji u tas-saffi tal-packages. Dokument tal-kwalità jagħti grad lil kull dominju tal-prodott u saff arkitettoniku, filwaqt li jsegwi n-nuqqasijiet matul iż-żmien.
Il-pjanijiet huma trattati bħala artifacts tal-ewwel klassi. Pjanijiet ħfief u efimeri jintużaw għal bidliet żgħar, filwaqt li xogħol kumpless jinqabad f’pjanijiet ta’ eżekuzzjoni(jinfetaħ f’tieqa ġdida) b’logs tal-progress u tad-deċiżjonijiet li jiġu checked in fir-repożitorju. Pjanijiet attivi, pjanijiet kompluti, u dejn tekniku magħruf huma kollha versioned u ko-lokati, u dan jippermetti lill-aġenti joperaw mingħajr ma jiddependu fuq kuntest estern.
Dan jippermetti żvelar progressiv: l-aġenti jibdew b’punt tad-dħul żgħir u stabbli u jiġu mgħallma fejn ifittxu wara, minflok ma jiġu mgħarrqa mill-bidu nett.
Dan ninfurzawh b’mod mekkaniku. Linters dedikati u jobs tas-CI jivvalidaw li l-bażi tal-għarfien hija aġġornata, marbuta bejniethom, u strutturata sewwa. Aġent rikorrenti ta’ “doc-gardening” jiskannja għal dokumentazzjoni qadima jew skaduta li ma tirriflettix l-imġiba reali tal-kodiċi u jiftaħ talbiet ta' pull ta’ korrezzjoni.
Hekk kif il-codebase evolviet, il-qafas ta’ Codex għad-deċiżjonijiet tad-disinn kellu jevolvi wkoll.
Minħabba li r-repożitorju huwa ġġenerat kompletament mill-aġent, huwa ottimizzat l-ewwel nett għall-leġibbiltà ta’ Codex. Bl-istess mod kif it-timijiet jippruvaw itejbu n-navigabbiltà tal-kodiċi tagħhom għal inġiniera ġodda li jidħlu, l-għan tal-inġiniera umani tagħna kien li jagħmluha possibbli għal aġent li jirraġuna dwar id-dominju tan-negozju kollu direttament mir-repożitorju nnifsu.
Mil-lat tal-aġent, kull ħaġa li ma jistax jaċċessa fil-kuntest waqt li jkun qed jaħdem effettivament ma teżistix. Għarfien li jgħix f’Google Docs, threads taċ-chat, jew f’moħħ in-nies mhuwiex aċċessibbli għas-sistema. Artifacts lokali għar-repożitorju u versioned (eż. kodiċi, markdown, skemi, pjanijiet eżekutabbli) huma dak kollu li jista’ jara.

Tgħallimna li maż-żmien kellna nimbuttaw dejjem aktar kuntest ġewwa r-repo. Dik id-diskussjoni fuq Slack li allinjat lit-tim fuq pattern arkitettoniku? Jekk ma tistax tinstab mill-aġent, hija illeġibbli bl-istess mod kif tkun mhux magħrufa għal impjegat ġdid li jingħaqad tliet xhur wara.
Li tagħti aktar kuntest lil Codex ifisser li torganizza u tesponi l-informazzjoni t-tajba sabiex l-aġent ikun jista’ jirraġuna fuqha, aktar milli tgħarrqu b’istruzzjonijiet ad-hoc. Bl-istess mod li bih tintroduċi sieħeb ġdid fit-tim għall-prinċipji tal-prodott, in-normi tal-inġinerija, u l-kultura tat-tim (inklużi l-preferenzi tal-emoji), li tagħti din l-informazzjoni lill-aġent twassal għal output aktar allinjat.
Dan il-qafas ċċara ħafna tradeoffs. Ippreferejna dipendenzi u astrazzjonijiet li setgħu jiġu internalizzati kompletament u rraġunati dwarhom fir-repo. Teknoloġiji spiss deskritti bħala “boring” għandhom it-tendenza li jkunu aktar faċli biex l-aġenti jimmudellawhom minħabba l-komponibbiltà, l-istabbiltà tal-api, u r-rappreżentazzjoni tagħhom fis-sett tat-taħriġ. F’xi każijiet, kien irħas li l-aġent jerġa’ jimplimenta sottogruppi ta’ funzjonalità milli jdawwar ruħu ma’ mġiba upstream opaka minn libreriji pubbliċi. Pereżempju, minflok ma daħħalna package ġeneriku stil p-limit, implimentajna helper tagħna stess ta’ map-with-concurrency: huwa integrat sew mal-instrumentazzjoni OpenTelemetry tagħna, għandu 100% test coverage, u jġib ruħu eżatt kif jistenna r-runtime tagħna.
Li ddaħħal aktar mis-sistema f’forma li l-aġent jista’ jispezzjona, jivvalida, u jimmodifika direttament iżid il-leverage—mhux biss għal Codex, iżda wkoll għal aġenti oħra (eż. Aardvark) li wkoll qed jaħdmu fuq il-codebase.
Id-dokumentazzjoni waħedha ma żżommx codebase kompletament ġġenerata mill-aġent koerenti. Billi ninfurzaw invariants, mhux nimmaniġġjaw fil-livell mikro l-implimentazzjonijiet, inħallu lill-aġenti jwasslu malajr mingħajr ma jdgħajfu l-pedament. Pereżempju, nitolbu lil Codex biex jipparseja l-forom tad-data fil-konfini(jinfetaħ f’tieqa ġdida), iżda ma nkunux preskrittivi dwar kif jiġri dan (jidher li l-mudell iħobb lil Zod, iżda ma speċifikajniex dik il-librerija partikolari).
L-aġenti huma l-aktar effettivi f’ambjenti b’konfini stretti u struttura prevedibbli(jinfetaħ f’tieqa ġdida), għalhekk bnejna l-applikazzjoni madwar mudell arkitettoniku riġidu. Kull dominju tan-negozju huwa maqsum f’sett fiss ta’ saffi, b’direzzjonijiet ta’ dipendenza vvalidati strettament u sett limitat ta’ konnessjonijiet permessi. Dawn il-kundizzjonijiet huma infurzati b’mod mekkaniku permezz ta’ linters personalizzati (iġġenerati minn Codex, naturalment!) u tests strutturali.
Id-dijagramma hawn taħt turi r-regola: ġewwa kull dominju tan-negozju (eż. App Settings), il-kodiċi jista’ jiddependi biss “’il quddiem” minn sett fiss ta’ saffi (Types → Config → Repo → Service → Runtime → UI). Tħassib cross-cutting (auth, connectors, telemetry, feature flags) jidħol permezz ta’ interface espliċita waħda: Providers. Kull ħaġa oħra hija pprojbita u infurzata b’mod mekkaniku.

Dan huwa t-tip ta’ arkitettura li normalment tipposponi sakemm ikollok mijiet ta’ inġiniera. Bil-aġenti tal-kodifikar, hija prerekwiżit bikri: il-kundizzjonijiet huma dak li jippermetti veloċità mingħajr deterjorament jew drift arkitettoniku.
Fil-prattika, ninfurzaw dawn ir-regoli b’linters personalizzati u tests strutturali, flimkien ma’ sett żgħir ta’ “taste invariants.” Pereżempju, ninfurzaw b’mod statiku logging strutturat, konvenzjonijiet tal-ismijiet għall-iskemi u t-tipi, limiti tad-daqs tal-fajls, u rekwiżiti ta’ affidabbiltà speċifiċi għall-pjattaforma b’custom lints. Minħabba li l-lints huma personalizzati, niktbu l-messaġġi tal-iżball biex ninjettaw istruzzjonijiet ta’ rimedju fil-kuntest tal-aġent.
F’workflow human-first, dawn ir-regoli jistgħu jidhru pedantiċi jew restrittivi. Bl-aġenti, isiru multiplikaturi: ladarba jiġu kkodifikati, japplikaw kullimkien f’daqqa.
Fl-istess ħin, inkunu espliċiti dwar fejn il-kundizzjonijiet huma importanti u fejn mhumiex. Dan jixbah it-tmexxija ta’ organizzazzjoni kbira ta’ pjattaforma tal-inġinerija: ninfurzaw il-konfini ċentralment, inħallu l-awtonomija lokalment. Jimpurtak ħafna mill-konfini, il-korrettezza, u r-riproduċibbiltà. Ġewwa dawk il-konfini, tħalli lit-timijiet—jew lill-aġenti—libertà sostanzjali dwar kif jiġu espressi s-soluzzjonijiet.
Il-kodiċi li jirriżulta mhux dejjem jaqbel mal-preferenzi stilistiċi tal-bnedmin, u dan tajjeb. Sakemm l-output ikun korrett, maintainable, u leġibbli għal runs futuri tal-aġent, jilħaq il-livell meħtieġ.
It-togħma umana tiġi mogħtija lura lis-sistema kontinwament. Kummenti tar-reviżjoni, talbiet ta' pull ta’ refactoring, u bugs li jidhru għall-utent jinqabdu bħala aġġornamenti tad-dokumentazzjoni jew jiġu kkodifikati direttament fl-għodod. Meta d-dokumentazzjoni tonqos, intellgħu r-regola fil-kodiċi
Hekk kif żdied it-throughput ta’ Codex, ħafna normi konvenzjonali tal-inġinerija saru kontroproduttivi.
Ir-repożitorju jopera b’gates minimi ta’ merge li jimblokkaw. It-talbiet ta’ pull huma ta’ ħajja qasira. Flakes fit-tests spiss jiġu indirizzati b’runs ta’ segwitu minflok ma jimblukkaw il-progress għal żmien indefinit. F’sistema fejn it-throughput tal-aġenti jaqbeż bil-bosta l-attenzjoni umana, il-korrezzjonijiet huma irħas, u l-istennija hija għalja.
Dan ikun irresponsabbli f’ambjent b’throughput baxx. Hawnhekk, ħafna drabi huwa t-tradeoff it-tajjeb.
Meta ngħidu li l-codebase hija ġġenerata minn aġenti Codex, irridu ngħidu kollox fil-codebase.
L-aġenti jipproduċu:
- Kodiċi tal-prodott u tests
- Konfigurazzjoni tas-CI u tooling tar-release
- Għodod interni għall-iżviluppaturi
- Dokumentazzjoni u storja tad-disinn
- Harnesses tal-evalwazzjoni
- Kummenti tar-reviżjoni u tweġibiet
- Scripts li jimmaniġġjaw ir-repożitorju nnifsu
- Fajls ta’ definizzjoni tad-dashboards tal-produzzjoni
Il-bnedmin dejjem jibqgħu fil-loop, iżda jaħdmu f’saff differenti ta’ astrazzjoni minn qabel. Nipprijoritizzaw ix-xogħol, nittraduċu feedback tal-utenti f’kriterji ta’ aċċettazzjoni, u nivvalidaw ir-riżultati. Meta l-aġent isib diffikultà, nittrattawh bħala sinjal: nidentifikaw x’qed jonqos—għodod, guardrails, dokumentazzjoni—u nerġgħu ndaħħluh fir-repożitorju, dejjem billi nġibu lil Codex innifsu jikteb is-soluzzjoni.
L-aġenti jużaw direttament l-għodod standard tagħna tal-iżvilupp. Jiġbdu feedback tar-reviżjoni, iwieġbu inline, jagħmlu push ta’ aġġornamenti, u spiss squash u merge tat-talbiet ta’ pull tagħhom stess.
Hekk kif aktar miċ-ċiklu tal-iżvilupp ġie kkodifikat direttament fis-sistema—testing, validazzjoni, reviżjoni, ġestjoni tal-feedback, u recovery—ir-repożitorju reċentement qabeż limitu sinifikanti fejn Codex jista’ jmexxi feature ġdida end-to-end.
Meta jingħata prompt wieħed, l-aġent issa jista’:
- Jivvalida l-istat attwali tal-codebase
- Jirriproduċi bug irrappurtat
- Jirreġistra video li juri l-falliment
- Jimplimenta soluzzjoni
- Jivvalida s-soluzzjoni billi jmexxi l-applikazzjoni
- Jirreġistra t-tieni video li juri r-riżoluzzjoni
- Jiftaħ talba ta' pull
- Jwieġeb għal feedback tal-aġenti u tal-bnedmin
- Jiskopri u jirrimedja build failures
- Jeskala għal bniedem biss meta jkun meħtieġ ġudizzju
- Jagħmel merge tal-bidla
Din l-imġiba tiddependi ħafna fuq l-istruttura u t-tooling speċifiċi ta’ dan ir-repożitorju u m’għandhiex titqies li tiġġeneralizza mingħajr investiment simili—mill-inqas, għadu mhux.
Awtonomija sħiħa tal-aġent tintroduċi wkoll problemi ġodda. Codex jirreplika patterns li diġà jeżistu fir-repożitorju—even dawk mhux uniformi jew subottimali. Maż-żmien, dan inevitabbilment iwassal għal drift.
Fil-bidu, il-bnedmin indirizzaw dan manwalment. It-tim tagħna kien iqatta’ kull Ġimgħa (20% tal-ġimgħa) inaddaf “AI slop.” Mhux ta’ b’xejn, dan ma skalax.
Minflok, bdejna nikkodifikaw dak li nsejħu “golden principles” direttament fir-repożitorju u bnejna proċess rikorrenti ta’ cleanup. Dawn il-prinċipji huma regoli opinjonati u mekkaniċi li jżommu l-codebase leġibbli u konsistenti għal runs futuri tal-aġent. Pereżempju: (1) nippreferu packages ta’ utilità maqsuma fuq helpers magħmula bl-idejn biex inżommu l-invariants ċentralizzati, u (2) ma nittestjawx id-data “YOLO-style”—nivvalidaw il-konfini jew niddependu fuq SDKs typed sabiex l-aġent ma jkunx jista’ aċċidentalment jibni fuq forom guessed. Fuq cadence regolari, għandna sett ta’ tasks Codex fl-isfond li jiskannjaw għal devjazzjonijiet, jaġġornaw il-gradi tal-kwalità, u jiftħu talbiet ta’ pull immirati ta’ refactoring. Ħafna minn dawn jistgħu jiġu riveduti f’inqas minn minuta u jiġu automerged.
Dan jaħdem bħall-garbage collection. Id-dejn tekniku huwa bħal self b’interess għoli: kważi dejjem aħjar tnaqqsu kontinwament f’inkrementi żgħar milli tħallih jakkumula u tindirizzah f’mewġiet ta’ uġigħ. It-togħma umana tinqabad darba, imbagħad tiġi infurzata kontinwament fuq kull linja ta’ kodiċi. Dan jippermettilna wkoll naqbdu u nsolvu patterns ħżiena kuljum, minflok inħalluhom jinfirxu fil-codebase għal jiem jew ġimgħat.
Din l-istrateġija s’issa ħadmet tajjeb sal-launch intern u l-adozzjoni f’OpenAI. Il-bini ta’ prodott reali għal utenti reali għen biex jorbot l-investimenti tagħna mar-realtà u jiggwidana lejn manutenzjoni fit-tul.
Li għadna ma nafux hu kif il-koerenza arkitettonika tevolvi fuq snin f’sistema kompletament ġġenerata mill-aġent. Għadna nitgħallmu fejn il-ġudizzju uman iżid l-aktar leverage u kif nikkodifikaw dak il-ġudizzju biex jakkumula. Lanqas ma nafu kif din is-sistema se tevolvi hekk kif il-mudelli jkomplu jsiru aktar kapaċi maż-żmien.
Dak li sar ċar: il-bini tas-software xorta jitlob dixxiplina, iżda d-dixxiplina tidher aktar fl-iscaffolding milli fil-kodiċi. L-għodod, l-astrazzjonijiet, u l-feedback loops li jżommu l-codebase koerenti huma dejjem aktar importanti.
L-aktar sfidi diffiċli tagħna issa jiffokaw fuq id-disinn ta’ ambjenti, feedback loops, u sistemi ta’ kontroll li jgħinu lill-aġenti jilħqu l-għan tagħna: jibnu u jżommu software kumpless u affidabbli fuq skala kbira.
Hekk kif aġenti bħal Codex jieħdu fuqhom porzjonijiet akbar miċ-ċiklu tal-ħajja tas-software, dawn il-mistoqsijiet se jkunu saħansitra aktar importanti. Nittamaw li l-qsim ta’ xi lezzjonijiet bikrin jgħinek tirraġuna dwar fejn tinvesti l-isforz tiegħek sabiex tkun tista’ sempliċement tibni affarijiet.


