Aqbeż għall-kontenut prinċipali
OpenAI

11 ta’ Frar 2026

Inġinerija

Harness engineering: nużaw Codex f’dinja agent-first

Minn Ryan Lopopolo, Member of the Technical Staff

Qed jillowdja…

Matul dawn l-aħħar ħames xhur, it-tim tagħna ilu jmexxi esperiment: jibni u jwassal beta interna ta’ prodott tas-software b’0 linji ta’ kodiċi miktuba manwalment.

Il-prodott għandu utenti interni ta’ kuljum u testers alpha esterni. Jinħareġ, jiġi deployjat, jinkiser, u jiġi rranġat. Id-differenza hi li kull linja ta’ kodiċi—loġika tal-applikazzjoni, tests, konfigurazzjoni tas-CI, dokumentazzjoni, osservabbiltà, u għodod interni—inkitbet minn Codex. Nistmaw li bnejna dan f’madwar 1/10 tal-ħin li kien jieħu biex niktbu l-kodiċi bl-idejn.

Il-bnedmin jidderieġu. L-aġenti jwettqu.

Intenzjonalment għażilna din il-kundizzjoni biex nibnu dak li kien meħtieġ sabiex inżidu l-veloċità tal-inġinerija b’ordnijiet ta’ kobor. Kien fadlilna ġimgħat biex nibagħtu dak li fl-aħħar sar miljun linja ta’ kodiċi. Biex nagħmlu dan, kellna nifhmu x’jinbidel meta x-xogħol primarju ta’ tim ta’ inġinerija tas-software ma jibqax li jikteb kodiċi, iżda li jiddisinja ambjenti, jispeċifika l-intenzjoni, u jibni feedback loops li jippermettu lill-aġenti Codex jagħmlu xogħol affidabbli.

Dan il-post huwa dwar dak li tgħallimna billi bnejna prodott kompletament ġdid b’tim ta’ aġenti—x’inkiser, x’akkumula, u kif nimmassimizzaw l-unika riżorsa tassew skarsa tagħna: il-ħin u l-attenzjoni tal-bniedem.

Bdejna b’repożitorju git vojt

L-ewwel commit f’repożitorju vojt wasal lejn l-aħħar ta’ Awwissu 2025.

L-iskaffold inizjali—l-istruttura tar-repożitorju, il-konfigurazzjoni tas-CI, ir-regoli tal-formatting, is-setup tal-package manager, u l-framework tal-applikazzjoni—inħoloq minn Codex CLI bl-użu ta’ GPT‑5, immexxi minn sett żgħir ta’ templates eżistenti. Anke l-fajl inizjali AGENTS.md li jiggwida lill-aġenti dwar kif jaħdmu fir-repożitorju kien hu stess miktub minn Codex.

Ma kien hemm ebda kodiċi miktub minn bniedem minn qabel biex jorbot is-sistema. Mill-bidu, ir-repożitorju ġie ffurmat mill-aġent.

Ħames xhur wara, ir-repożitorju fih madwar miljun linja ta’ kodiċi mifruxa fuq il-loġika tal-applikazzjoni, l-infrastruttura, l-għodod, id-dokumentazzjoni, u utilitajiet interni għall-iżviluppaturi. F’dak il-perjodu, infetħu u ngħaqdu madwar 1,500 talba ta' pull b’tim żgħir ta’ tliet inġiniera biss li jmexxu Codex. Dan ifisser throughput medju ta’ 3.5 PRs għal kull inġinier kuljum, u b’mod sorprendenti t-throughput żdied hekk kif it-tim kiber għal seba’ inġiniera. Importanti, dan ma kienx output għall-fini tal-output: il-prodott intuża minn mijiet ta’ utenti internament, inklużi utenti qawwija interni ta’ kuljum.

Matul il-proċess kollu tal-iżvilupp, il-bnedmin qatt ma kkontribwew kodiċi direttament. Dan sar filosofija ċentrali għat-tim: ebda kodiċi miktub manwalment.

Niddefinixxu mill-ġdid ir-rwol tal-inġinier

In-nuqqas ta’ kitba ta’ kodiċi direttament mill-bniedem daħħal tip differenti ta’ xogħol ta’ inġinerija, iffukat fuq sistemi, scaffolding, u leverage.

Il-progress bikri kien aktar bil-mod milli stennejna, mhux għax Codex ma kienx kapaċi, iżda għax l-ambjent ma kienx speċifikat biżżejjed. L-aġent ma kellux l-għodod, l-astrazzjonijiet, u l-istruttura interna meħtieġa biex jagħmel progress lejn għanijiet ta’ livell għoli. Ix-xogħol prinċipali tat-tim tagħna tal-inġinerija sar li jippermetti lill-aġenti jagħmlu xogħol utli.

Fil-prattika, dan kien ifisser li naħdmu depth-first: naqsmu għanijiet akbar f’biċċiet iżgħar (disinn, kodiċi, reviżjoni, test, eċċ), nagħtu prompt lill-aġent biex jibni dawk il-biċċiet, u nużawhom biex niftħu kompiti aktar kumplessi. Meta xi ħaġa tfalli, is-soluzzjoni kważi qatt ma kienet “ipprova aktar.” Għax l-uniku mod biex nagħmlu progress kien li nġibu lil Codex jagħmel ix-xogħol, l-inġiniera umani dejjem daħlu fil-kompitu u staqsew: “liema kapaċità qed tonqos, u kif nagħmluha kemm leġibbli kif ukoll infurzabbli għall-aġent?”

Il-bnedmin jinteraġixxu mas-sistema kważi kompletament permezz ta’ prompts: inġinier jiddeskrivi kompitu, iħaddem l-aġent, u jħallih jiftaħ talba ta' pull. Biex inwasslu PR sal-konklużjoni, nagħtu istruzzjonijiet lil Codex biex jirrevedi l-bidliet tiegħu stess lokalment, jitlob reviżjonijiet oħra speċifiċi minn aġenti kemm lokalment kif ukoll fil-cloud, iwieġeb għal kwalunkwe feedback mogħti minn bniedem jew aġent, u jkompli jtir f’loop sakemm ir-reviżuri kollha aġenti jkunu sodisfatti (effettivament dan huwa Ralph Wiggum Loop(jinfetaħ f’tieqa ġdida)). Codex juża l-għodod standard tagħna tal-iżvilupp direttament (gh, scripts lokali, u skills inkorporati fir-repożitorju) biex jiġbor kuntest mingħajr ma l-bnedmin jikkopjaw u jwaħħlu fil-CLI.

Il-bnedmin jistgħu jirrevedu t-talbiet ta’ pull, iżda mhumiex meħtieġa. Maż-żmien, imbuttajna kważi l-isforz kollu tar-reviżjoni biex jiġi ġestit minn aġent għal aġent.

Inżidu l-leġibbiltà tal-applikazzjoni

Hekk kif żdied throughput tal-kodiċi, il-bottleneck tagħna sar il-kapaċità umana tal-QA. Peress li l-kundizzjoni fissa kienet il-ħin u l-attenzjoni tal-bniedem, ħdimna biex inżidu aktar kapaċitajiet lill-aġent billi nagħmlu affarijiet bħall-UI tal-applikazzjoni, il-logs, u l-metriċi tal-app infushom direttament leġibbli għal Codex.

Pereżempju, għamilna l-app bootable għal kull git worktree, sabiex Codex ikun jista’ jniedi u jmexxi istanza waħda għal kull bidla. Għaqadna wkoll il-Chrome DevTools Protocol mar-runtime tal-aġent u ħloqna skills biex naħdmu ma’ DOM snapshots, screenshots, u navigazzjoni. Dan ippermetta lil Codex jirriproduċi bugs, jivvalida s-soluzzjonijiet, u jirraġuna direttament dwar l-imġiba tal-UI.

Dijagramma bit-titlu “Codex imexxi l-app b’Chrome DevTools MCP biex jivvalida xogħlu.” Codex jagħżel mira, jieħu snapshots tal-istat qabel u wara li jattiva mogħdija tal-UI, josserva avvenimenti tar-runtime permezz ta’ Chrome DevTools, japplika soluzzjonijiet, jerġa’ jibda, u jirrepeti l-validazzjoni sakemm l-app tkun nadifa.

Għamilna l-istess għall-għodod tal-osservabbiltà. Logs, metrika, u traces huma esposti lil Codex permezz ta’ stack lokali tal-osservabbiltà li huwa efimeru għal kwalunkwe worktree partikolari. Codex jaħdem fuq verżjoni kompletament iżolata ta’ dik l-app—inklużi l-logs u l-metriċi tagħha, li jitneħħew ladarba jitlesta dak il-kompitu. L-aġenti jistgħu jinterrogaw il-logs b’LogQL u l-metriċi b’PromQL. B’dan il-kuntest disponibbli, prompts bħal “ensure service startup completes in under 800ms” jew “no span in these four critical user journeys exceeds two seconds” isiru trattabbli.

Dijagramma bit-titlu “Nagħtu lil Codex stack sħiħ ta’ osservabbiltà f’dev lokali.” App tibgħat logs, metriċi, u traces lil Vector, li jqassam id-data għal stack ta’ osservabbiltà li fih Victoria Logs, Metrics, u Traces, kull wieħed interrogat permezz ta’ APIs LogQL, PromQL, jew TraceQL. Codex juża dawn is-sinjali biex jinterroga, jikkorrelata, u jirraġuna, imbagħad jimplimenta soluzzjonijiet fil-codebase, jerġa’ jibda l-app, jerġa’ jħaddem workloads, jittestja UI journeys, u jirrepeti f’feedback loop.

Naraw regolarment runs waħdanin ta’ Codex jaħdmu fuq kompitu wieħed għal aktar minn sitt sigħat (spiss waqt li l-bnedmin ikunu reqdin).

Għamilna l-għarfien tar-repożitorju s-sistema ta’ rekord

Il-ġestjoni tal-kuntest hija waħda mill-akbar sfidi biex l-aġenti jsiru effettivi f’kompiti kbar u kumplessi. Waħda mill-aktar lezzjonijiet bikrin li tgħallimna kienet sempliċi: agħti lil Codex mappa, mhux manwal ta’ istruzzjoni ta’ 1,000 paġna.

Ipprovajna l-approċċ “one big AGENTS.md(jinfetaħ f’tieqa ġdida)”. Falla b’modi prevedibbli:

  • Il-kuntest huwa riżorsa skarsa. Fajl kbir ta’ istruzzjonijiet ineħħi spazju mill-kompitu, il-kodiċi, u d-dokumenti rilevanti—għalhekk l-aġent jew jitlef kundizzjonijiet ewlenin jew jibda jottimizza għal dawk żbaljati.
  • Wisq gwida ssir nuqqas ta’ gwida. Meta kollox ikun “importanti,” xejn ma jkun. L-aġenti jispiċċaw jagħmlu pattern-matching lokalment minflok jinnavigaw b’intenzjoni.
  • Jixjieħ mill-ewwel. Manwal monolitiku jinbidel f’ċimiterju ta’ regoli qodma. L-aġenti ma jistgħux jgħidu x’għadu minnu, il-bnedmin jieqfu jżommuh aġġornat, u l-fajl bil-kwiet isir attrazzjoni problematika.
  • Huwa diffiċli biex jiġi vverifikat. Blob wieħed ma jaqbilx għal checks mekkaniċi (coverage, freskezza, ownership, cross-links), għalhekk id-drift huwa inevitabbli.

Għalhekk minflok nittrattaw AGENTS.md bħala enċiklopedija, nittrattawh bħala it-tabella tal-kontenut.

Il-bażi tal-għarfien tar-repożitorju tgħix f’direttorju strutturat docs/ trattat bħala s-sistema ta’ rekord. AGENTS.md qasir (madwar 100 linja) jiġi injettat fil-kuntest u jservi primarjament bħala mappa, bi pointers lejn sorsi aktar profondi tal-verità x’imkien ieħor.

Test sempliċi

1
AGENTS.md
2
ARCHITECTURE.md
3
docs/
4
├── design-docs/
5
│ ├── index.md
6
│ ├── core-beliefs.md
7
│ └── ...
8
├── exec-plans/
9
│ ├── active/
10
│ ├── completed/
11
│ └── tech-debt-tracker.md
12
├── generated/
13
│ └── db-schema.md
14
├── product-specs/
15
│ ├── index.md
16
│ ├── new-user-onboarding.md
17
│ └── ...
18
├── references/
19
│ ├── design-system-reference-llms.txt
20
│ ├── nixpacks-llms.txt
21
│ ├── uv-llms.txt
22
│ └── ...
23
├── DESIGN.md
24
├── FRONTEND.md
25
├── PLANS.md
26
├── PRODUCT_SENSE.md
27
├── QUALITY_SCORE.md
28
├── RELIABILITY.md
29
└── SECURITY.md

Tqassim tal-ħażna tal-għarfien ġewwa r-repożitorju.

Id-dokumentazzjoni tad-disinn hija kkatalogata u indiċjata, inkluż l-istatus tal-verifika u sett ta’ twemmin ewlieni li jiddefinixxu prinċipji operattivi agent-first. Dokumentazzjoni tal-arkitettura(jinfetaħ f’tieqa ġdida) tipprovdi mappa ta’ livell għoli tad-dominji u tas-saffi tal-packages. Dokument tal-kwalità jagħti grad lil kull dominju tal-prodott u saff arkitettoniku, filwaqt li jsegwi n-nuqqasijiet matul iż-żmien.

Il-pjanijiet huma trattati bħala artifacts tal-ewwel klassi. Pjanijiet ħfief u efimeri jintużaw għal bidliet żgħar, filwaqt li xogħol kumpless jinqabad f’pjanijiet ta’ eżekuzzjoni(jinfetaħ f’tieqa ġdida) b’logs tal-progress u tad-deċiżjonijiet li jiġu checked in fir-repożitorju. Pjanijiet attivi, pjanijiet kompluti, u dejn tekniku magħruf huma kollha versioned u ko-lokati, u dan jippermetti lill-aġenti joperaw mingħajr ma jiddependu fuq kuntest estern.

Dan jippermetti żvelar progressiv: l-aġenti jibdew b’punt tad-dħul żgħir u stabbli u jiġu mgħallma fejn ifittxu wara, minflok ma jiġu mgħarrqa mill-bidu nett.

Dan ninfurzawh b’mod mekkaniku. Linters dedikati u jobs tas-CI jivvalidaw li l-bażi tal-għarfien hija aġġornata, marbuta bejniethom, u strutturata sewwa. Aġent rikorrenti ta’ “doc-gardening” jiskannja għal dokumentazzjoni qadima jew skaduta li ma tirriflettix l-imġiba reali tal-kodiċi u jiftaħ talbiet ta' pull ta’ korrezzjoni.

Il-leġibbiltà għall-aġent hija l-għan

Hekk kif il-codebase evolviet, il-qafas ta’ Codex għad-deċiżjonijiet tad-disinn kellu jevolvi wkoll.

Minħabba li r-repożitorju huwa ġġenerat kompletament mill-aġent, huwa ottimizzat l-ewwel nett għall-leġibbiltà ta’ Codex. Bl-istess mod kif it-timijiet jippruvaw itejbu n-navigabbiltà tal-kodiċi tagħhom għal inġiniera ġodda li jidħlu, l-għan tal-inġiniera umani tagħna kien li jagħmluha possibbli għal aġent li jirraġuna dwar id-dominju tan-negozju kollu direttament mir-repożitorju nnifsu.

Mil-lat tal-aġent, kull ħaġa li ma jistax jaċċessa fil-kuntest waqt li jkun qed jaħdem effettivament ma teżistix. Għarfien li jgħix f’Google Docs, threads taċ-chat, jew f’moħħ in-nies mhuwiex aċċessibbli għas-sistema. Artifacts lokali għar-repożitorju u versioned (eż. kodiċi, markdown, skemi, pjanijiet eżekutabbli) huma dak kollu li jista’ jara.

Dijagramma bit-titlu “Il-limiti tal-għarfien tal-aġent: Dak li Codex ma jistax jara ma jeżistix.” L-għarfien ta’ Codex jidher bħala bużżieqa b’konfini. Taħtha hemm eżempji ta’ għarfien mhux viżibbli—Google Docs, messaġġi ta’ Slack, u għarfien uman impliċitu. Vleġeġ juru li biex din l-informazzjoni ssir viżibbli għal Codex, trid tiġi kkodifikata fil-codebase bħala markdown.

Tgħallimna li maż-żmien kellna nimbuttaw dejjem aktar kuntest ġewwa r-repo. Dik id-diskussjoni fuq Slack li allinjat lit-tim fuq pattern arkitettoniku? Jekk ma tistax tinstab mill-aġent, hija illeġibbli bl-istess mod kif tkun mhux magħrufa għal impjegat ġdid li jingħaqad tliet xhur wara.

Li tagħti aktar kuntest lil Codex ifisser li torganizza u tesponi l-informazzjoni t-tajba sabiex l-aġent ikun jista’ jirraġuna fuqha, aktar milli tgħarrqu b’istruzzjonijiet ad-hoc. Bl-istess mod li bih tintroduċi sieħeb ġdid fit-tim għall-prinċipji tal-prodott, in-normi tal-inġinerija, u l-kultura tat-tim (inklużi l-preferenzi tal-emoji), li tagħti din l-informazzjoni lill-aġent twassal għal output aktar allinjat.

Dan il-qafas ċċara ħafna tradeoffs. Ippreferejna dipendenzi u astrazzjonijiet li setgħu jiġu internalizzati kompletament u rraġunati dwarhom fir-repo. Teknoloġiji spiss deskritti bħala “boring” għandhom it-tendenza li jkunu aktar faċli biex l-aġenti jimmudellawhom minħabba l-komponibbiltà, l-istabbiltà tal-api, u r-rappreżentazzjoni tagħhom fis-sett tat-taħriġ. F’xi każijiet, kien irħas li l-aġent jerġa’ jimplimenta sottogruppi ta’ funzjonalità milli jdawwar ruħu ma’ mġiba upstream opaka minn libreriji pubbliċi. Pereżempju, minflok ma daħħalna package ġeneriku stil p-limit, implimentajna helper tagħna stess ta’ map-with-concurrency: huwa integrat sew mal-instrumentazzjoni OpenTelemetry tagħna, għandu 100% test coverage, u jġib ruħu eżatt kif jistenna r-runtime tagħna.

Li ddaħħal aktar mis-sistema f’forma li l-aġent jista’ jispezzjona, jivvalida, u jimmodifika direttament iżid il-leverage—mhux biss għal Codex, iżda wkoll għal aġenti oħra (eż. Aardvark) li wkoll qed jaħdmu fuq il-codebase.

Infurzar tal-arkitettura u t-togħma

Id-dokumentazzjoni waħedha ma żżommx codebase kompletament ġġenerata mill-aġent koerenti. Billi ninfurzaw invariants, mhux nimmaniġġjaw fil-livell mikro l-implimentazzjonijiet, inħallu lill-aġenti jwasslu malajr mingħajr ma jdgħajfu l-pedament. Pereżempju, nitolbu lil Codex biex jipparseja l-forom tad-data fil-konfini(jinfetaħ f’tieqa ġdida), iżda ma nkunux preskrittivi dwar kif jiġri dan (jidher li l-mudell iħobb lil Zod, iżda ma speċifikajniex dik il-librerija partikolari).

L-aġenti huma l-aktar effettivi f’ambjenti b’konfini stretti u struttura prevedibbli(jinfetaħ f’tieqa ġdida), għalhekk bnejna l-applikazzjoni madwar mudell arkitettoniku riġidu. Kull dominju tan-negozju huwa maqsum f’sett fiss ta’ saffi, b’direzzjonijiet ta’ dipendenza vvalidati strettament u sett limitat ta’ konnessjonijiet permessi. Dawn il-kundizzjonijiet huma infurzati b’mod mekkaniku permezz ta’ linters personalizzati (iġġenerati minn Codex, naturalment!) u tests strutturali.

Id-dijagramma hawn taħt turi r-regola: ġewwa kull dominju tan-negozju (eż. App Settings), il-kodiċi jista’ jiddependi biss “’il quddiem” minn sett fiss ta’ saffi (Types → Config → Repo → Service → Runtime → UI). Tħassib cross-cutting (auth, connectors, telemetry, feature flags) jidħol permezz ta’ interface espliċita waħda: Providers. Kull ħaġa oħra hija pprojbita u infurzata b’mod mekkaniku.

Dijagramma bit-titlu “Arkitettura tad-dominju f’saffi b’konfini cross-cutting espliċiti.” Ġewwa d-dominju tal-loġika tan-negozju hemm moduli: Types → Config → Repo, u Providers → Service → Runtime → UI, b’App Wiring + UI fil-qiegħ. Modulu Utils jinsab barra l-konfini u jidħol f’Providers.

Dan huwa t-tip ta’ arkitettura li normalment tipposponi sakemm ikollok mijiet ta’ inġiniera. Bil-aġenti tal-kodifikar, hija prerekwiżit bikri: il-kundizzjonijiet huma dak li jippermetti veloċità mingħajr deterjorament jew drift arkitettoniku.

Fil-prattika, ninfurzaw dawn ir-regoli b’linters personalizzati u tests strutturali, flimkien ma’ sett żgħir ta’ “taste invariants.” Pereżempju, ninfurzaw b’mod statiku logging strutturat, konvenzjonijiet tal-ismijiet għall-iskemi u t-tipi, limiti tad-daqs tal-fajls, u rekwiżiti ta’ affidabbiltà speċifiċi għall-pjattaforma b’custom lints. Minħabba li l-lints huma personalizzati, niktbu l-messaġġi tal-iżball biex ninjettaw istruzzjonijiet ta’ rimedju fil-kuntest tal-aġent.

F’workflow human-first, dawn ir-regoli jistgħu jidhru pedantiċi jew restrittivi. Bl-aġenti, isiru multiplikaturi: ladarba jiġu kkodifikati, japplikaw kullimkien f’daqqa.

Fl-istess ħin, inkunu espliċiti dwar fejn il-kundizzjonijiet huma importanti u fejn mhumiex. Dan jixbah it-tmexxija ta’ organizzazzjoni kbira ta’ pjattaforma tal-inġinerija: ninfurzaw il-konfini ċentralment, inħallu l-awtonomija lokalment. Jimpurtak ħafna mill-konfini, il-korrettezza, u r-riproduċibbiltà. Ġewwa dawk il-konfini, tħalli lit-timijiet—jew lill-aġenti—libertà sostanzjali dwar kif jiġu espressi s-soluzzjonijiet.

Il-kodiċi li jirriżulta mhux dejjem jaqbel mal-preferenzi stilistiċi tal-bnedmin, u dan tajjeb. Sakemm l-output ikun korrett, maintainable, u leġibbli għal runs futuri tal-aġent, jilħaq il-livell meħtieġ.

It-togħma umana tiġi mogħtija lura lis-sistema kontinwament. Kummenti tar-reviżjoni, talbiet ta' pull ta’ refactoring, u bugs li jidhru għall-utent jinqabdu bħala aġġornamenti tad-dokumentazzjoni jew jiġu kkodifikati direttament fl-għodod. Meta d-dokumentazzjoni tonqos, intellgħu r-regola fil-kodiċi

It-throughput jibdel il-filosofija tal-merge

Hekk kif żdied it-throughput ta’ Codex, ħafna normi konvenzjonali tal-inġinerija saru kontroproduttivi.

Ir-repożitorju jopera b’gates minimi ta’ merge li jimblokkaw. It-talbiet ta’ pull huma ta’ ħajja qasira. Flakes fit-tests spiss jiġu indirizzati b’runs ta’ segwitu minflok ma jimblukkaw il-progress għal żmien indefinit. F’sistema fejn it-throughput tal-aġenti jaqbeż bil-bosta l-attenzjoni umana, il-korrezzjonijiet huma irħas, u l-istennija hija għalja.

Dan ikun irresponsabbli f’ambjent b’throughput baxx. Hawnhekk, ħafna drabi huwa t-tradeoff it-tajjeb.

X’ifisser tassew “iġġenerat mill-aġent”

Meta ngħidu li l-codebase hija ġġenerata minn aġenti Codex, irridu ngħidu kollox fil-codebase.

L-aġenti jipproduċu:

  • Kodiċi tal-prodott u tests
  • Konfigurazzjoni tas-CI u tooling tar-release
  • Għodod interni għall-iżviluppaturi
  • Dokumentazzjoni u storja tad-disinn
  • Harnesses tal-evalwazzjoni
  • Kummenti tar-reviżjoni u tweġibiet
  • Scripts li jimmaniġġjaw ir-repożitorju nnifsu
  • Fajls ta’ definizzjoni tad-dashboards tal-produzzjoni

Il-bnedmin dejjem jibqgħu fil-loop, iżda jaħdmu f’saff differenti ta’ astrazzjoni minn qabel. Nipprijoritizzaw ix-xogħol, nittraduċu feedback tal-utenti f’kriterji ta’ aċċettazzjoni, u nivvalidaw ir-riżultati. Meta l-aġent isib diffikultà, nittrattawh bħala sinjal: nidentifikaw x’qed jonqos—għodod, guardrails, dokumentazzjoni—u nerġgħu ndaħħluh fir-repożitorju, dejjem billi nġibu lil Codex innifsu jikteb is-soluzzjoni.

L-aġenti jużaw direttament l-għodod standard tagħna tal-iżvilupp. Jiġbdu feedback tar-reviżjoni, iwieġbu inline, jagħmlu push ta’ aġġornamenti, u spiss squash u merge tat-talbiet ta’ pull tagħhom stess.

Livelli dejjem jiżdiedu ta’ awtonomija

Hekk kif aktar miċ-ċiklu tal-iżvilupp ġie kkodifikat direttament fis-sistema—testing, validazzjoni, reviżjoni, ġestjoni tal-feedback, u recovery—ir-repożitorju reċentement qabeż limitu sinifikanti fejn Codex jista’ jmexxi feature ġdida end-to-end.

Meta jingħata prompt wieħed, l-aġent issa jista’:

  • Jivvalida l-istat attwali tal-codebase
  • Jirriproduċi bug irrappurtat
  • Jirreġistra video li juri l-falliment
  • Jimplimenta soluzzjoni
  • Jivvalida s-soluzzjoni billi jmexxi l-applikazzjoni
  • Jirreġistra t-tieni video li juri r-riżoluzzjoni
  • Jiftaħ talba ta' pull
  • Jwieġeb għal feedback tal-aġenti u tal-bnedmin
  • Jiskopri u jirrimedja build failures
  • Jeskala għal bniedem biss meta jkun meħtieġ ġudizzju
  • Jagħmel merge tal-bidla

Din l-imġiba tiddependi ħafna fuq l-istruttura u t-tooling speċifiċi ta’ dan ir-repożitorju u m’għandhiex titqies li tiġġeneralizza mingħajr investiment simili—mill-inqas, għadu mhux.

Entropija u garbage collection

Awtonomija sħiħa tal-aġent tintroduċi wkoll problemi ġodda. Codex jirreplika patterns li diġà jeżistu fir-repożitorju—even dawk mhux uniformi jew subottimali. Maż-żmien, dan inevitabbilment iwassal għal drift.

Fil-bidu, il-bnedmin indirizzaw dan manwalment. It-tim tagħna kien iqatta’ kull Ġimgħa (20% tal-ġimgħa) inaddaf “AI slop.” Mhux ta’ b’xejn, dan ma skalax.

Minflok, bdejna nikkodifikaw dak li nsejħu “golden principles” direttament fir-repożitorju u bnejna proċess rikorrenti ta’ cleanup. Dawn il-prinċipji huma regoli opinjonati u mekkaniċi li jżommu l-codebase leġibbli u konsistenti għal runs futuri tal-aġent. Pereżempju: (1) nippreferu packages ta’ utilità maqsuma fuq helpers magħmula bl-idejn biex inżommu l-invariants ċentralizzati, u (2) ma nittestjawx id-data “YOLO-style”—nivvalidaw il-konfini jew niddependu fuq SDKs typed sabiex l-aġent ma jkunx jista’ aċċidentalment jibni fuq forom guessed. Fuq cadence regolari, għandna sett ta’ tasks Codex fl-isfond li jiskannjaw għal devjazzjonijiet, jaġġornaw il-gradi tal-kwalità, u jiftħu talbiet ta’ pull immirati ta’ refactoring. Ħafna minn dawn jistgħu jiġu riveduti f’inqas minn minuta u jiġu automerged.

Dan jaħdem bħall-garbage collection. Id-dejn tekniku huwa bħal self b’interess għoli: kważi dejjem aħjar tnaqqsu kontinwament f’inkrementi żgħar milli tħallih jakkumula u tindirizzah f’mewġiet ta’ uġigħ. It-togħma umana tinqabad darba, imbagħad tiġi infurzata kontinwament fuq kull linja ta’ kodiċi. Dan jippermettilna wkoll naqbdu u nsolvu patterns ħżiena kuljum, minflok inħalluhom jinfirxu fil-codebase għal jiem jew ġimgħat.

X’għadna nitgħallmu

Din l-istrateġija s’issa ħadmet tajjeb sal-launch intern u l-adozzjoni f’OpenAI. Il-bini ta’ prodott reali għal utenti reali għen biex jorbot l-investimenti tagħna mar-realtà u jiggwidana lejn manutenzjoni fit-tul.

Li għadna ma nafux hu kif il-koerenza arkitettonika tevolvi fuq snin f’sistema kompletament ġġenerata mill-aġent. Għadna nitgħallmu fejn il-ġudizzju uman iżid l-aktar leverage u kif nikkodifikaw dak il-ġudizzju biex jakkumula. Lanqas ma nafu kif din is-sistema se tevolvi hekk kif il-mudelli jkomplu jsiru aktar kapaċi maż-żmien.

Dak li sar ċar: il-bini tas-software xorta jitlob dixxiplina, iżda d-dixxiplina tidher aktar fl-iscaffolding milli fil-kodiċi. L-għodod, l-astrazzjonijiet, u l-feedback loops li jżommu l-codebase koerenti huma dejjem aktar importanti.

L-aktar sfidi diffiċli tagħna issa jiffokaw fuq id-disinn ta’ ambjenti, feedback loops, u sistemi ta’ kontroll li jgħinu lill-aġenti jilħqu l-għan tagħna: jibnu u jżommu software kumpless u affidabbli fuq skala kbira.

Hekk kif aġenti bħal Codex jieħdu fuqhom porzjonijiet akbar miċ-ċiklu tal-ħajja tas-software, dawn il-mistoqsijiet se jkunu saħansitra aktar importanti. Nittamaw li l-qsim ta’ xi lezzjonijiet bikrin jgħinek tirraġuna dwar fejn tinvesti l-isforz tiegħek sabiex tkun tista’ sempliċement tibni affarijiet.

Awtur

Ryan Lopopolo

Ringrazzjamenti

Ringrazzjament speċjali lil Victor Zhu u Zach Brock li kkontribwew għall-post, kif ukoll lit-tim kollu li bena dan il-prodott ġdid.