Codex CLI(नवीन विंडोमध्ये उघडेल) हा आमचा क्रॉस-प्लॅटफॉर्म स्थानिक सॉफ्टवेअर एजंट आहे, जो तुमच्या मशीनवर सुरक्षित आणि कार्यक्षमपणे कार्य करताना उच्च-गुणवत्तेचे, विश्वासार्ह सॉफ्टवेअर बदल तयार करण्यासाठी डिझाइन केलेला आहे. आम्ही एप्रिलमध्ये CLI प्रथम लॉन्च केल्यापासून जागतिक दर्जाचा सॉफ्टवेअर एजंट कसा तयार करायचा याबद्दल खूप काही शिकलो आहोत. त्या अंतर्दृष्टी उलगडण्यासाठी, Codex कसे कार्य करते याच्या विविध पैलूंचा तसेच कठोर परिश्रमातून मिळालेल्या धड्यांचा तुम्ही अभ्यास करू अशा चालू मालिकेतील हा पहिला लेख आहे. (Codex CLI कसा तयार केला आहे याबद्दल अधिक तपशीलवार माहिती मिळवण्यासाठी, आमच्या ओपन सोर्स रिपॉझिटरीला https://github.com/openai/codex(नवीन विंडोमध्ये उघडेल) येथे भेट द्या. आमच्या डिझाइन निर्णयांमधील अनेक सूक्ष्म तपशील GitHub issues आणि पुल रिक्वेस्टमध्ये नोंदवलेले आहेत, जर तुम्हाला अधिक जाणून घ्यायचे असेल तर.)
सुरुवात करण्यासाठी, तुम्ही एजंट लूप वर लक्ष केंद्रित करू, जो Codex CLI मधील मुख्य लॉजिक आहे जो वापरकर्ता, मॉडेल, आणि मॉडेल ज्या साधनांना अर्थपूर्ण सॉफ्टवेअर काम करण्यासाठी कॉल करतो त्यांच्यातील परस्परसंवादाचे ऑर्केस्ट्रेशन करण्यासाठी जबाबदार आहे. आम्हाला आशा आहे की ही पोस्ट LLM चा उपयोग करण्यात आमचा एजंट (किंवा “हार्नेस”) कोणती भूमिका बजावतो याबद्दल तुम्हाला चांगली कल्पना देईल.
आम्ही सुरुवात करण्यापूर्वी, संज्ञांबद्दल एक झटपट टीप: OpenAI मध्ये, “Codex” हा Codex CLI, Codex Cloud, आणि Codex VS Code extension यांसह सॉफ्टवेअर एजंट ऑफरिंग्जचा एक संच आहे. ही पोस्ट Codex harness वर लक्ष केंद्रित करते, जे मुख्य एजंट लूप आणि कार्यान्वयन तर्क प्रदान करते, जे सर्व Codex अनुभवांच्या पायाभूत स्तरावर आहे आणि Codex CLI द्वारे प्रदर्शित केले जाते. येथे सोयीसाठी, आम्ही “Codex” आणि “Codex CLI” या संज्ञा परस्परविनिमयाने वापरू.
प्रत्येक AI एजंटच्या केंद्रस्थानी “एजंट लूप” नावाची गोष्ट आहे. एजंट लूपचे एक साधे चित्रण असे दिसते:
सुरुवातीला, एजंट वापरकर्त्याकडून इनपुट घेतो, ज्याचा समावेश तो प्रॉम्प्ट म्हणून ओळखल्या जाणाऱ्या मॉडेलसाठी तयार करत असलेल्या मजकूर सूचनांच्या संचात करतो.
पुढील पायरी म्हणजे मॉडेलला आमच्या सूचना पाठवून त्याची क्वेरी करणे आणि त्याला प्रतिसाद तयार करण्यास सांगणे, ही प्रक्रिया inference म्हणून ओळखली जाते. इनफरन्स दरम्यान, मजकूर प्रॉम्प्ट प्रथम इनपुट टोकन(नवीन विंडोमध्ये उघडेल)—मॉडेलच्या शब्दसंग्रहात निर्देशांक करणारे पूर्णांक—यांच्या अनुक्रमात अनुवादित केला जातो. ही टोकन नंतर मॉडेलचे नमुना घेण्यासाठी वापरली जातात, ज्यामुळे आउटपुट टोकनची एक नवीन अनुक्रम तयार होते.
आउटपुट टोकन पुन्हा मजकूरात भाषांतरित केले जातात, जे मॉडेलचा प्रतिसाद बनतो. टोकन क्रमाक्रमाने तयार होत असल्यामुळे, मॉडेल चालू असतानाच हे भाषांतर होऊ शकते, म्हणूनच अनेक LLM-आधारित अनुप्रयोग प्रवाहित आउटपुट दाखवतात. प्रत्यक्षात, अनुमान सहसा मजकुरावर कार्य करणाऱ्या API मागे एन्कॅप्स्युलेट केलेले असते, ज्यामुळे टोकनायझेशनचे तपशील अस्पष्ट होतात.
इन्फरन्स स्टेपच्या परिणामी, मॉडेल एकतर (1) वापरकर्त्याच्या मूळ इनपुटला अंतिम प्रतिसाद तयार करते, किंवा (2) टूल कॉल ची विनंती करते जी एजंटने पार पाडणे अपेक्षित असते (उदा., “ls चालवा आणि आउटपुट रिपोर्ट करा”). (२) च्या बाबतीत, एजंट टूल कॉल अंमलात आणतो आणि त्याचे आउटपुट मूळ प्रॉम्प्टला जोडतो. हा आउटपुट नवीन इनपुट तयार करण्यासाठी वापरला जातो, जो मॉडेलला पुन्हा क्वेरी करण्यासाठी वापरला जातो; त्यानंतर एजंट ही नवीन माहिती लक्षात घेऊन पुन्हा प्रयत्न करू शकतो.
ही प्रक्रिया तोपर्यंत पुन्हा पुन्हा होते, जोपर्यंत मॉडेल tool calls उत्सर्जित करणे थांबवते आणि त्याऐवजी वापरकर्त्यासाठी एक संदेश तयार करते (OpenAI मॉडेल्समध्ये याला assistant message असे म्हटले जाते). अनेक प्रकरणांमध्ये, हा संदेश थेट वापरकर्त्याच्या मूळ विनंतीचे उत्तर देतो, परंतु तो वापरकर्त्यासाठी एक पूरक प्रश्न देखील असू शकतो.
एजंट स्थानिक वातावरणात बदल करणारे टूल कॉल्स कार्यान्वित करू शकतो, त्यामुळे त्याचे “output” फक्त असिस्टंट मेसेजपुरते मर्यादित नाही. अनेक प्रकरणांमध्ये, सॉफ्टवेअर एजंटचे प्राथमिक आउटपुट म्हणजे तो तुमच्या मशीनवर लिहितो किंवा संपादित करतो तो कोड. तरीही, प्रत्येक वळण नेहमी सहाय्यकाच्या संदेशानेच संपते—उदाहरणार्थ, “मी तुम्ही मागितलेले architecture.md जोडले”—जे एजंट लूपमध्ये समाप्तीची अवस्था दर्शवते. एजंटच्या दृष्टिकोनातून, त्याचे कार्य पूर्ण झाले आहे आणि नियंत्रण वापरकर्त्याकडे परत जाते.
आकृतीमध्ये वापरकर्त्याचा इनपुट पासून एजंट प्रतिसाद पर्यंतचा प्रवास संभाषणाचा एक वळा (Codex मधील एक थ्रेड ) म्हणून ओळखला जातो. तथापि, या conversation turn मध्ये मॉडेल निष्कर्ष आणि टूल कॉल्स दरम्यान अनेक पुनरावृत्ती समाविष्ट असू शकतात. प्रत्येक वेळी तुम्ही विद्यमान संभाषणात नवीन संदेश पाठवता, तेव्हा संभाषणाचा इतिहास नवीन टर्नसाठीच्या प्रॉम्प्टचा भाग म्हणून समाविष्ट केला जातो, ज्यामध्ये मागील टर्नमधील संदेश आणि साधन कॉल्स समाविष्ट असतात:
याचा अर्थ असा की संभाषण जसजसे वाढते, तसतशी मॉडेलचे नमुने घेण्यासाठी वापरल्या जाणाऱ्या प्रॉम्प्टची लांबीही वाढते. ही लांबी महत्त्वाची आहे कारण प्रत्येक मॉडेलला कॉन्टेक्स्ट विंडो असते, जी एका अनुमान कॉलसाठी ते वापरू शकणाऱ्या टोकनची कमाल संख्या आहे. नोंद घ्या की या विंडोमध्ये इनपुट आणि आउटपुट टोकन दोन्ही समाविष्ट आहेत. जसे तुम्ही कल्पना करू शकता, एखादा एजंट एका टर्नमध्ये शेकडो टूल कॉल्स करण्याचा निर्णय घेऊ शकतो, ज्यामुळे कॉन्टेक्स्ट विंडो संभाव्यतः संपुष्टात येऊ शकते. या कारणासाठी, context window management ही एजंटच्या अनेक जबाबदाऱ्यांपैकी एक आहे. आता, Codex एजंट लूप कसा चालवतो ते पाहण्यासाठी चला खोलवर जाऊया.
Codex CLI HTTP विनंत्या Responses API(नवीन विंडोमध्ये उघडेल) कडे मॉडेल इन्फरन्स चालवण्यासाठी पाठवते. तुम्ही पाहू की Codex मधून माहिती कशी प्रवाहित होते, जे एजंट लूप चालवण्यासाठी Responses API वापरते.
Codex CLI वापरत असलेला Responses API एंडपॉइंट कॉन्फिगर करण्यायोग्य(नवीन विंडोमध्ये उघडेल) आहे, त्यामुळे तो Responses API लागू करणाऱ्या(नवीन विंडोमध्ये उघडेल) कोणत्याही एंडपॉइंटसह वापरता येतो:
- ChatGPT लॉगिन वापरताना(नवीन विंडोमध्ये उघडेल) Codex CLI सह, ते
https://chatgpt.com/backend-api/codex/responsesवापरतो एंडपॉइंट म्हणून - API-कुंजी प्रमाणीकरण वापरताना(नवीन विंडोमध्ये उघडेल) OpenAI होस्ट केलेल्या मॉडेल्ससह, ते
https://api.openai.com/v1/responsesवापरते एंडपॉइंट म्हणून - जेव्हा तुम्ही
--ossसह Codex CLI चालवता gpt-oss वापरण्यासाठी ollama 0.13.4+(नवीन विंडोमध्ये उघडेल) किंवा LM Studio 0.3.39+(नवीन विंडोमध्ये उघडेल) वापरण्यासाठी ते तुमच्या संगणकावर स्थानिकपणे चालणाऱ्याhttp://localhost:11434/v1/responsesवर डीफॉल्ट होते - Codex CLI चा वापर Azure सारख्या क्लाउड प्रदात्याद्वारे होस्ट केलेल्या Responses API सह केला जाऊ शकतो
चला, संभाषणातील पहिल्या अनुमान कॉलसाठी Codex प्रॉम्प्ट कसा तयार करतो ते शोधूया.
एंड युजर म्हणून, तुम्ही Responses API क्वेरी करताना मॉडेल सॅम्पल करण्यासाठी वापरलेला प्रॉम्प्ट शब्दशः निर्दिष्ट करत नाही. त्याऐवजी, तुम्ही तुमच्या क्वेरीचा भाग म्हणून विविध इनपुट प्रकार निर्दिष्ट करता, आणि Responses API सर्व्हर मॉडेल मॉडेलला वापरण्यासाठी डिझाइन केलेल्या प्रॉम्प्टमध्ये ही माहिती कशी संरचित करायची ते ठरवतो. तुम्ही प्रॉम्प्टला 'वस्तूंची यादी' म्हणून विचार करू शकता; या विभागात तुमची क्वेरी त्या यादीमध्ये कशी रूपांतरित होते ते स्पष्ट केले जाईल.
प्रारंभिक प्रॉम्प्टमध्ये, यादीतील प्रत्येक आयटम एका भूमिकेशी जोडलेला असतो. role हे संबंधित सामग्रीला किती वजन द्यावे हे दर्शवते आणि खालीलपैकी एक मूल्य असते (प्राधान्यक्रमाच्या उतरत्या क्रमाने): system, developer, user, assistant.
Responses API(नवीन विंडोमध्ये उघडेल) अनेक पॅरामीटर्ससह JSON पेलोड स्वीकारतो. आम्ही या तीन गोष्टींवर लक्ष केंद्रित करू:
सूचना(नवीन विंडोमध्ये उघडेल): मॉडेलच्या संदर्भात समाविष्ट केलेला प्रणाली (किंवा विकसक) संदेशtools(नवीन विंडोमध्ये उघडेल): प्रतिसाद तयार करताना मॉडेल कॉल करू शकणाऱ्या साधनांची यादीinput(नवीन विंडोमध्ये उघडेल): मॉडेलसाठी मजकूर, प्रतिमा किंवा फाइल इनपुट्सची यादी
Codex मध्ये, instructions फील्ड model_instructions_file(नवीन विंडोमध्ये उघडेल) मधून ~/.codex/config.toml मध्ये वाचले जाते, जर ते निर्दिष्ट केले असेल; अन्यथा, मॉडेलशी संबंधित base_instructions वापरल्या जातात(नवीन विंडोमध्ये उघडेल). मॉडेल-विशिष्ट सूचना Codex repo मध्ये उपलब्ध आहेत आणि CLI मध्ये समाविष्ट केल्या जातात (उदा., gpt-5.2-codex_prompt.md(नवीन विंडोमध्ये उघडेल)).
tools फील्ड ही Responses API द्वारे परिभाषित केलेल्या स्कीमा शी सुसंगत टूल परिभाषांची यादी आहे. Codex साठी, यामध्ये Codex CLI द्वारे प्रदान केलेली साधने, Codex ला उपलब्ध करून द्यायला हवीत अशी Responses API द्वारे प्रदान केलेली साधने, तसेच वापरकर्त्याने प्रदान केलेली साधने, साधारणपणे MCP servers द्वारे, यांचा समावेश होतो:
शेवटी, JSON payload मधील input फील्ड आयटम्सची यादी आहे. Codex खालील आयटम्स समाविष्ट करते(नवीन विंडोमध्ये उघडेल) input मध्ये वापरकर्ता संदेश जोडण्यापूर्वी:
1. role=developer असलेला संदेश जोtoolsविभागात परिभाषित केलेल्या फक्त Codex-प्रदान केलेल्या शेल टूल्ससाठी लागू होणाऱ्या सँडबॉक्सचे वर्णन करतो. म्हणजेच, MCP सर्व्हर्सकडून प्रदान केलेली इतर टूल्स Codex द्वारे सँडबॉक्स केलेली नसतात आणि त्यांच्या स्वतःच्या सुरक्षा उपायांची अंमलबजावणी करण्याची जबाबदारी त्यांचीच असते.
संदेश एका टेम्पलेटमधून तयार केला जातो, जिथे मुख्य सामग्रीचे भाग Codex CLI मध्ये समाविष्ट केलेल्या Markdown स्निपेट्समधून येतात, जसे की workspace_write.md(नवीन विंडोमध्ये उघडेल) आणि on_request.md(नवीन विंडोमध्ये उघडेल):
२. (पर्यायी) role=developer असलेला संदेश, ज्याची सामग्री वापरकर्त्याच्या config.toml फाइलमधून वाचलेल्या developer_instructions मूल्याशी संबंधित आहे.
3. (पर्यायी) role=user असलेला संदेश, ज्याचा मजकूर “वापरकर्ता सूचना” आहे, जो एका एकाच फाइलमधून घेतलेला नसून अनेक स्रोतांमधून एकत्रित केलेला(नवीन विंडोमध्ये उघडेल) आहे. सामान्यतः, अधिक विशिष्ट सूचना नंतर दिसतात:
$CODEX_HOMEमधीलAGENTS.override.mdआणिAGENTS.mdयांची सामग्री- मर्यादेच्या अधीन (डीफॉल्टनुसार 32 KiB),
cwdच्या Git/project root पासून (जर ते अस्तित्वात असेल तर)cwdपर्यंत प्रत्येक फोल्डरमध्ये पहा:AGENTS.override.mdपैकी कोणत्याहीचा मजकूर जोडा,AGENTS.md, किंवाconfig.tomlमधील project_doc_fallback_filenames द्वारे निर्दिष्ट केलेले कोणतेही फाइलनाव - जर कोणतीही कौशल्ये(नवीन विंडोमध्ये उघडेल) कॉन्फिगर केलेली असतील:
- कौशल्यांबद्दल एक लहान प्रस्तावना
- प्रत्येक कौशल्यासाठी कौशल्य मेटाडेटा(नवीन विंडोमध्ये उघडेल)
- कौशल्यांचा वापर कसा करावा(नवीन विंडोमध्ये उघडेल)यावर एक विभाग
4. role=user असलेला संदेश, जो एजंट सध्या ज्या स्थानिक वातावरणात कार्यरत आहे त्याचे वर्णन करतो. हे सध्याची कार्यरत निर्देशिका आणि वापरकर्त्याचा शेल निर्दिष्ट करते(नवीन विंडोमध्ये उघडेल):
एकदा Codex ने input प्रारंभ करण्यासाठी वरील सर्व गणना पूर्ण केल्यानंतर, ते संभाषण सुरू करण्यासाठी वापरकर्त्याचा संदेश जोडतो.
मागील उदाहरणे प्रत्येक संदेशाच्या सामग्रीवर केंद्रित होती, परंतु कृपया लक्षात घ्या की input मधील प्रत्येक घटक हा type, role(नवीन विंडोमध्ये उघडेल), आणि content असलेला JSON ऑब्जेक्ट आहे, खालीलप्रमाणे:
एकदा Codex पूर्ण JSON payload तयार करतो Responses API कडे पाठवण्यासाठी, तेव्हा ~/.codex/config.toml मध्ये Responses API एंडपॉइंट कसा कॉन्फिगर केला आहे त्यानुसार Authorization header सह HTTP POST विनंती करतो (जर अतिरिक्त HTTP headers आणि query parameters निर्दिष्ट केले असतील तर ते जोडले जातात).
जेव्हा OpenAI Responses API सर्व्हरला विनंती प्राप्त होते, तेव्हा ते JSON वापरून मॉडेलसाठी प्रॉम्प्ट खालीलप्रमाणे व्युत्पन्न करते (निश्चितच, Responses API ची कस्टम अंमलबजावणी वेगळा पर्याय निवडू शकते):
जसे तुम्ही पाहू शकता, प्रॉम्प्टमधील पहिल्या तीन आयटम्सचा क्रम क्लायंटने नाही, तर सर्व्हरने ठरवला जातो. असे असले तरी, त्या तीन घटकांपैकी, फक्त सिस्टम संदेश चे सामग्री सर्व्हरद्वारे नियंत्रित केली जाते, कारण tools आणि instructions क्लायंटद्वारे ठरवले जातात. प्रॉम्प्ट पूर्ण करण्यासाठी JSON पेलोडमधील input नंतर येते.
आता आमच्याकडे आमचा प्रॉम्प्ट आहे, त्यामुळे आम्ही मॉडेलचे नमुने घेण्यासाठी तयार आहोत.
Responses API कडे केलेली ही HTTP विनंती Codex मधील संभाषणाचा पहिला “टर्न” सुरू करते. सर्व्हर Server-Sent Events (SSE(नवीन विंडोमध्ये उघडेल)) प्रवाहासह प्रतिसाद देतो. प्रत्येक इव्हेंटचा data हा JSON पेलोड असतो ज्यामध्ये "type" असतो जो "response" ने सुरू होतो. तो काहीसा असा दिसू शकतो (इव्हेंट्सची संपूर्ण यादी आमच्या API docs(नवीन विंडोमध्ये उघडेल) मध्ये मिळू शकते):
Codex इव्हेंट्सच्या प्रवाहाचा वापर करतो(नवीन विंडोमध्ये उघडेल) आणि त्यांना क्लायंटद्वारे वापरता येतील अशा अंतर्गत इव्हेंट ऑब्जेक्ट्स म्हणून पुन्हा प्रकाशित करतो. response.output_text.delta सारखे इव्हेंट्स UI मध्ये स्ट्रिमिंगला समर्थन देण्यासाठी वापरले जातात, तर response.output_item.added सारखे इतर इव्हेंट्स ऑब्जेक्ट्समध्ये रूपांतरित केले जातात, जे पुढील Responses API कॉल्ससाठी input मध्ये जोडले जातात.
समजा Responses API ला केलेल्या पहिल्या विनंतीमध्ये दोन response.output_item.done इव्हेंट्स समाविष्ट आहेत: एक type=रीझनिंग सह आणि एक type=function_call सह. जेव्हा तुम्ही टूल कॉलच्या प्रतिसादासह मॉडेलला पुन्हा क्वेरी करतो, तेव्हा हे इव्हेंट्स JSON च्या input फील्डमध्ये दर्शविले जावे लागतील:
पुढील क्वेरीचा भाग म्हणून मॉडेलचे नमुना घेण्यासाठी वापरला जाणारा परिणामी प्रॉम्प्ट असा दिसेल:
विशेषतः, लक्षात घ्या की जुना प्रॉम्प्ट नव्या प्रॉम्प्टचा अचूक उपसर्ग आहे. हे जाणूनबुजून केले आहे, कारण यामुळे पुढील विनंत्या अधिक कार्यक्षम होतात, कारण यामुळे आम्हाला प्रॉम्प्ट कॅशिंग चा फायदा घेता येतो (ज्याबद्दल तुम्ही कामगिरीवरील पुढील विभागात चर्चा करू).
एजंट लूपच्या आमच्या पहिल्या आकृतीकडे मागे वळून पाहिल्यास, अनुमान आणि साधन कॉलिंग यांदरम्यान अनेक आवर्तनं असू शकतात. प्रॉम्प्ट सहाय्यक संदेश मिळेपर्यंत वाढत राहू शकतो, जो टर्नच्या समाप्तीचे संकेत देतो:
Codex CLI मध्ये, आम्ही वापरकर्त्याला सहाय्यक संदेश दाखवतो आणि वापरकर्त्याला हे सूचित करण्यासाठी रचयित्यावर लक्ष केंद्रित करतो की आता संभाषण पुढे नेण्याची त्यांची 'पाळी' आहे. जर वापरकर्ता प्रतिसाद देत असेल, तर नवीन टर्न सुरू करण्यासाठी Responses API विनंतीतील input मध्ये मागील टर्नमधील सहाय्यकाचा संदेश तसेच वापरकर्त्याचा नवीन संदेश, दोन्ही जोडले गेले पाहिजेत:
पुन्हा एकदा, कारण तुम्ही संभाषण सुरू ठेवत आहोत, आम्ही Responses API ला पाठवणाऱ्या input ची लांबी वाढतच जाते:
चला, या सतत वाढणाऱ्या प्रॉम्प्टचा कार्यक्षमतेवर काय परिणाम होतो ते पाहूया.
तुम्ही स्वतःला विचारत असाल, “थांबा, संभाषणाच्या कालावधीत Responses API कडे पाठवलेल्या JSON च्या प्रमाणाच्या दृष्टीने एजंट लूप quadratic नाही का?” आणि तुम्ही योग्य आहात. Responses API मध्ये ऐच्छिक previous_response_id(नवीन विंडोमध्ये उघडेल) पॅरामीटरचा सपोर्ट असला तरी, Codex आज ते वापरत नाही, मुख्यतः विनंत्या पूर्णपणे स्टेटलेस ठेवण्यासाठी आणि झीरो डेटा रिटेन्शन (ZDR) कॉन्फिगरेशन्सना सपोर्ट करण्यासाठी.
previous_response_id टाळल्याने रिस्पॉन्सेस API च्या प्रदात्यासाठी गोष्टी सोप्या होतात कारण त्यामुळे प्रत्येक विनंती stateless असल्याची खात्री होते. हे झीरो डेटा रिटेन्शन (ZDR)(नवीन विंडोमध्ये उघडेल) साठी निवड केलेल्या ग्राहकांना समर्थन देणे सोपे करते, कारण previous_response_id ला समर्थन देण्यासाठी आवश्यक डेटा साठवणे ZDR शी विसंगत ठरेल. लक्षात ठेवा की ZDR ग्राहकांना मागील टर्न्समधील मालकीच्या रीझनिंग संदेशांचा लाभ घेण्याची क्षमता गमवावी लागत नाही, कारण संबंधित encrypted_content सर्व्हरवर डीक्रिप्ट केले जाऊ शकते. (OpenAI ZDR ग्राहकाची डिक्रिप्शन की कायम ठेवते, परंतु त्यांचा डेटा नाही.) ZDR ला समर्थन देण्यासाठी Codex मधील संबंधित बदलांसाठी PRs #642(नवीन विंडोमध्ये उघडेल) आणि #1641(नवीन विंडोमध्ये उघडेल) पहा.
सामान्यतः, मॉडेलचे सॅम्पलिंग करण्याचा खर्च नेटवर्क ट्रॅफिकच्या खर्चापेक्षा जास्त असतो, ज्यामुळे सॅम्पलिंग आमच्या कार्यक्षमतेच्या प्रयत्नांचे प्राथमिक लक्ष्य बनते. म्हणूनच प्रॉम्प्ट कॅशिंग इतके महत्त्वाचे आहे, कारण ते आम्हाला मागील इनफरन्स कॉलमधील गणना पुन्हा वापरण्याची परवानगी देते. जेव्हा आम्हाला कॅशे हिट्स मिळतात, मॉडेलचे सॅम्पलिंग चौरसाऐवजी रेषीय असते. आमचे प्रॉम्प्ट कॅशिंग (नवीन विंडोमध्ये उघडेल)दस्तऐवज हे अधिक तपशीलवार स्पष्ट करतात:
कॅशे हिट्स फक्त प्रॉम्प्टमधील अचूक प्रीफिक्स जुळणाऱ्या स्थितीतच शक्य आहेत. कॅशिंगचे फायदे मिळवण्यासाठी, सूचना आणि उदाहरणे यांसारखी स्थिर सामग्री तुमच्या प्रॉम्प्टच्या सुरुवातीला ठेवा, आणि वापरकर्ता-विशिष्ट माहिती यांसारखी बदलणारी सामग्री शेवटी ठेवा. हे प्रतिमा आणि साधनांनाही लागू होते, ज्यांना विनंत्यांदरम्यान एकसारखे असणे आवश्यक आहे.
हे लक्षात घेऊन, Codex मध्ये कोणत्या प्रकारच्या ऑपरेशन्समुळे “cache miss” होऊ शकतो याचा विचार करूया:
- संभाषणाच्या मध्यभागी मॉडेलसाठी उपलब्ध असलेल्या
toolsमध्ये बदल करणे. - Responses API विनंतीचे लक्ष्य असलेल्या
मॉडेलमध्ये बदल करणे (प्रत्यक्षात, हे मूळ प्रॉम्प्टमधील तिसरा घटक बदलते, कारण त्यात मॉडेल-विशिष्ट सूचना असतात). - सँडबॉक्स कॉन्फिगरेशन, मंजुरी मोड किंवा सध्याची कार्यरत निर्देशिका बदलत आहे.
Codex CLI मध्ये प्रॉम्प्ट कॅशिंगला बाधा आणू शकणारी नवीन वैशिष्ट्ये सादर करताना Codex संघाने दक्ष असणे आवश्यक आहे. उदाहरणार्थ, MCP साधनांसाठी आमच्या सुरुवातीच्या समर्थनात एक बग आला ज्यामुळे आम्ही साधनांची यादी सुसंगत क्रमाने करू शकलो नाही(नवीन विंडोमध्ये उघडेल), ज्यामुळे कॅश मिसेस झाले. लक्षात ठेवा की MCP साधने विशेषतः क्लिष्ट असू शकतात कारण MCP सर्व्हर्स notifications/tools/list_changed(नवीन विंडोमध्ये उघडेल) सूचनेद्वारे ते पुरवतात त्या साधनांची यादी तात्काळ बदलू शकतात. लांब संभाषणाच्या मध्यभागी ही सूचना मान्य केल्यास महागडा कॅशे मिस होऊ शकतो.
जेव्हा शक्य असेल, तेव्हा आम्ही संभाषणाच्या मध्यात होणारे कॉन्फिगरेशन बदल प्रतिबिंबित करण्यासाठी input मध्ये नवीन संदेश जोडून हाताळतो, आधीचा संदेश बदलण्याऐवजी:
- जर सँडबॉक्स कॉन्फिगरेशन किंवा मंजुरी मोड बदलला, तर आम्ही नवीन(नवीन विंडोमध्ये उघडेल)
role=developerसंदेश<permissions instructions>आयटमसारख्याच फॉरमॅटमध्ये घालतो. - जर सध्याची कार्यरत निर्देशिका बदलली, तर आम्ही नवीन(नवीन विंडोमध्ये उघडेल)
role=userसंदेश मूळ<environment_context>प्रमाणेच स्वरूपात समाविष्ट करतो.
कार्यक्षमतेसाठी कॅशे हिट्स सुनिश्चित करण्यासाठी आम्ही मोठ्या प्रमाणात go करतो. आम्हाला व्यवस्थापित करावा लागणारा आणखी एक महत्त्वाचा संसाधन आहे: कॉन्टेक्स्ट विंडो.
संदर्भ विंडो संपून जाऊ नये यासाठी आमची सामान्य रणनीती म्हणजे टोकनची संख्या काही ठराविक मर्यादेपेक्षा जास्त झाली की संभाषण संक्षिप्त करणे. विशेषतः, आम्ही input ला संभाषणाचे प्रतिनिधित्व करणाऱ्या नवीन, लहान आयटम्सच्या यादीने बदलतो, ज्यामुळे एजंटला आतापर्यंत काय घडले आहे याची समज ठेवून पुढे सुरू ठेवता येते. कॉम्पॅक्शनच्या सुरुवातीच्या अंमलबजावणीसाठी(नवीन विंडोमध्ये उघडेल) वापरकर्त्याला /compact कमांड मॅन्युअली इनव्होक करावी लागली, जी विद्यमान संभाषणासह कस्टम सूचनांचा वापर करून Responses API ला क्वेरी करत असे सारांश(नवीन विंडोमध्ये उघडेल) करण्यासाठी. Codex ने सारांश असलेला परिणामी सहाय्य संदेश नवीन इनपुट(नवीन विंडोमध्ये उघडेल) म्हणून पुढील संभाषण फेऱ्यांसाठी वापरला.
तेव्हापासून, Responses API ने अधिक कार्यक्षमतेने कॉम्पॅक्शन करण्यासाठी समर्थन देणारा विशेष /responses/compact एंडपॉइंट(नवीन विंडोमध्ये उघडेल) विकसित केला आहे. हे आयटम्सची यादी(नवीन विंडोमध्ये उघडेल) परत करते, जी मागील इनपुट च्या जागी वापरता येते, ज्यामुळे कॉन्टेक्स्ट विंडो मोकळी होते आणि संभाषण सुरू ठेवता येते. या यादीमध्ये एक विशेष type=compaction आयटम समाविष्ट आहे, ज्यामध्ये एक अपारदर्शक encrypted_content आयटम आहे जो मूळ संभाषणाबद्दल मॉडेलची लॅटेंट समज जतन करतो. आता, Codex auto_compact_limit(नवीन विंडोमध्ये उघडेल) ओलांडल्यावर संभाषण संक्षिप्त करण्यासाठी हा एंडपॉइंट स्वयंचलितपणे वापरतो.
आम्ही Codex एजंट लूप सादर केला आहे आणि Codex मॉडेलला क्वेरी करताना तुमचा संदर्भ कसा तयार करतो आणि व्यवस्थापित करतो याची माहिती दिली आहे. या प्रवासात, आम्ही Responses API वर आधारित एजंट लूप तयार करणाऱ्या कोणालाही लागू होणाऱ्या व्यावहारिक विचार आणि सर्वोत्तम पद्धतींवर प्रकाश टाकला.
एजंट लूप Codex साठी पाया प्रदान करत असला तरी, ही केवळ सुरुवात आहे. आगामी पोस्ट्समध्ये, आम्ही CLI च्या आर्किटेक्चरमध्ये सखोल जाऊ, टूल वापर कसा अंमलात आणला आहे ते पाहू, आणि Codex च्या मॉडेलच्या सँडबॉक्सिंगकडे अधिक सविस्तर पाहू.


