Codex CLI(เปิดในหน้าต่างใหม่) คือเอเจนต์ซอฟต์แวร์ท้องถิ่นแบบข้ามแพลตฟอร์มของเรา ถูกออกแบบมาเพื่อสร้างการเปลี่ยนแปลงซอฟต์แวร์ที่มีคุณภาพสูงและเชื่อถือได้ พร้อมทั้งทำงานอย่างปลอดภัยและมีประสิทธิภาพบนเครื่องของคุณ เราได้เรียนรู้มากมายเกี่ยวกับการสร้างเอเจนต์ซอฟต์แวร์ระดับโลก ตั้งแต่เราเปิดตัว CLI ครั้งแรกในเดือนเมษายน เพื่ออธิบายข้อมูลเชิงลึกเหล่านี้ โพสต์นี้คือโพสต์แรกในชุดบทความต่อเนื่องที่เราจะสำรวจการทำงานของ Codex และบทเรียนที่เรียนรู้ที่ได้จากประสบการณ์จริง (หากต้องการดูรายละเอียดเชิงลึกเกี่ยวกับวิธีการสร้าง Codex CLI โปรดดูที่ Repository โอเพ่นซอร์สของเราที่ https://github.com/openai/codex(เปิดในหน้าต่างใหม่) หลายรายละเอียดเชิงลึกเกี่ยวกับการตัดสินใจด้านการออกแบบของเราถูกเก็บไว้ใน GitHub Issues และ Pull Requests สำหรับผู้ที่สนใจศึกษาเพิ่มเติม
เพื่อเริ่มต้น เราจะมุ่งเน้นที่ ลูปเอเจนต์ ซึ่งเป็นตรรกะหลักใน Codex CLI ที่ทำหน้าที่การประสานการโต้ตอบระหว่างผู้ใช้ โมเดล และเครื่องมือที่โมเดลเรียกใช้เพื่อทำงานซอฟต์แวร์ที่มีความหมาย เราหวังว่าโพสต์นี้จะทำให้คุณเข้าใจบทบาทของเอเจนต์ (หรือ "โครงสร้างควบคุม") ของเราในการใช้ประโยชน์จาก LLM ได้ดีขึ้น
ก่อนที่เราจะเริ่มลงรายละเอียด เราขอชี้แจงเกี่ยวกับคำศัพท์สักเล็กน้อย ที่ OpenAI "Codex" หมายถึงชุดผลิตภัณฑ์ซอฟต์แวร์เอเจนต์ ซึ่งรวมถึง Codex CLI, Codex Cloud และส่วนขยาย Codex บน VS Code โพสต์นี้มุ่งเน้นไปที่ โครงสร้างควบคุม ของ Codex ซึ่งทำหน้าที่เป็นลูปเอเจนต์แกนกลางและตรรกะการประมวลผลที่รองรับประสบการณ์ทั้งหมดของ Codex และถูกเผยให้ใช้งานผ่าน Codex CLI เพื่อความง่ายในการอธิบาย เราจะถือว่า "Codex" และ "Codex CLI" ใช้แทนกันได้ในที่นี้
หัวใจสำคัญของเอเจนต์ AI ทุกตัวคือสิ่งที่เรียกว่า "ลูปเอเจนต์" ภาพประกอบแบบง่ายของลูปเอเจนต์มีลักษณะดังนี้
ขั้นแรกเอเจนต์จะนำอินพุตจากผู้ใช้มาใส่ในชุดคำสั่งข้อความที่มันจัดเตรียมให้โมเดล ซึ่งรู้จักกันในนามว่าคำสั่ง
ขั้นตอนถัดไปคือการส่งคำสั่งของเราไปให้โมเดลและขอให้มันสร้างคำตอบ ซึ่งกระบวนการนี้เรียกว่า การอนุมาน ระหว่างการอนุมาน ที่เป็นข้อความจะถูกแปลงเป็นลำดับของโทเค็น(เปิดในหน้าต่างใหม่)อินพุต ซึ่งเป็นตัวเลขที่ชี้ตำแหน่งคำในคลังคำศัพท์ของโมเดล จากนั้นโทเค็นเหล่านี้จะถูกใช้เพื่อสุ่มตัวอย่างโมเดล ซึ่งจะสร้างลำดับใหม่ของโทเค็นเอาต์พุต
โทเค็นเอาต์พุตจะถูกแปลกลับเป็นข้อความ ซึ่งจะกลายเป็นการตอบกลับของโมเดล เนื่องจากโทเค็นถูกสร้างขึ้นทีละน้อย การแปลนี้จึงสามารถเกิดขึ้นระหว่างที่โมเดลทำงานได้ นี่จึงเป็นเหตุผลว่าทำไมแอปพลิเคชันหลายตัวที่ใช้ LLM จึงแสดงผลแบบสตรีมมิ่ง ในทางปฏิบัติการอนุมานมักถูกซ่อนอยู่หลัง API ที่ทำงานกับข้อความ โดยซ่อนรายละเอียดของ Tokenization
ผลลัพธ์จากขั้นตอนการอนุมานคือ โมเดลจะเลือก (1) ให้คำตอบสุดท้ายต่ออินพุตของผู้ใช้ หรือ (2) ขอให้เอเจนต์เรียกใช้เครื่องมือ (ตัวอย่างเช่น "รัน ls แล้วรายงานผล") ในกรณีที่(2) เอเจนต์จะดำเนินการเรียกใช้เครื่องมือและเพิ่มผลลัพธ์ต่อท้ายคำสั่งต้นฉบับ เอาต์พุตนี้ใช้เพื่อสร้างอินพุตใหม่สำหรับการส่งคำขอไปยังโมเดลอีกครั้ง จากนั้นเอเจนต์สามารถนำข้อมูลใหม่นี้มาพิจารณาและลองใหม่ได้
กระบวนการนี้จะทำซ้ำไปเรื่อยๆ จนกว่าโมเดลจะหยุดการเรียกใช้เครื่องมือ และสร้างข้อความสำหรับผู้ใช้แทน (เรียกว่า ข้อความผู้ช่วย ในโมเดลของ OpenAI) ในหลายกรณีข้อความนี้จะตอบคำขอเดิมของผู้ใช้โดยตรง แต่บางครั้งก็อาจเป็นคำถามติดตามเพิ่มเติมสำหรับผู้ใช้ได้เช่นกัน
เนื่องจากเอเจนต์สามารถเรียกใช้เครื่องมือที่เปลี่ยนแปลงสภาพแวดล้อมภายในเครื่องได้ ผลลัพธ์ของมันจึงไม่จำกัดอยู่แค่ข้อความตอบกลับของผู้ช่วย บ่อยครั้งผลลัพธ์สำคัญของซอฟต์แวร์เอเจนต์คือโค้ดที่มันสร้างหรือปรับแก้ในเครื่องของคุณ ถึงอย่างนั้น แต่ละรอบก็จะปิดท้ายด้วยข้อความจากผู้ช่วยเสมอ เช่น ฉันเพิ่ม architecture.md ให้ตามที่คุณต้องการแล้ว" ซึ่งเป็นสัญญาณว่าลูปของเอเจนต์สิ้นสุดลง สำหรับเอเจนต์ ถือว่างานของมันเสร็จเรียบร้อย และการควบคุมจะถูกส่งกลับไปยังผู้ใช้
กระบวนการตั้งแต่ อินพุตของผู้ใช้ ให้ข้อมูลจนถึง การตอบกลับของเอเจนต์ ตามที่เห็นในไดอะแกรม ถือว่าเป็นหนึ่งเทิร์นของการสนทนา (หรือหนึ่ง เธรด ใน Codex) แม้ว่าเทิร์นของบทสนทนาอาจมีการวนซ้ำหลายครั้งระหว่าง การอนุมานโมเดล และการเรียกใช้เครื่องมือ เมื่อใดก็ตามที่คุณส่งข้อความใหม่ในบทสนทนาเดิม ระบบจะรวมประวัติการสนทนาไว้ในคำสั่งของเทิร์นถัดไปด้วย ซึ่งประกอบด้วยข้อความและการเรียกใช้เครื่องมือจากเทิร์นก่อนหน้า
ซึ่งหมายความว่าเมื่อบทสนทนายาวขึ้น ความยาวของคำสั่งที่ใช้ในการสุ่มโมเดลก็จะเพิ่มขึ้นด้วย ความยาวนี้มีความสำคัญเพราะทุกโมเดลมี หน้าต่างบริบท ซึ่งเป็นจำนวนโทเค็นสูงสุดที่สามารถใช้ได้ในการเรียกใช้งานการอนุมานหนึ่งครั้ง โปรดทราบว่าหน้าต่างนี้รวมทั้งโทเค็นอินพุต และ โทเค็นเอาต์พุตด้วย อย่างที่คุณคงนึกภาพออก เอเจนต์อาจตัดสินใจเรียกใช้เครื่องมือหลายร้อยครั้งภายในเทิร์นเดียว ซึ่งอาจทำให้หน้าต่างบริบทถูกใช้จนหมดได้ ด้วยเหตุนี้ การจัดการหน้าต่างบริบท จึงเป็นหนึ่งในความรับผิดชอบมากมายของเอเจนต์ ตอนนี้มาดูกันว่า Codex ดำเนินการลูปเอเจนต์อย่างไร
Codex CLI ส่งคำขอ HTTP ไปยัง Responses API(เปิดในหน้าต่างใหม่) เพื่อดำเนินการอนุมานโมเดล เราจะพิจารณาว่าข้อมูลถูกส่งผ่านใน Codex อย่างไร โดย Codex ใช้ Responses API ในการควบคุมลูปของเอเจนต์
ปลายทางของ Responses API ที่ Codex CLI ใช้นั้นสามารถกำหนดค่าได้(เปิดในหน้าต่างใหม่) จึงสามารถใช้ร่วมกับปลายทางใดๆ ที่ รองรับ Responses API(เปิดในหน้าต่างใหม่) ได้
- เมื่อใช้การเข้าสู่ระบบ ChatGPT(เปิดในหน้าต่างใหม่) กับ Codex CLI จะใช้
https://chatgpt.com/backend-api/codex/responsesเป็นปลายทาง Endpoint - เมื่อใช้การยืนยันตัวตนด้วยคีย์ API(เปิดในหน้าต่างใหม่) กับโมเดลที่โฮสต์โดย OpenAI จะมีการใช้
https://api.openai.com/v1/responsesเป็นปลายทาง Endpoint - เมื่อเรียกใช้ Codex CLI ด้วย
--ossเพื่อใช้ gpt-oss กับ ollama 0.13.4+(เปิดในหน้าต่างใหม่) หรือ LM Studio 0.3.39+(เปิดในหน้าต่างใหม่) จะถูกตั้งค่าเริ่มต้นเป็นhttp://localhost:11434/v1/responsesที่ทำงานอยู่ในเครื่องของคุณ - Codex CLI สามารถใช้ร่วมกับ Responses API ที่โฮสต์โดยผู้ให้บริการคลาวด์ เช่น Azure
มาสำรวจกันว่า Codex สร้างคำสั่งสำหรับการเรียกใช้งานการอนุมานครั้งแรกในบทสนทนาอย่างไร
ในฐานะผู้ใช้งานปลายทาง คุณไม่ได้เป็นคนระบุคำสั่งแบบคำต่อคำที่ใช้ในการสุ่มผลลัพธ์จากโมเดลเมื่อเรียกใช้ Responses API สิ่งที่คุณทำคือระบุชนิดของข้อมูลอินพุตในคำสั่ง ส่วนเซิร์ฟเวอร์ Responses API จะเป็นผู้กำหนดว่าจะจัดข้อมูลเหล่านี้เป็นคำสั่งในรูปแบบใดให้สอดคล้องกับการทำงานของโมเดล ให้คิดว่าคำสั่งเป็นเหมือน "ลิสต์ขององค์ประกอบต่างๆ" และในส่วนนี้จะอธิบายว่าคำขอของคุณถูกแปลงเป็นลิสต์นั้นอย่างไร
สำหรับคำสั้งเริ่มต้นแต่ละรายการในลิสต์จะถูกผูกเข้ากับบทบาทที่กำหนดไว้ บทบาทกำหนดระดับความสำคัญของเนื้อหาที่เชื่อมโยง และมีค่าได้เป็นหนึ่งในรายการต่อไปนี้ (เรียงจากความสำคัญสูงสุดไปน้อยที่สุด) ซึ่งประกอบด้วย ระบบ นักพัฒนา ผู้ใช้ และผู้ช่วย
Responses API(เปิดในหน้าต่างใหม่) รับเพย์โหลด JSON ที่มีพารามิเตอร์หลายตัว เราจะมุ่งเน้นที่สามประเด็นดังนี้
คำสั่ง(เปิดในหน้าต่างใหม่): ข้อความจากระบบ (หรือผู้พัฒนา) ที่ถูกใส่เข้าไปในบริบทของโมเดลเครื่องมือ(เปิดในหน้าต่างใหม่): รายการเครื่องมือที่โมเดลอาจเรียกใช้ขณะสร้างคำตอบอินพุต(เปิดในหน้าต่างใหม่): รายการอินพุตของข้อความ ภาพ หรือไฟล์ที่ส่งให้กับโมเดล
ใน Codex ช่อง คำสั่ง จะถูกอ่านจาก model_instructions_file(เปิดในหน้าต่างใหม่) ใน ~/.codex/config.toml หากระบุไว้มิฉะนั้นจะใช้ base_instructions (เปิดในหน้าต่างใหม่) ที่เกี่ยวข้องกับโมเดล คำแนะนำเฉพาะโมเดลอยู่ใน Codex ฑepo และถูกรวมไว้ใน CLI (เช่น gpt-5.2-codex_prompt.md(เปิดในหน้าต่างใหม่))
ฟิลด์เครื่องมือ คือรายการของคำจำกัดความเครื่องมือที่สอดคล้องกับสคีมาที่กำหนดโดย Responses API สำหรับ Codex สิ่งนี้รวมถึงเครื่องมือที่มาจาก Codex CLI เครื่องมือที่มาจาก Responses API ซึ่งควรเปิดให้ Codex ใช้งานได้ รวมถึงเครื่องมือที่ผู้ใช้จัดเตรียมให้ โดยมักส่งผ่านเซิร์ฟเวอร์ MCP
ฟิลด์อินพุต ของ JSON Payload คือรายการของสิ่งต่างๆ Codex แทรกรายการต่อไปนี้(เปิดในหน้าต่างใหม่) ลงใน อินพุตก่อนเพิ่มข้อความของผู้ใช้
1 ข้อความที่มี role=developer ซึ่งอธิบายพื้นที่จำลองที่ ใช้กับเครื่องมือ shell ที่ Codex จัดเตรียมให้เท่านั้น ซึ่งกำหนดไว้ในส่วนของ เครื่องมือ กล่าวคือ เครื่องมืออื่น ๆ เช่นเครื่องมือที่มาจากเซิร์ฟเวอร์ MCP จะไม่ถูกแยกสภาพแวดล้อมโดย Codex และต้องรับผิดชอบในการบังคับใช้ข้อจำกัดความปลอดภัยของตนเอง
ข้อความถูกสร้างจากเทมเพลต โดยเนื้อหาสำคัญมาจาก Markdown Snippet ที่ถูกรวมอยู่ใน Codex CLI เช่น workspace_write.md(เปิดในหน้าต่างใหม่) และ on_request.md(เปิดในหน้าต่างใหม่):
2. ข้อความที่มี role=developer (ไม่จำเป็นต้องมี) ซึ่งมีเนื้อหาเป็นค่า developer_instructions ที่อ่านจากไฟล์ config.toml ของผู้ใช้
3. ข้อความที่มี role=user (ไม่จำเป็น) ซึ่งเนื้อหาคือ “คำแนะนำของผู้ใช้” โดยไม่ได้มาจากไฟล์เดียว แต่เป็น การรวบรวมจากหลายแหล่ง(เปิดในหน้าต่างใหม่) โดยทั่วไปแล้วคำสั่งที่ลงรายละเอียดมากกว่าจะปรากฏในภายหลังดังนี้
- เนื้อหาของ
AGENTS.override.mdและAGENTS.mdใน$CODEX_HOME - ภายใต้ขีดจำกัด (32 KiB ตามค่าเริ่มต้น) ให้ค้นหาในแต่ละโฟลเดอร์จาก Git/project root ของ
cwd(หากมีอยู่) ไปจนถึงcwdเอง โดยเพิ่มเนื้อหาของไฟล์ใดๆ ในAGENTS.override.mdAGENTS.mdหรือชื่อไฟล์ใดๆ ที่ระบุโดยproject_doc_fallback_filenames in config.toml - หากมีการกำหนดค่า ทักษะ(เปิดในหน้าต่างใหม่) ไว้แล้ว ไม่ว่าจะเป็น
- คำนำสั้นๆ เกี่ยวกับทักษะ
- Skill Metadata(เปิดในหน้าต่างใหม่) สำหรับทักษะแต่ละรายการ
- ส่วนเกี่ยวกับ วิธีการใช้ทักษะ(เปิดในหน้าต่างใหม่)
4. ข้อความที่มี role=user ซึ่งอธิบายสภาพแวดล้อมในพื้นที่ที่เอเจนต์กำลังทำงานอยู่ในขณะนี้ ระบุไดเรกทอรีการทำงานปัจจุบันและเชลล์ของผู้ใช้(เปิดในหน้าต่างใหม่):
เมื่อ Codex ทำการประมวลผลทั้งหมดข้างต้นเพื่อเตรียมอินพุตเสร็จแล้ว ก็จะเพิ่มข้อความของผู้ใช้เข้าไปเพื่อเริ่มการสนทนา
ตัวอย่างก่อนหน้าโฟกัสที่เนื้อหาของแต่ละข้อความ แต่ต้องสังเกตว่าแต่ละรายการของ อินพุต เป็นวัตถุ JSON ที่ประกอบด้วย ชนิด บทบาท(เปิดในหน้าต่างใหม่) และเนื้อหาดังนี้:
เมื่อ Codex สร้าง JSON Payload แบบเต็มเพื่อส่งไปยัง Responses API แล้ว จะทำการส่งคำขอ HTTP POST พร้อมกับส่วน Authorization โดยขึ้นอยู่กับการกำหนดค่า Endpoint ของ Responses API ใน ~/.codex/config.toml (จะมีการเพิ่มส่วนหัว HTTP และพารามิเตอร์ของคำขอเพิ่มเติมหากมีการระบุไว้)
เมื่อคำขอถูกส่งไปยังเซิร์ฟเวอร์ OpenAI Responses API เซิร์ฟเวอร์จะใช้ JSON เพื่อสร้างคำสั่งให้โมเดลตามรูปแบบนี้ (ทั้งนี้ การใช้งานแบบปรับแต่งเองอาจเลือกแนวทางอื่น)
จะเห็นได้ว่าลำดับของสามรายการแรกในพรอมต์นั้นเป็นสิ่งที่เซิร์ฟเวอร์เป็นผู้กำหนด ไม่ใช่ฝั่งไคลเอนต์ อย่างไรก็ตามในบรรดาสามรายการนั้น มีเพียงเนื้อหาของข้อความระบบ เท่านั้นที่เซิร์ฟเวอร์ควบคุมด้วย เนื่องจาก เครื่องมือ และ คำสั่ง ถูกกำหนดโดยไคลเอนต์ จากนั้นตามด้วย อินพุต จาก JSON Payload เพื่อให้คำสั่งสมบูรณ์
เมื่อเราจัดเตรียมคำสั่งเสร็จแล้ว เราก็พร้อมที่จะเรียกใช้งานโมเดลเพื่อสร้างผลลัพธ์
การส่ง HTTP request ไปยัง Responses API ถือเป็นการเปิด "เทิร์นแรก" ของบทสนทนาใน Codex เซิร์ฟเวอร์จะตอบกลับด้วยสตรีม Server-Sent Events (SSE(เปิดในหน้าต่างใหม่)) ข้อมูลของแต่ละเหตุการณ์เป็น JSON Payload ที่มี "ประเภท" ซึ่งเริ่มต้นด้วย "การตอบกลับ" ซึ่งอาจมีลักษณะดังต่อไปนี้ (สามารถดูรายการเหตุการณ์ทั้งหมดได้ใน เอกสาร API(เปิดในหน้าต่างใหม่) ของเรา):
Codex รับสตรีมของอีเวนต์เข้ามา (เปิดในหน้าต่างใหม่)และเผยแพร่เหตุการณ์เหล่านั้นใหม่ในรูปของออบเจ็กต์เหตุการณ์ภายในที่ไคลเอนต์สามารถนำไปใช้ได้ อีเวนต์อย่าง response.output_text.delta ใช้เพื่อรองรับการสตรีมใน UI ในขณะที่อีเวนต์อื่นๆ เช่น response.output_item.added จะถูกแปลงเป็นออบเจ็กต์ที่ถูกต่อท้ายไปยังอินพุต สำหรับการเรียกใช้ Responses API ครั้งถัดไป
สมมติว่าคำขอแรกไปยัง Responses API มีอีเวนต์ response.output_item.done สองอีเวนต์: อีเวนต์หนึ่งมี type=การให้เหตุผล และอีกอีเวนต์หนึ่งมี type=function_call อีเวนต์เหล่านี้ต้องแสดงในฟิลด์อินพุต ของ JSON เมื่อเราส่งคำถามไปยังโมเดลอีกครั้งพร้อมกับการตอบกลับจากการเรียกใช้เครื่องมือ
คำสั่งที่ได้ซึ่งใช้ในการสุ่มตัวอย่างโมเดลสำหรับคำค้นหาถัดไปจะมีลักษณะดังนี้:
จะสังเกตเห็นได้ว่าคำสั่งเก่า เป็นคำนำหน้าที่ตรงกันทุกประการ ของคำสั่งใหม่ สิ่งนี้ถูกออกแบบไว้โดยตั้งใจเพื่อช่วยให้คำขอถัดไปมีประสิทธิภาพมากขึ้นอย่างมาก เพราะช่วยให้เราใช้ประโยชน์จาก การแคชคำสั่ง (ซึ่งเราจะพูดถึงในหัวข้อถัดไปเกี่ยวกับประสิทธิภาพการทำงาน)
เมื่อย้อนกลับไปดูแผนภาพแรกของลูปเอเจนต์ เราจะเห็นว่าระหว่างการอนุมานและการเรียกใช้เครื่องมืออาจมีการวนซ้ำหลายครั้ง คำสั่งอาจขยายต่อไปจนกว่าเราจะได้รับข้อความจากผู้ช่วยซึ่งบ่งบอกว่าถึงจุดสิ้นสุดของรอบแล้ว
ใน Codex CLI เราจะแสดงข้อความของผู้ช่วยห้ผู้ใช้เห็น และโฟกัสไปที่ช่องพิมพ์เพื่อบอกผู้ใช้ว่านี่คือ "เทิร์น" ของพวกเขาในการสนทนาต่อ หากผู้ใช้ตอบกลับ ข้อความของผู้ช่วยจากรอบก่อนหน้าและข้อความใหม่ของผู้ใช้จะต้องถูกผนวกเข้ากับอินพุตในคำขอ Responses API เพื่อเริ่มรอบใหม่
เนื่องจากเรากำลังสนทนาต่อเนื่อง ความยาวของอิพุตที่เราส่งไปยัง Responses API จึงเพิ่มขึ้นเรื่อยๆ
มาดูกันว่าคำสั่งที่เพิ่มขึ้นอย่างต่อเนื่องนี้มีความหมายต่อประสิทธิภาพอย่างไร
คุณอาจกำลังถามตัวเองว่า "เดี๋ยวนะ วงรอบของเอเจนต์มันมีความซับซ้อนเชิงกำลังสองตามปริมาณ JSON ที่ส่งไปยัง Responses API ตลอดการสนทนาหรือเปล่า" และคุณก็คิดถูกแล้ว แม้ว่า Responses API จะรองรับพารามิเตอร์ previous_response_id(เปิดในหน้าต่างใหม่) แบบไม่บังคับเพื่อบรรเทาปัญหานี้ แต่ Codex เลือกที่จะไม่ใช้มันในปัจจุบัน เพื่อให้คำขอคงความไร้สถานะ และรองรับโหมด Zero Data Retention (ZDR)
การหลีกเลี่ยง previous_response_id ทำให้ทุกอย่างง่ายขึ้นสำหรับผู้ให้บริการของ Responses API เพราะทำให้มั่นใจได้ว่าทุกคำขอเป็นแบบไร้สถานะ นอกจากนี้ยังทำให้การรองรับลูกค้าที่เลือกใช้ Zero Data Retention (ZDR)(เปิดในหน้าต่างใหม่) เป็นเรื่องที่ทำได้โดยตรง เนื่องจากการจัดเก็บข้อมูลที่จำเป็นเพื่อรองรับ previous_response_id จะขัดแย้งกับ ZDR โปรดทราบว่าลูกค้า ZDR ยังคงได้รับประโยชน์จากข้อความการให้เหตุผลที่เป็นกรรมสิทธิ์จากรอบก่อนหน้า เนื่องจาก encrypted_content ที่เกี่ยวข้องสามารถถอดรหัสได้บนเซิร์ฟเวอร์ (OpenAI เก็บรักษากุญแจถอดรหัสของลูกค้า ZDR ไว้ แต่ไม่เก็บข้อมูลของลูกค้า.) ดู PR #642(เปิดในหน้าต่างใหม่) และ #1641(เปิดในหน้าต่างใหม่) สำหรับการเปลี่ยนแปลงที่เกี่ยวข้องกับ Codex เพื่อรองรับ ZDR
โดยทั่วไปแล้ว ค่าใช้จ่ายจากการสุ่มโมเดลมีความสำคัญเหนือกว่าค่าใช้จ่ายด้านเครือข่าย ทำให้การสุ่มเป็นจุดที่เราต้องให้ความสำคัญในการเพิ่มประสิทธิภาพ นี่คือเหตุผลว่าทำไมการเก็บแคชคำสั่งจึงมีความสำคัญมาก เพราะช่วยให้เราสามารถนำการคำนวณจากการเรียกอนุมานครั้งก่อนกลับมาใช้ซ้ำได้ เมื่อมีการเข้าถึงข้อมูลจากแคชสำเร็จ การสุ่มตัวอย่างโมเดลจะเป็นเชิงเส้นแทนที่จะเป็นเชิงกำลังสอง เอกสาร การแคชคำสั่ง (เปิดในหน้าต่างใหม่)ของเราอธิบายเรื่องนี้ไว้อย่างละเอียด
การเข้าถึงแคชสำเร็จจะเกิดขึ้นได้ก็ต่อเมื่อมีการจับคู่ส่วนต้นของคำสั่งแบบตรงตัวเท่านั้น หากต้องการใช้ประโยชน์จากแคชให้เต็มที่ ให้จัดวางเนื้อหาคงที่อย่างคำแนะนำและตัวอย่างไว้ส่วนต้นของคำสั่ง แล้วนำข้อมูลที่เปลี่ยนไปตามผู้ใช้ไว้ส่วนท้าย สิ่งนี้ยังใช้กับภาพและเครื่องมือซึ่งต้องเหมือนกันทุกประการระหว่างคำขอ
เมื่อเข้าใจประเด็นนี้แล้ว มาดูกันว่ามีการทำงานแบบใดบ้างที่อาจทำให้เกิด "การเข้าถึงแคชไม่สำเร็จ" ใน Codex
- การเปลี่ยน
เครื่องมือที่มีให้กับโมเดลระหว่างการสนทนา - การเปลี่ยน
โมเดลที่เป็นเป้าหมายของคำขอ Responses API (ในทางปฏิบัติจะเปลี่ยนรายการที่สามใน prompt เดิม เนื่องจากมีคำสั่งเฉพาะโมเดล) - การแก้ไขการตั้งค่าแซนด์บ็อกซ์ การเปลี่ยนโหมดการอนุมัติ หรือการเปลี่ยนไดเรกทอรีที่ใช้งานอยู่
ทีม Codex ต้องรอบคอบเมื่อแนะนำฟีเจอร์ใหม่ใน Codex CLI ที่อาจทำให้การแคชคำสั่งเสียหาย ยกตัวอย่างเช่น การสนับสนุนเครื่องมือ MCP ในระยะแรกของเราได้ก่อให้เกิด ข้อบกพร่องที่เราไม่สามารถจัดเรียงรายการเครื่องมือในลำดับที่สอดคล้องกันได้(เปิดในหน้าต่างใหม่) ส่งผลให้เกิดการเข้าถึงแคชไม่สำเร็จ โปรดทราบว่าเครื่องมือ MCP อาจซับซ้อนเป็นพิเศษ เนื่องจากเซิร์ฟเวอร์ MCP สามารถเปลี่ยนรายการเครื่องมือที่มีให้ได้ทันทีผ่านการแจ้งเตือน notifications/tools/list_changed(เปิดในหน้าต่างใหม่) การยอมรับการแจ้งเตือนนี้ในระหว่างการสนทนาที่ยาวนานอาจทำให้เกิดการเข้าถึงแคชไม่สำเร็จที่มีค่าใช้จ่ายสูง
เมื่อเป็นไปได้เราจะจัดการการเปลี่ยนแปลงการกำหนดค่าที่เกิดขึ้นระหว่างการสนทนาโดยการเพิ่มข้อความใหม่ ลงในอินพุตเพื่อสะท้อนการเปลี่ยนแปลง แทนที่จะแก้ไขข้อความก่อนหน้า
- หากการกำหนดค่าแซนด์บ็อกซ์หรือโหมดการอนุมัติเปลี่ยนแปลง เราจะแทรก(เปิดในหน้าต่างใหม่)ข้อความ
role=developerใหม่ โดยใช้รูปแบบเดียวกับรายการ<permissions instructions>ต้นฉบับ - หากไดเรกทอรีการทำงานปัจจุบันเปลี่ยนแปลง เราจะแทรก(เปิดในหน้าต่างใหม่)ข้อความ
role=userใหม่ที่มีรูปแบบเดียวกันกับ<environment_context>ต้นฉบับ
เราทุ่มเทอย่างมากเพื่อให้มั่นใจว่าแคชถูกใช้งานได้อย่างมีประสิทธิภาพ มีทรัพยากรสำคัญอีกอย่างหนึ่งที่เราต้องจัดการ คือ ขอบเขตบริบท
กลยุทธ์ทั่วไปของเราเพื่อหลีกเลี่ยงการที่หน้าต่างบริบทหมดลงคือการบีบอัดบทสนทนาเมื่อจำนวนโทเค็นเกินเกณฑ์ที่กำหนดไว้ เราจะแทนที่ อินพุตด้วยรายการใหม่ที่มีขนาดเล็กลง ซึ่งเป็นตัวแทนของบทสนทนา ทำให้เอเจนต์สามารถดำเนินการต่อไปได้โดยมีความเข้าใจว่าเกิดอะไรขึ้นมาจนถึงตอนนี้ การนำการบีบอัดมาใช้งาน(เปิดในหน้าต่างใหม่)ในระยะแรก กำหนดให้ผู้ใช้ต้องเรียกใช้คำสั่ง /compact ด้วยตนเอง ซึ่งจะทำการเรียก Responses API โดยใช้บทสนทนาที่มีอยู่ร่วมกับคำสั่งแบบกำหนดเองสำหรับการสรุป(เปิดในหน้าต่างใหม่) Codex ใช้ข้อความจากผู้ช่วยที่มีบทสรุปเป็น อินพุต(เปิดในหน้าต่างใหม่)ใหม่สำหรับการสนทนาเทิร์นถัดไป
นับตั้งแต่นั้นมา Responses API ได้พัฒนาเพื่อรองรับ /responses/compact Endpoint(เปิดในหน้าต่างใหม่) พิเศษที่ทำการบีบอัดได้อย่างมีประสิทธิภาพมากขึ้น ระบบจะส่งคืนรายการของสิ่งต่างๆ(เปิดในหน้าต่างใหม่) ที่สามารถใช้แทนอินพุตก่อนหน้าเพื่อสนทนาต่อได้ พร้อมทั้งเพิ่มพื้นที่ว่างในหน้าต่างบริบท รายการนี้ประกอบด้วยรายการพิเศษอย่าง type=compaction พร้อมรายการ encrypted_content ที่รักษาความเข้าใจแฝงของโมเดลเกี่ยวกับบทสนทนาต้นฉบับ ขณะนี้ Codex ใช้ Endpoint นี้โดยอัตโนมัติเพื่อบีบอัดบทสนทนาเมื่อ auto_compact_limit(เปิดในหน้าต่างใหม่) เกินขีดจำกัด
เราได้แนะนำลูปของเอเจนต์ใน Codex และอธิบายว่า Codex สร้างและจัดการบริบทอย่างไรเมื่อเรียกใช้งานโมเดล ในระหว่างการอธิบาย เราได้ชี้ให้เห็นข้อควรระวังและแนวทางปฏิบัติที่เหมาะสมสำหรับผู้ที่สร้างลูปเอเจนต์บน Responses API
แม้ว่าลูปเอเจนต์จะเป็นรากฐานสำหรับ Codex แต่นี่ก็เป็นเพียงจุดเริ่มต้นเท่านั้น ในโพสต์ถัดไปเราจะเจาะลึกสถาปัตยกรรมของ CLI สำรวจวิธีการใช้งานเครื่องมือ และพิจารณาโมเดลการแซนด์บ็อกซ์ของ Codex อย่างละเอียด


