డిప్లాయ్మెంట్ను సిమ్యులేట్ చేసి విడుదలకు ముందు మోడల్ ప్రవర్తనను అంచనా వేయడం
విడుదలకు ముందు అవాంఛిత మోడల్ ప్రవర్తనను మెరుగ్గా అంచనా వేయడానికి వాస్తవిక సంభాషణ సందర్భాలను ఉపయోగించడం.
కొత్త మోడల్ను విడుదల చేసే ముందు, ల్యాబ్లు అది ఏమి చేయగలదో మాత్రమే కాకుండా, వాస్తవ ప్రపంచ వినియోగంలో అది ఎలా ప్రవర్తించే అవకాశం ఉందో కూడా, అలాగే అది కొత్త ప్రమాదాలను ఎక్కడ తెచ్చే అవకాశం ఉందో కూడా అర్థం చేసుకోవాలి. సామర్థ్యాలు పెరిగే కొద్దీ ఇది మరింత ముఖ్యమవుతుంది. మా ప్రీ-డిప్లాయ్మెంట్ భద్రతా సమీక్షలో భాగంగా, మోడల్ ప్రవర్తనను అర్థం చేసుకోవడానికి మేము లక్షిత మూల్యాంకనాలు, రెడ్-టీమింగ్ మరియు ఇతర తనిఖీలను ఉపయోగిస్తాము. మోడల్ డిప్లాయ్మెంట్లు జరగకముందే వాటిని సిమ్యులేట్ చేసే పద్ధతిని మేము ఇప్పుడు ఉపయోగించడం ప్రారంభించాము; ఇది ఒక పరిపూరక సంకేతాన్ని జోడిస్తుంది: అభ్యర్థి మోడల్ వినియోగదారులకు చేరకముందే అది ఎలా ప్రవర్తించవచ్చో చూపే డిప్లాయ్మెంట్లాంటి ప్రివ్యూ.
డిప్లాయ్మెంట్ సిమ్యులేషన్ అనేది భవిష్యత్ డిప్లాయ్మెంట్ జరగకముందే దాన్ని సిమ్యులేట్ చేసే పద్ధతి. కొత్త అభ్యర్థి మోడల్తో మునుపటి సంభాషణలను ప్రైవసీని కాపాడే విధంగా మళ్లీ నడపడం ద్వారా మేము అలా చేస్తాము. దీంతో విడుదలకు ముందు వాస్తవిక సందర్భాల్లో కొత్త మోడల్ ఎలా స్పందిస్తుందో, కొత్త అవాంఛిత ప్రవర్తనలు వస్తాయా మరియు అవి ఎంత తరచుగా కనిపించవచ్చో అధ్యయనం చేయగలుగుతాము.
అనేక GPT‑5‑సిరీస్ Thinking డిప్లాయ్మెంట్లలో, డిప్లాయ్మెంట్ సిమ్యులేషన్ అవాంఛిత మోడల్ ప్రవర్తన రేట్లపై మా అంచనాలను మెరుగుపరిచింది, విడుదలకు ముందు కొత్త రకాల మిస్అలైన్మెంట్ను బయటకు తేవడంలో సహాయపడింది, అలాగే మోడల్లు తమను పరీక్షిస్తున్నారని గుర్తించే ప్రమాదాన్ని తగ్గించింది. మేము ఈ పద్ధతిని క్లిష్టమైన ఏజెంటిక్ రోల్అవుట్లకు కూడా వర్తింపజేశాము; ఇది సాధారణ చాట్కు మించి, టూల్ వినియోగం ఉన్న మరింత సంక్లిష్ట ఏజెంట్ సెట్టింగ్లకు విస్తరించగలదని, అలాగే అంతర్గత మోడల్ డిప్లాయ్మెంట్లకు ముందు ప్రమాద అంచనాకు ఉపయోగించవచ్చని చూపించింది.
సాంప్రదాయ మూల్యాంకనాల్లో కనిపించని బలహీన ప్రాంతాలను గుర్తించడానికి, ఉపశమనాలు మరియు డిప్లాయ్మెంట్ నిర్ణయాలను తెలియజేయడానికి మోడల్ అభివృద్ధి సమయంలో డిప్లాయ్మెంట్ సిమ్యులేషన్ నుండి వచ్చిన అంతర్దృష్టులను మేము ఇప్పటికే ఉపయోగించాము. పైప్లైన్ను నడపడం సులభతరం చేస్తున్నప్పుడు, భవిష్యత్ మోడల్ అభివృద్ధి ప్రక్రియలో ఇది పెద్ద పాత్ర పోషిస్తుందని మేము భావిస్తున్నాము.
పరిశ్రమలో ఉపయోగించే ప్రీ-డిప్లాయ్మెంట్ మూల్యాంకనాలు సాధారణంగా కష్టమైనవి, అధిక తీవ్రత కలిగినవి లేదా ప్రతిద్వంద్వాత్మకమైనవిగా ఉద్దేశపూర్వకంగా ఎంచుకున్న సింథటిక్, చేతితో రాసిన లేదా ప్రొడక్షన్ ప్రాంప్ట్ల మిశ్రమంగా ఉంటాయి. ఈ మూల్యాంకనాలకు సాధారణంగా పరస్పరం ముడిపడిన రెండు లక్ష్యాలు ఉన్నాయి: డిప్లాయ్మెంట్ ట్రాఫిక్లో జరగే అవకాశం చాలా తక్కువగా ఉన్న పరిస్థితుల్లో ఒత్తిడి పరీక్షించినప్పుడు మోడల్ ఎలా స్పందిస్తుందో అంచనా వేయడం, అలాగే కొత్త అవాంఛిత ప్రవర్తనలను కనుగొనడం మరియు వాటి డిప్లాయ్మెంట్-సమయ ఫ్రీక్వెన్సీలను అంచనా వేయడం సహా, అవాంఛిత మోడల్ ప్రవర్తనలపై సాధారణ అవగాహన పొందడం.
మొదటి లక్ష్యానికి సాంప్రదాయ మూల్యాంకనాలు కీలకంగానే ఉన్నప్పటికీ, రెండవ లక్ష్యానికి నాన్-టెయిల్ రిస్క్ల విషయంలో డిప్లాయ్మెంట్ సిమ్యులేషన్ గణనీయమైన ముందడుగును సూచిస్తుంది (మా ప్రయోగాల్లో, 200,000 సందేశాల్లో 1 కంటే తక్కువ ఫ్రీక్వెన్సీతో జరిగే ప్రవర్తనలను మా విధానం కొలుస్తుందని ఆశించలేము). సాంప్రదాయ మూల్యాంకనాల్లోని కొన్ని ప్రధాన సవాళ్లను పక్కన పెట్టడం వల్లే డిప్లాయ్మెంట్ సిమ్యులేషన్ బలం వస్తుంది:
- కవరేజ్: మూల్యాంకన ప్రాంప్ట్లు అన్ని సాధ్యమైన అవాంఛిత మోడల్ ప్రవర్తన రకాలను కవర్ చేస్తాయని నమ్మకంగా చెప్పడం కష్టం. కొత్త రకాల అవాంఛిత ప్రవర్తనను కొలవాలంటే కొత్త మూల్యాంకనాలను సృష్టించడం, ఏ హానులను కొలవాలో తెలుసుకోవడం అవసరం. ఇది సమయం మరియు శ్రమ ఎక్కువగా తీసుకోవచ్చు, అలాగే కాలక్రమేణా మూల్యాంకనాలు స్యాచురేట్ కావచ్చు.
- ఎంపిక పాక్షికతలు: సాంప్రదాయ మూల్యాంకనాలు సాధారణంగా నిర్దిష్ట అవాంఛిత మోడల్ ప్రవర్తనలను దృష్టిలో పెట్టుకుని రూపొందించబడతాయి; గతంలో జరిగిన సందర్భాల వైపు పాక్షికత కలిగించే విధంగా అవి ఎంచుకోబడతాయి. దీంతో పూర్తి డిప్లాయ్మెంట్ పంపిణీ వ్యాప్తిలో అలాంటి ప్రవర్తనల సంభవంపై వాటి అంచనాలు తక్కువ సమాచారం అందించవచ్చు.
- మోడల్లకు పరీక్షలుగా గుర్తించదగినవిగా ఉండటం: మోడల్లు తమను పరీక్షిస్తున్నారని గుర్తించే సామర్థ్యం పెరుగుతోంది; ఇది వాటి ప్రవర్తనను మరియు వాటి భద్రతపై మా తదుపరి కొలతలను వక్రీకరించవచ్చు. OpenAIలో మేము ఉపయోగించే అనేక సాంప్రదాయ మూల్యాంకనాలు కూడా ప్రొడక్షన్ ట్రాఫిక్ నుంచే తీసుకోబడుతూ ఈ సమస్యను ఎదుర్కోకపోయినా, పరిశ్రమలో ఉపయోగించే అనేక సాంప్రదాయ మూల్యాంకనాలకు ఇది సాధారణ ఆందోళన.
డిప్లాయ్మెంట్ సిమ్యులేషన్ వెనుక ప్రధాన సాంకేతికత సరళమైనది: మేము డిప్లాయ్మెంట్ నుండి ఇటీవలి సంభాషణలను తీసుకుని, పాత మోడల్ ఇచ్చిన అసలు అసిస్టెంట్ ప్రతిస్పందనను తొలగించి, విడుదల చేయబోయే అభ్యర్థి మోడల్తో దాన్ని మళ్లీ సృష్టిస్తాము. కొత్త వైఫల్య రీతుల కోసం శోధించడం ద్వారా మేము కంప్లీషన్లను మూల్యాంకనం చేస్తాము, అలాగే ఈ డిప్లాయ్మెంట్లాంటి పంపిణీలోని ఫ్రీక్వెన్సీ ఆధారంగా డిప్లాయ్మెంట్-సమయ అవాంఛిత ప్రవర్తన ఫ్రీక్వెన్సీని అంచనా వేస్తాము. విడుదల తర్వాత నిజమైన డిప్లాయ్మెంట్ ట్రాఫిక్పై కూడా మేము అదే కొలతలను చేయగలము; దీంతో మా ప్రీ-డిప్లాయ్మెంట్ అంచనాలను ధృవీకరించగలుగుతాము.
పైన పేర్కొన్న మూడు పరిమితులను డిప్లాయ్మెంట్ సిమ్యులేషన్ గణనీయంగా తగ్గిస్తుంది: ఇటీవలి వినియోగాన్ని ప్రతినిధ్యం చేసే మూల్యాంకన ప్రాంప్ట్ల పంపిణీని ఉపయోగించడం ద్వారా నమూనా పాక్షికతను పరిష్కరిస్తుంది. ప్రతినిధి ప్రాంప్ట్లతో డిప్లాయ్మెంట్ సిమ్యులేషన్ కవరేజ్ గురించి ఆందోళనలను కూడా తగ్గించగలదు: మరింత ట్రాఫిక్ను సిమ్యులేట్ చేయడం ద్వారా అవాంఛనీయ మోడల్ ప్రవర్తనలకు ఎక్కువ కవరేజ్ పొందుతాము. కంప్యూట్ మరియు కవరేజ్ మధ్య ఈ మార్పిడి ముఖ్యమైనది, ఎందుకంటే మరిన్ని మూల్యాంకనాలను నిర్మించడానికి అవసరమైన మాన్యువల్ శ్రమకంటే, ప్రమాద అంచనాలోని ఈ అక్షం నాణ్యత కంప్యూట్తో స్కేల్ అయ్యేలా ఇది చేస్తుంది. డిప్లాయ్మెంట్ సిమ్యులేషన్ ద్వారా పొందిన సంభాషణలు మరియు నిజమైన డిప్లాయ్మెంట్ ట్రాఫిక్ మధ్య తేడాను మోడల్లు గుర్తించగలుగుతున్నట్లు కూడా కనిపించడం లేదు.
చిత్రం 1: మా డిప్లాయ్మెంట్ సిమ్యులేషన్ పైప్లైన్ అవలోకనం
ప్రాంతం | సాంప్రదాయ మూల్యాంకనాలు | విస్తరణ అనుకరణ |
కవరేజ్ | వ్యాప్తి తక్కువగా ఉండి, తీవ్రత ఎక్కువగా ఉండే ప్రమాదాలకు మనం కవరేజీ ఉండేలా చూసుకోవాలనుకున్నప్పుడు ఇది ఉత్తమం. | డిప్లాయ్మెంట్ ట్రాఫిక్లో మనం చూడబోయే రిస్క్ల పరిధిని అర్థం చేసుకోవడానికి ఇది మరింత మంచిది. |
ప్రాతినిధ్యం / పక్షపాతం | విధులలో అత్యంత అరుదుగా కనిపించే ప్రవర్తనల విషయంలో కూడా, లక్షిత గత లేదా అంచనా వేయబడిన ప్రమాదాలను మూల్యాంకనం చేయడంపై దృష్టి సారించడం | ప్రస్తుత విస్తరణ ట్రాఫిక్లో ఒక నిర్దిష్ట ప్రాబల్యం కంటే ఎక్కువగా సంభవించే ప్రమాదాలకు ప్రాతినిధ్యం వహిస్తుంది |
మూల్యాంకన అవగాహన | డిప్లాయ్మెంట్ డేటాతో మూల్యాంకనాలు సృష్టించబడకపోతే, (ఉదాహరణకు, సింథటిక్ డేటాతో) స్పష్టమైన పరీక్ష సూచనలు ఉండే అవకాశం ఉంది. | డిప్లాయ్మెంట్ లాంటి సందర్భం మూల్యాంకన అవగాహనను గణనీయంగా తగ్గిస్తున్నట్లు కనిపిస్తోంది |
కృషి | కస్టమ్ ప్రాంప్ట్ పంపిణీలు మరియు సెటప్లకు గణనీయంగా ఎక్కువ మానవ శ్రమ అవసరం అవుతుంది | దీనికి ఒకేసారి మౌలిక సదుపాయాల ఖర్చు అవసరం, ఆపై డిప్లాయ్మెంట్ నుండి ప్రిఫిక్స్లను మరియు తెలిసిన అవాంఛనీయ ప్రవర్తనల నుండి గ్రేడర్లను తిరిగి ఉపయోగిస్తుంది. |
సాంప్రదాయ మూల్యాంకనాలు మరియు డిప్లాయ్మెంట్ సిమ్యులేషన్ మధ్య ఉన్నత-స్థాయి పోలిక
డిప్లాయ్మెంట్ సిమ్యులేషన్ను మూల్యాంకనం చేయడానికి, GPT‑5.4 Thinking కోసం 20 రకాల అవాంఛనీయ ప్రవర్తనల డిప్లాయ్మెంట్-సమయ ఫ్రీక్వెన్సీపై అంచనాలను మేము ముందుగా నమోదు చేశాము. GPT‑5‑సిరీస్లోని ఇతర Thinking మోడల్ డిప్లాయ్మెంట్లపై మేము గతానుసంధాన అధ్యయనాలను కూడా నిర్వహించాము. మేము విశ్లేషించే మోడల్ ప్రవర్తనలు మిస్అలైన్మెంట్తో పాటు సిస్టమ్ కార్డ్లలో మేము నివేదిస్తూ వచ్చిన నిషేధిత కంటెంట్ వర్గాలను కూడా కవర్ చేస్తాయి (ఉదా. మోడల్ టూల్ల గురించి అబద్ధం చెప్పడం లేదా నిషేధిత లైంగిక కంటెంట్ను అవుట్పుట్ చేయడం). ఈ ఫలితాల కోసం మేము అవాంఛిత మోడల్ ప్రవర్తనలో 20 వర్గాలను మాత్రమే ట్రాక్ చేసి, కొత్త మిస్అలైన్డ్ ప్రవర్తనలకే చూస్తున్నప్పటికీ, డిప్లాయ్మెంట్ సిమ్యులేషన్ అనేది ఏ డిప్లాయ్మెంట్-సమయ మోడల్ లక్షణాన్నైనా సిమ్యులేట్ చేయడానికి వర్తించగల సాధారణ సాంకేతికత.
మేము ఉపయోగించిన ప్రొడక్షన్ ట్రాఫిక్ కూడా GPT‑5‑సిరీస్లోని Thinking మోడల్ల నుంచే వచ్చింది. మా మూల్యాంకనాలను నడపడానికి ముందు, ఖాతాకు అనుసంధానమైన గుర్తింపులను మరియు గుర్తించదగిన సమాచారాన్ని మేము ఆటోమేటిక్గా తొలగించాము. మా ప్రైవసీ పాలసీకి అనుగుణంగా, తమ డేటాను మోడల్ మెరుగుదలల కోసం ఉపయోగించడానికి అనుమతించే వినియోగదారుల ChatGPT ట్రాఫిక్ను మాత్రమే మేము విశ్లేషించాము. ఈ మూల్యాంకనాల నుండి సమగ్ర ఫలితాలనే మేము నివేదిస్తాము. మొత్తంగా, ఆగస్టు 2025 నుండి మార్చి 2026 వరకు విస్తరించిన GPT‑5 Thinking నుండి GPT‑5.4 డిప్లాయ్మెంట్ల వరకు, గుర్తింపు తొలగించిన సుమారు 1.3 మిలియన్ సంభాషణలను మేము విశ్లేషించాము.
డిప్లాయ్మెంట్ సిమ్యులేషన్ రూపొందించిన ప్రీ-డిప్లాయ్మెంట్ ప్రమాద అంచనా నాణ్యతను మేము మూడు ప్రధాన విధాలుగా మూల్యాంకనం చేస్తాము:
- టాక్సానమీ కవరేజ్: విడుదల తర్వాత ఆడిటింగ్ మా ప్రారంభ చెడు ప్రవర్తన టాక్సానమీలో లేని ఏవైనా ముఖ్యమైన మిస్అలైన్డ్ ప్రవర్తనలను బయటపెట్టిందా?
- దిశాత్మక ఖచ్చితత్వం: తెలిసిన ప్రవర్తనలకు డిప్లాయ్మెంట్ ప్రాబల్యం పెరుగుతుందా లేదా తగ్గుతుందా అని సిమ్యులేషన్ సరిగ్గా అంచనా వేసిందా?
- రేటు కాలిబ్రేషన్: మా ప్రీ-డిప్లాయ్మెంట్ అంచనాలు తర్వాత డిప్లాయ్మెంట్లో మేము గమనించిన రేట్లకు దగ్గరగా ఉన్నాయా? మంచి రేటు కాలిబ్రేషన్ సాధించడానికి దిశాత్మక ఖచ్చితత్వం మాత్రమే సరిపోదు; అందువల్ల ఇది అత్యున్నత నాణ్యత ప్రమాణం.
డిప్లాయ్మెంట్ సిమ్యులేషన్ సమయంలో మోడల్లు తాము మూల్యాంకనంలో ఉన్నామని ఎంతవరకు గుర్తించగలవో కూడా మేము కొలుస్తాము, అలాగే వివిధ డిప్లాయ్మెంట్ ట్రాఫిక్ రూపాలకు మరియు క్లిష్టమైన టూల్ వినియోగ సెట్టింగ్లకు ఈ పద్ధతి ఎంత దృఢంగా ఉందో పరీక్షిస్తాము.
GPT‑5‑సిరీస్ Thinking డిప్లాయ్మెంట్లలో, వాస్తవ ప్రమాద రేటును నిర్ణయించడంలో డిప్లాయ్మెంట్ సిమ్యులేషన్ క్లిష్ట-ప్రాంప్ట్ బేస్లైన్లకంటే మెరుగ్గా పనిచేసింది, విడుదలకు ముందు కాల్క్యులేటర్ హ్యాకింగ్ను బయటపెట్టగలిగింది, అలాగే మోడల్కు డిప్లాయ్మెంట్తో తేడా తెలియనట్టుగా కనిపించింది.
మా అంచనాల అవలోకనం. GPT‑5‑సిరీస్లోని Thinking మోడల్ డిప్లాయ్మెంట్లకు సంబంధించిన అన్ని అంచనాల విజువలైజేషన్ కోసం, చిత్రం 2 చూడండి. GPT‑5.4 Thinking అంచనాలు ముందుగా నమోదు చేయబడ్డాయి, మిగతావి గతానుసంధాన అంచనాలు. సమగ్రంగా, మా అంచనాలకు మధ్యస్థ గుణక దోషం 1.5x ఉంది (ఉదా. అవాంఛనీయ ప్రవర్తన రేటు 100kలో 10 అయితే, ఇది 100kలో 15 లేదా 6.67 రేటును అంచనా వేయడానికీ సమానం). మా పద్ధతిలో టెయిల్ దోషాలు సుమారు 10x ఎక్కువగా ఉండవచ్చినా, క్రింద చర్చించినట్లుగా మా సిమ్యులేషన్ పైప్లైన్కు మరిన్ని మెరుగుదలలతో అవి గణనీయంగా తగ్గుతాయని మేము ఆశిస్తున్నాము.
చిత్రం 2. మునుపటి డిప్లాయ్మెంట్ డేటా ఆధారంగా డిప్లాయ్మెంట్ సమయంలో అవాంఛనీయ ప్రవర్తనకు సంబంధించిన డిప్లాయ్మెంట్ సిమ్యులేషన్ ఫ్రీక్వెన్సీ అంచనాలు. 5.1 → 5 అనే సూచన GPT‑5 నుండి ప్రిఫిక్స్లను GPT‑5.1తో మళ్లీ నమూనా చేస్తున్నామని, అంటే GPT‑5 డేటా ఆధారంగా GPT‑5.1 డిప్లాయ్మెంట్ను సిమ్యులేట్ చేస్తున్నామని సూచిస్తుంది. GPT‑5.1లో తప్పుగా సరిపోలిన ప్రవర్తనలో అత్యధిక రేటు “కాల్క్యులేటర్ హ్యాకింగ్”; దీని గురించి మేము ఇంతకుముందు(కొత్త విండోలో తెరుచుకుంటుంది) చర్చించాము.
డిప్లాయ్మెంట్ సిమ్యులేషన్ అంచనాలను బేస్లైన్లతో పోల్చడం. ప్రీ-డిప్లాయ్మెంట్ ప్రమాద అంచనాల్లో సరిగ్గా అంచనా వేయాల్సిన అత్యంత ముఖ్య వర్గాలు, మోడల్ డిప్లాయ్మెంట్ తర్వాత సంభవంలో పెద్ద మార్పులు ఉన్నవే (ఉదా. >= 1.5x). ఈ ఉపసమితిలో, ఒక నిర్దిష్ట అవాంఛనీయ ప్రవర్తన మోడల్ డిప్లాయ్మెంట్తో ప్రాబల్యంలో పెరుగుతుందా లేదా తగ్గుతుందా అని అంచనా వేయడంలో (చిత్రం 3, ఎడమ), అలాగే దాని ఖచ్చితమైన డిప్లాయ్మెంట్-సమయ సంభవాన్ని అంచనా వేయడంలో (చిత్రం 3, కుడి) డిప్లాయ్మెంట్ సిమ్యులేషన్ బేస్లైన్లకంటే గణనీయంగా మెరుగ్గా ఉంటుంది. మేము రెండు ప్రధాన బేస్లైన్లను ఉపయోగిస్తాము: సిస్టమ్ కార్డ్లు మరియు లాంచ్ నిర్ణయాల కోసం ప్రస్తుతం మేము ఉపయోగించే Challenging Prompts బేస్లైన్, అలాగే కొత్త మోడల్కు అంచనాలుగా మునుపటి డిప్లాయ్మెంట్ రేట్లను ఉపయోగించే సరళమైన బేస్లైన్.
చిత్రం 3. డిప్లాయ్మెంట్ సిమ్యులేషన్ స్థిర evalల కంటే సంభవ మార్పుల దిశను (ఎడమ) మరియు ఖచ్చితమైన ప్రొడక్షన్ రేట్లను (కుడి) మెరుగ్గా అంచనా వేస్తుంది.
మా పైప్లైన్లో సిమ్యులేషన్ దోషాల మూలాలు. మా పైప్లైన్లోని ప్రస్తుత దోష మూలాలను కూడా మేము అధ్యయనం చేశాము. ప్రత్యేకంగా, పెద్ద టెయిల్ దోషాలు డిప్లాయ్మెంట్ నిర్ణయాల కోసం పైప్లైన్ను తక్కువ నమ్మదగినదిగా చేస్తాయి: ఉదాహరణకు, ఒక నిర్దిష్ట రకం అవాంఛనీయ ప్రవర్తనలో పెద్ద పెరుగుదల అంచనా కనిపించినప్పుడు, పైప్లైన్కు అప్పుడప్పుడు అయినా పెద్ద దోషాలు ఉంటాయని తెలిసుంటే, ఇది విశ్వసనీయ అంచనా కాదా లేక పైప్లైన్ ఆర్టిఫాక్టా అనే సందేహాన్ని కలిగిస్తుంది. సాధ్యమైన దోషానికి రెండు ప్రధాన మూలాలు ఉన్నాయి:
- రీస్యాంప్లింగ్ వాతావరణ విశ్వసనీయత దోషం: ప్రొడక్షన్ రేట్లను ఖచ్చితంగా అంచనా వేయడానికి, మా సిమ్యులేషన్ పైప్లైన్ సాధ్యమైనంత వాస్తవికంగా ఉండాలి. ఇది కొంతవరకు ఇంజనీరింగ్ సమస్య (ప్రొడక్షన్ ట్రాఫిక్ కోసం ఉపయోగించే అదే పైప్లైన్లను ఉపయోగించి మోడల్ నుండి నమూనా తీసుకోవడం), అలాగే నిరంతరం మారుతున్న బాహ్య వనరులకు చదవడం/రాయడం యాక్సెస్ అవసరమైన టూల్లకు ఒక ఆసక్తికర సవాలు కూడా (ఉదా. వెబ్ శోధనలు లేదా స్థానిక ఫైళ్లతో పరస్పర చర్య). వాస్తవ డిప్లాయ్మెంట్ మరియు దాని సిమ్యులేషన్ నుండి వచ్చిన అంచనాలను పోల్చడం ద్వారా మేము సిమ్యులేషన్ విశ్వసనీయత దోషాన్ని వేరు చేయగలము (అంటే, ఇప్పటికే డిప్లాయ్ చేసిన మోడల్ డిప్లాయ్మెంట్ను సిమ్యులేట్ చేయడం).
- ప్రాంప్ట్ పంపిణీ మార్పు దోషం: డిప్లాయ్మెంట్ సిమ్యులేషన్లో ఒక ప్రధాన ఆందోళన ఏమిటంటే, ఏ మోడల్ డిప్లాయ్మెంట్ అయినా ఇన్పుట్లలో పంపిణీ మార్పును కలిగిస్తుంది, ముఖ్యంగా వినియోగదారులు కొత్త మోడల్ సౌలభ్యాలకు అలవాటు పడితే. ఇటీవలి ప్రాంప్ట్లను ఉపయోగించి డిప్లాయ్మెంట్ను సిమ్యులేట్ చేసినప్పుడు వచ్చిన అంచనాలను, వాస్తవంగా జరిగిన డిప్లాయ్మెంట్ నుండి వచ్చిన ప్రాంప్ట్లతో పోల్చడం ద్వారా ప్రాంప్ట్ పంపిణీ దోషాన్ని మేము వేరు చేస్తాము.
చిత్రం 4లో కనిపించినట్లుగా, మా పైప్లైన్లోని దోషంలో పెద్ద భాగం—ప్రత్యేకించి టెయిల్ దోషాల విషయంలో—ప్రస్తుతం సిమ్యులేషన్ విశ్వసనీయత వల్లనే వస్తోందని మేము కనుగొన్నాము. ఇది మంచి వార్త, ఎందుకంటే ప్రాంప్ట్ పంపిణీ మార్పును తగ్గించడంకంటే సిమ్యులేషన్ విశ్వసనీయతను మెరుగుపరచడం సాధారణంగా సులభమని మేము భావిస్తున్నాము. మునుపటి డిప్లాయ్మెంట్ నుండి అత్యంత ఇటీవలి డేటాను ఉపయోగించడం ద్వారా ప్రాంప్ట్ పంపిణీ మార్పు దోషాన్ని తగ్గించవచ్చని కూడా మేము కనుగొన్నాము. మరిన్ని వివరాలు పరిశోధనా పత్రంలో చూడవచ్చు.
చిత్రం 4: మా అంచనాల్లో, ముఖ్యంగా అత్యంత తీవ్రమైన దోషాల్లో, రీస్యాంప్లింగ్ వాతావరణ విశ్వసనీయతే అతిపెద్ద దోష మూలంగా కనిపిస్తుంది.
ఈ డిప్లాయ్మెంట్లలో ప్రవేశపెట్టబడిన ఏకైక కొత్త మిస్అలైన్మెంట్ను ఆటోమేటెడ్ ఆడిటింగ్ కనుగొంది. మేము అధ్యయనం చేసిన డిప్లాయ్మెంట్ విండోలో, సిమ్యులేట్ చేసిన డిప్లాయ్మెంట్ల ఆధారంగా మా ఆటోమేటెడ్ ఆడిటింగ్ పైప్లైన్ విడుదలకు ముందు ‘కాల్క్యులేటర్ హ్యాకింగ్’ను బయటపెట్టేది; విశ్లేషించిన ChatGPT ట్రాఫిక్లో మేము గుర్తించిన ఏకైక కొత్త మిస్అలైన్మెంట్ అదే. కాల్క్యులేటర్ హ్యాకింగ్ అనేది రివార్డ్ హ్యాకింగ్లో ఒక రూపం; ఇందులో మోడల్ ఒక బ్రౌజర్ టూల్ను కాల్క్యులేటర్గా ఉపయోగిస్తూ, ఆ చర్యను శోధనగా చూపిస్తుంది. దీని అర్థం పెద్ద స్థాయి ఆడిటింగ్ ప్రతి కొత్త వైఫల్యాన్ని పట్టుకుంటుందని కాదు; కానీ వాస్తవిక సందర్భాలు ఎందుకు ముఖ్యమో ఇది చూపిస్తుంది: సిమ్యులేషన్ను ప్రారంభించడానికి ఉపయోగించిన అసలు ట్రాఫిక్లో అవి లేకపోయినా, సన్నని మూల్యాంకన సెట్లు నేరుగా ఎప్పుడూ బయటపెట్టలేని ప్రవర్తనలను అవి రాబట్టగలవు.
డిప్లాయ్మెంట్లాంటి సందర్భాలను ఉపయోగించడం వల్ల మరో ప్రయోజనం ఏమిటంటే, మోడల్లు తమను పరీక్షిస్తున్నారని గుర్తించినప్పుడు వచ్చే వక్రీకరణలను అవి తగ్గించవచ్చు. మునుపటి పరిశోధనలో, మేము అలాగే ఇతరులు(కొత్త విండోలో తెరుచుకుంటుంది) మోడల్లు తమను ఎప్పుడు పరీక్షిస్తున్నారో తరచుగా తెలుసుకుంటాయని కనుగొన్నాము. ఉదాహరణకు, మోడల్లు తమ చెయిన్-ఆఫ్-థాట్లో తమను ఏ విషయంపై పరీక్షిస్తున్నారో, మూల్యాంకనకర్తకు ఏమి నచ్చవచ్చో, మరియు – అవి తప్పుగా ప్రవర్తిస్తున్నట్లయితే – పట్టుబడతాయో లేదో గురించి రీజనింగ్ చేయవచ్చు. ఇది అలైన్మెంట్ మూల్యాంకనాలకు సమస్యను సృష్టిస్తుంది: ఒక మోడల్ తాను పరీక్షించబడుతోందని భావించడం వల్ల మాత్రమే బాగా ప్రవర్తిస్తే, అది డిప్లాయ్ చేయబడిందని తెలుసుకున్న తర్వాత సురక్షితంగా ప్రవర్తిస్తుందని మనం ఎలా నమ్మకం కల్పించుకోగలం?
నిజమైన డిప్లాయ్మెంట్ డేటాపై ఆధారపడని సాంప్రదాయ మూల్యాంకనాలతో పోలిస్తే, డిప్లాయ్మెంట్ సిమ్యులేషన్ మోడల్లు చూపించే మూల్యాంకన అవగాహన స్థాయిలను గణనీయంగా తగ్గిస్తుందని మేము చూపిస్తున్నాము. మేము మూల్యాంకన అవగాహనను మూడు విధాలుగా కొలుస్తాము: ఒక ట్రాజెక్టరీ ప్రొడక్షన్ నుంచా లేక మూల్యాంకనంనుంచా వచ్చిందో వర్గీకరించమని మోడల్ను అడగడం, అలైన్మెంట్ కోసం మూల్యాంకనం చేయబడుతున్నట్లు స్పష్టమైన ప్రకటనల కోసం చెయిన్-ఆఫ్-థాట్ను పర్యవేక్షించడం, అలాగే మెటాగేమింగ్(కొత్త విండోలో తెరుచుకుంటుంది) కోసం పర్యవేక్షించడం: పర్యవేక్షణ గురించి ఏదైనా రీజనింగ్. సిమ్యులేట్ చేసిన డిప్లాయ్మెంట్ ట్రాఫిక్ మూడు కొలతలన్నింటిలో నిజమైన డిప్లాయ్మెంట్ ట్రాఫిక్కు దగ్గరగా సరిపోలింది. ఉదాహరణకు, GPT‑5.2 నిజమైన ప్రొడక్షన్ ట్రాఫిక్ను 5.4% సమయాల్లో మూల్యాంకనంలా లేబుల్ చేసింది, సిమ్యులేట్ చేసిన ట్రాఫిక్ను 5.1% సమయాల్లో అలా చేసింది, కాగా సాంప్రదాయ మూల్యాంకనాలు (ప్రధానంగా సింథటిక్ ఉదాహరణలతో కూడిన SWE-Bench లేదా MonorepoBench వంటివి) దాదాపు 100% సమయాల్లో మూల్యాంకనాలుగా వర్గీకరించబడ్డాయి.
చిత్రం 5. మూల్యాంకన-అవగాహన పోలిక: నిజమైన ప్రొడక్షన్ ట్రాఫిక్ మరియు సిమ్యులేట్ చేసిన ట్రాఫిక్ eval గుర్తింపు, మౌఖిక అలైన్మెంట్ మూల్యాంకన అవగాహన, మెటాగేమింగ్లకు సమానమైన రేట్లను చూపుతాయి, కాగా సాంప్రదాయ eval డేటాసెట్లు చాలా ఎక్కువ రేట్లను నివేదిస్తాయి.
ఈ పద్ధతి ప్రామాణిక చాట్ మోడ్లకు మించి విస్తరించగలదా అని పరీక్షించడానికి, క్లిష్టమైన ఏజెంటిక్ కోడింగ్ సెట్టింగ్ల కోసం డిప్లాయ్మెంట్లను సిమ్యులేట్ చేయడాన్ని కూడా మేము అధ్యయనం చేశాము. ప్రత్యేకంగా, GPT‑5.5 ఆధారంగా కోడింగ్ ఏజెంట్ల అంతర్గత డిప్లాయ్మెంట్ను సిమ్యులేట్ చేయడానికి GPT‑5.4 నుండి 120,000 అంతర్గత ఉద్యోగి ఏజెంటిక్ ట్రాజెక్టరీలను మేము ఉపయోగిస్తాము. ఇది రెండు ప్రయోజనాలకు పనిచేస్తుంది: అంతర్గత డిప్లాయ్మెంట్లకు ప్రమాద అంచనాకు కూడా డిప్లాయ్మెంట్ సిమ్యులేషన్ను ఎలా ఉపయోగించవచ్చో ఇది చూపిస్తుంది, అలాగే జాగ్రత్తగా చేసిన టూల్ సిమ్యులేషన్ ద్వారా ఏజెంటిక్ సెట్టింగ్లలో కూడా సిమ్యులేషన్ విశ్వసనీయతను అధికంగా చేయడం సాధ్యమని నిరూపిస్తుంది.
మా ప్రస్తుత పైప్లైన్లో సిమ్యులేషన్ విశ్వసనీయత దోషానికి ప్రధాన మూలాలలో ఒకటని పైన మేము చర్చించాము. డిప్లాయ్మెంట్ సిమ్యులేషన్లను వాస్తవికంగా చేయడంలో ఒక సవాలు ఏమిటంటే, నిరంతరం మారుతున్న బాహ్య వనరులకు చదవడం/రాయడం యాక్సెస్ అవసరమైనప్పటికీ (ఉదా. వెబ్ శోధనలు లేదా స్థానిక ఫైళ్లతో పరస్పర చర్య), టూల్లు వాస్తవికంగా వ్యవహరించాలి.
ఏజెంటిక్ డిప్లాయ్మెంట్ల వంటి సెట్టింగ్లకు ఇది ప్రత్యేకంగా క్లిష్టం: ఒకే ఏజెంట్ ట్రాజెక్టరీ వందలాది టూల్ కాల్లు, రిపోజిటరీ స్థితి, నెట్వర్క్ ప్రతిస్పందనలు లేదా తాత్కాలిక వైఫల్యాలపై ఆధారపడవచ్చు. దీంతో నిజమైన టూల్ యాక్సెస్తో రీస్యాంప్లింగ్ చేయడం క్లిష్టంగానూ, సాధ్యమైనంత ప్రమాదకరంగానూ మారుతుంది. దీన్ని దృష్టిలో పెట్టుకుని, లైవ్ సిస్టమ్లకు టూల్ కాల్లను వర్తింపజేయడం బదులుగా, మేము వాటిని మరో LLMతో సిమ్యులేట్ చేస్తాము. ఈ LLMకు అదనపు సౌలభ్యాలు ఇవ్వడం వాస్తవికతకు, అందువల్ల అంచనా నాణ్యతకు అవసరమని మేము చూపిస్తున్నాము.
మేము టూల్-సిమ్యులేటర్ మోడల్కు అసలు ఫైనల్-టర్న్ రోల్అవుట్, సంభాషణ జరిగిన సమయానికి ఉన్న రిపోజిటరీ, టూల్-కాల్/ప్రతిస్పందన జంటల డేటాబేస్ మరియు రీడ్-ఓన్లీ కనెక్టర్లను ఇస్తాము. సిమ్యులేట్ చేసిన రోల్అవుట్లను నిజమైన వాటి నుండి వేరు చేయడానికి ఒక డిస్క్రిమినేటర్ ప్రయత్నించిన పరీక్షలో, వాస్తవికత 11.6% విజయం రేటు నుండి 50% ఛాన్స్ స్థాయికి దగ్గరగా 49.5%కి మెరుగుపడింది.
చిత్రం 6: పెరిగిన సౌలభ్యాలతో టూల్ కాల్లను సిమ్యులేట్ చేసినప్పుడు, టూల్లు ఎక్కువగా ఉన్న సెట్టింగ్లలో కూడా రీస్యాంప్లింగ్ వాస్తవికతను నిజమైన స్యాంప్లింగ్ నుండి దాదాపు వేరు చేయలేనిదిగా చేయవచ్చు.
సిమ్యులేషన్ విశ్వసనీయతకు అదనపు సాక్ష్యంగా, GPT‑5.4 Codex thinking ట్రాఫిక్ను GPT‑5.4తో సిమ్యులేట్ చేసినప్పుడు, మిస్అలైన్మెంట్ రేట్లు దాదాపు దోష పరిధులలోనే ఉంటాయి. దానికి విరుద్ధంగా, మా ప్రీ-డిప్లాయ్మెంట్ పరీక్షలో GPT‑5.5 చాలా వర్గాల్లో ఎక్కువగా మిస్అలైన్డ్గా ఉంది.
చిత్రం 7: టూల్ సిమ్యులేషన్తో, GPT‑5.4తో రీస్యాంపుల్ చేసిన సంభాషణల ప్రవర్తన రేట్లు మరియు నిజమైన GPT‑5.4 ప్రొడక్షన్ ట్రాఫిక్ రేట్లు చాలా సమానంగా ఉన్నాయి – ఇది అధిక రీస్యాంప్లింగ్ వాతావరణ విశ్వసనీయతను సూచిస్తుంది. వర్గాలపై మరింత సందర్భం కోసం GPT‑5.5 సిస్టమ్ కార్డ్(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
చుట్టూ ఉన్న టూల్ వాతావరణాన్ని తగినంత విశ్వసనీయతతో సిమ్యులేట్ చేసినప్పుడు, డిప్లాయ్మెంట్ సిమ్యులేషన్ సంక్లిష్ట ఏజెంట్ సెట్టింగ్లకు విస్తరించగలదని ఈ ఫలితాలు సూచిస్తున్నాయి.
ప్రైవేట్ ప్రొడక్షన్ ట్రాఫిక్కు యాక్సెస్ లేకుండా బాహ్య ఆడిటర్లు కూడా ఇదే ప్రయోజనాల్లో కొన్నింటిని పొందగలరా అనేది సహజమైన ప్రశ్న. ప్రిఫిక్స్లుగా ఉపయోగించిన 100,000 WildChat సంభాషణలతో మేము దీన్ని పరీక్షించాము. WildChat ఇటీవలి OpenAI ప్రొడక్షన్ డేటాకంటే తక్కువ ఖచ్చితమైనదైనా, ఇంకా సమాచారాత్మకంగా ఉంది: ఇటీవలి ప్రొడక్షన్ డేటాకు WildChat కంటే తక్కువ సగటు గుణక దోషం ఉంది (1.75× vs. 2.44×), కాగా WildChat తరచుగా ప్రొడక్షన్ రేట్లకు సుమారు 3× లోపే ఉండి, ఛాన్స్ కంటే ఎక్కువ రేట్లలో మెరుగైన మోడల్ను గుర్తించింది. WildChat-శైలి మూల్యాంకనాలను డెవలపర్లు నడిపే డిప్లాయ్మెంట్ సిమ్యులేషన్కు ఆశాజనక పరిపూరకంగా మేము చూస్తున్నాము. ఈ అంశంపై మరిన్ని ఫలితాల కోసం ఈ సహచర అలైన్మెంట్ బ్లాగ్పోస్ట్(కొత్త విండోలో తెరుచుకుంటుంది) చూడండి.
డిప్లాయ్మెంట్ సిమ్యులేషన్ అనేది ప్రతిద్వంద్వాత్మక మూల్యాంకనాలు, రెడ్-టీమింగ్ మరియు లక్షిత టెయిల్-రిస్క్ విశ్లేషణకు ప్రత్యామ్నాయం కాదు; పరిపూరకం. కొన్ని అవాంఛిత మోడల్ ప్రవర్తనలను గుర్తించడం చెయిన్-ఆఫ్-థాట్ పర్యవేక్షణయోగ్యతపై ఆధారపడుతుంది: భవిష్యత్ మోడల్లు తక్కువ స్పష్టంగా రీజనింగ్ చేస్తే, కీలక దశలను వదిలేస్తే లేదా ఉద్దేశాన్ని దాచడం నేర్చుకుంటే, ఈ రకాల అవాంఛనీయ ప్రవర్తనలను మేము గుర్తించలేకపోవచ్చు. అదనంగా, ప్రొడక్షన్ డేటా ప్రైవేట్ కావడంతో, బాహ్య ఆడిటర్లకంటే డెవలపర్లకు ప్రస్తుతం ప్రతినిధి సందర్భాలపై బలమైన యాక్సెస్ ఉంది. మెరుగైన పబ్లిక్ డేటాసెట్లు ఆ అంతరాన్ని తగ్గించవచ్చు.
నమూనా చేసిన ప్రిఫిక్స్లలో కనిపించేంత తరచుగా జరిగే ప్రవర్తనలకే డిప్లాయ్మెంట్ సిమ్యులేషన్ అత్యంత ఉపయోగకరం. పది మిలియన్ సంభాషణల్లో ఒకసారి జరిగే వైఫల్యం మిలియన్-నమూనా రన్లో కనుగొనబడే అవకాశం తక్కువ, కాబట్టి ప్రతిద్వంద్వాత్మక మూల్యాంకనాలు, రెడ్-టీమింగ్ మరియు లక్షిత టెయిల్-రిస్క్ విశ్లేషణ అవసరంగానే ఉంటాయి. ప్రాథమిక ప్రయోగాల్లో అనేక టర్న్లను సిమ్యులేట్ చేయడం ద్వారా మా అంచనాల్లో అర్థవంతమైన మెరుగుదలలు కనిపించకపోవడంతో, ప్రస్తుతం మేము ఒక్క అసిస్టెంట్ ప్రతిస్పందనను సిమ్యులేట్ చేయడంపైనే దృష్టి పెడుతున్నాము. భవిష్యత్తులో సిమ్యులేషన్ విశ్వసనీయతను మెరుగుపరచడానికి ఇది ముఖ్యమైన ప్రాంతం కావచ్చు.
ఈ పద్ధతి ప్రిఫిక్స్ పంపిణీపై కూడా ఆధారపడుతుంది—మళ్లీ నమూనా చేయబడుతున్న సంభాషణల మిశ్రమం. ఒక ప్రధాన ఉత్పత్తి మార్పు, కొత్త టూల్ విడుదల, ప్రపంచ సంఘటన లేదా కాలానుగుణ మార్పు తర్వాత వినియోగదారులు మరింత సామర్థ్యవంతమైన మోడల్తో ఎలా పరస్పరం చర్య చేస్తారో చారిత్రక ట్రాఫిక్ సరిపోలకపోవచ్చు. అందుబాటులో ఉన్న అత్యంత ఇటీవలి డేటాను ఉపయోగించడం ద్వారా ఈ సమస్యను తగ్గించవచ్చని పూర్తి పేపర్లోని విశ్లేషణ సూచిస్తుంది.
డిప్లాయ్మెంట్ సిమ్యులేషన్ అనేది ప్రీ-డిప్లాయ్మెంట్ ప్రమాద అంచనాకు కొత్త విధానం; ఇది భాషా మోడల్లు వాస్తవ ప్రపంచంలో ఎలా ప్రవర్తించవచ్చో అంచనా వేయడంలో, అలాగే డిప్లాయ్మెంట్కు ముందు అవి కలిగించే ప్రమాదాలను అర్థం చేసుకోవడంలో ఫ్రాంటియర్ ల్యాబ్లు మరియు మూల్యాంకనకర్తలకు సహాయపడుతుంది. డిప్లాయ్మెంట్ ప్రవర్తన అంచనాలను మెరుగుపరచగల, మూల్యాంకన-అవగాహన ప్రభావాలను తగ్గించగల, విడుదల తర్వాత ప్రీ-డిప్లాయ్మెంట్ అంచనాలను తనిఖీ చేయదగినవిగా చేయగల మరింత ప్రొడక్షన్లాంటి అంచనా పొరను జోడించడం ద్వారా ఇది ఇప్పటికే ఉన్న భద్రతా మూల్యాంకనాలు, రెడ్-టీమింగ్ మరియు లక్షిత విశ్లేషణను పరిపూరకం చేస్తుంది. సాంప్రదాయ మూల్యాంకనాలతో పాటు ఉపయోగించినప్పుడు, డిప్లాయ్మెంట్ సిమ్యులేషన్ మోడల్ ప్రమాద అంచనాను మరింత వాస్తవికంగా, మరింత పరిమాణాత్మకంగా, డిప్లాయ్మెంట్ నిర్ణయాలకు మరింత ఉపయోగకరంగా చేయడంలో సహాయపడగలదు.


