सेंसिटिव बातचीतों में ChatGPT के जवाबों को मज़बूत करना
हमने 170 से अधिक मेंटल हेल्थ विशेषज्ञों के साथ काम किया ताकि ChatGPT परेशानी के संकेत बेहतर पहचान सके, सहानुभूति से जवाब दे और ज़रूरत पड़ने पर वास्तविक मदद तक मार्गदर्शन करे। इससे अनुचित जवाबों में 65–80% की कमी आई।
हमने हाल ही में ChatGPT के डिफ़ॉल्ट मॉडल(एक नई विंडो में खुलेगा) को अपडेट किया है ताकि परेशानी के पलों में लोगों को बेहतर ढंग से पहचाना जा सके और उनकी मदद की जा सके. आज हम शेयर कर रहे हैं कि हमने ये सुधार कैसे किए और वे कैसा परफ़ॉर्म कर रहे हैं. रियल-वर्ल्ड क्लिनिकल अनुभव वाले मेंटल हेल्थ एक्सपर्ट्स के साथ मिलकर, हमने मॉडल को ये सिखाया है कि वह तनाव या परेशानी के संकेत बेहतर पहचान सके, संवेदनशील बातचीत को शांत दिशा में ले जाए, और ज़रूरत पड़ने पर लोगों को प्रोफेशनल मदद तक पहुँचने में गाइड करे. हमने क्राइसिस हॉटलाइन्स के लिए एक्सेस बढ़ाया, दूसरे मॉडल्स से आने वाली सेंसिटिव बातचीतों को सुरक्षित मॉडल्स पर री-रूट किया(एक नई विंडो में खुलेगा) है, और लंबे सेशन्स के दौरान ब्रेक्स लेने के लिए जेंटल रिमाइंडर्स भी जोड़े हैं.
हमारा मानना है कि ChatGPT लोगों को अपनी भावनाओं को व्यक्त करने के लिए एक सपोर्टिव स्पेस दे सकता है, और उचित होने पर उन्हें दोस्तों, परिवार या मेंटल हेल्थ प्रोफ़ेशनल से संपर्क करने के लिए गाइड कर सकता है. हालिया मॉडल अपडेट में हमारे सुरक्षा सुधार निम्न एरिया पर फ़ोकस कर रहे हैं: 1) मेंटल हेल्थ से जुड़ी चिंताएं जैसे साइकॉसिस या मेनिया; 2) सेल्फ़-हार्म और आत्महत्या; और 3) AI पर इमोशनल निर्भरता. आगे बढ़ते हुए, सुसाइड और सेल्फ़-हॉर्म से जुड़ी हमारी पहले से मौजूद सेफ़्टी मेट्रिक्स के साथ-साथ, अब हम इमोशनल रिलायंस और नॉन-सुसाइडल मेंटल हेल्थ इमरजेंसीज़ को भी अपने भविष्य के मॉडल रिलीज़ के लिए स्टैंडर्ड बेसलाइन सेफ़्टी टेस्टिंग में शामिल कर रहे हैं
ये अपडेट्स हमारे मौजूदा सिद्धांतों पर आधारित हैं कि मॉडल्स को किस तरह बर्ताव करना चाहिए, जो हमारे मॉडल की ख़ास जानकारी(एक नई विंडो में खुलेगा) में बताए गए हैं. हमने अपने कुछ लंबे समय के लक्ष्यों को और ज़्यादा क्लियर करने के लिए मॉडल की गाइडलाइंस को अपडेट किया है: मॉडल को यूज़र्स के असली दुनिया के रिश्तों का साथ देना और सम्मान करना चाहिए, बिना आधार वाली मान्यताओं को मानने से बचना चाहिए जो संभावित तौर पर मानसिक या भावनात्मक संकट से जुड़ी हैं, भ्रम या उन्माद के संकेतों पर सुरक्षित और हमदर्दी से जवाब देना चाहिए, और संभावित सेल्फ़-हॉर्म या आत्महत्या के जोखिम के इनडायरेक्ट संकेतों पर ज़्यादा ध्यान देना चाहिए
हरेक प्रायोरिटी डोमेन में ChatGPT के जवाब को बेहतर बनाने के लिए, हम एक पांच-स्टेप का प्रोसेस फ़ॉलो करते हैं:
- समस्या को डिफ़ाइन करें - हम अलग-अलग तरह के संभावित नुकसानों का मैप बनाते हैं.
- इसे मापना शुरू करें - हम इवैल्यूएशन्स, असली दुनिया की बातचीत से मिले डेटा और यूज़र रिसर्च जैसे टूल्स का इस्तेमाल करते हैं ताकि ये समझा जा सके कि जोखिम कहां और कैसे पैदा होते हैं.
- हम अपने तरीक़ों को वैलिडेट करने के लिए - बाहर के मेंटल हेल्थ और सेफ़्टी एक्सपर्ट्स के साथ मिलकर अपनी गाइडलाइन्स और पॉलिसीज़ रीव्यू करते हैं
- जोखिमों को कम करते हैं - हम मॉडल को पोस्ट-ट्रेन करते हैं और प्रोडक्ट से जुड़ी हस्तक्षेपों को अपडेट करते हैं ताकि असुरक्षित नतीजों को कम किया जा सके.
- मापना और सुधार जारी रखते हैं - हम पुष्टि करते हैं कि शमन उपायों से सुरक्षा में सुधार हुआ है और जहां ज़रूरी हो वहां सुधार करते हैं.
इस प्रोसेस के एक हिस्से के तौर पर, हम डिटेल में गाइड्स (जिन्हें "टैक्सोनॉमी" कहा जाता है) बनाते और सुधार करते हैं, जो सेंसिटिव बातचीतों की प्रॉपर्टीज़ के बारे में बताती हैं और आदर्श और अनचाहा मॉडल बिहेवियर कैसा दिखता है, ये बताती हैं. इससे हमें मॉडल को और ज़्यादा सही तरीके से जवाब देने और डिप्लॉयमेंट से पहले और बाद में उसके परफ़ॉर्मेंस को ट्रैक करने में मदद मिलती है. इसके कारण एक ऐसा मॉडल तैयार होता है जो साइकोसिस, मेनिया, आत्महत्या, और सेल्फ़-हार्म के विचार, या मॉडल के प्रति अस्वस्थ इमोशनल लगाव के लक्षण दिखाने वाले यूज़र्स के प्रति ज़्यादा भरोसेमंद तरीके से जवाब देता है.
मेंटल हेल्थ के लक्षण और इमोशनल तनाव मानव समाज में हर तरीके से मौजूद हैं, और बढ़ते यूज़र बेस का मतलब है कि ChatGPT बातचीतों के कुछ हिस्से में ये स्थितियां शामिल हैं. हालांकि, मेंटल हेल्थ से जुड़ी बातचीतें जो सुरक्षा संबंधी चिंताओं को जन्म देती है, जैसे साइकोसिस, मेनिया या आत्महत्या के विचार, बेहद कम हैं. क्योंकि वे बहुत ही असामान्य हैं, इसलिए हम उन्हें कैसे मापते हैं, इसमें छोटे अंतर भी हमारे द्वारा रिपोर्ट की जाने वाली संख्याओं पर ज़रूरी प्रभाव डाल सकते हैं. 1
मौजूदा प्रोडक्शन ट्रैफ़िक में इनके होने के जो अनुमान हम नीचे दे रहे हैं, वे हमारे सबसे बढ़िया मौजूदा अनुमान हैं. जैसे-जैसे हम अपनी टैक्सोनॉमीज़ को बेहतर बनाते हैं, हमारे मेज़रमेंट्स के तरीके मेच्योर होते हैं, और यूज़र्स के व्यवहार में बदलाव आता है, वैसे-वैसे इनमें ज़रूरी बदलाव हो सकते हैं
सही बातचीतों के बहुत कम होने को देखते हुए, हम सिर्फ़ असली दुनिया के ChatGPT के इस्तेमाल के मेज़रमेंट्स पर भरोसा नहीं करते हैं. हम डिप्लॉयमेंट से पहले स्ट्रक्चर्ड टेस्ट भी रन करते हैं (जिन्हें "ऑफ़लाइन इवैल्यूएशन्स" कहा जाता है), जो ख़ास तौर से मुश्किल या हाई-रिस्क वाले सिनारियो पर फ़ोकस करते हैं. ये इवैल्यूएशन्स इतने चुनौतीपूर्ण तरीके से तैयार किए गए हैं कि हमारे मॉडल अभी तक उन पर पर्फ़ेक्ट तरीके से परफ़ॉर्म नहीं कर पाए हैं, यानी उदाहरणों को अनचाहे जवाब प्राप्त करने की ज़्यादा संभावना के लिए प्रतिकूल तरीके से चुना गया है. वे हमें दिखा सकते हैं कि हमें और ज़्यादा सुधार करने के अवसर कहां हैं, और सामान्य मामलों के बजाय मुश्किल मामलों पर फ़ोकस करके और कई सुरक्षा स्थितियों के आधार पर जवाबों को रेटिंग दे करके प्रोग्रेस को ज़्यादा सटीक तरीके से मापने में हमारी मदद कर सकते हैं. नीचे दिए गए सेक्शन्स में रिपोर्ट किए गए इवैल्यूएशन रिज़ल्ट्स ऐसे इवैल्यूएशन्स से आते हैं जो लगभग पर्फ़ेक्ट परफ़ॉर्मेंस को “सैचुरेट” नहीं करने के लिए डिज़ाइन किए गए हैं, और एरर रेट्स एवरेज प्रोडक्शन ट्रैफ़िक को रिप्रेज़ेंट नहीं करती हैं.
अपने मॉडल्स की सुरक्षा को और मज़बूत करने और ये समझने के लिए कि लोग ChatGPT का इस्तेमाल कैसे कर रहे हैं, हमने दिलचस्पी के कई एरिया को परिभाषित किया और उनकी साइज़ और संबंधित मॉडल बिहेवियर्स को तय किया. इन तीनों एरिया में, हम प्रोडक्शन ट्रैफ़िक, ऑटोमेटेड इवैल्यूएशन्स, और इंडिपेंडेंट मेंटल हेल्थ क्लिनिशियन्स द्वारा ग्रेड किए गए इवैल्यूएशन्स में मॉडल बिहेवियर के अहम सुधार देखते हैं. हमारा अनुमान है कि मॉडल अब मेंटल हेल्थ से जुड़े कई डोमेन्स में 65% से 80% कम बार ऐसे जवाब देता है जो हमारी टैक्सोनॉमीज़ के तहत वांछित व्यवहार के अनुरूप नहीं होते हैं.
हमारा मेंटल हेल्थ टैक्सोनॉमी ये पहचानने के लिए डिज़ाइन किया गया है कि यूज़र्स कब गंभीर मेंटल हेल्थ समस्याओं के लक्षण दिखाते हैं, जैसे साइकोसिस और मेनिया, साथ ही कम गंभीर संकेत, जैसे अलगाव के भ्रम. हमने साइकोसिस और मेनिया पर फोकस करके शुरुआत की, क्योंकि ये मेंटल हेल्थ इमरजेंसीज़ काफ़ी आम हैं, और जब ये होती हैं तो इनके लक्षण बहुत गहरे और गंभीर होते हैं. हालांकि डिप्रेशन जैसे लक्षण अपेक्षाकृत सामान्य हैं, लेकिन आत्महत्या और सेल्फ़-हार्म की रोकथाम पर हमारे काम द्वारा इसके सबसे गंभीर रूपों पर पहले ही फ़ोकस किया जा रहा था. जिन क्लिनिशियन्स से हमने परामर्श किया, उन्होंने हमारे फ़ोकस एरिया को वैलिडेट किया.
- हमारा अनुमान है कि GPT‑5 के लेटेस्ट अपडेट ने हालिया प्रोडक्शन ट्रैफ़िक में मेंटल हेल्थ के मुद्दों से जुड़ी चुनौतीपूर्ण बातचीतों के लिए हमारी टैक्सोनॉमीज़ के तहत मनचाहे बर्ताव का पूरी तरह से पालन नहीं करने वाले जवाबों की दर को 65% तक कम कर दिया है. 2
- हालांकि, जैसा कि ऊपर बताया गया है, इन बातचीतों को डिटेक्ट करना और मापना मुश्किल है, क्योंकि ये बहुत कम होते हैं, हमारी शुरूआती एनालिसिस का अनुमान है कि किसी दिए गए हफ़्ते में एक्टिव यूज़र्स का लगभग 0.07% और मेसेजों का 0.01% साइकोसिस या मेनिया से जुड़ी मेंटल हेल्थ इमरजेंसियों के संभावित संकेत दर्शाते हैं. 3
- मेंटल हेल्थ से जुड़ी चुनौतीपूर्ण बातचीतों में, एक्सपर्ट्स ने पाया कि नए GPT‑5 मॉडल, ChatGPT के डिफ़ॉल्ट मॉडल ने GPT‑4o (n=677) के मुकाबले अनचाहे जवाबों को 39% तक कम कर दिया.
- 1,000 से ज़्यादा चुनौतीपूर्ण मेंटल हेल्थ से जुड़ी बातचीतों वाले एक मॉडल इवैल्यूएशन पर, हमारे नए ऑटोमेटेड इवैल्यूएशन्स ने नए GPT‑5 मॉडल को हमारी टैक्सोनॉमीज़ के तहत हमारे मनचाहे बिहेवियर्स के अनुरूप 92% अंक दिए हैं, जबकि पिछले GPT‑5 मॉडल के लिए ये 27% था. जैसा कि ऊपर बताया गया है, ये एक चुनौती भरा टास्क है जिसे लगातार सुधार के लिए डिज़ाइन किया गया है.
हमने आत्महत्या और सेल्फ़-हार्म को रोकने के लिए अपने मौजूदा काम को और आगे बढ़ाया है, ताकि ये पता लगाया जा सके कि यूज़र को आत्महत्या और सेल्फ़-हार्म के विचार कब आ रहे हैं, या ऐसे संकेत कब दिखाई दे रहे हैं, जो आत्महत्या में दिलचस्पी दिखाते हैं. चूंकि ये बातचीतें बहुत कम होती हैं, इसलिए सेल्फ़-हार्म या आत्महत्या के संभावित संकेतकों वाली बातचीतों का पता लगाना रिसर्च का एक सतत एरिया बना हुआ है, जहां हम सुधार के लिए लगातार काम कर रहे हैं.
- हम अपने मॉडल्स को सुरक्षित तरीके से जवाब देने के लिए ट्रेन करते हैं, जिसमें लोगों को क्राइसिस हेल्पलाइन्स जैसे प्रोफ़ेशनल रीसोर्सेस की दिशा में डायरेक्ट करना भी शामिल है. कुछ कम बार होने वाले मामलों में, मॉडल इन सेंसिटिव स्थितियों में मनचाहे तौर पर व्यवहार नहीं कर सकता है. चूंकि हमने अतिरिक्त सुरक्षा उपाय और बेहतर मॉडल लागू किया है, इसलिए हमने देखा है कि हमारे मॉडल्स द्वारा दिए जाने वाले जवाबों की दर में अनुमान के हिसाब से 65% की कमी आई है, जो हमारी टैक्सोनॉमीज़ के अंतर्गत मनचाहे बिहेवियर के अनुरूप नहीं है.
- हालांकि, जैसा कि ऊपर बताया गया है, इन बातचीतों का पता लगाना और मापना मुश्किल है, क्योंकि ये बहुत कम बार होते हैं, हमारी शुरूआती एनालिसिस का अनुमान है कि किसी दिए गए हफ़्ते में एक्टिव यूज़र्स में से लगभग 0.15% ऐसी बातचीतें करते हैं, जिनमें संभावित आत्महत्या की प्लैनिंग या इरादे के स्पष्ट संकेत शामिल होते हैं और 0.05% मेसेजों में आत्महत्या के विचार या इरादे के स्पष्ट या निहित संकेत होते हैं.
- सेल्फ़-हार्म और आत्महत्या से जुड़ी बातचीतों को चुनौती देने पर, एक्सपर्ट्स ने पाया कि नए GPT‑5 मॉडल ने GPT‑4o (n=630) के मुकाबले अनचाहे जवाबों को 52% तक कम कर दिया.
- 1,000 से ज़्यादा चुनौतीपूर्ण सेल्फ़-हार्म और आत्महत्या से जुड़ी बातचीतों वाले मॉडल इवैल्यूएशन पर, हमारे नए ऑटोमेटेड इवैल्यूएशन्स ने नए GPT‑5 मॉडल को हमारे मनचाहे बिहेवियर्स के अनुरूप 91% अंक दिए हैं, जबकि पिछले GPT‑5 मॉडल के लिए ये 77% था.
- हमने लंबी बातचीतों में GPT‑5 पर भरोसा किये जाने में सुधार जारी रखा है. हमने असली दुनिया के सिनारियो पर आधारित चुनौती भरी लंबी बातचीतों का एक नया सेट तैयार किया, जिन्हें फ़ेल होने की ज़्यादा संभावना के आधार पर चुना गया था. हमारा अनुमान है कि हमारे लेटेस्ट मॉडल्स ने लंबी बातचीतों में 95% से ज़्यादा भरोसा बनाए रखा, ख़ास तौर से चुनौती भरी सेटिंग में सुधार किया, जिसके बारे में हमने पहले बताया है.
मुश्किल और लंबी बातचीतों के एक इवैल्यूएशन में — जहाँ यूज़र ने सेल्फ़-हॉर्म या सुसाइड से जुड़ी नुक़सानदेह निर्देश माँगे — यह पाया गया कि gpt-5-oct-3 ज़्यादा सुरक्षित है और लंबी बातचीतों में भी इसकी सेफ़्टी बेहतर बनी रहती है
हमारी इमोशनल निर्भरता टैक्सोनॉमी (इस क्षेत्र में हमारे पहले के काम(एक नई विंडो में खुलेगा) पर आधारित) स्वस्थ जुड़ाव और चिंताजनक इस्तेमाल के पैटर्न के बीच अंतर करती है, जैसे कि जब कोई व्यक्ति असली ज़िन्दगी के संबंधों, अपने कल्याण या ज़िम्मेदारियों की कीमत पर मॉडल के प्रति बहुत ज़्यादा लगाव के संकेत दिखाता है.
- हमारा अनुमान है कि लेटेस्ट अपडेट ने हालिया प्रोडक्शन ट्रैफ़िक में उन मॉडल के जवाबों की दर को लगभग 80% तक कम कर दिया है जो हमारी इमोशनल निर्भरता टैक्सोनॉमी के तहत मनचाहे बिहेवियर को पूरी तरह से फ़ॉलो नहीं करते हैं.
- हालांकि, जैसा कि ऊपर बताया गया है, इन बातचीतों का पता लगाना और मापना मुश्किल है, क्योंकि ये बहुत कम बार होती हैं, हमारी शुरूआती एनालिसिस का अनुमान है कि किसी दिए गए हफ़्ते में एक्टिव यूज़र्स का लगभग 0.15% और मेसेजेज़ का 0.03% ChatGPT के प्रति इमोशनल लगाव के संभावित बढ़ा हुआ स्तर दिखाता है.
- इमोशनल निर्भरता की ओर इशारा करने वाली चुनौती भरी बातचीतों पर, एक्सपर्ट्स ने पाया कि नए GPT‑5 मॉडल ने 4o (n=507) के मुकाबले अनचाहे जवाबों को 42% तक कम कर दिया.
- इमोशनल निर्भरता की ओर इशारा करने वाली 1,000 से ज़्यादा चुनौती भरी बातचीतों वाले मॉडल इवैल्यूएशन्स पर, हमारे ऑटोमेटेड इवैल्यूएशन्स ने नए GPT‑5 मॉडल को हमारे मनचाहे बिहेवियर के अनुरूप 97% अंक दिए, जबकि पिछले GPT‑5 मॉडल के लिए ये 50% था.
इमोशनल निर्भरता दिखाने वाली बातचीतों के लिए, हम अपने मॉडल्स को असली दुनिया से जुड़ाव को प्रोत्साहित करना सिखाते हैं:
भ्रम से भरी मान्यताओं से जुड़ी बातचीतों के लिए, हम अपने मॉडल्स को सुरक्षित, हमदर्दी से जवाब देना, और बिना आधार वाली मान्यताओं की पुष्टि करने से बचना सिखाते हैं:
हमने एक ग्लोबल फ़िज़िशियन नेटवर्क बनाया है—जो लगभग 300 फ़िज़िशियन्स और मनोवैज्ञानिकों का एक बहुत बड़ा पूल है, जिन्होंने 60 देशों में प्रैक्टिस की है—जिसका इस्तेमाल हम सीधे अपनी सेफ़्टी रिसर्च को सूचित करने और ग्लोबल व्यूज़ को रिप्रेज़ेंट करने के लिए करते हैं. इनमें से 170 से ज़्यादा क्लिनिशियन्स (ख़ास तौर से मनोचिकित्सक, मनोवैज्ञानिक और प्राइमरी केयर प्रैक्टिशनर्स) ने पिछले कुछ महीनों में इनमें से एक या ज़्यादा के ज़रिये हमारी रिसर्च को सपोर्ट किया:
- मेंटल हेल्थ से जुड़े प्रॉम्प्ट्स के लिए आदर्श जवाब लिखना
- मॉडल के जवाबों की कस्टम, क्लिनिकल तरीके से सोच-समझ कर एनालिसिस तैयार करना
- अलग-अलग मॉडल्स से मॉडल के जवाबों की सेफ़्टी को रेटिंग देना
- हमारी अप्रोच पर हाई-लेवल गाइडेंस और फ़ीडबैक देना
इन रिव्युज़ में, क्लिनिशियन्स ने पाया है कि लेटेस्ट मॉडल पहले के वर्ज़न्स के मुकाबले और ज़्यादा सही और लगातार जवाब देता है.
इस कार्य के एक हिस्से के तौर पर, मनोचिकित्सकों और मनोवैज्ञानिकों ने गंभीर मेंटल हेल्थ स्थितियों से जुड़े 1,800 से ज़्यादा मॉडल के जवाबों को रिव्यु किया और नए GPT‑5 चैट मॉडल के जवाबों की तुलना पिछले मॉडल्स से की. इन एक्सपर्ट्स ने पाया कि GPT‑4o के मुकाबले नए मॉडल में काफ़ी सुधार हुआ है, और सभी कैटेगरियों में अनचाहे जवाबों में 39-52% की कमी आई है. ये क्वालिटेटिव फ़ीडबैक, नए मॉडल के लॉन्च के बाद प्रोडक्शन ट्रैफ़िक में आए क्वांटिटेटिव सुधारों की झलक देता है.
किसी भी कॉम्प्लेक्स टॉपिक की तरह, कभी-कभी एक्सपर्ट्स भी इस बात पर असहमत होते हैं कि सबसे बढ़िया जवाब क्या होगा. हम इस फ़र्क को इंटर-रेटर एग्रीमेंट से मापते हैं — यानी ये देखते हैं कि एक्सपर्ट्स कितनी बार इस बात पर सहमत होते हैं कि मॉडल का जवाब अच्छा था या नहीं इससे हमें ये समझने में मदद मिलती है कि किन जगहों पर एक्सपर्ट्स की राय अलग होती है, और मॉडल के बिहेवियर को सही क्लिनिकल जजमेंट के साथ बेहतर ढंग से कैसे मिलाया जा सकता है हम मेंटल हेल्थ, इमोशनल निर्भरता और आत्महत्या से जुड़े मॉडल के जवाबों को स्कोर करने वाले एक्सपर्ट्स क्लिनिशियन्स के बीच निष्पक्ष इंटर-रेटर भरोसा देखते हैं, लेकिन कुछ मामलों में एक्सपर्ट्स के बीच असहमति भी देखते हैं, जिसमें इंटर-रेटर सहमति 71-77% तक होती है.
HealthBench पर हमारे काम के समान, हमने टार्गेटेड इवैल्यूएशन्स तैयार करने के लिए ग्लोबल फ़िज़िशियन नेटवर्क के साथ कोलैबोरेट किया, जिसका इस्तेमाल हम मेंटल हेल्थ कॉन्टेक्स्ट में मॉडल के परफ़ॉर्मेंस का आंकलन करने के लिए इंटर्नल तरीके से करते हैं, जिसमें रिलीज़ से पहले नए मॉडल भी शामिल हैं.
ये काम हमारे लिए बेहद ज़रूरी है, और हम दुनिया भर के उन कई मेंटल हेल्थ एक्सपर्ट्स के आभारी हैं जो इसमें गाइड करते रहे हैं. हमने अहम प्रोग्रेस की है, लेकिन अभी और भी बहुत कुछ करना बाकी है. हम इन क्षेत्रों में और भविष्य के क्षेत्रों में मॉडल बिहेवियर को मापने और मज़बूत करने के लिए इस्तेमाल की जाने वाली अपनी टैक्सोनॉमीज़ और टेक्निकल सिस्टम्स को आगे बढ़ाते रहेंगे. चूंकि ये टूल्स समय के साथ उभरते रहते हैं, इसलिए फ़्यूचर मेज़रमेंट्स की सीधी तुलना अतीत के मेज़रमेंट्स से नहीं हो सकती, लेकिन वे हमारी दिशा और प्रोग्रेस को ट्रैक करने का एक अहम तरीका बने हुए हैं.
आप इस काम के बारे में और ज़्यादा जानकारी GPT‑5 सिस्टम कार्ड के अडेंडम में पढ़ सकते हैं.
लेखक
फ़ुटनोट्स
- 1
हमें प्रिसिशन (हमारे सिस्टम द्वारा फ़्लैग की गई बातचीतें कितनी बार वाकई में असुरक्षित होती हैं) और पहचान दर (हमारा सिस्टम असुरक्षित बातचीतेंतों के कितने फ़्रैक्शन का पता लगाता है) के बीच एक समझौते का सामना करना पड़ता है. अच्छे रिज़ल्ट्स पाने के लिए, हमें कुछ ग़लत पॉज़िटिव्स को मानना पड़ता है. ये बहुत कम बार होने वाली मेडिकल कंडीशन्स की टेस्टिंग के समान है: अगर कोई बीमारी 10,000 लोगों में से एक को प्रभावित करती है, तो भी एक बहुत ज़्यादा सटीक टेस्ट बीमार लोगों के मुकाबले ज़्यादा सेहतमंद लोगों को फ़्लैग कर सकता है.
- 2
ये सभी बदलाव 15 अगस्त को रिलीज़ किए गए(एक नई विंडो में खुलेगा) GPT-5 के वर्ज़न से जुड़े हैं.
- 3
ध्यान रखें, कुछ यूज़र और मैसेज ऐसे भी होते हैं जिनमें एक से ज़्यादा तरह के रिस्क के संकेत नज़र आते हैं — जैसे सेल्फ़-हॉर्म और इमोशनल रिलायंस दोनों। इसी वजह से यहाँ और आगे दी गई कैटेगरीज़ में थोड़ा ओवरलैप देखा जा सकता है.


