OpenAI जितना संभव हो सके उतना बड़े पैमाने पर इंटेलिजेंस को एक्सेस के काबिल बनाने के लिए कमिटेड है. आज हम पेश कर रहे हैं GPT‑4o mini, जो हमारा सबसे किफ़ायती छोटा मॉडल है. हमें उम्मीद है कि GPT‑4o mini इंटेलिजेंस को और ज़्यादा किफ़ायती बनाकर AI से बने ऐप्लिकेशन के दायरे को काफ़ी आगे बढ़ाएगा. GPT‑4o mini ने MMLU पर 82% स्कोर किया है और हाल ही में LMSYS लीडरबोर्ड(एक नई विंडो में खुलेगा) पर चैट प्रेफ़रेंसेस में GPT‑41 से बेहतर परफ़ॉर्मेंस दी है. इसका दाम 15 सेंट प्रति मिलियन इनपुट टोकन और 60 सेंट प्रति मिलियन आउटपुट टोकन है, जो पिछले कई फ़्रंटियर मॉडल की तुलना में काफ़ी ज़्यादा किफ़ायती है और GPT‑3.5 Turbo की तुलना में 60% से ज़्यादा सस्ता है.
GPT‑4o mini अपनी कम लागत और लेटेंसी से बड़े पैमाने पर ढेरों टास्क इनेबल करता है, जैसे कि ऐप्लिकेशन जो कई मॉडल कॉल को एक के बाद एक या साथ-साथ लगाते हैं (जैसे कि, कई API को कॉल करना), मॉडल को बहुत ही सारे कॉन्टेक्स्ट पास करना (जैसे कि, पूरा कोड बेस या बातचीत की हिस्टरी), या तेज़, रियल-टाइम टेक्स्ट रिस्पांस के ज़रिए कस्टमर से इंटरैक्ट करना (जैसे कि, कस्टमर सपोर्ट चैटबॉट).
आज, GPT‑4o mini API में टेक्स्ट और विज़न को सपोर्ट करता है, और भविष्य में टेक्स्ट, इमेज, वीडियो और ऑडियो इनपुट और आउटपुट को भी सपोर्ट करेगा. मॉडल में 128K टोकन की कॉन्टेक्स्ट विंडो है, जो प्रति अनुरोध पर 16K आउटपुट टोकन का सपोर्ट करता है, और इसमें अक्टूबर 2023 तक की जानकारी है. GPT‑4o के साथ शेयर किए गए बेहतर टोकेनाइज़र का शुक्रिया, जिसकी बदौलत ग़ैर-अंग्रेज़ी टेक्स्ट को हैंडल अब और भी ज़्यादा किफ़ायती हो गया है.
बेहतरीन टेक्चुअल इंटेलिजेंस और मल्टी-मॉडल रीज़निंग के साथ छोटा मॉडल
GPT‑4o mini टेक्चुअल इंटेलिजेंस और मल्टी-मॉडल रीज़निंग दोनों में ही एकेडमिक बेचमार्क पर GPT‑3.5 Turbo और अन्य छोटे मॉडल से आगे है, और GPT‑4o के बराबर ही भाषाओं की ऐसी ही रेंज को सपोर्ट करता है. यह फ़ंक्शन कॉलिंग में भी मज़बूत परफ़ॉर्मेंस दिखाता करता है, जो डेवलपर को ऐसे ऐप्लिकेशन बनाने में इनेबल कर सकता है जो डेटा को हासिल करने या बाहरी सिस्टम पर एक्शन ले पाते हैं, और GPT‑3.5 Turbo के मुक़ाबले में लंबे-कॉन्टेक्स्ट परफ़ॉर्मेंस को बेहतर बनाता है.
GPT‑4o mini का मूल्यांकन कई सारे अहम बेंचमार्क2 पर किया गया है.
रीज़निंग टास्क: GPT‑4o mini टेक्स्ट और विज़न दोनों से जुड़े रीज़निंग टास्क पर अन्य छोटे मॉडल के मुक़ाबले बेहतर है, और इसने Gemini Flash के 77.9% और Claude Haiku के 73.8% के मुक़ाबले टेक्चुअल इंटेलिजेंस और रीज़निंग बेंचमार्क – MMLU पर 82.0% का स्कोर किया है.
मैथ और कोडिंग प्रोफ़िशिएंसी GPT‑4o mini मैथेमेटिकल रीज़निंग और कोडिंग टास्क में बेहतरीन है, और मार्केट में पहले से मौजूद कई छोटे मॉडल से बेहतर परफ़ॉर्म करता है. MGSM पर, मैथ रीज़निंग को मापना, GPT‑4o mini ने Gemini Flash के 75.5% और Claude Haiku 71.7% के मुक़ाबले 87.0% स्कोर किया है. GPT‑4o mini ने HumanEval, जो कि कोडिंग परफ़ॉर्मेंस को मापता है, पर Gemini Flash के 71.5% और Claude Haiku के 75.9% के मुक़ाबले 87.2% स्कोर किया है.
मल्टी-मॉडल रीज़निंग: GPT‑4o mini ने MMMU, मल्टी-मॉडल रीज़निंग इवेल, पर बेहतर परफ़ॉर्मेंस दिखाई है और Gemini Flash के 56.1% और Claude Haiku के 50.2% के मुक़ाबले 59.4% स्कोर किया है.
मॉडल इवैल्यूएशन स्कोर्स
हमारे मॉडल विकास की प्रोसेस के हिस्से के तौर पर, हमने GPT‑4o mini के यूज़ केस और सीमाओं को बेहतर तरीक़े से समझने के लिए कुछ भरोसेमंद पार्टनर के साथ काम किया है. हम Ramp(एक नई विंडो में खुलेगा) और Superhuman(एक नई विंडो में खुलेगा) जैसी कंपनियों के पार्टनर हैं, जिन्होंने पाया कि GPT‑4o mini ने रिसीप्ट फ़ाइलों से स्ट्रक्चर्ड डेटा निकालने या थ्रेड हिस्टरी मिलने पर बेहतर क्वालिटी वाले ईमेल रिस्पांस जनरेट करने जैसे टास्क के लिए GPT‑3.5 Turbo के मुक़ाबले में काफ़ी बेहतर परफ़ॉर्मेंस दी है.
बिल्ट-इन सुरक्षा उपाय
शुरू से ही सुरक्षा हमारे मॉडल में बिल्ट-इन है, और हमारे विकास के हर क़दम पर मज़बूत होती जाती है. प्रि-ट्रेनिंग में, हम ऐसी जानकारी की फ़िल्टर कर देते हैं(एक नई विंडो में खुलेगा), जिसे हम नहीं चाहते कि हमारे मॉडल सीखें या आउटपुट करें, जैसे कि नफ़रत वाले भाषण, एडल्ट कंटेंट, ख़ासतौर पर व्यक्तिगत जानकारी इकट्ठा करने वाली साइट, और स्पैम. पोस्ट-ट्रेनिंग में, हम मॉडल के रिस्पांस की एक्यूरेसी और भरोसेमंदी को बेहतर बनाने के लिए इंसानी फ़ीडबैक (RLHF) से रीइंफ़ोर्समेंट लर्निंग जैसी तकनीकों का इस्तेमाल करके मॉडल के बिहेवियर को अपनी नीतियों के अनुरूप बनाते हैं.
GPT‑4o mini में GPT‑4o जैसी ही सुरक्षा मिटिगेशन बिल्ट-इन हैं, जिनका हमने अपने तैयारी फ़्रेमवर्क के अनुसार और अपनी वॉलंटियर कमिटमेंट के अनुरूप ऑटोमेटिड और इंसनी मूल्यांकन दोनों का इस्तेमाल करके बड़े ध्यान से मूल्यांकन किया है. सामाजिक मनोविज्ञान और ग़लत जानकारी जैसी फ़ील्ड के 70 से ज्यादा बाहर के एक्सपर्ट ने संभावित ख़तरों की पहचान करने के लिए GPT‑4o को टेस्ट किया, जिसे ध्यान में रखकर हमने आगामी GPT‑4o सिस्टम कार्ड और तैयारी स्कोरकार्ड में जानकारी शेयर करने का प्लान किया है. इन एक्सपर्ट के मूल्यांकनों से मिले इनसाइट ने GPT‑4o और GPT‑4o mini दोनों की सुरक्षा को बेहतर बनाने में मदद की.
इन सबके आधार पर, हमारी टीमों ने हमारी रिसर्च से मिली नई तकनीकों का इस्तेमाल करके GPT‑4o mini की सुरक्षा को बेहतर बनाने के लिए भी काम किया है. API में GPT‑4o mini हमारी इंस्ट्रक्शन हायरार्की(एक नई विंडो में खुलेगा) तरीक़े को लागू करने वाला पहला मॉडल है, जो जेलब्रेक, प्रॉम्प्ट इंजेक्शन और सिस्टम प्रॉम्प्ट एक्सट्रेक्शन को रोकने के लिए मॉडल की क्षमता को बेहतर बनाने में मदद करता है. यह मॉडल के रिस्पांस को ज़्यादा भरोसेमंद बनाता है और बड़े पैमाने पर ऐप्लिकेशन में इस्तेमाल करने में इसे सुरक्षित बनाने में मदद करता है.
हम GPT‑4o mini के इस्तेमाल पर लगातार नज़र रखेंगे और नए ख़तरों की पहचान होने पर मॉडल की सुरक्षा को बेहतर बनाएंगे.
उपलब्धता और दाम
GPT‑4o mini अब असिस्टेंट्स API, चैट कम्प्लीशन्स API और Batch API में टेक्स्ट और विज़न मॉडल के तौर पर उपलब्ध है. डेवलपर प्रति 1M इनपुट टोकन के लिए 15 सेंट और प्रति 1M आउटपुट टोकन के लिए 60 सेंट की पेमेंट करते हैं (जो स्टैंडर्ड किताब में लगभग 2500 पन्नों के बराबर है). हम आने वाले दिनों में GPT‑4o mini के लिए फ़ाइन-ट्यूनिंग को लाने का प्लान बना रहे हैं.
ChatGPT में, Free, Plus और Team यूज़र आज से ही GPT‑3.5 की जगह GPT‑4o mini को एक्सेस कर पाएंगे. AI के फ़ायदों को सभी के लिए एक्सेस के काबिल बनाने के हमारे मिशन के अनुरूप, अगले सप्ताह से Enterprise यूज़र भी इसे एक्सेस कर पाएंगे.
आगे और क्या है
पिछले कुछ सालों में, हमने AI इंटेलिजेंस में ग़ौरतलब विकास के साथ-साथ ख़र्चे में भी काफ़ी कमी देखी है. जैसे कि, 2022 में पेश किए गए कम केपैबल मॉडल text-davinci-003 के बाद से GPT‑4o mini के प्रति टोकन के ख़र्चे में 99% की गिरावट आई है. हम मॉडल की क्षमताओं को बढ़ाते हुए ख़र्चे को कम करने के इस रास्ते पर लगातार चलने के लिए कमिटेड हैं.
हम ऐसे भविष्य की कल्पना करते हैं, जहां मॉडल हर ऐप में और हर वेबसाइट पर बिना किसी रुकावट के इंटिग्रेट हो जाएं. GPT‑4o mini डेवलपर के लिए ज़ोरदार AI ऐप्लिकेशन को और ज़्यादा क़ाबिलियत और किफ़ायती तरीक़े से बनाने और बढ़ाने के रास्ते को मज़बूत कर रहा है. AI का भविष्य है कि वह हमारे रोज़मर्रा के डिजिटल अनुभवों में ज्यादा पहुंच वाला, भरोसेमंद बन रहा और समाता जा रहा है, और हम इस रास्ते पर आगे बढ़ते रहने के लिए रोमांच से भरे हुए हैं.
लेखक
स्वीकृतियां
प्रमुख: Jacob Menick, Kevin Lu, Shengjia Zhao, Eric Wallace, Hongyu Ren, Haitang Hu, Nick Stathas, Felipe Petroski Such
प्रोग्राम लीड: मियाना चेन
https://openai.com/gpt-4o-contributions/ में दिए गए योगदान
फ़ुटनोट
- 1
18 जुलाई, 2024 तक, GPT-4o mini का एक पुराना वर्ज़न GPT-4T 01-25 से बेहतर परफ़ॉर्म कर रहा है.
- 2
GPT-4o mini के लिए Eval नंबर्स, API असिस्टेंट सिस्टम मेसेज प्रॉम्प्ट के साथ हमारे सिंपल-evals(एक नई विंडो में खुलेगा) रिपो का इस्तेमाल करके कैल्कुलेट किए जाते हैं. कॉम्पिटिटर मॉडल्स के लिए, हम उनके रिपोर्ट किए गए नंबर (अगर उपलब्ध हो), HELM(एक नई विंडो में खुलेगा)लीडरबोर्ड, और सिंपल-evals के ज़रिए अपने ख़ुद के रीप्रोडक्शन पर अधिकतम नंबर लेते हैं.