API ગ્રાહકો માટે પ્રાયોરિટી પ્રોસેસિંગ

પ્રાયોરિટી પ્રોસેસિંગ વિશ્વસનીય, હાઈ-સ્પીડ પર્ફોર્મન્સ આપે છે, જેમાં પે-એઝ-યુ-ગોની સુગમતા મળે છે.

પ્રાયોરિટી પ્રોસેસિંગ પસંદ કરીને, તમે નીચેની સુવિધાઓ મેળવી શકો છો:

અનુમાનિત રીતે ઓછી લેટન્સી: પ્રાયોરિટી પ્રોસેસિંગ, પછી ભલે માંગ સૌથી વધુ હોય, સ્ટાન્ડર્ડ પ્રોસેસિંગ સેવા કરતાં વધુ ઝડપથી અને વધુ સુસંગત ઝડપે ટોકન જનરેટ કરે છે.
ઉપયોગમાં સરળ સુગમતા: સ્ટાન્ડર્ડ પ્રોસેસિંગની જેમ, પ્રાયોરિટી પ્રોસેસિંગને અગાઉથી પ્રોવિઝનિંગની જરૂરિયાત વિના, સુગમ પે-એઝ-યુ-ગો ધોરણે એક્સેસ કરી શકાય છે.

	1M ઇનપુટ ટોકન દીઠ ભાવ	1M ઇનપુટ ટોકન દીઠ ભાવ (કૅશ કરેલ)	1M આઉટપુટ ટોકન દીઠ ભાવ	અપટાઇમ એસએલએ³	લેટન્સી એસએલએ³
GPT-5.6 Sol લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$10.00	US$1.00	US$60.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.6 Terra લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$5.00	US$0.50	US$30.00	99.9%	99% > 70 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.6 Luna લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$2.00	US$0.20	US$12.00	99.9%	99% > 100 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.5 લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$12.50	US$1.250	US$75.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.4 mini લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$1.50	US$0.150	US$9.00	99.9%	99% > 100 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.4 લાંબા સંદર્ભને સમાવેશ કરશો નહીં¹	US$5.00	US$0.500	US$30.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.2	US$3.50	US$0.350	US$28.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.1	US$2.50	US$0.250	US$20.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5	US$2.50	US$0.250	US$20.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5 mini	US$0.45	US$0.045	US$3.60	99.9%	99% > 80 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5.1 codex	US$2.50	US$0.250	US$20.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-5 codex	US$2.50	US$0.250	US$20.00	99.9%	99% > 50 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-4.1	US$3.50	US$0.875	US$14.00	99.9%	99% > 80 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-4.1 mini	US$0.70	US$0.175	US$2.80	99.9%	99% > 90 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-4.1 nano	US$0.20	US$0.050	US$0.80	99.9%	99% > 100 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4.25	US$2.125	US$17.00	99.9%	99% > 80 ટોકન્સ પ્રતિ સેકન્ડ²
gpt-4o-2024-05-13	US$8.75	—	US$26.25	99.9%	99% > 80 ટોકન્સ પ્રતિ સેકન્ડ²
GPT-4o mini	US$0.25	US$0.125	US$1.00	99.9%	99% > 90 ટોકન્સ પ્રતિ સેકન્ડ²
o3	US$3.50	US$0.875	US$14.00	99.9%	99% > 80 ટોકન્સ પ્રતિ સેકન્ડ²
o4-mini	US$2.00	US$0.500	US$8.00	99.9%	99% > 90 ટોકન્સ પ્રતિ સેકન્ડ²

1>272K પ્રોમ્પ્ટ ટોકન પર અંદાજિત વિનંતીઓ

2દર 5 મિનિટના આધારે પી50 વિનંતી લેટન્સી તરીકે ગણતરી કરવામાં આવે છે. જે ગ્રાહકો પાસે હાલના એન્ટરપ્રાઈઝ એગ્રિમેન્ટ્સ છે અને જેમના લેટેન્સી એસએલએ પ્રતિ મિનિટના આધારે પી50 વિનંતી લેટેન્સી તરીકે ગણવામાં આવે છે, તેમના માટે અગાઉના એસએલએ પણ હજુ લાગુ પડે છે.

3આ ફક્ત એન્ટરપ્રાઇઝ ગ્રાહકો માટે જ લાગુ પડે છે

આ કેવી રીતે કામ કરે છે

ગ્રાહકો હાલના service_tier પેરામીટરનો ઉપયોગ કરીને દરેક વિનંતી માટે ટ્રાફિકને પ્રાયોરિટી પ્રોસેસિંગ તરફ દોરી શકે છે, વિકલ્પ તરીકે service_tier = “priority” પસંદ કરીને.

પ્રાયોરિટી પ્રોસેસિંગ દ્વારા સેવા અપાયેલા ટોકનનું બિલ પ્રતિ-ટોકન આધારે કરવામાં આવશે, જે સ્ટાન્ડર્ડ પ્રોસેસિંગ દરોની તુલનામાં પ્રીમિયમ કિંમતે હશે.

વિનંતી સ્તરે કૉન્ફિગર કરવાના ઉપરાંત, તમે પ્રોજેક્ટ સેટિંગ્સ → ડિફૉલ્ટ સેવાનું સ્તર: પ્રાયોરિટીમાં પ્રોજેક્ટને ડિફૉલ્ટ રૂપે પ્રાથમિકતા પર પણ સેટ કરી શકો છો. તમે હજુ પણ દરેક વિનંતી માટે ઓવરરાઇડ કરી શકો છો.

મર્યાદા

પ્રાયોરિટી પ્રોસેસિંગની દર મર્યાદા અન્ય સેવાના સ્તરો સાથે શેર કરવામાં આવે છે.
દુર્લભ કિસ્સાઓમાં, તમારા પ્રાયોરિટી પ્રોસેસિંગ માટેના મિનિટ દીઠ ટોકનના ઝડપી વધારો રેમ્પ દર મર્યાદા સુધી પહોંચવાની સ્થિતિ બની શકે છે. જો તમે રેમ્પ દર મર્યાદા ઓળંગી જાઓ છો, તો વધારાનો ટ્રાફિક તેના બદલે સ્ટાન્ડર્ડ પ્રોસેસિંગ પર મોકલવામાં આવી શકે છે.

કિંમત

વ્યાપકતાનું સ્તર પ્રાયોરિટી પ્રોસેસિંગથી અલગ રહેશે.

પ્રાયોરિટી પ્રોસેસિંગ માટે મોકલવામાં આવેલી વિનંતીઓનું બિલ અલગથી કરવામાં આવશે અને તે તમારા ખરીદેલા વ્યાપકતાનું સ્તર TPM બંડલ્સમાં ગણવામાં આવશે નહીં.

પ્રાયોરિટી પ્રોસેસિંગ દ્વારા પ્રોસેસ કરાયેલા ટોકન જોવા માટે, વપરાશ ડેશબોર્ડ પર જાઓ, ચૅટ કમ્પ્લીશન્સ અથવા પ્રતિસાદ પસંદ કરો, અને સેવાનું સ્તર પ્રમાણે જૂથબદ્ધ કરો.

પ્રાયોરિટી પ્રોસેસિંગ ખર્ચ જોવા માટે, વપરાશ ડેશબોર્ડ પર જાઓ અને 'લાઇન આઇટમ દ્વારા જૂથબદ્ધ કરો' પસંદ કરો.

મોડલ્સ

પ્રાયોરિટી પ્રોસેસિંગ, સ્ટાન્ડર્ડ પર ઉપલબ્ધ સમાન મલ્ટિમોડલ ક્ષમતાઓને સપોર્ટ કરે છે. ખાસ કરીને, ઇમેજનો ઉપયોગ પ્રાયોરિટી પ્રોસેસિંગ માટે ઇનપુટ તરીકે કરી શકાય છે અને તેને સમાન ઝડપી લેટન્સી સાથે પ્રોસેસ કરવામાં આવે છે.

દર મર્યાદાઓ

પ્રાયોરિટી પ્રોસેસિંગમાં રેમ્પ દર મર્યાદા હોય છે, જે તમામ ગ્રાહકો માટે સતત હાઇ પર્ફોર્મન્સ સુનિશ્ચિત કરે છે, અને સાથે જ સુગમ, ઓન-ડિમાન્ડ પ્રાઇસિંગ પણ પ્રદાન કરે છે. જો (a) પ્રાયોરિટી પ્રોસેસિંગનું પર્ફોર્મન્સ ઘટે અને (b) ગ્રાહકનો ટ્રાફિક ખૂબ ઝડપથી વધી રહ્યો હોય, તો કેટલીક પ્રાયોરિટી વિનંતીઓને તેના બદલે સ્ટાન્ડર્ડ પ્રોસેસિંગમાં ઘટાડો કરવામાં આવી શકે છે.

વર્તમાન પ્રાયોરિટી પ્રોસેસિંગ રેમ્પ દર મર્યાદા ઓછામાં ઓછા 1M TPM પર પ્રોસેસિંગ કરવાની અને 15 મિનિટથી ઓછા સમયમાં ટોકન પ્રતિ મિનિટમાં 50% થી વધુ ટ્રાફિક વધારવાનો દર તરીકે વ્યાખ્યાયિત છે.

સ્ટાન્ડર્ડ સેવાનું સ્તર દ્વારા પ્રક્રિયા કરાયેલી વિનંતીઓ માટે સ્ટાન્ડર્ડ દરે બિલ કરવામાં આવશે, અને તે પ્રાયોરિટી પ્રક્રિયા સેવા સ્તર ઉદ્દેશ્યો માટે પાત્ર નહીં હોય.

સ્ટાન્ડર્ડ સેવાનું સ્તર દ્વારા પ્રક્રિયા કરાયેલી વિનંતીઓના પ્રતિસાદમાં service_tier=”Default” શામેલ હશે.

તમારી રેમ્પ દર મર્યાદાની અંદર રહેવા માટેની શ્રેષ્ઠ પદ્ધતિઓ

મોડલ બદલતી વખતે ટ્રાફિક ધીમે ધીમે વધારવો. ઉદાહરણ તરીકે, જો તમારી એપ્લિકેશન અગાઉના સ્નેપશોટમાંથી નવા સ્નેપશોટમાં સ્થાનાંતરિત થઈ રહી હોય, તો ટ્રાફિકને એકસાથે બધું કરવાને બદલે થોડા કલાકોના સમયગાળા દરમિયાન સ્થાનાંતરિત કરવા માટે ફીચર ફ્લેગનો ઉપયોગ કરો.
પ્રાયોરિટી પ્રોસેસિંગ પર મોટા ડેટા પ્રોસેસિંગ અથવા અસિંક્રોનસ જોબ્સ ચલાવવાનું ટાળો. આ જોબ્સ ટ્રાફિકને ખૂબ ઝડપથી વધારી શકે છે, અને ઘણીવાર તેમને પ્રાયોરિટી પ્રોસેસિંગની સુધારેલી કામગીરીની જરૂર પડતી નથી.
જો તમે નિયમિતપણે દર મર્યાદાઓનો સામનો કરો છો, તો તેના બદલે અથવા વધારામાં વ્યાપકતાનું સ્તર ક્ષમતા ખરીદવાનું વિચાર કરો.

વિશ્વસનીયતા

એન્ટરપ્રાઇઝ ગ્રાહકો માટે, કોઈપણ પ્રશ્નો અથવા ચિંતાઓ હોય તો કૃપા કરીને તમારા AD નો સંપર્ક કરો.

પ્રાયોરિટી પ્રોસેસિંગ SLAs ને વ્યાપકતાનું સ્તર SLAs સમાન જ ગણવામાં આવશે; આપેલ સમયગાળા દરમિયાન એન્ટરપ્રાઇઝ કરારો ધરાવતા ગ્રાહકો માટે અમે તે SLAs પૂર્ણ કરવામાં નિષ્ફળ જઈશું, તો સેવા ક્રેડિટ્સ ઓફર કરવામાં આવશે.

નીતિઓ

તમારી રેમ્પ દર મર્યાદાની અંદર રહેવા માટેની શ્રેષ્ઠ પદ્ધતિઓ

મોડલ બદલતી વખતે ટ્રાફિક ધીમે ધીમે વધારવો. ઉદાહરણ તરીકે, જો તમારી એપ્લિકેશન અગાઉના સ્નેપશોટમાંથી નવા સ્નેપશોટમાં સ્થાનાંતરિત થઈ રહી હોય, તો ટ્રાફિકને એકસાથે બધું કરવાને બદલે થોડા કલાકોના સમયગાળા દરમિયાન સ્થાનાંતરિત કરવા માટે ફીચર ફ્લેગનો ઉપયોગ કરો.
પ્રાયોરિટી પ્રોસેસિંગ પર મોટા ડેટા પ્રોસેસિંગ અથવા અસિંક્રોનસ જોબ્સ ચલાવવાનું ટાળો. આ જોબ્સ ટ્રાફિકને ખૂબ ઝડપથી વધારી શકે છે, અને ઘણીવાર તેમને પ્રાયોરિટી પ્રોસેસિંગની સુધારેલી કામગીરીની જરૂર પડતી નથી.
જો તમે નિયમિતપણે દર મર્યાદાઓનો સામનો કરો છો, તો તેના બદલે અથવા વધારામાં વ્યાપકતાનું સ્તર ક્ષમતા ખરીદવાનું વિચાર કરો.

API ગ્રાહકો માટે પ્રાયોરિટી પ્રોસેસિંગ

આ કેવી રીતે કામ કરે છે

મર્યાદા

કિંમત

(એન્ટરપ્રાઇઝ ગ્રાહકો માટે) આ “વ્યાપકતાનું સ્તર” સાથે કેવી રીતે ક્રિયાપ્રતિક્રિયા કરે છે?

(એન્ટરપ્રાઇઝ ગ્રાહકો માટે) શું મારી વાર્ષિક પ્રતિબદ્ધતા કોઈ ચોક્કસ પ્રોસેસિંગ મોડ સાથે જોડાયેલી છે?

શું મને હજુ પણ કૅશ કરેલા ઇનપુટ ટોકન પર ડિસ્કાઉન્ટ મળે છે?

હું મારા પ્રાયોરિટી પ્રોસેસિંગનો વપરાશ અને ખર્ચ કેવી રીતે જોઈ શકું?

મોડલ્સ

શું લાંબા કોન્ટેક્સ્ટ, ફાઇન-ટ્યુન્ડ મોડલ, એમ્બેડિંગ્સ વગેરે માટે પ્રાયોરિટી પ્રોસેસિંગ ઉપલબ્ધ છે?

પ્રાયોરિટી પ્રોસેસિંગ સાથે અન્ય મોડાલિટીઓ કેવી રીતે કામ કરે છે?

શું ભવિષ્યના મોડલ્સને સપોર્ટ કરવામાં આવશે?