API ਗਾਹਕਾਂ ਲਈ ਪੈਮਾਨਾ ਪੱਧਰ

Scale Tier is available on models released before GPT‑5.6. For GPT‑5.6 and future model releases, see Reserved Tier

This offering is available to Enterprise customers. Please contact our sales team⁠ to learn more. To access the same premium latency and reliability benefits on a flexible, pay-as-you-go basis, see Fast mode.

Scale Tier lets you purchase a set number of API input and output tokens per minute (known as “token units”) upfront for access to one specific model snapshot. Each token unit is purchased for a minimum of 30 days. Additional models may be added based on customer interest.

By choosing Scale Tier, you can unlock:

Predictable latency: Scale Tier is designed to generate tokens faster and at a more consistent speed than the pay-as-you-go (PAYG) service, even during peak demand.
Uncapped scale: Any quota purchases with Scale Tier is automatically added to your rate limits, so you can confidently scale further.
Higher reliability: Scale Tier traffic offers a 99.9% uptime SLA and prioritized compute.

	ਇਨਪੁੱਟ ਬੰਡਲ	ਆਉਟਪੁੱਟ ਬੰਡਲ	ਅਪਟਾਈਮ SLA	ਲੇਟੈਂਸੀ SLA
GPT-5.5	50,000 TPM US$750.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	ਲਾਗੂ ਨਹੀਂ³	99.9%	99% > 100 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5.4 mini	50,000 TPM US$100.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	ਲਾਗੂ ਨਹੀਂ³	99.9%	99% > 100 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5.4 ਲੰਬੇ-ਸੰਦਰਭ⁴ਨੂੰ ਸ਼ਾਮਲ ਨਹੀਂ ਕਰਦਾ	50,000 TPM US$300.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	ਲਾਗੂ ਨਹੀਂ³	99.9%	99% > 50 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5.2	25,000 TPM US$105.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	2,500 TPM US$84.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 50 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5.1	25,000 TPM US$75.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	2,500 TPM US$60.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 50 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5	25,000 TPM US$75.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	2,500 TPM US$60.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 50 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-5 mini	5,00,000 TPM US$275.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	50,000 TPM US$220.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4.1 ਲੰਬੇ-ਸੰਦਰਭ¹ ਨੂੰ ਸ਼ਾਮਲ ਨਹੀਂ ਕਰਦਾ	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 30,000 TPM US$110.00	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 25,000 TPM US$36.00	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4.1 mini ਲੰਬੇ-ਸੰਦਰਭ¹ ਨੂੰ ਸ਼ਾਮਲ ਨਹੀਂ ਕਰਦਾ	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 500,000 TPM US$450.00	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 50,000 TPM US$175.00	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4.1 nano ਲੰਬੇ-ਸੰਦਰਭ¹ ਨੂੰ ਸ਼ਾਮਲ ਨਹੀਂ ਕਰਦਾ	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 500,000 TPM US$110.00	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 50,000 TPM US$40.00	99.9%	99% > 100 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4.1 fine tuning	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 30,000 TPM US$165.00	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 25,000 TPM US$36.00	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4.1 mini fine tuning	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 500,000 TPM US$900.00	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 50,000 TPM US$175.00	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
o3	25,000 TPM US$75.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	5,000 TPM US$60.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
o4-mini	30,000 TPM US$50.00 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	5,000 TPM US$32.50 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4o	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 30,000 TPM US$124.59	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 25,000 TPM US$39.34	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4o mini	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 500,000 TPM US$114.75	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 50,000 TPM US$49.18	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
GPT-4o mini fine tuning	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 500,000 TPM US$229.50	ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ 50,000 TPM US$98.36	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
o1	5,000 TPM US$163.93 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	1,000 TPM US$131.15 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 80 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²
o3-mini	30,000 TPM US$78.69 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	5,000 TPM US$52.46 ਪ੍ਰਤੀ ਯੂਨਿਟ/ਦਿਨ	99.9%	99% > 90 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ²

1ਬੇਨਤੀਆਂ ਦਾ ਅਨੁਮਾਨਿਤ ਅੰਕੜਾ >128K ਪ੍ਰੋਂਪਟ ਟੋਕਨ ਹੈ

2ਇਸਦੀ ਗਣਨਾ ਪ੍ਰਤੀ 5 ਮਿੰਟ ਦੇ ਆਧਾਰ 'ਤੇ p50 ਬੇਨਤੀ ਲੈਟੈਂਸੀ ਵਜੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਉਨ੍ਹਾਂ ਗਾਹਕਾਂ ਲਈ ਜਿਨ੍ਹਾਂ ਦੇ ਮੌਜੂਦਾ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਸਮਝੌਤਿਆਂ ਵਿੱਚ ਲੈਟੈਂਸੀ SLA ਦੀ ਗਣਨਾ ਪ੍ਰਤੀ ਮਿੰਟ ਦੇ ਆਧਾਰ 'ਤੇ p50 ਬੇਨਤੀ ਲੈਟੈਂਸੀ ਵਜੋਂ ਕੀਤੀ ਗਈ ਹੈ, ਪਿਛਲੇ SLAs ਵੀ ਅਜੇ ਲਾਗੂ ਰਹਿਣਗੇ।

3GPT-5.4 ਨਾਲ, ਸਕੇਲ ਟੀਅਰ ਨੂੰ ਪ੍ਰਤੀ ਮਿੰਟ ਸੰਯੁਕਤ ਇਨਪੁਟ ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਬੰਡਲ ਵਜੋਂ ਖਰੀਦਿਆ ਜਾਂਦਾ ਹੈ। ਇਨਪੁਟ ਟੋਕਨਾਂ, ਕੈਸ਼ਡ ਇਨਪੁਟ ਟੋਕਨਾਂ, ਅਤੇ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਦਰਾਂ 'ਤੇ ਇਸ ਸੰਯੁਕਤ ਬੰਡਲ ਵਿੱਚ ਗਿਣਿਆ ਜਾਂਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤਾ 'ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ' ਸੈਕਸ਼ਨ ਦੇਖੋ।

4ਲੰਬੇ-ਸੰਦਰਭ >272K ਹੈ

ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਪੈਮਾਨਾ ਪੱਧਰ ਦੇ ਨਾਲ, ਤੁਸੀਂ ਇਨਪੁੱਟ ਅਤੇ ਆਊਟਪੁੱਟ ਟੋਕਨ ਯੂਨਿਟ ਖਰੀਦ ਸਕਦੇ ਹੋ। ਉਦਾਹਰਨ ਲਈ, GPT‑4.1 ਨਾਲ ਹਰ ਇਨਪੁੱਟ ਯੂਨਿਟ ਦੀ ਲਾਗਤ $110/ਦਿਨ ਹੈ ਅਤੇ ਇਹ ਤੁਹਾਨੂੰ 30k ਇਨਪੁੱਟ ਟੋਕਨ/ਮਿੰਟ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਹਰ ਆਉਟਪੁੱਟ ਯੂਨਿਟ ਦੀ ਲਾਗਤ $36/ਦਿਨ ਹੈ ਅਤੇ ਇਹ ਤੁਹਾਨੂੰ 2.5k ਆਉਟਪੁੱਟ ਟੋਕਨ/ਮਿੰਟ ਦਾ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਹਰ ਟੋਕਨ ਯੂਨਿਟ ਨੂੰ ਘੱਟੋ-ਘੱਟ 30 ਦਿਨਾਂ ਲਈ ਖਰੀਦਿਆ ਜਾਂਦਾ ਹੈ।

ਪੈਮਾਨਾ ਪੱਧਰ ਪ੍ਰੌਂਪਟ ਕੈਸ਼ਿੰਗ ਨਾਲ ਕਿਵੇਂ ਇੰਟਰੈਕਟ ਕਰਦਾ ਹੈ, ਇਸ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਹੇਠਾਂ ਦਿੱਤੇ FAQ ਭਾਗ ਵਿੱਚ ਮਿਲ ਸਕਦੀ ਹੈ।

GPT‑5.4 ਅਤੇ GPT‑5.5 ਨਾਲ, ਤੁਸੀਂ ਸੰਯੁਕਤ ਇਨਪੁੱਟ ਅਤੇ ਆਊਟਪੁੱਟ ਟੋਕਨ/ਮਿੰਟ ਖਰੀਦਦੇ ਹੋ। ਇਹ ਤੁਹਾਨੂੰ ਵਧੇਰੇ ਕੰਟਰੋਲ ਦਿੰਦਾ ਹੈ ਅਤੇ ਤੁਹਾਡੇ ਇਨਪੁੱਟ ਤੇ ਆਊਟਪੁੱਟ ਟੋਕਨ ਅਨੁਪਾਤ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਲੋੜ ਨੂੰ ਖਤਮ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ ਤੁਸੀਂ ਪੈਮਾਨਾ ਪੱਧਰ ਵਰਤਦੇ ਹੋ, ਅਸੀਂ ਟੋਕਨ ਨੂੰ ਤੁਹਾਡੇ ਸੰਯੁਕਤ ਟੋਕਨ ਵਿੱਚ ਹੇਠਾਂ ਦਿੱਤੇ ਅਨੁਸਾਰ ਗਿਣਦੇ ਹਾਂ:

ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ 1 ਮੰਨੀ ਜਾਂਦੀ ਹੈ
ਕੈਸ਼ ਕੀਤੇ ਇਨਪੁੱਟ ਟੋਕਨ FAQ ਭਾਗ ਵਿੱਚ ਹੇਠਾਂ ਦਿੱਤੇ ਮਾਡਲ-ਵਾਰ ਕੈਸ਼ਿੰਗ ਅਨੁਸਾਰ ਹੁੰਦੇ ਹਨ
ਮਾਡਲ ਲਈ ਆਉਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਗਿਣਤੀ PayG ਕੀਮਤ ਅਨੁਪਾਤ ਦੇ ਆਧਾਰ 'ਤੇ ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਨਾਲੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, GPT‑5.4 ਨਾਲ ਇੱਕ ਆਊਟਪੁੱਟ ਟੋਕਨ 6 ਵਜੋਂ ਗਿਣਿਆ ਜਾਂਦਾ ਹੈ।

ਕੀਮਤਾਂ

ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਸੀਂ ਆਰਡਰ ਫਾਰਮ 'ਤੇ ਦਸਤਖ਼ਤ ਕਰ ਲੈਂਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਸੰਸਥਾ ਸੈਟਿੰਗਾਂ > ਸਮਰੱਥਾ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਆਪਣੇ ਡਿਵੈਲਪਰ ਕੰਸੋਲ ਰਾਹੀਂ ਟੋਕਨ ਯੂਨਿਟਾਂ ਸ਼ਾਮਲ ਅਤੇ ਹਟਾ ਸਕਦੇ ਹੋ

For billing purposes, tokens per minute (TPM) are calculated by averaging the number of tokens used in 15-minute intervals aligned to the top of the hour (e.g. 3:00 to 3:15, 3:15 to 3:30, etc). If the total tokens used within a 15-minute period is below your Scale Tier entitlement, they are not billed. For example, if you purchase Scale Tier for GPT‑4o with an entitlement of 30,000 input tokens per minute, you can use up to 450,000 input tokens in any 15-minute period without incurring additional charges. Any tokens used beyond this limit are billed at pay-as-you-go (PAYG) rates on Fast mode.

ਨਹੀਂ। ਸਾਲਾਨਾ ਵਚਨਬੱਧਤਾਵਾਂ ਪੈਮਾਨਾ ਪੱਧਰ, ਪ੍ਰਾਇਓਰਿਟੀ ਪ੍ਰੋਸੈਸਿੰਗ , ਅਤੇ ਸਟੈਂਡਰਡ ਪ੍ਰੋਸੈਸਿੰਗ 'ਤੇ ਛੂਟਾਂ ਨੂੰ ਪੱਕਾ ਕਰਦੀਆਂ ਹਨ। ਪਰ ਤੁਸੀਂ ਉਸ ਛੂਟ ਵਾਲੇ ਮਾਡਲ ਨੂੰ ਆਪਣੀ ਮਰਜ਼ੀ ਅਨੁਸਾਰ ਜਿੰਨਾ ਵੱਧ ਜਾਂ ਜਿੰਨਾ ਘੱਟ ਚਾਹੋ, ਵਰਤ ਸਕਦੇ ਹੋ।

ਨਹੀਂ। ਸਾਲਾਨਾ ਵਚਨਬੱਧਤਾਵਾਂ ਕਿਸੇ ਵੀ OpenAI ਮਾਡਲ ਅਤੇ ਡਿਲਿਵਰੀ ਦੇ ਕਿਸੇ ਵੀ ਤਰੀਕੇ (ਸਟੈਂਡਰਡ ਪ੍ਰੋਸੈਸਿੰਗ, ਪ੍ਰਾਇਓਰਿਟੀ ਪ੍ਰੋਸੈਸਿੰਗ, ਪੈਮਾਨਾ ਪੱਧਰ, ਜਾਂ ਰਾਖਵੀਂ ਸਮਰੱਥਾ) 'ਤੇ ਖਰਚੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।

GPT‑3.5 ਅਤੇ GPT‑4 ਲਈ ਰਾਖਵੀਂ ਸਮਰੱਥਾ⁠ ਦੀ ਥਾਂ GPT‑4o ਅਤੇ GPT‑4o mini ਲਈ ਪੈਮਾਨਾ ਪੱਧਰ ਨੇ ਲੈ ਲਈ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੇ ਕੋਲ ਰਾਖਵੀਂ ਸਮਰੱਥਾ ਦਾ ਮੌਜੂਦਾ ਕੰਟ੍ਰੈਕਟ ਹੈ, ਤਾਂ ਤੁਹਾਡੇ ਖਰਚ ਦੀ ਰਕਮ ਨੂੰ GPT‑4o 'ਤੇ ਪੈਮਾਨਾ ਪੱਧਰ ਵਿੱਚ ਸਿੱਧਾ ਟ੍ਰਾਂਸਫਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਟੋਕਨ ਯੂਨਿਟਾਂ ਅਤੇ ਰੇਟ ਲਿਮਿਟਾਂ

ਜਦੋਂ ਤੁਹਾਡੇ ਖਾਤੇ ਲਈ ਪੈਮਾਨਾ ਪੱਧਰ ਚਾਲੂ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਆਪਣੀਆਂ ਸੰਸਥਾ ਸੈਟਿੰਗਾਂ ਦੇ ਸਮਰੱਥਾ ਪ੍ਰਬੰਧਨ ਟੈਬ ਵਿੱਚ ਆਪਣੀਆਂ ਟੋਕਨ ਯੂਨਿਟਾਂ ਨੂੰ ਹੱਥੋਂ-ਹੱਥ ਸਮਾਯੋਜਿਤ ਕਰ ਸਕਦੇ ਹੋ

ਤੁਸੀਂ ਆਪਣਾ TPM ਦਿਨ ਅਨੁਸਾਰ ਇਕੱਤਰਿਤ ਰੂਪ ਵਿੱਚ ਦੇਖ ਸਕਦੇ ਹੋ। ਭਵਿੱਖ ਵਿੱਚ, ਅਸੀਂ ਤੁਹਾਨੂੰ ਐਨਾਲਿਟਿਕਸ ਪ੍ਰਦਾਨ ਕਰਾਂਗੇ ਤਾਂ ਜੋ ਤੁਸੀਂ ਇਸਨੂੰ ਹੋਰ ਵਿਸਤ੍ਰਿਤ ਪੱਧਰ 'ਤੇ ਦੇਖ ਸਕੋ। ਫਿਲਹਾਲ, ਕਿਰਪਾ ਕਰਕੇ ਕਸਟਮ ਰਿਪੋਰਟ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਆਪਣੇ ਅਕਾਊਂਟ ਡਾਇਰੈਕਟਰ ਨਾਲ ਕੰਮ ਕਰੋ।

ਤੁਸੀਂ ਆਪਣੀਆਂ ਮੌਜੂਦਾ ਰੇਟ ਲਿਮਿਟਾਂ ਆਪਣੇ ਸੈਟਿੰਗ ਪੰਨੇ⁠⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)'ਤੇ ਦੇਖ ਸਕਦੇ ਹੋ। ਜਦੋਂ ਤੁਸੀਂ ਪੈਮਾਨਾ ਪੱਧਰ ਲਈ ਟੋਕਨ ਯੂਨਿਟਾਂ ਖਰੀਦਦੇ ਹੋ, ਤਾਂ ਉਸ ਮਾਡਲ ਲਈ ਤੁਹਾਡੀਆਂ ਰੇਟ ਲਿਮਿਟਾਂ ਤੁਹਾਡੀ ਖਰੀਦ ਦੀ ਮਾਤਰਾ ਅਨੁਸਾਰ ਆਪਣੇ ਆਪ ਵੱਧ ਜਾਣਗੀਆਂ। ਜਦੋਂ ਤੁਸੀਂ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਬੇਨਤੀਆਂ ਪਹਿਲਾਂ ਤੁਹਾਡੇ ਤੇਜ਼ ਪੈਮਾਨਾ ਪੱਧਰ ਕੋਟੇ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰੋਸੈਸ ਕੀਤੀਆਂ ਜਾਣਗੀਆਂ। ਜੇਕਰ ਤੁਸੀਂ ਆਪਣਾ ਕੋਟਾ ਪੂਰਾ ਵਰਤ ਲੈਂਦੇ ਹੋ, ਤਾਂ ਵਾਧੂ ਬੇਨਤੀਆਂ ਨੂੰ ਸਟੈਂਡਰਡ ਪ੍ਰੋਸੈਸਿੰਗ ਸੇਵਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰੋਸੈਸ ਕੀਤਾ ਜਾਵੇਗਾ। ਜੇਕਰ ਤੁਸੀਂ ਪੈਮਾਨਾ ਪੱਧਰ ਅਤੇ ਸਟੈਂਡਰਡ ਪ੍ਰੋਸੈਸਿੰਗ ਸੀਮਾਵਾਂ ਵਿੱਚ ਮਿਲਾ ਕੇ ਇੱਕ ਮਿੰਟ ਵਿੱਚ ਆਪਣੀ ਕੁੱਲ ਰੇਟ ਲਿਮਿਟ ਤੋਂ ਵੱਧ ਜਾਂਦੇ ਹੋ, ਤਾਂ ਹੋਰ ਬੇਨਤੀਆਂ ਆਮ ਤਰ੍ਹਾਂ 429 ਐਰਰ ਕੋਡ ਨਾਲ ਰੱਦ ਕਰ ਦਿੱਤੀਆਂ ਜਾਣਗੀਆਂ।

ਪ੍ਰੋਜੈਕਟ ਸੈਟਿੰਗਾਂ ਵਿੱਚ “ਪੈਮਾਨਾ ਪੱਧਰ ਚਾਲੂ” ਟੌਗਲ ਨੂੰ ਚਾਲੂ ਕਰੋ।

ਟੌਗਲ ਚਾਲੂ ਹੋਣ ਅਤੇ ਟੋਕਨ ਉਪਲਬਧ ਹੋਣ 'ਤੇ, Responses API ਕਾਲਾਂ ਡਿਫੌਲਟ ਤੌਰ 'ਤੇ ਪੈਮਾਨਾ ਪੱਧਰ ਟੋਕਨਾਂ ਦੀ ਖਪਤ ਕਰਨਗੀਆਂ।

ਜੇਕਰ ਕੰਪਲੀਸ਼ਨਜ਼ API ਵਰਤ ਰਹੇ ਹੋ, ਤਾਂ ਇਹ ਫੈਸਲਾ ਕਰਨ ਲਈ ਕਿ ਇਸਨੂੰ ਮੈਨੁਅਲੀ ਸੈੱਟ ਕਰਨਾ ਹੈ ਜਾਂ ਡਿਫੌਲਟ ਸੈੱਟਿੰਗਾਂ 'ਤੇ ਨਿਰਭਰ ਰਹਿਣਾ ਹੈ, service_tier ਕੀ ਲਈ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਲਾਹ ਲਓ।

ਅਸੀਂ ਮਾਡਲ ਦੇ ਆਧਾਰ 'ਤੇ ਕੈਸ਼ ਕੀਤੇ ਇਨਪੁੱਟ ਟੋਕਨ 'ਤੇ ਵੱਖ-ਵੱਖ ਛੂਟਾਂ (50%, 75% ਜਾਂ 90%) ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਅਜਿਹੇ ਮਾਡਲ 'ਤੇ ਕੈਸ਼ ਕੀਤੇ ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਵਿੱਚ 50,000 TPM ਭੇਜਦੇ ਹੋ ਜਿੱਥੇ ਕੈਸ਼ ਕੀਤੇ ਟੋਕਨਾਂ 'ਤੇ 50% ਛੂਟ ਮਿਲਦੀ ਹੈ, ਤਾਂ ਉਹ ਟੋਕਨ ਤੁਹਾਡੇ ਕੋਟੇ ਵਿੱਚ ਸਿਰਫ਼ 25,000 TPM ਵਜੋਂ ਹੀ ਗਿਣੇ ਜਾਂਦੇ ਹਨ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਅਜਿਹੇ ਮਾਡਲ 'ਤੇ ਕੈਸ਼ ਕੀਤੇ ਇਨਪੁੱਟ ਟੋਕਨਾਂ ਵਿੱਚ 50,000 TPM ਭੇਜਦੇ ਹੋ ਜਿੱਥੇ ਕੈਸ਼ ਕੀਤੇ ਟੋਕਨਾਂ 'ਤੇ 75% ਛੂਟ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਉਹ ਟੋਕਨ ਤੁਹਾਡੇ ਕੋਟੇ ਵਿੱਚ ਸਿਰਫ਼ 12,500 TPM ਵਜੋਂ ਹੀ ਗਿਣੇ ਜਾਂਦੇ ਹਨ। ਪ੍ਰੌਂਪਟ ਕੈਸ਼ਿੰਗ ਬਾਰੇ ਹੋਰ ਜਾਣੋ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)

ਮਾਡਲ

ਪੈਮਾਨਾ ਪੱਧਰ ਸਮਾਨ ਮਲਟੀਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਜੋ ਸਟੈਂਡਰਡ ਪ੍ਰੋਸੈਸਿੰਗ 'ਤੇ ਉਪਲਬਧ ਹਨ। ਖਾਸ ਤੌਰ 'ਤੇ, ਤਸਵੀਰਾਂ ਨੂੰ ਪੈਮਾਨਾ ਪੱਧਰ ਲਈ ਇਨਪੁੱਟ ਵਜੋਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਉਹੀ ਤੇਜ਼ ਲੇਟੈਂਸੀ ਨਾਲ ਪ੍ਰੋਸੈਸ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

API ਗਾਹਕਾਂ ਲਈ ਪੈਮਾਨਾ ਪੱਧਰ

ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਕੀਮਤਾਂ

ਪੈਮਾਨਾ ਪੱਧਰ ਕਿਵੇਂ ਆਰਡਰ ਅਤੇ ਪ੍ਰੋਵਿਜ਼ਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ?

ਬਿਲਿੰਗ ਕਦੋਂ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ?

ਜੇਕਰ ਮੈਂ ਸਾਲਾਨਾ ਵਚਨਬੱਧਤਾ ਕਰਾਂ, ਤਾਂ ਕੀ ਮੇਰਾ ਖਰਚ ਪੈਮਾਨਾ ਪੱਧਰ 'ਤੇ ਲਾਗੂ ਹੋਣਾ ਲਾਜ਼ਮੀ ਹੈ?

ਕੀ ਮੇਰੀ ਸਾਲਾਨਾ ਵਚਨਬੱਧਤਾ ਕਿਸੇ ਖਾਸ ਪੇਸ਼ਕਸ਼ ਨਾਲ ਜੁੜੀ ਹੋਈ ਹੈ?

ਜੇਕਰ ਮੈਂ ਪਹਿਲਾਂ ਹੀ ਰਾਖਵੀਂ ਸਮਰੱਥਾ ਵਰਤ ਰਿਹਾ/ਰਹੀ ਹਾਂ, ਤਾਂ ਮੈਂ GPT-4o ਲਈ ਪੈਮਾਨਾ ਪੱਧਰ ਕਿਵੇਂ ਵਰਤ ਸਕਦਾ/ਦੀ ਹਾਂ?

ਟੋਕਨ ਯੂਨਿਟਾਂ ਅਤੇ ਰੇਟ ਲਿਮਿਟਾਂ

ਮੈਂ ਪੈਮਾਨਾ ਪੱਧਰ 'ਤੇ ਟੋਕਨ ਯੂਨਿਟਾਂ ਕਿਵੇਂ ਖਰੀਦ ਸਕਦਾ/ਸਕਦੀ ਹਾਂ?

ਮੈਂ ਆਪਣੇ TPM ਨੂੰ ਕਿਵੇਂ ਦੱਸਾਂ?

ਮੈਂ ਆਪਣੀਆਂ ਕੁੱਲ ਰੇਟ ਲਿਮਿਟਾਂ ਦਾ ਪਤਾ ਕਿਵੇਂ ਲਗਾਵਾਂ?

ਮੈਂ ਕਾਲਾਂ ਨੂੰ ਪੈਮਾਨਾ ਪੱਧਰ ਟੋਕਨ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਕਿਵੇਂ ਸਮਰੱਥ ਕਰਾਂ?

ਪੈਮਾਨਾ ਪੱਧਰ ਪ੍ਰੌਂਪਟ ਕੈਸ਼ਿੰਗ ਨਾਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?