Skaleringsniveau for API-kunder

Scale Tier is available on models released before GPT‑5.6. For GPT‑5.6 and future model releases, see Reserved Tier

This offering is available to Enterprise customers. Please contact our sales team⁠ to learn more. To access the same premium latency and reliability benefits on a flexible, pay-as-you-go basis, see Fast mode.

Scale Tier lets you purchase a set number of API input and output tokens per minute (known as “token units”) upfront for access to one specific model snapshot. Each token unit is purchased for a minimum of 30 days. Additional models may be added based on customer interest.

By choosing Scale Tier, you can unlock:

Predictable latency: Scale Tier is designed to generate tokens faster and at a more consistent speed than the pay-as-you-go (PAYG) service, even during peak demand.
Uncapped scale: Any quota purchases with Scale Tier is automatically added to your rate limits, so you can confidently scale further.
Higher reliability: Scale Tier traffic offers a 99.9% uptime SLA and prioritized compute.

	Input-pakke	Output-pakke	Serviceniveauaftale for oppetid	Serviceniveauaftale for latenstid
GPT-5.5	50.000 TPM 750,00 US$ pr. enhed/dag	Ikke tilgængelig³	99,9 %	99 % > 100 tokens pr. sekund²
GPT-5.4 mini	50.000 TPM 100,00 US$ pr. enhed/dag	Ikke tilgængelig³	99,9 %	99 % > 100 tokens pr. sekund²
GPT-5.4 udelukker lang kontekst⁴	50.000 TPM 300,00 US$ pr. enhed/dag	Ikke tilgængelig³	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5.2	25.000 TPM 105,00 US$ pr. enhed/dag	2.500 TPM 84,00 US$ pr. enhed/dag	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5.1	25.000 TPM 75,00 US$ pr. enhed/dag	2.500 TPM 60,00 US$ pr. enhed/dag	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5	25.000 TPM 75,00 US$ pr. enhed/dag	2.500 TPM 60,00 US$ pr. enhed/dag	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 mini	500.000 TPM 275,00 US$ pr. enhed/dag	50.000 TPM 220,00 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4.1 udelukker udvidet kontekst¹	30.000 TPM 110,00 US$ pr. enhed/dag	2.500 TPM 36,00 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4.1 mini udelukker udvidet kontekst¹	500.000 TPM 450,00 US$ pr. enhed/dag	50.000 TPM 175,00 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²
GPT-4.1 nano udelukker udvidet kontekst¹	500.000 TPM 110,00 US$ pr. enhed/dag	50.000 TPM 40,00 US$ pr. enhed/dag	99,9 %	99 % > 100 tokens pr. sekund²
GPT-4.1 fine tuning	30.000 TPM 165,00 US$ pr. enhed/dag	2.500 TPM 36,00 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4.1 mini fine tuning	500.000 TPM 900,00 US$ pr. enhed/dag	50.000 TPM 175,00 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²
o3	25.000 TPM 75,00 US$ pr. enhed/dag	5.000 TPM 60,00 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
o4-mini	30.000 TPM 50,00 US$ pr. enhed/dag	5.000 TPM 32,50 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²
GPT-4o	30.000 TPM 124,59 US$ pr. enhed/dag	2.500 TPM 39,34 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4o mini	500.000 TPM 114,75 US$ pr. enhed/dag	50.000 TPM 49,18 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²
GPT-4o mini fine tuning	500.000 TPM 229,50 US$ pr. enhed/dag	50.000 TPM 98,36 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²
o1	5.000 TPM 163,93 US$ pr. enhed/dag	1.000 TPM 131,15 US$ pr. enhed/dag	99,9 %	99 % > 80 tokens pr. sekund²
o3-mini	30.000 TPM 78,69 US$ pr. enhed/dag	5.000 TPM 52,46 US$ pr. enhed/dag	99,9 %	99 % > 90 tokens pr. sekund²

1Anmodninger anslået til >128.000 forespørgsels-tokens

2Beregnet som p50 anmodningslatenstid pr. 5 minutter. For kunder med eksisterende virksomhedsaftaler, der har serviceniveauaftaler for latenstid beregnet som p50 anmodningslatens på minutbasis, gælder de tidligere serviceniveauaftaler også stadig.

3For GPT-5.4 købes skalatrin som en pakke med kombinerede input- og outputtokens pr. minut. Brug af inputtokens, cachelagrede inputtokens og outputtokens tæller med i denne kombinerede pakke til forskellige priser. Se afsnittet Sådan fungerer det nedenfor.

4Lang kontekst er >272K

Sådan fungerer det

Med skaleringsniveau kan du købe input- og outputtoken-enheder. Med GPT‑4.1 koster hver inputenhed for eksempel 110 USD pr. dag og giver dig ret til 30.000 inputtokens pr. minut. Hver outputenhed koster 36 USD pr. dag og giver dig ret til 2.500 output token pr. minut. Hver token købes for minimum 30 dage.

Du kan finde flere oplysninger om, hvordan skaleringsniveau interagerer med cachelagring af forespørgsler i afsnittet med ofte stillede spørgsmål nedenfor.

Med GPT‑5.4 og GPT‑5.5 køber du kombinerede input- og outputtokens pr. minut. Dette giver dig større fleksibilitet og eliminerer behovet for at forudsige forholdet mellem input- og output-token. Når du bruger skaleringsniveau, medregner vi tokens i din samlede tokenbeholdning på følgende måde:

Inputtokens tæller som 1
Cachelagrede inputtokens følger cachelagringen pr. model som vist nedenfor i FAQ-sektionen.
Antal outputtokens er baseret på PayG-prisforholdet mellem output- og inputtokens for modellen. For eksempel tæller én outputtoken med GPT‑5.4 som 6.

Priser

For billing purposes, tokens per minute (TPM) are calculated by averaging the number of tokens used in 15-minute intervals aligned to the top of the hour (e.g. 3:00 to 3:15, 3:15 to 3:30, etc). If the total tokens used within a 15-minute period is below your Scale Tier entitlement, they are not billed. For example, if you purchase Scale Tier for GPT‑4o with an entitlement of 30,000 input tokens per minute, you can use up to 450,000 input tokens in any 15-minute period without incurring additional charges. Any tokens used beyond this limit are billed at pay-as-you-go (PAYG) rates on Fast mode.

Token og brugsgrænser

Du kan se dine nuværende brugsgrænser på din indstillingsside⁠⁠(åbner i et nyt vindue). Når du køber tokenenheder til skaleringsniveau, forhøjes dine brugsgrænser automatisk for den pågældende model med det antal, du har købt. Når du bruger modellen, behandles anmodningerne først ved hjælp af din hurtigere skaleringsniveaukvote. Hvis du overskrider din kvote, vil yderligere anmodninger blive behandlet via den almindelige standardbehandlingstjeneste. Hvis du overskrider din samlede brugsgrænse på et minut på tværs af skaleringsniveau + standardbehandlingsgrænser, vil yderligere anmodninger som normalt blive afvist med en 429-fejlkode.

Vi giver forskellige rabatter på cachelagrede inputtokens (50 %, 75 % eller 90 %) afhængigt af modellen. Hvis du sender 50.000 TPM i cachelagrede inputtoken på en model, hvor cachelagrede token får 50 % rabat, tæller disse token kun for 25.000 TPM i forhold til din kvote. Hvis du sender 50.000 TPM i cachelagrede inputtoken på en model, hvor cachelagrede token får 75 % rabat, tæller disse token kun for 12.500 TPM i forhold til din kvote. Få mere at vide om prompt-cachelagring⁠(åbner i et nyt vindue)

Skaleringsniveau for API-kunder

Sådan fungerer det

Priser

Hvordan bestilles og aktiveres skaleringsniveau?

Hvornår starter faktureringen?

Hvordan beregnes forbrug ud over kapacitetstrin, mens jeg bruger skaleringsniveau?

Hvis jeg indgår en årlig aftale, skal mine udgifter så nødvendigvis henføres til skaleringsniveauet?

Er min årlige aftale bundet til et bestemt tilbud?

Hvis jeg allerede bruger reserveret kapacitet, hvordan kan jeg så bruge skaleringsniveau til GPT-4o?

Token og brugsgrænser

Hvordan køber jeg tokenenheder med skaleringsniveau?

Hvordan kan jeg se mit TPM?

Hvordan finder jeg ud af mine samlede brugsgrænser?

Hvordan aktiverer jeg, at opkald bruger skaleringsniveautokens?

Hvordan fungerer skaleringsniveau med cachelagring af forespørgsler?

Modeller

Hvordan fungerer andre modaliteter med skaleringsniveau?

Can I automatically send my Scale Tier spill-over traffic to Fast mode?

Driftssikkerhed

Hvad sker der, hvis både latenstids- og oppetids-SLA overtrædes?

Politikker

Hvordan fungerer Zero Data Retention (ZDR) for skaleringsniveau?