Scale Tier para clientes de API

Scale Tier is available on models released before GPT‑5.6. For GPT‑5.6 and future model releases, see Reserved Tier

This offering is available to Enterprise customers. Please contact our sales team⁠ to learn more. To access the same premium latency and reliability benefits on a flexible, pay-as-you-go basis, see Fast mode.

Scale Tier lets you purchase a set number of API input and output tokens per minute (known as “token units”) upfront for access to one specific model snapshot. Each token unit is purchased for a minimum of 30 days. Additional models may be added based on customer interest.

By choosing Scale Tier, you can unlock:

Predictable latency: Scale Tier is designed to generate tokens faster and at a more consistent speed than the pay-as-you-go (PAYG) service, even during peak demand.
Uncapped scale: Any quota purchases with Scale Tier is automatically added to your rate limits, so you can confidently scale further.
Higher reliability: Scale Tier traffic offers a 99.9% uptime SLA and prioritized compute.

	Pacote de entradas	Pacote de resultados	SLA de tempo de atividade	SLA de latência
GPT-5.5	50.000 TPM US$ 750,00 por unidade/dia	N/D³	99,9%	99% > 100 tokens por segundo²
GPT-5.4 mini	50.000 TPM US$ 100,00 por unidade/dia	N/D³	99,9%	99% > 100 tokens por segundo²
GPT-5.4 exclui contexto longo⁴	50.000 TPM US$ 300,00 por unidade/dia	N/D³	99,9%	99% > 50 tokens por segundo²
GPT-5.2	25.000 TPM US$ 105,00 por unidade/dia	2.500 TPM US$ 84,00 por unidade/dia	99,9%	99% > 50 tokens por segundo²
GPT-5.1	25.000 TPM US$ 75,00 por unidade/dia	2.500 TPM US$ 60,00 por unidade/dia	99,9%	99% > 50 tokens por segundo²
GPT-5	25.000 TPM US$ 75,00 por unidade/dia	2.500 TPM US$ 60,00 por unidade/dia	99,9%	99% > 50 tokens por segundo²
GPT-5 mini	500.000 TPM US$ 275,00 por unidade/dia	50.000 TPM US$ 220,00 por unidade/dia	99,9%	99% > 80 tokens por segundo²
GPT-4.1 exclui janela de contexto¹	30.000 TPM US$ 110,00 por unidade/dia	2.500 TPM US$ 36,00 por unidade/dia	99,9%	99% > 80 tokens por segundo²
GPT-4.1 mini exclui janela de contexto¹	500.000 TPM US$ 450,00 por unidade/dia	50.000 TPM US$ 175,00 por unidade/dia	99,9%	99% > 90 tokens por segundo²
GPT-4.1 nano exclui janela de contexto¹	500.000 TPM US$ 110,00 por unidade/dia	50.000 TPM US$ 40,00 por unidade/dia	99,9%	99% > 100 tokens por segundo²
GPT-4.1 fine tuning	30.000 TPM US$ 165,00 por unidade/dia	2.500 TPM US$ 36,00 por unidade/dia	99,9%	99% > 80 tokens por segundo²
GPT-4.1 mini fine tuning	500.000 TPM US$ 900,00 por unidade/dia	50.000 TPM US$ 175,00 por unidade/dia	99,9%	99% > 90 tokens por segundo²
o3	25.000 TPM US$ 75,00 por unidade/dia	5.000 TPM US$ 60,00 por unidade/dia	99,9%	99% > 80 tokens por segundo²
o4-mini	30.000 TPM US$ 50,00 por unidade/dia	5.000 TPM US$ 32,50 por unidade/dia	99,9%	99% > 90 tokens por segundo²
GPT-4o	30.000 TPM US$ 124,59 por unidade/dia	2.500 TPM US$ 39,34 por unidade/dia	99,9%	99% > 80 tokens por segundo²
GPT-4o mini	500.000 TPM US$ 114,75 por unidade/dia	50.000 TPM US$ 49,18 por unidade/dia	99,9%	99% > 90 tokens por segundo²
GPT-4o mini fine tuning	500.000 TPM US$ 229,50 por unidade/dia	50.000 TPM US$ 98,36 por unidade/dia	99,9%	99% > 90 tokens por segundo²
o1	5.000 TPM US$ 163,93 por unidade/dia	1.000 TPM US$ 131,15 por unidade/dia	99,9%	99% > 80 tokens por segundo²
o3-mini	30.000 TPM US$ 78,69 por unidade/dia	5.000 TPM US$ 52,46 por unidade/dia	99,9%	99% > 90 tokens por segundo²

1Solicitações estimadas em >128 mil tokens de prompt

2Calculado como o 50º percentil da latência das requisições a cada 5 minutos. Para clientes com contratos Enterprise que especificam SLAs de latência calculados como o 50º percentil da latência das requisições a cada 1 minuto, os SLAs anteriores continuam em vigor.

3Com o GPT-5.4, o Nível de Escala é comprado como um pacote de tokens de entrada e saída combinados por minuto. O uso de tokens de entrada, tokens de entrada em cache e tokens de saída é contabilizado nesse pacote combinado em taxas diferentes. Consulte a seção "Como funciona" abaixo.

4O contexto longo é maior que 272 mil

Como funciona

Com o Scale Tier, você pode comprar unidades de tokens de entrada e saída. Por exemplo, com o GPT‑4.1, cada unidade de entrada custa US$ 110/dia e dá direito a 30 mil tokens de entrada/min. Cada unidade de saída custa US$ 36/dia e dá direito a 2,5 mil tokens de saída/min. Cada unidade de token é comprada por um mínimo de 30 dias.

Mais informações sobre como o Scale Tier interage com Prompt Caching podem ser encontradas na seção de FAQ abaixo.

Com o GPT‑5.4 e o GPT‑5.5, você compra uma quantidade combinada de tokens de entrada e saída por minuto. Isso oferece maior flexibilidade e elimina a necessidade de prever a proporção entre tokens de entrada e saída. Ao usar o Nível de escala, contabilizamos os tokens na sua cota combinada da seguinte forma:

Tokens de entrada contam como 1
Tokens de entrada em cache seguem o cache por modelo, conforme descrito abaixo na seção de FAQ
Tokens de saída contam com base na razão de preço PayG entre tokens de saída e tokens de entrada para o modelo. Por exemplo, com o GPT‑5.4, um token de saída conta como 6.

Preços

For billing purposes, tokens per minute (TPM) are calculated by averaging the number of tokens used in 15-minute intervals aligned to the top of the hour (e.g. 3:00 to 3:15, 3:15 to 3:30, etc). If the total tokens used within a 15-minute period is below your Scale Tier entitlement, they are not billed. For example, if you purchase Scale Tier for GPT‑4o with an entitlement of 30,000 input tokens per minute, you can use up to 450,000 input tokens in any 15-minute period without incurring additional charges. Any tokens used beyond this limit are billed at pay-as-you-go (PAYG) rates on Fast mode.

Unidades de tokens e limites de taxa

Você pode consultar seus limites de taxa atuais na sua página de configurações⁠⁠(abre em uma nova janela). Quando você compra unidades de tokens do Nível de escala, os limites de taxa desse modelo aumentam automaticamente de acordo com a quantidade comprada. Ao usar o modelo, as solicitações são processadas primeiro com sua cota mais rápida do Nível de escala. Se você exceder sua cota, as solicitações adicionais serão processadas pelo serviço regular de processamento padrão. Se, em um minuto, você exceder o limite de taxa total somando os limites do Nível de escala e do processamento padrão regular, as solicitações seguintes serão rejeitadas normalmente com o código de erro 429.

Oferecemos descontos diferentes para tokens de entrada em cache (50%, 75% ou 90%), dependendo do modelo. Se você enviar 50.000 TPM em tokens de entrada em cache em um modelo no qual esses tokens têm desconto de 50%, eles contarão como apenas 25.000 TPM na sua cota. Se você enviar 50.000 TPM em tokens de entrada em cache em um modelo no qual esses tokens têm desconto de 75%, eles contarão como apenas 12.500 TPM na sua cota. Saiba mais sobre o cache de prompts⁠(abre em uma nova janela)

Scale Tier para clientes de API

Como funciona

Preços

Como o Scale Tier é solicitado e provisionado?

Quando começa a cobrança?

Como os excedentes pay-as-you-go são calculados enquanto uso o Scale Tier?

Se eu fizer um compromisso anual, meu gasto precisa ser aplicado ao Scale Tier?

Meu compromisso anual está vinculado a uma oferta específica?

Se eu já estiver usando Reserved Capacity, como posso usar o Scale Tier para o GPT-4o?

Unidades de tokens e limites de taxa

Como posso comprar unidades de tokens no Scale Tier?

Como posso saber meu TPM?

Como calculo meus limites de taxa totais?

Como permitir que chamadas usem tokens do Nível de Escala

Como o Scale Tier funciona com Prompt Caching?

Modelos

Como outras modalidades funcionam com o Scale Tier?

Can I automatically send my Scale Tier spill-over traffic to Fast mode?

Confiabilidade

O que acontece se o SLA de latência e o SLA de uptime forem violados?

Políticas

Como o Zero Data Retention (ZDR) funciona no Scale Tier?