Pular para o conteúdo principal
OpenAI

Scale Tier para clientes de API

Esta oferta está disponível para clientes Enterprise. Entre em contato com nossa equipe de vendas⁠ para saber mais. Para acessar os mesmos benefícios premium de latência e confiabilidade de forma flexível e pay-as-you-go, consulte o processamento Priority.

O Scale Tier permite comprar antecipadamente uma quantidade definida de tokens de entrada e saída da API por minuto (conhecida como “unidades de tokens”) para acessar um snapshot específico de modelo. Cada unidade de token é comprada por um mínimo de 30 dias. Modelos adicionais podem ser incluídos com base no interesse dos clientes.

Ao escolher o Scale Tier, você pode desbloquear:

  • Latência previsível: o Scale Tier foi criado para gerar tokens mais rapidamente e em uma velocidade mais consistente do que o serviço pay-as-you-go (PAYG), mesmo durante picos de demanda.
  • Escala sem limite: qualquer compra de cota com Scale Tier é automaticamente adicionada aos seus limites de taxa, para que você possa escalar com confiança.
  • Maior confiabilidade: o tráfego do Scale Tier oferece um SLA de uptime de 99.9% e computação priorizada.
Pacote de entradasPacote de resultadosSLA de tempo de atividadeSLA de latência
GPT-5.550.000 TPM
US$ 750,00 por unidade/dia
N/D399,9%99% > 100 tokens por segundo2
GPT-5.4 mini50.000 TPM
US$ 100,00 por unidade/dia
N/D399,9%99% > 100 tokens por segundo2
GPT-5.4
exclui contexto longo4
50.000 TPM
US$ 300,00 por unidade/dia
N/D399,9%99% > 50 tokens por segundo2
GPT-5.225.000 TPM
US$ 105,00 por unidade/dia
2.500 TPM
US$ 84,00 por unidade/dia
99,9%99% > 50 tokens por segundo2
GPT-5.125.000 TPM
US$ 75,00 por unidade/dia
2.500 TPM
US$ 60,00 por unidade/dia
99,9%99% > 50 tokens por segundo2
GPT-525.000 TPM
US$ 75,00 por unidade/dia
2.500 TPM
US$ 60,00 por unidade/dia
99,9%99% > 50 tokens por segundo2
GPT-5 mini500.000 TPM
US$ 275,00 por unidade/dia
50.000 TPM
US$ 220,00 por unidade/dia
99,9%99% > 80 tokens por segundo2
GPT-4.1
exclui janela de contexto1
30.000 TPM
US$ 110,00 por unidade/dia
2.500 TPM
US$ 36,00 por unidade/dia
99,9%99% > 80 tokens por segundo2
GPT-4.1 mini
exclui janela de contexto1
500.000 TPM
US$ 450,00 por unidade/dia
50.000 TPM
US$ 175,00 por unidade/dia
99,9%99% > 90 tokens por segundo2
GPT-4.1 nano
exclui janela de contexto1
500.000 TPM
US$ 110,00 por unidade/dia
50.000 TPM
US$ 40,00 por unidade/dia
99,9%99% > 100 tokens por segundo2
GPT-4.1 fine tuning30.000 TPM
US$ 165,00 por unidade/dia
2.500 TPM
US$ 36,00 por unidade/dia
99,9%99% > 80 tokens por segundo2
GPT-4.1 mini fine tuning500.000 TPM
US$ 900,00 por unidade/dia
50.000 TPM
US$ 175,00 por unidade/dia
99,9%99% > 90 tokens por segundo2
o325.000 TPM
US$ 75,00 por unidade/dia
5.000 TPM
US$ 60,00 por unidade/dia
99,9%99% > 80 tokens por segundo2
o4-mini30.000 TPM
US$ 50,00 por unidade/dia
5.000 TPM
US$ 32,50 por unidade/dia
99,9%99% > 90 tokens por segundo2
GPT-4o30.000 TPM
US$ 124,59 por unidade/dia
2.500 TPM
US$ 39,34 por unidade/dia
99,9%99% > 80 tokens por segundo2
GPT-4o mini500.000 TPM
US$ 114,75 por unidade/dia
50.000 TPM
US$ 49,18 por unidade/dia
99,9%99% > 90 tokens por segundo2
GPT-4o mini fine tuning500.000 TPM
US$ 229,50 por unidade/dia
50.000 TPM
US$ 98,36 por unidade/dia
99,9%99% > 90 tokens por segundo2
o15.000 TPM
US$ 163,93 por unidade/dia
1.000 TPM
US$ 131,15 por unidade/dia
99,9%99% > 80 tokens por segundo2
o3-mini30.000 TPM
US$ 78,69 por unidade/dia
5.000 TPM
US$ 52,46 por unidade/dia
99,9%99% > 90 tokens por segundo2
1Solicitações estimadas em >128 mil tokens de prompt
2Calculado como o 50º percentil da latência das requisições a cada 5 minutos. Para clientes com contratos Enterprise que especificam SLAs de latência calculados como o 50º percentil da latência das requisições a cada 1 minuto, os SLAs anteriores continuam em vigor.
3Com o GPT-5.4, o Nível de Escala é comprado como um pacote de tokens de entrada e saída combinados por minuto. O uso de tokens de entrada, tokens de entrada em cache e tokens de saída é contabilizado nesse pacote combinado em taxas diferentes. Consulte a seção "Como funciona" abaixo.
4O contexto longo é maior que 272 mil

Como funciona

Com o Scale Tier, você pode comprar unidades de tokens de entrada e saída. Por exemplo, com o GPT‑4.1, cada unidade de entrada custa US$ 110/dia e dá direito a 30 mil tokens de entrada/min. Cada unidade de saída custa US$ 36/dia e dá direito a 2,5 mil tokens de saída/min. Cada unidade de token é comprada por um mínimo de 30 dias.

Mais informações sobre como o Scale Tier interage com Prompt Caching podem ser encontradas na seção de FAQ abaixo.

Com o GPT‑5.4, você compra tokens combinados de entrada e saída/min. Isso oferece mais flexibilidade e elimina a necessidade de prever a proporção entre tokens de entrada e saída. À medida que você usa o Scale Tier, contabilizamos tokens em relação aos seus tokens combinados da seguinte forma:

  • Tokens de entrada contam como 1
  • Tokens de entrada em cache seguem o cache por modelo, conforme descrito abaixo na seção de FAQ
  • Tokens de saída contam com base na razão de preço PayG entre tokens de saída e tokens de entrada para o modelo. Por exemplo, com o GPT‑5.4, um token de saída conta como 6.
Tokens por minutoTPMPagamento por tokens utilizados19 tok/s99,5%Pagamento conforme o usoLatência médiaTempo de atividadeNívelEntradaResultadoAntesPagamento mensal antecipado19 tok/s25 tok/s99,5%99,9%Pagamento conforme o usoEscalaLatência médiaTempo de atividadeNívelEntrada3 unidadesResultado2 unidadesApós

Preços

Unidades de tokens e limites de taxa

Modelos

Confiabilidade

Políticas