Tingkat Skala kanggo Pelanggan API

Tingkat Skala kasedhiya kanggo model sing dirilis sadurunge GPT‑5.6. Kanggo GPT‑5.6 lan rilis model mbesuk, deleng Reserved Tier

Tawaran iki kasedhiya kanggo pelanggan Enterprise. Mangga hubungi tim sales kanggo mangerteni luwih lengkap. Kanggo ngakses manfaat latensi premium lan keandalan sing padha kanthi basis fleksibel, bayar miturut panggunaan, delengen mode Cepet.

Tingkat Skala ngidini njenengan tuku jumlah tartamtu token input lan output API saben menit (sing dikenal minangka “unit token”) luwih dhisik kanggo entuk akses menyang siji snapshot model tartamtu. Saben unit token dituku kanggo wektu minimal 30 dina. Model tambahan bisa ditambahake adhedhasar minat pelanggan.

Kanthi milih Tingkat Skala, bisa mbukak akses menyang:

Latensi sing bisa dipredhiksi: Tingkat Skala dirancang kanggo ngasilake token luwih cepet lan kanthi kacepetan sing luwih konsisten tinimbang layanan pay-as-you-go (PAYG), sanajan nalika panjaluk lagi paling dhuwur.
Skala tanpa wates: Saben tuku kuota nganggo Tingkat Skala bakal otomatis ditambahake menyang watesan laju, supaya bisa nggedhekake skala kanthi yakin.
Keandalan sing luwih dhuwur: Lalu lintas Tingkat Skala nawakake SLA uptime 99,9% lan komputasi sing diprioritasake.

	Bundel input	Bundel output	SLA wektu aktif	SLA Latensi
GPT-5.5	50.000 TPM US$ 750,00 saben unit/dina	N/A³	99,9%	99% > 100 token saben detik²
GPT-5.4 mini	50.000 TPM US$ 100,00 saben unit/dina	N/A³	99,9%	99% > 100 token saben detik²
GPT-5.4 ora kalebu konteks dawa⁴	50.000 TPM US$ 300,00 saben unit/dina	N/A³	99,9%	99% > 50 token saben detik²
GPT-5.2	25.000 TPM US$ 105,00 saben unit/dina	2.500 TPM US$ 84,00 saben unit/dina	99,9%	99% > 50 token saben detik²
GPT-5.1	25.000 TPM US$ 75,00 saben unit/dina	2.500 TPM US$ 60,00 saben unit/dina	99,9%	99% > 50 token saben detik²
GPT-5	25.000 TPM US$ 75,00 saben unit/dina	2.500 TPM US$ 60,00 saben unit/dina	99,9%	99% > 50 token saben detik²
GPT-5 mini	500.000 TPM US$ 275,00 saben unit/dina	50.000 TPM US$ 220,00 saben unit/dina	99,9%	99% > 80 token saben detik²
GPT-4.1 ora kalebu konteks dawa¹	30.000 TPM US$ 110,00 saben unit/dina	2.500 TPM US$ 36,00 saben unit/dina	99,9%	99% > 80 token saben detik²
GPT-4.1 mini ora kalebu konteks dawa¹	500.000 TPM US$ 450,00 saben unit/dina	50.000 TPM US$ 175,00 saben unit/dina	99,9%	99% > 90 token saben detik²
GPT-4.1 nano ora kalebu konteks dawa¹	500.000 TPM US$ 110,00 saben unit/dina	50.000 TPM US$ 40,00 saben unit/dina	99,9%	99% > 100 token saben detik²
GPT-4.1 fine tuning	30.000 TPM US$ 165,00 saben unit/dina	2.500 TPM US$ 36,00 saben unit/dina	99,9%	99% > 80 token saben detik²
GPT-4.1 mini fine tuning	500.000 TPM US$ 900,00 saben unit/dina	50.000 TPM US$ 175,00 saben unit/dina	99,9%	99% > 90 token saben detik²
o3	25.000 TPM US$ 75,00 saben unit/dina	5.000 TPM US$ 60,00 saben unit/dina	99,9%	99% > 80 token saben detik²
o4-mini	30.000 TPM US$ 50,00 saben unit/dina	5.000 TPM US$ 32,50 saben unit/dina	99,9%	99% > 90 token saben detik²
GPT-4o	30.000 TPM US$ 124,59 saben unit/dina	2.500 TPM US$ 39,34 saben unit/dina	99,9%	99% > 80 token saben detik²
GPT-4o mini	500.000 TPM US$ 114,75 saben unit/dina	50.000 TPM US$ 49,18 saben unit/dina	99,9%	99% > 90 token saben detik²
GPT-4o mini fine tuning	500.000 TPM US$ 229,50 saben unit/dina	50.000 TPM US$ 98,36 saben unit/dina	99,9%	99% > 90 token saben detik²
o1	5.000 TPM US$ 163,93 saben unit/dina	1.000 TPM US$ 131,15 saben unit/dina	99,9%	99% > 80 token saben detik²
o3-mini	30.000 TPM US$ 78,69 saben unit/dina	5.000 TPM US$ 52,46 saben unit/dina	99,9%	99% > 90 token saben detik²

1Panjaluk sing diprakirakaké >128K prompt token

2Diitung minangka latensi panjalukan p50 adhedhasar saben 5 menit. Kanggo pelanggan sing nduwèni perjanjian enterprise sing wis ana lan nduwèni SLA latensi sing diitung minangka latensi panjaluk p50 adhedhasar saben menit, SLA sadurungé uga isih tetep ditrapaké.

3Kanthi GPT-5.4, Tingkat skala dituku minangka bundel gabungan token input lan output saben menit. Panggunaan token input, token input sing dicache, lan token output diitung marang bundel gabungan iki kanthi tarif sing beda-beda. Delengen bagean Cara Kerjane ing ngisor iki.

4Konteks dawa yaiku >272K

Cara kerjane

Kanthi Tingkat Skala, bisa tuku unit token input lan output. Contoné, nganggo GPT‑4.1, saben unit input biayane $110/dina lan menehi jatah 30k token input/menit. Saben unit output biayane $36/dina lan menehi jatah 2,5k token output/menit. Saben unit token dituku kanggo wektu minimal 30 dina.

Informasi luwih lengkap babagan carane Tingkat Skala sesambungan karo Prompt Caching bisa ditemokake ing bagean FAQ ing ngisor iki.

Kanthi GPT‑5.4 lan GPT‑5.5, njenengan tuku token gabungan input lan output saben menit. Iki maringi keluwesan luwih gedhe lan ngilangi kabutuhan kanggo prédhiksi rasio token input lan output. Nalika nggunakake tingkat skala, token bakal diitung marang Token Gabungan njenengan kaya ing ngandhap punika:

Token input diitung minangka 1
Token input sing disimpen ing cache ngetutake cache saben model kaya ing ngisor iki ing bagean FAQ
Cacah token output adhedhasar rasio rega PayG antarane token Output lan token Input kanggo model kasebut. Contoné, nganggo GPT‑5.4, siji token output diétung minangka 6.

Regane

Kanggo tujuan tagihan, token saben menit (TPM) diétung kanthi njupuk rata-rata cacah token sing digunakake ing interval 15 menit sing diselarasake karo wiwitan saben jam (contone: 3.00 nganti 3.15, 3.15 nganti 3.30, lsp). Yen total token sing digunakake sajrone periode 15 menit kurang saka jatah Tingkat Skala njenengan, token kasebut ora dikenani biaya. Contone, yen njenengan tuku Tingkat Skala kanggo GPT‑4o kanthi hak alokasi 30.000 token input saben menit, njenengan bisa nggunakake nganti 450.000 token input ing periode 15 menit apa wae tanpa kena biaya tambahan. Sembarang token sing digunakake ngluwihi wates iki bakal ditagih nganggo tarif pay-as-you-go (PAYG) ing mode Cepet.

Unit token lan watesan laju

Bisa ndeleng watesan laju saiki ing kaca setelan⁠(mbukak ing jendhela anyar). Nalika tumbas unit token kanggo Tingkat Skala, watesan laju kanggo model kasebut bakal mundhak kanthi otomatis miturut jumlah tumbasan. Nalika nggunakake model, panjaluk bakal diproses luwih dhisik nganggo kuota Tingkat Skala sing luwih cepet. Yen ngluwihi kuota, panjaluk tambahan bakal diproses nganggo layanan pamrosesan Standar biasa. Yen ngluwihi wates laju total sajrone semenit ing gabungan Tingkat Skala + wates pamrosesan Standar biasa, panjaluk sabanjure bakal ditolak kaya biasane kanthi kode kesalahan 429.

Kita nyedhiyakake diskon sing beda-beda kanggo token input sing wis disimpen ing cache (50%, 75%, utawa 90%) gumantung marang model. Yen ngirim 50,000 TPM ing token input sing disimpen ing cache ing model sing token cache-né diwènèhi diskon 50%, token-token kasebut mung diitung 25,000 TPM tumrap kuota. Yen ngirim 50,000 TPM ing token input sing disimpen ing cache ing model sing token cache-né diwènèhi diskon 75%, token-token kasebut mung diitung 12,500 TPM tumrap kuota. Sinau luwih lengkap babagan Prompt Caching⁠(mbukak ing jendhela anyar)

Tingkat Skala kanggo Pelanggan API

Cara kerjane

Regane

Kepiye carane Tingkat Skala dipesen lan disedhiyakake?

Kapan penagihan diwiwiti?

Kepiye cara ngetung biaya keluwihan mbayar miturut panggunaan nalika nggunakake Tingkat Skala?

Yen aku nggawe komitmen tahunan, apa pengeluaranku kudu ditrapake menyang Tingkat Skala?

Apa komitmen taunan kaiket karo penawaran tartamtu?

Yen wis nggunakake Kapasitas Cadangan, kepiye carane bisa nggunakake Tingkat Skala kanggo GPT-4o?

Unit token lan watesan laju

Kepiye carane tuku unit token ing Tingkat Skala?

Kepiye carane ngandhani TPM?

Kepiye carane ngerteni total watesan tingkat panjalukan?

Kepiye carane ngaktifake panggilan supaya nggunakake token Tingkat Skala?

Kados pundi cara kerja Tingkat Skala kanthi cache pituduh?

Model

Kepiye modalitas liyane bisa digunakake karo Tingkat Skala?

Apa aku bisa ngirim otomatis trafik limpahan Tingkat Skala menyang mode Cepet?

Keandalan

Apa sing kedadeyan yen SLA latensi lan SLA wektu aktif loro-lorone dilanggar?

Kabijakan

Kepiye cara kerjane Zero Data Retention (ZDR) kanggo Tingkat Skala?