16 prill 2025

Introducing OpenAI o3 and o4-mini

Duke ngarkuar…

Përditësimi më 10 qershor 2025: OpenAI o3‑pro tani është në dispozicion për përdoruesit Pro në ChatGPT, si dhe në API-n tonë. Ashtu si OpenAI o1‑pro, o3‑pro është një version i modelit tonë më inteligjent, OpenAI o3, i krijuar për të menduar më gjatë dhe për të siguruar përgjigjet më të besueshme. Detajet e plota mund të gjenden në shënimet e versionit⁠(hapet në një dritare të re).

Sot, po publikojmë OpenAI o3 dhe o4-mini, modelet më të fundit në serinë tonë "o" të modeleve të trajnuara për të menduar më gjatë para se të përgjigjen. Këto janë modelet më inteligjente që kemi nxjerrë deri më sot, duke përfaqësuar një ndryshim të rëndësishëm në aftësitë e ChatGPT për të gjithë, nga përdoruesit kureshtarë deri te studiuesit e avancuar. Për herë të parë, modelet tona të arsyetimit mund të përdorin dhe kombinojnë në mënyrë agjentike çdo mjet brenda ChatGPT—kjo përfshin kërkimin në internet, analizimin e skedarëve të ngarkuar dhe të dhënave të tjera me Python, arsyetimin e thellë për të dhënat hyrëse vizuale dhe madje edhe gjenerimin e imazheve. Në mënyrë kritike, këto modele janë trajnuar për të arsyetuar se kur dhe si të përdorin mjete për të prodhuar përgjigje të detajuara dhe të menduara në formatet e duhura dalëse, zakonisht në më pak se një minutë, për të zgjidhur probleme më komplekse. Kjo u lejon atyre të trajtojnë pyetjet me shumë aspekte në mënyrë më efektive, një hap drejt një ChatGPT më të pavarur që mund të ekzekutojë detyra në emrin tënd. Fuqia e kombinuar e arsyetimit më të avancuar me qasje të plotë në mjete përkthehet në performancë dukshëm më të fortë në standardet akademike dhe detyrat e botës reale, duke vendosur një standard të ri si në inteligjencë ashtu edhe në përdorshmëri.

Çfarë ka ndryshuar

OpenAI o3 është modeli ynë më i fuqishëm i arsyetimit që shtyn përpara kufijtë në kodim, matematikë, shkencë, perceptim vizual e më shumë. Vendos një SOTA të re në standarde, duke përfshirë Codeforces, SWE-bench (pa ndërtuar një skelë të personalizuar specifike për modelin) dhe MMMU. Është ideal për pyetje komplekse që kërkojnë analizë shumëplanëshe dhe përgjigjet e të cilave mund të mos jenë menjëherë të qarta. Ai performon veçanërisht mirë në detyrat vizuale si analizimi i imazheve, grafikëve dhe tabelave. Në vlerësimet nga ekspertë të jashtëm, o3 bën 20 për qind më pak gabime të mëdha se OpenAI o1 në detyra të vështira të botës reale—duke shkëlqyer veçanërisht në fusha si programimi, biznesi/konsulenca dhe ideimi krijues. Testuesit e hershëm theksuan rigorozitetin e tij analitik si një partner mendimi dhe theksuan aftësinë e tij për të gjeneruar dhe vlerësuar në mënyrë kritike hipoteza të reja—veçanërisht brenda konteksteve të biologjisë, matematikës dhe inxhinierisë.

OpenAI o4-mini është një model më i vogël i optimizuar për arsyetim të shpejtë dhe me kosto të ulët—ai arrin performancë të jashtëzakonshme për madhësinë dhe koston e tij, veçanërisht në matematikë, kodim dhe detyra vizuale. Është modeli me performancën më të mirë të krahasuar në AIME 2024 dhe 2025. Megjithëse qasja në një kompjuter zvogëlon ndjeshëm vështirësinë e provimit AIME, ne bëri përshtypje që o4-mini arrin 99.5% kalueshmëri@1 (100% konsensus@8) në AIME 2025 kur i jepet akses në një interpretues Python. Ndërsa këto rezultate nuk duhet të krahasohen me performancën e modeleve pa qasje në mjete, ato janë një shembull se sa efektivisht o4-mini shfrytëzon mjetet e disponueshme; o3 tregon përmirësime të ngjashme në AIME 2025 nga përdorimi i mjeteve (98.4% kalim@1, 100% konsensus@8).

Në vlerësimet e ekspertëve, o4-mini tejkalon gjithashtu paraardhësin e tij, o3‑mini, në detyrat jo-STEM, si dhe në domenet si shkenca e të dhënave. Falë efikasitetit të tij, o4-mini mbështet kufij përdorimi dukshëm më të lartë se o3, duke e bërë atë një opsion të fuqishëm për volum të lartë dhe kapacitet të lartë përpunimi për pyetjet që përfitojnë nga arsyetimi. Vlerësues ekspertë të jashtëm i vlerësuan të dy modelet si më efikasë në ndjekjen e udhëzimeve dhe dhënien e përgjigjeve më të dobishme dhe të verifikueshme në krahasim me paraardhësit e tyre, falë inteligjencës së përmirësuar dhe përfshirjes së burimeve nga interneti. Krahasuar me versionet e mëparshme të modeleve tona të arsyetimit, këto dy modele duhet të duken gjithashtu më natyrale dhe bisedore, veçanërisht kur i referohen kujtesës dhe bisedave të kaluara për t'i bërë përgjigjet më të personalizuara dhe përkatëse.

Multimodal

Kodimi

Të gjitha ekzekutimet e vlerësimit SWE-bench përdorin një nëngrup të fiksuar prej n=477 detyrash të verifikuara, të cilat janë konfirmuar në infrastrukturën tonë të brendshme.

Ndjekja e udhëzimeve dhe përdorimi i mjeteve agjentike

Të gjitha modelet vlerësohen me cilësime të larta të 'përpjekjes së arsyetimit'—ngjashëm me variante si 'o4-mini-high' në ChatGPT.

Vazhdo shkallëzimin e të mësuarit përforcues

Gjatë gjithë zhvillimit të OpenAI o3, kemi vërejtur se të mësuarit përforcues në shkallë të gjerë shfaq të njëjtin trend “më shumë llogaritje = performancë më e mirë” të vërejtur në para-trajnimin e serisë GPT. Duke rikthyer rrugën e shkallëzimit—këtë herë në RL—kemi shtyrë një rend shtesë të madhësisë si në llogaritjen e trajnimit ashtu edhe në arsyetimin gjatë kohës së përfundimit, por ende shohim përfitime të qarta të performancës, duke vërtetuar se performanca e modeleve vazhdon të përmirësohet sa më shumë që u lejohet të mendojnë. Me vonesë dhe kosto të barabartë me OpenAI o1, o3 ofron performancë më të lartë në ChatGPT—dhe kemi vërtetuar se nëse e lëmë të mendojë më gjatë, performanca e tij vazhdon të rritet.

Gjithashtu, ne i trajnuam të dy modelet që të përdorin mjetet përmes të mësuarit përforcues—duke i mësuar jo vetëm si t’i përdorin mjetet, por edhe të arsyetojnë kur t’i përdorin ato. Aftësia e tyre për të përdorur mjete bazuar në rezultatet e dëshiruara i bën ata më të aftë në situata të hapura—veçanërisht ato që përfshijnë arsyetim vizual dhe flukse pune me shumë hapa. Ky përmirësim pasqyrohet si në standardet akademike ashtu edhe në detyrat e botës reale, siç raportojnë testuesit e hershëm.

Të menduarit me imazhe

Për herë të parë, këto modele mund të integrojnë imazhe drejtpërsëdrejti në zinxhirin e tyre të mendimit. Ata nuk shohin vetëm një imazh—ata mendojnë me të. Kjo hap një klasë të re të zgjidhjes së problemeve që kombinon arsyetimin vizual dhe tekstual, e cila reflektohet në performancën e tyre më të avancuar në standardet multimodale.

Njerëzit mund të ngarkojnë një foto të një tabele të bardhë, një diagram të një libri ose një skicë të vizatuar me dorë, dhe modeli mund ta interpretojë atë — edhe nëse imazhi është i paqartë, i përmbysur ose me cilësi të ulët. Me përdorimin e mjeteve, modelet mund të manipulojnë imazhet në çast—duke i rrotulluar, zmadhuar ose transformuar ato si pjesë e procesit të tyre të arsyetimit.

Këto modele ofrojnë saktësinë më të mirë në klasë në detyrat e perceptimit vizual, duke u mundësuar atyre të zgjidhin pyetjet që më parë ishin të paarritshme. Shiko blogun e kërkimit mbi arsyetimin vizual⁠ për të mësuar më shumë.

Drejt përdorimit të mjeteve agjentike

OpenAI o3 dhe o4-mini kanë qasje të plotë në mjetet brenda ChatGPT, si dhe në mjetet tuaja të personalizuara përmes thirrjes së funksioneve në API. Këto modele janë të trajnuara për të arsyetuar rreth mënyrës së zgjidhjes së problemeve, duke zgjedhur kur dhe si të përdoren mjetet për të prodhuar shpejt përgjigje të detajuara dhe të menduara mirë në formatet e duhura—zakonisht në më pak se një minutë.

Për shembull, një përdorues mund të pyesë: “Si do të krahasohet përdorimi i energjisë gjatë verës në Kaliforni me atë të vitit të kaluar?” Modeli mund të kërkojë në ueb për të dhëna të shërbimeve publike, të shkruajë kod Python për të ndërtuar një parashikim, të gjenerojë një grafik ose imazh dhe të shpjegojë faktorët kryesorë pas parashikimit, duke ndërthurur së bashku thirrje të shumta mjetesh. Arsyetimi u lejon modelet të reagojnë dhe të përshtaten sipas nevojës ndaj informacionit që hasin. Për shembull, ata mund të kërkojnë në internet disa herë me ndihmën e ofruesve të kërkimit, të shikojnë rezultatet dhe të provojnë kërkime të reja nëse kanë nevojë për më shumë informacion.

Kjo qasje fleksibël dhe strategjike u lejon modeleve të trajtojnë detyra që kërkojnë qasje në informacion të përditësuar përtej njohurive të integruara të modelit, arsyetimit të zgjeruar, sintezës dhe gjenerimit të daljeve në të gjitha modalitetet.

Të gjithë shembujt u plotësuan me OpenAI o3.

OpenAI o3

Solve the following very hard math problem using your in-built knowledge of the literature:

Construct a degree 19 polynomial \ (p(x)) \ in \ mathbb{C}[x] such that \ (X := \ {\, p(x) = p(y) \, \} \ subset \ mathbb{P}^{1} \ times \ mathbb{P}^{1}\ ) has at least 3 (but not all linear) irreducible components over \ mathbb{C}. Choose \ (p(x)\ ) to be odd, monic, have real coefficients and linear coefficient \ (-19\ ) and calculate \ (p(19)\ ).

Arsyetoi për ndërtimin e polinomit për 55 sekonda

The curve defined by p(x) = p(y) factors if p(x) is decomposable or has repeated factors. Actually, p(x)-p(y) always factors, and it’s divisible by (x-y). This gives one factor, and the rest is a degree d-1 polynomial in x and y. For the curve to have at least three irreducible components, p(x)-p(y) must factor into at least three nontrivial factors. Each factor corresponds to a component in projective space, and at least one must be nonlinear.
I’m checking the Dickson polynomials D_n(x,a) and focusing on their coefficients. With a=1, it seems the leading coefficient is always 1, confirming that Dickson polynomials are monic. The linear coefficient for odd n is following a predictable sign pattern: for n=19, it gives a coefficient of -19, which is exactly what I need. So the Dickson polynomial D_n(x,1) with odd n fits nicely with the linear coefficient I was looking for.
I’ve confirmed that the linear coefficient for p(x)=D19(x)p(x) = D_{19}(x)p(x)=D19(x) is correct, with the necessary scaling factor to match. Now for the next step, I need to compute D19(19)D_{19}(19)D19(19). Since Tn(z)T_n(z)Tn(z) grows quickly for real z>1z > 1z>1, I plan to compute this value using Python, leveraging the recurrence to avoid mistakes—it’s going to be a big number. I’ll make sure to present the numeric result neatly so it’s understandable since the coefficients are integers.
The Dickson polynomial D_{19}(x,1) is confirmed to have the required properties: monic, odd, real coefficients, and a linear coefficient of -19. The factorization of D_{19}(x) into irreducible components is also verified and satisfies the condition of having at least 10 components (1 linear + 9 quadratics). To compute p(19), we’ll use the recurrence relation for Dickson polynomials, but there’s also a closed-form expression involving cosine that could be handy here. I’ll proceed accordingly!
I confirmed the linear coefficient is working correctly, which means now I need to calculate p(19)=D19(19)p(19) = D_{19}(19)p(19)=D19(19). This involves evaluating T19(9.5)T_{19}(9.5)T19(9.5), which grows rapidly. To ensure I get an accurate result, I’ll compute this using recurrence in Python. The result is a large number: 1,876,572,071,974,094,803,391,179. I’ll use the commas to make it easier to read: p(19)=1,876,572,071,974,094,803,391,179p(19) = 1,876,572,071,974,094,803,391,179p(19)=1,876,572,071,974,094,803,391,179.
For a = 1, there’s a relationship between Dickson polynomials and Chebyshev polynomials: D_n(x, 1) = 2^(n-1) T_n(x/2). Checking this, we see that the definition of D_n(u + 1/u) aligns well with Chebyshev’s formula. By setting x = 2 cos(θ), we find that D_n(x) equals 2 T_n(x/2). Importantly, the leading coefficient works out to 1, confirming the identity holds. This is nice!
Now, I need to verify that p(x)−p(y)p(x) - p(y)p(x)−p(y) factors as desired, relying on the known Dickson polynomial factorization. According to the literature (like Fried and Jarden), the difference Dn(x)−Dn(y)D_n(x) - D_n(y)Dn(x)−Dn(y) factors into a product involving (x−y)(x - y)(x−y) and other expressions. I’ll provide the explicit polynomial D19(x,1)D_{19}(x, 1)D19(x,1), list the coefficients, and explain how it satisfies the desired properties: monic, odd, etc. Lastly, I’ll compute p(19)p(19)p(19).

Analyzed

Python

1from math import comb, cos, acos
2# Let's compute Dickson D_n(x,a=1) recursively
3def dickson(n,x,a=1):
4    if n==0:
5        return 2
6    if n==1:
7        return x
8    Dm2=2
9    Dm1=x
10    for k in range(2,n+1):
11        D= x*Dm1 - a*Dm2
12        Dm2, Dm1 = Dm1, D
13    return Dm1
14
15d19 = dickson(19,19,1)
16d19

1876572071974094803391179

Analyzed

Python

1d19

1876572071974094803391179

Analyzed

Python

1import locale, sys, math, json, textwrap, re, decimal

Analyzed

Python

1"{:,}".format(d19)

'1.876.572.071.974.094.803.391.179'

Analyzed

Python

1# compute coefficients of Dickson polynomial D_n(x,1) via recurrence polynomial representation
2from sympy import symbols, Poly
3
4x = symbols('x')
5def dickson_poly(n):

Poly(x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x, x,

Analyzed

Python

1poly19.as_expr()

x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x

Done

A convenient way to force many factors in
$p(x) \;-\; p(y)$ is to use a Dickson polynomial of the first kind.
For a parameter $a \in \mathbb{C}$ in math these are defined by

$D_0\!\left(x,\, a\right) = 2,\; D_1\!\left(x,\, a\right) = x,\; D_n\!\left(x,\, a\right) = x\,D_{n-1}\!\left(x,\, a\right) - a\,D_{n-2}\!\left(x,\, a\right)\quad (n \ge 2),$

and satisfy the functional identity

$D_n\!\left(u + \frac{a}{u},\, a\right) = u^{n} + \frac{a^{n}}{u^{n}}.$

1. Choosing the polynomial

Take $a = 1$ and $n=19$ .
Because $n$ is odd, $D_{19}\!\left(x,\, 1\right)$ is an odd polynomial; the recurrence immediately shows it is monic and has integer (hence real) coefficients.
The coefficient of $x$ is $x = (-1)^{\frac{n-1}{2}}\,n = -19,$ so all requested normalisations are satisfied.

Writing it out gives

$\boxed{% p(x) = D_{19}\!\left(x,1\right) = x^{19} - 19x^{17} + 152x^{15} - 665x^{13} + 1729x^{11} - 2717x^{9} + 2508x^{7} - 1254x^{5} + 285x^{3} - 19x% }\,.$

2. Irreducible components of $fX \;=\; \bigl\{\, p(x) = p(y) \,\bigr\}$

For Dickson polynomials one has the classical factorisation

$D_n\!\left(x,1\right) \;-\; D_n\!\left(y,1\right) \;=\; (x - y)\, \prod_{j=1}^{\frac{n-1}{2}} \Bigl( x^{2} + y^{2} - 2\cos\!\bigl(\tfrac{2\pi j}{n}\bigr)\,xy - 4\sin^{2}\!\bigl(\tfrac{\pi j}{n}\bigr) \Bigr),$

where each quadratic factor is irreducible over $\mathbb{C}$ (see, e.g., Lidl–Niederreiter, Finite Fields, §3.6).
For $n=19$ this gives

one linear component $x=y;$
nine quadratic components (corresponding to $\bigl(j = 1,\,\ldots,\,9\bigr).$

Hence $X \subset \mathbb{P}^{1} \times \mathbb{P}^{1}$ has $10$ irreducible components, at least three of them and not all linear, as required.

3. Evaluating $p(19)$

Using the recurrence (or the identity $D_n\!\left(x,\,1\right) \;=\; 2\,T_n\!\bigl(\tfrac{x}{2}\bigr)$ with Chebyshev $T_n$ one obtains

$p(19) \;=\; D_{19}\!\left(19,\,1\right) \;=\; 1\,876\,572\,071\,974\,094\,803\,391\,179.$

Thus the polynomial above fulfils every condition, and

$\boxed{% p(19) \;=\; 1{,}876{,}572{,}071{,}974{,}094{,}803{,}391{,}179 }.$

OpenAI o1

Solve the following very hard math problem using your in-built knowledge of the literature:

Mendoi për 1 minutë e 19 sekonda

I’m piecing together a degree 19 polynomial with only odd powers and a linear coefficient of -19, like: p(x)=x19+a17x17+…+a1xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_1xp(x)=x19+a17x17+…+a1x.

I’m examining if the polynomial p(x)=x19+a17x17+…+a3x3−19xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_3x^3 - 19xp(x)=x19+a17x17+…+a3x3−19x has a notable classical form, considering symmetry or factorization for multiple irreducible components.

To ensure p(x)p(x)p(x) has three or more irreducible components, I’m considering the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) into at least three irreducible factors in C[x,y]\mathbb{C}[x,y]C[x,y].

I’m working through x19−y19x^{19} - y^{19}x19−y19 to ensure it balances linear and nonlinear factors, aiming for a polynomial with at least three irreducible components that aren’t all linear.

Taking a closer look at how p(x)−p(y)p(x) - p(y)p(x)−p(y) can be factored into three distinct polynomials in xxx, aiming to achieve the desired irreducible components.

I’m thinking about how composing ppp with simpler polynomials, like xm−cx^m - cxm−c, could result in multiple irreducible components, achieving at least three distinct factors.

I’m exploring the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) with cyclotomic polynomials. This method generates nnn linear irreducible factors, which might not achieve the required three distinct components.

I’m focusing on constructing an "odd" and monic polynomial, ensuring all exponents are odd and the leading term is x19x^{19}x19. This approach aims to achieve the desired factorization.

I’m working with the Chebyshev polynomials to ensure p(x)−p(y)p(x) - p(y)p(x)−p(y) has at least three irreducible components, leveraging their even or odd properties to manage coefficients.

Considering the odd Chebyshev polynomial T19(x)T_{19}(x)T19(x) for potential factorization, while also examining composite polynomials of lower degrees to enhance factorization properties.

I’m analyzing how a polynomial composed of lower-degree polynomials, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, could yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components.

Piecing together polynomials with integer coefficients, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, to achieve factorization in p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components, aiming for degree 19.

I’m examining how p(x)=(x3−3x)kp(x) = (x^3 - 3x)^kp(x)=(x3−3x)k or p(x)=x19−19xp(x) = x^19 - 19xp(x)=x19−19x might yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with three irreducible components, focusing on ensuring the polynomial is of degree 19.

I’m analyzing p(x)−p(y)p(x) - p(y)p(x)−p(y) into (x−y)(x18+x17y+…+y18−19)(x-y)(x^{18} + x^{17}y + \ldots + y^{18} - 19)(x−y)(x18+x17y+…+y18−19) to identify irreducible components. The polynomial factor x18+x17y+…+y18−19x^{18} + x^{17}y + \ldots + y^{18} - 19x18+x17y+…+y18−19 remains challenging to factor further.

I’m thinking through a new approach: adjusting the Chebyshev polynomial T19(x)T_{19}(x)T19(x) to make it monic, aiming to achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

OK, let’s think through. I’m tweaking T19(x)T_{19}(x)T19(x)'s coefficients to keep the polynomial monic and check if it simplifies into multiple irreducible components.

I’m thinking over various factorization strategies for a monic polynomial of degree 19. The goal is to ensure at least one non-linear factor and achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

I’m updating my approach to factor x2+xy+y2−1x^2 + xy + y^2 - 1x2+xy+y2−1 over complex numbers by exploring change of variables and third roots of unity. This helps in achieving the desired polynomial structure.

I’m combining x3−xx^3 - xx3−x with x19−19xx^{19} - 19xx19−19x to tweak the polynomial's coefficients and complexity, aiming to include more non-linear factors for the desired irreducibility.

Piecing together p(x)=x19−x3−19xp(x) = x^{19} - x^3 - 19xp(x)=x19−x3−19x to ensure it’s odd, monic, and has the required linear coefficient. This targets the desired irreducible factorizations.

I’m mapping out the second factor x18+…+y18−x2−xy−y2−19x^{18} + \ldots + y^{18} - x^2 - xy - y^2 - 19x18+…+y18−x2−xy−y2−19 to see if it can split into three irreducible components.

I’m considering methods to factorize the polynomial by making it divisible by x−yx - yx−y and ensuring the remaining factor splits into exactly two irreducible components, aiming for a less complex factorization.

I’m examining the polynomial x18+x17y+…+y18x^{18} + x^{17}y + \ldots + y^{18}x18+x17y+…+y18 and noting it simplifies to x19−y19x−y\frac{x^{19} - y^{19}}{x - y}x−yx19−y19, which might reveal further irreducible factors.

I’m mapping out the polynomial x(x18−1)−y(y18−1)x−y\frac{x(x^{18}-1) - y(y^{18}-1)}{x-y}x−yx(x18−1)−y(y18−1) for further factorization. This might yield just two irreducible components, which falls short of three.

I’m exploring whether the polynomial p(x)=x19−(x3)p(x) = x^19 - (x^3)p(x)=x19−(x3) can be expressed as the composition of a smaller polynomial with xkx^kxk, potentially revealing multiple irreducible components.

I’m examining if the polynomial T19(x)T_{19}(x)T19(x) can be factored using trigonometric identities, seeking partial factorization without fully linearizing, to gain multiple irreducible components.

OK, let me see. Trigonometric identities show multiple solutions for θ\thetaθ and ϕ\phiϕ, likely leading to 19 or 38 linear factors for T19(x)T_{19}(x)T19(x).

I’m examining how the equation arccos⁡x=±arccos⁡y+2kπ19\arccos x = \pm \arccos y + \frac{2k\pi}{19}arccosx=±arccosy+192kπ leads to possible multiple branches, potentially irreducible in the algebraic sense, and needing an example with at least three non-linear irreducible components.

OK, let me see. I’m pulling together details on the polynomial x3(x2−1)8+xx^3 (x^2 - 1)^8 + xx3(x2−1)8+x. It’s monic, with x19x^{19}x19 as the leading term, ensuring it meets key criteria.

I’m noting that the polynomial p(x)=x3(x2−1)8+xp(x) = x^3 (x^2 - 1)^8 + xp(x)=x3(x2−1)8+x is odd, with its linear coefficient patterning to -19.

I’m figuring out how to adjust the linear coefficient of polynomial p(x)p(x)p(x) to -19 by adding a constant factor ccc in front of xxx to ensure it’s adequately modified.

By tweaking the linear coefficient of p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to -19, it ensures the polynomial remains monic, odd, and real.

I’m working on adding a constant factor ccc to xxx in p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to ensure the linear coefficient is -19, making the polynomial monic, odd, and real.

I’m piecing together the polynomial p(x)=x3(x−1)8(x+1)8p(x) = x^3 (x-1)^8 (x+1)^8p(x)=x3(x−1)8(x+1)8 and considering how p(x)−p(y)p(x) - p(y)p(x)−p(y) might factor with factors like x−yx-yx−y.

I’m confirming p(x)p(x)p(x) is monic, odd, and real, with a linear coefficient of -19, by expanding x3(x2−1)8x^3 (x^2 -1)^8x3(x2−1)8 to set the constant ccc.

I found that for p(x) to have a coefficient of -19 for the x term, c must be -19. The polynomial, p(x), incorporates this constant and preserves the original polynomial's structure.

Below is one concrete example (over the reals) of an odd, monic, degree 19 polynomial with linear coefficient $-19$ whose zero-locus relation $\{\,p(x)=p(y)\,\}\ \text{in }\mathbb{P}^{1}\times\mathbb{P}^{1}$ splits into at least three irreducible components (and not all components are linear). We then compute $p(19)$ .

1. The polynomial

Consider

$p(x) \;=\; x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;-\; 19x.$

We can expand

$x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;=\; x^{19}\;-\;8x^{17}\;+\;28x^{15}\;-\;56x^{13}\;+\;70x^{11} \;-\;56x^{9}\;+\;28x^{7}\;-\;8x^{5}\;+\;x^{3}.$

Hence

$p(x) \;=\; x^{19} \;-\; 8x^{17} \;+\; 28x^{15} \;-\; 56x^{13} \;+\; 70x^{11} \;-\; 56x^{9} \;+\; 28x^{7} \;-\; 8x^{5} \;+\; x^{3} \;-\; 19x.$

Checking the required properties

Degree 19, monic:
The leading term is $x^{19}$ with coefficient $1$ .

Odd polynomial:
All exponents are odd $\bigl(19,\,17,\,\ldots,\,3,\,1\bigr),$ and the constant term is $0$ . Indeed,

$p(-x) \;=\; -\,p(x),$

which makes $p$ an odd polynomial.

Real coefficients:
All coefficients are real integers.

Linear coefficient $-19$ :
The coefficient of $x$ is clearly $-19$ .

At least three irreducible components, not all linear:
Over $\mathbb{C}$ , the locus

$X \;=\; \bigl\{\, (x,y) : p(x)=p(y) \,\bigr\} \;\subset\; \mathbb{P}^{1}\times\mathbb{P}^{1}$

factors in part because $p(x)$ has (for instance) the repeated factors $\bigl(x^{2}-1\bigr)^{8}$ in the big piece $x^{3}\,\bigl(x^{2}-1\bigr)^{8}$ . One sees that $\{\,p(x)=p(y)\,\}$ contains (at least) the divisor $${x=y\}$$ plus further factors coming from the roots $x = 0 \;\text{or}\; x = \pm 1,$ ensuring multiple irreducible components (and not all of them are hyperplanes).

2. Computing $p(19)$

A direct substitution $x=19$ gives a large integer. Symbolic expansion or a computer algebra system yields

$p(19) \;=\; 1934999285524070399999639.$

Hence the required value is

\boxed{\,p(19) \;=\; 1934999285524070399999639\,}. \] :contentReference[oaicite:0]{index=0}

OpenAI o3 e merr përgjigjen saktë pa përdorur kërkimin, ndërsa o1 nuk arrin të japë një përgjigje të saktë.

Përmirësim i arsyetimit të efikasitetit të kostos

Kostoja kundrejt performancës: o3‑mini dhe o4-mini

Vlerësimet AIME të OpenAI o3-mini dhe o4-mini

Vlerësimet GPQA të OpenAI o3-mini dhe o4-mini

Kostoja kundrejt performancës: o1 dhe o3

OpenAI o3 dhe o4-mini janë modelet më inteligjente që kemi prezantuar ndonjëherë, dhe janë gjithashtu shpesh më efikase se paraardhësit e tyre, OpenAI o1 dhe o3‑mini. Për shembull, në konkursin e matematikës AIME 2025, kufiri i kosto-performancës për o3 përmirësohet ndjeshëm ndaj o1, dhe në mënyrë të ngjashme, kufiri i o4-mini përmirësohet ndjeshëm ndaj o3‑mini. Në përgjithësi, presim që për shumicën e përdorimeve në botën reale, o3 dhe o4-mini të jenë gjithashtu më inteligjente dhe më të lira se o1 dhe o3‑mini, përkatësisht.

Siguria në përdorim

Çdo përmirësim në aftësitë e modelit kërkon përmirësime të përmasave të njëjta në siguri. Për OpenAI o3 dhe o4-mini, ne rindërtuam plotësisht të dhënat tona të trajnimit për sigurinë, duke shtuar kërkesa të reja refuzimi në fusha të tilla si kërcënimet biologjike (biorisku), gjenerimi i malware-it dhe jailbreak-eve. Këto të dhëna të rifreskuara kanë bërë që o3 dhe o4-mini të arrijnë performancë të fortë në standardet tona të brendshme të refuzimit (p.sh., hierarkia e udhëzimeve⁠, jailbreaks). Përveç performancës së fortë për refuzimet e modelit, kemi zhvilluar gjithashtu masa zbutëse në nivel sistemi për të identifikuar kërkesat e rrezikshme në zonat me rrezik të lartë. Ngjashëm me punën tonë të mëparshme në gjenerimin e imazheve⁠, ne trajnuam një monitor LLM për arsyetim që punon me specifikime sigurie të shkruara nga njerëzit dhe të interpretueshme. Kur aplikohet për biorisk, ky monitor identifikoi me sukses ~99% të bisedave në fushatën tonë të red-teaming njerëzor.

Ne i testuam të dy modelet me programin tonë më rigoroz të sigurisë deri më sot. Në përputhje me Kornizën tonë të përditësuar të Gatishmërisë⁠, ne vlerësuam o3 dhe o4-mini në tre fushat e aftësive të ndjekura të mbuluara nga korniza: biologjike dhe kimike, siguria kibernetike dhe vetëpërmirësimi i inteligjencës artificiale. Bazuar në rezultatet e këtyre vlerësimeve, kemi përcaktuar se si o3 ashtu edhe o4‑mini mbeten nën pragun "i Lartë" të Kornizës në të tre kategoritë. Kemi publikuar rezultatet e detajuara nga këto vlerësime në kartën e sistemit shoqëruese.⁠

Codex CLI: arsyetimi avangardë nga terminali

Po ndajmë gjithashtu një eksperiment të ri: Codex CLI, një agjent kodimi i lehtë që mund ta ekzekutosh nga terminali yt. Ai funksionon drejtpërdrejt në kompjuterin tënd dhe është krijuar për të maksimizuar aftësitë e arsyetimit të modeleve si o3 dhe o4-mini, me mbështetje të ardhshme për modele shtesë API si GPT‑4.1⁠.

Mund të përfitosh nga arsyetimi multimodal nga linja e komandës duke kaluar pamje nga ekrani ose skica me besueshmëri të ulët në model, të kombinuara me qasjen në kodin tënd në nivel lokal. Ne e mendojmë atë si një ndërfaqe minimale për të lidhur modelet tona me përdoruesit dhe kompjuterët e tyre. Codex CLI është plotësisht me burim të hapur në github.com/openai/codex⁠(hapet në një dritare të re) sot.

Përveç kësaj, ne po nisim një iniciativë prej 1 milion dollarësh për mbështetje të projekteve që përdorin Codex CLI dhe modelet OpenAI. Ne do të vlerësojmë dhe pranojmë aplikimet për grante në shuma prej $25,000 USD në formën e kredive API. Propozimet mund të dorëzohen këtu.

Qasja

Përdoruesit e ChatGPT Plus, Pro dhe Team do të shohin o3, o4-mini dhe o4-mini-high në përzgjedhësin e modelit duke filluar nga sot, duke zëvendësuar o1, o3‑mini dhe o3‑mini‑high. Përdoruesit e ChatGPT Enterprise dhe Edu do të kenë qasje pas një jave.0. Përdoruesit Free (pa pagesë) mund të provojnë o4-mini duke zgjedhur 'Mendo' në hartues, para se të dorëzojnë pyetjen e tyre. Kufizimet e çmimeve në të gjitha planet mbeten të pandryshuara nga grupi i mëparshëm i modeleve.

Ne presim të prezantojmë OpenAI o3‑pro brenda disa javësh me mbështetje të plotë për mjetet. Për momentin, përdoruesit Pro mund të vazhdojnë të kenë qasje në o1‑pro.

Të dy o3 dhe o4-mini janë gjithashtu të disponueshme për zhvilluesit sot përmes API-t të përfundimit të bisedave dhe API-t të përgjigjeve (disa zhvillues do të duhet të verifikojnë organizatat e tyre⁠(hapet në një dritare të re) për të pasur qasje në këto modele). API e përgjigjeve mbështet përmbledhjet e arsyetimit, aftësinë për të ruajtur tokenat e arsyetimit rreth thirrjeve të funksioneve për performancë më të mirë dhe së shpejti do të mbështesë mjete të integruara si kërkimi në internet, kërkimi i skedarëve dhe Interpretuesi i kodeve brenda arsyetimit të modelit. Për të filluar, eksploro dokumentet tona⁠(hapet në një dritare të re) dhe qëndro i informuar për më shumë përditësime.

Çfarë vjen më pas

Përditësimet e sotme pasqyrojnë drejtimin në të cilin po shkojnë modelet tona: po bashkojmë aftësitë e specializuara të arsyetimit të serisë O me aftësitë më natyrore të bisedës dhe përdorimin e mjeteve të serisë GPT. Duke unifikuar këto forca, modelet tona të ardhshme do të ofrojnë mbështetje për biseda të rrjedhshme dhe natyrale, së bashku me përdorimin proaktiv të mjeteve dhe zgjidhjen e avancuar të problemeve.

Përditësimi më 28 korrik 2025: Seti i të dhënave dhe rezultatet e SWE-Lancer të përditësuara që nga 17 korrik 2025, janë në dispozicion në: https://github.com/openai/preparedness⁠(hapet në një dritare të re) dhe në kartat tona të sistemit. Ky përditësim zgjidh disa çështje që ndikonin në rezultatet e fituara në dollarë dhe heq kërkesën për lidhje interneti gjatë ekzekutimit, duke eliminuar një burim kryesor të ndryshueshmërisë në performancën e modelit.

Përditësimi më 16 prill 2025: rezultatet për o3 në Charxiv-r dhe Mathvista u përditësuan për të pasqyruar një ndryshim në kërkesën e sistemit që nuk ishte i pranishëm në vlerësimin origjinal.

Ritransmetim i drejtpërdrejtë

Autor

OpenAI

Shënime në fund

* Numrat e vlerësimit të tau-bench janë mesatarizuar në 5 ekzekutime për të zvogëluar variancën dhe ekzekutohen pa ndonjë mjet ose kërkesë. Ne zbuluam se shpërndarjet me pakicë të tau-bench janë më të prirura ndaj gabimeve të modelit të përdoruesit. Numrat për shiritin e hijëzuar ekzekutohen me GPT-4.1 si model përdoruesi sepse është dukshëm më i mirë se GPT-4o në ndjekjen e udhëzimeve.

* SWE-bench përdor gjatësinë maksimale të kontekstit 256k, e cila përmirëson shkallën e zgjidhjes për o4-mini me rreth 3% dhe ndikon në shkallën e zgjidhjes për o3 me <1%. Ne përjashtojmë gjithashtu 23 mostra që nuk mund të ekzekutohen në infrastrukturën tonë të brendshme.

** Kur aktivizon shfletimin, modeli ndonjëherë mund të gjejë përgjigje të sakta në internet, për shembull, duke lexuar postime në blog me probleme shembull nga një grup të dhënash. Ne i ulim problemet e mashtrimit të modelit gjatë shfletimit me dy strategji:

Bllokojmë domenet nga të cilat kemi vënë re që modeli ka mashtruar në të kaluarën.
Përdorim një model arsyetimi si monitor për të shqyrtuar të gjitha tokenet në çdo përpjekje, me qëllim identifikimin e sjelljes së dyshimtë. Sjellja e dyshimtë përkufizohet si "një faqe, skedar, ose fragment, qëllimi kryesor i të cilit është të japë përgjigjen e saktë për këtë pyetje specifike—p.sh., një çelës zyrtar vlerësimi, thelbi i “zgjidhjeve” të rrjedhura, ose diskutim që citon përgjigjen e përfunduar fjalë për fjalë." Sjellja dashamirëse përkufizohet si "Çdo burim autoritar që një njeri i zellshëm mund të konsultojë (dokumentacion, manuale, dokumente shkencore, artikuj me reputacion) edhe nëse rastësisht përmban përgjigjen e saktë." Çdo përpjekje ku monitori e konsideron prezantimin të dyshimtë, llogaritet si e pasaktë. Shumica e mostrave që dështuan në këtë kontroll ishin probleme zgjidhja e saktë e të cilave ishte e disponueshme në burime të shumta interneti të palidhura me HLE.

Së fundi, vlerësimet tona me shfletimin mund të mos jenë të riprodhueshme në mënyrë të përkryer në OpenAI API për shkak të një ndryshimi në backend të motorëve të kërkimit midis ChatGPT dhe OpenAI API. Këto rezultate synojnë të jenë përfaqësuese të përvojës së përdoruesit të ChatGPT, por në varësi të kërkesës, konfigurimi i kërkimit mund të ndryshojë me kalimin e kohës.

Kontribuesit

Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang