16 d’abril del 2025

Introducing OpenAI o3 and o4-mini

S'està carregant…

Actualització del 10 de juny de 2025: OpenAI o3‑pro ja està disponible per als usuaris Pro a ChatGPT, així com a la nostra API. Igual que OpenAI o1‑pro, o3‑pro és una versió del nostre model més intel·ligent, OpenAI o3, dissenyada per pensar més estona i oferir les respostes més fiables. Podeu trobar tots els detalls a les nostres notes de versió⁠(s'obre en una finestra nova).

Avui llancem OpenAI o3 i o4-mini, els últims models de la nostra sèrie o, entrenats per pensar més estona abans de respondre. Són els models més intel·ligents que hem llançat fins ara i representen un canvi de nivell en les capacitats de ChatGPT per a tothom, des d’usuaris curiosos fins a investigadors avançats. Per primera vegada, els nostres models de raonament poden utilitzar i combinar de manera agentic totes les eines de ChatGPT: això inclou cercar al web, analitzar fitxers pujats i altres dades amb Python, raonar en profunditat sobre entrades visuals i fins i tot generar imatges. És important destacar que aquests models estan entrenats per raonar sobre quan i com utilitzar eines per produir respostes detallades i meditades en els formats de sortida adequats, normalment en menys d’un minut, per resoldre problemes més complexos. Això els permet abordar preguntes amb múltiples vessants de manera més eficaç, un pas cap a un ChatGPT més agentic que pugui executar tasques de manera independent en nom vostre. La potència combinada del raonament d’última generació amb accés complet a eines es tradueix en un rendiment significativament superior en benchmarks acadèmics i tasques del món real, establint un nou estàndard tant en intel·ligència com en utilitat.

Què ha canviat

OpenAI o3 és el nostre model de raonament més potent, que amplia l’avantguarda en programació, matemàtiques, ciència, percepció visual i més. Estableix un nou SOTA en benchmarks com Codeforces, SWE-bench (sense crear una bastida personalitzada específica del model) i MMMU. És ideal per a consultes complexes que requereixen una anàlisi amb múltiples vessants i amb respostes que potser no siguin evidents d’immediat. Destaca especialment en tasques visuals com analitzar imatges, gràfics i elements visuals. En avaluacions d’experts externs, o3 comet un 20 per cent menys d’errors greus que OpenAI o1 en tasques difícils del món real, i sobresurt especialment en àrees com la programació, els negocis/la consultoria i la ideació creativa. Els primers testers van destacar el seu rigor analític com a company de reflexió i van remarcar la seva capacitat de generar i avaluar críticament hipòtesis noves, especialment en contextos de biologia, matemàtiques i enginyeria.

OpenAI o4-mini és un model més petit optimitzat per a un raonament ràpid i eficient en costos: aconsegueix un rendiment notable per la seva mida i cost, especialment en matemàtiques, programació i tasques visuals. És el model amb millor rendiment als benchmarks d’AIME 2024 i 2025. Tot i que l’accés a un ordinador redueix significativament la dificultat de l’examen AIME, també ens va semblar destacable que o4-mini assoleixi un 99,5% de pass@1 (100% de consensus@8) a AIME 2025 quan se li dona accés a un intèrpret de Python. Tot i que aquests resultats no s’han de comparar amb el rendiment de models sense accés a eines, són un exemple de com o4-mini aprofita de manera eficaç les eines disponibles; o3 mostra millores similars a AIME 2025 gràcies a l’ús d’eines (98,4% de pass@1, 100% de consensus@8).

En avaluacions d’experts, o4-mini també supera el seu predecessor, o3‑mini, en tasques no STEM i en dominis com la ciència de dades. Gràcies a la seva eficiència, o4-mini admet límits d’ús significativament més alts que o3, cosa que el converteix en una opció sòlida de gran volum i alt rendiment per a preguntes que es beneficien del raonament. Els avaluadors experts externs van valorar tots dos models com a millors en seguiment d’instruccions i en respostes més útils i verificables que els seus predecessors, gràcies a una intel·ligència millorada i a la inclusió de fonts web. En comparació amb iteracions anteriors dels nostres models de raonament, aquests dos models també haurien de resultar més naturals i conversacionals, especialment quan fan referència a la memòria i a converses passades per fer les respostes més personalitzades i rellevants.

Multimodal

Programació

Totes les execucions d’avaluació de SWE-bench fan servir un subconjunt fix de n=477 tasques verificades que s’han validat a la nostra infraestructura interna.

Seguiment d’instruccions i ús agentic d’eines

Tots els models s’avaluen amb configuracions altes d’«esforç de raonament», similars a variants com «o4-mini-high» a ChatGPT.

Continuem ampliant l’aprenentatge per reforç

Al llarg del desenvolupament d’OpenAI o3, hem observat que l’aprenentatge per reforç a gran escala mostra la mateixa tendència de «més càlcul = millor rendiment» observada en el preentrenament de la sèrie GPT. En tornar a recórrer el camí de l’escalat —aquest cop en RL—, hem empès un ordre de magnitud addicional tant en càlcul d’entrenament com en raonament en temps d’inferència, i tot i així continuem veient millores clares de rendiment, cosa que valida que el rendiment dels models continua millorant com més temps se’ls permet pensar. Amb la mateixa latència i cost que OpenAI o1, o3 ofereix un rendiment superior a ChatGPT, i hem validat que, si el deixem pensar més estona, el seu rendiment continua augmentant.

També hem entrenat tots dos models per utilitzar eines mitjançant aprenentatge per reforç, ensenyant-los no només a usar eines, sinó també a raonar sobre quan utilitzar-les. La seva capacitat de desplegar eines segons els resultats desitjats els fa més capaços en situacions obertes, especialment les que impliquen raonament visual i fluxos de treball de diversos passos. Aquesta millora es reflecteix tant en benchmarks acadèmics com en tasques del món real, segons informen els primers testers.

Pensar amb imatges

Per primera vegada, aquests models poden integrar imatges directament a la seva cadena de pensament. No només veuen una imatge: pensen amb ella. Això obre una nova classe de resolució de problemes que combina raonament visual i textual, reflectida en el seu rendiment d’última generació en benchmarks multimodals.

La gent pot pujar una foto d’una pissarra, un diagrama d’un llibre de text o un esbós dibuixat a mà, i el model el pot interpretar, encara que la imatge sigui borrosa, invertida o de baixa qualitat. Amb l’ús d’eines, els models poden manipular imatges al moment —girar-les, fer zoom o transformar-les— com a part del seu procés de raonament.

Aquests models ofereixen una precisió líder en la seva categoria en tasques de percepció visual, cosa que els permet resoldre preguntes que abans quedaven fora d’abast. Consulteu el blog de recerca sobre raonament visual⁠ per obtenir-ne més informació.

Cap a un ús d’eines més agentic

OpenAI o3 i o4-mini tenen accés complet a les eines dins de ChatGPT, així com a les vostres eines personalitzades mitjançant la crida a funcions a l’API. Aquests models estan entrenats per raonar sobre com resoldre problemes i triar quan i com fer servir eines per produir respostes detallades i meditades en els formats de sortida adequats ràpidament, normalment en menys d’un minut.

Per exemple, un usuari podria preguntar: «Com es compararà el consum energètic d’aquest estiu a Califòrnia amb el de l’any passat?» El model pot cercar al web dades de serveis públics, escriure codi Python per construir una previsió, generar un gràfic o una imatge i explicar els factors clau darrere de la predicció, encadenant múltiples crides a eines. El raonament permet als models reaccionar i canviar de rumb segons calgui davant la informació que troben. Per exemple, poden cercar al web diverses vegades amb l’ajuda de proveïdors de cerca, mirar els resultats i provar cerques noves si necessiten més informació.

Aquest enfocament flexible i estratègic permet als models abordar tasques que requereixen accés a informació actualitzada més enllà del coneixement integrat del model, raonament prolongat, síntesi i generació de resultats entre modalitats.

Tots els exemples es van completar amb OpenAI o3.

OpenAI o3

Solve the following very hard math problem using your in-built knowledge of the literature:

Construct a degree 19 polynomial \ (p(x)) \ in \ mathbb{C}[x] such that \ (X := \ {\, p(x) = p(y) \, \} \ subset \ mathbb{P}^{1} \ times \ mathbb{P}^{1}\ ) has at least 3 (but not all linear) irreducible components over \ mathbb{C}. Choose \ (p(x)\ ) to be odd, monic, have real coefficients and linear coefficient \ (-19\ ) and calculate \ (p(19)\ ).

Ha raonat sobre la construcció de polinomis durant 55 segons

The curve defined by p(x) = p(y) factors if p(x) is decomposable or has repeated factors. Actually, p(x)-p(y) always factors, and it’s divisible by (x-y). This gives one factor, and the rest is a degree d-1 polynomial in x and y. For the curve to have at least three irreducible components, p(x)-p(y) must factor into at least three nontrivial factors. Each factor corresponds to a component in projective space, and at least one must be nonlinear.
I’m checking the Dickson polynomials D_n(x,a) and focusing on their coefficients. With a=1, it seems the leading coefficient is always 1, confirming that Dickson polynomials are monic. The linear coefficient for odd n is following a predictable sign pattern: for n=19, it gives a coefficient of -19, which is exactly what I need. So the Dickson polynomial D_n(x,1) with odd n fits nicely with the linear coefficient I was looking for.
I've confirmed that the linear coefficient for p(x)=D19(x)p(x) = D_{19}(x)p(x)=D19(x) is correct, with the necessary scaling factor to match. Now for the next step, I need to compute D19(19)D_{19}(19)D19(19). Since Tn(z)T_n(z)Tn(z) grows quickly for real z>1z > 1z>1, I plan to compute this value using Python, leveraging the recurrence to avoid mistakes—it's going to be a big number. I'll make sure to present the numeric result neatly so it's understandable since the coefficients are integers.
The Dickson polynomial D_{19}(x,1) is confirmed to have the required properties: monic, odd, real coefficients, and a linear coefficient of -19. The factorization of D_{19}(x) into irreducible components is also verified and satisfies the condition of having at least 10 components (1 linear + 9 quadratics). To compute p(19), we'll use the recurrence relation for Dickson polynomials, but there's also a closed-form expression involving cosine that could be handy here. I'll proceed accordingly!
I confirmed the linear coefficient is working correctly, which means now I need to calculate p(19)=D19(19)p(19) = D_{19}(19)p(19)=D19(19). This involves evaluating T19(9.5)T_{19}(9.5)T19(9.5), which grows rapidly. To ensure I get an accurate result, I'll compute this using recurrence in Python. The result is a large number: 1,876,572,071,974,094,803,391,179. I'll use the commas to make it easier to read: p(19)=1,876,572,071,974,094,803,391,179p(19) = 1,876,572,071,974,094,803,391,179p(19)=1,876,572,071,974,094,803,391,179.
For a = 1, there’s a relationship between Dickson polynomials and Chebyshev polynomials: D_n(x, 1) = 2^(n-1) T_n(x/2). Checking this, we see that the definition of D_n(u + 1/u) aligns well with Chebyshev’s formula. By setting x = 2 cos(θ), we find that D_n(x) equals 2 T_n(x/2). Importantly, the leading coefficient works out to 1, confirming the identity holds. This is nice!
Now, I need to verify that p(x)−p(y)p(x) - p(y)p(x)−p(y) factors as desired, relying on the known Dickson polynomial factorization. According to the literature (like Fried and Jarden), the difference Dn(x)−Dn(y)D_n(x) - D_n(y)Dn(x)−Dn(y) factors into a product involving (x−y)(x - y)(x−y) and other expressions. I'll provide the explicit polynomial D19(x,1)D_{19}(x, 1)D19(x,1), list the coefficients, and explain how it satisfies the desired properties: monic, odd, etc. Lastly, I'll compute p(19)p(19)p(19).

Analyzed

Python

1from math import comb, cos, acos
2# Let's compute Dickson D_n(x,a=1) recursively
3def dickson(n,x,a=1):
4    if n==0:
5        return 2
6    if n==1:
7        return x
8    Dm2=2
9    Dm1=x
10    for k in range(2,n+1):
11        D= x*Dm1 - a*Dm2
12        Dm2, Dm1 = Dm1, D
13    return Dm1
14
15d19 = dickson(19,19,1)
16d19

1876572071974094803391179

Analyzed

Python

1d19

1876572071974094803391179

Analyzed

Python

1import locale, sys, math, json, textwrap, re, decimal

Analyzed

Python

1"{:,}".format(d19)

'1,876,572,071,974,094,803,391,179'

Analyzed

Python

1# compute coefficients of Dickson polynomial D_n(x,1) via recurrence polynomial representation
2from sympy import symbols, Poly
3
4x = symbols('x')
5def dickson_poly(n):

Poly(x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x, x,

Analyzed

Python

1poly19.as_expr()

x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x

Done

A convenient way to force many factors in
$p(x) \;-\; p(y)$ is to use a Dickson polynomial of the first kind.
For a parameter $a \in \mathbb{C}$ in math these are defined by

$D_0\!\left(x,\, a\right) = 2,\; D_1\!\left(x,\, a\right) = x,\; D_n\!\left(x,\, a\right) = x\,D_{n-1}\!\left(x,\, a\right) - a\,D_{n-2}\!\left(x,\, a\right)\quad (n \ge 2),$

and satisfy the functional identity

$D_n\!\left(u + \frac{a}{u},\, a\right) = u^{n} + \frac{a^{n}}{u^{n}}.$

1. Choosing the polynomial

Take $a = 1$ and $n=19$ .
Because $n$ is odd, $D_{19}\!\left(x,\, 1\right)$ is an odd polynomial; the recurrence immediately shows it is monic and has integer (hence real) coefficients.
The coefficient of $x$ is $x = (-1)^{\frac{n-1}{2}}\,n = -19,$ so all requested normalisations are satisfied.

Writing it out gives

$\boxed{% p(x) = D_{19}\!\left(x,1\right) = x^{19} - 19x^{17} + 152x^{15} - 665x^{13} + 1729x^{11} - 2717x^{9} + 2508x^{7} - 1254x^{5} + 285x^{3} - 19x% }\,.$

2. Irreducible components of $fX \;=\; \bigl\{\, p(x) = p(y) \,\bigr\}$

For Dickson polynomials one has the classical factorisation

$D_n\!\left(x,1\right) \;-\; D_n\!\left(y,1\right) \;=\; (x - y)\, \prod_{j=1}^{\frac{n-1}{2}} \Bigl( x^{2} + y^{2} - 2\cos\!\bigl(\tfrac{2\pi j}{n}\bigr)\,xy - 4\sin^{2}\!\bigl(\tfrac{\pi j}{n}\bigr) \Bigr),$

where each quadratic factor is irreducible over $\mathbb{C}$ (see, e.g., Lidl–Niederreiter, Finite Fields, §3.6).
For $n=19$ this gives

one linear component $x=y;$
nine quadratic components (corresponding to $\bigl(j = 1,\,\ldots,\,9\bigr).$

Hence $X \subset \mathbb{P}^{1} \times \mathbb{P}^{1}$ has $10$ irreducible components, at least three of them and not all linear, as required.

3. Evaluating $p(19)$

Using the recurrence (or the identity $D_n\!\left(x,\,1\right) \;=\; 2\,T_n\!\bigl(\tfrac{x}{2}\bigr)$ with Chebyshev $T_n$ one obtains

$p(19) \;=\; D_{19}\!\left(19,\,1\right) \;=\; 1\,876\,572\,071\,974\,094\,803\,391\,179.$

Thus the polynomial above fulfils every condition, and

$\boxed{% p(19) \;=\; 1{,}876{,}572{,}071{,}974{,}094{,}803{,}391{,}179 }.$

OpenAI o1

Solve the following very hard math problem using your in-built knowledge of the literature:

Ha pensat durant 1 min i 19 s

I’m piecing together a degree 19 polynomial with only odd powers and a linear coefficient of -19, like: p(x)=x19+a17x17+…+a1xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_1xp(x)=x19+a17x17+…+a1x.

I'm examining if the polynomial p(x)=x19+a17x17+…+a3x3−19xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_3x^3 - 19xp(x)=x19+a17x17+…+a3x3−19x has a notable classical form, considering symmetry or factorization for multiple irreducible components.

To ensure p(x)p(x)p(x) has three or more irreducible components, I’m considering the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) into at least three irreducible factors in C[x,y]\mathbb{C}[x,y]C[x,y].

I'm working through x19−y19x^{19} - y^{19}x19−y19 to ensure it balances linear and nonlinear factors, aiming for a polynomial with at least three irreducible components that aren't all linear.

Taking a closer look at how p(x)−p(y)p(x) - p(y)p(x)−p(y) can be factored into three distinct polynomials in xxx, aiming to achieve the desired irreducible components.

I'm thinking about how composing ppp with simpler polynomials, like xm−cx^m - cxm−c, could result in multiple irreducible components, achieving at least three distinct factors.

I’m exploring the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) with cyclotomic polynomials. This method generates nnn linear irreducible factors, which might not achieve the required three distinct components.

I'm focusing on constructing an "odd" and monic polynomial, ensuring all exponents are odd and the leading term is x19x^{19}x19. This approach aims to achieve the desired factorization.

I'm working with the Chebyshev polynomials to ensure p(x)−p(y)p(x) - p(y)p(x)−p(y) has at least three irreducible components, leveraging their even or odd properties to manage coefficients.

Considering the odd Chebyshev polynomial T19(x)T_{19}(x)T19(x) for potential factorization, while also examining composite polynomials of lower degrees to enhance factorization properties.

I'm analyzing how a polynomial composed of lower-degree polynomials, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, could yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components.

Piecing together polynomials with integer coefficients, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, to achieve factorization in p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components, aiming for degree 19.

I’m examining how p(x)=(x3−3x)kp(x) = (x^3 - 3x)^kp(x)=(x3−3x)k or p(x)=x19−19xp(x) = x^19 - 19xp(x)=x19−19x might yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with three irreducible components, focusing on ensuring the polynomial is of degree 19.

I’m analyzing p(x)−p(y)p(x) - p(y)p(x)−p(y) into (x−y)(x18+x17y+…+y18−19)(x-y)(x^{18} + x^{17}y + \ldots + y^{18} - 19)(x−y)(x18+x17y+…+y18−19) to identify irreducible components. The polynomial factor x18+x17y+…+y18−19x^{18} + x^{17}y + \ldots + y^{18} - 19x18+x17y+…+y18−19 remains challenging to factor further.

I’m thinking through a new approach: adjusting the Chebyshev polynomial T19(x)T_{19}(x)T19(x) to make it monic, aiming to achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

OK, let's think through. I’m tweaking T19(x)T_{19}(x)T19(x)'s coefficients to keep the polynomial monic and check if it simplifies into multiple irreducible components.

I'm thinking over various factorization strategies for a monic polynomial of degree 19. The goal is to ensure at least one non-linear factor and achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

I’m updating my approach to factor x2+xy+y2−1x^2 + xy + y^2 - 1x2+xy+y2−1 over complex numbers by exploring change of variables and third roots of unity. This helps in achieving the desired polynomial structure.

I'm combining x3−xx^3 - xx3−x with x19−19xx^{19} - 19xx19−19x to tweak the polynomial's coefficients and complexity, aiming to include more non-linear factors for the desired irreducibility.

Piecing together p(x)=x19−x3−19xp(x) = x^{19} - x^3 - 19xp(x)=x19−x3−19x to ensure it’s odd, monic, and has the required linear coefficient. This targets the desired irreducible factorizations.

I’m mapping out the second factor x18+…+y18−x2−xy−y2−19x^{18} + \ldots + y^{18} - x^2 - xy - y^2 - 19x18+…+y18−x2−xy−y2−19 to see if it can split into three irreducible components.

I’m considering methods to factorize the polynomial by making it divisible by x−yx - yx−y and ensuring the remaining factor splits into exactly two irreducible components, aiming for a less complex factorization.

I’m examining the polynomial x18+x17y+…+y18x^{18} + x^{17}y + \ldots + y^{18}x18+x17y+…+y18 and noting it simplifies to x19−y19x−y\frac{x^{19} - y^{19}}{x - y}x−yx19−y19, which might reveal further irreducible factors.

I’m mapping out the polynomial x(x18−1)−y(y18−1)x−y\frac{x(x^{18}-1) - y(y^{18}-1)}{x-y}x−yx(x18−1)−y(y18−1) for further factorization. This might yield just two irreducible components, which falls short of three.

I’m exploring whether the polynomial p(x)=x19−(x3)p(x) = x^19 - (x^3)p(x)=x19−(x3) can be expressed as the composition of a smaller polynomial with xkx^kxk, potentially revealing multiple irreducible components.

I'm examining if the polynomial T19(x)T_{19}(x)T19(x) can be factored using trigonometric identities, seeking partial factorization without fully linearizing, to gain multiple irreducible components.

OK, let me see. Trigonometric identities show multiple solutions for θ\thetaθ and ϕ\phiϕ, likely leading to 19 or 38 linear factors for T19(x)T_{19}(x)T19(x).

I’m examining how the equation arccos⁡x=±arccos⁡y+2kπ19\arccos x = \pm \arccos y + \frac{2k\pi}{19}arccosx=±arccosy+192kπ leads to possible multiple branches, potentially irreducible in the algebraic sense, and needing an example with at least three non-linear irreducible components.

OK, let me see. I’m pulling together details on the polynomial x3(x2−1)8+xx^3 (x^2 - 1)^8 + xx3(x2−1)8+x. It’s monic, with x19x^{19}x19 as the leading term, ensuring it meets key criteria.

I’m noting that the polynomial p(x)=x3(x2−1)8+xp(x) = x^3 (x^2 - 1)^8 + xp(x)=x3(x2−1)8+x is odd, with its linear coefficient patterning to -19.

I’m figuring out how to adjust the linear coefficient of polynomial p(x)p(x)p(x) to -19 by adding a constant factor ccc in front of xxx to ensure it’s adequately modified.

By tweaking the linear coefficient of p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to -19, it ensures the polynomial remains monic, odd, and real.

I’m working on adding a constant factor ccc to xxx in p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to ensure the linear coefficient is -19, making the polynomial monic, odd, and real.

I'm piecing together the polynomial p(x)=x3(x−1)8(x+1)8p(x) = x^3 (x-1)^8 (x+1)^8p(x)=x3(x−1)8(x+1)8 and considering how p(x)−p(y)p(x) - p(y)p(x)−p(y) might factor with factors like x−yx-yx−y.

I’m confirming p(x)p(x)p(x) is monic, odd, and real, with a linear coefficient of -19, by expanding x3(x2−1)8x^3 (x^2 -1)^8x3(x2−1)8 to set the constant ccc.

I found that for p(x) to have a coefficient of -19 for the x term, c must be -19. The polynomial, p(x), incorporates this constant and preserves the original polynomial's structure.

Below is one concrete example (over the reals) of an odd, monic, degree 19 polynomial with linear coefficient $-19$ whose zero-locus relation $\{\,p(x)=p(y)\,\}\ \text{in }\mathbb{P}^{1}\times\mathbb{P}^{1}$ splits into at least three irreducible components (and not all components are linear). We then compute $p(19)$ .

1. The polynomial

Consider

$p(x) \;=\; x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;-\; 19x.$

We can expand

$x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;=\; x^{19}\;-\;8x^{17}\;+\;28x^{15}\;-\;56x^{13}\;+\;70x^{11} \;-\;56x^{9}\;+\;28x^{7}\;-\;8x^{5}\;+\;x^{3}.$

Hence

$p(x) \;=\; x^{19} \;-\; 8x^{17} \;+\; 28x^{15} \;-\; 56x^{13} \;+\; 70x^{11} \;-\; 56x^{9} \;+\; 28x^{7} \;-\; 8x^{5} \;+\; x^{3} \;-\; 19x.$

Checking the required properties

Degree 19, monic:
The leading term is $x^{19}$ with coefficient $1$ .

Odd polynomial:
All exponents are odd $\bigl(19,\,17,\,\ldots,\,3,\,1\bigr),$ and the constant term is $0$ . Indeed,

$p(-x) \;=\; -\,p(x),$

which makes $p$ an odd polynomial.

Real coefficients:
All coefficients are real integers.

Linear coefficient $-19$ :
The coefficient of $x$ is clearly $-19$ .

At least three irreducible components, not all linear:
Over $\mathbb{C}$ , the locus

$X \;=\; \bigl\{\, (x,y) : p(x)=p(y) \,\bigr\} \;\subset\; \mathbb{P}^{1}\times\mathbb{P}^{1}$

factors in part because $p(x)$ has (for instance) the repeated factors $\bigl(x^{2}-1\bigr)^{8}$ in the big piece $x^{3}\,\bigl(x^{2}-1\bigr)^{8}$ . One sees that $\{\,p(x)=p(y)\,\}$ contains (at least) the divisor $${x=y\}$$ plus further factors coming from the roots $x = 0 \;\text{or}\; x = \pm 1,$ ensuring multiple irreducible components (and not all of them are hyperplanes).

2. Computing $p(19)$

A direct substitution $x=19$ gives a large integer. Symbolic expansion or a computer algebra system yields

$p(19) \;=\; 1934999285524070399999639.$

Hence the required value is

\boxed{\,p(19) \;=\; 1934999285524070399999639\,}. \] :contentReference[oaicite:0]{index=0}

OpenAI o3 dona la resposta correctament sense fer servir la cerca, mentre que o1 no aconsegueix oferir una resposta correcta.

Impulsant un raonament eficient en costos

Cost vs rendiment: o3‑mini i o4-mini

Avaluacions AIME d’OpenAI o3-mini i o4-mini

Avaluacions GPQA d’OpenAI o3-mini i o4-mini

Cost vs rendiment: o1 i o3

OpenAI o3 i o4-mini són els models més intel·ligents que hem llançat mai, i sovint també són més eficients que els seus predecessors, OpenAI o1 i o3‑mini. Per exemple, a la competició matemàtica AIME 2025, la frontera cost-rendiment d’o3 millora clarament respecte d’o1 i, de manera similar, la frontera d’o4-mini millora clarament respecte d’o3‑mini. De manera més general, esperem que, en la majoria d’usos reals, o3 i o4-mini també siguin alhora més intel·ligents i més barats que o1 i o3‑mini, respectivament.

Seguretat

Cada millora en les capacitats dels models requereix millores proporcionals en seguretat. Per a OpenAI o3 i o4-mini, hem reconstruït completament les nostres dades d’entrenament de seguretat, afegint noves indicacions de rebuig en àrees com les amenaces biològiques (biorisc), la generació de malware i els jailbreaks. Aquestes dades renovades han fet que o3 i o4-mini assoleixin un rendiment sòlid en els nostres benchmarks interns de rebuig (p. ex., jerarquia d’instruccions⁠, jailbreaks). A més d’un bon rendiment en els rebutjos del model, també hem desenvolupat mitigacions a nivell de sistema per marcar indicacions perilloses en àrees de risc fronterer. De manera similar al nostre treball anterior en generació d'imatges⁠, hem entrenat un monitor de LLM de raonament que funciona a partir d’especificacions de seguretat escrites per humans i interpretables. Quan s’aplica al biorisc, aquest monitor va marcar correctament aproximadament el 99% de les converses de la nostra campanya interna de red teaming.

Hem sotmès tots dos models a proves d’estrès amb el nostre programa de seguretat més rigorós fins ara. D’acord amb el nostre Entorn de treball de preparació⁠ actualitzat, hem avaluat o3 i o4-mini en les tres àrees de capacitat monitorades que cobreix l’entorn: biològica i química, ciberseguretat i auto-millora de la IA. A partir dels resultats d’aquestes avaluacions, hem determinat que tant o3 com o4‑mini es mantenen per sota del llindar «High» de l’entorn en les tres categories. Hem publicat els resultats detallats d’aquestes avaluacions a la fitxa del model corresponent⁠.⁠

Codex CLI: raonament d'avantguarda al terminal

També compartim un nou experiment: Codex CLI, un agent de programació lleuger que podeu executar des del terminal. Funciona directament al vostre ordinador i està dissenyat per maximitzar les capacitats de raonament de models com o3 i o4-mini, amb compatibilitat properament per a models addicionals de l’API com GPT‑4.1⁠.

Podeu obtenir els avantatges del raonament multimodal des de la línia d’ordres passant captures de pantalla o esbossos de baixa fidelitat al model, combinat amb accés local al vostre codi. Ho entenem com una interfície mínima per connectar els nostres models amb els usuaris i els seus ordinadors. Codex CLI és avui totalment de codi obert a github.com/openai/codex⁠(s'obre en una finestra nova).

Paral·lelament, llancem una iniciativa d’1 milió de dòlars per donar suport a projectes que facin servir Codex CLI i models d’OpenAI. Avaluarem i acceptarem sol·licituds de subvenció en increments de 25.000 USD en forma de crèdits d’API. Les propostes es poden presentar aquí.

Accés

Els usuaris de ChatGPT Plus, Pro i Team veuran o3, o4-mini i o4-mini-high al selector de models a partir d’avui, en substitució d’o1, o3‑mini i o3‑mini‑high. Els usuaris de ChatGPT Enterprise i Edu hi tindran accés d’aquí a una setmana. Els usuaris gratuïts poden provar o4-mini seleccionant «Think» al compositor abans d’enviar la consulta. Els límits de taxa de tots els plans es mantenen sense canvis respecte del conjunt anterior de models.

Esperem llançar OpenAI o3‑pro d’aquí a unes setmanes amb compatibilitat completa amb eines. De moment, els usuaris Pro encara poden accedir a o1‑pro.

Tant o3 com o4-mini també estan disponibles avui per als desenvolupadors mitjançant l’API de complecions de xat i la Responses API (alguns desenvolupadors hauran de verificar les seves organitzacions⁠(s'obre en una finestra nova) per accedir a aquests models). La Responses API admet resums de raonament, la capacitat de conservar segments de raonament al voltant de les crides a funcions per obtenir millor rendiment, i aviat admetrà eines integrades com la cerca web, la cerca de fitxers i l’intèrpret de codi dins del raonament del model. Per començar, exploreu la nostra documentació⁠⁠(s'obre en una finestra nova) i estigueu atents a més actualitzacions.

Què ve després

Les actualitzacions d’avui reflecteixen la direcció que segueixen els nostres models: estem convergint les capacitats especialitzades de raonament de la sèrie o amb més habilitats conversacionals naturals i ús d’eines de la sèrie GPT. Unificant aquests punts forts, els nostres futurs models admetran converses fluides i naturals juntament amb un ús proactiu d’eines i una resolució avançada de problemes.

Actualització del 28 de juliol de 2025: El conjunt de dades SWE-Lancer i els resultats s’han actualitzat a data de 17 de juliol de 2025, disponibles a: https://github.com/openai/preparedness⁠(s'obre en una finestra nova) i a les nostres fitxes del model. Aquesta actualització resol diversos problemes que afectaven els resultats de dòlars guanyats i elimina el requisit de connectivitat a internet durant l’execució, eliminant una font principal de variabilitat en el rendiment del model.

Actualització del 16 d’abril de 2025: els resultats d’o3 a Charxiv-r i Mathvista es van actualitzar per reflectir un canvi en la indicació del sistema que no era present en l’avaluació original.

Repetició del directe

Autor

OpenAI

Notes al peu

* Les xifres d’avaluació de tau-bench són la mitjana de 5 execucions per reduir la variància, i s’executen sense eines personalitzades ni indicacions personalitzades. Hem observat que els desplegaments retail de tau-bench són més propensos a errors del model d’usuari. Les xifres de la barra ombrejada s’executen amb GPT-4.1 com a model d’usuari perquè segueix instruccions molt millor que GPT-4o.

* SWE-bench fa servir una longitud màxima de context de 256k, que millora la taxa de resolució d’o4-mini aproximadament un 3% i afecta la taxa de resolució d’o3 en <1%. També excloem 23 mostres que no es poden executar a la nostra infraestructura interna.

** En activar la navegació, el model de vegades pot trobar respostes exactes en línia, per exemple, llegint entrades de blog amb problemes d’exemple d’un conjunt de dades. Mitiguem la preocupació que el model faci trampes mentre navega amb dues estratègies:

Hem bloquejat dominis des dels quals hem observat que el model feia trampes en el passat.
Hem utilitzat un model de raonament com a monitor per examinar tots els segments de cada intent, amb l’objectiu d’identificar comportaments sospitosos. El comportament sospitós es defineix com «una pàgina, fitxer o fragment la finalitat principal del qual és proporcionar la resposta exacta a aquesta pregunta concreta, p. ex., una clau oficial de correcció, un gist de “solucions” filtrades o una discussió que cita la resposta acabada textualment». El comportament benigne es defineix com «qualsevol recurs autoritzat que una persona diligent podria consultar (documentació, manuals, articles acadèmics, articles de confiança), encara que contingui incidentalment la resposta correcta». Qualsevol intent en què el monitor consideri sospitós el rollout es compta com a incorrecte. La majoria de mostres que no van superar aquesta comprovació eren problemes la solució exacta dels quals estava disponible en múltiples fonts d’internet no relacionades amb HLE.

Finalment, és possible que les nostres avaluacions amb navegació no siguin perfectament reproduïbles a l’API d’OpenAI a causa d’una diferència en els backends del motor de cerca entre ChatGPT i l’API d’OpenAI. Aquests resultats volen ser representatius de l’experiència d’usuari de ChatGPT, però, segons la demanda, la configuració de cerca pot canviar amb el temps.

Contribuïdors

Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit , Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang