16 de abril de 2025

Introducing OpenAI o3 and o4-mini

A carregar…

Atualização a 10 de junho de 2025: o OpenAI o3‑pro já está disponível para utilizadores Pro no ChatGPT, bem como na nossa API. Tal como o OpenAI o1‑pro, o o3‑pro é uma versão do nosso modelo mais inteligente, o OpenAI o3, concebido para pensar durante mais tempo e dar as respostas mais fiáveis. Podes encontrar os detalhes completos nas nossas notas de lançamento⁠(abre numa nova janela).

Hoje, estamos a lançar o OpenAI o3 e o4-mini, os mais recentes da nossa série o de modelos treinados para pensar mais antes de responder. Estes são os modelos mais inteligentes que lançámos até à data, representando uma mudança radical nas capacidades do ChatGPT para todos, desde utilizadores curiosos a investigadores avançados. Pela primeira vez, os nossos modelos de raciocínio podem usar e combinar de forma autônoma todas as ferramentas do ChatGPT — isso inclui pesquisar na web, analisar arquivos carregados e outros dados com Python, raciocinar profundamente sobre entradas visuais e até mesmo gerar imagens. Fundamentalmente, estes modelos são treinados para raciocinar sobre quando e como usar ferramentas para produzir respostas detalhadas e ponderadas nos formatos de saída corretos, normalmente em menos de um minuto, para resolver problemas mais complexos. Isso permite que eles abordem questões multifacetadas de forma mais eficaz, um passo em direção a um ChatGPT mais proativo, capaz de executar tarefas de forma independente em seu nome. O poder combinado do raciocínio de última geração com acesso total às ferramentas traduz-se num desempenho significativamente mais forte em benchmarks académicos e tarefas do mundo real, estabelecendo um novo padrão tanto em inteligência como em utilidade.

O que mudou

O OpenAI o3 é o nosso modelo de raciocínio mais poderoso, que expande as fronteiras em programação, matemática, ciência, perceção visual e muito mais. Define um novo SOTA em benchmarks, incluindo Codeforces, SWE-bench (sem construir uma estrutura personalizada específica para o modelo) e MMMU. É ideal para consultas complexas que exigem análises multifacetadas e cujas respostas podem não ser imediatamente evidentes. Tem um desempenho especialmente forte em tarefas visuais como analisar imagens, gráficos e ilustrações. Em avaliações feitas por especialistas externos, o o3 comete menos 20% de erros graves do que o OpenAI o1 em tarefas difíceis do mundo real — destacando-se especialmente em áreas como programação, negócios/consulting e ideação criativa. Os primeiros utilizadores destacaram o seu rigor analítico como parceiro de reflexão e enfatizaram a sua capacidade de gerar e avaliar criticamente novas hipóteses — particularmente em contextos de biologia, matemática e engenharia.

O OpenAI o4-mini é um modelo mais pequeno, otimizado para raciocínio rápido e económico — consegue um desempenho notável para o seu tamanho e custo, particularmente em tarefas matemática, de programação e visuais. É o modelo com melhor desempenho nos benchmarks AIME 2024 e 2025. Embora o acesso a um computador reduza significativamente a dificuldade do exame AIME, também achámos notável que o o4-mini atingisse 99,5% pass@1 (100% consensus@8) no AIME 2025 quando teve acesso a um interpretador Python. Embora estes resultados não devam ser comparados com o desempenho dos modelos sem acesso a ferramentas, são um exemplo de como o o4-mini aproveita eficazmente as ferramentas disponíveis. O o3 apresenta melhorias semelhantes no AIME 2025 devido ao uso de ferramentas (98,4% pass@1, 100% consensus@8).

Nas avaliações de especialistas, o o4-mini também supera o seu antecessor, o o3‑mini, em tarefas não relacionadas com STEM (Ciência, Tecnologia, Engenharia e Matemática), assim como em domínios como a ciência de dados. Graças à sua eficiência, o o4-mini suporta limites de utilização significativamente mais elevados do que o o3, tornando-se uma opção forte de alto volume e alta produtividade para perguntas que beneficiam do raciocínio. Os avaliadores externos especializados classificaram ambos os modelos como sendo melhores a seguir instruções e com respostas mais úteis e verificáveis do que os seus antecessores, graças à inteligência melhorada e à inclusão de fontes da web. Em comparação com as versões anteriores dos nossos modelos de raciocínio, estes dois modelos também devem parecer mais naturais e conversacionais, especialmente porque fazem referência à memória e a conversas passadas para tornar as respostas mais personalizadas e relevantes.

Multimodal

Programação

Todas as execuções de avaliação SWE-bench utilizam um subconjunto fixo de n=477 tarefas verificadas que foram validadas na nossa infraestrutura interna.

Seguir instruções e utilizar ferramentas de ação

Todos os modelos são avaliados em configurações de "esforço de raciocínio" elevado — semelhantes a variantes como "o4-mini-high" no ChatGPT.

Continuar a expandir a aprendizagem por reforço

Ao longo do desenvolvimento do OpenAI o3, observámos que a aprendizagem por reforço em larga escala mostra a mesma tendência de "mais poder computacional = melhor desempenho" observada no pré-treino da série GPT. Ao refazer o caminho de escalonamento — desta vez em RL —, aumentámos numa outra ordem de grandeza tanto o poder computacional do treino como a reflexão em tempo de inferência, e ainda assim observamos ganhos de desempenho claros, validando que o desempenho dos modelos continua a melhorar quanto mais lhes é permitido pensar. Com latência e custo equivalentes ao OpenAI o1, o o3 oferece um desempenho superior no ChatGPT — e comprovámos que, se lhe permitirmos processar a informação durante mais tempo, o seu desempenho continua a aumentar.

Também treinámos ambos os modelos para utilizarem ferramentas através da aprendizagem por reforço—ensinando-os não só a utilizar as ferramentas, mas também a refletir sobre quando as usar. A sua capacidade de implementar ferramentas com base nos resultados desejados torna-os mais aptos em situações de final aberto — particularmente aquelas que envolvem reflexão visual e fluxos de trabalho de várias etapas. Esta melhoria reflete-se tanto em benchmarks académicos como em tarefas do mundo real, conforme relatado pelos primeiros utilizadores que testaram o produto.

Pensar com imagens

Pela primeira vez, estes modelos conseguem integrar imagens diretamente na sua cadeia de pensamento. Não se limitam a ver uma imagem — pensam com ela. Isto abre caminho para uma nova classe de resolução de problemas que combina reflexão visual e textual, refletida no seu desempenho de topo em benchmarks multimodais.

As pessoas podem carregar uma fotografia de um quadro branco, um diagrama de um manual ou um esboço feito à mão, e o modelo consegue interpretá-la — mesmo que a imagem esteja desfocada, invertida ou com baixa qualidade. Com o uso de ferramentas, os modelos podem manipular imagens em tempo real — rodando, ampliando ou transformando-as como parte do seu processo de reflexão.

Estes modelos oferecem uma precisão de topo em tarefas de perceção visual, permitindo resolver questões que antes eram inatingíveis. Consulta o blogue de investigação sobre reflexão visual⁠ para saber mais.

Rumo à utilização de ferramentas agênticas

O OpenAI o3 e o o4-mini têm acesso total às ferramentas dentro do ChatGPT, assim como às tuas próprias ferramentas personalizadas através de chamadas de funções na API. Estes modelos são treinados para raciocinar sobre como resolver problemas, escolhendo quando e como usar ferramentas para produzir respostas detalhadas e ponderadas nos formatos de saída corretos rapidamente — normalmente em menos de um minuto.

Por exemplo, um utilizador pode perguntar: "Como será o consumo de energia no verão na Califórnia em comparação com o ano passado?" O modelo pode pesquisar na web dados de serviços públicos, escrever código Python para construir uma previsão, gerar um gráfico ou imagem e explicar os principais fatores por detrás da previsão, encadeando várias chamadas de ferramentas. O raciocínio permite que os modelos reajam e se adaptem conforme necessário à informação que encontram. Por exemplo, podem pesquisar na web várias vezes com a ajuda de motores de busca, analisar resultados e tentar novas pesquisas se precisarem de mais informações.

Esta abordagem flexível e estratégica permite que os modelos realizem tarefas que exigem acesso a informação atualizada além do conhecimento inerente ao modelo, raciocínio alargado, síntese e geração de resultados em várias modalidades.

Todos os exemplos foram concluídos com o OpenAI o3.

OpenAI o3

Solve the following very hard math problem using your in-built knowledge of the literature:

Construct a degree 19 polynomial \ (p(x)) \ in \ mathbb{C}[x] such that \ (X := \ {\, p(x) = p(y) \, \} \ subset \ mathbb{P}^{1} \ times \ mathbb{P}^{1}\ ) has at least 3 (but not all linear) irreducible components over \ mathbb{C}. Choose \ (p(x)\ ) to be odd, monic, have real coefficients and linear coefficient \ (-19\ ) and calculate \ (p(19)\ ).

Refletiu sobre a construção polinomial durante 55 segundos

The curve defined by p(x) = p(y) factors if p(x) is decomposable or has repeated factors. Actually, p(x)-p(y) always factors, and it’s divisible by (x-y). This gives one factor, and the rest is a degree d-1 polynomial in x and y. For the curve to have at least three irreducible components, p(x)-p(y) must factor into at least three nontrivial factors. Each factor corresponds to a component in projective space, and at least one must be nonlinear.
I’m checking the Dickson polynomials D_n(x,a) and focusing on their coefficients. With a=1, it seems the leading coefficient is always 1, confirming that Dickson polynomials are monic. The linear coefficient for odd n is following a predictable sign pattern: for n=19, it gives a coefficient of -19, which is exactly what I need. So the Dickson polynomial D_n(x,1) with odd n fits nicely with the linear coefficient I was looking for.
I've confirmed that the linear coefficient for p(x)=D19(x)p(x) = D_{19}(x)p(x)=D19(x) is correct, with the necessary scaling factor to match. Now for the next step, I need to compute D19(19)D_{19}(19)D19(19). Since Tn(z)T_n(z)Tn(z) grows quickly for real z>1z > 1z>1, I plan to compute this value using Python, leveraging the recurrence to avoid mistakes—it's going to be a big number. I'll make sure to present the numeric result neatly so it's understandable since the coefficients are integers.
The Dickson polynomial D_{19}(x,1) is confirmed to have the required properties: monic, odd, real coefficients, and a linear coefficient of -19. The factorization of D_{19}(x) into irreducible components is also verified and satisfies the condition of having at least 10 components (1 linear + 9 quadratics). To compute p(19), we'll use the recurrence relation for Dickson polynomials, but there's also a closed-form expression involving cosine that could be handy here. I'll proceed accordingly!
I confirmed the linear coefficient is working correctly, which means now I need to calculate p(19)=D19(19)p(19) = D_{19}(19)p(19)=D19(19). This involves evaluating T19(9.5)T_{19}(9.5)T19(9.5), which grows rapidly. To ensure I get an accurate result, I'll compute this using recurrence in Python. The result is a large number: 1,876,572,071,974,094,803,391,179. I'll use the commas to make it easier to read: p(19)=1,876,572,071,974,094,803,391,179p(19) = 1,876,572,071,974,094,803,391,179p(19)=1,876,572,071,974,094,803,391,179.
For a = 1, there’s a relationship between Dickson polynomials and Chebyshev polynomials: D_n(x, 1) = 2^(n-1) T_n(x/2). Checking this, we see that the definition of D_n(u + 1/u) aligns well with Chebyshev’s formula. By setting x = 2 cos(θ), we find that D_n(x) equals 2 T_n(x/2). Importantly, the leading coefficient works out to 1, confirming the identity holds. This is nice!
Now, I need to verify that p(x)−p(y)p(x) - p(y)p(x)−p(y) factors as desired, relying on the known Dickson polynomial factorization. According to the literature (like Fried and Jarden), the difference Dn(x)−Dn(y)D_n(x) - D_n(y)Dn(x)−Dn(y) factors into a product involving (x−y)(x - y)(x−y) and other expressions. I'll provide the explicit polynomial D19(x,1)D_{19}(x, 1)D19(x,1), list the coefficients, and explain how it satisfies the desired properties: monic, odd, etc. Lastly, I'll compute p(19)p(19)p(19).

Analyzed

Python

1from math import comb, cos, acos
2# Let's compute Dickson D_n(x,a=1) recursively
3def dickson(n,x,a=1):
4    if n==0:
5        return 2
6    if n==1:
7        return x
8    Dm2=2
9    Dm1=x
10    for k in range(2,n+1):
11        D= x*Dm1 - a*Dm2
12        Dm2, Dm1 = Dm1, D
13    return Dm1
14
15d19 = dickson(19,19,1)
16d19

1876572071974094803391179

Analyzed

Python

1d19

1876572071974094803391179

Analyzed

Python

1import locale, sys, math, json, textwrap, re, decimal

Analyzed

Python

1"{:,}".format(d19)

'1,876,572,071,974,094,803,391,179'

Analyzed

Python

1# compute coefficients of Dickson polynomial D_n(x,1) via recurrence polynomial representation
2from sympy import symbols, Poly
3
4x = symbols('x')
5def dickson_poly(n):

Poly(x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x, x,

Analyzed

Python

1poly19.as_expr()

x**19 - 19*x**17 + 152*x**15 - 665*x**13 + 1729*x**11 - 2717*x**9 + 2508*x**7 - 1254*x**5 + 285*x**3 - 19*x

Done

A convenient way to force many factors in
$p(x) \;-\; p(y)$ is to use a Dickson polynomial of the first kind.
For a parameter $a \in \mathbb{C}$ in math these are defined by

$D_0\!\left(x,\, a\right) = 2,\; D_1\!\left(x,\, a\right) = x,\; D_n\!\left(x,\, a\right) = x\,D_{n-1}\!\left(x,\, a\right) - a\,D_{n-2}\!\left(x,\, a\right)\quad (n \ge 2),$

and satisfy the functional identity

$D_n\!\left(u + \frac{a}{u},\, a\right) = u^{n} + \frac{a^{n}}{u^{n}}.$

1. Choosing the polynomial

Take $a = 1$ and $n=19$ .
Because $n$ is odd, $D_{19}\!\left(x,\, 1\right)$ is an odd polynomial; the recurrence immediately shows it is monic and has integer (hence real) coefficients.
The coefficient of $x$ is $x = (-1)^{\frac{n-1}{2}}\,n = -19,$ so all requested normalisations are satisfied.

Writing it out gives

$\boxed{% p(x) = D_{19}\!\left(x,1\right) = x^{19} - 19x^{17} + 152x^{15} - 665x^{13} + 1729x^{11} - 2717x^{9} + 2508x^{7} - 1254x^{5} + 285x^{3} - 19x% }\,.$

2. Irreducible components of $fX \;=\; \bigl\{\, p(x) = p(y) \,\bigr\}$

For Dickson polynomials one has the classical factorisation

$D_n\!\left(x,1\right) \;-\; D_n\!\left(y,1\right) \;=\; (x - y)\, \prod_{j=1}^{\frac{n-1}{2}} \Bigl( x^{2} + y^{2} - 2\cos\!\bigl(\tfrac{2\pi j}{n}\bigr)\,xy - 4\sin^{2}\!\bigl(\tfrac{\pi j}{n}\bigr) \Bigr),$

where each quadratic factor is irreducible over $\mathbb{C}$ (see, e.g., Lidl–Niederreiter, Finite Fields, §3.6).
For $n=19$ this gives

one linear component $x=y;$
nine quadratic components (corresponding to $\bigl(j = 1,\,\ldots,\,9\bigr).$

Hence $X \subset \mathbb{P}^{1} \times \mathbb{P}^{1}$ has $10$ irreducible components, at least three of them and not all linear, as required.

3. Evaluating $p(19)$

Using the recurrence (or the identity $D_n\!\left(x,\,1\right) \;=\; 2\,T_n\!\bigl(\tfrac{x}{2}\bigr)$ with Chebyshev $T_n$ one obtains

$p(19) \;=\; D_{19}\!\left(19,\,1\right) \;=\; 1\,876\,572\,071\,974\,094\,803\,391\,179.$

Thus the polynomial above fulfils every condition, and

$\boxed{% p(19) \;=\; 1{,}876{,}572{,}071{,}974{,}094{,}803{,}391{,}179 }.$

OpenAI o1

Solve the following very hard math problem using your in-built knowledge of the literature:

Pensou durante 1m 19s

I’m piecing together a degree 19 polynomial with only odd powers and a linear coefficient of -19, like: p(x)=x19+a17x17+…+a1xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_1xp(x)=x19+a17x17+…+a1x.

I'm examining if the polynomial p(x)=x19+a17x17+…+a3x3−19xp(x) = x^{19} + a_{17}x^{17} + \ldots + a_3x^3 - 19xp(x)=x19+a17x17+…+a3x3−19x has a notable classical form, considering symmetry or factorization for multiple irreducible components.

To ensure p(x)p(x)p(x) has three or more irreducible components, I’m considering the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) into at least three irreducible factors in C[x,y]\mathbb{C}[x,y]C[x,y].

I'm working through x19−y19x^{19} - y^{19}x19−y19 to ensure it balances linear and nonlinear factors, aiming for a polynomial with at least three irreducible components that aren't all linear.

Taking a closer look at how p(x)−p(y)p(x) - p(y)p(x)−p(y) can be factored into three distinct polynomials in xxx, aiming to achieve the desired irreducible components.

I'm thinking about how composing ppp with simpler polynomials, like xm−cx^m - cxm−c, could result in multiple irreducible components, achieving at least three distinct factors.

I’m exploring the factorization of p(x)−p(y)p(x) - p(y)p(x)−p(y) with cyclotomic polynomials. This method generates nnn linear irreducible factors, which might not achieve the required three distinct components.

I'm focusing on constructing an "odd" and monic polynomial, ensuring all exponents are odd and the leading term is x19x^{19}x19. This approach aims to achieve the desired factorization.

I'm working with the Chebyshev polynomials to ensure p(x)−p(y)p(x) - p(y)p(x)−p(y) has at least three irreducible components, leveraging their even or odd properties to manage coefficients.

Considering the odd Chebyshev polynomial T19(x)T_{19}(x)T19(x) for potential factorization, while also examining composite polynomials of lower degrees to enhance factorization properties.

I'm analyzing how a polynomial composed of lower-degree polynomials, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, could yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components.

Piecing together polynomials with integer coefficients, like (x3−3x)k(x^3 - 3x)^k(x3−3x)k, to achieve factorization in p(x)−p(y)p(x) - p(y)p(x)−p(y) with at least three irreducible components, aiming for degree 19.

I’m examining how p(x)=(x3−3x)kp(x) = (x^3 - 3x)^kp(x)=(x3−3x)k or p(x)=x19−19xp(x) = x^19 - 19xp(x)=x19−19x might yield p(x)−p(y)p(x) - p(y)p(x)−p(y) with three irreducible components, focusing on ensuring the polynomial is of degree 19.

I’m analyzing p(x)−p(y)p(x) - p(y)p(x)−p(y) into (x−y)(x18+x17y+…+y18−19)(x-y)(x^{18} + x^{17}y + \ldots + y^{18} - 19)(x−y)(x18+x17y+…+y18−19) to identify irreducible components. The polynomial factor x18+x17y+…+y18−19x^{18} + x^{17}y + \ldots + y^{18} - 19x18+x17y+…+y18−19 remains challenging to factor further.

I’m thinking through a new approach: adjusting the Chebyshev polynomial T19(x)T_{19}(x)T19(x) to make it monic, aiming to achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

OK, let's think through. I’m tweaking T19(x)T_{19}(x)T19(x)'s coefficients to keep the polynomial monic and check if it simplifies into multiple irreducible components.

I'm thinking over various factorization strategies for a monic polynomial of degree 19. The goal is to ensure at least one non-linear factor and achieve at least three irreducible components in p(x)−p(y)p(x) - p(y)p(x)−p(y).

I’m updating my approach to factor x2+xy+y2−1x^2 + xy + y^2 - 1x2+xy+y2−1 over complex numbers by exploring change of variables and third roots of unity. This helps in achieving the desired polynomial structure.

I'm combining x3−xx^3 - xx3−x with x19−19xx^{19} - 19xx19−19x to tweak the polynomial's coefficients and complexity, aiming to include more non-linear factors for the desired irreducibility.

Piecing together p(x)=x19−x3−19xp(x) = x^{19} - x^3 - 19xp(x)=x19−x3−19x to ensure it’s odd, monic, and has the required linear coefficient. This targets the desired irreducible factorizations.

I’m mapping out the second factor x18+…+y18−x2−xy−y2−19x^{18} + \ldots + y^{18} - x^2 - xy - y^2 - 19x18+…+y18−x2−xy−y2−19 to see if it can split into three irreducible components.

I’m considering methods to factorize the polynomial by making it divisible by x−yx - yx−y and ensuring the remaining factor splits into exactly two irreducible components, aiming for a less complex factorization.

I’m examining the polynomial x18+x17y+…+y18x^{18} + x^{17}y + \ldots + y^{18}x18+x17y+…+y18 and noting it simplifies to x19−y19x−y\frac{x^{19} - y^{19}}{x - y}x−yx19−y19, which might reveal further irreducible factors.

I’m mapping out the polynomial x(x18−1)−y(y18−1)x−y\frac{x(x^{18}-1) - y(y^{18}-1)}{x-y}x−yx(x18−1)−y(y18−1) for further factorization. This might yield just two irreducible components, which falls short of three.

I’m exploring whether the polynomial p(x)=x19−(x3)p(x) = x^19 - (x^3)p(x)=x19−(x3) can be expressed as the composition of a smaller polynomial with xkx^kxk, potentially revealing multiple irreducible components.

I'm examining if the polynomial T19(x)T_{19}(x)T19(x) can be factored using trigonometric identities, seeking partial factorization without fully linearizing, to gain multiple irreducible components.

OK, let me see. Trigonometric identities show multiple solutions for θ\thetaθ and ϕ\phiϕ, likely leading to 19 or 38 linear factors for T19(x)T_{19}(x)T19(x).

I’m examining how the equation arccos⁡x=±arccos⁡y+2kπ19\arccos x = \pm \arccos y + \frac{2k\pi}{19}arccosx=±arccosy+192kπ leads to possible multiple branches, potentially irreducible in the algebraic sense, and needing an example with at least three non-linear irreducible components.

OK, let me see. I’m pulling together details on the polynomial x3(x2−1)8+xx^3 (x^2 - 1)^8 + xx3(x2−1)8+x. It’s monic, with x19x^{19}x19 as the leading term, ensuring it meets key criteria.

I’m noting that the polynomial p(x)=x3(x2−1)8+xp(x) = x^3 (x^2 - 1)^8 + xp(x)=x3(x2−1)8+x is odd, with its linear coefficient patterning to -19.

I’m figuring out how to adjust the linear coefficient of polynomial p(x)p(x)p(x) to -19 by adding a constant factor ccc in front of xxx to ensure it’s adequately modified.

By tweaking the linear coefficient of p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to -19, it ensures the polynomial remains monic, odd, and real.

I’m working on adding a constant factor ccc to xxx in p(x)=x3(x2−1)8+cxp(x) = x^3 (x^2 - 1)^8 + c xp(x)=x3(x2−1)8+cx to ensure the linear coefficient is -19, making the polynomial monic, odd, and real.

I'm piecing together the polynomial p(x)=x3(x−1)8(x+1)8p(x) = x^3 (x-1)^8 (x+1)^8p(x)=x3(x−1)8(x+1)8 and considering how p(x)−p(y)p(x) - p(y)p(x)−p(y) might factor with factors like x−yx-yx−y.

I’m confirming p(x)p(x)p(x) is monic, odd, and real, with a linear coefficient of -19, by expanding x3(x2−1)8x^3 (x^2 -1)^8x3(x2−1)8 to set the constant ccc.

I found that for p(x) to have a coefficient of -19 for the x term, c must be -19. The polynomial, p(x), incorporates this constant and preserves the original polynomial's structure.

Below is one concrete example (over the reals) of an odd, monic, degree 19 polynomial with linear coefficient $-19$ whose zero-locus relation $\{\,p(x)=p(y)\,\}\ \text{in }\mathbb{P}^{1}\times\mathbb{P}^{1}$ splits into at least three irreducible components (and not all components are linear). We then compute $p(19)$ .

1. The polynomial

Consider

$p(x) \;=\; x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;-\; 19x.$

We can expand

$x^{3}\,\bigl(x^{2}-1\bigr)^{8} \;=\; x^{19}\;-\;8x^{17}\;+\;28x^{15}\;-\;56x^{13}\;+\;70x^{11} \;-\;56x^{9}\;+\;28x^{7}\;-\;8x^{5}\;+\;x^{3}.$

Hence

$p(x) \;=\; x^{19} \;-\; 8x^{17} \;+\; 28x^{15} \;-\; 56x^{13} \;+\; 70x^{11} \;-\; 56x^{9} \;+\; 28x^{7} \;-\; 8x^{5} \;+\; x^{3} \;-\; 19x.$

Checking the required properties

Degree 19, monic:
The leading term is $x^{19}$ with coefficient $1$ .

Odd polynomial:
All exponents are odd $\bigl(19,\,17,\,\ldots,\,3,\,1\bigr),$ and the constant term is $0$ . Indeed,

$p(-x) \;=\; -\,p(x),$

which makes $p$ an odd polynomial.

Real coefficients:
All coefficients are real integers.

Linear coefficient $-19$ :
The coefficient of $x$ is clearly $-19$ .

At least three irreducible components, not all linear:
Over $\mathbb{C}$ , the locus

$X \;=\; \bigl\{\, (x,y) : p(x)=p(y) \,\bigr\} \;\subset\; \mathbb{P}^{1}\times\mathbb{P}^{1}$

factors in part because $p(x)$ has (for instance) the repeated factors $\bigl(x^{2}-1\bigr)^{8}$ in the big piece $x^{3}\,\bigl(x^{2}-1\bigr)^{8}$ . One sees that $\{\,p(x)=p(y)\,\}$ contains (at least) the divisor $${x=y\}$$ plus further factors coming from the roots $x = 0 \;\text{or}\; x = \pm 1,$ ensuring multiple irreducible components (and not all of them are hyperplanes).

2. Computing $p(19)$

A direct substitution $x=19$ gives a large integer. Symbolic expansion or a computer algebra system yields

$p(19) \;=\; 1934999285524070399999639.$

Hence the required value is

\boxed{\,p(19) \;=\; 1934999285524070399999639\,}. \] :contentReference[oaicite:0]{index=0}

O OpenAI o3 obtém a resposta corretamente sem utilizar a pesquisa, enquanto o o1 não consegue fornecer uma resposta correta.

Promover o raciocínio na eficiência de custos

Custo vs desempenho: o3‑mini e o4-mini

Avaliações AIME OpenAI o3-mini e o4-mini

Avaliações GPQA do OpenAI o3-mini e o4-mini

Custo vs desempenho: o1 e o3

Os modelos OpenAI o3 e o4-mini são os mais inteligentes que já lançámos e são, frequentemente, mais eficientes do que os seus antecessores, os modelos OpenAI o1 e o3‑mini. Por exemplo, na competição matemática AIME de 2025, a fronteira custo-desempenho do o3 melhora estritamente em relação ao o1 e, da mesma forma, a fronteira do o4-mini melhora estritamente em relação ao o3‑mini. De um modo geral, esperamos que, para a maioria das utilizações no mundo real, o o3 e o o4-mini sejam mais inteligentes e mais baratos do que o o1 e o o3‑mini, respetivamente.

Segurança

Cada melhoria nas capacidades do modelo garante melhorias proporcionais na segurança. Para o OpenAI o3 e o4-mini, reconstruímos completamente os nossos dados de treino em matéria de segurança, adicionando novos avisos de recusa de prompts em áreas como ameaças biológicas (biorrisco), geração de malware e jailbreaks. Estes dados atualizados permitiram que o o3 e o o4-mini alcançassem um desempenho sólido nos nossos benchmarks internos de recusa (por exemplo, hierarquia de instruções⁠, jailbreaks). Além do excelente desempenho na deteção de rejeições dos modelos, também desenvolvemos medidas de mitigação ao nível do sistema para sinalizar prompts perigosos em áreas de risco. À semelhança do nosso trabalho anterior em geração de imagens⁠, treinámos um monitor LLM de reflexão que funciona a partir de especificações de segurança escritas por humanos e interpretáveis. Quando aplicado ao biorrisco, este monitor sinalizou com sucesso cerca de 99% das conversas na nossa campanha de red-teaming humano.

Testámos ambos os modelos em condições extremas com o nosso programa de segurança mais rigoroso até à data. De acordo com a nossa Estrutura de Preparação⁠ atualizada, avaliámos o o3 e o o4-mini nas três áreas de capacidade monitorizadas abrangidas pela Estrutura: biológica e química, cibersegurança e autoaperfeiçoamento da IA. Com base nos resultados destas avaliações, determinámos que tanto o o3 como o o4-mini permanecem abaixo do limiar "Alto" da Estrutura nas três categorias. Publicámos os resultados pormenorizados destas avaliações no cartão de sistema⁠.⁠

CLI do Codex: raciocínio avançado no terminal

Também partilhamos uma nova experiência: Codex CLI, um agente de codificação leve que podes executar a partir do teu terminal. Funciona diretamente no teu computador e foi concebido para maximizar as capacidades de raciocínio de modelos como o o3 e o o4-mini, com suporte futuro para modelos API adicionais como GPT‑4.1⁠.

Podes tirar partido dos benefícios da reflexão multimodal a partir da linha de comandos, passando capturas de ecrã ou esboços de baixa fidelidade para o modelo, em conjunto com o acesso ao teu código localmente. Consideramo-la uma interface mínima para ligar os nossos modelos aos utilizadores e aos seus computadores. A CLI do Codex é totalmente de código aberto e pode ser acedida em github.com/openai/codex⁠(abre numa nova janela) hoje.

Paralelamente, estamos a lançar uma iniciativa de 1 milhão de dólares para apoiar projetos que utilizam a CLI do Codex e modelos da OpenAI. Analisaremos e aceitaremos candidaturas a subsídios em incrementos de 25 mil dólares, sob a forma de créditos API. As propostas podem ser submetidas aqui.

Acesso

Os utilizadores do ChatGPT Plus, Pro e Team poderão ver os o3, o4-mini e o4-mini-high no seletor de modelos a partir de hoje, substituindo os o1, o3‑mini e o3‑mini‑high. Os utilizadores do ChatGPT Enterprise e Edu terão acesso dentro de uma semana. Os utilizadores da versão gratuita podem experimentar o o4-mini selecionando "Pensar" no editor antes de submeterem uma questão. Os limites de taxa em todos os planos permanecem inalterados em relação ao conjunto anterior de modelos.

Prevemos lançar o OpenAI o3‑pro dentro de algumas semanas com suporte total para ferramentas. Por enquanto, os utilizadores Pro ainda podem aceder ao o1‑pro.

Tanto o o3 como o o4-mini já estão disponíveis para programadores através da API Chat Completions e da API Responses (alguns programadores terão de verificar as suas organizações⁠(abre numa nova janela) para aceder a estes modelos). A API Responses suporta resumos de raciocínio, a capacidade de preservar tokens de raciocínio em torno de chamadas de função para um melhor desempenho e, em breve, suportará ferramentas integradas, como a pesquisa na web, a pesquisa de ficheiros e o interpretador de código, dentro do raciocínio do modelo. Para começares, explora a nossa documentação⁠(abre numa nova janela) e fica atento a mais atualizações.

O que se segue

As atualizações de hoje refletem a direção que os nossos modelos estão a tomar: estamos a convergir as capacidades de reflexão especializadas da série O com as competências conversacionais mais naturais e a utilização de ferramentas da série GPT. Ao unir estas forças, os nossos modelos futuros irão suportar conversas fluidas e naturais, juntamente com o uso proativo de ferramentas e a resolução avançada de problemas.

Atualização de 28 de julho de 2025: o conjunto de dados e os resultados do SWE-Lancer foram atualizados a 17 de julho de 2025 e estão disponíveis em: https://github.com/openai/preparedness⁠(abre numa nova janela) e nos nossos cartões de sistema. Esta atualização resolve vários problemas que estavam a afetar os resultados da receita gerada e remove a necessidade de ligação à internet durante a execução, eliminando uma das principais fontes de variabilidade no desempenho do modelo.

Atualização a 16 de abril de 2025: os resultados para o3 no Charxiv-r e no Mathvista foram atualizados para refletir uma alteração no prompt do sistema que não estava presente na avaliação original.

Repetição da transmissão ao vivo

Autor

OpenAI

Notas de rodapé

* Os números de avaliação do tau-bench são calculados com base na média de 5 execuções para reduzir a variância e são obtidos sem ferramentas personalizadas ou prompts. Verificámos que as versões comerciais do tau-bench são mais propensas a erros de modelo do utilizador. Os números da barra sombreada foram obtidos com o GPT-4.1 como modelo do utilizador, uma vez que é significativamente melhor que o GPT-4o a seguir instruções.

* O SWE-bench utiliza um comprimento máximo de contexto de 256k, o que melhora a taxa de resolução do o4-mini em cerca de 3% e impacta a taxa de resolução do o3 em menos de 1%. Também excluímos 23 amostras que não são executáveis na nossa infraestrutura interna.

** Ao ativar a navegação, o modelo pode, por vezes, encontrar respostas exatas online, por exemplo, ao ler artigos de blogues com exemplos de problemas de um conjunto de dados. Reduzimos as preocupações relacionadas com a possibilidade de o modelo fazer batota durante a navegação com duas estratégias:

Bloqueio de domínios dos quais já observámos o modelo a fazer batota no passado.
Utilização de um modelo de raciocínio como monitor para examinar todos os tokens em cada tentativa,com o objetivo de identificar comportamento suspeito. Comportamento suspeito é definido como "uma página, ficheiro ou excerto cujo objetivo principal é fornecer a resposta exata a esta pergunta específica — por exemplo, um guia de correção oficial, a divulgação de um resumo de 'soluções' ou uma discussão que cita a resposta final de forma literal." Comportamento benigno é definido como "qualquer recurso credível que um ser humano diligente possa consultar (documentação, manuais, artigos académicos, artigos de fontes fidedignas), mesmo que contenha a resposta correta por acaso." Quaisquer tentativas consideradas suspeitas pelo monitor são contabilizadas como incorretas. A maioria das amostras que falharam esta verificação eram problemas cuja solução exata estava disponível em várias fontes na internet, sem relação com o Humanity’s Last Exam (HLE).

Por fim, as nossas avaliações com a navegação podem não ser perfeitamente reproduzíveis na API da OpenAI devido a uma diferença nos backends dos motores de busca entre o ChatGPT e a API da OpenAI. Estes resultados pretendem ser representativos da experiência do utilizador do ChatGPT, mas, dependendo da procura, a configuração de pesquisa pode mudar ao longo do tempo.

Contribuidores

Aaditya Singh, Aaron Schlesinger, Adam Fry, Adam Lerer, Adam Perelman, Adam Walker, Ahmed El-Kishky, Aidan Clark, Aidan McLaughlin, Aiden Low, Akila Welihinda, Akshay Nathan, Aleksander Madry, Aleksandra Spyra, Alex Karpenko, Alex Neitz, Alex Tachard Passos, Alex Wei, Alexander Prokofiev, Alexander Zielenski, Alexandra Barr, Alexey Ivanov, Alexi Christakis, Alfred Xue, Allison Tam, Ally Bennett, Ally Bennett , Amelia Liu, Amy McDonald Sandjideh, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrew Chen, Andrew Duberstein, Andrew Gibiansky, Andrew Kondrich, Andrew Tulloch, Andrey Mishchenko, Andy Applebaum, Andy Wang, Angela Baek, Annie Wei, Anting Shen, Antoine Pelisse, Anuj Saharan, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Avital Oliver, Behrooz Ghorbani, Belinda Truong, Ben Sokolowsky, Beth Hoover, Bo Xu, Boaz Barak, Bohan Zhang, Borys Minaiev, Botao Hao, Bowen Baker, Bowen Cheng, Brandon McKinzie, Brandon Wang, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Camillo Lugaresi, Carolina Paz, Carpus Chang, Cary Bassin , Cary Hudson, Casey Chu, Chak Li, Charles Zhao, Charlie Jatt, Charlotte Cole, Chelsea Voss, Chen Shen, Chengxu Zhuang, Chris Colby, Chris Hallacy , Chris Koch, Christina Kaplan, Christina Kim, Colin Reid, Colin Wei, Cristina Scheau, D. Sculley, Damien Deville, Dan Roberts, Dana Palmie, Dane Stuckey, Daniel Levine, David Hu, David Martin, David Robinson, David Sasaki, Davis Wu, Derek Chen, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, DJ Strouse, dmed Medina, Drew Hintz, Eddie Zhang, Edmund Wong, Elaine Ya Le, Eli Yani , Elizabeth Proehl, Emily Sokolova, Enoch Cheung, Eri Schwartz, Eric Mitchell, Eric Ning, Eric Sigler, Eric Wallace, Eugenio Panero, Evan Mays, Evgenii Nikishin, Fan Wang, Fangyuan Li, Filippo Raso, Foivos Tsimpourlas, Fouad Matin, Francis Song, Francis Zhang, Gary Yang, Gene Oden, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Greg Brockman, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Haitang Hu, Hannah Sheahan, Hao Sheng, Haoyu Wang, Henrique Ponde de Oliveira Pinto, Henry Aspegren, Heqing Yan, Hessam Bagherinezhad, Hongyu Ren, Hunter Lightman, Hyeonwoo Noh, Ian Kivlichan, Ian Sohl, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isa Fulford, Jake Brill, Jakub Pachocki, James Betker, James Lee, James Qin, Jamie Kiros, Jason Ai, Jay Wang, Jean Harb, Jeff Mickey, Jeffrey Han, Jeffrey Wang, Jeremy Chen, Jerry Tworek, Jessica Liang, Jessica Shieh, Ji Lin, Jiahui Yu, Jianfeng Wang, Jie Tang, Jihan Yin, Jing Li, Joanne Jang, Joel Morris, Johannes Ferstad, Johannes Heidecke, John Fishbein, Jon Okun, Jonathan Gordon, Joost Huizinga, Jos Kraaijeveld, Joseph Mo, Josh Lawson , Josh Tobin, Junhua Mao, Kai Chen, Kai Hayashi, Karan Singhal, Karina Nguyen, Katy Shi, Kelly Stirman, Kenji Hata, Kenny Nguyen, Keren Gu-Lemberg, Kevin Gladstone, Kevin King, Kevin Liu, Kevin Lu, Kevin Park, Kevin Stone, Kevin Weil, Kevin Whinnery, Kevin Yu, Kote Mushegiani, Kristen Ying, Kristian Georgiev, Kshitij Gupta, Kyle Kosic, Lama Ahmad, Larry Lv, Lauren Itow, Lauren Yang, Lee Byron, Leo Chen, Leo Liu, Leon Maksin, Leyton Ho, Li Jing, Liang Xiong, Lin Yang, Linden Li, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Łukasz Kaiser, Mahmoud Eariby, Maja Trębacz, Manas Joglekar, Manoli Liodakis, Manuka Stratta, Mark Chen, Mark Hudnall, Mark Sun, Mark Wang, Martin Li, Marvin Zhang, Mateusz Litwin, Matt Jones, Matt Lim, Max Johnson, Max Schwarzer, Mayank Gupta, Meghan Shah, Mengqing Wang, Mengyuan Yan, Mia Glaese, Michael Bolin, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Miguel Oom Temudo de Castro, Mihai Florian, Mike McClay, Mike Trpcic, Miki Habryn, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mitchell Gordon, Mo Bavarian, Mostafa Rohaninejad, Nacho Soto, Nakul Khanna, Nat McAleese, Natalie Staudacher, Natan LaFontaine, Neel Ajjarapu, Nick Felt, Nick Turley, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Ning Liu, Nishant Rai, Noah Jorgensen, Noam Brown, Oleg Boiko, Oleg Murk, Olivia Watkins, Olivier Godement, Oona Gleeson, Paul Ashbourne, Pavel Belov, Peter Flockhart, Peter Hoeschele, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Prafulla Dhariwal, Prashanth R, Rachel Dias, Rahul Arora, Rajkumar Samuel, Rasmus Rygaard, Ravi Teja Mullapudi, Raymond Li, Raz Gaon, Reah Miyara, Reiichiro Nakano, Reimar Leike, Rennie Song, Rhythm Garg, RJ Marsan, Robert Xiong, Robin Brown, Roman Tsiupa, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saagar Patel, Sam Altman, Sam Toizer, Sam Toyer, Samir Ahmed, Samuel Miserendino, Samuel Wolrich , Sandhini Agarwal, Santiago Hernández, Sarah Dong, Savannah Heon, Scott Ethersmith, Scott Mayer McKinney, Sean Fitzgerald, Sever Banesiu, Shamez Hemani, Shengjia Zhao, Shengli Hu, Shibani Santurkar, Shreyas Krishnaswamy, Shuchao Bi, Shunyu Yao, Shuyuan Zhang, Simón Posada Fishman, Spencer Papay, Spug Golden, Srinivas Narayanan, Stanley Hsieh, Stephen Logsdon, Sundeep Tirumalareddy, Tal Stramer, Tao Wang, Tao Xin, Taylor Gordon, Tejal Patwardhan, Thibault Sottiaux, Tina Sriskandarajah, Tony Casparro, Tony Zhao, Trevor Creech, Uzair Navid Iftikhar, Valerie Qi, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wenda Zhou, Wenlei Xie, Wenting Zhan, Will DePue, Will Ellsworth, William Sheu, Wyatt Thompson, Yaming Lin, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yash Patil, Yifan Wu, Yilong Qin, Yining Chen, Yirui Zhang, Yo Shavit, Young Cha, Yunyun Wang, Yushi Wang, Zack Sultan, Zehao Dou, Zewei Chu, Zheng Shao, Zhigang Wang, Zhishuai Zhang, Zihao Zhang