12 de septiembre de 2024

Aprender a razonar con los LLM

Presentamos OpenAI o1, un gran modelo de lenguaje entrenado con aprendizaje por refuerzo con el fin de llevar a cabo razonamientos complejos. El modelo o1 es capaz de generar una larga cadena interna de pensamientos antes de dar una respuesta.

Contribuciones Uso de o1

Cargando…

OpenAI o1 se sitúa en el percentil 89 en preguntas de programación competitiva (Codeforces), así como entre los 500 mejores estudiantes estadounidenses en una prueba clasificatoria para la Olimpiada Matemática de Estados Unidos (examen AIME). Asimismo, supera la precisión de un humano con un doctorado en una prueba comparativa relacionada con problemas de física, biología y química (GPQA). Aunque seguimos trabajando porque este nuevo modelo sea tan intuitivo como los actuales, hemos publicado una primera versión, OpenAI o1‑preview, ya activa en ChatGPT y a disposición de nuestros usuarios de API de confianza⁠(se abre en una ventana nueva).

Nuestro algoritmo de aprendizaje por refuerzo a gran escala enseña al modelo a pensar de forma más productiva recurriendo a su cadena de pensamiento. En este sentido, el proceso de entrenamiento resulta más eficiente, ya que requiere de una menor ingesta de datos. Hemos observado que el rendimiento de o1 mejora de forma constante cuando se somete a más aprendizaje por refuerzo (recursos informáticos en la fase de entrenamiento) y se le procura más tiempo para procesar (recursos informáticos en la fase de inferencia). Escalar este abordaje presenta unos retos y unas limitaciones notablemente distintos a los que plantea el preentrenamiento de los LLM, por lo que seguimos investigando en este sentido.

Dos diagramas que comparan la «o1 AIME accuracy» durante el entrenamiento y en la prueba. Ambos tienen «pass@1 accuracy» en el eje «y» y se calculan (escala log.) en el eje «x». Se indica mayor precisión cuanto mayor es el tiempo de cálculo.

Los resultados de o1 mejoran de forma constante a medida que aumentan los recursos computacionales en la fase de entrenamiento y en la de inferencia

Evaluaciones

Para demostrar que las capacidades de razonamiento de o1 con respecto a GPT‑4o son mejores, hemos evaluado nuestros modelos a partir de una serie de exámenes humanos y evaluaciones comparativas por aprendizaje automático. Observamos que o1 supera en rendimiento a GPT‑4o en la inmensa mayoría de estas actividades que requieren altas capacidades de razonamiento. El modelo o1 se ha evaluado empleando los máximos recursos informáticos disponibles durante la fase de inferencia, salvo que se indique lo contrario.

Evaluación de concurso matemático (AIME 2024) — o1 supera con creces a GPT-4o en evaluaciones de razonamiento exigentes. Las barras continuas muestran la precisión pass@1, mientras que la parte sombreada muestra el rendimiento del voto por mayoría (consenso) con 64 muestras.

Evaluaciones de concursos matemáticos (AIME 2024), de programación (CodeForces) y preguntas científicas de nivel de doctorado (GPQA Diamond) — o1 supera con creces a GPT-4o en evaluaciones de razonamiento exigentes. Las barras continuas muestran la precisión pass@1, mientras que la parte sombreada muestra el rendimiento del voto por mayoría (consenso) con 64 muestras.

Desglose de la precisión y la puntuación bruta de GPT-4o frente a o1 en varias evaluaciones de concursos — o1 supera a GPT-4o en una amplia variedad de evaluaciones comparativas, incluidas 54 de 57 subcategorías MMLU. Se muestran siete a título ilustrativo.

Evaluaciones comparativas mediante aprendizaje automático y puntuaciones de evaluaciones de GPT-4o en comparación con o1 en la parte superior. Texto alternativo para móviles — o1 supera a GPT-4o en una amplia variedad de evaluaciones comparativas, incluidas 54 de 57 subcategorías MMLU. Se muestran siete a título ilustrativo.

En muchas pruebas de razonamiento complejo, los resultados de o1 se equiparan a los de expertos humanos. Los modelos recientes más avanzados¹ obtienen tan buenos resultados en MATEMÁTICAS² y GSM8K que estas pruebas comparativas ya no resultan eficaces para diferenciar modelos. Evaluamos los resultados en matemáticas con el examen AIME, en el que participan los estudiantes de matemáticas de instituto más brillantes de Estados Unidos. En los exámenes AIME de 2024, GPT‑4o solo resolvió, de media, el 12 % de los problemas (1,8/15). La media de o1 fue del 74 % (11,1/15) a partir de una única muestra por problema, del 83 % (12,5/15) con consenso entre 64 muestras y del 93 % (13,9/15) al reclasificar 1000 muestras con una función de puntuación aprendida. La puntuación de 13,9 lo sitúa entre los 500 mejores estudiantes estadounidenses y por encima de la nota de corte para la Olimpiada Matemática de Estados Unidos.

También evaluamos el rendimiento de o1 en GPQA Diamond, una compleja prueba de inteligencia que evalúa los dominios en química, física y biología. A fin de comparar los modelos con los humanos, seleccionamos a expertos con doctorado para responder a las preguntas de GPQA Diamond. Averiguamos que el modelo o1 mejora los resultados de dichos expertos, convirtiéndose así en el primer modelo en alcanzar este hito en esta prueba comparativa. Los resultados no implican que o1 sea más capaz que un humano con doctorado en cualquier aspecto; solo que es más eficaz resolviendo algunos problemas que esperaríamos que un experto con un doctorado pudiera resolver. En muchas otras evaluaciones comparativas por aprendizaje automático, el modelo o1 superó a la tecnología más puntera. Tras activar sus capacidades de procesamiento de información visual, o1 obtuvo una puntuación de 78,2 % en MMMU, hecho que lo convierte en el primer modelo con posibilidades de competir con expertos humanos. Por otra parte, superó a GPT‑4o en 54 de las 57 subcategorías MMLU.

Cadena de pensamiento

Los humanos solemos tardar bastante en responder a una pregunta compleja. En el modelo o1 sucede algo similar. A la hora de resolver un problema, pone en marcha su cadena de pensamiento. Mediante el aprendizaje por refuerzo, el modelo o1 aprende a perfeccionar su cadena de pensamiento y refina las estrategias a las que recurre. Aprende a reconocer y a corregir sus errores. Aprende a desglosar un problema complejo en pasos más sencillos. Aprende a plantear un abordaje distinto si el actual no funciona. Este proceso mejora drásticamente la capacidad de razonamiento del modelo. Este ejemplo ilustra el gran avance en la cadena de pensamiento de o1‑preview en relación con distintos problemas complejos.

GPT-4o

User

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Let’s break this down step by step based on the example:

1. Example given:
• Input: oyfjdnisdr rtqwainr acxz mynzbhhx
• Output: Think step by step

By examining the words:
• The pattern involves selecting specific letters or transforming them.

2. Now, let’s decode the new phrase:
• Input: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Step-by-step decoding process:

Identify possible word divisions.

The first phrase might follow the same structure as the example. It seems like the input text could be broken into groups based on natural separations or patterns.

A possible division could be:

oyekaijzdf
aaptcg
suaokybhai
ouow
aqht
mynznvaatzacdfoulxxz

However, to make a meaningful decoding, I would need more context about the transformations or letter shifting that might be involved.

Could you provide any additional decoding rules or transformations used in this cipher?

OpenAI o1-preview

User

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Mostrar cadena de pensamiento durante 0 segundos

First, what is going on here?

We are given:

First, an example:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

We can see that when "oyfjdnisdr rtqwainr acxz mynzbhhx" is transformed to "Think step by step"

Our task is: Use the example above to decode: "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

So the first part is to figure out how "oyfjdnisdr rtqwainr acxz mynzbhhx" is decoded into "Think step by step"

Observation 1: The phrase "Think step by step" is 18 letters (excluding spaces) . Let’s count the letters.

Similarly, let’s count the letters in "oyfjdnisdr rtqwainr acxz mynzbhhx"

Original Ciphertext:

oyfjdnisdr rtqwainr acxz mynzbhhx

Plaintext:

Think step by step

First, break down the letters:

Ciphertext letters: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Total letters: Let’s count the letters in the ciphertext.

First word: oyfjdnisdr (10 letters)

Second word: rtqwainr (8 letters)

Third word: acxz (4 letters)

Fourth word: mynzbhhx (8 letters)

Total letters in ciphertext: 10 + 8 + 4 + 8 = 30 letters

Plaintext: Think step by step

First word: Think (5 letters)

Second word: step (4 letters)

Third word: by (2 letters)

Fourth word: step (4 letters)

Total letters in plaintext: 5 + 4 + 2 + 4 = 15 letters

Hmm.

But actually in the problem it says the example:

[Ciphertext] -> Think step by step

So is the decoding process that the ciphertext maps to "Think step by step"?

Our goal is to use the example above to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, the cipher seems connected to the plaintext.

Given the time constraints, perhaps the easiest way is to try to see patterns.

Option 1: Try to find mapping from letters to letters.

Do any letters match?

First, let’s write down the ciphertext and plaintext letters on top of each other.

Ciphertext: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Plaintext: T h i n k s t e p b y s t e p

Wait a minute.

I think maybe there is an anagram or substitution cipher here.

Alternatively, I think that we can notice that each group of ciphertext corresponds to a plaintext word.

Check the number of letters.

First ciphertext word: oyfjdnisdr (10 letters)

First plaintext word: Think (5 letters)

Hmm.

Second ciphertext word: rtqwainr (8 letters)

Second plaintext word: step (4 letters)

Third ciphertext word: acxz (4 letters)

Third plaintext word: by (2 letters)

Fourth ciphertext word: mynzbhhx (8 letters)

Fourth plaintext word: step (4 letters)

Interesting.

It seems that the ciphertext words are exactly twice as long as the plaintext words.

(10 vs 5, 8 vs 4, 4 vs 2, 8 vs 4)

Idea: Maybe we need to take every other letter or rebuild the plaintext from the ciphertext accordingly.

Let’s test this theory.

If we take every other letter from the ciphertext words, maybe we’ll get the plaintext.

Let’s try this for the first word:

Ciphertext word: o y f j d n i s d r (10 letters)

Alternate letters:

First letters (positions 1,3,5,7,9): o f d i d

Second letters (positions 2,4,6,8,10): y j n s r

Wait: Let’s try taking every second letter or first letter.

Option 1: Take the odd positions:

Positions: 1 3 5 7 9

Letters: o f d i d

Plaintext word is "Think", letters are T h i n k

Hmm.

Perhaps we can map letters:

o f d i d --> Think

Not directly

Option 2: Try mapping as per an assigned code: perhaps columns of letters?

Alternatively, perhaps the cipher is more complex.

Alternatively, notice that "oyfjdnisdr" has 10 letters and "Think" has 5 letters.

What if each plaintext letter is being represented by two ciphertext letters?

Similarly for other words.

Suppose that each plaintext letter corresponds to pair of letters in the ciphertext.

Meaning that the first two letters of ciphertext map to the first plaintext letter, and so on.

So for the first word, partition the ciphertext letters into pairs:

oy fj dn is dr

Corresponding to plaintext letters T h i n k

So we can attempt to map:

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

If this is the mapping, perhaps each pair of letters maps to one plaintext letter.

Similarly for other words.

Let’s test this mapping.

Is there a consistent mapping from pairs to letters?

Let’s make a table of pairs and corresponding letters.

First, make the pairs from the first word and their corresponding plaintext letters:

Ciphertext Pairs -> Plaintext Letter

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

Now, what’s the mapping from "oy" to 'T'?

Is there a way to map 'oy' to 'T'?

Similarly for others.

One possible way is that 'oy' represents 'T'.

But how?

Option 1: Sum of the letters.

Convert letters to numbers (A=1, B=2, ..., Z=26)

So let’s try to get to 'T' from 'o' and 'y'

o = 15

y = 25

Sum: 15 +25 = 40

But 'T' is 20.

Alternatively, perhaps subtract: 25 -15 = 10.

No.

Alternatively, perhaps combine the numbers in some way.

Alternatively, think about their positions in the alphabet.

Alternatively, perhaps the letters are encrypted via a code.

Alternatively, perhaps if we overlay the word 'Think' over the cipher pairs 'oy', 'fj', etc., the cipher is formed by substituting each plaintext letter with two letters.

Alternatively, perhaps consider the 'original' letters.

Let’s look at the letters between the word "Think" and "oyfjdnisdr"

Perhaps we can spot that "oyfjdnisdr" is an anagram for "Thinkfiles"?

But that seems unlikely.

Alternatively, think of the pairs.

Suppose we assign numbers to letters: a=1, b=2, ..., z=26

Consider the numbers in 'oy':

o = 15

y = 25

Add them: 15 + 25 = 40

Now, for 'T' we have:

'T' is number 20

What if we take the sum of the cipher pair mod 26.

15 +25 = 40

Then 40 mod 26 = 14

14 corresponds to 'N'

Doesn’t match.

Alternatively, see if the cipher pairs correspond to something else.

Alternatively, perhaps the pair 'oy' corresponds to 'T' via key.

Alternatively, perhaps it’s as simple as 'oy' is 'T'.

But 'o' corresponds to 'T', subtracting 'o' ASCII code from 'T'.

Now, let’s think in terms of symmetric letters.

Alternatively, perhaps we can spot that the letters correspond to the first letters of words.

But perhaps an easier way is to look at the word positions.

Alternatively, perhaps we can see that the ciphertext letters are offsets from the plaintext letters.

So let’s try to map the pairs to the plaintext letters.

First pair 'oy' and plaintext letter 'T'

Letter 'o' is 15, 'T' is 20

Letter 'o' + 5 = 'T' (15 +5=20)

But 'y' is 25, which is 5 letters after 'T' (20 +5=25)

Interesting, seems that 'o' +5 = 'T'

Similarly, 'y' +1 = 'Z', which is not 'T'.

Alternatively, maybe the average of the two letters corresponds to 'T'

(15 +25)/2 =20, which is 'T'

Wait a minute, that seems promising.

First pair: 'o' (15) + 'y' (25) = 40

40 /2 =20

20 corresponds to 'T'

So perhaps the average of the letters in the pair corresponds to the plaintext letter.

Let’s check this with the second pair.

Second pair: 'fj' corresponding to 'h'

Letters 'f'=6, 'j'=10

Sum: 6+10=16

Average:16/2=8

8 corresponds to 'h' (since 'h' is 8)

Success!

Third pair: 'dn' to 'i'

'd'=4, 'n'=14

Sum:4+14=18

Average:18/2=9

9 corresponds to 'i'(9='i')

But 'i' is 9, so that seems off by 1.

So perhaps we need to think carefully about letters.

Wait, 18/2=9, 9 corresponds to 'I'

So this works.

Fourth pair: 'is' corresponding to 'n'

'i'=9, 's'=19

Sum:9+19=28

Average:28/2=14

14 corresponds to 'n'(14='N')

Yes!

Fifth pair: 'dr' corresponds to 'k'

'd'=4, 'r'=18

Sum:4+18=22

Average:22/2=11

11 corresponds to 'k'(11='K')

Perfect!

So our code is: For each pair, sum their numeric values, divide by 2, get the corresponding letter.

Alternatively, the average of the numeric values of the letters corresponds to the plaintext letter.

This seems to be a valid method.

Now let’s test this with the other words.

Second word ciphertext: rtqwainr

Ciphertext pairs:

rt -> s

qw -> ?

ai -> ?

nr -> ?

Corresponding to plaintext letters 's', 't', 'e', 'p'

So let’s take the pairs:

1. 'rt' corresponds to 's'

r=18, t=20

Sum:38

Average:19

19 corresponds to 's' (19='S')

Good

2. 'qw' corresponds to 't'

q=17, w=23

Sum:17+23=40

Average:20

20 corresponds to 't' (20='T')

Good

3. 'ai' corresponds to 'e'

a=1, i=9

Sum:10

Average:5

5 corresponds to 'e' (5='E')

Good

4. 'nr' corresponds to 'p'

n=14, r=18

Sum:32

Average:16

16 corresponds to 'p' (16='P')

Perfect!

Third word: acxz (4 letters)

Plaintext word: 'by' (2 letters)

Ciphertext pairs:

a c

x z

Plaintext letters: 'b', 'y'

First pair: 'a', 'c'

a=1, c=3

Sum:4

Average:2

2 corresponds to 'b'(2='B')

Second pair: 'x' and 'z'

x=24, z=26

Sum:50

Average:25

25 corresponds to 'y'(25='Y')

Yes!

Fourth word: mynzbhhx (8 letters)

Plaintext word: 'step' (4 letters)

Ciphertext pairs:

my

nz

bh

hx

Plaintext letters 's','t','e','p'

First pair 'm','y'

m=13, y=25

Sum:38

Average:19

19 corresponds to 's'(19='S')

Second pair: 'n','z'

n=14, z=26

Sum: 40

Average:20

20='t'

Third pair: 'b','h'

b=2, h=8

Sum:10

Average:5

5='e'

Fourth pair: 'h','x'

h=8, x=24

Sum:32

Average:16

16='p'

Got it!

Now, given this, we can decode the given message.

Ciphertext to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, we need to divide into words.

Given that the ciphertext in the example had words of length:

-10 letters (5 pairs)
-8 letters (4 pairs)
-4 letters (2 pairs)
-8 letters (4 pairs)

Transported to plaintext words of:

-5 letters
-4 letters
-2 letters
-4 letters

So perhaps in our supplied ciphertext, we need to divide the letters into words accordingly.

Ciphertext: o y e k a i j z d f a a p t c g s u a o k y b h a i o u o w a q h t m y n z n v a a t z a c d f o u l x x z

First, let’s write the letters in order:

1) oyekaijzdf (10 letters) -> word of 5 letters

2) aaptcg (6 letters) -> word of 3 letters

3) suaokybhai (10 letters) -> word of 5 letters

4) ouow (4 letters) -> word of 2 letters

5) aqht (4 letters) -> word of 2 letters

6) mynznvaatzacdfoulxxz (22 letters) -> word of 11 letters

Totals:

So the letters are:

First word: oyekaijzdf (10 letters = 5 pairs)

Second word: aaptcg (6 letters=3 pairs)

Third word: suaokybhai (10 letters=5 pairs)

Fourth word: ouow (4 letters=2 pairs)

Fifth word: aqht (4 letters=2 pairs)

Sixth word: mynznvaatzacdfoulxxz (22 letters=11 pairs)

So we can suppose that the plaintext words have lengths:

1) 5 letters

2) 3 letters

3) 5 letters

4) 2 letters

5) 2 letters

6)11 letters

Now we can proceed to decode.

First word: oyekaijzdf

Divide into pairs:

oy

ek

ai

jz

df

So we can find the plaintext letters by averaging the numeric values of the letters in each pair.

First pair: 'o','y'

o=15, y=25

Sum=40

Average=20

20='T'

Second pair: 'e','k'

e=5, k=11

Sum=16

Average=8

8='H'

Third pair: 'a','i'

a=1, i=9

Sum=10

Average=5

5='E'

Fourth pair: 'j','z'

j=10, z=26

Sum=36

Average=18

18='R'

Fifth pair: 'd','f'

d=4, f=6

Sum=10

Average=5

5='E'

So the first word is 'T','H','E','R','E'

So 'THERE'

Second word: aaptcg

Pairs:

aa

pt

cg

First pair: 'a','a'

a=1, a=1

Sum=2

Average=1

1='A'

Second pair: 'p','t'

p=16, t=20

Sum=36

Average=18

18='R'

Third pair: 'c','g'

c=3, g=7

Sum=10

Average=5

5='E'

So second word: 'A','R','E'

Third word: suaokybhai

Pairs:

su

ao

ky

bh

ai

First pair: s=19, u=21

Sum=40, Average=20

20='T'

Second pair: a=1, o=15

Sum=16, Average=8

8='H'

Third pair: k=11, y=25

Sum=36, Average=18

18='R'

Fourth pair: b=2, h=8

Sum=10, Average=5

5='E'

Fifth pair: a=1, i=9

Sum=10, Average=5

5='E'

Third word: 'T','H','R','E','E'

Fourth word: ouow

Pairs: ou, ow

First pair: o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o=15, w=23

Sum=38, Average=19

19='S'

Fourth word: 'R','S'

Fifth word: aqht

Pairs: a q, h t

First pair: a=1, q=17

Sum=18, Average=9

9='I'

Second pair: h=8, t=20

Sum=28, Average=14

14='N'

Fifth word: 'I','N'

Sixth word: mynznvaatzacdfoulxxz (22 letters: 11 pairs)

Pairs:

m y

n z

n v

a a

t z

a c

d f

o u

l x

x z

Let’s list them properly.

Wait, earlier I missed some letters there.

Let’s re-express the sixth word letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, that’s 21 letters.

But in total, we have 22 letters; I think I have a mismatch.

Wait, in the problem the sixth word is:

mynznvaatzacdfoulxxz

Let’s separate the letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

So pairs would be:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, 'z' is only one letter at the end.

So maybe the letters are:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z (left alone?)

But then we’re missing a letter.

Alternatively, perhaps the 'z' at the end is an extra letter or it’s paired with the previous 'x'.

Alternatively, perhaps there is a mistake.

Alternatively, perhaps when we reach the last 'x x z', we should write:

9. l x

10. x z

Total pairs: 11

So updated pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Now total pairs: 10 pairs. But we are supposed to have 11 letters in the plaintext word.

So perhaps I have miscounted and not considered including 'f' or 'z'.

Wait, is there any chance that the sequence is:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

We have 22 letters.

Perhaps the 'x x' and 'z' are overlapping.

But we need 11 pairs.

I think for this to work, we need to create 11 pairs from the 22 letters.

So let’s try pairing letters in order, taking two letters at a time.

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z ?

But again, last pair only has one letter 'z'

Alternatively, we might need to adjust the pairs.

Perhaps it’s 'ou', 'lx', 'xz', and there is no extra 'x'.

Maybe I miswrote.

Wait, let’s write the letters as they come:

m y n z n v a a t z a c d f o u l x x z

Positions:

1 m

2 y

3 n

4 z

5 n

6 v

7 a

8 a

9 t

10 z

11 a

12 c

13 d

14 f

15 o

16 u

17 l

18 x

19 x

20 z

So 20 letters.

Now that makes sense.

Now we can divide into pairs:

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Total of 10 pairs, which will correspond to 10 letters.

But earlier we thought the word was 11 letters.

But 10 letters may be acceptable.

Maybe we should proceed with the 10 pairs.

First pair: m y

m=13, y=25

Sum=38

Average=19

19='S'

Second pair: n z

n=14, z=26

Sum=40

Average=20

20='T'

Third pair: n v

n=14, v=22

Sum=36

Average=18

18='R'

Fourth pair: a a

a=1, a=1

Sum=2

Average=1

1='A'

Fifth pair: t z

t=20, z=26

Sum=46

Average=23

23='W'

Sixth pair: a c

a=1, c=3

Sum=4

Average=2

2='B'

Seventh pair: d f

d=4, f=6

Sum=10

Average=5

5='E'

Eighth pair: o u

o=15, u=21

Sum=36

Average=18

18='R'

Ninth pair: l x

l=12, x=24

Sum=36

Average=18

18='R'

Tenth pair: x z

x=24, z=26

Sum=50

Average=25

25='Y'

So the tenth word is 'S', 'T', 'R', 'A', 'W', 'B', 'E', 'R', 'R', 'Y'

Wait that’s 10 letters

So the sixth word is 'STRAWBERRY', which makes sense.

So putting all these translated letters together:

First word: 'THERE'

Second word: 'ARE'

Third word: 'THREE'

Fourth word: 'RS' (? Doesn’t make sense)

Wait, the fourth word, the pairs were:

ou ow

Pairs:

First pair: o u

o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o w

o=15, w=23

Sum=38, Average=19

19='S'

So we get 'R','S'

Similarly, fifth word 'IN'

'R', 'S' 'I','N'

So the message so far is

'THERE ARE THREE RS IN'

And then 'STRAWBERRY'

Wait, let’s put the words together:

'THERE ARE THREE Rs IN STRAWBERRY'

I think 'RS' is 'R's', meaning 'Rs'

So the message is:

'THERE ARE THREE R'S IN STRAWBERRY'

Which is true.

So the decoded message is:

"THERE ARE THREE R'S IN STRAWBERRY"

To decode the given ciphertext using the example provided, we’ll use the pattern identified in the example.

Ciphertext Example:

Texto plano

1oyfjdnisdr rtqwainr acxz mynzbhhx

Decoded as:

Texto plano

1Think step by step

Decoding Method:

Pair the letters in the ciphertext.
Convert each letter to its numerical position in the alphabet (A=1, B=2, …, Z=26).
Sum the numerical values of each pair.
Compute the average of the sum (divide by 2).
Convert the average back to a letter (1=A, 2=B, …, 26=Z).

Apply this method to the given ciphertext:

Texto plano

1oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Break down the ciphertext into pairs:

1. First word: “oyekaijzdf”
1. Pairs: oy, ek, ai, jz, df
2. Decoded letters:
  1. oy → (15+25)/2 = 20 → T
  2. ek → (5+11)/2 = 8 → H
  3. ai → (1+9)/2 = 5 → E
  4. jz → (10+26)/2 = 18 → R
3. df → (4+6)/2 = 5 → E
4. Decoded word: THERE
Second word: “aaptcg”
1. Pairs: aa, pt, cg
2. Decoded letters:
  1. aa → (1+1)/2 = 1 → A
  2. pt → (16+20)/2 = 18 → R
  3. cg → (3+7)/2 = 5 → E
  4. Decoded word: ARE
Third word: “suaokybhai”
1. Pairs: su, ao, ky, bh, ai
2. Decoded letters:
  1. su → (19+21)/2 = 20 → T
  2. ao → (1+15)/2 = 8 → H
  3. ky → (11+25)/2 = 18 → R
  4. bh → (2+8)/2 = 5 → E
  5. ai → (1+9)/2 = 5 → E
3. Decoded word: THREE
Fourth word: “ouow”
1. Pairs: ou, ow
2. Decoded letters:
  1. ou → (15+21)/2 = 18 → R
  2. ow → (15+23)/2 = 19 → S
3. Decoded letters: R’S
Fifth word: “aqht”
1. Pairs: aq, ht
2. Decoded letters:
  1. aq → (1+17)/2 = 9 → I
  2. ht → (8+20)/2 = 14 → N
3. Decoded word: IN
Sixth word: “mynznvaatzacdfoulxxz”
1. Pairs: my, nz, nv, aa, tz, ac, df, ou, lx, xz
2. Decoded letters:
  1. my → (13+25)/2 = 19 → S
  2. nz → (14+26)/2 = 20 → T
  3. nv → (14+22)/2 = 18 → R
  4. aa → (1+1)/2 = 1 → A
  5. tz → (20+26)/2 = 23 → W
  6. ac → (1+3)/2 = 2 → B
  7. df → (4+6)/2 = 5 → E
  8. ou → (15+21)/2 = 18 → R
  9. lx → (12+24)/2 = 18 → R
  10. xz → (24+26)/2 = 25 → Y
3. Decoded word: STRAWBERRY

Final Decoded Message:

Texto plano

1THERE ARE THREE R'S IN STRAWBERRY

Answer:
THERE ARE THREE R’S IN STRAWBERRY

Programación

Entrenamos un modelo que obtuvo una puntuación de 213 y se situó en el percentil 49 en las Olimpiada Internacional de Informática (IOI) de 2024, partiendo del modelo o1 y entrenándolo para mejorar sus competencia en programación. Este modelo compitió en la IOI 2024 con las mismas condiciones que los participantes humanos. Dispuso de diez horas para resolver seis problemas algorítmicos complejos y se le permitieron 50 propuestas por problema.

Para cada problema, nuestro sistema generó varias propuestas candidatas y presentó 50 de ellas basándose en la estrategia que eligió en el momento de la prueba. Para elegir las propuestas, el modelo se basó en los resultados obtenidos en los casos de prueba públicos de la IOI, en los casos de prueba generados por el modelo y en la función de puntuación aprendida. Si, por el contrario, hubiéramos enviado propuestas de forma aleatoria, habríamos obtenido un promedio de 156 puntos, lo que sugiere que esta estrategia le otorgó casi 60 puntos en las condiciones de la competición.

En condiciones más relajadas, descubrimos que el rendimiento del modelo mejoraba significativamente. Cuando se le permitió dar 10 000 propuestas por problema, el modelo alcanzó una puntuación de 362,14 —superando el umbral de la medalla de oro—, incluso sin aplicar ninguna una estrategia de selección en el momento de la prueba.

Finalmente, simulamos concursos de programación competitiva organizados por Codeforces para demostrar las capacidades de programación del modelo. Nuestras evaluaciones se acercaron mucho a las reglas de la competición y arrojaron 10 propuestas. GPT‑4o consiguió una puntuación Elo³ de 808, que se sitúa en el percentil 11 de los competidores humanos. El modelo superó por mucho tanto a GPT‑4o como a o1, y alcanzó una puntuación Elo de 1807, es decir, un rendimiento superior al del 93 % de los participantes.

Se muestra un gráfico que compara percentiles Elo de Codeforces para varios modelos. GPT-4o tiene un Elo de 808 (percentil 11), o1 preview tiene un Elo de 1258 (percentil 62), o1 tiene un Elo de 1673 (percentil 89) y o1-ioi un Elo de 1807 (percentil 93).

Perfeccionar el modelo a partir de los datos de las competiciones de programación mejoran el rendimiento de o1. El modelo mejorado se situó en el percentil 49 en la Olimpiada Internacional de Informática de 2024 bajo las reglas de la competencia.

Evaluación de la preferencia humana

Además de los exámenes y las evaluaciones comparativas académicas, también evaluamos la preferencia humana de o1‑preview frente a GPT‑4o en las respuestas a preguntas complejas y abiertas en distintos dominios. La prueba consistía en mostrar a los evaluadores humanos las respuestas anonimizadas de o1‑preview y GPT‑4o a una pregunta y votar la que preferían. Los resultados mostraron una clara preferencia por o1‑preview en categorías de razonamiento avanzado, como análisis de datos, programación y matemáticas. Sin embargo, o1‑preview no fue la opción de preferencia en ciertas tareas de lenguaje natural, lo que sugiere que no es adecuado para todos los casos de uso.

La imagen muestra un gráfico de barras horizontales que compara las puntuaciones de cinco modelos con barras de error que representan intervalos de confianza. El eje «x» va de 0 a 100, con una línea discontinua como punto de referencia para el rendimiento.

Seguridad

El razonamiento mediante cadena de pensamiento abre nuevas oportunidades para la adecuación al contexto y la seguridad. Hemos descubierto que integrar nuestras políticas aplicables al comportamiento del modelo en la cadena de pensamiento de un modelo de razonamiento es una forma eficaz de enseñar los valores y principios humanos. Mientras enseñábamos al modelo nuestras normas de seguridad y cómo razonar teniéndolas en cuenta en contexto, encontramos evidencia de que la capacidad de razonamiento beneficia directamente a la potencia del modelo: o1‑preview obtuvo resultados notablemente mejores en las principales evaluaciones de jailbreak y en nuestras evaluaciones de referencia más ambiciosas para evaluar los límites de rechazo del modelo por motivos de seguridad. Consideramos que usar una cadena de pensamiento ofrece avances significativos para la seguridad y la adecuación del modelo, ya que (1) nos permite observar el pensamiento del modelo de forma comprensible, y (2) el razonamiento del modelo en lo que respecta a las normas de seguridad es más robusto ante escenarios anómalos (OOD).

Para poner a prueba nuestras mejoras, llevamos a cabo una serie de pruebas de seguridad y de equipo rojo antes de la implementación, siguiendo las directrices de nuestro marco de preparación⁠(se abre en una ventana nueva). Descubrimos que el razonamiento mediante cadena de pensamiento contribuía a mejorar las capacidades del modelo en todas nuestras evaluaciones. En especial, detectamos casos interesantes de manipulación de recompensas⁠(se abre en una ventana nueva). Puedes consultar los resultados detallados de estas evaluaciones en la tarjeta del sistema.

Métrica	GPT-4o	o1-preview
% de finalizaciones seguras en prompts malignos Estándar	0,990	0,995
% de finalizaciones seguras en prompts malignos Dificultad: jailbreaks y casos límite	0,714	0,934
↳ Acoso (grave)	0,845	0,900
↳ Contenido de explotación sexual	0,483	0,949
↳ Contenido de carácter sexual con menores	0,707	0,931
↳ Consejos sobre actos indebidos no violentos	0,688	0,961
↳ Consejos sobre actos indebidos violentos	0,778	0,963
% de finalizaciones seguras para el top 200 con las puntuaciones más altas en la API de moderación por categoría en WildChat Zhao, et al. 2024	0,945	0,971
Calidad@0.1 evaluación de jailbreak StrongREJECT Souly et al. 2024	0,220	0,840
Evaluación de jailbreak humano	0,770	0,960
% de cumplimiento en casos límite benignos internos «sin rechazo excesivo»	0,910	0,930
% de cumplimiento en casos límite benignos en XSTest «sin rechazo excesivo» Röttger, et al. 2023	0,924	0,976

Ocultar las cadenas de pensamiento

Creemos que ocultar la cadena de razonamiento plantea una oportunidad única en lo que se refiere a supervisar los modelos. Asumiendo que es fiel y descifrable, la cadena de pensamiento oculta nos permite «leerle la mente» al modelo y comprender el proceso de razonamiento subyacente. Por ejemplo, puede que en el futuro tengamos que supervisar la cadena de pensamiento en busca de indicios de manipulación del usuario. Sin embargo, para que esto funcione, el modelo debe tener la libertad para expresar sus pensamientos de forma libre e inalterada, de manera que no podemos entrenarlo sobre el cumplimiento de políticas o las preferencia de los usuarios. Por otra parte, no queremos tampoco que los usuarios tengan acceso a las cadenas de pensamientos que se desvíen de los objetivos.

Por consiguiente, tras sopesar multitud de factores, como la experiencia del usuario, la ventaja competitiva y la posibilidad de supervisar la cadena de pensamiento, hemos decidido no hacer visible la cadena de pensamiento de nuestro modelo para los usuarios. Somos consciente de que esta decisión comporta una serie de desventajas. Estamos haciendo todo lo posible para compensar esta restricción entrenando el modelo para plasmar en la respuesta cualquier idea que pueda resultar útil de la cadena de pensamiento. En la serie del modelo o1, presentamos un resumen de la cadena de razonamiento que genera el modelo.

Conclusiones

El modelo o1 supone un avance significativo en el razonamiento de la IA más puntero. Tenemos previsto lanzar versiones mejoradas de este modelo a medida conforme a las iteraciones que llevemos a cabo. Esperamos que estas nuevas funciones de razonamiento mejorarán nuestra capacidad de adaptar los modelos a los valores y principios del ser humano. Creemos que el modelo o1 —y los que vendrán— abrirán las puertas a nuevas aplicaciones de la inteligencia artificial en los campos de la ciencia, la programación, las matemáticas y ámbitos relacionados. Estamos deseando que los usuarios y desarrolladores de API descubran cómo puede mejorar su día a día.

Anexo A

Conjunto de datos	Métrica	gpt-4o	o1-preview	o1
Concurso matemático AIME (2024)	cons@64	13,4	56,7	83,3
Concurso matemático AIME (2024)	pass@1	9,3	44,6	74,4
Concurso de programación CodeForces	Elo	808	1258	1673
Concurso de programación CodeForces	Percentil	11,0	62,0	89,0
GPQA Diamond	cons@64	56,1	78,3	78,0
GPQA Diamond	pass@1	50,6	73,3	77,3
Biología	cons@64	63,2	73,7	68,4
Biología	pass@1	61,6	65,9	69,2
Química	cons@64	43,0	60,2	65,6
Química	pass@1	40,2	59,9	64,7
Física	cons@64	68,6	89,5	94,2
Física	pass@1	59,5	89,4	92,8
MATH	pass@1	60,3	85,5	94,8
MMLU	pass@1	88,0	92,3	90,8
MMMU (val)	pass@1	69,1	n/a	78,2
MathVista (testmini)	pass@1	63,8	n/a	73,9

Autores

OpenAI

Ver contribuciones

Fuentes

1
https://www.anthropic.com/news/claude-3-5-sonnet⁠(se abre en una ventana nueva), https://deepmind.google/technologies/gemini/pro⁠(se abre en una ventana nueva)
2
En nuestras evaluaciones hemos usado la serie de 500 problemas que se encuentra en https://arxiv.org/abs/2305.20050⁠(se abre en una ventana nueva)
3
https://codeforces.com/blog/entry/68288⁠(se abre en una ventana nueva)