12. September 2024

Reasoning mit großen Sprachmodellen (LLMs) lernen

Wir präsentieren OpenAI o1, ein neues großes Sprachmodell, das mit Reinforcement Learning für komplexes Reasoning trainiert wurde. o1 denkt nach, bevor es antwortet – es kann einen langen internen Denkvorgang erzeugen, bevor es dem Benutzer antwortet.

Beiträge o1 verwenden

Laden …

OpenAI o1 rangiert im 89. Perzentil bei wettbewerbsfähigen Programmierfragen (Codeforces), gehört zu den 500 besten Studierenden in den USA bei der Qualifikation für die USA Math Olympiad (AIME) und übertrifft die Genauigkeit menschlicher Doktoranden anhand einer Benchmark von Physik-, Biologie- und Chemieproblemen (GPQA). Während wir weiterhin daran arbeiten, dieses neue Modell so benutzerfreundlich wie die aktuellen Modelle zu machen, veröffentlichen wir mit OpenAI o1‑preview eine Vorabversion, die in ChatGPT und für vertrauenswürdige API-Nutzer⁠(wird in einem neuen Fenster geöffnet) sofort verfügbar ist.

Unser groß angelegter Reinforcement-Learning-Algorithmus bringt dem Modell in einem äußerst dateneffizienten Trainingsprozess bei, mithilfe seines Denkvorgangs produktiv zu denken. Wir haben festgestellt, dass sich die Leistung von o1 durch mehr Reinforcement Learning (Trainingszeit-Berechnung) und durch mehr Zeit zum Nachdenken (Testzeit-Berechnung) stetig verbessert. Die Einschränkungen bei der Skalierung dieses Ansatzes unterscheiden sich erheblich von denen des LLM-Pre-Trainings und wir untersuchen sie weiter.

Das Bild zeigt zwei Streudiagramme, die die „o1 AIME-Genauigkeit“ während des Trainings und in Tests vergleichen. Beide Diagramme weisen auf der Y-Achse die Genauigkeit „pass@1“ und auf der X-Achse die Berechnung (Log-Skala) auf. Die Punkte zeigen eine zunehmende Genauigkeit mit längerer Berechnungszeit.

Die Leistung von o1 verbessert sich sowohl bei der Trainingszeit- als auch bei der Testzeit-Berechnung nahtlos.

Bewertungen

Um die Verbesserung des Reasonings gegenüber GPT‑4o hervorzuheben, haben wir unsere Modelle anhand einer Reihe verschiedener menschlicher Prüfungen und ML-Benchmarks getestet. Wir zeigen, dass o1 bei der überwiegenden Mehrheit dieser stark auf das Reasoning fokussierten Aufgaben GPT‑4o deutlich übertrifft. Sofern nicht anders angegeben, haben wir o1 mit der Berechnungseinstellung für die maximale Testzeit bewertet.

Bewertungen aus Mathematikwettbewerben (AIME 2024), Code (CodeForces) und wissenschaftliche Fragen auf Doktoratsniveau (GPQA Diamond) — o1 übertrifft GPT-4o bei anspruchsvollen Benchmarks für logisches Denken erheblich. Die ausgefüllten Balken zeigen die Pass@1-Genauigkeit, die schattierten Bereiche die Leistung der Mehrheitsabstimmung (Konsens) mit 64 Stichproben an.

Aufschlüsselung der Genauigkeit und des Rohwertes von GPT-4o im Vergleich zu o1 bei verschiedenen Tests — Das Modell o1 schneidet im Vergleich zu GPT-4o in vielen Benchmarks besser ab, darunter 54/57 MMLU-Unterkategorien. Sieben davon sind in der Abbildung dargestellt.

ML-Benchmarks und Prüfungsergebnisse für gpt4o vs. o1 Verbesserung oben, Alt-Text für Mobile — Das Modell o1 schneidet im Vergleich zu GPT-4o in vielen Benchmarks besser ab, darunter 54/57 MMLU-Unterkategorien. Sieben davon sind in der Abbildung dargestellt.

Bei vielen stark auf das Reasoning fokussierten Benchmarks kann o1 mit der Leistung menschlicher Experten mithalten. Neuere Frontier-Modelle¹ schneiden bei MATH² und GSM8K so gut ab, dass diese Benchmarks nicht mehr ausreichen, um zwischen Modellen zu unterscheiden. Wir haben die Mathematikleistungen bei AIME bewertet, einer Prüfung für die besten Mathematikschüler US-amerikanischer High Schools. Bei den AIME-Prüfungen 2024 löste GPT‑4o im Durchschnitt nur 12 % (1,8/15) der Probleme. o1 erreichte im Durchschnitt 74 % (11,1/15) mit einer einzelnen Probe pro Problem, 83 % (12,5/15) mit Konsens unter 64 Proben und 93 % (13,9/15) bei der Neueinstufung von 1000 Proben mit einer erlernten Bewertungsfunktion. Mit einer Punktzahl von 13,9 fällt es unter die 500 besten Schülern des Landes und liegt über dem Grenzwert für die USA Mathematical Olympiad.

Wir haben o1 auch im GPQA Diamond bewertet, einer anspruchsvollen Intelligenz-Benchmark, die Fachkenntnisse in Chemie, Physik und Biologie testet. Um Modelle mit Menschen zu vergleichen, haben wir promovierte Experten angeworben, um GPQA Diamond-Fragen zu beantworten. Wir haben festgestellt, dass o1 die Leistung dieser menschlichen Experten übertraf und das erste Modell war, das dies bei dieser Benchmark schaffte. Diese Ergebnisse bedeuten nicht, dass o1 in jeder Hinsicht fähiger ist als ein promovierter Mensch – sondern nur, dass das Modell einige Probleme, deren Lösung man von jemandem mit Doktortitel erwarten würde, besser lösen kann. Bei mehreren anderen ML-Benchmarks war o1 im Vergleich zum aktuellen Entwicklungsstand besser. Mit seinen aktivierten Bildwahrnehmungsfähigkeiten erreichte o1 bei MMMU 78,2 % und ist damit das erste Modell, das mit menschlichen Experten konkurrieren kann. Es übertraf GPT‑4o auch in 54 von 57 MMLU-Unterkategorien.

Denkvorgang

Ähnlich wie ein Mensch lange nachdenkt, bevor er auf eine schwierige Frage antwortet, verwendet o1 beim Versuch, ein Problem zu lösen, einen Denkvorgang. Durch Reinforcement Learning lernt o1, seinen Denkvorgang und die verwendeten Strategien zu verfeinern. Es lernt, seine Fehler zu erkennen und zu korrigieren. Es lernt, knifflige Schritte in einfachere aufzuschlüsseln. Es lernt, einen anderen Ansatz auszuprobieren, wenn der aktuelle nicht funktioniert. Dieser Prozess verbessert die Reasoning-Fähigkeit des Modells erheblich. Um diesen Fortschritt zu veranschaulichen, demonstrieren wir unten den Denkvorgang von o1‑preview bei mehreren schwierigen Problemen.

GPT-4o

Benutzer

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Let’s break this down step by step based on the example:

1. Example given:
• Input: oyfjdnisdr rtqwainr acxz mynzbhhx
• Output: Think step by step

By examining the words:
• The pattern involves selecting specific letters or transforming them.

2. Now, let’s decode the new phrase:
• Input: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Step-by-step decoding process:

Identify possible word divisions.

The first phrase might follow the same structure as the example. It seems like the input text could be broken into groups based on natural separations or patterns.

A possible division could be:

oyekaijzdf
aaptcg
suaokybhai
ouow
aqht
mynznvaatzacdfoulxxz

However, to make a meaningful decoding, I would need more context about the transformations or letter shifting that might be involved.

Could you provide any additional decoding rules or transformations used in this cipher?

OpenAI o1-preview

Benutzer

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Nachgedacht für 5 Sekunden

First, what is going on here?

We are given:

First, an example:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

We can see that when "oyfjdnisdr rtqwainr acxz mynzbhhx" is transformed to "Think step by step"

Our task is: Use the example above to decode: "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

So the first part is to figure out how "oyfjdnisdr rtqwainr acxz mynzbhhx" is decoded into "Think step by step"

Observation 1: The phrase "Think step by step" is 18 letters (excluding spaces) . Let's count the letters.

Similarly, let's count the letters in "oyfjdnisdr rtqwainr acxz mynzbhhx"

Original Ciphertext:

oyfjdnisdr rtqwainr acxz mynzbhhx

Plaintext:

Think step by step

First, break down the letters:

Ciphertext letters: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Total letters: Let's count the letters in the ciphertext.

First word: oyfjdnisdr (10 letters)

Second word: rtqwainr (8 letters)

Third word: acxz (4 letters)

Fourth word: mynzbhhx (8 letters)

Total letters in ciphertext: 10 + 8 + 4 + 8 = 30 letters

Plaintext: Think step by step

First word: Think (5 letters)

Second word: step (4 letters)

Third word: by (2 letters)

Fourth word: step (4 letters)

Total letters in plaintext: 5 + 4 + 2 + 4 = 15 letters

Hmm.

But actually in the problem it says the example:

[Ciphertext] -> Think step by step

So is the decoding process that the ciphertext maps to "Think step by step"?

Our goal is to use the example above to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, the cipher seems connected to the plaintext.

Given the time constraints, perhaps the easiest way is to try to see patterns.

Option 1: Try to find mapping from letters to letters.

Do any letters match?

First, let's write down the ciphertext and plaintext letters on top of each other.

Ciphertext: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Plaintext: T h i n k s t e p b y s t e p

Wait a minute.

I think maybe there is an anagram or substitution cipher here.

Alternatively, I think that we can notice that each group of ciphertext corresponds to a plaintext word.

Check the number of letters.

First ciphertext word: oyfjdnisdr (10 letters)

First plaintext word: Think (5 letters)

Hmm.

Second ciphertext word: rtqwainr (8 letters)

Second plaintext word: step (4 letters)

Third ciphertext word: acxz (4 letters)

Third plaintext word: by (2 letters)

Fourth ciphertext word: mynzbhhx (8 letters)

Fourth plaintext word: step (4 letters)

Interesting.

It seems that the ciphertext words are exactly twice as long as the plaintext words.

(10 vs 5, 8 vs 4, 4 vs 2, 8 vs 4)

Idea: Maybe we need to take every other letter or rebuild the plaintext from the ciphertext accordingly.

Let's test this theory.

If we take every other letter from the ciphertext words, maybe we'll get the plaintext.

Let's try this for the first word:

Ciphertext word: o y f j d n i s d r (10 letters)

Alternate letters:

First letters (positions 1,3,5,7,9): o f d i d

Second letters (positions 2,4,6,8,10): y j n s r

Wait: Let's try taking every second letter or first letter.

Option 1: Take the odd positions:

Positions: 1 3 5 7 9

Letters: o f d i d

Plaintext word is "Think", letters are T h i n k

Hmm.

Perhaps we can map letters:

o f d i d --> Think

Not directly

Option 2: Try mapping as per an assigned code: perhaps columns of letters?

Alternatively, perhaps the cipher is more complex.

Alternatively, notice that "oyfjdnisdr" has 10 letters and "Think" has 5 letters.

What if each plaintext letter is being represented by two ciphertext letters?

Similarly for other words.

Suppose that each plaintext letter corresponds to pair of letters in the ciphertext.

Meaning that the first two letters of ciphertext map to the first plaintext letter, and so on.

So for the first word, partition the ciphertext letters into pairs:

oy fj dn is dr

Corresponding to plaintext letters T h i n k

So we can attempt to map:

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

If this is the mapping, perhaps each pair of letters maps to one plaintext letter.

Similarly for other words.

Let's test this mapping.

Is there a consistent mapping from pairs to letters?

Let's make a table of pairs and corresponding letters.

First, make the pairs from the first word and their corresponding plaintext letters:

Ciphertext Pairs -> Plaintext Letter

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

Now, what's the mapping from "oy" to 'T'?

Is there a way to map 'oy' to 'T'?

Similarly for others.

One possible way is that 'oy' represents 'T'.

But how?

Option 1: Sum of the letters.

Convert letters to numbers (A=1, B=2, ..., Z=26)

So let's try to get to 'T' from 'o' and 'y'

o = 15

y = 25

Sum: 15 +25 = 40

But 'T' is 20.

Alternatively, perhaps subtract: 25 -15 = 10.

No.

Alternatively, perhaps combine the numbers in some way.

Alternatively, think about their positions in the alphabet.

Alternatively, perhaps the letters are encrypted via a code.

Alternatively, perhaps if we overlay the word 'Think' over the cipher pairs 'oy', 'fj', etc., the cipher is formed by substituting each plaintext letter with two letters.

Alternatively, perhaps consider the 'original' letters.

Let's look at the letters between the word "Think" and "oyfjdnisdr"

Perhaps we can spot that "oyfjdnisdr" is an anagram for "Thinkfiles"?

But that seems unlikely.

Alternatively, think of the pairs.

Suppose we assign numbers to letters: a=1, b=2, ..., z=26

Consider the numbers in 'oy':

o = 15

y = 25

Add them: 15 + 25 = 40

Now, for 'T' we have:

'T' is number 20

What if we take the sum of the cipher pair mod 26.

15 +25 = 40

Then 40 mod 26 = 14

14 corresponds to 'N'

Doesn't match.

Alternatively, see if the cipher pairs correspond to something else.

Alternatively, perhaps the pair 'oy' corresponds to 'T' via key.

Alternatively, perhaps it's as simple as 'oy' is 'T'.

But 'o' corresponds to 'T', subtracting 'o' ASCII code from 'T'.

Now, let's think in terms of symmetric letters.

Alternatively, perhaps we can spot that the letters correspond to the first letters of words.

But perhaps an easier way is to look at the word positions.

Alternatively, perhaps we can see that the ciphertext letters are offsets from the plaintext letters.

So let's try to map the pairs to the plaintext letters.

First pair 'oy' and plaintext letter 'T'

Letter 'o' is 15, 'T' is 20

Letter 'o' + 5 = 'T' (15 +5=20)

But 'y' is 25, which is 5 letters after 'T' (20 +5=25)

Interesting, seems that 'o' +5 = 'T'

Similarly, 'y' +1 = 'Z', which is not 'T'.

Alternatively, maybe the average of the two letters corresponds to 'T'

(15 +25)/2 =20, which is 'T'

Wait a minute, that seems promising.

First pair: 'o' (15) + 'y' (25) = 40

40 /2 =20

20 corresponds to 'T'

So perhaps the average of the letters in the pair corresponds to the plaintext letter.

Let's check this with the second pair.

Second pair: 'fj' corresponding to 'h'

Letters 'f'=6, 'j'=10

Sum: 6+10=16

Average:16/2=8

8 corresponds to 'h' (since 'h' is 8)

Success!

Third pair: 'dn' to 'i'

'd'=4, 'n'=14

Sum:4+14=18

Average:18/2=9

9 corresponds to 'i'(9='i')

But 'i' is 9, so that seems off by 1.

So perhaps we need to think carefully about letters.

Wait, 18/2=9, 9 corresponds to 'I'

So this works.

Fourth pair: 'is' corresponding to 'n'

'i'=9, 's'=19

Sum:9+19=28

Average:28/2=14

14 corresponds to 'n'(14='N')

Yes!

Fifth pair: 'dr' corresponds to 'k'

'd'=4, 'r'=18

Sum:4+18=22

Average:22/2=11

11 corresponds to 'k'(11='K')

Perfect!

So our code is: For each pair, sum their numeric values, divide by 2, get the corresponding letter.

Alternatively, the average of the numeric values of the letters corresponds to the plaintext letter.

This seems to be a valid method.

Now let's test this with the other words.

Second word ciphertext: rtqwainr

Ciphertext pairs:

rt -> s

qw -> ?

ai -> ?

nr -> ?

Corresponding to plaintext letters 's', 't', 'e', 'p'

So let's take the pairs:

1. 'rt' corresponds to 's'

r=18, t=20

Sum:38

Average:19

19 corresponds to 's' (19='S')

Good

2. 'qw' corresponds to 't'

q=17, w=23

Sum:17+23=40

Average:20

20 corresponds to 't' (20='T')

Good

3. 'ai' corresponds to 'e'

a=1, i=9

Sum:10

Average:5

5 corresponds to 'e' (5='E')

Good

4. 'nr' corresponds to 'p'

n=14, r=18

Sum:32

Average:16

16 corresponds to 'p' (16='P')

Perfect!

Third word: acxz (4 letters)

Plaintext word: 'by' (2 letters)

Ciphertext pairs:

a c

x z

Plaintext letters: 'b', 'y'

First pair: 'a', 'c'

a=1, c=3

Sum:4

Average:2

2 corresponds to 'b'(2='B')

Second pair: 'x' and 'z'

x=24, z=26

Sum:50

Average:25

25 corresponds to 'y'(25='Y')

Yes!

Fourth word: mynzbhhx (8 letters)

Plaintext word: 'step' (4 letters)

Ciphertext pairs:

my

nz

bh

hx

Plaintext letters 's','t','e','p'

First pair 'm','y'

m=13, y=25

Sum:38

Average:19

19 corresponds to 's'(19='S')

Second pair: 'n','z'

n=14, z=26

Sum: 40

Average:20

20='t'

Third pair: 'b','h'

b=2, h=8

Sum:10

Average:5

5='e'

Fourth pair: 'h','x'

h=8, x=24

Sum:32

Average:16

16='p'

Got it!

Now, given this, we can decode the given message.

Ciphertext to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, we need to divide into words.

Given that the ciphertext in the example had words of length:

-10 letters (5 pairs)
-8 letters (4 pairs)
-4 letters (2 pairs)
-8 letters (4 pairs)

Transported to plaintext words of:

-5 letters
-4 letters
-2 letters
-4 letters

So perhaps in our supplied ciphertext, we need to divide the letters into words accordingly.

Ciphertext: o y e k a i j z d f a a p t c g s u a o k y b h a i o u o w a q h t m y n z n v a a t z a c d f o u l x x z

First, let's write the letters in order:

1) oyekaijzdf (10 letters) -> word of 5 letters

2) aaptcg (6 letters) -> word of 3 letters

3) suaokybhai (10 letters) -> word of 5 letters

4) ouow (4 letters) -> word of 2 letters

5) aqht (4 letters) -> word of 2 letters

6) mynznvaatzacdfoulxxz (22 letters) -> word of 11 letters

Totals:

So the letters are:

First word: oyekaijzdf (10 letters = 5 pairs)

Second word: aaptcg (6 letters=3 pairs)

Third word: suaokybhai (10 letters=5 pairs)

Fourth word: ouow (4 letters=2 pairs)

Fifth word: aqht (4 letters=2 pairs)

Sixth word: mynznvaatzacdfoulxxz (22 letters=11 pairs)

So we can suppose that the plaintext words have lengths:

1) 5 letters

2) 3 letters

3) 5 letters

4) 2 letters

5) 2 letters

6)11 letters

Now we can proceed to decode.

First word: oyekaijzdf

Divide into pairs:

oy

ek

ai

jz

df

So we can find the plaintext letters by averaging the numeric values of the letters in each pair.

First pair: 'o','y'

o=15, y=25

Sum=40

Average=20

20='T'

Second pair: 'e','k'

e=5, k=11

Sum=16

Average=8

8='H'

Third pair: 'a','i'

a=1, i=9

Sum=10

Average=5

5='E'

Fourth pair: 'j','z'

j=10, z=26

Sum=36

Average=18

18='R'

Fifth pair: 'd','f'

d=4, f=6

Sum=10

Average=5

5='E'

So the first word is 'T','H','E','R','E'

So 'THERE'

Second word: aaptcg

Pairs:

aa

pt

cg

First pair: 'a','a'

a=1, a=1

Sum=2

Average=1

1='A'

Second pair: 'p','t'

p=16, t=20

Sum=36

Average=18

18='R'

Third pair: 'c','g'

c=3, g=7

Sum=10

Average=5

5='E'

So second word: 'A','R','E'

Third word: suaokybhai

Pairs:

su

ao

ky

bh

ai

First pair: s=19, u=21

Sum=40, Average=20

20='T'

Second pair: a=1, o=15

Sum=16, Average=8

8='H'

Third pair: k=11, y=25

Sum=36, Average=18

18='R'

Fourth pair: b=2, h=8

Sum=10, Average=5

5='E'

Fifth pair: a=1, i=9

Sum=10, Average=5

5='E'

Third word: 'T','H','R','E','E'

Fourth word: ouow

Pairs: ou, ow

First pair: o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o=15, w=23

Sum=38, Average=19

19='S'

Fourth word: 'R','S'

Fifth word: aqht

Pairs: a q, h t

First pair: a=1, q=17

Sum=18, Average=9

9='I'

Second pair: h=8, t=20

Sum=28, Average=14

14='N'

Fifth word: 'I','N'

Sixth word: mynznvaatzacdfoulxxz (22 letters: 11 pairs)

Pairs:

m y

n z

n v

a a

t z

a c

d f

o u

l x

x z

Let's list them properly.

Wait, earlier I missed some letters there.

Let's re-express the sixth word letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, that's 21 letters.

But in total, we have 22 letters; I think I have a mismatch.

Wait, in the problem the sixth word is:

mynznvaatzacdfoulxxz

Let's separate the letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

So pairs would be:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, 'z' is only one letter at the end.

So maybe the letters are:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z (left alone?)

But then we're missing a letter.

Alternatively, perhaps the 'z' at the end is an extra letter or it's paired with the previous 'x'.

Alternatively, perhaps there is a mistake.

Alternatively, perhaps when we reach the last 'x x z', we should write:

9. l x

10. x z

Total pairs: 11

So updated pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Now total pairs: 10 pairs. But we are supposed to have 11 letters in the plaintext word.

So perhaps I have miscounted and not considered including 'f' or 'z'.

Wait, is there any chance that the sequence is:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

We have 22 letters.

Perhaps the 'x x' and 'z' are overlapping.

But we need 11 pairs.

I think for this to work, we need to create 11 pairs from the 22 letters.

So let's try pairing letters in order, taking two letters at a time.

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z ?

But again, last pair only has one letter 'z'

Alternatively, we might need to adjust the pairs.

Perhaps it's 'ou', 'lx', 'xz', and there is no extra 'x'.

Maybe I miswrote.

Wait, let's write the letters as they come:

m y n z n v a a t z a c d f o u l x x z

Positions:

1 m

2 y

3 n

4 z

5 n

6 v

7 a

8 a

9 t

10 z

11 a

12 c

13 d

14 f

15 o

16 u

17 l

18 x

19 x

20 z

So 20 letters.

Now that makes sense.

Now we can divide into pairs:

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Total of 10 pairs, which will correspond to 10 letters.

But earlier we thought the word was 11 letters.

But 10 letters may be acceptable.

Maybe we should proceed with the 10 pairs.

First pair: m y

m=13, y=25

Sum=38

Average=19

19='S'

Second pair: n z

n=14, z=26

Sum=40

Average=20

20='T'

Third pair: n v

n=14, v=22

Sum=36

Average=18

18='R'

Fourth pair: a a

a=1, a=1

Sum=2

Average=1

1='A'

Fifth pair: t z

t=20, z=26

Sum=46

Average=23

23='W'

Sixth pair: a c

a=1, c=3

Sum=4

Average=2

2='B'

Seventh pair: d f

d=4, f=6

Sum=10

Average=5

5='E'

Eighth pair: o u

o=15, u=21

Sum=36

Average=18

18='R'

Ninth pair: l x

l=12, x=24

Sum=36

Average=18

18='R'

Tenth pair: x z

x=24, z=26

Sum=50

Average=25

25='Y'

So the tenth word is 'S', 'T', 'R', 'A', 'W', 'B', 'E', 'R', 'R', 'Y'

Wait that's 10 letters

So the sixth word is 'STRAWBERRY', which makes sense.

So putting all these translated letters together:

First word: 'THERE'

Second word: 'ARE'

Third word: 'THREE'

Fourth word: 'RS' (? Doesn't make sense)

Wait, the fourth word, the pairs were:

ou ow

Pairs:

First pair: o u

o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o w

o=15, w=23

Sum=38, Average=19

19='S'

So we get 'R','S'

Similarly, fifth word 'IN'

'R', 'S' 'I','N'

So the message so far is

'THERE ARE THREE RS IN'

And then 'STRAWBERRY'

Wait, let's put the words together:

'THERE ARE THREE Rs IN STRAWBERRY'

I think 'RS' is 'R's', meaning 'Rs'

So the message is:

'THERE ARE THREE R'S IN STRAWBERRY'

Which is true.

So the decoded message is:

"THERE ARE THREE R'S IN STRAWBERRY"

To decode the given ciphertext using the example provided, we’ll use the pattern identified in the example.

Ciphertext Example:

Reiner Text

1oyfjdnisdr rtqwainr acxz mynzbhhx

Decoded as:

Reiner Text

1Think step by step

Decoding Method:

Pair the letters in the ciphertext.
Convert each letter to its numerical position in the alphabet (A=1, B=2, …, Z=26).
Sum the numerical values of each pair.
Compute the average of the sum (divide by 2).
Convert the average back to a letter (1=A, 2=B, …, 26=Z).

Apply this method to the given ciphertext:

Reiner Text

1oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Break down the ciphertext into pairs:

1. First word: “oyekaijzdf”
1. Pairs: oy, ek, ai, jz, df
2. Decoded letters:
  1. oy → (15+25)/2 = 20 → T
  2. ek → (5+11)/2 = 8 → H
  3. ai → (1+9)/2 = 5 → E
  4. jz → (10+26)/2 = 18 → R
3. df → (4+6)/2 = 5 → E
4. Decoded word: THERE
Second word: “aaptcg”
1. Pairs: aa, pt, cg
2. Decoded letters:
  1. aa → (1+1)/2 = 1 → A
  2. pt → (16+20)/2 = 18 → R
  3. cg → (3+7)/2 = 5 → E
  4. Decoded word: ARE
Third word: “suaokybhai”
1. Pairs: su, ao, ky, bh, ai
2. Decoded letters:
  1. su → (19+21)/2 = 20 → T
  2. ao → (1+15)/2 = 8 → H
  3. ky → (11+25)/2 = 18 → R
  4. bh → (2+8)/2 = 5 → E
  5. ai → (1+9)/2 = 5 → E
3. Decoded word: THREE
Fourth word: “ouow”
1. Pairs: ou, ow
2. Decoded letters:
  1. ou → (15+21)/2 = 18 → R
  2. ow → (15+23)/2 = 19 → S
3. Decoded letters: R’S
Fifth word: “aqht”
1. Pairs: aq, ht
2. Decoded letters:
  1. aq → (1+17)/2 = 9 → I
  2. ht → (8+20)/2 = 14 → N
3. Decoded word: IN
Sixth word: “mynznvaatzacdfoulxxz”
1. Pairs: my, nz, nv, aa, tz, ac, df, ou, lx, xz
2. Decoded letters:
  1. my → (13+25)/2 = 19 → S
  2. nz → (14+26)/2 = 20 → T
  3. nv → (14+22)/2 = 18 → R
  4. aa → (1+1)/2 = 1 → A
  5. tz → (20+26)/2 = 23 → W
  6. ac → (1+3)/2 = 2 → B
  7. df → (4+6)/2 = 5 → E
  8. ou → (15+21)/2 = 18 → R
  9. lx → (12+24)/2 = 18 → R
  10. xz → (24+26)/2 = 25 → Y
3. Decoded word: STRAWBERRY

Final Decoded Message:

Reiner Text

1THERE ARE THREE R'S IN STRAWBERRY

Answer:
THERE ARE THREE R’S IN STRAWBERRY

Codierung

Wir haben ein Modell trainiert, das bei der International Olympiad in Informatics (IOI) 2024 213 Punkte erzielte und im 49. Perzentil rangierte, indem wir es von o1 aus initialisierten und trainierten, um die Programmierkenntnisse weiter zu verbessern. Dieses Modell nahm unter denselben Bedingungen an der IOI 2024 teil wie die menschlichen Teilnehmer. Zur Lösung von sechs anspruchsvollen algorithmischen Problemen standen zehn Stunden zur Verfügung, wobei pro Problem 50 Einreichungen zulässig waren.

Für jedes Problem prüfte unser System zahlreiche Kandidatenbeiträge und reichte 50 von ihnen basierend auf einer Testzeit-Auswahlstrategie ein. Die Einreichungen wurden auf Grundlage der Leistung bei den öffentlichen IOI-Testfällen, modellgenerierten Testfällen und einer erlernten Bewertungsfunktion ausgewählt. Hätten wir stattdessen nach dem Zufallsprinzip eingereicht, hätten wir im Durchschnitt nur 156 Punkte erreicht. Dies lässt darauf schließen, dass diese Strategie unter Wettbewerbsbedingungen fast 60 Punkte wert war.

Wir haben festgestellt, dass sich die Modellleistung mit gelockerten Einschränkungen hinsichtlich der Einreichung deutlich verbesserte. Bei 10.000 zulässigen Einreichungen pro Problem erreichte das Modell sogar ohne jegliche Testzeit-Auswahlstrategie eine Punktzahl von 362,14 – und lag damit über dem Goldmedaillenschwellenwert.

Abschließend haben wir von Codeforces veranstaltete Programmierwettbewerbe simuliert, um die Programmierkenntnisse dieses Modells zu demonstrieren. Unsere Bewertungen entsprachen fast genau den Wettbewerbsregeln und ermöglichten zehn Einreichungen. GPT‑4o erreichte eine Elo-Bewertung³ von 808, womit es im 11. Perzentil der menschlichen Konkurrenten liegt. Dieses Modell übertraf sowohl GPT‑4o als auch o1 bei Weitem – es erreichte eine Elo-Bewertung von 1807 und schnitt damit besser ab als 93 % der Konkurrenten.

Das Bild zeigt ein Balkendiagramm, das die Elo-Perzentil-Ranglisten von Codeforce für verschiedene Modelle vergleicht. GPT-4o hat 808 Elo (11. Perzentil), o1 preview hat 1258 Elo (62. Perzentil), o1 hat 1673 Elo (89. Perzentil) und o1-ioi hat 1807 Elo (93. Perzentil).

Weitere Feinabstimmung anhand von Programmierwettbewerben verbessert o1. Das verbesserte Modell rangierte bei der 2024 International Olympiad in Informatics unter Wettbewerbsregeln im 49. Perzentil.

Bewertung der menschlichen Präferenz

Zusätzlich zu Prüfungen und akademischen Benchmarks haben wir auch die menschliche Präferenz von o1‑preview gegenüber GPT‑4o bei anspruchsvollen, offenen Prompts in einem breiten Spektrum von Domänen bewertet. Bei dieser Bewertung wurden menschlichen Trainern anonymisierte Antworten von o1‑preview und GPT‑4o auf einen Prompt gezeigt und sie wählten die von ihnen bevorzugte Antwort aus. In Kategorien, die viel Reasoning erfordern, wie Datenanalyse, Codierung und Mathematik, wird o1‑preview gegenüber gpt-4o mit großem Abstand bevorzugt. Allerdings wird o1‑preview bei einigen Aufgaben in natürlicher Sprache nicht bevorzugt, was darauf hindeutet, dass es nicht für alle Anwendungsfälle gut geeignet ist.

Das Bild zeigt ein horizontales Balkendiagramm, das die Ergebnisse von fünf Modellen vergleicht, wobei die Fehlerbalken die Konfidenzintervalle darstellen. Die x-Achse reicht von 0 bis 100, mit einer gestrichelten Linie als Referenzpunkt für die Leistung.

Sicherheit

Durch das Reasoning mit Denkvorgang ergeben sich neue Möglichkeiten zur Ausrichtung und Sicherheit. Wir haben festgestellt, dass die Integration unserer Richtlinien für das Modellverhalten in den Denkvorgang eines Reasoning-Modells eine effektive Möglichkeit ist, menschliche Werte und Prinzipien nachhaltig zu vermitteln. Indem wir dem Modell unsere Sicherheitsregeln und die Art und Weise beibrachten, wie es im Kontext über sie nachdenken soll, fanden wir Hinweise darauf, dass die Reasoning-Fähigkeit sich direkt positiv auf die Robustheit des Modells auswirkt: o1‑preview erzielte eine erheblich verbesserte Leistung bei wichtigen Bewertungen zu Jailbreak und unseren schwierigsten internen Benchmarks zur Bewertung der Sicherheitsverweigerungsgrenzen unseres Modells. Wir sind der Überzeugung, dass die Verwendung eines Denkvorgangs erhebliche Fortschritte hinsichtlich Sicherheit und Ausrichtung bietet, da (1) sie es uns ermöglicht, das Denken des Modells auf erkennbare Weise zu beobachten und (2) das Reasoning des Modells hinsichtlich Sicherheitsregeln gegenüber Szenarien außerhalb der Verteilung robuster ist.

Um unsere Verbesserungen auf Herz und Nieren zu prüfen, haben wir vor dem Roll-out eine Reihe von Sicherheitstests und Red-Teaming durchgeführt, im Einklang mit unserem Preparedness Framework⁠(wird in einem neuen Fenster geöffnet)⁠. Wir haben festgestellt, dass das Reasoning mit Denkvorgang zu Leistungsverbesserungen in all unseren Bewertungen beigetragen hat. Besonders hervorzuheben sind die interessanten Fälle von Belohnungshacking⁠(wird in einem neuen Fenster geöffnet), die wir beobachtet haben. Die detaillierten Ergebnisse dieser Bewertungen findest du in der begleitenden Systemkarte.

Metrisch	GPT-4o	o1-preview
Prozent sicherer Antworten bei schädlichen Prompts Standard	0,990	0,995
Prozent sicherer Antworten bei schädlichen Prompts Herausfordernd: Jailbreaks und Randfälle	0,714	0,934
↳ Belästigung (schwerwiegend)	0,845	0,900
↳ Ausbeuterische sexuelle Inhalte	0,483	0,949
↳ Sexuelle Inhalte mit Minderjährigen	0,707	0,931
↳ Hinweise zum nicht-gewalttätigen Fehlverhalten	0,688	0,961
↳ Hinweise zum gewalttätigen Fehlverhalten	0,778	0,963
Prozent sicherer Antworten für die Top 200 mit den höchsten Moderation-API-Werten pro Kategorie in WildChat Zhao, et al. 2024	0,945	0,971
Goodness@0.1 StrongREJECT Jailbreak-Evaluation Souly et al. 2024	0,220	0,840
Bewertung von von Menschen erzeugten Jailbreaks	0,770	0,960
Prozentuale Einhaltung bei internen unkritischen Randfällen „Keine übermäßige Ablehnung“	0,910	0,930
Prozentuale Einhaltung bei unkritischen Randfällen im XSTest „Keine übermäßige Ablehnung“ Röttger, et al. 2023	0,924	0,976

Denkvorgänge verbergen

Wir glauben, dass ein verborgener Denkvorgang eine einzigartige Möglichkeit zur Überwachung von Modellen darstellt. Vorausgesetzt, er ist getreu und verständlich, ermöglicht uns der verborgene Denkvorgang, die „Gedanken des Modells zu lesen“ und seinen Gedankengang zu verstehen. Beispielsweise möchten wir in Zukunft möglicherweise den Denkvorgang auf Anzeichen von Manipulation des Benutzers überwachen. Damit dies funktioniert, muss das Modell allerdings die Freiheit haben, seine Gedanken unverändert auszudrücken. Daher können wir dem Denkvorgang keine Richtlinienkonformität oder Benutzerpräferenzen antrainieren. Wir möchten außerdem einen unkoordinierten Denkvorgang nicht direkt für die Nutzer sichtbar machen.

Daher haben wir uns nach Abwägung mehrerer Faktoren, darunter Benutzererfahrung, Wettbewerbsvorteile und die Möglichkeit, den Denkvorgang zu überwachen, dazu entschieden, den Benutzern die Rohdaten des Denkvorgangs nicht anzuzeigen. Wir sind uns bewusst, dass diese Entscheidung Nachteile hat. Wir versuchen, dies teilweise auszugleichen, indem wir dem Modell lehren, alle nützlichen Ideen aus dem Denkvorgang in der Antwort zu reproduzieren. Für die Modellreihe o1 zeigen wir eine modellgenerierte Zusammenfassung des Denkvorgangs.

Fazit

o1 bringt den aktuellsten Entwicklungsstand im Bereich des KI-Reasonings erheblich voran. Wir planen, im Zuge der weiteren Iteration verbesserte Versionen dieses Modells herauszubringen. Wir erwarten, dass diese neuen Reasoning-Fähigkeiten unsere Fähigkeit verbessern werden, Modelle an menschlichen Werten und Prinzipien auszurichten. Wir glauben, dass o1 – und seine Nachfolger – viele neue Anwendungsfälle für KI in den Bereichen Wissenschaft, Programmierung, Mathematik und verwandten Bereichen erschließen werden. Wir freuen uns darauf, dass Benutzer und API-Entwickler entdecken, wie es ihre tägliche Arbeit verbessern kann.

Anhang A

Datensatz	Metrisch	gpt-4o	o1-preview	o1
Competition Math AIME (2024)	cons@64	13,4	56,7	83,3
Competition Math AIME (2024)	pass@1	9,3	44,6	74,4
Wettbewerbscode CodeForces	Elo	808	1.258	1.673
Wettbewerbscode CodeForces	Perzentil	11,0	62,0	89,0
GPQA Diamond	cons@64	56,1	78,3	78,0
GPQA Diamond	pass@1	50,6	73,3	77,3
Biologie	cons@64	63,2	73,7	68,4
Biologie	pass@1	61,6	65,9	69,2
Chemie	cons@64	43,0	60,2	65,6
Chemie	pass@1	40,2	59,9	64,7
Physik	cons@64	68,6	89,5	94,2
Physik	pass@1	59,5	89,4	92,8
MATHE	pass@1	60,3	85,5	94,8
MMLU	pass@1	88,0	92,3	90,8
MMMU (Validierung)	pass@1	69,1	k. A.	78,2
MathVista (testmini)	pass@1	63,8	k. A.	73,9

Autoren

OpenAI

Beitragende anzeigen

Quellenangaben

1
https://www.anthropic.com/news/claude-3-5-sonnet⁠(wird in einem neuen Fenster geöffnet), https://deepmind.google/technologies/gemini/pro⁠(wird in einem neuen Fenster geöffnet)
2
Unsere Bewertungen verwendeten die gleiche 500-Problem-Testaufteilung wie in https://arxiv.org/abs/2305.20050⁠(wird in einem neuen Fenster geöffnet)
3
https://codeforces.com/blog/entry/68288⁠(wird in einem neuen Fenster geöffnet)