12 tháng 9, 2024

Học cách suy luận với LLM

Chúng tôi xin giới thiệu OpenAI o1, một mô hình ngôn ngữ lớn mới được huấn luyện bằng học củng cố để thực hiện các suy luận phức tạp. o1 có khả năng suy nghĩ trước khi trả lời—nó có thể tạo ra một chuỗi tư duy nội bộ dài trước khi phản hồi người dùng.

Đóng góp Sử dụng o1

Đang tải…

OpenAI o1 được xếp hạng ở mức bách phân vị 89 về các câu hỏi lập trình cạnh tranh (Codeforces), lọt vào top 500 học sinh tại Hoa Kỳ trong vòng loại của Kỳ thi Olympic Toán Hoa Kỳ (AIME) và vượt qua độ chính xác của con người ở trình độ Tiến sĩ trên bảng đánh giá về các bài toán vật lý, sinh học và hóa học (GPQA). Mặc dù công việc cần thiết để khiến mô hình mới này dễ sử dụng như các mô hình hiện tại vẫn đang được tiến hành, nhưng chúng tôi sẽ phát hành phiên bản đầu tiên của mô hình này, OpenAI o1‑preview, để sử dụng ngay trong ChatGPT và cho người dùng API đáng tin cậy⁠(mở trong cửa sổ mới).

Thuật toán học củng cố quy mô lớn của chúng tôi sẽ dạy mô hình cách tư duy hiệu quả bằng cách sử dụng chuỗi tư duy của nó trong một quy trình huấn luyện hiệu quả cao về dữ liệu. Chúng tôi nhận thấy rằng hiệu suất của o1 liên tục được cải thiện khi học củng cố nhiều hơn (tốn sức mạnh tính toán khi huấn luyện) và khi dành nhiều thời gian hơn để suy nghĩ (tốn sức mạnh tính toán khi thử nghiệm). Các ràng buộc đối với việc mở rộng quy mô phương pháp này khác biệt đáng kể so với các ràng buộc trước huấn luyện LLM, và chúng tôi đang tiếp tục nghiên cứu.

Hình ảnh hiển thị hai biểu đồ phân tán so sánh "độ chính xác AIME của o1" trong khi huấn luyện và tại thời điểm thử nghiệm. Cả hai biểu đồ đều có "độ chính xác pass@1" trên trục y và sức mạnh tính toán (thang đo logarit) trên trục x. Các chấm biểu thị độ chính xác tăng dần khi có nhiều thời gian tính toán hơn.

Hiệu suất của o1 cải thiện một cách ổn định theo cả sức mạnh tính toán khi huấn luyện lẫn khi thử nghiệm.

Đánh giá

Để làm nổi bật sự cải thiện về khả năng suy luận so với GPT‑4o, chúng tôi đã thử nghiệm các mô hình trên một bộ đa dạng các bài kiểm tra cho con người và đánh giá ML. Chúng tôi cho thấy rằng o1 vượt trội đáng kể so với GPT‑4o trong đại đa số những tác vụ đòi hỏi khả năng suy luận cao này. Trừ khi có ghi nhận khác, chúng tôi đã đánh giá o1 ở thiết lập sức mạnh tính toán tối đa tại thời điểm thử nghiệm.

Đánh giá năng lực cạnh tranh về Toán học (AIME 2024), Lập trình (CodeForces) và Câu hỏi khoa học trình độ Tiến sĩ (GPQA Diamond) — o1 cải thiện đáng kể so với GPT-4o trên các bài kiểm tra năng lực suy luận phức tạp. Các cột hiển thị độ chính xác pass@1 và vùng đổ bóng cho thấy hiệu suất của phương pháp bỏ phiếu theo đa số (đồng thuận) với 64 mẫu.

Phân tích về độ chính xác và điểm số thô của GPT-4o so với o1 trên các bài đánh giá năng lực cạnh tranh khác nhau — o1 cải thiện so với GPT-4o trên một loạt các điểm chuẩn, bao gồm các danh mục phụ 54/57 MMLU. Số bảy được hiển thị để minh họa.

Điểm chuẩn ML và điểm số các bài kiểm tra thể hiện sự cải tiến vượt trội của GPT-4o so với o1, alt text cho thiết bị di động — o1 cải thiện so với GPT-4o trên một loạt các điểm chuẩn, bao gồm các danh mục phụ 54/57 MMLU. Số bảy được hiển thị để minh họa.

Trong nhiều đánh giá đòi hỏi cao về suy luận, o1 đạt hiệu suất sánh ngang với các chuyên gia con người. Các mô hình tiên phong¹ gần đây đạt kết quả rất tốt trên MATH² và GSM8K đến mức các đánh giá này không còn hiệu quả trong việc phân biệt các mô hình nữa. Chúng tôi đã đánh giá hiệu suất giải toán trên AIME, một kỳ thi được thiết kế để thử thách những học sinh trung học giỏi toán nhất nước Mỹ. Trong các kỳ thi AIME năm 2024, GPT‑4o chỉ giải được trung bình 12% (1,8/15) số bài toán. Trong khi đó, o1 đạt trung bình 74% (11,1/15) với một mẫu thử duy nhất cho mỗi bài toán, 83% (12,5/15) khi có sự thống nhất giữa 64 mẫu thử, và 93% (13,9/15) khi xếp hạng lại 1000 mẫu bằng một hàm tính điểm đã học. Với điểm số 13,9, o1 lọt vào nhóm 500 học sinh dẫn đầu toàn quốc và vượt qua mức điểm chuẩn để tham dự Olympic Toán học Hoa Kỳ.

Chúng tôi cũng đánh giá o1 trên GPQA diamond, một đánh giá trí tuệ khó nhằm kiểm tra trình độ môn hóa học, vật lý và sinh học. Để so sánh các mô hình với con người, chúng tôi đã mời các chuyên gia có bằng Tiến sĩ trả lời các câu hỏi của GPQA-diamond. Chúng tôi nhận thấy o1 đã vượt qua hiệu suất của các chuyên gia con người đó, trở thành mô hình đầu tiên đạt được thành tích này ở đánh giá nói trên. Các kết quả này không ngụ ý rằng o1 có năng lực vượt trội hơn một Tiến sĩ về mọi mặt — mà chỉ cho thấy mô hình này thành thạo hơn khi giải quyết một số bài toán mà một Tiến sĩ được kỳ vọng sẽ giải quyết được. Trong một số đánh giá ML khác, o1 đã cải thiện và vượt trội hơn so với trình độ tiên tiến nhất. Khi kích hoạt khả năng nhận thức thị giác, o1 đã đạt 78,2% điểm trong bài kiểm tra MMMU, trở thành mô hình đầu tiên có khả năng cạnh tranh với các chuyên gia con người. Mô hình này cũng vượt trội hơn GPT‑4o ở 54 trên tổng số 57 tiểu mục của MMLU.

Chuỗi tư duy

Tương tự như cách con người có thể suy nghĩ rất lâu trước khi trả lời một câu hỏi khó, o1 sử dụng chuỗi tư duy khi cố gắng giải quyết một vấn đề. Thông qua học củng cố, o1 sẽ học cách mài giũa chuỗi tư duy của mình và tinh chỉnh các chiến lược mà nó sử dụng. Mô hình này sẽ học cách nhận biết và sửa chữa lỗi sai của mình. Nó học cách chia nhỏ các bước phức tạp thành các bước đơn giản hơn. Mô hình sẽ học cách thử một hướng tiếp cận khác khi hướng hiện tại không hiệu quả. Quá trình này cải thiện đáng kể khả năng suy luận của mô hình. Để minh họa cho bước tiến vượt bậc này, chúng tôi trình bày chuỗi tư duy của o1‑preview khi giải quyết một số vấn đề khó dưới đây.

GPT-4o

Người dùng

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Let’s break this down step by step based on the example:

1. Example given:
• Input: oyfjdnisdr rtqwainr acxz mynzbhhx
• Output: Think step by step

By examining the words:
• The pattern involves selecting specific letters or transforming them.

2. Now, let’s decode the new phrase:
• Input: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Step-by-step decoding process:

Identify possible word divisions.

The first phrase might follow the same structure as the example. It seems like the input text could be broken into groups based on natural separations or patterns.

A possible division could be:

oyekaijzdf
aaptcg
suaokybhai
ouow
aqht
mynznvaatzacdfoulxxz

However, to make a meaningful decoding, I would need more context about the transformations or letter shifting that might be involved.

Could you provide any additional decoding rules or transformations used in this cipher?

OpenAI o1-preview

Người dùng

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Đã suy nghĩ trong 5 giây

First, what is going on here?

We are given:

First, an example:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

We can see that when "oyfjdnisdr rtqwainr acxz mynzbhhx" is transformed to "Think step by step"

Our task is: Use the example above to decode: "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

So the first part is to figure out how "oyfjdnisdr rtqwainr acxz mynzbhhx" is decoded into "Think step by step"

Observation 1: The phrase "Think step by step" is 18 letters (excluding spaces) . Let's count the letters.

Similarly, let's count the letters in "oyfjdnisdr rtqwainr acxz mynzbhhx"

Original Ciphertext:

oyfjdnisdr rtqwainr acxz mynzbhhx

Plaintext:

Think step by step

First, break down the letters:

Ciphertext letters: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Total letters: Let's count the letters in the ciphertext.

First word: oyfjdnisdr (10 letters)

Second word: rtqwainr (8 letters)

Third word: acxz (4 letters)

Fourth word: mynzbhhx (8 letters)

Total letters in ciphertext: 10 + 8 + 4 + 8 = 30 letters

Plaintext: Think step by step

First word: Think (5 letters)

Second word: step (4 letters)

Third word: by (2 letters)

Fourth word: step (4 letters)

Total letters in plaintext: 5 + 4 + 2 + 4 = 15 letters

Hmm.

But actually in the problem it says the example:

[Ciphertext] -> Think step by step

So is the decoding process that the ciphertext maps to "Think step by step"?

Our goal is to use the example above to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, the cipher seems connected to the plaintext.

Given the time constraints, perhaps the easiest way is to try to see patterns.

Option 1: Try to find mapping from letters to letters.

Do any letters match?

First, let's write down the ciphertext and plaintext letters on top of each other.

Ciphertext: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x

Plaintext: T h i n k s t e p b y s t e p

Wait a minute.

I think maybe there is an anagram or substitution cipher here.

Alternatively, I think that we can notice that each group of ciphertext corresponds to a plaintext word.

Check the number of letters.

First ciphertext word: oyfjdnisdr (10 letters)

First plaintext word: Think (5 letters)

Hmm.

Second ciphertext word: rtqwainr (8 letters)

Second plaintext word: step (4 letters)

Third ciphertext word: acxz (4 letters)

Third plaintext word: by (2 letters)

Fourth ciphertext word: mynzbhhx (8 letters)

Fourth plaintext word: step (4 letters)

Interesting.

It seems that the ciphertext words are exactly twice as long as the plaintext words.

(10 vs 5, 8 vs 4, 4 vs 2, 8 vs 4)

Idea: Maybe we need to take every other letter or rebuild the plaintext from the ciphertext accordingly.

Let's test this theory.

If we take every other letter from the ciphertext words, maybe we'll get the plaintext.

Let's try this for the first word:

Ciphertext word: o y f j d n i s d r (10 letters)

Alternate letters:

First letters (positions 1,3,5,7,9): o f d i d

Second letters (positions 2,4,6,8,10): y j n s r

Wait: Let's try taking every second letter or first letter.

Option 1: Take the odd positions:

Positions: 1 3 5 7 9

Letters: o f d i d

Plaintext word is "Think", letters are T h i n k

Hmm.

Perhaps we can map letters:

o f d i d --> Think

Not directly

Option 2: Try mapping as per an assigned code: perhaps columns of letters?

Alternatively, perhaps the cipher is more complex.

Alternatively, notice that "oyfjdnisdr" has 10 letters and "Think" has 5 letters.

What if each plaintext letter is being represented by two ciphertext letters?

Similarly for other words.

Suppose that each plaintext letter corresponds to pair of letters in the ciphertext.

Meaning that the first two letters of ciphertext map to the first plaintext letter, and so on.

So for the first word, partition the ciphertext letters into pairs:

oy fj dn is dr

Corresponding to plaintext letters T h i n k

So we can attempt to map:

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

If this is the mapping, perhaps each pair of letters maps to one plaintext letter.

Similarly for other words.

Let's test this mapping.

Is there a consistent mapping from pairs to letters?

Let's make a table of pairs and corresponding letters.

First, make the pairs from the first word and their corresponding plaintext letters:

Ciphertext Pairs -> Plaintext Letter

oy -> T

fj -> h

dn -> i

is -> n

dr -> k

Now, what's the mapping from "oy" to 'T'?

Is there a way to map 'oy' to 'T'?

Similarly for others.

One possible way is that 'oy' represents 'T'.

But how?

Option 1: Sum of the letters.

Convert letters to numbers (A=1, B=2, ..., Z=26)

So let's try to get to 'T' from 'o' and 'y'

o = 15

y = 25

Sum: 15 +25 = 40

But 'T' is 20.

Alternatively, perhaps subtract: 25 -15 = 10.

No.

Alternatively, perhaps combine the numbers in some way.

Alternatively, think about their positions in the alphabet.

Alternatively, perhaps the letters are encrypted via a code.

Alternatively, perhaps if we overlay the word 'Think' over the cipher pairs 'oy', 'fj', etc., the cipher is formed by substituting each plaintext letter with two letters.

Alternatively, perhaps consider the 'original' letters.

Let's look at the letters between the word "Think" and "oyfjdnisdr"

Perhaps we can spot that "oyfjdnisdr" is an anagram for "Thinkfiles"?

But that seems unlikely.

Alternatively, think of the pairs.

Suppose we assign numbers to letters: a=1, b=2, ..., z=26

Consider the numbers in 'oy':

o = 15

y = 25

Add them: 15 + 25 = 40

Now, for 'T' we have:

'T' is number 20

What if we take the sum of the cipher pair mod 26.

15 +25 = 40

Then 40 mod 26 = 14

14 corresponds to 'N'

Doesn't match.

Alternatively, see if the cipher pairs correspond to something else.

Alternatively, perhaps the pair 'oy' corresponds to 'T' via key.

Alternatively, perhaps it's as simple as 'oy' is 'T'.

But 'o' corresponds to 'T', subtracting 'o' ASCII code from 'T'.

Now, let's think in terms of symmetric letters.

Alternatively, perhaps we can spot that the letters correspond to the first letters of words.

But perhaps an easier way is to look at the word positions.

Alternatively, perhaps we can see that the ciphertext letters are offsets from the plaintext letters.

So let's try to map the pairs to the plaintext letters.

First pair 'oy' and plaintext letter 'T'

Letter 'o' is 15, 'T' is 20

Letter 'o' + 5 = 'T' (15 +5=20)

But 'y' is 25, which is 5 letters after 'T' (20 +5=25)

Interesting, seems that 'o' +5 = 'T'

Similarly, 'y' +1 = 'Z', which is not 'T'.

Alternatively, maybe the average of the two letters corresponds to 'T'

(15 +25)/2 =20, which is 'T'

Wait a minute, that seems promising.

First pair: 'o' (15) + 'y' (25) = 40

40 /2 =20

20 corresponds to 'T'

So perhaps the average of the letters in the pair corresponds to the plaintext letter.

Let's check this with the second pair.

Second pair: 'fj' corresponding to 'h'

Letters 'f'=6, 'j'=10

Sum: 6+10=16

Average:16/2=8

8 corresponds to 'h' (since 'h' is 8)

Success!

Third pair: 'dn' to 'i'

'd'=4, 'n'=14

Sum:4+14=18

Average:18/2=9

9 corresponds to 'i'(9='i')

But 'i' is 9, so that seems off by 1.

So perhaps we need to think carefully about letters.

Wait, 18/2=9, 9 corresponds to 'I'

So this works.

Fourth pair: 'is' corresponding to 'n'

'i'=9, 's'=19

Sum:9+19=28

Average:28/2=14

14 corresponds to 'n'(14='N')

Yes!

Fifth pair: 'dr' corresponds to 'k'

'd'=4, 'r'=18

Sum:4+18=22

Average:22/2=11

11 corresponds to 'k'(11='K')

Perfect!

So our code is: For each pair, sum their numeric values, divide by 2, get the corresponding letter.

Alternatively, the average of the numeric values of the letters corresponds to the plaintext letter.

This seems to be a valid method.

Now let's test this with the other words.

Second word ciphertext: rtqwainr

Ciphertext pairs:

rt -> s

qw -> ?

ai -> ?

nr -> ?

Corresponding to plaintext letters 's', 't', 'e', 'p'

So let's take the pairs:

1. 'rt' corresponds to 's'

r=18, t=20

Sum:38

Average:19

19 corresponds to 's' (19='S')

Good

2. 'qw' corresponds to 't'

q=17, w=23

Sum:17+23=40

Average:20

20 corresponds to 't' (20='T')

Good

3. 'ai' corresponds to 'e'

a=1, i=9

Sum:10

Average:5

5 corresponds to 'e' (5='E')

Good

4. 'nr' corresponds to 'p'

n=14, r=18

Sum:32

Average:16

16 corresponds to 'p' (16='P')

Perfect!

Third word: acxz (4 letters)

Plaintext word: 'by' (2 letters)

Ciphertext pairs:

a c

x z

Plaintext letters: 'b', 'y'

First pair: 'a', 'c'

a=1, c=3

Sum:4

Average:2

2 corresponds to 'b'(2='B')

Second pair: 'x' and 'z'

x=24, z=26

Sum:50

Average:25

25 corresponds to 'y'(25='Y')

Yes!

Fourth word: mynzbhhx (8 letters)

Plaintext word: 'step' (4 letters)

Ciphertext pairs:

my

nz

bh

hx

Plaintext letters 's','t','e','p'

First pair 'm','y'

m=13, y=25

Sum:38

Average:19

19 corresponds to 's'(19='S')

Second pair: 'n','z'

n=14, z=26

Sum: 40

Average:20

20='t'

Third pair: 'b','h'

b=2, h=8

Sum:10

Average:5

5='e'

Fourth pair: 'h','x'

h=8, x=24

Sum:32

Average:16

16='p'

Got it!

Now, given this, we can decode the given message.

Ciphertext to decode:

"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

First, we need to divide into words.

Given that the ciphertext in the example had words of length:

-10 letters (5 pairs)
-8 letters (4 pairs)
-4 letters (2 pairs)
-8 letters (4 pairs)

Transported to plaintext words of:

-5 letters
-4 letters
-2 letters
-4 letters

So perhaps in our supplied ciphertext, we need to divide the letters into words accordingly.

Ciphertext: o y e k a i j z d f a a p t c g s u a o k y b h a i o u o w a q h t m y n z n v a a t z a c d f o u l x x z

First, let's write the letters in order:

1) oyekaijzdf (10 letters) -> word of 5 letters

2) aaptcg (6 letters) -> word of 3 letters

3) suaokybhai (10 letters) -> word of 5 letters

4) ouow (4 letters) -> word of 2 letters

5) aqht (4 letters) -> word of 2 letters

6) mynznvaatzacdfoulxxz (22 letters) -> word of 11 letters

Totals:

So the letters are:

First word: oyekaijzdf (10 letters = 5 pairs)

Second word: aaptcg (6 letters=3 pairs)

Third word: suaokybhai (10 letters=5 pairs)

Fourth word: ouow (4 letters=2 pairs)

Fifth word: aqht (4 letters=2 pairs)

Sixth word: mynznvaatzacdfoulxxz (22 letters=11 pairs)

So we can suppose that the plaintext words have lengths:

1) 5 letters

2) 3 letters

3) 5 letters

4) 2 letters

5) 2 letters

6)11 letters

Now we can proceed to decode.

First word: oyekaijzdf

Divide into pairs:

oy

ek

ai

jz

df

So we can find the plaintext letters by averaging the numeric values of the letters in each pair.

First pair: 'o','y'

o=15, y=25

Sum=40

Average=20

20='T'

Second pair: 'e','k'

e=5, k=11

Sum=16

Average=8

8='H'

Third pair: 'a','i'

a=1, i=9

Sum=10

Average=5

5='E'

Fourth pair: 'j','z'

j=10, z=26

Sum=36

Average=18

18='R'

Fifth pair: 'd','f'

d=4, f=6

Sum=10

Average=5

5='E'

So the first word is 'T','H','E','R','E'

So 'THERE'

Second word: aaptcg

Pairs:

aa

pt

cg

First pair: 'a','a'

a=1, a=1

Sum=2

Average=1

1='A'

Second pair: 'p','t'

p=16, t=20

Sum=36

Average=18

18='R'

Third pair: 'c','g'

c=3, g=7

Sum=10

Average=5

5='E'

So second word: 'A','R','E'

Third word: suaokybhai

Pairs:

su

ao

ky

bh

ai

First pair: s=19, u=21

Sum=40, Average=20

20='T'

Second pair: a=1, o=15

Sum=16, Average=8

8='H'

Third pair: k=11, y=25

Sum=36, Average=18

18='R'

Fourth pair: b=2, h=8

Sum=10, Average=5

5='E'

Fifth pair: a=1, i=9

Sum=10, Average=5

5='E'

Third word: 'T','H','R','E','E'

Fourth word: ouow

Pairs: ou, ow

First pair: o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o=15, w=23

Sum=38, Average=19

19='S'

Fourth word: 'R','S'

Fifth word: aqht

Pairs: a q, h t

First pair: a=1, q=17

Sum=18, Average=9

9='I'

Second pair: h=8, t=20

Sum=28, Average=14

14='N'

Fifth word: 'I','N'

Sixth word: mynznvaatzacdfoulxxz (22 letters: 11 pairs)

Pairs:

m y

n z

n v

a a

t z

a c

d f

o u

l x

x z

Let's list them properly.

Wait, earlier I missed some letters there.

Let's re-express the sixth word letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, that's 21 letters.

But in total, we have 22 letters; I think I have a mismatch.

Wait, in the problem the sixth word is:

mynznvaatzacdfoulxxz

Let's separate the letters:

m y n z n v a a t z a c d f o u l x x z

Total letters: 22 letters

So pairs would be:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

Wait, 'z' is only one letter at the end.

So maybe the letters are:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z (left alone?)

But then we're missing a letter.

Alternatively, perhaps the 'z' at the end is an extra letter or it's paired with the previous 'x'.

Alternatively, perhaps there is a mistake.

Alternatively, perhaps when we reach the last 'x x z', we should write:

9. l x

10. x z

Total pairs: 11

So updated pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Now total pairs: 10 pairs. But we are supposed to have 11 letters in the plaintext word.

So perhaps I have miscounted and not considered including 'f' or 'z'.

Wait, is there any chance that the sequence is:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z

We have 22 letters.

Perhaps the 'x x' and 'z' are overlapping.

But we need 11 pairs.

I think for this to work, we need to create 11 pairs from the 22 letters.

So let's try pairing letters in order, taking two letters at a time.

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x x

11. z ?

But again, last pair only has one letter 'z'

Alternatively, we might need to adjust the pairs.

Perhaps it's 'ou', 'lx', 'xz', and there is no extra 'x'.

Maybe I miswrote.

Wait, let's write the letters as they come:

m y n z n v a a t z a c d f o u l x x z

Positions:

1 m

2 y

3 n

4 z

5 n

6 v

7 a

8 a

9 t

10 z

11 a

12 c

13 d

14 f

15 o

16 u

17 l

18 x

19 x

20 z

So 20 letters.

Now that makes sense.

Now we can divide into pairs:

Pairs:

1. m y

2. n z

3. n v

4. a a

5. t z

6. a c

7. d f

8. o u

9. l x

10. x z

Total of 10 pairs, which will correspond to 10 letters.

But earlier we thought the word was 11 letters.

But 10 letters may be acceptable.

Maybe we should proceed with the 10 pairs.

First pair: m y

m=13, y=25

Sum=38

Average=19

19='S'

Second pair: n z

n=14, z=26

Sum=40

Average=20

20='T'

Third pair: n v

n=14, v=22

Sum=36

Average=18

18='R'

Fourth pair: a a

a=1, a=1

Sum=2

Average=1

1='A'

Fifth pair: t z

t=20, z=26

Sum=46

Average=23

23='W'

Sixth pair: a c

a=1, c=3

Sum=4

Average=2

2='B'

Seventh pair: d f

d=4, f=6

Sum=10

Average=5

5='E'

Eighth pair: o u

o=15, u=21

Sum=36

Average=18

18='R'

Ninth pair: l x

l=12, x=24

Sum=36

Average=18

18='R'

Tenth pair: x z

x=24, z=26

Sum=50

Average=25

25='Y'

So the tenth word is 'S', 'T', 'R', 'A', 'W', 'B', 'E', 'R', 'R', 'Y'

Wait that's 10 letters

So the sixth word is 'STRAWBERRY', which makes sense.

So putting all these translated letters together:

First word: 'THERE'

Second word: 'ARE'

Third word: 'THREE'

Fourth word: 'RS' (? Doesn't make sense)

Wait, the fourth word, the pairs were:

ou ow

Pairs:

First pair: o u

o=15, u=21

Sum=36, Average=18

18='R'

Second pair: o w

o=15, w=23

Sum=38, Average=19

19='S'

So we get 'R','S'

Similarly, fifth word 'IN'

'R', 'S' 'I','N'

So the message so far is

'THERE ARE THREE RS IN'

And then 'STRAWBERRY'

Wait, let's put the words together:

'THERE ARE THREE Rs IN STRAWBERRY'

I think 'RS' is 'R's', meaning 'Rs'

So the message is:

'THERE ARE THREE R'S IN STRAWBERRY'

Which is true.

So the decoded message is:

"THERE ARE THREE R'S IN STRAWBERRY"

To decode the given ciphertext using the example provided, we’ll use the pattern identified in the example.

Ciphertext Example:

Văn bản thuần túy

1oyfjdnisdr rtqwainr acxz mynzbhhx

Decoded as:

Văn bản thuần túy

1Think step by step

Decoding Method:

Pair the letters in the ciphertext.
Convert each letter to its numerical position in the alphabet (A=1, B=2, …, Z=26).
Sum the numerical values of each pair.
Compute the average of the sum (divide by 2).
Convert the average back to a letter (1=A, 2=B, …, 26=Z).

Apply this method to the given ciphertext:

Văn bản thuần túy

1oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Break down the ciphertext into pairs:

1. First word: “oyekaijzdf”
1. Pairs: oy, ek, ai, jz, df
2. Decoded letters:
  1. oy → (15+25)/2 = 20 → T
  2. ek → (5+11)/2 = 8 → H
  3. ai → (1+9)/2 = 5 → E
  4. jz → (10+26)/2 = 18 → R
3. df → (4+6)/2 = 5 → E
4. Decoded word: THERE
Second word: “aaptcg”
1. Pairs: aa, pt, cg
2. Decoded letters:
  1. aa → (1+1)/2 = 1 → A
  2. pt → (16+20)/2 = 18 → R
  3. cg → (3+7)/2 = 5 → E
  4. Decoded word: ARE
Third word: “suaokybhai”
1. Pairs: su, ao, ky, bh, ai
2. Decoded letters:
  1. su → (19+21)/2 = 20 → T
  2. ao → (1+15)/2 = 8 → H
  3. ky → (11+25)/2 = 18 → R
  4. bh → (2+8)/2 = 5 → E
  5. ai → (1+9)/2 = 5 → E
3. Decoded word: THREE
Fourth word: “ouow”
1. Pairs: ou, ow
2. Decoded letters:
  1. ou → (15+21)/2 = 18 → R
  2. ow → (15+23)/2 = 19 → S
3. Decoded letters: R’S
Fifth word: “aqht”
1. Pairs: aq, ht
2. Decoded letters:
  1. aq → (1+17)/2 = 9 → I
  2. ht → (8+20)/2 = 14 → N
3. Decoded word: IN
Sixth word: “mynznvaatzacdfoulxxz”
1. Pairs: my, nz, nv, aa, tz, ac, df, ou, lx, xz
2. Decoded letters:
  1. my → (13+25)/2 = 19 → S
  2. nz → (14+26)/2 = 20 → T
  3. nv → (14+22)/2 = 18 → R
  4. aa → (1+1)/2 = 1 → A
  5. tz → (20+26)/2 = 23 → W
  6. ac → (1+3)/2 = 2 → B
  7. df → (4+6)/2 = 5 → E
  8. ou → (15+21)/2 = 18 → R
  9. lx → (12+24)/2 = 18 → R
  10. xz → (24+26)/2 = 25 → Y
3. Decoded word: STRAWBERRY

Final Decoded Message:

Văn bản thuần túy

1THERE ARE THREE R'S IN STRAWBERRY

Answer:
THERE ARE THREE R’S IN STRAWBERRY

Lập trình

Chúng tôi đã huấn luyện một mô hình đạt 213 điểm và xếp hạng bách phân vị 49 trong Kỳ thi Olympic Tin học Quốc tế (IOI) năm 2024, bằng cách khởi tạo từ o1 và huấn luyện thêm để nâng cao kỹ năng lập trình. Mô hình này đã thực hiện Kỳ thi IOI 2024 trong điều kiện tương tự như các thí sinh con người. Nó có mười tiếng để giải sáu bài toán thuật toán đầy thử thách và được phép nộp bài 50 lần cho mỗi bài toán.

Đối với mỗi bài toán, hệ thống của chúng tôi đã lấy mẫu nhiều bài nộp tiềm năng và chọn ra 50 bài để nộp dựa trên chiến lược chọn lọc tại thời điểm kiểm tra. Các bài nộp được lựa chọn dựa trên hiệu suất đối với các bộ dữ liệu thử nghiệm công khai của IOI, các bộ dữ liệu thử nghiệm do mô hình tự tạo và một hàm tính điểm đã được học. Nếu thay vào đó chúng tôi nộp bài ngẫu nhiên, điểm số trung bình chỉ đạt 156 điểm, điều này cho thấy chiến lược này mang lại giá trị gần 60 điểm trong các điều kiện ràng buộc của cuộc thi.

Khi nới lỏng ràng buộc về số lượt nộp bài, chúng tôi nhận thấy hiệu suất của mô hình được cải thiện đáng kể. Khi được phép gửi 10.000 lượt nộp bài cho mỗi bài toán, mô hình đã đạt điểm 362,14 – vượt ngưỡng đạt huy chương vàng – ngay cả khi không có chiến lược chọn lọc nào tại thời điểm thử nghiệm.

Cuối cùng, chúng tôi đã mô phỏng các cuộc thi lập trình cạnh tranh do Codeforces tổ chức để thể hiện kỹ năng lập trình của mô hình này. Các đánh giá của chúng tôi tuân thủ chặt chẽ các quy tắc thi đấu và cho phép 10 lượt nộp bài. GPT‑4o đã đạt xếp hạng Elo³ 808, nằm trong bách phân vị thứ 11 của các lập trình viên con người. Mô hình này đã vượt trội hơn hẳn cả GPT‑4o và o1 – nó đạt xếp hạng Elo 1807, hoạt động tốt hơn 93% số người tham gia.

Hình ảnh hiển thị biểu đồ cột so sánh xếp hạng Elo theo bách phân vị trên Codeforces cho các mô hình khác nhau: GPT-4o đạt 808 Elo (bách phân vị thứ 11), o1 preview đạt 1258 Elo (bách phân vị thứ 62), o1 đạt 1673 Elo (bách phân vị thứ 89), và o1-ioi đạt 1807 Elo (bách phân vị thứ 93).

Việc tinh chỉnh thêm dựa trên các cuộc thi lập trình đã cải thiện mô hình o1. Mô hình được cải thiện này đã xếp hạng ở bách phân vị thứ 49 trong Kỳ thi Olympic Tin học Quốc tế năm 2024 theo đúng luật thi đấu.

Đánh giá theo sở thích của con người

Ngoài các bài kiểm tra và đánh giá học thuật, chúng tôi cũng đánh giá mức độ ưu tiên của con người đối với o1‑preview so với GPT‑4o trên các lời nhắc mở, khó khăn trong nhiều lĩnh vực đa dạng. Trong đánh giá này, những người đánh giá đã xem các phản hồi ẩn danh từ mô hình o1‑preview và GPT‑4o cho cùng một lời nhắc, và bỏ phiếu cho câu trả lời mà họ ưa thích hơn. Với kết quả này, o1‑preview được đánh giá vượt trội đáng kể so với GPT‑4o ở các hạng mục thiên về suy luận như phân tích dữ liệu, lập trình và toán học. Tuy nhiên, mô hình o1‑preview không phải là lựa chọn tối ưu cho một số tác vụ xử lý ngôn ngữ tự nhiên, cho thấy nó không hoàn toàn phù hợp với mọi trường hợp sử dụng.

Hình ảnh hiển thị một biểu đồ cột ngang so sánh điểm số của năm mô hình, với các thanh lỗi thể hiện khoảng tin cậy. Trục x có phạm vi từ 0 đến 100, với đường nét đứt đóng vai trò điểm tham chiếu về hiệu suất.

An toàn

Phương pháp suy luận theo chuỗi tư duy mở ra những cơ hội mới về sự phù hợp và an toàn. Chúng tôi nhận thấy rằng việc tích hợp các chính sách của chúng tôi về hành vi mô hình vào chuỗi tư duy của một mô hình suy luận là cách hiệu quả để truyền đạt một cách vững chắc các giá trị và nguyên tắc của con người. Bằng cách dạy cho mô hình các quy tắc an toàn của chúng tôi và cách suy luận về chúng trong từng ngữ cảnh cụ thể, chúng tôi đã tìm được bằng chứng cho thấy năng lực suy luận đã trực tiếp nâng cao tính mạnh mẽ của mô hình: o1‑preview đã đạt được hiệu suất cải thiện đáng kể trong các đánh giá bẻ khóa then chốt và các tiêu chuẩn đánh giá nội bộ khắt khe nhất của chúng tôi nhằm xác định giới hạn từ chối vì lý do an toàn của mô hình. Chúng tôi tin rằng việc sử dụng chuỗi tư duy mang lại những tiến bộ đáng kể về an toàn và khả năng điều chỉnh vì (1) nó cho phép chúng tôi quan sát quá trình tư duy của mô hình một cách dễ hiểu, và (2) khả năng suy luận của mô hình về các quy tắc an toàn sẽ bền vững hơn trước các tình huống nằm ngoài quá trình phân phối dữ liệu.

Để thử nghiệm thực tế những cải tiến của mình, chúng tôi đã tiến hành một loạt các kiểm tra an toàn và mô phỏng tấn công thực trước khi triển khai, theo Khung Sẵn sàng⁠(mở trong cửa sổ mới) của chúng tôi. Chúng tôi nhận thấy rằng việc suy luận theo chuỗi tư duy đã góp phần cải thiện năng lực của mô hình qua các đánh giá của chúng tôi. Một điểm đặc biệt đáng chú ý là chúng tôi đã quan sát thấy những trường hợp thú vị về việc mô hình lạm dụng cơ chế thưởng⁠(mở trong cửa sổ mới). Kết quả chi tiết từ các đánh giá này có thể được tìm thấy trong Thẻ hệ thống đi kèm.

Số liệu	GPT-4o	o1-preview
% Hoàn thành an toàn các lệnh prompt có hại Tiêu chuẩn	0,990	0,995
% Hoàn thành an toàn các lệnh prompt có hại Thách thức: bẻ khóa và các trường hợp ngoại lệ	0,714	0,934
↳ Quấy rối (nghiêm trọng)	0,845	0,900
↳ Nội dung khiêu dâm nhằm mục đích trục lợi	0,483	0,949
↳ Nội dung tình dục liên quan đến trẻ vị thành niên.	0,707	0,931
↳ Tư vấn về hành vi sai trái không bạo lực	0,688	0,961
↳ Tư vấn về hành vi sai trái bạo lực	0,778	0,963
% Hoàn thành an toàn cho 200 hội thoại có điểm Moderation API cao nhất theo từng danh mục trong WildChat Zhao, et al. 2024	0,945	0,971
Đánh giá bẻ khóa Goodness@0.1 StrongREJECT Souly và cộng sự 2024	0,220	0,840
Đánh giá bẻ khóa dựa trên con người	0,770	0,960
% Tuân thủ các trường hợp ngoại lệ lành tính tại biên “không từ chối quá mức”	0,910	0,930
% Tuân thủ các trường hợp ngoại lệ lành tính trong XSTest “không từ chối quá mức” Röttger và các cộng sự 2023	0,924	0,976

Ẩn Chuỗi tư duy

Chúng tôi tin rằng một chuỗi tư duy được ẩn đi sẽ mang lại cơ hội đặc biệt để giám sát các mô hình. Nếu chuỗi tư duy ẩn này trung thực và dễ hiểu, nó cho phép chúng ta "đọc được suy nghĩ" của mô hình và thấu hiểu quá trình tư duy của mô hình đó. Ví dụ: trong tương lai, chúng tôi có thể muốn giám sát chuỗi tư duy nhằm phát hiện các dấu hiệu thao túng người dùng. Tuy nhiên, để làm được điều này, mô hình phải được tự do thể hiện suy nghĩ của nó ở dạng nguyên bản, không bị thay đổi. Vì vậy, chúng tôi không thể huấn luyện bất kỳ sự tuân thủ chính sách hay sở thích người dùng nào vào chuỗi tư duy này. Chúng tôi cũng không muốn hiển thị trực tiếp một chuỗi tư duy chưa được điều chỉnh cho phù hợp với người dùng.

Do đó, sau khi cân nhắc nhiều yếu tố bao gồm trải nghiệm người dùng, lợi thế cạnh tranh và khả năng theo đuổi việc giám sát chuỗi tư duy, chúng tôi đã quyết định không hiển thị chuỗi tư duy thô cho người dùng. Chúng tôi thừa nhận quyết định này cũng có các nhược điểm. Chúng tôi đang cố gắng khắc phục phần nào điều này bằng cách dạy mô hình tái tạo lại bất kỳ ý tưởng hữu ích nào từ chuỗi tư duy trong câu trả lời của nó. Đối với serie mô hình o1, chúng tôi sẽ hiển thị một bản tóm tắt chuỗi tư duy do chính mô hình tạo ra.

Kết luận

o1 cải tiến đáng kể tình trạng hiện tại về suy luận của AI. Chúng tôi dự định sẽ phát hành các phiên bản cải tiến của mô hình này khi tiếp tục quá trình phát triển và lặp lại. Chúng tôi kỳ vọng rằng những năng lực suy luận mới này sẽ cải thiện khả năng của mình trong việc điều chỉnh các mô hình cho phù hợp với các giá trị và nguyên tắc của con người. Chúng tôi tin rằng o1 – và các phiên bản kế nhiệm của nó – sẽ mở ra nhiều trường hợp ứng dụng mới cho AI trong khoa học, lập trình, toán học và các lĩnh vực liên quan. Chúng tôi rất hào hứng chờ đợi người dùng và các nhà phát triển API khám phá cách o1 giúp cải thiện công việc hàng ngày của họ.

Phụ lục A

Bộ dữ liệu	Số liệu	gpt-4o	o1-preview	o1
Toán thi đấu AIME (2024)	cons@64	13,4	56,7	83,3
Toán thi đấu AIME (2024)	pass@1	9,3	44,6	74,4
Mã thi đấu CodeForces	Elo	808	1.258	1.673
Mã thi đấu CodeForces	Bách phân vị	11,0	62,0	89,0
GPQA Diamond	cons@64	56,1	78,3	78,0
GPQA Diamond	pass@1	50,6	73,3	77,3
Sinh học	cons@64	63,2	73,7	68,4
Sinh học	pass@1	61,6	65,9	69,2
Hóa học	cons@64	43,0	60,2	65,6
Hóa học	pass@1	40,2	59,9	64,7
Vật lý	cons@64	68,6	89,5	94,2
Vật lý	pass@1	59,5	89,4	92,8
TOÁN HỌC	pass@1	60,3	85,5	94,8
MMLU	pass@1	88,0	92,3	90,8
MMMU (val)	pass@1	69,1	n/a	78,2
MathVista (testmini)	pass@1	63,8	n/a	73,9

Tác giả

OpenAI

Xem các bên đóng góp

Trích dẫn

1
https://www.anthropic.com/news/claude-3-5-sonnet⁠(mở trong cửa sổ mới), https://deepmind.google/technologies/gemini/pro⁠(mở trong cửa sổ mới)
2
Các đánh giá của chúng tôi cũng đã dùng chung 500 bài kiểm tra vấn đề có tại https://arxiv.org/abs/2305.20050⁠(mở trong cửa sổ mới)
3
https://codeforces.com/blog/entry/68288⁠(mở trong cửa sổ mới)