OpenAI o1 jinsab fid-89 perċentil fuq mistoqsijiet ta’ programmar kompetittiv (Codeforces), jitpoġġa fost l-aqwa 500 student fl-Istati Uniti f’kwalifikazzjoni għall-Olimpjada tal-Matematika tal-Istati Uniti (AIME), u jaqbeż il-preċiżjoni umana fil-livell ta’ PhD fuq punt ta’ riferiment ta’ problemi tal-fiżika, il-bijoloġija u l-kimika (GPQA). Filwaqt li x-xogħol meħtieġ biex dan il-mudell il-ġdid ikun faċli daqs il-mudelli attwali għadu għaddej, qed noħorġu verżjoni bikrija ta’ dan il-mudell, OpenAI o1‑preview, għall-użu immedjat f’ChatGPT u għal utenti tal-API fdati(jinfetaħ f’tieqa ġdida).
L-algoritmu tagħna ta’ apprendiment ta' tisħiħ fuq skala kbira jgħallem lill-mudell kif jaħseb b’mod produttiv billi juża l-katina tal-ħsieb tiegħu fi proċess ta’ taħriġ effiċjenti ħafna fid-data. Sibna li l-prestazzjoni ta’ o1 titjieb b’mod konsistenti b’aktar apprendiment ta' tisħiħ (komputazzjoni waqt it-taħriġ) u b’aktar ħin imqatta’ jaħseb (komputazzjoni waqt it-test). Ir-restrizzjonijiet fuq l-iskalar ta’ dan l-approċċ ivarjaw b’mod sostanzjali minn dawk tal-pretaħriġ tal-LLM, u qed inkompli ninvestigawhom.

o1 performance smoothly improves with both train-time and test-time compute
Biex nenfasizzaw it-titjib fir-raġunament fuq GPT‑4o, ittestjajna l-mudelli tagħna fuq sett varjat ta’ eżamijiet umani u punti ta’ riferiment tal-ML. Nuru li o1 jaqbeż lil GPT‑4o b’mod sinifikanti fil-maġġoranza l-kbira ta’ dawn il-kompiti intensivi fir-raġunament. Sakemm ma jkunx speċifikat mod ieħor, ivvalutajna o1 fuq l-issettjar massimu tal-komputazzjoni waqt it-test.







F’ħafna punti ta’ riferiment intensivi fir-raġunament, o1 jikkompeti mal-prestazzjoni ta’ esperti umani. Mudelli fruntiera reċenti1 marru tajjeb ħafna fuq MATH2 u GSM8K tant li dawn il-punti ta’ riferiment m’għadhomx effettivi biex jiddistingwu bejn mudelli. Ivvalutajna l-prestazzjoni fil-matematika fuq AIME, eżami mfassal biex jisfida lill-aktar studenti brillanti tal-matematika fl-iskola sekondarja fl-Amerika. Fl-eżamijiet AIME tal-2024, GPT‑4o solva biss medja ta’ 12% (1.8/15) tal-problemi. o1 kellu medja ta’ 74% (11.1/15) b’kampjun wieħed għal kull problema, 83% (12.5/15) b’kunsens fost 64 kampjun, u 93% (13.9/15) meta reġa’ kklassifika 1000 kampjun b’funzjoni ta’ punteġġ mitgħallma. Punteġġ ta’ 13.9 jqegħdu fost l-aqwa 500 student nazzjonalment u ’l fuq mil-livell ta’ qtugħ għall-Olimpjada Matematika tal-Istati Uniti.
Ivvalutajna wkoll lil o1 fuq GPQA diamond, punt ta’ riferiment diffiċli tal-intelliġenza li jittestja l-kompetenza fil-kimika, il-fiżika u l-bijoloġija. Sabiex inqabblu l-mudelli mal-bnedmin, irreklutajna esperti b’PhD biex iwieġbu mistoqsijiet ta’ GPQA-diamond. Sibna li o1 qabeż il-prestazzjoni ta’ dawk l-esperti umani, u sar l-ewwel mudell li għamel dan fuq dan il-punt ta’ riferiment. Dawn ir-riżultati ma jimplikawx li o1 huwa aktar kapaċi minn PhD f’kull aspett — biss li l-mudell huwa aktar profiċjenti biex isolvi xi problemi li wieħed jistenna li PhD isolvi. Fuq diversi punti oħra ta’ riferiment tal-ML, o1 tejjeb fuq l-aqwa livell attwali. Bil-kapaċitajiet tiegħu tal-perċezzjoni viżiva attivati, o1 kiseb 78.2% fuq MMMU, u sar l-ewwel mudell li hu kompetittiv ma’ esperti umani. Qabeż ukoll lil GPT‑4o f’54 minn 57 sottokategorija ta’ MMLU.
Bħalma bniedem jista’ jaħseb għal żmien twil qabel iwieġeb mistoqsija diffiċli, o1 juża katina tal-ħsieb meta jipprova jsolvi problema. Permezz ta’ apprendiment ta' tisħiħ, o1 jitgħallem jirfina l-katina tal-ħsieb tiegħu u jtejjeb l-istrateġiji li juża. Jitgħallem jagħraf u jikkoreġi l-iżbalji tiegħu. Jitgħallem jaqsam passi diffiċli f’oħrajn aktar sempliċi. Jitgħallem jipprova approċċ differenti meta dak attwali ma jkunx qed jaħdem. Dan il-proċess itejjeb b’mod drammatiku l-kapaċità tal-mudell li jirraġuna. Biex nuru dan il-qabża ’l quddiem, hawn taħt nippreżentaw il-katina tal-ħsieb minn o1‑preview fuq diversi problemi diffiċli.
GPT-4o
OpenAI o1-preview
Ħarreġna mudell li kiseb 213-il punt u ġie kklassifikat fid-49 perċentil fl-Olimpjada Internazzjonali tal-Informatika (IOI) tal-2024, billi bdejna minn o1 u ħarrġnieh biex ikompli jtejjeb il-ħiliet tal-programmazzjoni. Dan il-mudell ikkompetta fl-IOI tal-2024 taħt l-istess kundizzjonijiet bħall-kontestanti umani. Kellu għaxar sigħat biex isolvi sitt problemi algoritmiċi ta’ sfida u kien permess jagħmel 50 sottomissjoni għal kull problema.
Għal kull problema, is-sistema tagħna ħadet kampjun ta’ ħafna sottomissjonijiet kandidati u ssottomettiet 50 minnhom abbażi ta’ strateġija ta’ għażla waqt it-test. Is-sottomissjonijiet intgħażlu abbażi tal-prestazzjoni fuq il-każijiet pubbliċi tat-test tal-IOI, każijiet tat-test iġġenerati mill-mudell, u funzjoni ta’ punteġġ mitgħallma. Kieku minflok issottomettejna b’mod każwali, konna niksbu biss 156 punt bħala medja, li jissuġġerixxi li din l-istrateġija kienet tiswa kważi 60 punt taħt ir-restrizzjonijiet tal-kompetizzjoni.
B’restrizzjoni aktar rilassata fuq is-sottomissjonijiet, sibna li l-prestazzjoni tal-mudell tjiebet b’mod sinifikanti. Meta tħallew 10,000 sottomissjoni għal kull problema, il-mudell kiseb punteġġ ta’ 362.14 – ’il fuq mil-limitu tal-midalja tad-deheb – anke mingħajr ebda strateġija ta’ għażla waqt it-test.
Fl-aħħar nett, issimulajna kompetizzjonijiet ta’ programmar kompetittiv ospitati minn Codeforces biex nuru l-ħila ta’ dan il-mudell fil-kodifikazzjoni. Il-valutazzjonijiet tagħna qablu mill-qrib mar-regoli tal-kompetizzjoni u ppermettew 10 sottomissjonijiet. GPT‑4o kiseb klassifikazzjoni Elo3 ta’ 808, li tinsab fil-11-il perċentil tal-kompetituri umani. Dan il-mudell qabeż ferm kemm lil GPT‑4o kif ukoll lil o1—kiseb klassifikazzjoni Elo ta’ 1807, u kellu prestazzjoni aħjar minn 93% tal-kompetituri.

Further fine-tuning on programming competitions improves o1. The improved model ranked in the 49th percentile in the 2024 International Olympiad in Informatics under competition rules.
Minbarra l-eżamijiet u l-punti ta’ riferiment akkademiċi, ivvalutajna wkoll il-preferenza umana ta’ o1‑preview meta mqabbel ma’ GPT‑4o fuq prompts ta’ sfida u miftuħa f’firxa wiesgħa ta’ oqsma. F’din il-valutazzjoni, trainers umani raw tweġibiet anonimizzati għal prompt minn o1‑preview u GPT‑4o, u vvutaw għal liema tweġiba ppreferew. o1‑preview huwa preferut għal gpt-4o b’marġni kbir f’kategoriji intensivi fir-raġunament bħall-analiżi tad-data, il-kodifikazzjoni u l-matematika. Madankollu, o1‑preview mhuwiex preferut fuq xi kompiti tal-lingwa naturali, u dan jissuġġerixxi li mhuwiex adattat sew għall-każijiet kollha ta’ użu.

Ir-raġunament bil-katina tal-ħsieb jipprovdi opportunitajiet ġodda għall-allinjament u s-sikurezza. Sibna li l-integrazzjoni tal-politiki tagħna għall-imġiba tal-mudell fil-katina tal-ħsieb ta’ mudell tar-raġunament hija mod effettiv biex ngħallmu b’mod robust il-valuri u l-prinċipji umani. Billi ngħallmu lill-mudell ir-regoli tas-sikurezza tagħna u kif jirraġuna dwarhom fil-kuntest, sibna evidenza ta’ kapaċità ta’ raġunament li tibbenefika direttament ir-robustezza tal-mudell: o1‑preview kiseb prestazzjoni mtejba b’mod sostanzjali fuq evalwazzjonijiet ewlenin ta’ jailbreak u fuq l-aktar punti ta’ riferiment interni diffiċli tagħna biex nivvalutaw il-limiti ta’ rifjut tas-sikurezza tal-mudell tagħna. Nemmnu li l-użu ta’ katina tal-ħsieb joffri avvanzi sinifikanti għas-sikurezza u l-allinjament għax (1) jippermettilna nosservaw lill-mudell jaħseb b’mod li jinftiehem, u (2) ir-raġunament tal-mudell dwar ir-regoli tas-sikurezza huwa aktar robust għal xenarji barra mid-distribuzzjoni.
Biex nittestjaw l-istress fuq it-titjib tagħna, wettaqna sett ta’ testijiet tas-sikurezza u red-teaming qabel it-tnedija, skont il-Qafas tat-Tħejjija(jinfetaħ f’tieqa ġdida) tagħna. Sibna li r-raġunament bil-katina tal-ħsieb ikkontribwixxa għal titjib fil-kapaċitajiet tul il-valutazzjonijiet tagħna. Ta’ nota partikolari, osservajna każijiet interessanti ta’ reward hacking(jinfetaħ f’tieqa ġdida). Riżultati dettaljati minn dawn il-valutazzjonijiet jinsabu fil-kard tas-sistema akkumpanjanti.
| Metrika | GPT-4o | o1-preview |
|---|---|---|
| % Kompletamenti siguri fuq prompts ta’ ħsara Standard | 0.990 | 0.995 |
| % Kompletamenti sikuri fuq prompts ta’ ħsara Diffikultajiet: jailbreaks u każijiet estremi | 0.714 | 0.934 |
| ↳ Fastidju (sever) | 0.845 | 0.900 |
| ↳ Kontenut sesswali ta' sfruttatment | 0.483 | 0.949 |
| ↳ Kontenut sesswali li jinvolvi lill-minorenni | 0.707 | 0.931 |
| ↳ Pariri dwar għemil ħażin mhux vjolenti | 0.688 | 0.961 |
| ↳ Pariri dwar għemil ħażin vjolenti | 0.778 | 0.963 |
| % Tlestiji siguri għall-aqwa 200 bl-ogħla punteġġi tal-Moderation API għal kull kategorija f’WildChat Zhao, et al. 2024 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT jailbreak eval Souly et al. 2024 | 0.220 | 0.840 |
| Evalwazzjoni ta' jailbreak minn sors uman | 0.770 | 0.960 |
| % ta' Konformità fuq il-każijiet interni beninni fil-marġni “mhux rifjut żejjed” | 0.910 | 0.930 |
| % Konformità fuq każijiet marġinali beninni f’XSTest “mhux rifjut żejjed” Röttger, et al. 2023 | 0.924 | 0.976 |
Nemmnu li katina tal-ħsieb moħbija tippreżenta opportunità unika għall-monitoraġġ tal-mudelli. Jekk nassumu li hija fidila u tinftiehem, il-katina tal-ħsieb moħbija tippermettilna “naqraw il-moħħ” tal-mudell u nifhmu l-proċess tal-ħsieb tiegħu. Pereżempju, fil-futur nistgħu nixtiequ nimmonitorjaw il-katina tal-ħsieb għal sinjali ta’ manipulazzjoni tal-utent. Madankollu, biex dan jaħdem il-mudell irid ikollu l-libertà jesprimi l-ħsibijiet tiegħu fil-forma mhux mibdula tagħhom, għalhekk ma nistgħux inħarrġu konformità ma’ politika jew preferenzi tal-utent fuq il-katina tal-ħsieb. Lanqas ma rridu nagħmlu katina tal-ħsieb mhux allinjata viżibbli direttament lill-utenti.
Għalhekk, wara li qiesna bosta fatturi inklużi l-esperjenza tal-utent, il-vantaġġ kompetittiv, u l-għażla li nsegwu l-monitoraġġ tal-katina tal-ħsieb, iddeċidejna li ma nurux il-katini mhux ipproċessati tal-ħsieb lill-utenti. Nagħrfu li din id-deċiżjoni għandha żvantaġġi. Nistinkaw biex nikkumpensaw parzjalment għal dan billi ngħallmu lill-mudell jirriproduċi fit-tweġiba kwalunkwe idea utli mill-katina tal-ħsieb. Għas-serje ta’ mudelli o1 nuru sommarju tal-katina tal-ħsieb iġġenerat mill-mudell.
o1 javvanza b’mod sinifikanti l-aqwa livell attwali fir-raġunament tal-IA. Qed nippjanaw li noħorġu verżjonijiet imtejba ta’ dan il-mudell hekk kif inkomplu ntennu u ntejbu. Nistennew li dawn il-kapaċitajiet ġodda tar-raġunament itejbu l-ħila tagħna li nallinjaw il-mudelli mal-valuri u l-prinċipji umani. Nemmnu li o1 – u s-suċċessuri tiegħu – se jiftħu ħafna każijiet ġodda ta’ użu għall-IA fix-xjenza, il-kodifikazzjoni, il-matematika u oqsma relatati. Aħna eċċitati biex l-utenti u l-iżviluppaturi tal-API jiskopru kif jista’ jtejjeb ix-xogħol tagħhom ta’ kuljum.
| Sett tad-dejta | Metrika | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| Matematika tal-Kompetizzjoni AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| Kodiċi tal-Kompetizzjoni CodeForces | Elo | 808 | 1,258 | 1,673 |
| Perċentil | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| Bijoloġija | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| Kimika | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| Fiżika | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| MATEMATIKA | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | pass@1 | 69.1 | n/a | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | n/a | 73.9 |
Awturi
Ċitazzjonijiet
- 1
- 2
Il-valutazzjonijiet tagħna użaw l-istess qasma tat-test ta’ 500 problema li tinsab f’ https://arxiv.org/abs/2305.20050(jinfetaħ f’tieqa ġdida)
- 3






