A GPT‑5 bemutatása
Az eddigi legokosabb, leggyorsabb és leghasznosabb, beépített gondolkodással rendelkező modellünk, amely szakértői szintű intelligenciát ad mindenki kezébe.
Bemutatjuk a GPT‑5‑öt, az eddigi legjobb mesterséges intelligencia rendszerünket. A GPT‑5 minden eddigi modellünknél intelligensebb, és a legmodernebb szintű teljesítményt nyújtja többek között a kódolás, a matematika, az írás, az egészség, a vizuális észlelés terén. Ez az egységes rendszer felismeri, mikor kell gyorsan választ adni, és mikor kell hosszabban gondolkodni ahhoz, hogy szakértői szintű válaszokat adjon. A GPT‑5 minden felhasználó számára elérhető, a Plus-előfizetők nagyobb használati keretet kapnak, a Pro előfizetői pedig hozzáférhetnek a GPT‑5 pro verziójához, amely kiterjesztett érvelési képességével még átfogóbb és pontosabb válaszokat ad.
A GPT‑5 egy egységes rendszer, amelyben egy intelligens, hatékony modell válaszol a legtöbb kérdésre, egy mélyebb érvelésre képes modell (GPT‑5 Thinking) kezeli az összetettebb problémákat, és egy valós idejű irányító modul, hoz gyors döntést arról, hogy melyiket használja a beszélgetés típusa, összetettsége, az eszközigény és a te kifejezett szándékod alapján (például, ha az utasításban azt mondod, hogy „gondold ezt át alaposan”). Az irányító modul folyamatosan valós jelek alapján tanul, beleértve például, hogy a felhasználók mikor váltanak modellt, a válaszok preferenciaarányát és a mért helyességet, így idővel egyre jobban teljesít. Ha eléred a felhasználási korlátokat, a fennmaradó lekérdezéseket az egyes modellek mini változata kezeli. Azt tervezzük, hogy a közeljövőben ezeket a képességeket egyetlen modellbe integráljuk.
A GPT‑5 nemcsak felülmúlja a korábbi modelleket a referenciaértékekben és gyorsabban válaszol a kérdésekre, de – ami a legfontosabb – hasznosabb a valós életből vett kérdések esetében. Jelentős előrelépést értünk el a hallucinációk csökkentésében, az utasítások pontos követésének javításában és a hízelgés minimalizálásában, egyúttal növeltük a GPT‑5 teljesítményét a ChatGPT három leggyakoribb felhasználási területén: az írásban, kódolásban és az egészségügyi témákban.
A GPT‑5 az eddigi legerősebb kódolási modellünk Különösen a komplex front-end generálás és a nagyobb adattárak hibakeresése terén mutatkoznak meg a fejlesztések. Gyakran képes egyetlen prompt alapján gyönyörű, reszponzív weboldalakat, appokat és játékokat létrehozni, esztétikai érzékenységgel, egyetlen utasítással, intuitívan és ízlésesen valóra váltva az ötleteket. A korai tesztelők kiemelték a tervezés során hozott döntéseit is. A GPT‑5 sokkal jobban megérti például a térközök, a tipográfia és a negatív tér szerepét. Itt olvashatsz részletesen arról, hogy a GPT‑5 mit kínál a fejlesztőknek.
Íme néhány példa arra, amit a GPT‑5 egyetlen utasítás alapján hozott létre:
Utasítás: Készíts egy egyoldalas appot egyetlen HTML-fájlban a következő követelményekkel:
- Elnevezés: Jumping Ball Runner
- Cél: Ugorj át az akadályokon, hogy minél tovább életben maradj.
– Jellemzők: Fokozatosan növekvő sebesség, pontszámrekordok követése, újrapróbálás gomb, és vicces hangok a mozdulatokhoz és eseményekhez.
– A felhasználói felület legyen színes, parallax görgetésű háttérrel.
– A karakterek legyenek rajzfilmszerűek és szórakoztatóak.
– A játék legyen mindenki számára élvezetes.
A GPT‑5 az eddigi legképzettebb írói munkatársunk. Segít a nyers ötleteket irodalmi mélységgel és ritmikával rendelkező magával ragadó, hatásos szöveggé formálni. Megbízhatóbban kezeli a strukturálisan nem egyértelmű írásokat, például meg tudja tartani a rímtelen jambikus pentametert vagy a természetesen áramló szabad versformát, ötvözve a forma tiszteletét a kifejezés tisztaságával. A továbbfejlesztett íráskészségeknek köszönhetően a ChatGPT hatékonyabban tud segíteni a mindennapi feladatokban, például beszámolók, e-mailek, jegyzetek és egyéb szövegek megírásában és szerkesztésében. A GPT‑5 és a GPT‑4o írásstílusát az alábbi táblázatban hasonlítjuk össze.
A GPT‑5 az eddigi legjobb modellünk az egészséggel kapcsolatos kérdésekre. Segíti a felhasználókat abban, hogy tájékozottak legyenek és képviselni tudják érdekeiket az egészségük területén. A modell bármelyik korábbi verziónál jelentősen magasabb pontszámot ért el a HealthBench teszten, ezen az idei év elején közzétett, valós helyzeteken és orvosi szakértők által meghatározott kritériumokon alapuló értékelésen. A korábbi modellekhez képest sokkal inkább aktív, gondolkodó partnerként viselkedik, a minél hasznosabb válaszok generálása érdekében proaktívan jelzi a lehetséges aggályokat, és kérdéseket tesz fel. A modell mostantól pontosabb és megbízhatóbb válaszokat nyújt, alkalmazkodva a felhasználó kontextusához, tudásszintjéhez és földrajzi helyzetéhez. Mindez lehetővé teszi, hogy sokféle helyzetben adjon biztonságosabb és hasznosabb válaszokat. Fontos, hogy a ChatGPT nem helyettesíti az orvost –tekints rá inkább úgy, mint egy partnerre, aki segít megérteni az eredményeket, feltenni a megfelelő kérdéseket az orvosi konzultáció során, és a döntések meghozatalakor mérlegelni a lehetőségeidet.
Ezekben a példákban láthatod, hogy a különböző domainek esetében a GPT‑5 miben jobb – gazdagabb, részletesebb és hasznosabb –, mint a korábbi modelljeink.
GPT-4o
GPT-5
A GPT‑5 válasza jobban kibontja az érzelmi ívet, erőteljesebb lezárást, egyértelmű képeket és feltűnő metaforákat („egy valaha volt ország fekete zászlói”, „Kiotó harangjának zúgása legördíti az estét a dombról”) használ, amelyek segítségével érezhetőbbé vállnak a kulturális és helyi sajátosságok. A GPT‑4o változata kiszámíthatóbb szerkezetet és rímképletet követ, inkább elmond, mintsem megmutat („sír, de nem szól egy szót sem”).
*A 4o és az OpenAI o3 válasza közül az alapján választottunk, hogy a két modell közül melyik teljesített jobban az adott utasítás esetében.
A GPT‑5 minden területen sokkal okosabb, amit jól mutat a az akadémiai és emberi értékelésen alapuló teszteken elért teljesítménye, különösen a matematika, a kódolás, a vizuális észlelés és az egészség területén. Új mércét állít fel a matematika területén (94,6% a 2025-ös amerikai meghívásos matematikaversenyen – American Invitational Mathematics Examination; AIME –, eszközök nélkül), valós kódolási feladat során (74,9% a SWE-bench Verified teszten, 88% az Aider Polyglot teszten), a multimodális megértésben (84,2% a nagy léptékű, több szakterületet lefedő, multimodális megértés és érvelés elnevezésű referenciateszten – Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark; MMMU) és az egészségügyben (46,2% a HealthBench Hard referenciamérésen) – és ezek az eredmények a mindennapi használat során is megmutatkoznak. A GPT‑5 pro kibővített érvelési képességeinek köszönhetően a modell új csúcsteljesítményt ér el a posztgraduális szintű, keresővel nem megoldható kérdés-válasz referenciamérésen – Graduate-Level Google-Proof Q\&A Benchmark –, a GPQA-n, 88,4%-os eredményt elérve eszközök nélkül.
*Az eszközhasználattal elért AIME-eredményeket nem szabad közvetlenül összehasonlítani az eszközhozzáféréssel nem rendelkező modellek teljesítményével; ezek azt példázzák, hogy a GPT‑5 milyen hatékonyan használja ki a rendelkezésre álló eszközöket.
Minden SWE-bench iértékelés egy rögzített, n=477 ellenőrzött feladatból álló részhalmazt használ, amelyet a belső infrastruktúránkon validáltunk.
A GPT‑5 jelentős előrelépést mutat az utasításkövetést és az eszközhasználati képességet mérő teszteken, amelyek azokat a képességeket vizsgálják, amelyek lehetővé teszik a többlépcsős kérések megbízható végrehajtását, a különböző eszközök közötti koordinációt és a kontextus változásaihoz való alkalmazkodást. A gyakorlatban ez azt jelenti, hogy jobban kezeli a bonyolult, folyamatosan alakuló feladatokat; a GPT‑5 pontosabban követi az utasításaidat, és a rendelkezésére álló eszközökkel sokkal több munkát képes az elejétől a végéig elvégezni.
A modell kiemelkedően teljesít számos multimodális referenciamérésen, beleértve a vizuális, videóalapú, térbeli és tudományos érvelés tesztelését. Az erősebb multimodális teljesítmény azt jelenti, hogy a ChatGPT pontosabban tud érvelni a képek és más nem szöveges bevitelek alapján — legyen szó egy ábra értelmezéséről, egy prezentációról készült fénykép összefoglalásáról vagy egy diagrammal kapcsolatos kérdések megválaszolásáról.
A GPT‑5 a legjobban teljesítő modellünk azon a belső referenciamérésen is, amely az összetett, gazdaságilag értékes szellemi munka terén méri a teljesítményt. Az érvelés alkalmazásakor a GPT‑5 az esetek nagyjából felében összehasonlítható a szakértőkkel vagy jobb náluk, miközben felülmúlja az o3‑at és a ChatGPT Agent modellt a több mint 40 különböző foglalkozást – beleértve a jogot, a logisztikát, az értékesítést és a mérnöki tevékenységet – érintő feladatokban.
A fenti értékelések módszertana: a GPT‑4o eredményei a ChatGPT‑ben 2025 augusztusában elérhető legfrissebb modellverziót tükrözik. Minden modellt magas „érvelési erőfeszítés” beállításokkal értékeltünk. Az érvelési erőfeszítés mértéke a ChatGPT‑ben változhat. A magas szint a felhasználó által a modell használata során tapasztalható maximumot jelenti.
A GPT‑5 kevesebb gondolkodási idő alatt nagyobb értéket teremt. Értékeléseink szerint a GPT‑5 (gondolkodási módban) 50–80%-kal kevesebb kimeneti token felhasználásával is jobban teljesít, mint az OpenAI o3, többek között a vizuális következtetés, az autonóm kódolás és a mesterszintű tudományos problémamegoldás terén.
A GPT‑5‑öt a Microsoft Azure AI szuperszámítógépein képezték ki.
A GPT‑5 sokkal kevésbé hajlamos hallucinálni, mint a korábbi modelljeink. A webes keresés engedélyezésével a ChatGPT gyártási forgalmát képviselő anonimizált utasításoknál a GPT‑5 válaszai ~45%-kal ritkábban tartalmaznak ténybeli hibákat, mint a GPT‑4o, és gondolkodó módban pedig a GPT‑5 válaszai ~80%-kal ritkábban tartalmaznak ténybeli hibákat, mint az OpenAI o3.
Különösen sok figyelmet fordítottunk arra, hogy modelljeink megbízhatóbbak legyenek, amikor összetett, nyitott kérdéseken gondolkoznak. Ennek megfelelően új értékeléseket vezettünk be, hogy próbára tegyük a modellek teljesítményét nyitott végű tényalapú kérdésekben. Két nyilvános referenciateszten – a LongFacten(új ablakban nyílik meg) (fogalmak és tárgyak) és a FActScore-on(új ablakban nyílik meg) megmértük a GPT‑5 hallucinációs arányát abban az esetben, amikor nyílt végű ténykereső utasításokon gondolkodott. Az összes teszten a „GPT‑5 Thinking” jelentős csökkenést mutat a hallucinációk számában – körülbelül hatszor kevesebbszer fordul elő, mint az o3‑nál -, ami egyértelmű előrelépést jelent a következetesen pontos hosszú formátumú tartalmak előállításában. Az ezekhez a referenciatesztekhez tartozó értékeléseink megvalósítására és osztályozására vonatkozó részletek megtalálhatók a rendszerkártyán.
A tények helyesebb alkalmazása mellett a GPT‑5 (gondolkodással) őszintébben közli az alkalmazott műveleteket és képességeket a felhasználóval – különösen azokra a feladatokra vonatkozóan, amelyek megoldása lehetetlen, nincsenek elég pontosan meghatározva, vagy kulcsfontosságú eszközök hiányoznak belőlük. A betanítás során a magas jutalom elérése érdekében előfordulhat, hogy az érvelő modellek megtanulják, hogy hazudjanak a feladat sikeres elvégzéséről, vagy túlzott magabiztossággal adjanak bizonytalan választ. Ennek tesztelésére például eltávolítottuk az összes képet a CharXiv multimodális referenciateszt utasításaiból, és megállapítottuk, hogy az OpenAI o3 az esetek 86,7%-ában továbbra is magabiztos válaszokat adott a nem létező képekről, szemben a GPT‑5 mindössze 9%-ával.
Amikor érvel, a GPT‑5 pontosabban felismeri, ha a feladatokat nem lehet elvégezni, és világosan kommunikálja a korlátait. Értékeltük a megtévesztési arányokat olyan beállítások esetében, amelyek lehetetlen kódolási feladatokat és hiányzó multimodális eszközöket tartalmaznak, és megállapítottuk, hogy a GPT‑5 (gondolkodással) minden tekintetben kevésbé megtévesztő, mint az o3. A ChatGPT valós forgalmát reprezentáló nagyszámú beszélgetés elemzése alapján a megtévesztő válaszok arányát az o3 esetében mért 4,8%-ról 2,1%-ra csökkentettük a GPT‑5 érvelő válaszaiban. Bár ez jelentős előrelépést jelent a felhasználók számára, még sok munka vár ránk, és folytatjuk a kutatást modelljeink tényszerűségének és őszinteségének javítása érdekében. További részleteket a rendszerkártyán találsz.
Enyhítés előtt
Enyhítést követően
A GPT‑5 a biztonság határait feszegeti. A múltban a ChatGPT elsősorban az elutasításon alapuló biztonsági betanításra támaszkodott: a felhasználó utasítása alapján a modellnek vagy teljesítenie kell vagy el kell utasítania a feladatot. Bár a kifejezetten rosszindulatú utasítások esetén az ilyen típusú betanítás jól működik, nehézségekbe ütközhet, amikor a felhasználó szándéka nem egyértelmű, vagy az információkat jóindulatú vagy rosszindulatú szándékkal is fel lehet használni. Az elutasításon alapuló betanítás különösen rugalmatlan a kettős felhasználású domainek, például a virológia esetében, ahol egy jóindulatú kérés magas szinten biztonságosan teljesíthető, de részletes teljesítés esetén engedélyezhet egy rosszindulatú szereplőt.
A GPT‑5 esetében bevezettünk egy új biztonsági betanítási formát – az úgynevezett biztonságos válaszgenerálást –, amely megtanítja a modellt arra, hogy ahol csak lehet, a leghasznosabb választ adja, miközben a biztonsági határokon belül marad. Néha ez azt is jelentheti, hogy csak részben vagy csak magas szinten válaszol a felhasználó kérdésére. A GPT‑5‑öt arra képezték ki, hogy ha el kell utasítania a válaszadást, érthetően elmondja, miért utasít el, valamint biztonságos alternatívákat kínáljon. Mind a kontrollált kísérletekben, mind az éles modellek esetében azt tapasztaljuk, hogy ez a megközelítés árnyaltabban működik, jobban kezeli a kettős felhasználású kérdéseket, ellenállóbb a kétértelmű szándékokkal szemben, és kevesebb szükségtelen elutasítást eredményez. A biztonságos működésre irányuló betanítás új megközelítéséről, valamint a módszertan, a mutatók és az eredmények részleteiről a biztonságos válaszgenerálásra vonatkozó dokumentumunkban olvashatsz bővebben.
Biztonság és hasznosság (biztonságos válaszok esetén) az utasítás szándéktípusai szerint. A GPT‑5 (gondolkodással) nagyobb biztonságot és hasznosságot mutat minden utasítástípus esetében.
Összességében a GPT‑4o‑hoz képest a GPT‑5 nem olyan túlzottan egyetérő, kevesebb felesleges emojit használ, és a következtetései során visszafogottabb és átgondoltabb. A cél az, hogy a beszélgetés lehetőleg ne olyan legyen, mintha „az MI-vel csevegnél”, hanem inkább olyan, mintha egy PhD-szintű intelligenciával rendelkező segítőkész baráttal társalognál.
Az év elején kiadtunk egy frissítést a GPT‑4o‑hoz, amely akaratlanul is túlságosan hízelgővé és egyetértővé tette a modellt. Gyorsan visszavontuk a változtatást, és azóta azon dolgozunk, hogy az alábbi módokon megértsük és visszaszorítsuk ezt a viselkedést:
- Új értékelési módszerek kidolgozása a hízelgés szintjének mérésére
- A betanítási folyamat fejlesztése annak érdekében, hogy a modell kevésbé legyen hízelgő – például olyan eseteket is bevonása, amelyek általában túlzott egyetértést váltanának ki, majd annak megtanítása, hogy ezt ne tegye.
A célzott hízelgésvizsgálatok során, amelyek kifejezetten hízelgő válaszok kiváltására tervezett utasításokat használtak, a GPT‑5 jelentősen csökkentette a hízelgő válaszok arányát (14,5%-ról kevesebb mint 6%-ra). Időnként a hízelgés csökkentése a felhasználói elégedettség csökkenésével is járhat, de az általunk végrehajtott fejlesztések több mint felére csökkentették a hízelgést, miközben más, mérhető előnyöket is eredményeztek, így a felhasználók továbbra is magas színvonalú, konstruktív beszélgetéseket folytatnak – összhangban azzal a célunkkal, hogy segítsük az embereket a ChatGPT helyes használatában.
A GPT‑5 lényegesen jobb az utasítások követésében, és ezzel egyidejűleg javulást látunk az egyéni instrukciók követésének képességében is.
Emellett elindítunk egy korai fázisban lévő kutatást (research preview-t) is, amelyben minden ChatGPT‑felhasználó kipróbálhat négy új, előre beállított személyiséget, amit az irányíthatóság fejlesztése tette lehetővé. Ezek a személyiségek, amelyek kezdetben szöveges csevegéshez érhetők el, majd később a Voice-ban is rendelkezésre állnak, lehetővé teszik, hogy beállítsd, hogyan kommunikáljon a ChatGPT – legyen az tömör és professzionális, átgondolt és támogató, vagy kissé szarkasztikus – anélkül, hogy erre egyéni utasításokat kellene írnod. A négy kezdeti lehetőség, a Cynic (a Cinikus), a Robot (a Robot), a Listener (a Figyelmes) és a Nerd (a Kocka) választható opcióként érhető el, bármikor módosítható a beállításokban, és úgy tervezték, hogy illeszkedjen a kommunikációs stílusodhoz.
Ezen új személyiségek mindegyike megfelel vagy meghaladja a belső értékeléseink során a hízelgés csökkentésére vonatkozó mércét.
Alig várjuk a korai visszajelzéseket, hogy ezek alapján tanuljunk és tovább fejlesszük a modellt.
Úgy döntöttünk, hogy a „GPT‑5 Thinking” modellt a biológiai és kémiai domainben magas képességűnek tekintjük, és szigorú biztosítékokat vezettünk be a kapcsolódó kockázatok megfelelő minimalizálása érdekében. A modellt a Felkészültségi Keretrendszerünk alapján szigorú biztonsági értékeléseknek vetettük alá, 5000 órányi red-teaminget végeztünk olyan partnerekkel együttműködve, mint a Mesterséges Intelligencia Szabványosítási és Innovációs Központ (Center for AI Standards and Innovation – CAISI) és az egyesült királyságbeli Mesterséges Intelligencia Biztonsági Intézet (UK AI Security Institute – UK AISI).
A ChatGPT Agent esetében alkalmazott megközelítésünkhöz hasonlóan, bár nincs egyértelmű bizonyítékunk arra, hogy ez a modell érdemben segíthetne egy kezdőnek súlyos biológiai károk okozásában – ami a magas képességekre vonatkozó meghatározott küszöbértékünk(új ablakban nyílik meg) –, elővigyázatossági megközelítést alkalmazunk, és már most aktiváljuk a szükséges óvintézkedéseket annak érdekében, hogy növeljük a felkészültséget akkorra, amikor ezek a képességek elérhetővé válnak. Ennek eredményeként a „GPT‑5 Thinking” robusztus biztonsági rendszerrel rendelkezik, amely többrétegű védelmi rendszert biztosít a biológia területén: átfogó fenyegetésmodellezést, az új biztonságos válaszgenerálási paradigmánk révén a modell betanítását arra, hogy ne legyen káros kimenete, folyamatosan működő osztályozókat és érvelési monitorokat, valamint világos végrehajtási folyamatokat.
A GPT‑5 robusztus biztonsági megközelítéséről a rendszerkártyánkon olvashatsz bővebben.
A legnagyobb kihívást jelentő, összetett feladatokhoz kiadjuk a GPT‑5 pro-t, amely az OpenAI o3‑pro‑t váltja fel. Ez a GPT‑5 egy változata, amely egyre hosszabb ideig képes gondolkodni, skálázott, ugyanakkor hatékony párhuzamos futásidejű számítást használva, hogy a lehető legmagasabb minőségű és legátfogóbb válaszokat nyújtsa. A GPT‑5 pro a GPT‑5 családon belül a legmagasabb teljesítményt éri el számos kihívást jelentő, intelligenciára vonatkozó referenciateszten, beleértve a rendkívül nehéz tudományos kérdéseket tartalmazó GPQA-n elért csúcsteljesítményt.
Több mint 1000 gazdaságilag értékes, valós érvelést kérő utasítás értékelése során a külső szakértők az esetek 67,8%-ában a GPT‑5 pro-t részesítették előnyben a „GPT‑5 Thinking” helyett. A GPT‑5 pro 22%-kal kevesebb súlyos hibát vétett, és kiemelkedő teljesítményt nyújtott az egészségügy, a tudomány, a matematika és a kódolás területén. A szakértők a válaszait relevánsnak, hasznosnak és átfogónak értékelték.
A GPT‑5 lett az új alapértelmezett beállítás a ChatGPT‑ben, amely felváltja a GPT‑4o, az OpenAI o3, az OpenAI o4-mini, a GPT‑4.1 és a GPT‑4.5 verziót a bejelentkezett felhasználók számára. Csak nyisd meg a ChatGPT‑t és írd be a kérdésed; a többit a GPT‑5 kezeli, automatikusan alkalmazva az érvelést, amikor az a válasz szempontjából hasznos lehet. A fizetős felhasználók továbbra is kiválaszthatják a modellválasztó menüből a „GPT‑5 Thinking” opciót, vagy beírhatnak egy utasítást, például „gondolkod át alaposan”, hogy a modell biztosan alkalmazza az érvelést a válasz generálásakor.
A GPT‑5 a mai nappal válik elérhetővé minden Plus-, Pro-, Team- és Free-felhasználó számára, az Enterprise- és Edu-felhasználók pedig a következő héten kapnak hozzáférést. A Pro-, Plus- és Team-felhasználók a ChatGPT‑be való bejelentkezéssel is elkezdhetik a kódolást a GPT‑5‑tel a Codex CLI-ben(új ablakban nyílik meg).
A GPT‑4o‑hoz hasonlóan a GPT‑5 ingyenes és fizetős verziója között a különbség a használati mennyiségben van. A Pro-előfizetők korlátlan hozzáférést kapnak a GPT‑5‑höz és a GPT‑5 Pro-hoz. A Plus-felhasználók kényelmesen használhatják alapértelmezett modellként a mindennapi kérdésekhez, jelentősen nagyobb használati kerettel, mint az ingyenes felhasználók. A Team-, Enterprise- és Edu-ügyfelek kényelmesen használhatják a mindennapi munkához alapértelmezett modellként a GPT‑5‑öt, bőséges limitekkel, ami megkönnyítik, hogy akár teljes szervezetek is könnyedén támaszkodjanak a GPT‑5‑re. A ChatGPT ingyenes felhasználói számára az érvelési képességek teljes bevezetése néhány napot vehet igénybe. Amint az ingyenes felhasználók elérik a GPT‑5 használati limitjét, átváltanak a GPT‑5 mini-re, amely kisebb, gyorsabb, de nagy teljesítményű modell.
Szerző
Lábjegyzetek
*Van egy kis eltérés az előző blogbejegyzésünkben közölt számoktól, mivel azokat Az emberiség utolsó vizsgája (Humanity's Last Exam – HLE) elnevezésű teszt egy korábbi verzióján futtatták le.
**Megállapítottuk, hogy a MultiChallenge (GPT-4o) alapértelmezett osztályozója gyakran hibásan értékeli a modellválaszokat. Azt tapasztaljuk, hogy ha az osztályozót egy érvelő modellre cseréljük, például az o3-minire, az jelentősen javítja az osztályozás pontosságát az általunk vizsgált mintákon.
***Az MMMUPro esetében átlagoltuk a standard és a vizuális pontszámokat.
Közreműködők
Aaditya Singh, Adam Fry, Adam Perelman, Adam Tart, Adi Ganesh, Ahmed El-Kishky, Aidan McLaughlin, Aiden Low, AJ Ostrow, Akhila Ananthram, Akshay Nathan, Alan Luo, Alec Helyar, Aleksander Madry, Aleksandr Efremov, Aleksandra Spyra, Alex Baker-Whitcomb, Alex Beutel, Alex Karpenko, Alex Makelov, Alex Neitz, Alex Wei, Alexandra Barr, Alexandre Kirchmeyer, Alexey Ivanov, Alexi Christakis, Alistair Gillespie, Allison Tam, Ally Bennett, Alvin Wan, Alyssa Huang, Amy McDonald Sandjideh, Amy Yang, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrei Gheorghe, Andres Garcia Garcia, Andrew Braunstein, Andrew Liu, Andrew Schmidt, Andrey Mereskin, Andrey Mishchenko, Andy Applebaum, Andy Rogerson, Ann Rajan, Annie Wei, Anoop Kotha, Anubha Srivastava, Anushree Agrawal, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Ben Eggers, Bessie Ji, Beth Hoover, Bill Chen, Blair Chen, Boaz Barak, Borys Minaiev, Botao Hao, Bowen Baker, Brad Lightcap, Brandon McKinzie, Brandon Wang, Brendan Quinn, Brian Fioca, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Brittany Brenner, Callie Riggins Zetino, Cameron Raymond, Camillo Lugaresi, Carolina Paz, Cary Hudson, Cedric Whitney, Chak Li, Charles Chen, Charlotte Cole, Chelsea Voss, Chen Ding, Chen Shen, Chengdu Huang, Chris Colby, Chris Hallacy, Chris Koch, Chris Lu, Christina Kaplan, Christina Kim, CJ Minott-Henriques, Cliff Frey, Cody Yu, Coley Czarnecki, Colin Reid, Colin Wei, Cory Decareaux, Cristina Scheau, Cyril Zhang, Cyrus Forbes, Da Tang, Dakota Goldberg, Dan Roberts, Dana Palmie, Daniel Kappler, Daniel Levine, Daniel Wright, Dave Leo, David Lin, David Robinson, Declan Grabb, Derek Chen, Derek Lim, Derek Salama, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, Dingli Yu, DJ Strouse, Drew Williams, Dylan Hunn, Ed Bayes, Edwin Arbus, Ekin Akyurek, Elaine Ya Le, Elana Widmann, Eli Yani, Elizabeth Proehl, Enis Sert, Enoch Cheung, Eri Schwartz, Eric Han, Eric Jiang, Eric Mitchell, Eric Sigler, Eric Wallace, Erik Ritter, Erin Kavanaugh, Evan Mays, Evgenii Nikishin, Fangyuan Li, Felipe Petroski Such, Filipe de Avila Belbute Peres, Filippo Raso, Florent Bekerman, Foivos Tsimpourlas, Fotis Chantzis, Francis Song, Francis Zhang, Gaby Raila, Garrett McGrath, Gary Briggs, Gary Yang, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Hanson Wang, Hao Sheng, Haoming Jiang, Haoyu Wang, Haozhun Jin, Harshit Sikchi, Heather Schmidt, Henry Aspegren, Honglin Chen, Huida Qiu, Hunter Lightman, Ian Covert, Ian Kivlichan, Ian Silber, Ian Sohl, Ibrahim Hammoud, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isak Etinger, Ishaan Singal, Jackie Hehir, Jacob Huh, Jacqueline Pan, Jake Wilczynski, Jakub Pachocki, James Lee, James Quinn, Jamie Kiros, Janvi Kalra, Jasmyn Samaroo, Jason Wang, Jason Wolfe, Jay Chen, Jay Wang, Jean Harb, Jeffrey Han, Jeffrey Wang, Jennifer Zhao, Jeremy Chen, Jerene Yang, Jerry Tworek, Jesse Chand, Jessica Landon, Jessica Liang, Ji Lin, Jiancheng Liu, Jianfeng Wang, Jie Tang, Jihan Yin, Joanne Jang, Joel Morris, Joey Flynn, Johannes Ferstad, Johannes Heidecke, John Fishbein, John Hallman, Jonah Grant, Jonathan Chien, Jonathan Gordon, Jongsoo Park, Jordan Liss, Jos Kraaijeveld, Joseph Guay, Joseph Mo, Josh Lawson, Josh McGrath, Joshua Vendrow, Joy Jiao, Julian Lee, Julie Steele, Julie Wang, Junhua Mao, Kai Chen, Kai Hayashi, Kai Xiao, Kamyar Salahi, Kan Wu, Karan Sekhri, Karan Sharma, Karan Singhal, Karen Li, Kenny Nguyen, Keren Gu-Lemberg, Kevin King, Kevin Liu, Kevin Stone, Kevin Yu, Kristen Ying, Kristian Georgiev, Kristie Lim, Kushal Tirumala, Kyle Miller, Lama Ahmad, Larry Lv, Laura Clare, Laurance Fauconnet, Lauren Itow, Lauren Yang, Laurentia Romaniuk, Leah Anise, Lee Byron, Leher Pathak, Leon Maksin, Leyan Lo, Leyton Ho, Li Jing, Liang Wu, Liang Xiong, Lien Mamitsuka, Lin Yang, Lindsay McCallum, Lindsey Held, Liz Bourgeois, Logan Engstrom, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Lucas Switzer, Lukas Kondraciuk, Lukasz Kaiser, Manas Joglekar, Mandeep Singh, Mandip Shah, Manuka Stratta, Marcus Williams, Mark Chen, Mark Sun, Marselus Cayton, Martin Li, Marvin Zhang, Marwan Aljubeh, Matt Nichols, Matthew Haines, Max Schwarzer, Mayank Gupta, Meghan Shah, Melody Huang, Meng Dong, Mengqing Wang, Mia Glaese, Micah Carroll, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Mihai Florian, Mikhail Pavlov, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mo Bavarian, Molly Lin, Moose Abdool, Mostafa Rohaninejad, Nacho Soto, Natalie Staudacher, Natan LaFontaine, Nathan Marwell, Nelson Liu, Nick Preston, Nick Turley, Nicklas Ansman, Nicole Blades, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Nishant Rai, Nitish Keskar, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Oona Gleeson, Pamela Mishkin, Patryk Lesiewicz, Paul Baltescu, Pavel Belov, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Qi Liu, Qiming Yuan, Qinghua Liu, Rachel Dias, Rachel Puckett, Rahul Arora, Ravi Teja Mullapudi, Raz Gaon, Reah Miyara, Rennie Song, Rishabh Aggarwal, RJ Marsan, Robel Yemiru, Robert Xiong, Rohan Kshirsagar, Rohan Nuttall, Roman Tsiupa, Ronen Eldan, Rose Wang, Roshan James, Roy Ziv, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saam Talaie, Sam Altman, Sam Arnesen, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Sarah Yoo, Savannah Heon, Scott Ethersmith, Sean Grove, Sean Taylor, Sebastien Bubeck, Sever Banesiu, Shaokyi Amdo, Shengjia Zhao, Sherwin Wu, Shibani Santurkar, Shiyu Zhao, Shraman Ray Chaudhuri, Shreyas Krishnaswamy, Shuaiqi (Tony) Xia, Shuyang Cheng, Shyamal Anadkat, Simón Posada Fishman, Simon Tobin, Siyuan Fu, Somay Jain, Song Mei, Sonya Egoian, Spencer Kim, Spug Golden, SQ Mah, Steph Lin, Stephen Imm, Steve Sharpe, Steve Yadlowsky, Sulman Choudhry, Sungwon Eum, Suvansh Sanjeev, Tabarak Khan, Tal Stramer, Tao Wang, Tao Xin, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Degry, Thomas Shadwell, Tianfu Fu, Tianshi Gao, Timur Garipov, Tina Sriskandarajah, Toki Sherbakov, Tomer Kaftan, Tomo Hiratsuka, Tongzhou Wang, Tony Song, Tony Zhao, Troy Peterson, Val Kharitonov, Victoria Chernova, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wanning Jiang, Weixing Zhang, Wenda Zhou, Wenlei Xie, Wenting Zhan, Wes McCabe, Will DePue, Will Ellsworth, Wulfie Bain, Wyatt Thompson, Xiangning Chen, Xiangyu Qi, Xin Xiang, Xinwei Shi, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yifan Wu, Yilei Qian, Yin Tat Lee, Yinbo Chen, Yizhen Zhang, Yizhong Xiong, Yonglong Tian, Young Cha, Yu Bai, Yu Yang, Yuan Yuan, Yuanzhi Li, Yufeng Zhang, Yuguang Yang, Yujia Jin, Yun Jiang, Yunyun Wang, Yushi Wang, Yutian Liu, Zach Stubenvoll, Zehao Dou, Zheng Wu és Zhigang Wang


