Kalo te përmbajtja kryesore
OpenAI

Ne kemi krijuar GPT‑4, arritjen më të fundit në përpjekjet e OpenAI për të zgjeruar mësimin e thellë. GPT‑4 është një model i madh multimodal (që pranon imazhe dhe tekste si hyrje, duke prodhuar dalje në formë teksti) që, megjithëse më pak i aftë se njerëzit në shumë skenarë të botës reale, shfaq performancë në nivel njerëzor në standarde të ndryshme profesionale dhe akademike. Për shembull, ai kalon një provim të simuluar të jurisprudencës me një rezultat rreth 10% të testuesve më të mirë; në të kundërt, GPT‑3.5 Rezultati ishte rreth 10% më i ulët. Kemi kaluar 6 muaj duke përshtatur në mënyrë të përsëritur GPT‑4 duke përdorur mësime nga programi ynë i testimit kundërshtar si dhe ChatGPT, duke arritur rezultatet tona më të mira ndonjëherë (megjithëse larg nga perfektja) në faktualitet, drejtueshmëri dhe refuzimin për të dalë jashtë kufijve të vendosur.

Gjatë dy viteve të fundit, ne rindërtuam të gjithë infrastrukturën tonë të mësimit të thellë dhe, së bashku me Azure, bashkë-dizajnuam një superkompjuter nga fillimi për ngarkesën tonë të punës. Një vit më parë, ne trajnuam GPT‑3.5 si një “testim” i parë i sistemit. Ne gjetëm dhe rregulluam disa gabime dhe përmirësuam bazat tona teorike. Si rezultat, trajnimi ynë i GPT‑4 ishte (të paktën për ne!) jashtëzakonisht i qëndrueshëm, duke u bërë modeli ynë i parë i madh, performancën e trajnimit të të cilit mund ta parashikonim me saktësi paraprakisht. Ndërsa vazhdojmë të përqendrohemi në shkallëzimin e besueshëm, synojmë të përmirësojmë metodologjinë tonë për të na ndihmuar të parashikojmë dhe të përgatitemi për aftësitë e ardhshme gjithnjë e më herët, diçka që e konsiderojmë kritike për sigurinë.

Po publikojmë aftësinë e hyrjes së tekstit të GPT‑4 nëpërmjet ChatGPT dhe API-t (me një listë pritjeje). Për të përgatitur aftësinë e hyrjes së imazhit për disponueshmëri më të gjerë, po bashkëpunojmë ngushtë me një partner të vetëm(hapet në një dritare të re) për të filluar. Ne gjithashtu po e bëjmë me burim të hapur OpenAI Evals(hapet në një dritare të re), kuadrin tonë për vlerësimin e automatizuar të performancës së modeleve AI, për të lejuar këdo të raportojë mangësitë në modelet tona për të ndihmuar në drejtimin e përmirësimeve të mëtejshme.

Aftësitë

Në një bisedë të rastësishme, dallimi midis GPT‑3.5 dhe GPT‑4 mund të jetë i vogël. Dallimi shfaqet kur kompleksiteti i detyrës arrin një prag të mjaftueshëm—GPT‑4 është më i besueshëm, krijues dhe në gjendje të trajtojë udhëzime shumë më të nuancuara sesa GPT‑3.5.

Për të kuptuar ndryshimin midis dy modeleve, testuam në një shumëllojshmëri të standardeve, duke përfshirë simulimin e provimeve që fillimisht ishin krijuar për njerëzit. Ne vazhduam duke përdorur testet më të fundit të disponueshme publikisht (në rastin e Olimpiadave dhe pyetjeve me përgjigje të hapura AP) ose duke blerë edicionet 2022-2023 të provimeve praktike. Nuk kemi bërë asnjë trajnim specifik për këto provime. Një pakicë e problemeve në provime u panë nga modeli gjatë trajnimit, por ne besojmë se rezultatet janë përfaqësuese—shiko raportin tonë teknik(hapet në një dritare të re) për detaje.

referenca e brendshme 1

Duke u ngarkuar...
Duke u ngarkuar...

Ne gjithashtu vlerësuam GPT‑4 në standardet tradicionale të dizajnuara për modelet e mësimit automatik. GPT‑4 tejkalon ndjeshëm modelet ekzistuese të mëdha të gjuhës, së bashku me shumicën e modeleve më të fundit (SOTA) që mund të përfshijnë krijimin specifik të standardeve ose protokollet për trajnimet shtesë:

Duke u ngarkuar...

Shumë standarde ekzistuese të ML janë shkruar në anglisht. Për të parë aftësisë në gjuhë të tjera, ne përkthyem standardin MMLU - një grup prej 14,000 problemesh me zgjedhje të shumëfishta që përfshijnë 57 subjekte - në një shumëllojshmëri gjuhësh duke përdorur Azure Translate (shih Shtojcën). Në 24 nga 26 gjuhët e testuara, GPT‑4 tejkalon performancën në gjuhën angleze të GPT‑3.5 dhe LLM-ve të tjera (Chinchilla, PaLM), duke përfshirë gjuhët me burime të pakta si letonisht, uellsisht dhe suahili:

Duke u ngarkuar...

Ne gjithashtu kemi përdorur GPT‑4 brenda, me ndikim të madh në funksione si mbështetja, shitjet, moderimi i përmbajtjes dhe programimi. Ne gjithashtu po e përdorim atë për të ndihmuar njerëzit në vlerësimin e daljeve të AI, duke filluar fazën e dytë në strategjinë tonë të përafrimit.

Hyrjet vizuale

GPT‑4 mund të pranojë një kërkesë me tekst dhe imazhe, e cila - paralelisht me cilësimin vetëm për tekst - i lejon përdoruesit të specifikojë çdo detyrë vizioni ose gjuhësore. Në mënyrë të veçantë, ajo përfton dalje të tekstit (gjuhë natyrore, kod, etj.) duke marrë hyrje të përbërë nga teksti dhe imazhe të ndërthurura. Në një sërë domenesh — duke përfshirë dokumente me tekst dhe fotografi, diagrame ose pamje ekrani — GPT‑4 shfaq aftësi të ngjashme si në hyrjet vetëm me tekst. Për më tepër, mund të përmirësohet me teknika të kohës së testimit që janë zhvilluar për modelet gjuhe vetëm me tekst, duke përfshirë nxitjen me pak shembuj dhe nxitjen me mendime të njëpasnjëshme(hapet në një dritare të re). Hyrjet e imazheve janë ende në fazën e pamjes paraprake kërkimore dhe nuk janë të disponueshme publikisht.

Duke u ngarkuar...

Ne bëjmë një pamje paraprake të performancës së GPT‑4 duke e vlerësuar atë në një grup të ngushtë standardesh të vizionit akademik. Megjithatë, këto numra nuk e përfaqësojnë plotësisht shkallën e aftësive të tij, pasi ne po zbulojmë vazhdimisht detyra të reja dhe emocionuese që modeli është në gjendje t'i përballojë. Plani ynë është të publikojmë analiza të mëtejshme dhe numra vlerësimi, si dhe një hetim të plotë të efektit të teknikave gjatë testimit të kohës.

shënim i brendshëm në fund të faqesA

Duke u ngarkuar...

Manovrueshmëria

Ne kemi punuar për secilin aspekt të planit të përshkruar në postimin tonë në lidhje me përcaktimin e sjelljes së AI-ve, duke përfshirë drejtueshmërinë. Në vend të personalitetit klasik të ChatGPT me një fjalor, ton dhe stil të fiksuar, zhvilluesit (dhe së shpejti përdoruesit e ChatGPT) tani mund të përcaktojnë stilin dhe detyrën e AI-së së tyre duke përshkruar ato udhëzime në mesazhin “sistem”. Mesazhet e sistemit lejojnë përdoruesit e API të personalizojnë ndjeshëm përvojën e përdoruesve të tyre brenda kufijve(hapet në një dritare të re). Ne do të vazhdojmë të bëjmë përmirësime këtu (dhe veçanërisht e dimë se mesazhet e sistemit janë mënyra më e lehtë për të “jailbreak” modelin aktual, dmth., respektimi i kufijve nuk është i përsosur), por të inkurajojmë ta provosh dhe të na tregosh se çfarë mendon.

Duke u ngarkuar...

Kufizime

Pavarësisht aftësive të tij, GPT‑4 ka kufizime të ngjashme me modelet e mëparshme GPT. Më e rëndësishmja, ajo ende nuk është plotësisht e besueshme (ajo “halucinon” faktet dhe bën gabime në arsyetim). Duhet të tregohet kujdes i madh kur përdoren daljet e modeleve gjuhësore, veçanërisht në kontekste me rrezik të lartë, me protokollin e saktë (si rishikimi njerëzor, bazimi me kontekst shtesë ose shmangia e përdorimeve me rrezik të lartë) që përputhet me nevojat e një rasti specifik përdorimi.

Ndërsa mbetet ende një çështje e rëndësishme, GPT‑4 zvogëlon ndjeshëm halucinacionet në krahasim me modelet e mëparshme (të cilat vetë janë përmirësuar me çdo përsëritje). GPT‑4 shënon 40% më shumë se GPT‑3.5 më i fundit në vlerësimet tona të brendshme të faktualitetit kundërshtues:

Duke u ngarkuar...

Kemi bërë përparim në standardet e jashtme si TruthfulQA, që teston aftësinë e modelit për të dalluar faktin nga një grup deklaratash të pasakta të zgjedhura në mënyrë të padëshiruar. Këto pyetje janë të shoqëruara me përgjigje faktikisht të pasakta që janë statistikisht tërheqëse.

Duke u ngarkuar...

Modeli bazë GPT‑4 është vetëm pak më i mirë në këtë detyrë sesa GPT‑3.5; Megjithatë, pas post-trajnit RLHF (duke aplikuar të njëjtin proces që përdorëm me GPT‑3.5) ekziston një hendek i madh. Duke shqyrtuar disa shembuj më poshtë, GPT‑4 i reziston zgjedhjes së thënieve të zakonshme (lulja e këputun nuk mbin më), megjithatë ende mund të humbasë detaje delikate (Elvis Presley nuk ishte djali i një aktori).

Duke u ngarkuar...

Modeli mund të ketë rezultate të ndryshme në daljet e tij - kemi bërë përparim në këtë aspekt, por ka ende më shumë për të bërë. Sipas postimit tonë të fundit në blog, ne synojmë që sistemet e AI që ndërtojmë të kenë sjellje të arsyeshme të parazgjedhura që pasqyrojnë një gamë të gjerë vlerash të përdoruesve, të lejojnë personalizim brenda kufijve të gjerë dhe të marrin hyrje publike për atë se çfarë duhet të jenë këta kufij.

GPT‑4 në përgjithësi nuk ka njohuri për ngjarjet që kanë ndodhur pas ndërprerjes së shumicës së të dhënave të tij (shtator 2021) dhe nuk mëson nga përvoja e vet. Ndonjëherë mund të bëjë gabime të thjeshta arsyetimi që nuk duket se përputhen me kompetencën në kaq shumë domene, ose të jetë tepër i besueshëm në pranimin e deklaratave të dukshme të rreme nga një përdorues. Dhe ndonjëherë mund të dështojë në probleme të vështira në të njëjtën mënyrë si njerëzit, si për shembull futja e dobësive të sigurisë në kodin që prodhon.

GPT‑4 gjithashtu mund të jetë i sigurt në gabimet e tij në parashikime, duke mos u kujdesur të kontrollojë dy herë punën kur ka të ngjarë të bëjë një gabim. Është interesante se si modeli bazë i trajnuar paraprakisht është shumë i kalibruar (besimi i parashikuar në një përgjigje zakonisht përputhet me probabilitetin e të qenit i saktë). Megjithatë, përmes procesit tonë aktual pas trajnimit, kalibrimi zvogëlohet.

Duke u ngarkuar...

Rreziqet dhe masat lehtësuese

Ne kemi punuar në përmirësimin e GPT‑4 për ta bërë atë më të sigurt dhe të përshtatur që nga fillimi i trajnimit, duke përfshirë përzgjedhjen dhe filtrimin e të dhënave të para-trajnimit, vlerësimet dhe angazhimin e ekspertëve, përmirësimet e sigurisë së modelit, si dhe monitorimin dhe zbatimin.

GPT‑4 paraqet rreziqe të ngjashme si modelet e mëparshme, të tilla si përftimi i këshillave të dëmshme, kodi me gabime ose informacioni i pasaktë. Megjithatë, aftësitë shtesë të GPT‑4 krijojnë sipërfaqe të reja rreziku. Për të kuptuar shkallën e këtyre rreziqeve, ne angazhuam mbi 50 ekspertë nga domenë të tillë si rreziqet e përafrimit të AI, siguria kibernetike, biorreziku, besimi dhe siguria, dhe siguria ndërkombëtare për të testuar modelin në mënyrë të kundërt. Gjetjet e tyre na shtynë të testojmë në mënyrë specifike sjelljen e modelit në zona me rrezik të lartë që kërkojnë ekspertizë për t'u vlerësuar. Përshtypjet dhe të dhënat nga këta ekspertë u përdorën për zbutjet dhe përmirësimet tona për modelin; për shembull, kemi mbledhur të dhëna shtesë për të përmirësuar aftësinë e GPT‑4 për të refuzuar kërkesat për mënyrën e sintetizimit të kimikateve të rrezikshme.

GPT‑4 përfshin një sinjal shtesë shpërblimi të sigurisë gjatë trajnimit RLHF për të zvogëluar daljet e dëmshme (siç përcaktohet nga udhëzimet tona të përdorimit(hapet në një dritare të re)) duke trajnuar modelin për të refuzuar kërkesat për përmbajtje të tillë. Shpërblimi ofrohet nga një klasifikues GPT‑4 zero-shot që vlerëson kufijtë e sigurisë dhe stilin e përfundimit në kërkesat e lidhura me sigurinë. Për të parandaluar refuzimin e kërkesave të vlefshme të modelit, ne mbledhim një grup të dhënash të larmishme nga burime të ndryshme (p.sh., të dhëna të etiketuara të prodhimit, ekipe të kuqe njerëzore, kërkesa të përftuara nga modeli) dhe aplikojmë sinjalin e shpërblimit të sigurisë (me një vlerë pozitive ose negative) në kategoritë e lejuara dhe të palejuara. 

Masat tona kanë përmirësuar ndjeshëm shumë nga vetitë e sigurisë së GPT‑4 në krahasim me GPT‑3.5. Kemi ulur tendencën e modelit për t'iu përgjigjur kërkesave për përmbajtje të palejuar me 82% krahasuar me GPT‑3.5, dhe GPT‑4 i përgjigjet kërkesave të ndjeshme (p.sh., këshilla mjekësore dhe vetëdëmtim) në përputhje me politikat tona 29% më shpesh.

Duke u ngarkuar...
Duke u ngarkuar...

Në përgjithësi, ndërhyrjet tona në nivelin e modelit e bëjnë më të vështirë nxitjen e sjelljes së keqe, por kjo është ende e mundur. Për më tepër, ende ekzistojnë “jailbreaks” për të përftuar përmbajtje që shkel udhëzimet tona të përdorimit. Ndërsa rritet “rreziku për token” i sistemeve të AI, do të bëhet kritike arritja e shkallëve jashtëzakonisht të larta të besueshmërisë në këto ndërhyrje; për momentin është e rëndësishme të plotësohen këto kufizime me teknika sigurie gjatë vendosjes, si monitorimi për abuzim.

GPT‑4 dhe modelet pasardhëse kanë potencialin të ndikojnë ndjeshëm në shoqëri si në mënyra të dobishme ashtu edhe në ato të dëmshme. Ne po bashkëpunojmë me studiues të jashtëm për të përmirësuar mënyrën se si kuptojmë dhe vlerësojmë ndikimet e mundshme, si dhe për të ndërtuar vlerësime për aftësitë e rrezikshme që mund të shfaqen në sistemet e ardhshme. Së shpejti do të ndajmë më shumë nga mendimet tona mbi ndikimet e mundshme sociale dhe ekonomike të GPT‑4 dhe sistemeve të tjera të AI.

Procesi i trajnimit

Ashtu si modelet e mëparshme GPT, modeli bazë GPT‑4 u trajnua për të parashikuar fjalën e radhës në një dokument dhe u trajnua duke përdorur të dhëna të disponueshme publikisht (të tilla si të dhënat e internetit) si dhe të dhëna që kemi licencuar. Të dhënat janë një korpus në shkallë ueb-i që përfshin zgjidhje të sakta dhe të pasakta për problemet matematikore, arsyetime të dobëta dhe të forta, deklarata vetë-kontradiktore dhe të qëndrueshme, dhe që përfaqësojnë një larmi të madhe ideologjish dhe idesh.

Pra, kur nxitet me një pyetje, modeli mund të përgjigjet në mënyra të ndryshme që mund të jenë larg synimit të përdoruesit. Për ta përshtatur me synimin e përdoruesit brenda kufijve të sigurisë, ne rregullojmë sjelljen e modelit duke përdorur të mësuarit përforcues me përshtypje njerëzore (RLHF).

Vini re se aftësitë e modelit duket se vijnë kryesisht nga procesi i trajnimit paraprak; RLHF nuk përmirëson performancën e provimit (pa përpjekje aktive, në fakt e degradon atë). Por drejtimi i modelit vjen nga procesi pas trajnimit, modeli bazë kërkon inxhinieri kërkesash për të kuptuar se duhet t'u përgjigjet pyetjeve.

Shkallëzim i parashikueshëm

Një fokus i madh i projektit GPT‑4 ka qenë ndërtimi i një strukture të mësimit të thellë që shkallëzohet në mënyrë të parashikueshme. Arsyeja kryesore është se, për ekzekutime shumë të mëdha trajnimesh si GPT‑4, nuk mund të bëhet akordim i gjerë specifik për modelin. Ne zhvilluam infrastrukturë dhe optimizim që kanë sjellje shumë të parashikueshme në shkallë të ndryshme. Për të verifikuar këtë shkallëzueshmëri, ne parashikuam me saktësi humbjen përfundimtare të GPT‑4 në bazën tonë të brendshme të kodit (jo pjesë e grupit të trajnim) duke ekstrapoluar nga modelet e trajnuara duke përdorur të njëjtën metodologji, por duke përdorur 10,000 herë më pak llogaritje:

Duke u ngarkuar...

Tani që mund të parashikojmë me saktësi metrikën që optimizojmë gjatë trajnimit (humbjes), po fillojmë të zhvillojmë metodologji për të parashikuar metrika më të kuptueshme. Për shembull, ne parashikuam me sukses normën e kalimit në një nëngrup të grupit të të dhënave HumanEval(hapet në një dritare të re), duke ekstrapoluar nga modelet me 1,000x më pak llogaritje:

Duke u ngarkuar...

Disa aftësi janë ende të vështira për t'u parashikuar. Për shembull, Çmimi i "Inverse Scaling" ishte një konkurs për të gjetur një metrikë që përkeqësohet me rritjen e llogaritjes së modelit, dhe neglizhenca e retrospektivës(hapet në një dritare të re) ishte një nga fituesit. Ashtu si me një rezultat(hapet në një dritare të re) tjetër të fundit, GPT‑4 përmbys trendin:

Duke u ngarkuar...

Ne besojmë se parashikimi i saktë i aftësive të ardhshme të të mësuarit automatik është një pjesë e rëndësishme e sigurisë që nuk merr vëmendje të mjaftueshme në krahasim me ndikimin e saj të mundshëm (megjithëse jemi inkurajuar nga përpjekjet e disa institucioneve). Ne po rrisim përpjekjet tona për të zhvilluar metoda që i japin shoqërisë udhëzime më të mira për atë që mund të pritet nga sistemet e ardhshme, dhe shpresojmë që kjo të bëhet një qëllim i përbashkët në këtë fushë.

OpenAI Evals

Po e bëjmë me burim të hapur OpenAI Evals(hapet në një dritare të re), kornizën tonë softuerike për krijimin dhe ekzekutimin e standardeve për vlerësimin e modeleve si GPT‑4, duke inspektuar performancën e tyre mostër pas mostre. Ne përdorim Evals për të udhëhequr zhvillimin e modeleve tona (si për identifikimin e mangësive ashtu edhe për parandalimin e regresioneve), dhe përdoruesit tanë mund ta përdorin atë për të gjurmuar performancën nëpër versionet e modeleve (të cilat tani do të dalin rregullisht) dhe për të zhvilluar integrimet e produkteve. Për shembull, Stripe ka përdorur Evals për të plotësuar vlerësimet e tyre njerëzore për të matur saktësinë e mjetit të tyre të dokumentacionit të fuqizuar nga GPT.

Meqenëse kodi është i gjithi me burim të hapur, Evals ofron mbështetje për shkrimin e klasave të reja për të zbatuar logjikën e personalizuar të vlerësimit(hapet në një dritare të re). Megjithatë, nga përvoja jonë, shumë standarde ndjekin një nga disa “shabllone,” kështu që kemi përfshirë shabllonet(hapet në një dritare të re) që kanë qenë më të dobishme për ne (duke përfshirë një shabllon për “vlerësime të graduara nga modeli” - kemi zbuluar se GPT‑4 është çuditërisht i aftë të kontrollojë punën e vet). Në përgjithësi, mënyra më efektive për të ndërtuar një eval të ri(hapet në një dritare të re) do të jetë të ilustrosh me shembull një nga këto shabllone dhe të sigurosh të dhëna. Jemi të ngazëllyer të shohim se çfarë mund të ndërtojnë të tjerët me këto shabllone dhe me Evals në përgjithësi.

Ne shpresojmë që Evals të bëhet një mjet për të ndarë dhe mbledhur standarde, duke përfaqësuar një gamë sa më të gjerë të mënyrave të dështimit dhe detyrave të vështira. Si shembull për t'u ndjekur, kemi krijuar një eval enigmatike logjike(hapet në një dritare të re) që përmban dhjetë kërkesa ku GPT‑4 dështon. Evals është gjithashtu i pajtueshëm me zbatimin e standardeve ekzistuese; kemi përfshirë disa notebooks(hapet në një dritare të re) që zbatojnë standarde akademike dhe disa variante të integrimit të (nëngrupeve të vogla të) CoQA(hapet në një dritare të re) si shembull.

Ne i ftojmë të gjithë të përdorin Evals për të testuar modelet tona dhe të dorëzojnë shembujt më interesantë. Ne besojmë se Evals do të jetë një pjesë integrale e procesit për përdorimin dhe ndërtimin mbi modelet tona, dhe mirëpresim kontributet e drejtpërdrejta, pyetjet dhe përshtypjet(hapet në një dritare të re).

ChatGPT Plus

Abonentët e ChatGPT Plus do të kenë qasje në GPT‑4 në chatgpt.com(hapet në një dritare të re) me një kufi përdorimi. Ne do të rregullojmë kufirin e saktë të përdorimit në varësi të kërkesës dhe performancës së sistemit në praktikë, por presim të kemi kapacitet të kufizuar (megjithëse do t'i rrisim dhe optimizojmë gjatë muajve të ardhshëm).

Në varësi të modeleve të trafikut që shohim, mund të prezantojmë një nivel të ri abonimi për përdorim me volum më të lartë të GPT‑4; gjithashtu shpresojmë që në një moment të ofrojmë disa pyetje falas me GPT‑4 që ata pa abonim ta provojnë gjithashtu.

API

Për të pasur qasje në GPT‑4 API (e cila përdor të njëjtën API ChatCompletions(hapet në një dritare të re) si gpt-3.5-turbo), të lutem regjistrohu në listën tonë të pritjes. Do të fillojmë të ftojmë disa zhvillues sot dhe do ta rrisim gradualisht për të balancuar kapacitetin me kërkesën. Nëse je një studiues që studion ndikimin shoqëror të AI ose çështjet e shtrirjes së AI, mund të aplikosh gjithashtu për qasje të subvencionuar përmes Programit të qasjes për studiues.

Pasi të kesh qasje, mund të bësh kërkesa vetëm me tekst në modelin GPT‑4 (Hyrjet e imazheve janë ende në alfa të kufizuar), të cilat do t'i përditësojmë automatikisht në modelin tonë të rekomanduar të qëndrueshëm ndërsa bëjmë versione të reja me kalimin e kohës (mund ta fiksojë versionin aktual duke thirrur GPT‑4‑0314, të cilin do ta mbështesim deri më 14 qershor). Çmimi është 0.03 dollarë për 1k tokenë kërkesash dhe 0.06 dollarë për 1k tokenë për përfundim. Kufijtë e parazgjedhur të normës janë 40 mijë tokenë në minutë dhe 200 kërkesa në minutë.

GPT‑4 ka një gjatësi të kontekstit prej 8,192 tokenësh. Ne po ofrojmë gjithashtu akses të kufizuar në versionin tonë 32,768-kontekst (rreth 50 faqe tekst), GPT‑4‑32k, i cili gjithashtu do të përditësohet automatikisht me kalimin e kohës (versioni aktual GPT‑4‑32k‑0314, gjithashtu i mbështetur deri më 14 qershor). Çmimi është 0.06 dollarë për 1K tokenë kërkesash dhe 0.12 dollarë për 1K tokenë të përfundimit. Ne jemi ende duke përmirësuar cilësinë e modelit për kontekste të gjata dhe do të donim përshtypjet tuaja se si funksionon për rastin tënd të përdorimit. Ne po përpunojmë kërkesat për motorët 8K dhe 32K me ritme të ndryshme bazuar në kapacitet, kështu që mund t'i qasni në kohë të ndryshme.

Përfundimi

Ne mezi presim që GPT‑4 të bëhet një mjet i vlefshëm për përmirësimin e jetës së njerëzve duke fuqizuar shumë aplikacione. Ka ende shumë punë për të bërë dhe mezi presim të përmirësojmë këtë model përmes përpjekjeve kolektive të komunitetit që ndërton, eksploron dhe kontribuon në këtë model.

Shtojca

Shembull i pyetjeve të MMLU-së, të përkthyera në gjuhë të tjera. Vini re, ne përdorim token-ë të qëndrueshëm të zgjedhjes (A–D):

Duke u ngarkuar...

Shënime në fund të faqes

  1. A

    Ne vlerësojmë këtë pikë referimi duke përdorur nxitjen e "zinxhirit të mendimit" me 4 shembuj nga grupi i trajnimit në kontekst. Kërkesa specifike u përshtat në grupin e verifikimit.

Referenca

  1. 1

    P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Analiza e mëtejshme është e disponueshme në dokument(hapet në një dritare të re).

Autor

OpenAI