გადადით მთავარ შინაარსზე
OpenAI

LifeSciBench-ის წარდგენა

ექსპერტების მიერ დაწერილი და განხილული ბენჩმარკი, დაფუძნებული სიცოცხლის მეცნიერებების რეალურ კვლევაზე

იტვირთება…

აგენტური ხელოვნური ინტელექტის სისტემები სამეცნიერო დავალებების შესრულებაში სულ უფრო ქმედუნარიანი ხდება. თუმცა მათი სარგებლიანობა სიცოცხლის მეცნიერებების მკვლევრებისთვის დამოკიდებულია იმაზე, რამდენად კარგად უმკლავდებიან ისინი რეალური კვლევის სირთულეს. ასეთი სამუშაო იშვიათად ჰგავს ფაქტის გახსენების ერთ კითხვას ან სუფთა პროგნოზირების ამოცანას. მკვლევრები აანალიზებენ არასრულ მტკიცებულებას, ათანხმებენ ურთიერთსაწინააღმდეგო შედეგებს, გეგმავენ რთულ ექსპერიმენტებს, აგვარებენ ანალიზების პრობლემებს, აფასებენ ტრანსლაციურ რისკს და გაურკვევლობის პირობებში წყვეტენ შემდეგ ნაბიჯს.

ამჟამინდელი ბენჩმარკები ამ უნარებს სრულად ვერ ასახავს. სიცოცხლის მეცნიერებების ბევრი შეფასება ვიწრო დომენებზე ან განცალკევებულ უნარებზეა ფოკუსირებული, რის შედეგადაც ჩნდება სტრუქტურირებული კითხვები და სუფთა ეტალონური პასუხები. მათი ღირებულების მიუხედავად, ისინი ხშირად ვერ აფასებენ რეალურად, შეუძლია თუ არა მოდელს კვლევითი დონის სამუშაოს ფართო სპექტრში წვლილის შეტანა.

LifeSciBench სწორედ ამ ხარვეზის შესავსებად შევქმენით. ყოველი დავალება ეფუძნება პრაქტიკოს სიცოცხლის მეცნიერების სპეციალისტთა შეფასებას, რომლებსაც აქვთ Ph.D.-დონის მომზადება და ბიოტექნოლოგიურ თუ ფარმაცევტულ გარემოში წამლის აღმოჩენის პროგრამების წინ წაწევის უშუალო გამოცდილება.

LifeSciBench მოიცავს ექსპერტების მიერ შექმნილ 750 დავალებას, რომლებიც შვიდ სამუშაო პროცესსა და შვიდ ბიოლოგიურ დომენს ფარავს.

1,062

დავალების არტეფაქტები

173

მეცნიერები, რომლებმაც წვლილი შეიტანეს

19,020

რუბრიკის კრიტერიუმები

453

ექსპერტი მიმომხილველები

რას ზომავს LifeSciBench

LifeSciBench ზომავს, შეუძლიათ თუ არა AI სისტემებს რეალისტური სიცოცხლის მეცნიერებების კვლევითი დავალებების მხარდაჭერა და არა მხოლოდ ბიოლოგიის კითხვებზე პასუხის გაცემა. ბენჩმარკის ტაქსონომიის განსასაზღვრად პრაქტიკოს სიცოცხლის მეცნიერების სპეციალისტებს გამოვკითხეთ, რომელ სამუშაო პროცესებს იყენებენ ყველაზე ხშირად გამოყენებითი კვლევის გარემოში. შემდეგ მათი პასუხები შვიდ განმეორებად კატეგორიად დავაჯგუფეთ: მტკიცებულების დამუშავება, ანალიზი, დიზაინი და ოპტიმიზაცია, სამეცნიერო მსჯელობა, ვალიდაცია და ოპერაციები, ტრანსლაცია და სამეცნიერო კომუნიკაცია.

თითოეული დავალება აგებულია ისე, როგორც თხოვნა, რომელსაც მეცნიერი ცოდნიან კოლაბორატორს მისცემდა: სამეცნიერო მოთხოვნა, შესაბამისი კონტექსტი ან არტეფაქტები და თავისუფალი ფორმის პასუხი. ექსპერტების მიერ დაწერილი რუბრიკები აფასებს, შეუძლია თუ არა მოდელს კონკრეტულ პრობლემაზე სწორი პასუხის შექმნა იმ დეტალით, დასაბუთებით, დათქმებითა და ფორმატით, რასაც მეცნიერი მოელოდა.

მონაცემთა ნაკრების შექმნა

LifeSciBench სამეცნიერო მსჯელობას აფასებს რეალურ სამყაროში სამეცნიერო გამოყენებისთვის საჭირო ნაკლებად მკაფიო, პრაქტიკულ უნარებთან ერთად. მისი დავალებები მოდელებს რეალისტურ კვლევით პრობლემებზე მუშაობას სთხოვს: მტკიცებულების ინტერპრეტაციას, დომენზე დაფუძნებულ შეფასებებს და ისეთი დასკვნების კომუნიკაციას, რომლებიც ექსპერტი მიმომხილველებისთვის სასარგებლო იქნება. ბევრი დავალება ასევე მოითხოვს, რომ მოდელებმა გაურკვევლობა მართონ და მხოლოდ მოთხოვნის ტექსტზე დაყრდნობის ნაცვლად დამხმარე მონაცემთა ფაილებზეც იმსჯელონ.

ბენჩმარკი შექმნილია სიცოცხლის მეცნიერებების სამუშაოს სირთულის ასასახად. საერთო ჯამში, დავალებების 79% მოითხოვს მსჯელობის ან გადაწყვეტილების მიღების რამდენიმე ნაბიჯს; საშუალოდ თითო დავალებაზე ოთხი ნაბიჯია. LifeSciBench მოიცავს 1,062 მიმაგრებულ არტეფაქტს: ფიგურებს, PDF-ებს, ცხრილებს, მიმდევრობის ფაილებს, სტრუქტურულ ან ქიმიურ ფაილებს და ვებწყაროებს. დავალებების ნახევარზე მეტი (53%) მოდელებისგან მოითხოვს სულ მცირე ერთი არტეფაქტიდან ინფორმაციის ინტერპრეტაციას ან სინთეზს.

დავალებები შექმნა 173-მა ექსპერტმა მეცნიერმა სიცოცხლის მეცნიერებების სხვადასხვა დისციპლინიდან. თითოეულ მათგანს ჰქონდა Ph.D.-დონის მომზადება და ბიოტექნოლოგიურ ან ფარმაცევტულ ინდუსტრიაში მუშაობის გამოცდილება. დავალებებს მიღებამდე შეეძლო იმდენი რევიზიის ციკლის გავლა, რამდენიც საჭირო იყო, რაუნდების ფიქსირებული ზღვრის გარეშე; მიღებულმა დავალებებმა საშუალოდ გაიარა ექვსი თვითმართული ავტომატური მიმოხილვის ციკლი და მინიმუმ ორი ექსპერტული მიმოხილვის რაუნდი. მიმოხილვები ეფუძნებოდა ან გადამოწმებად სწორ პასუხს, ან ძლიერ ექსპერტულ კონსენსუსს, შესაბამის დომენში მიმომხილველთა მინიმუმ 90%-იანი თანხმობით. ამ პროცესმა ხელი შეუწყო, რომ მიღებული დავალებები მეცნიერულად დასაბუთებული, შესაფასებლად საკმარისად მკაფიო და გამოყენებითი კვლევის წარმომადგენელი ყოფილიყო.

დიაგრამა, რომელიც გვოჩვენებს LifeSciBench-ის დავალებებს, სადაც სიცოცხლის შემსწავლელი მეცნიერებების მონაცემთა წყაროები, როგორიცაა გენომური მიმდევრობები, მოლეკულური სტრუქტურები, სურათები, დოკუმენტები, ცხრილები და ვებბმულები, შერწყმულია მრავალსაფეხურიან მსჯელობასა და ექსპერტულ მიმოხილვასთან.

შეფასება და რუბრიკის განაწილება

LifeSciBench-ის დავალებები ფასდება დეტალური, დავალებაზე მორგებული რუბრიკით, რომელიც მოსალოდნელ პასუხს შლის კონკრეტულ სამეცნიერო მტკიცებებად, გამოთვლებად, გადაწყვეტილებებად, დასაბუთებებად და სხვა კომპონენტებად. ბენჩმარკის მასშტაბით, ექსპერტების შემუშავებული რუბრიკები მოიცავს 19,020 კრიტერიუმს — საშუალოდ 25-ს თითო დავალებაზე — როგორც სამეცნიერო სისწორის, ისე კვლევითი გადაწყვეტილებებისთვის სარგებლიანობის შესაფასებლად.

ეს დიზაინი ასახავს, როგორ ფასდება სამეცნიერო სამუშაო პრაქტიკაში: სიცოცხლის მეცნიერებების ბევრ დავალებას მხოლოდ საბოლოო პასუხის შემოწმებით ვერ შეაფასებ. პასუხი შეიძლება მივიდეს სწორ ზოგად დასკვნამდე, მაგრამ მაინც არასრულად ჩაითვალოს, თუ, მაგალითად, გამორჩება ანალიზის მნიშვნელოვანი შეზღუდვა ან პროაქტიულად არ ახსენებს მაღალი მნიშვნელობის ბიოლოგიურ ნიუანსს. მეორე მხრივ, ნაწილობრივ პასუხში შეიძლება იყოს მაღალი ხარისხის მსჯელობა, თუნდაც დავალება სრულად არ გადაწყვიტოს.

გრანულარული რუბრიკები ამ ნიუანსს იჭერს. LifeSciBench აფასებს არა მხოლოდ საბოლოო პასუხის სიზუსტეს, არამედ იმასაც, მიდის თუ არა მოდელი პასუხამდე მეცნიერულად ვალიდური და ოპერაციულად სასარგებლო გზით.

სამეცნიერო მტკიცებულებების მიღება, შეჯერება და აუდიტი ნაშრომებიდან, ციფრებიდან, ცხრილებიდან და ექსპერიმენტული ჩანაწერებიდან.

შეფასების მაგალითი

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

კანდიდატის პასუხი

საბოლოო დასკვნა: როგორც წარმოდგენილია, ეს პაკეტი საკმარისად ძლიერი არ არის, რათა მიკრო-დისტროფინის ექსპრესიაზე, როგორც საბოლოო წერტილზე, დაყრდნობით დაჩქარებულ დამტკიცებას დაუჭიროს მხარი. სკეპტიკური FDA მიმომხილველი, სავარაუდოდ, ბიომარკერის, ფუნქციური, გამძლეობის, უსაფრთხოებისა და განზოგადებადობის მტკიცებულებებს არსებითად არასაკმარისად გამყარებულად ჩათვლიდა.

პაკეტის ერთეული

ძირითადი წარუმატებლობის რეჟიმი

რა იქნებოდა საჭირო

ვესტერნ ბლოტის რაოდენობითი განსაზღვრა

MANEX1A უკავშირდება N-ტერმინალურ ეპიტოპს, რომელიც საერთო აქვს ენდოგენურ სრული სიგრძის დისტროფინსა და მიკრო-დისტროფინის ტრანსგენს, ამიტომ ანალიზი ტრანსგენს ნარჩენი/რევერტანტული დისტროფინისგან სუფთად ვერ განასხვავებს. 138 kDa მიკრო-დისტროფინის რაოდენობრივი განსაზღვრა ჯანმრთელი სრული სიგრძის დისტროფინის სტანდარტთან შედარებით ასევე არასწორია.

გამოიყენეთ რეკომბინანტული მიკრო-დისტროფინის სტანდარტი და ორთოგონული მეთოდი, რომელიც ტრანსგენს ენდოგენური დისტროფინისგან განასხვავებს, მაგალითად მიზნობრივი მას-სპექტრომეტრია ან ტრანსგენ-სპეციფიკური/ეპიტოპ-სპეციფიკური ანალიზი.

იმუნოფლუორესცენცია

C-ტერმინალური პოლიკლონური ანტისხეული ცუდად შეეფერება, რადგან 138 kDa კონსტრუქტს C-ტერმინალური დომენი აკლია. ბევრ DMD პაციენტს აქვს რევერტანტული ბოჭკოები, ხოლო რევერტანტულ დისტროფინს შეიძლება C-ტერმინალური ეპიტოპები შეუნარჩუნდეს. რევერტანტული ბოჭკოები ასაკთან ერთად შეიძლება კლონურად გაფართოვდეს და IF სიგნალი დაამახინჯოს, განსაკუთრებით უფროს ბიჭებში.

გაიმეორეთ თუ ანტისხეულით ეპიტოპის წინააღმდეგ,ტრანსგენში არის, მაგრამ რევერტანტულ დისტროფინში არა. განსაზღვრეთ ტრანსგენ-დადებითი ბოჭკოების რაოდენობა რევერტანტული ბოჭკოებისგან განცალკევებით.

სუროგატი საბოლოო წერტილის ვალიდურობა

პაკეტი ცილის რაოდენობას კლინიკურ ფუნქციასთან აიგივებს. „ჯანმრთელი კონტროლის ცილის მასის 38%“ არ ნიშნავს ნორმალური დისტროფინის ფუნქციის 38%-ს, რადგან მიკრო-დისტროფინი სტრუქტურულად შემოკლებულია.

ემპირიულად დაადასტურეთ კავშირი მიკრო-დისტროფინის მასის პროცენტს, სარკოლემურ ლოკალიზაციას, ქვემოთმდებარე ფუნქციურ აღდგენასა და კლინიკურ სარგებელს შორის, სანამ ექსპრესიას surrogate საბოლოო წერტილად მიიჩნევთ.

ბიოფსიის დიზაინი

მკურნალობამდე და მკურნალობის შემდეგ კონტრალატერალური vastus lateralis ბიოფსიები მარცხენა-მარჯვენა და კუნთის შიდა სივრცულ ცვალებადობას შეიტანს. დაავადების პროგრესირებამ და ფიბროზულ-ცხიმოვანმა ჩანაცვლებამ შეიძლება ასევე შეცვალოს საერთო ცილაზე ნორმალიზებული სიგნალი.

მოახდინეთ ბიოფსიის ადგილის სტანდარტიზაცია თანმიმდევრული ანატომიური ორიენტირებით, დაანორმალიზეთ კუნთ-სპეციფიკურ ცილებზე და პარალელურად გაზომეთ ფიბრო-ცხიმოვანი შემადგენლობა.

NSAA კომპარატორი/სტატისტიკა

გარე ბუნებრივი ისტორიის კოჰორტა არ არის რანდომიზებული თანადროული კონტროლი. კვლევაში ჩართვის კრიტერიუმები, მხარდამჭერი მოვლა, მონაწილეობის ეფექტები, საწყისი NSAA, სტეროიდული რეჟიმი, ასაკი და ეგზონის - ყველა მათგანს შეუძლია შედარების ცდომილების გამოწვევა. დაუწყვილებელი t-ტესტი საკმარისი არ არის. ასევე, +1.4 NSAA ცვლილება ამ ასაკობრივი ჯგუფისთვის ტესტი-რეტესტის ცვალებადობის ფარგლებშია.

ჩაატარეთ რანდომიზებული თანადროული პლაცებო-კონტროლირებადი კვლევა, ან მინიმუმ გამოიყენეთ კორექტირებული ანალიზები საწყისი NSAA-ის, ასაკის, სტეროიდული რეჟიმის, ეგზონის კლასისა და სხვა შემრევი ფაქტორების გათვალისწინებით.

საკობრივი შუალედით გამოწვეული ცდომილება

4–7 წლის ბიჭები განვითარების ფანჯარაში არიან, სადაც არანამკურნბალებ ამბულატორულ DMD პაციენტებს მოტორული ფუნქცია შეიძლება გაეზარდოთ, სანამ დაქვეითება დომინირებას დაიწყებს. 48-კვირიანი NSAA ცვლილება აერთიანებს განვითარების ზრდას, დაავადების პროგრესირებას და შესაძლო მკურნალობის ეფექტს.

გამოიყენეთ თანადროული რანდომიზებული კონტროლი ასაკობრივი სტრატიფიკაციით, რათა განვითარების ტრაექტორია გამოყოთ მკურნალობის ეფექტისგან.

წინა კლინიკური პრეცედენტი

ღია ნიშნით მიკრო-დისტროფინის ფუნქციურმა სიგნალებმა დამადასტურებელი სარგებელი საიმედოდ ვერ იწინასწარმეტყველა; გამოქვეყნებული პრეცედენტი მოიცავს მიკრო-დისტროფინის გენური თერაპიის დამადასტურებელ კვლევებს, რომლებმაც ღია ნიშნით NSAA გაუმჯობესებები ვერ გაიმეორა.

ღია NSAA ცვლილებას გადამწყვეტ დასაბუთებად ნუ დაეყრდნობით. მოითხოვეთ კონტროლირებადი ფუნქციური მტკიცებულება.

კონსტრუქტის სტრუქტურული ლიმიტები

138 კილოდალტონი კონსტრუქტი შლის სპექტრინის გამეორებებს R16/17, რომლებიც nNOS-შემკავშირებელ ადგილებს შეიცავს. nNOS რეკრუტირების დაკარგვამ შეიძლება უარყოფითად იმოქმედოს ფუნქციურ სიმპათოლიზზე და ვარჯიშისას იშემიისგან დაცვაზე, რაც ექსპრესიის დონისგან დამოუკიდებელ მექანიკურ ჭერს ქმნის.

დაამატეთ მექანიზმური კვლევები, რომლებიც აჩვენებს, აღადგენს თუ არა ეს კონკრეტული კონსტრუქტი დისტროფინთან ასოცირებული კომპლექსის შესაბამის ფუნქციას, nNOS ლოკალიზაციას, ვარჯიშის ფიზიოლოგიასა და კუნთის დაცვას.

გენური თერაპიის ხანგრძლივობა

ვექტორის გენომები 12 კვირაზე გამძლე ექსპრესიას არ ადგენს. AAV9 გენომები ძირითადად არაინტეგრირებადი ეპისომებია და დროთა განმავლობაში შეიძლება შემცირდეს. ვექტორ-გენომის შენარჩუნება იგივე არ არის, რაც მუდმივი ცილის ექსპრესია.

გაზომეთ ტრანსგენის ცილის გრძივი ექსპრესია და ფუნქციური ბიომარკერის გამძლეობა 12 კვირაზე მეტი ხნის განმავლობაში.

იმუნური/უსაფრთხოების პროფილი

ტრანსამინიტი 8/12 პაციენტში შეესაბამება იმუნურ პასუხს AAV-ტრანსდუცირებულ უჯრედებზე, მაგრამ მექანიზმი დადგენილი არ არის. მიოკარდიტის ერთი შემთხვევა შემაშფოთებელია AAV9-ის გულის ტროპიზმის გათვალისწინებით.

უზრუნველყავით უფრო ღრმა იმუნური მონიტორინგი, ღვიძლის/გულის უსაფრთხოების დახასიათება და გაძლიერებული კარდიოლოგიური შემდგომი დაკვირვება.

პაციენტების შერჩევა/განზოგადებადობა

AAV9-ის საწინააღმდეგო ნეიტრალიზებელი ანტისხეულების ტესტის დადებითი პასუხის მქონე პაციენტების გამორიცხვა განზოგადებადობას ზღუდავს. ეგზონ-44 დელეციების გამორიცხვა ამ DMD ქვეჯგუფზე გამოყენებადობას ზღუდავს. n=12 მეტისმეტად მცირეა, რათა უსაფრთხოება და ეფექტიანობა ფართო DMD პოპულაციაში დახასიათდეს.

სადაც შესაძლებელია, გააფართოეთ ჩართვის კრიტერიუმები ან წინასწარ განსაზღვრეთ სტრატიფიცირებული ანალიზები ანტისხეულების სტატუსის, გენოტიპის/ეგზონის კლასის, ასაკისა და საწყისი ფუნქციის მიხედვით, სანამ შედეგს ფართო დამტკიცების დასაბუთებისთვის გამოიყენებთ.

მარეგულირებელი დასკვნა: პაკეტმა შეიძლება ბიოლოგიური აქტივობა აჩვენოს, მაგრამ ჯერ არ ადგენს, რომ გაზომილი მიკრო-დისტროფინის ექსპრესია სანდო სუროგატია, რომელიც გონივრულ ფარგლებში სავარაუდოა, რომ კლინიკურ სარგებელს იწინასწარმეტყველებს. ძირითადი ხარვეზებია ანალიზის სპეციფიკურობა, არასწორი რაოდენობრივი სტანდარტები, შესაძლო რევერტანტული ბოჭკოების დამაბნეველი ფაქტორები, რანდომიზებული კონტროლის არქონა, ასაკთან დაკავშირებული NSAA და,აბნეველი ფაქტორები, გაურკვეველი გამძლეობა და გადაუჭრელი უსაფრთხოების/განზოგადებადობის საკითხები.

ხარვეზის აღმმოსაფხვრელად პროგრამას დასჭირდება კონტროლირებადი, ასაკის მიხედვიტ სტრატიფიცირებული კლინიკური დიზაინი ტრანსგენ-სპეციფიკური ექსპრესიის ანალიზებით, ორთოგონული ცილის რაოდენობრივი განსაზღვრით, ქსოვილის შემადგენლობის კონტროლით, გრძელვადიანი გამძლეობის მონაცემებით, შემოკლებული კონსტრუქტის მექანიზმური ფუნქციური ანალიზებით და უფრო ძლიერი უსაფრთხოების მონიტორინგით, განსაკუთრებით ღვიძლისა და გულის მხრივ.

შეფასების კრიტერიუმები და შეფასების ქულები

კრიტერიუმი
პუნქტები
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench-ის ვალიდაცია

LifeSciBench დამოუკიდებელი ექსპერტული მიმოხილვით დავავალიდირეთ. უკუკავშირი მივიღეთ 453 მიმომხილველისგან, რომლებიც დავალებების შექმნაში არ მონაწილეობდნენ. მათგან 97%-ს ჰქონდა Ph.D. ან ექვივალენტური დოქტორის ხარისხი, საშუალოდ 12 წლიანი დარგობრივი გამოცდილება და 14 რეცენზირებული პუბლიკაცია; 88%-მა აღნიშნა, რომ მინიმუმ ერთი ჯილდო ან სტიპენდია ჰქონდა მიღებული.

მიმომხილველებმა შეაფასეს, ასახავდა თუ არა თითოეული დავალება ძლიერი ბენჩმარკ-კითხვისთვის საჭირო თვისებებს: შესაბამისობას რეალურ კვლევით სამუშაოსთან, სამეცნიერო მსჯელობისა და დომენური ექსპერტიზის სათანადო შემოწმებას, მტკიცებულებაზე ან ექსპერტულ კონსენსუსზე დაფუძნებას და მოდელის მუშაობის შესაფასებლად საერთო სარგებლიანობას. თანხმობა ყველა კატეგორიაში 96%-ს აღემატებოდა.

რეალურ სამყაროსთან შესაბამისობა

ასახავს ეს დავალება რეალურ სამყაროში სიცოცხლის შემსწავლელ მეცნიერებებთან დაკავშირებულ პრაქტიკულ სამუშაოს?

სრულად ვეთანხმები
90.4%
მთლიანობაში ვეთანხმები
98.3%

მეცნიერული მსჯელობა / დარგობრივი კომპეტენცია

ამოწმებს და აფასებს ეს დავალება სწორ მეცნიერულ მსჯელობას და უნარებს სიცოცხლის შემსწავლელი მეცნიერებების სფეროში?

სრულად ვეთანხმები
86.4%
მთლიანობაში ვეთანხმები
98.1%

მეცნიერული დასაბუთება

არის ეს დავალება მეცნიერულად დასაბუთებული, პასუხგაცემადი და შესაბამის მტკიცებულებაზე, მონაცემებზე, არტეფაქტებზე ან ექსპერტულ კონსენსუსზე დაფუძნებული?

სრულად ვეთანხმები
77.1%
მთლიანობაში ვეთანხმები
96.5%

საერთო სარგებლიანობა

საერთო ჯამში, არის ეს ძლიერი შეფასებითი დავალება სიცოცხლის შემსწავლელი მეცნიერებების სფეროში?

სრულად ვეთანხმები
79.1%
მთლიანობაში ვეთანხმები
96.6%

მიმომხილველთა კომენტარებმა რაოდენობრივი შეფასებები გაამყარა:

1/3
საერთო ჯამში, ეს ძლიერი დავალებაა, რადგან ერთი სწორი ძირითადი ინტერპრეტაცია აქვს, თუმცა მაინც ტოვებს სივრცეს უკეთესი პასუხების გამოსარჩევად იმის მიხედვით, რამდენად ფრთხილად საზღვრავს ისინი გაურკვევლობას.

შედეგები

ჩვენ ორ ურთიერთშემავსებელ მეტრიკას ვანგარიშობთ. ჩაბარების მაჩვენებელი არის დავალებების პროცენტი, რომლებშიც მოდელი აღწევს დავალების დონის წარმატების 70%-იან ზღვარს. ქულა არის რუბრიკის საშუალო ჯილდო, რომელიც ინდივიდუალურ კრიტერიუმებზე ნაწილობრივ კრედიტს იძლევა მაშინაც, როცა სრული დავალება გადაწყვეტილი არ არის. ორივე მნიშვნელოვანია, რადგან სამეცნიერო დავალებაზე პასუხი შეიძლება ნაწილობრივ სწორი ან სასარგებლო იყოს სრული პასუხის ყველა მოთხოვნის დაკმაყოფილების გარეშეც.

მოდელის შედეგები მნიშვნელოვნად იცვლება დავალების ტიპის, სამუშაო პროცესისა და პასუხის ფორმატის მიხედვით.

სად ავლენენ AI სისტემები ადრეულ სიძლიერეს

LifeSciBench აჩვენებს, რომ მოწინავე მოდელები შედარებით ყველაზე ძლიერია სამეცნიერო სინთეზის, კომუნიკაციისა და სტრუქტურირებული ინტერპრეტაციის დავალებებში. აბსოლუტური ჩაბარების მაჩვენებლები ჯერაც მოკრძალებულია, ამიტომ ეს ბენჩმარკ-დომენები გაჯერებისგან შორსაა, თუმცა GPT‑Rosalind GPT‑5.5‑თან შედარებით მნიშვნელოვან პროგრესს აჩვენებს: საერთო ზუსტი ჩაბარება 25.7%-დან 36.1%-მდე იზრდება.

მოდელის შესაძლებლობების პროგრესის ყველაზე ძლიერი მიმართულებები ჩანს სამეცნიერო კომუნიკაციასა და ტრანსლაციაში. მაგალითად, სამეცნიერო კომუნიკაციაში ჩაბარების მაჩვენებელი GPT‑5.5‑ის 56.3%-დან GPT‑Rosalind‑ის 71.1%-მდე იზრდება; ეს კატეგორია მცირეა (n=9), ამიტომ სიფრთხილით უნდა განიმარტოს, თუმცა მიანიშნებს, რომ მოწინავე მოდელები სწრაფად უმჯობესდება მტკიცებულების ორგანიზებასა და ექსპერტებისთვის დამაჯერებელი ახსნების შექმნაში. ტრანსლაცია — წამლის განვითარების „ლაბორატორიიდან პაციენტამდე“ პროცესი — მსგავს სურათს აჩვენებს: GPT‑5.5‑ის 36.8%-დან GPT‑Rosalind‑ის 57.7%-მდე ზრდა მიანიშნებს, რომ მოდელები სწრაფად უმჯობესდება პრეკლინიკური მტკიცებულების კლინიკურ შედეგებთან დაკავშირებაში.

რუბრიკის დონის შედეგებიც იმავე მიმართულებაზე მიუთითებს. დავალებებზე, რომლებიც ექსპერტისთვის სასარგებლო ან ქმედით შედეგებს მოითხოვს, GPT‑Rosalind 44.7%-ს იღებს, GPT‑5.5‑ის 29.1%-თან შედარებით. დავალებებზე, რომლებიც გაურკვევლობისა და დათქმების მართვას მოითხოვს, მისი ქულა 44.8%-ია, 29.3%-თან შედარებით. ეს სურათი მიანიშნებს, რომ მოდელები ყველაზე სასარგებლოა მაშინ, როცა დავალებას მკაფიო მტკიცებულებითი საზღვარი აქვს და სტრუქტურირებულ სამეცნიერო განსჯას მოითხოვს.

GPT‑Rosalind-ი მოწინავე ეფექტიანობით გამოირჩევა დარგობრივი და აკადემიური ექსპერტების მიერ გამოვლენილ მეცნიერულად ღირებულ დავალებებში.

GPT‑Rosalind ლიდერობს ინდუსტრიისა და აკადემიური ექსპერტების მიერ განსაზღვრულ მეცნიერულად ღირებული ამოცანების განხორციელებაში.

GPT‑Rosalind ლიდერობს ინდუსტრიისა და აკადემიური ექსპერტების მიერ განსაზღვრულ მეცნიერულად ღირებული ამოცანების განხორციელებაში.

სად ჩამორჩებიან AI სისტემები

შედეგები ბევრად სუსტია არტეფაქტებით დატვირთულ, დიზაინზე ორიენტირებულ და ოპერაციულად შეზღუდულ სამეცნიერო სამუშაოში. კერძოდ, დიზაინი, ოპტიმიზაცია და პროგნოზირება ერთ-ერთ ურთულეს სამუშაო პროცესად რჩება: GPT‑Rosalind‑ის ჩაბარების მაჩვენებელი 30.7%-ია; ანალიზიც მსგავსად რთულია — 30.3%.

არტეფაქტების გამოყენება განსაკუთრებით მკაფიო ხარვეზია. მართალია, GPT‑Rosalind არტეფაქტებით დატვირთულ გარემოში GPT‑5.5‑ზე უკეთ მუშაობს, მაგრამ მისი ჩაბარების მაჩვენებელი მაინც 45.1%-დან ტექსტურ დავალებებში 28.1%-მდე ეცემა არტეფაქტების ან URL-ების მქონე დავალებებში. GPT‑5.5‑შიც იგივე სურათია: მაჩვენებელი 29.9%-დან 21.9%-მდე ეცემა. უფრო დეტალური ანალიზი ადასტურებს, რომ მოწინავე მოდელებს უჭირთ რთული ფიგურებიდან ან დიდი მიმდევრობის ფაილებიდან ინფორმაციის ამოღება და მისი საბოლოო პასუხში ინტეგრირება.

წარმატებით შესრულების მაჩვენებლები იკლებს, როცა დავალებები მოითხოვს წყაროებზე დაფუძნებულ მსჯელობას ან არტეფაქტებთან მუშაობას

მნიშვნელოვანია პასუხის ფორმატიც. დავალებები, რომლებიც ზუსტ მიმდევრობას, სტრუქტურას ან კონსტრუქტის დონის შედეგებს მოითხოვს, დაბალ ჩაბარების მაჩვენებლებს აჩვენებს: GPT‑Rosalind რიცხვით დავალებებში მხოლოდ 14.8%-ს აღწევს, ხოლო მიმდევრობის ან სტრუქტურის შედეგებში — 24.0%-ს. კონსტრუქტის გენერირების დავალებებიც მყიფეა: GPT‑Rosalind‑ის მაჩვენებელი 27.3%-ია და GPT‑5.5‑თან შედარებით მცირე გაუმჯობესებას აჩვენებს. ამ ხარვეზის ნაწილი შეიძლება ასახავდეს ზუსტპასუხიან დავალებებში უფრო მკაცრ შეფასების ზედაპირს, სადაც გამოთვლაში ან ფორმატირებაში მცირე სხვაობამაც შეიძლება პასუხი ჩაბარების ზღვარს ქვემოთ ჩამოიყვანოს. თუმცა ეს ჩავარდნები მეცნიერულად მნიშვნელოვანია, რადგან სიცოცხლის მეცნიერებების ბევრი სამუშაო პროცესი პირდაპირ გამოსაყენებლად საკმარისად ზუსტ შედეგებს მოითხოვს, მაგალითად CRISPR/HDR დონორის დიზაინში ან siRNA დიზაინში.

მოდელები ხშირად ნაწილობრივ მიდიან მიზნამდე, მაგრამ დავალებას ბოლომდე ვერ წყვეტენ. დავალებების დაახლოებით 14%-ში მოდელებმა მნიშვნელოვანი რუბრიკული კრედიტი მიიღეს, მიუხედავად იმისა, რომ ზუსტი ჩაბარების ზღვარს ვერ მიაღწიეს. GPT‑Rosalind‑ის შემთხვევაში 109 დავალებას ჰქონდა 20%-ზე დაბალი ჩაბარების მაჩვენებელი, თუმცა მაინც მიიღო რუბრიკის ჯილდოს მინიმუმ 50%. პრაქტიკაში ეს ნიშნავს, რომ მოდელებმა შეიძლება ამოიცნონ შესაბამისი მტკიცებულება ან შექმნან სარწმუნო ნაწილობრივი პასუხი, მაგრამ მაინც ჩავარდნენ, რადგან გამორჩებათ საკვანძო შეზღუდვა, გამოიყენებენ არასწორ მტკიცებულებას, არასრულად გამოთვლიან ან თავიანთ მსჯელობას მეცნიერულად სასარგებლო საბოლოო გადაწყვეტილებას არ დაუკავშირებენ.

შეზღუდვები და შემდეგი ნაბიჯები

LifeSciBench არის ნაბიჯი იმის გაზომვისკენ, რამდენად სასარგებლო შეიძლება იყოს AI სისტემები სიცოცხლის მეცნიერებების კვლევისთვის, მაგრამ ის ვერ ჩაანაცვლებს მოდელების შესწავლას ცოცხალ კვლევით გარემოში. ბენჩმარკი ფოკუსირებულია თვითკმარ დავალებებზე, რომლებიც განმეორებად ინდუსტრიულ სამუშაო პროცესებს ასახავს, ხოლო ბევრი სამეცნიერო სპეციალობა და დავალების ტიპი მის ამჟამინდელ ფარგლებს მიღმა რჩება. რეალური კვლევა იტერაციულია: მეცნიერები აგროვებენ ახალ მტკიცებულებას, ცვლიან ჰიპოთეზებს, გეგმავენ შემდგომ ექსპერიმენტებს და შედეგების გამოჩენასთან ერთად გეგმებს არგებენ.

ამიტომ LifeSciBench-ზე ძლიერი შედეგი უნდა განიმარტოს, როგორც რეალისტური დავალების დონის უნარის მტკიცებულება და არა როგორც შემდგომ კვლევით ზეგავლენაზე პირდაპირი საზომი. ბენჩმარკი ინდუსტრიულ სამუშაო პროცესებს ეფუძნება, მაგრამ ვერ ასახავს ცოცხალი კვლევითი პროგრამების სრულ მრავალფეროვნებასა და დინამიკას, სადაც პროგრესი დროში განვითარებულ ფაქტორებზეა დამოკიდებული.

შემდეგი ნაბიჯია ბენჩმარკის შედეგების დაკავშირება დანერგვის კვლევებთან ცოცხალ კვლევით სამუშაო პროცესებში. მიუხედავად იმისა, რომ LifeSciBench პრაქტიკოს მეცნიერებთან ერთად შეიქმნა, იმის გაზომვა, აჩქარებს თუ არა AI სისტემები აღმოჩენებს ან აუმჯობესებს R&D შედეგებს, მოითხოვს მოდელების გამოყენებისა და შედეგების შესწავლას რეალურ კვლევით გარემოში, უფრო გრძელ ჰორიზონტზე და მსჯელობის, უკუკავშირისა და ექსპერიმენტული შემდგომი ნაბიჯების რამდენიმე რაუნდში.

ჩაერთეთ

შეუწყვეთ ხელი ხელოვნური ინტელექტის ბენჩმარკების მომდევნო თაობის ფორმირებას სიცოცხლის შემსწავლელ მეცნიერებებში ან მოითხოვეთ წვდომა GPT-Rosalind-ზე.

ავტორი

OpenAI