17 czerwca 2026

Przedstawiamy LifeSciBench

System ocen napisany i zrecenzowany przez ekspertów, oparty na rzeczywistych badaniach z zakresu nauk przyrodniczych

Ładowanie…

Systemy agentowej sztucznej inteligencji coraz sprawniej wykonują zadania naukowe. Jednak ich użyteczność dla naukowców zależy od tego, jak dobrze radzą sobie ze złożonością prawdziwych badań. Taka praca rzadko przypomina pojedyncze pytanie sprawdzające znajomość faktu albo czysty problem predykcyjny. Badacze interpretują niepełne dowody, godzą sprzeczne wyniki, projektują trudne eksperymenty, rozwiązują problemy z testami, oceniają ryzyko translacyjne i decydują, co robić dalej w warunkach niepewności.

Obecne systemy ocen nie w pełni ujmują te zdolności. Wiele ewaluacji z zakresu nauk przyrodniczych skupia się na wąskich dziedzinach lub izolowanych umiejętnościach, co prowadzi do pytań o ustrukturyzowanym formacie i czystych odpowiedzi referencyjnych. Choć są wartościowe, często nie pozwalają naprawdę ocenić, czy model potrafi wnosić wkład w szerszy zakres pracy na poziomie badań.

Zaprojektowaliśmy LifeSciBench, aby pomóc wypełnić tę lukę. Każde zadanie opiera się na osądzie praktykujących naukowców z przygotowaniem na poziomie doktoratu i bezpośrednim doświadczeniem w prowadzeniu programów odkrywania leków w obszarze biotechnologii i farmacji.

LifeSciBench obejmuje 750 zadań napisanych przez ekspertów, obejmujących siedem procesów pracy i siedem dziedzin biologicznych.

1,062

Artefakty zadań

173

Naukowcy współtworzący zadania

19,020

Kryteria matrycy ocen

453

Recenzenci eksperci

Co mierzy LifeSciBench?

LifeSciBench mierzy, czy systemy AI potrafią wspierać realistyczne zadania badawcze z zakresu nauk przyrodniczych, a nie tylko odpowiadać na pytania z biologii. Aby zdefiniować taksonomię systemu ocen, zapytaliśmy naukowców, z których procesów pracy najczęściej korzystają w badaniach stosowanych. Następnie pogrupowaliśmy odpowiedzi w siedem powtarzających się kategorii: praca z dowodami, analiza, projektowanie i optymalizacja, rozumowanie naukowe, walidacja i operacje, translacja oraz komunikacja naukowa.

Każde zadanie ma strukturę prośby, jaką naukowiec mógłby skierować do kompetentnego współpracownika: polecenie naukowe, odpowiedni kontekst lub artefakty oraz odpowiedź otwarta. Matryce ocen napisane przez ekspertów oceniają, czy model potrafi podać właściwą odpowiedź na konkretny problem, z oczekiwanym przez naukowca poziomem szczegółowości, uzasadnienia, zastrzeżeń i formatowania.

Budowa zbioru danych

LifeSciBench ocenia rozumowanie naukowe oraz mniej jednoznacznie zdefiniowane praktyczne umiejętności potrzebne do rzeczywistego zastosowania w nauce. Zadania wymagają od modeli pracy nad realistycznymi problemami badawczymi: interpretacji dowodów, formułowania osądów osadzonych w danej dziedzinie nauk i komunikowania wniosków przydatnych dla recenzentów-ekspertów. Wiele zadań wymaga też od modeli radzenia sobie z niepewnością i rozumowania na podstawie plików z danymi pomocniczymi, a nie wyłącznie tekstu polecenia.

System ocen zaprojektowano tak, aby odzwierciedlał złożoność pracy w dziedzinie nauk przyrodniczych. Łącznie 79% zadań wymaga wielu kroków rozumowania lub podejmowania decyzji, średnio czterech kroków na zadanie. LifeSciBench zawiera 1062 załączone artefakty, w tym ryciny, pliki PDF, tabele, pliki sekwencji, pliki struktur lub związków chemicznych oraz odnośniki internetowe. Ponad połowa zadań (53%) wymaga od modeli interpretacji lub syntezy informacji z co najmniej jednego artefaktu.

Zadania stworzyło 173 ekspertów naukowych z różnych dyscyplin nauk przyrodniczych. Każdy naukowiec miał przygotowanie na poziomie doktoratu oraz doświadczenie w branży biotechnologicznej lub farmaceutycznej. Przed akceptacją zadania mogły przechodzić tyle cykli rewizji, ile było potrzebne, bez stałego limitu rund; zaakceptowane zadania miały średnio sześć samodzielnych automatycznych cykli przeglądu i ukończyły co najmniej dwie rundy recenzji eksperckich. Recenzje opierały się na weryfikowalnej poprawnej odpowiedzi albo silnym konsensusie ekspertów, przy co najmniej 90% zgodności recenzentów w danej domenie. Ten proces pomógł zapewnić, że zaakceptowane zadania są naukowo ugruntowane, wystarczająco jasne do oceniania i reprezentatywne dla badań stosowanych.

Diagram pokazujący zadania LifeSciBench, które łączą źródła danych z dziedziny nauk przyrodniczych, takie jak sekwencje genomowe, struktury molekularne, ryciny, dokumenty, arkusze kalkulacyjne i linki internetowe, z wieloetapowym rozumowaniem oraz recenzją ekspercką.

Ocenianie i podział matrycy ocen

Zadania LifeSciBench są oceniane według szczegółowych, specyficznych dla zadania matryc ocen, które rozbijają oczekiwaną odpowiedź na konkretne twierdzenia naukowe, obliczenia, decyzje, uzasadnienia i podobne elementy. W całym systemie ocen matryca opracowana przez ekspertów obejmują 19 020 kryteriów — średnio 25 na zadanie — aby oceniać zarówno poprawność naukową, jak i użyteczność dla decyzji badawczych.

Taka konstrukcja odzwierciedla praktyczną ocenę pracy naukowej: wielu zadań z zakresu nauk przyrodniczych nie da się ocenić przez sprawdzenie samej odpowiedzi końcowej. Odpowiedź może prowadzić do poprawnego wniosku ogólnego, a mimo to zostać uznana za niepełną, jeśli na przykład pomija kluczowe ograniczenie testu albo nie podnosi z wyprzedzeniem bardzo istotnego niuansu biologicznego. I odwrotnie, częściowa odpowiedź może zawierać wysokiej jakości rozumowanie, nawet jeśli nie rozwiązuje zadania w pełni.

Szczegółowe matryce ocen wychwytują ten niuans. LifeSciBench ocenia nie tylko trafność odpowiedzi końcowej, lecz także to, czy model dochodzi do niej w sposób naukowo prawidłowy i operacyjnie użyteczny.

Ekstrakcja, porządkowanie i weryfikacja dowodów naukowych z artykułów, rycin, tabel i zapisów eksperymentalnych.

Przykładowa ocena

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Odpowiedź kandydata

Wniosek końcowy: w obecnej formie pakiet nie jest wystarczająco silny, aby uzasadnić przyspieszoną rejestrację opartą na ekspresji mikro-dystrofiny jako zastępczego punktu końcowego, który w sposób uzasadniony przewiduje korzyść kliniczną. Sceptyczny recenzent FDA prawdopodobnie uznałby dowody dotyczące biomarkerów, funkcjonalności, trwałości, bezpieczeństwa i możliwości uogólnienia są zdecydowanie niewystarczające.

Element pakietu	Tryb niepowodzenia	Co byłoby potrzebne
Kwantyfikacja metodą western blot	MANEX1A wiąże N-terminalny epitop wspólny dla endogennej pełnej dystrofiny i transgenu mikro-dystrofiny, więc test nie odróżnia jednoznacznie transgenu od resztkowej/rewersyjnej dystrofiny. Kwantyfikacja mikro-dystrofiny 138 kDa względem standardu pełnej dystrofiny u zdrowej kontroli jest nieprawidłowa metodologicznie.	Rekombinowany standard mikro-dystrofiny oraz metoda ortogonalna odróżniająca transgen od dystrofiny endogennej, np. ukierunkowana spektrometria mas lub test swoisty dla transgenu/epitopu.
Immunofluorescencja	Przeciwciało C-terminalne (poliklonalne) jest nieadekwatne, ponieważ konstrukcja 138 kDa nie zawiera domeny C-terminalnej. U wielu pacjentów z DMD występują włókna rewersyjne, które mogą zachowywać epitopy C-terminalne. Włókna te mogą klonalnie się rozszerzać z wiekiem, co może zawyżać sygnał IF, szczególnie u starszych chłopców.	Powtórzenie IF z przeciwciałem rozpoznającym epitop obecny w transgenie, ale nieobecny w dystrofinie rewersyjnej. Oddzielna kwantyfikacja włókien dodatnich dla transgenu i włókien rewersyjnych.
Ważność zastępczego punktu końcowego	Pakiet miesza ilość białka z funkcją kliniczną. „38% masy białka zdrowej kontroli” nie oznacza 38% prawidłowej funkcji dystrofiny, ponieważ mikro-dystrofina jest strukturalnie skrócona.	Należy empirycznie sprawdzić zależność między procentową ilością mikro-dystrofiny, jej lokalizacją w sarkolemie, stopniem przywrócenia funkcji oraz rzeczywistą korzyścią kliniczną, zanim ekspresja zostanie uznana za wiarygodny zastępczy punkt końcowy.
Projekt biopsji	Pobrane przed i po leczeniu próbki z mięśnia szerokiego bocznego po przeciwnej stronie wprowadzają zmienność przestrzenną między lewą a prawą stroną oraz wewnątrzmięśniową. Postęp choroby i zastąpienie tkanki tłuszczowo-włóknistej mogą również wpływać na sygnał znormalizowany względem całkowitej zawartości białka.	Należy ustandaryzować miejsce biopsji przy użyciu spójnych punktów anatomicznych, normalizować wyniki względem białek swoistych dla mięśnia i równolegle mierzyć skład tkanki włóknisto-tłuszczowej.
Komparator NSAA / analiza statystyczna	Zewnętrzna kohorta historii naturalnej nie jest randomizowaną kontrolą równoczesną. Kwalifikacja do badania, opieka wspomagająca, efekty uczestnictwa, wyjściowy NSAA, schemat steroidoterapii, wiek i klasa eksonów mogą zniekształcać porównanie. Niesparowany test t nie jest wystarczający. Ponadto zmiana NSAA +1,4 mieści się w granicach zmienności między pomiarami dla danej grupy wiekowej.	Należy przeprowadzić randomizowane badanie z równoczesną grupą placebo lub przynajmniej zastosować analizy skorygowane o wyjściowy wynik NSAA, wiek, schemat steroidoterapii, klasę eksonów i inne czynniki zakłócające.
Wpływ przedziału wiekowego	Chłopcy w wieku 4–7 lat są w oknie rozwojowym, w którym nieleczeni pacjenci z DMD mogą początkowo wykazywać poprawę funkcji ruchowych, zanim zacznie dominować pogorszenie. 48-tygodniowa zmiana NSAA odzwierciedla jednocześnie rozwój dziecka, progresję choroby i potencjalny efekt leczenia.	Aby oddzielić naturalną trajektorię rozwoju od efektu terapeutycznego, należy zastosować równoczesną randomizowaną grupę kontrolną ze stratyfikacją według wieku.
Precedens kliniczny	Funkcjonalne sygnały skuteczności obserwowane w otwartych badaniach mikro-dystrofiny nie zawsze przekładały się na potwierdzenie korzyści w badaniach potwierdzających. Istnieją opublikowane przykłady terapii genowych opartych na mikro-dystrofinie, w których badania potwierdzające nie odtworzyły poprawy NSAA obserwowanej w badaniach otwartych.	Nie należy traktować zmian NSAA w badaniach otwartych jako rozstrzygającego dowodu skuteczności. Konieczne są kontrolowane dane funkcjonalne.
Ograniczenia strukturalne konstruktu	Konstrukt o masie 138 kDa nie zawiera powtórzeń spektrynowych R16/17, które obejmują miejsca wiązania nNOS. Utrata rekrutacji nNOS może upośledzać funkcjonalną sympatolizę i ochronę przed niedokrwieniem podczas wysiłku, tworząc mechanistyczne ograniczenie skuteczności niezależne od poziomu ekspresji.	Należy przeprowadzić badania mechanistyczne wykazujące, czy ten konkretny konstrukt odtwarza właściwą funkcję kompleksu dystrofinowego, lokalizację nNOS, fizjologię wysiłku i ochronę mięśni.
Trwałość AAV	Obecność genomów wektora po 12 tygodniach nie dowodzi trwałej ekspresji. Genomy AAV9 są głównie nieintegrującymi episomami i mogą z czasem zanikać. Utrzymywanie się genomu wektora to nie to samo co trwała ekspresja białka.	Należy ocenić długoterminową ekspresję transgenu oraz trwałość biomarkerów funkcjonalnych w okresie dłuższym niż 12 tygodni.
Profil immunologiczny i bezpieczeństwo	Podwyższenie aktywności aminotransferaz u 8 z 12 pacjentów jest zgodne z odpowiedzią immunologiczną na komórki transdukowane AAV, jednak mechanizm tego zjawiska nie został potwierdzony. Przypadek zapalenia mięśnia sercowego budzi szczególne obawy ze względu na tropizm sercowy AAV9.	Należy przedstawić bardziej szczegółową ocenę odpowiedzi immunologicznej, dokładniejszą charakterystykę bezpieczeństwa wątroby i serca oraz rozszerzony program monitorowania kardiologicznego.
Dobór pacjentów / możliwość uogólnienia wyników	Wykluczenie pacjentów z przeciwciałami neutralizującymi przeciwko AAV9 ogranicza możliwość uogólnienia wyników. Wykluczenie delecji eksonu 44 ogranicza zastosowanie do tej podgrupy chorych na DMD. Liczebność próby (n=12) jest zbyt mała, aby wiarygodnie ocenić bezpieczeństwo i skuteczność w szerszej populacji pacjentów z DMD.	W miarę możliwości należy poszerzyć kryteria kwalifikacji albo wstępnie określić analizy stratyfikowane według statusu przeciwciał, genotypu/klasy eksonów, wieku i wyjściowej sprawności funkcjonalnej przed wykorzystaniem wyników jako podstawy do szerokiej rejestracji.

Wniosek regulacyjny: Pakiet może wykazywać aktywność biologiczną, ale nie dowodzi jeszcze, że zmierzona ekspresja mikro-dystrofiny jest wiarygodnym punktem końcowym zastępczym, który z uzasadnionym prawdopodobieństwem przewiduje korzyść kliniczną. Główne luki to niewystarczająca swoistość testu, nieprawidłowe standardy kwantyfikacji, możliwy wpływ włókien rewersyjnych, brak randomizowanej kontroli, wpływ wieku na wyniki NSAA, niepewna trwałość efektu oraz nierozwiązane kwestie bezpieczeństwa i możliwości uogólnienia wyników.

Aby je usunąć, program wymaga kontrolowanego badania klinicznego ze stratyfikacją według wieku, metod pomiaru ekspresji specyficznych dla transgenu, ortogonalnej kwantyfikacji białka, kontroli składu tkankowego, długoterminowych danych dotyczących trwałości efektu, funkcjonalnych badań mechanistycznych dla skróconego konstruktu oraz bardziej rozbudowanego monitorowania bezpieczeństwa, szczególnie w zakresie wątroby i serca.

Kryteria i oceny dla rubryk

Kryterium

Punkty

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

Weryfikacja LifeSciBench

Zweryfikowaliśmy LifeSciBench w niezależnej recenzji eksperckiej. Opinie pochodziły od 453 recenzentów, którzy nie uczestniczyli w pisaniu zadań. Spośród nich 97% miało doktorat lub równoważny stopień naukowy, średnio 12 lat doświadczenia w dziedzinie i 14 publikacji recenzowanych; 88% otrzymało co najmniej jedną nagrodę lub stypendium.

Recenzenci oceniali, czy każde zadanie reprezentuje cechy wymagającego pytania testowego: zgodność z rzeczywistą pracą badawczą, odpowiednie sprawdzanie rozumowania naukowego i wiedzy branżowej, oparcie na dowodach lub konsensusie ekspertów oraz ogólną użyteczność do oceny wydajności modelu. Zgodność przekroczyła 96% w każdej kategorii.

Znaczenie w praktyce

Czy to zadanie odzwierciedla realistyczną pracę z dziedziny nauk przyrodniczych?

Zdecydowanie się zgadzam: 90.4%
Ogólnie się zgadzam: 98.3%

Rozumowanie naukowe / umiejętność branżowa

Czy to zadanie sprawdza i ocenia właściwe rozumowanie naukowe oraz umiejętności branżowe z zakresu nauk przyrodniczych?

Zdecydowanie się zgadzam: 86.4%
Ogólnie się zgadzam: 98.1%

Ugruntowanie naukowe

Czy to zadanie jest naukowo ugruntowane, możliwe do rozwiązania i oparte na odpowiednich dowodach, danych, artefaktach lub konsensusie ekspertów?

Zdecydowanie się zgadzam: 77.1%
Ogólnie się zgadzam: 96.5%

Ogólna użyteczność

Czy ogólnie jest to wymagające zadanie ewaluacyjne z zakresu nauk przyrodniczych?

Zdecydowanie się zgadzam: 79.1%
Ogólnie się zgadzam: 96.6%

Komentarze recenzentów potwierdziły oceny ilościowe:

1 z 3

“Ogólnie jest to wymagające zadanie, ponieważ ma jedną poprawną interpretację główną, a jednocześnie pozwala odróżnić lepsze odpowiedzi po tym, jak starannie wyznaczają granice niepewności.”

Wyniki

Raportujemy dwie uzupełniające się metryki. Odsetek zaliczeń to procent zadań, w których model spełnia próg sukcesu na poziomie zadania wynoszący 70%. Wynik to średnia nagroda z matrycy ocen, przyznająca częściowe zatwierdzenie za poszczególne kryteria nawet wtedy, gdy całe zadanie nie zostaje rozwiązane. Obie są ważne, ponieważ odpowiedź na zadanie naukowe może być częściowo poprawna lub użyteczna, nie spełniając wszystkich wymagań pełnej odpowiedzi.

Wydajność modelu znacznie różni się zależnie od typu zadania, procesu pracy i formatu odpowiedzi.

Gdzie systemy AI wykazują wczesne wysokie możliwości

LifeSciBench pokazuje, że modele graniczne są relatywnie najsilniejsze w zadaniach obejmujących syntezę naukową, komunikację i ustrukturyzowaną interpretację. Bezwzględne odsetki zaliczeń są wciąż umiarkowane, więc te obszary testu są dalekie od nasycenia, ale GPT‑Rosalind pokazuje istotny postęp względem GPT‑5.5, poprawiając ogólny dokładny odsetek zaliczeń z 25,7% do 36,1%.

Najsilniejsze kierunki postępu w możliwościach modeli widać w komunikacji naukowej i translacji. Na przykład odsetek zaliczeń w komunikacji naukowej rośnie z 56,3% dla GPT‑5.5 do 71,1% dla GPT‑Rosalind; ta kategoria jest mała (n=9), więc należy interpretować ją ostrożnie, ale sugeruje, że modele graniczne szybko poprawiają zdolność organizowania dowodów i tworzenia przekonujących wyjaśnień dla ekspertów. Translacja (proces rozwoju leków „od laboratorium do łóżka pacjenta”) pokazuje podobny wzorzec, rosnąc z 36,8% dla GPT‑5.5 do 57,7% dla GPT‑Rosalind, co sugeruje, że modele szybko poprawiają zdolność łączenia dowodów przedklinicznych z implikacjami klinicznymi.

Wyniki na poziomie matrycy ocen wskazują ten sam kierunek. W zadaniach wymagających wyników użytecznych dla ekspertów lub możliwych do działania GPT‑Rosalind uzyskuje 44,7%, wobec 29,1% dla GPT‑5.5. W zadaniach wymagających obsługi niepewności i zastrzeżeń uzyskuje 44,8%, wobec 29,3%. Ten wzorzec sugeruje, że modele są najbardziej użyteczne, gdy zadanie ma wyraźne granice dowodów i wymaga ustrukturyzowanego osądu naukowego.

GPT‑Rosalind osiąga najlepsze wyniki w naukowo wartościowych zadaniach wskazanych przez ekspertów z branży i środowiska akademickiego.

GPT‑Rosalind osiąga najlepsze wyniki w zadaniach naukowych wskazanych przez ekspertów branżowych i akademickich.

Gdzie systemy AI wciąż zawodzą

Wydajność pozostaje niska w pracy naukowej silnie opartej na artefaktach, projektowaniu i ograniczeniach operacyjnych. W szczególności projektowanie, optymalizacja i predykcja pozostają jednym z najtrudniejszych procesów pracy, z odsetkiem zaliczeń GPT‑Rosalind na poziomie 30,7%; analiza jest podobnie trudna — 30,3%.

Szczególnie wyraźną luką jest korzystanie z artefaktów. Chociaż GPT‑Rosalind radzi sobie lepiej niż GPT‑5.5 w warunkach z dużą liczbą artefaktów, jego odsetek zaliczeń nadal spada z 45,1% w zadaniach wyłącznie tekstowych do 28,1% w zadaniach z artefaktami lub adresami URL. GPT‑5.5 wykazuje ten sam wzorzec, spadając z 29,9% do 21,9%. Bardziej szczegółowa analiza potwierdza, że modele pionierskie mają trudności z wydobywaniem informacji ze złożonych rycin lub dużych plików sekwencji i integrowaniem ich z odpowiedzią końcową.

Odsetki zaliczeń spadają, gdy zadania wymagają rozumowania opartego na źródłach lub pracy z artefaktami

Znaczenie ma także format odpowiedzi. Zadania wymagające dokładnych sekwencji, struktur lub wyników na poziomie konstruktów mają niższe odsetki zaliczeń: GPT‑Rosalind osiąga tylko 14,8% w zadaniach numerycznych i 24,0% dla wyników sekwencyjnych lub strukturalnych. Zadania generowania konstruktów są także kruche: GPT‑Rosalind osiąga 27,3% i wykazuje niewielką poprawę względem GPT‑5.5. Część tej luki może wynikać z bardziej rygorystycznej powierzchni oceniania w zadaniach z dokładną odpowiedzią, gdzie niewielkie różnice w obliczeniach lub formatowaniu mogą zepchnąć odpowiedź poniżej progu zaliczenia. Mimo to te porażki są naukowo istotne, ponieważ wiele procesów w dziedzinie nauk przyrodniczych wymaga wyników wystarczająco dokładnych, by użyć ich bezpośrednio, np. w projektowaniu donorów CRISPR/HDR lub siRNA.

Modele często dochodzą też częściowo do celu, nie rozwiązując zadania w pełni. W około 14% zadań modele uzyskały znaczące zatwierdzenie w matrycy ocen, mimo że nie osiągnęły progu dokładnego zaliczenia. W przypadku GPT‑Rosalind 109 zadań miało odsetki zaliczeń poniżej 20%, a mimo to uzyskało co najmniej 50% nagrody z matrycy ocen. W praktyce oznacza to, że modele mogą wskazać istotne dowody lub stworzyć wiarygodną odpowiedź częściową, ale nadal ponieść porażkę, bo pomijają kluczowe ograniczenie, używają niewłaściwych dowodów, wykonują niepełne obliczenie albo nie łączą rozumowania z naukowo użyteczną decyzją końcową.

Ograniczenia i dalsze kroki

LifeSciBench to krok ku mierzeniu użyteczności systemów AI w badaniach przyrodniczych, ale nie zastępuje modeli naukowych w żywych środowiskach badawczych. Zakres testów skupia się na samodzielnych zadaniach odzwierciedlających powtarzalne procesy pracy w branży, pozostawiając poza obecnym zakresem wiele specjalności naukowych i typów zadań. Prawdziwe badania są iteracyjne: naukowcy zbierają nowe dowody, rewidują hipotezy, projektują eksperymenty następcze i dostosowują plany w miarę pojawiania się wyników.

Wysokie wyniki w LifeSciBench należy więc interpretować jako dowód realistycznej zdolności na poziomie zadania, a nie jako bezpośrednią miarę wpływu na dalsze badania. Testy są osadzone w procesach branżowych, ale nie oddają pełnej różnorodności ani dynamiki żywych programów badawczych, w których postęp zależy od czynników rozwijających się w czasie.

Kolejnym krokiem jest powiązanie wyników testów z badaniami wdrożeniowymi w prawdziwych procesach badawczych. Choć LifeSciBench opracowano przy współpracy z naukowcami, ocena, czy systemy AI przyspieszają odkrycia lub poprawiają wyniki B+R, będzie wymagała badania użycia i wydajności modeli w prawdziwych środowiskach badawczych, w dłuższych horyzontach oraz przez wiele rund rozumowania, informacji zwrotnej i eksperymentalnej kontynuacji.