Ana içeriğe atla
OpenAI

17 Haziran 2026

AraştırmaYayın

LifeSciBench’i Tanıtıyoruz

Gerçek yaşam bilimleri araştırmasına dayanan, uzmanlarca yazılıp incelenmiş bir kıyaslama

Yükleniyor...

Ajan tabanlı yapay zeka sistemleri bilimsel görevleri yerine getirme konusunda giderek daha yetkin hale geliyor. Ancak yaşam bilimleri araştırmacıları için yararlılıkları, gerçek araştırmanın karmaşıklığını ne kadar iyi ele aldıklarına bağlıdır. Bu çalışma nadiren tek bir bilgi hatırlama sorusuna veya temiz bir tahmin problemine benzer. Araştırmacılar eksik kanıtları yorumlar, çelişkili sonuçları uzlaştırır, zor deneyler tasarlar, analiz testlerinde sorun giderir, translasyonel riski değerlendirir ve belirsizlik altında bir sonraki adımı belirler.

Mevcut kıyaslamalar bu yetkinlikleri tam olarak yakalayamıyor. Yaşam bilimleri değerlendirmelerinin çoğu dar alanlara veya yalıtılmış becerilere odaklanır; bunun sonucunda yapılandırılmış soru biçimleri ve temiz referans yanıtları olan sorular ortaya çıkar. Değerli olsalar da, çoğu zaman bir modelin araştırma düzeyindeki çalışmaların daha geniş yelpazesinde katkı sağlayıp sağlayamayacağını gerçekten değerlendiremezler.

LifeSciBench’i bu boşluğu kapatmaya yardımcı olmak için tasarladık. Her görev, doktora düzeyinde eğitime ve biyoteknoloji ile ilaç sektörlerinde ilaç keşfi programlarını ilerletme konusunda doğrudan deneyime sahip, uygulamada çalışan yaşam bilimcilerin yargısına dayanır.

LifeSciBench, yedi iş akışı ve yedi biyolojik alanı kapsayan, uzmanlarca yazılmış 750 görev içerir.

1,062

Görev artefaktları

173

Bilim insanı katkıcılar

19,020

Rubrik ölçütleri

453

Uzman değerlendiriciler

LifeSciBench neyi ölçer

LifeSciBench, AI sistemlerinin yalnızca biyoloji sorularını yanıtlamasını değil, gerçekçi yaşam bilimleri araştırma görevlerini destekleyip destekleyemediğini ölçer. Kıyaslama taksonomisini tanımlamak için, uygulamalı araştırma ortamlarında en sık kullandıkları iş akışları hakkında sahada çalışan yaşam bilimcilerle anket yaptık. Ardından yanıtlarını yedi yinelenen kategoriye ayırdık: kanıt işleme, analiz, tasarım ve optimizasyon, bilimsel akıl yürütme, doğrulama ve operasyonlar, translasyon ve bilimsel iletişim.

Her görev, bir bilim insanının bilgili bir iş arkadaşına iletebileceği bir istek gibi yapılandırılır: bilimsel komut, ilgili bağlam veya artefaktlar ve serbest yanıtlı bir cevap. Uzmanlarca yazılmış rubrikler, bir modelin belirli bir problem için doğru yanıtı; bir bilim insanının bekleyeceği doğru ayrıntı, gerekçelendirme, çekince ve biçimlendirme düzeyiyle üretip üretemediğini değerlendirir.

Veri kümesi oluşturma

LifeSciBench, bilimsel akıl yürütmeyi gerçek dünyada bilimsel kullanım için gerekli olan daha az net tanımlanmış pratik becerilerle birlikte değerlendirir. Görevler, modellerden gerçekçi araştırma problemleri üzerinde çalışmalarını ister: kanıtları yorumlamak, alana dayalı yargılarda bulunmak ve uzman değerlendiriciler için yararlı olacak sonuçları iletmek. Birçok görev ayrıca modellerin yalnızca komut metnine dayanmak yerine belirsizliği ele almasını ve destekleyici veri dosyaları üzerinde akıl yürütmesini gerektirir.

Kıyaslama, yaşam bilimleri çalışmalarının karmaşıklığını yansıtacak şekilde tasarlanmıştır. Genel olarak görevlerin %79’u birden fazla akıl yürütme veya karar verme adımı gerektirir; görev başına ortalama dört adım bulunur. LifeSciBench; şekiller, PDF’ler, tablolar, sekans dosyaları, yapı veya kimyasal dosyaları ve web referanslarını kapsayan 1.062 ekli artefakt içerir. Görevlerin yarısından fazlası (%53), modellerin en az bir artefakttan bilgi yorumlamasını veya sentezlemesini gerektirir.

Görevler, farklı yaşam bilimleri disiplinlerinden 173 uzman bilim insanı tarafından oluşturuldu. Her bilim insanı doktora düzeyinde eğitime ve biyoteknoloji veya ilaç endüstrisi deneyimine sahipti. Görevler kabul edilmeden önce gerektiği kadar revizyon döngüsünden geçebildi; tur sayısına sabit bir üst sınır konmadı. Kabul edilen görevler ortalama altı kendi kendine yönlendirilen otomatik inceleme döngüsünden geçti ve en az iki tur uzman değerlendirmesini tamamladı. İncelemeler, doğrulanabilir bir doğru yanıta veya güçlü uzman mutabakatına dayandırıldı; ilgili alandaki değerlendiriciler arasında en az %90 uzlaşı arandı. Bu süreç, kabul edilen görevlerin bilimsel temellere dayanmasına, değerlendirilebilecek kadar açık olmasına ve uygulamalı araştırmayı temsil etmesine yardımcı oldu.

Genomik sekanslar, moleküler yapılar, şekiller, belgeler, elektronik tablolar ve web bağlantıları gibi yaşam bilimleri veri kaynaklarını çok adımlı akıl yürütme ve uzman incelemesiyle birleştiren LifeSciBench görevlerini gösteren diyagram.

Puanlama ve rubrik dağılımı

LifeSciBench görevleri, beklenen yanıtı belirli bilimsel iddialara, hesaplamalara, kararlara, gerekçelere ve benzer bileşenlere ayıran ayrıntılı, göreve özgü bir rubrikle puanlanır. Kıyaslama genelinde, uzmanlarca geliştirilen rubrikler 19.020 ölçüt içerir—görev başına ortalama 25—ve hem bilimsel doğruluğu hem de araştırma kararları için yararlılığı değerlendirir.

Bu tasarım, bilimsel çalışmanın pratikte nasıl değerlendirildiğini yansıtır: birçok yaşam bilimleri görevi yalnızca son yanıtı kontrol ederek puanlanamaz. Bir yanıt doğru üst düzey sonuca ulaşabilir; ancak örneğin önemli bir analiz testi sınırlamasını gözden kaçırırsa veya çok sonuç doğurabilecek biyolojik bir nüansı proaktif biçimde gündeme getirmezse yine de eksik sayılabilir. Buna karşılık, kısmi bir yanıt görevi tam olarak çözmese bile yüksek kaliteli akıl yürütme içerebilir.

Ayrıntılı rubrikler bu nüansı yakalar. LifeSciBench yalnızca son yanıtın doğruluğunu değil, bir modelin yanıtına bilimsel olarak geçerli ve operasyonel açıdan yararlı bir yolla ulaşıp ulaşmadığını da değerlendirir.

Makalelerden, şekillerden, tablolardan ve deney kayıtlarından bilimsel kanıtları çıkarma, uzlaştırma ve denetleme.

Değerlendirme Örneği

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

  • Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
  • 12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
  • Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
  • 48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
  • Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
  • Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
  • Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Aday Yanıt

Sonuç olarak: Sunulduğu şekliyle bu paket, klinik faydayı öngörmesi makul ölçüde muhtemel bir vekil sonlanım noktası olarak mikro-distrofin ekspresyonuna ilişkin hızlandırılmış onayı destekleyecek kadar güçlü değildir. Şüpheci bir FDA incelemecisi muhtemelen biyobelirteç, işlevsellik, dayanıklılık, güvenlik ve genellenebilirlik kanıtlarını maddi olarak yetersiz desteklenmiş olarak görecektir.

Paket Öğesi

Anahtar Arıza Modu

Neye İhtiyaç Olacak

Western blot kantifikasyonu

MANEX1A, endojen tam uzunlukta distrofin ve mikro-distrofin transgeni tarafından paylaşılan bir N-terminal epitopunu bağlar, bu nedenle tahlil, transgeni artık/revertant distrofinden net bir şekilde ayırt etmez. Sağlıklı bir tam uzunlukta distrofin standardına karşı 138 kDa mikro-distrofin ölçümü de geçersizdir.

Rekombinant bir mikro-distrofin standardı ve transgeni endojen distrofinden ayıran ortogonal bir yöntem kullanın, örneğin hedefli kütle spektrometrisi veya transgene özgü/epitopa özgü bir tahlil.

İmmünofloresan

C-terminal poliklonal antikor zayıf bir şekilde uygundur çünkü 138 kDa yapı C-terminal alanından yoksundur. Birçok DMD hastasında revertant lifler vardır ve revertant distrofin C-terminal epitoplarını koruyabilir. Revertant lifler yaşla birlikte klonal olarak genişleyebilir ve özellikle büyük erkek çocuklarda IF sinyalini saptırabilir.

Transgende bulunan ancak revertant distrofinde bulunmayan bir epitopa karşı bir antikorla IF'yi tekrarlayın. Transgen-pozitif lifleri revertant liflerden ayrı olarak ölçün.

Vekil son nokta geçerliliği

Paket, protein miktarı ile klinik işlevi birbirine karıştırmaktadır. "%38 sağlıklı kontrol protein kütlesi" %38 normal distrofin fonksiyonu anlamına gelmez çünkü mikro-distrofin yapısal olarak kesilmiştir.

Ekspresyonu vekil son nokta olarak ele almadan önce mikro-distrofin kütle yüzdesi, sarkolemmal lokalizasyon, aşağı akış fonksiyonel restorasyon ve klinik fayda arasındaki ilişkiyi ampirik olarak doğrulayın.

Biyopsi tasarımı

Tedavi öncesi ve sonrası kontralateral vastus lateralis biyopsileri sol-sağ ve kas içi uzamsal değişkenliği ortaya koymaktadır. Hastalığın ilerlemesi ve fibro-yağ değişimi de total-protein-normalize sinyali değiştirebilir.

Tutarlı anatomik işaretler kullanarak biyopsi bölgesini standartlaştırın, kasa özgü proteinlere normalleştirin ve paralel olarak fibro-yağ bileşimini ölçün.

NSAA karşılaştırıcı/istatistikler

Harici bir doğal tarih kohortu, randomize bir eş zamanlı kontrol değildir. Deneme uygunluğu, destekleyici bakım, katılım etkileri, başlangıçtaki NSAA, steroid rejimi, yaş ve ekson sınıfı karşılaştırmayı saptırabilir. Eşleştirilmemiş bir t-testi yeterli değildir. Ayrıca, +1,4 NSAA değişikliği bu yaş grubu için test-tekrar test değişkenliği dahilindedir.

Randomize eşzamanlı plasebo kontrollü bir çalışma yapın veya en azından başlangıçtaki NSAA, yaş, steroid rejimi, ekson sınıfı ve diğer karıştırıcıları hesaba katan düzeltilmiş analizler kullanın.

Yaş penceresi karıştırma

4-7 yaş arası erkek çocuklar, tedavi edilmemiş ambulatuvar DMD hastalarının gerileme baskın hale gelmeden önce motor fonksiyon kazanabileceği gelişimsel bir pencerededir. 48 haftalık bir NSAA değişikliği gelişimsel kazanım, hastalık ilerlemesi ve olası tedavi etkisini karıştırır.

Gelişimsel yörüngeyi tedavi etkisinden ayırmak için yaş katmanlı eşzamanlı randomize kontrol kullanın.

Önceki klinik emsaller

Açık etiketli mikro-distrofin fonksiyonel sinyalleri doğrulayıcı faydayı güvenilir bir şekilde tahmin etmemiştir; yayınlanmış emsal, açık etiketli NSAA iyileştirmelerini yeniden üretemeyen mikro-distrofin gen tedavisi doğrulayıcı denemelerini içerir.

Belirleyici destek olarak açık etiketli NSAA değişikliğine güvenmeyin. Kontrollü işlevsel kanıt gerektirir.

Yapının yapısal sınırları

138 kDa yapı, nNOS bağlayıcı bölgeler içeren R16/17 spektrin tekrarlarını siler. NNOS işe alımının kaybı, egzersiz sırasında fonksiyonel sempatoliz ve iskemi korumasını bozabilir ve ekspresyon seviyesinden bağımsız olarak kurtarma üzerinde mekanik bir tavan oluşturur.

Bu spesifik yapının ilgili distrofinle ilişkili kompleks işlevini, nNOS lokalizasyonunu, egzersiz fizyolojisini ve kas korumasını geri kazanıp kazanmadığını gösteren mekanik çalışmalar ekleyin.

AAV dayanıklılığı

Vektör genomları 12 haftada kalıcı ifade oluşturmaz. AAV9 genomları büyük ölçüde entegre olmayan epizomlardır ve zaman içinde azalabilir. Vektör-genom kalıcılığı, kalıcı protein ifadesiyle aynı şey değildir.

Boylamsal transgen protein ekspresyonunu ve fonksiyonel biyobelirteç dayanıklılığını 12 haftadan sonra ölçün.

Bağışıklık/güvenlik profili

8/12 hastadaki transaminit, AAV ile transdüklenmiş hücrelere karşı immün yanıt ile uyumludur, ancak mekanizma belirlenmemiştir. AAV9 kardiyak tropizmi göz önüne alındığında bir miyokardit vakası endişe vericidir.

Daha derin immün izleme, karaciğer/kardiyak güvenlik karakterizasyonu ve yoğunlaştırılmış kardiyak takip sağlayın.

Hasta seçimi/genelleştirilebilirlik

Anti-AAV9 nötralize edici antikor pozitif hastaların hariç tutulması genelleştirilebilirliği sınırlamaktadır. Ekzon-44 delesyonlarının hariç tutulması, bu DMD alt grubuna uygulanabilirliği sınırlamaktadır. n=12, daha geniş DMD popülasyonunda güvenlik ve etkinliği karakterize etmek için çok küçüktür.

Mümkün olduğunda uygunluğu genişletin veya geniş onayı desteklemek için sonucu kullanmadan önce antikor durumu, genotip/ekzon sınıfı, yaş ve başlangıçtaki fonksiyona göre tabakalı analizleri önceden belirleyin.

Düzenleyici sonuç: Paket biyolojik aktivite gösterebilir, ancak ölçülen mikro-distrofin ekspresyonunun klinik faydayı öngörmesi makul ölçüde muhtemel güvenilir bir vekil olduğunu henüz ortaya koymamaktadır. Ana boşluklar tahlil özgüllüğü, geçersiz miktar belirleme standartları, olası revertant-fiber karıştırma, randomize kontrol eksikliği, yaşa bağlı NSAA karıştırma, belirsiz dayanıklılık ve çözülmemiş güvenlik/genelleştirilebilirlik sorunlarıdır.

Açığı kapatmak için, programın transgene özgü ekspresyon deneyleri, ortogonal protein ölçümü, doku bileşimi kontrolleri, uzunlamasına dayanıklılık verileri, kesilmiş yapı için mekanistik fonksiyonel deneyler ve özellikle hepatik ve kardiyak olmak üzere daha güçlü güvenlik izlemesi ile kontrollü, yaşa göre tabakalandırılmış bir klinik tasarıma ihtiyacı olacaktır.

Puanlama Kriterleri ve Notlar

Kriter
Puan
Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.
+24
Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.
+22
Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.
+19
Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.
+12
Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.
+15
Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.
+8

LifeSciBench’in doğrulanması

LifeSciBench’i bağımsız bir uzman incelemesiyle doğruladık. Geri bildirim, görevlerin yazımına dahil olmayan 453 değerlendiriciden geldi. Bu değerlendiricilerin %97’si doktora veya eşdeğer bir doktora derecesine sahipti; ortalama 12 yıllık alan deneyimleri ve 14 hakemli yayınları vardı. %88’i en az bir ödül veya burs aldığını bildirdi.

Değerlendiriciler, her görevin güçlü bir kıyaslama sorusu için gereken nitelikleri yansıtıp yansıtmadığını puanladı: gerçek dünya araştırma çalışmalarıyla uyum, bilimsel akıl yürütme ve alan uzmanlığını uygun biçimde test etme, kanıta veya uzman mutabakatına dayanma ve model performansını değerlendirmede genel yararlılık. Uzlaşı her kategoride %96’yı aştı.

Gerçek dünya uygunluğu

Bu görev gerçekçi yaşam bilimleri çalışmalarını yansıtıyor mu?

Kesinlikle katılıyorum
90.4%
Genel olarak katılıyorum
98.3%

Bilimsel akıl yürütme / alan becerisi

Bu görev doğru bilimsel akıl yürütme ve yaşam bilimleri alan becerilerini test edip değerlendiriyor mu?

Kesinlikle katılıyorum
86.4%
Genel olarak katılıyorum
98.1%

Bilimsel dayanak

Bu görev bilimsel temellere dayanıyor, yanıtlanabilir nitelikte ve uygun kanıtlara, verilere, artefaktlara veya uzman mutabakatına bağlı mı?

Kesinlikle katılıyorum
77.1%
Genel olarak katılıyorum
96.5%

Genel yararlılık

Genel olarak bu güçlü bir yaşam bilimleri değerlendirme görevi mi?

Kesinlikle katılıyorum
79.1%
Genel olarak katılıyorum
96.6%

Değerlendirici yorumları nicel puanları destekledi:

1 / 3
Genel olarak güçlü bir görev; çünkü tek bir doğru temel yoruma sahipken, daha iyi yanıtları belirsizliği ne kadar dikkatle sınırlandırdıklarına göre ayırt etmeye de alan bırakıyor.

Sonuçlar

Birbirini tamamlayan iki metrik raporluyoruz. Başarı oranı, bir modelin görev düzeyindeki %70 başarı eşiğini karşıladığı görevlerin yüzdesidir. Skor, görevin tamamı çözülmese bile tek tek ölçütlere kısmi kredi veren ortalama rubrik ödülüdür. İkisi de önemlidir; çünkü bilimsel bir göreve verilen yanıt, eksiksiz bir cevap için gereken her koşulu karşılamadan da kısmen doğru veya yararlı olabilir.

Model performansı görev türüne, iş akışına ve yanıt biçimine göre önemli ölçüde değişir.

AI sistemlerinin erken güçlü olduğu alanlar

LifeSciBench, öncü modellerin bilimsel sentez, iletişim ve yapılandırılmış yorumlama içeren görevlerde görece en güçlü olduğunu gösteriyor. Mutlak başarı oranları hâlâ mütevazı; dolayısıyla bu kıyaslama alanları doygunluktan uzak. Ancak GPT‑Rosalind, GPT‑5.5’e göre anlamlı ilerleme göstererek genel kesin başarı oranını %25,7’den %36,1’e çıkarıyor.

Model yetkinliklerindeki en güçlü ilerleme yönleri Bilimsel İletişim ve Translasyon alanlarında görülüyor. Örneğin, Bilimsel İletişim başarı oranı GPT‑5.5 için %56,3’ten GPT‑Rosalind için %71,1’e yükseliyor; bu kategori küçük (n=9) olduğundan temkinli yorumlanmalı, ancak öncü modellerin kanıtları düzenleme ve uzmanlara yönelik ikna edici açıklamalar üretme becerisinde hızla geliştiğini düşündürüyor. Translasyon (ilaç geliştirmede “tezgâhtan hasta başına” süreci) benzer bir örüntü gösteriyor; GPT‑5.5 için %36,8’den GPT‑Rosalind için %57,7’ye yükselerek modellerin klinik öncesi kanıtları klinik sonuçlarla ilişkilendirme becerisinde hızla geliştiğini düşündürüyor.

Rubrik düzeyindeki sonuçlar da aynı yöne işaret ediyor. Uzman için yararlı veya eyleme geçirilebilir çıktılar gerektiren görevlerde GPT‑Rosalind %44,7 puan alırken, GPT‑5.5 %29,1’de kalıyor. Belirsizlik ve çekincelerin ele alınmasını gerektiren görevlerde ise %44,8 puan alıyor; karşılaştırma değeri %29,3. Bu örüntü, görevin net bir kanıt sınırı olduğunda ve yapılandırılmış bilimsel yargı gerektirdiğinde modellerin en yararlı hale geldiğini düşündürüyor.

GPT‑Rosalind, sektör ve akademi uzmanlarınca belirlenen bilimsel açıdan değerli görevlerde performansa öncülük ediyor.

GPT‑Rosalind, sektör ve akademi uzmanlarınca belirlenen bilimsel açıdan değerli görevlerde performansa öncülük ediyor.

GPT‑Rosalind, sektör ve akademi uzmanlarınca belirlenen bilimsel açıdan değerli görevlerde performansa öncülük ediyor.

AI sistemlerinin hâlâ yetersiz kaldığı alanlar

Performans; artefakt ağırlıklı, tasarım ağırlıklı ve operasyonel kısıtları olan bilimsel çalışmalarda çok daha zayıf kalıyor. Özellikle Tasarım, Optimizasyon ve Tahmin en zor iş akışlarından biri olmaya devam ediyor; GPT‑Rosalind’in başarı oranı %30,7. Analiz de %30,3 ile benzer ölçüde zor.

Artefakt kullanımı özellikle belirgin bir boşluk. GPT‑Rosalind artefakt ağırlıklı ortamlarda GPT‑5.5’ten daha iyi performans gösterse de başarı oranı yalnızca metin içeren görevlerde %45,1 iken artefakt veya URL içeren görevlerde %28,1’e düşüyor. GPT‑5.5 de aynı örüntüyü gösteriyor ve %29,9’dan %21,9’a düşüyor. Daha ayrıntılı bir analiz, öncü modellerin karmaşık şekillerden veya büyük sekans dosyalarından bilgi çıkarma ve bu bilgiyi son yanıta entegre etme konusunda zorlandığını doğruluyor.

Görevler kaynağa dayalı akıl yürütme veya artefaktlarla çalışmayı gerektirdiğinde başarı oranları düşer

Yanıt biçimi de önemlidir. Kesin sekans, yapı veya konstrükt düzeyi çıktılar gerektiren görevler daha düşük başarı oranları gösterir: GPT‑Rosalind sayısal görevlerde yalnızca %14,8’e, sekans veya yapı çıktılarında %24,0’a ulaşır. Konstrükt üretme görevleri de kırılgandır; GPT‑Rosalind %27,3 düzeyindedir ve GPT‑5.5’e göre çok az iyileşme gösterir. Bu açığın bir kısmı, hesaplama veya biçimlendirmedeki küçük farkların bir yanıtın başarı eşiğinin altında kalmasına yol açabildiği kesin yanıtlı görevlerdeki daha katı puanlama yüzeyini yansıtıyor olabilir. Yine de bu başarısızlıklar bilimsel açıdan anlamlıdır; çünkü CRISPR/HDR donör tasarımı veya siRNA tasarımı gibi birçok yaşam bilimleri iş akışı, doğrudan kullanılabilecek kadar kesin çıktılar gerektirir.

Modeller ayrıca çoğu zaman görevi tam çözmeden yolun bir kısmını kat eder. Görevlerin yaklaşık %14’ünde modeller, kesin başarı eşiğini geçememelerine rağmen kayda değer rubrik kredisi aldı. GPT‑Rosalind için 109 görevde başarı oranları %20’nin altında kaldı; buna rağmen en az %50 rubrik ödülü elde edildi. Pratikte bu, modellerin ilgili kanıtları belirleyebileceği veya makul bir kısmi yanıt üretebileceği; ancak önemli bir kısıtı kaçırdıkları, yanlış kanıtı kullandıkları, eksik hesaplama yaptıkları veya akıl yürütmelerini bilimsel olarak yararlı bir nihai karara bağlamadıkları için yine de başarısız olabilecekleri anlamına gelir.

Sınırlamalar ve sırada ne var

LifeSciBench, AI sistemlerinin yaşam bilimleri araştırmaları için ne kadar yararlı olabileceğini ölçmeye yönelik bir adımdır; ancak modelleri canlı araştırma ortamlarında incelemenin yerine geçmez. Kıyaslama, tekrarlayan sektör iş akışlarını yansıtan kendi içinde tamamlanan görevlere odaklanır; ancak birçok bilimsel uzmanlık alanı ve görev türü mevcut kapsamının dışında kalır. Gerçek araştırma yinelemelidir: bilim insanları yeni kanıtlar toplar, hipotezleri gözden geçirir, takip deneyleri tasarlar ve sonuçlar ortaya çıktıkça planlarını uyarlar.

Bu nedenle LifeSciBench’te güçlü performans, aşağı akış araştırma etkisinin doğrudan bir ölçüsü olarak değil, gerçekçi görev düzeyi yetkinliğin kanıtı olarak yorumlanmalıdır. Kıyaslama sektör iş akışlarına dayanır; ancak ilerlemenin zaman içinde ortaya çıkan etkenlere bağlı olduğu canlı araştırma programlarının tüm çeşitliliğini veya dinamiklerini yakalamaz.

Bir sonraki adım, kıyaslama performansını canlı araştırma iş akışlarındaki dağıtım çalışmalarıyla ilişkilendirmektir. LifeSciBench sahada çalışan bilim insanlarıyla geliştirilmiş olsa da, AI sistemlerinin keşfi hızlandırıp hızlandırmadığını veya Ar-Ge sonuçlarını iyileştirip iyileştirmediğini ölçmek için model kullanımını ve performansını gerçek araştırma ortamlarında, daha uzun zaman dilimlerinde ve birden çok akıl yürütme, geri bildirim ve deneysel takip turu boyunca incelemek gerekecektir.

Katılın

Yeni nesil yaşam bilimleri AI kıyaslamalarını şekillendirmeye yardımcı olun veya GPT-Rosalind’e erişim isteyin.

Yazar

OpenAI