2026 оны зургаадугаар сарын 17

LifeSciBench-ийг танилцуулж байна

Бодит амьдралын шинжлэх ухааны судалгаанд тулгуурласан, мэргэжилтний бичиж үнэлсэн бенчмарк

Ачаалж байна…

Агент AI системүүд шинжлэх ухааны даалгавар гүйцэтгэх чадвараа улам нэмэгдүүлж байна. Гэвч амьдралын шинжлэх ухааны судлаачдад хэр ашигтай байх нь бодит судалгааны төвөгтэй байдлыг хэр сайн зохицуулахаас хамаарна. Ийм ажил нь ихэвчлэн ганц баримт сануулах асуулт эсвэл цэвэр таамаглалын бодлого шиг байдаггүй. Судлаачид бүрэн бус нотолгоог тайлбарлаж, зөрчилтэй үр дүнг нийцүүлж, хэцүү туршилт зохиож, шинжилгээний доголдлыг засаж, орчуулгын эрсдэлийг үнэлж, тодорхойгүй нөхцөлд дараа нь юу хийхээ шийддэг.

Одоогийн бенчмаркууд эдгээр чадварыг бүрэн хамарч чаддаггүй. Амьдралын шинжлэх ухааны олон үнэлгээ нарийн салбар эсвэл тусгаар ур чадварт төвлөрдөг тул бүтэцтэй асуултын хэлбэр, цэвэр лавлах хариулттай асуултууд бий болдог. Үнэ цэнтэй ч тэд загвар судалгааны түвшний өргөн хүрээний ажилд хувь нэмэр оруулж чадах эсэхийг ихэнхдээ жинхэнэ утгаар нь үнэлж чаддаггүй.

Бид энэ зөрүүг нөхөхөд туслахын тулд LifeSciBench-ийг зохион бүтээсэн. Даалгавар бүр нь Ph.D.-ийн түвшний сургалттай, биотехнологи болон эмийн салбарт эм нээх хөтөлбөрийг ахиулж байсан шууд туршлагатай ажиллаж буй амьдралын шинжлэх ухаанчдын шүүлтэд тулгуурласан.

LifeSciBench нь долоон ажлын урсгал, долоон биологийн салбарыг хамарсан, мэргэжилтнүүдийн бичсэн 750 даалгавартай.

1,062

Даалгаврын артефактууд

173

Эрдэмтэн хувь нэмэр оруулагчид

19,020

Рубрикийн шалгуурууд

453

Мэргэжилтэн үнэлэгчид

LifeSciBench юуг хэмждэг вэ

LifeSciBench нь AI системүүд зөвхөн биологийн асуултад хариулахаас гадна бодит амьдралын шинжлэх ухааны судалгааны даалгаврыг дэмжиж чадах эсэхийг хэмждэг. Бенчмаркийн таксономийг тодорхойлохын тулд бид хэрэглээний судалгааны орчинд хамгийн их ашигладаг ажлын урсгалынх нь талаар ажиллаж буй амьдралын шинжлэх ухаанчдаас судалгаа авсан. Дараа нь бид тэдний хариултыг давтагддаг долоон ангилалд бүлэглэсэн: нотолгоотой ажиллах, шинжилгээ, дизайн ба оновчлол, шинжлэх ухааны сэтгэн бодох, баталгаажуулалт ба үйл ажиллагаа, орчуулга, шинжлэх ухааны харилцаа.

Даалгавар бүр нь эрдэмтэн мэдлэгтэй хамтран ажиллагчид өгч болох хүсэлт шиг бүтэцтэй: шинжлэх ухааны өгөгдөл, холбогдох контекст эсвэл артефакт, чөлөөт хариулт. Мэргэжилтний бичсэн рубрикууд нь загвар тодорхой асуудалд эрдэмтний хүлээх зөв түвшний дэлгэрэнгүй, үндэслэл, анхааруулга болон форматтай зөв хариулт гаргаж чадах эсэхийг үнэлдэг.

Өгөгдлийн багц бүрдүүлэлт

LifeSciBench нь бодит ертөнцөд шинжлэх ухаанд ашиглахад шаардлагатай, тодорхойлоход харьцангуй хэцүү практик ур чадвартай хамт шинжлэх ухааны сэтгэн бодох чадварыг үнэлдэг. Даалгаврууд нь загваруудаас бодит судалгааны асуудлыг шийдвэрлүүлэхийг шаарддаг: нотолгоог тайлбарлах, салбарын үндэслэлтэй шүүлт хийх, мэргэжилтэн үнэлэгчдэд ашигтай дүгнэлт дамжуулах. Олон даалгавар нь зөвхөн өгөгдөл текстэд найдахын оронд тодорхойгүй байдлыг зохицуулж, дэмжих өгөгдлийн файлууд дээр сэтгэн бодохыг загваруудаас шаарддаг.

Энэхүү бенчмарк нь амьдралын шинжлэх ухааны ажлын төвөгтэй байдлыг тусгахаар бүтээгдсэн. Нийтдээ даалгаврын 79% нь олон сэтгэн бодох эсвэл шийдвэр гаргах алхам шаарддаг бөгөөд нэг даалгаварт дунджаар дөрвөн алхам ногдоно. LifeSciBench нь зураг, PDF, хүснэгт, дарааллын файл, бүтэц эсвэл химийн файл, веб лавлагааг хамарсан 1,062 хавсаргасан артефакттай. Даалгаврын талаас илүү нь (53%) дор хаяж нэг артефактаас мэдээлэл тайлбарлах эсвэл нэгтгэхийг загваруудаас шаарддаг.

Даалгавруудыг амьдралын шинжлэх ухааны өөр өөр чиглэлийн 173 мэргэжилтэн эрдэмтэн бүтээсэн. Эрдэмтэн бүр Ph.D.-ийн түвшний сургалттай, биотехнологи эсвэл эмийн үйлдвэрлэлийн туршлагатай байсан. Даалгаврууд хүлээн зөвшөөрөгдөхөөсөө өмнө шаардлагатай тооны засварын мөчлөгөөр орж болох бөгөөд мөчлөгийн тоонд тогтмол дээд хязгаар тавиагүй; хүлээн зөвшөөрөгдсөн даалгаврууд дунджаар өөрөө чиглүүлсэн автомат хяналтын зургаан мөчлөг туулж, мэргэжилтний үнэлгээний дор хаяж хоёр үе шатыг дуусгасан. Үнэлгээнүүд нь шалгаж болох зөв хариулт эсвэл хүчтэй мэргэжилтний зөвшилцөлд тулгуурласан бөгөөд холбогдох салбарын үнэлэгчдийн дунд дор хаяж 90% санал нэгдсэн байв. Энэ үйл явц нь хүлээн зөвшөөрөгдсөн даалгаврууд шинжлэх ухааны үндэслэлтэй, үнэлэхэд хангалттай тодорхой, хэрэглээний судалгааг төлөөлөхүйц байхыг баталгаажуулахад тусалсан.

Геномын дараалал, молекулын бүтэц, зураг, баримт бичиг, хүснэгт болон веб холбоос зэрэг амьдралын шинжлэх ухааны өгөгдлийн эх сурвалжийг олон алхамт сэтгэн бодох ба мэргэжилтний үнэлгээтэй хослуулсан LifeSciBench даалгавруудыг харуулсан диаграмм.

Үнэлгээ ба рубрикийн задаргаа

LifeSciBench-ийн даалгавруудыг хүлээгдэж буй хариултыг тодорхой шинжлэх ухааны нотолгоо, тооцоо, шийдвэр, үндэслэл гэх мэт хэсгүүдэд задалдаг дэлгэрэнгүй, даалгаварт тусгайлсан рубрикаар үнэлдэг. Бенчмаркийн хэмжээнд мэргэжилтнүүдийн боловсруулсан рубрикууд 19,020 шалгууртай — нэг даалгаварт дунджаар 25 — бөгөөд шинжлэх ухааны зөв байдал болон судалгааны шийдвэрт ашигтай байдлыг хоёуланг нь үнэлдэг.

Энэ загвар нь шинжлэх ухааны ажил практикт хэрхэн үнэлэгддэгийг тусгадаг: амьдралын шинжлэх ухааны олон даалгаврыг зөвхөн эцсийн хариултыг шалгаж үнэлэх боломжгүй. Хариулт өндөр түвшний зөв дүгнэлтэд хүрсэн ч, жишээлбэл гол шинжилгээний хязгаарлалтыг орхигдуулах эсвэл маш чухал биологийн нарийн ялгааг санаачилгатай дурдахгүй бол бүрэн бус гэж үнэлэгдэж болно. Эсрэгээрээ, хэсэгчилсэн хариулт даалгаврыг бүрэн шийдээгүй байсан ч өндөр чанартай сэтгэн бодох агуулж болно.

Нарийвчилсан рубрикууд энэ нарийн ялгааг барьж авдаг. LifeSciBench нь зөвхөн эцсийн хариултын үнэн зөв байдлыг бус, загвар хариултдаа шинжлэх ухааны хувьд хүчинтэй, үйл ажиллагааны хувьд ашигтай замаар хүрч байгаа эсэхийг үнэлдэг.

Өгүүлэл, зураг, хүснэгт, туршилтын бүртгэлээс шинжлэх ухааны нотолгоог гарган авах, нийцүүлэх, аудит хийх.

Үнэлгээний жишээ

We’re preparing for a Type B FDA meeting on AAV9-microDys-X, an AAV9-based micro-dystrophin gene therapy for Duchenne muscular dystrophy that expresses a 138 kDa construct from an MCK promoter, and we want a hard-nosed critique of whether our current package really supports accelerated approval on micro-dystrophin expression as a surrogate endpoint reasonably likely to predict clinical benefit.

Study context: open-label Phase 1b/2 in 12 ambulatory boys age 4–7 with confirmed DMD and out-of-frame rod-domain deletions. The package is:

Pre-treatment vastus lateralis biopsies: 0–3% of healthy-control dystrophin by quantitative Western blot using MANEX1A against the N-terminal actin-binding domain.
12-week post-treatment contralateral vastus lateralis biopsies: mean micro-dystrophin 38% of healthy control (range 18–61%) by the same Western blot, normalized to total protein by Coomassie staining.
Post-treatment immunofluorescence: sarcolemmal signal in 75–95% of fibers using a polyclonal anti-dystrophin C-terminal antibody.
48-week function: mean NSAA change +1.4 points from baseline versus −0.6 in an external published natural-history registry cohort (p = 0.03 by unpaired t-test).
Safety: transient transaminitis in 8/12 patients managed with steroid taper; one resolved myocarditis; no deaths.
Biodistribution/persistence: AAV9 vector genomes detectable in muscle at 12 weeks at a mean of 2.3 vector genomes per nucleus.
Eligibility: no baseline anti-AAV9 neutralizing antibodies (titer <1:400) and no exon-44 deletions.

Please pressure-test this package item by item: where would FDA or a skeptical reviewer say the evidence, as presented, fails to support our conclusion, and what additional data, analyses, or design changes would be needed to close those gaps if possible? For anything not specified, assume what is known from other clinical-grade 138 kDa micro-dystrophin programs and relevant clinical trials through December 31, 2025 also applies.

Нэр дэвшигчийн хариу

Гол дүгнэлт: Танилцуулсан байдлаар энэ багц нь micro-dystrophin илэрхийллийг клиникийн үр ашгийг таамаглах магадлалтай surrogate endpoint болгон түргэвчилсэн зөвшөөрөл дэмжихэд хангалттай хүчтэй биш. Эргэлзээтэй FDA хянагч biomarker, үйл ажиллагаа, тогтвортой байдал, аюулгүй байдал, ерөнхийшүүлэх нотолгоог материаллаг дутуу дэмжигдсэн гэж үзэх магадлалтай.

Багцын зүйл	Гол бүтэлгүйтлийн хэлбэр	Юу шаардлагатай вэ
Western blot тоон хэмжилт	MANEX1A нь эндоген бүтэн урт dystrophin ба micro-dystrophin transgene-д нийтлэг N-terminal epitope-д холбогддог тул assay нь transgene-ийг residual/revertant dystrophin-оос цэвэр ялгахгүй. 138 kDa micro-dystrophin-ийг эрүүл бүтэн урт dystrophin стандарттай харьцуулан тоон хэмжих нь мөн хүчингүй.	Рекомбинант micro-dystrophin стандарт болон transgene-ийг эндоген dystrophin-оос ялгах ортогональ аргыг, жишээлбэл targeted mass spectrometry эсвэл transgene-specific/epitope-specific assay-г ашигла.
Иммунофлуоресценц	138 kDa construct нь C-terminal домэйнгүй тул C-terminal polyclonal antibody тохиромж муутай. Олон DMD өвчтөнд revertant ширхэг байдаг бөгөөд revertant dystrophin нь C-terminal epitopes хадгалж чадна. Revertant ширхэгүүд нас ахихад клонально тэлж, IF сигналыг, ялангуяа ахмад хөвгүүдэд хазайлгаж болно.	Transgene-д байгаа боловч revertant dystrophin-д байхгүй epitope-ийн эсрэг эсрэгбиетэй IF-г давт. Transgene-эерэг ширхэгийг revertant ширхэгээс тусад нь тоон хэмж.
Surrogate endpoint-ийн хүчинтэй байдал	Багц нь уургийн хэмжээг клиникийн үйл ажиллагаатай хольж байна. «Эрүүл хяналтын уургийн массын 38%» гэдэг нь micro-dystrophin бүтцийн хувьд тайрагдсан тул хэвийн dystrophin үйл ажиллагааны 38% гэсэн үг биш.	Илэрхийллийг surrogate endpoint гэж үзэхээс өмнө micro-dystrophin массын хувь, sarcolemmal байрлал, доош урсгалын үйл ажиллагааны сэргэлт, клиникийн ашиг тусын хамаарлыг эмпирикээр баталгаажуул.
Биопсийн дизайн	Эмчилгээний өмнө ба дараах эсрэг талын vastus lateralis биопси нь зүүн-баруун болон булчин доторх орон зайн хэлбэлзэл оруулна. Өвчний явц ба фибро-өөхөн орлуулалт нийт уургаар нормчилсон сигналыг мөн өөрчилж болно.	Тогтвортой анатомийн тэмдэг ашиглан биопсийн байршлыг стандартчилж, булчин-өвөрмөц уургаар нормчилж, фибро-өөхөн найрлагыг зэрэг хэмж.
NSAA харьцуулагч/статистик	Гадаад natural-history cohort нь санамсаргүй зэрэгцээ хяналт биш. Туршилтын шаардлага, дэмжих тусламж, оролцооны нөлөө, эхний NSAA, steroid горим, нас, exon ангилал бүгд харьцуулалтыг хазайлгаж болно. Unpaired t-test хангалтгүй. Мөн +1.4 NSAA өөрчлөлт нь энэ насны бүлгийн test-retest хэлбэлзлийн дотор байна.	Санамсаргүй зэрэгцээ placebo-хяналттай судалгаа явуул, эсвэл хамгийн багадаа эхний NSAA, нас, steroid горим, exon ангилал болон бусад confounder-уудыг тооцсон засварласан шинжилгээ ашигла.
Насны цонхны будлиан	4–7 настай хөвгүүд нь эмчлээгүй алхдаг DMD өвчтөнүүд доройтол давамгайлахаас өмнө хөдөлгөөний үйл ажиллагаа нэмэгдэж болох хөгжлийн цонхонд байна. 48 долоо хоногийн NSAA өөрчлөлт нь хөгжлийн өсөлт, өвчний явц, боломжит эмчилгээний нөлөөг хольж байна.	Хөгжлийн траекторийг эмчилгээний нөлөөнөөс салгахын тулд насны давхаргатай зэрэгцээ санамсаргүй хяналт ашигла.
Өмнөх клиникийн жишиг	Open-label micro-dystrophin үйл ажиллагааны сигналууд баталгаажуулах ашиг тусыг найдвартай таамаглаагүй; нийтлэгдсэн жишигт micro-dystrophin gene therapy баталгаажуулах туршилтууд open-label NSAA сайжралыг давтаж чадаагүй тохиолдол багтана.	Open-label NSAA өөрчлөлтөд шийдвэрлэх дэмжлэг болгон бүү найд. Хяналттай үйл ажиллагааны нотолгоо шаард.
Construct-ийн бүтцийн хязгаар	138 kDa construct нь nNOS-холбогдох сайтууд агуулсан spectrin repeats R16/17-г устгасан. nNOS recruitment алдагдах нь дасгалын үед functional sympatholysis ба ischemia хамгааллыг доройтуулж, илэрхийллийн түвшнээс үл хамаарах аврах механист тааз үүсгэнэ.	Энэ тодорхой construct холбогдох dystrophin-associated complex үйл ажиллагаа, nNOS байрлал, дасгалын физиологи, булчингийн хамгааллыг сэргээдэг эсэхийг харуулах механист судалгаа нэм.
AAV тогтвортой байдал	12 долоо хоног дахь vector genome нь тогтвортой илэрхийллийг тогтоохгүй. AAV9 genome-ууд ихэвчлэн non-integrating episome бөгөөд цаг хугацаанд буурч болно. Vector-genome persistence нь persistent protein expression-тэй адил биш.	12 долоо хоногоос цааш урт хугацааны transgene protein expression болон functional biomarker durability-г хэмж.
Дархлаа/аюулгүй байдлын профайл	12 өвчтөний 8-д transaminitis гарсан нь AAV-transduced эсүүдэд үзүүлэх дархлааны хариутай нийцэх боловч механизм тогтоогдоогүй. AAV9-ийн зүрхний tropism-ийг харгалзвал нэг myocarditis тохиолдол санаа зовоож байна.	Илүү гүн дархлааны хяналт, элэг/зүрхний аюулгүй байдлын тодорхойлолт, эрчимжүүлсэн зүрхний follow-up өг.
Өвчтөн сонголт/ерөнхийшүүлэх чадвар	Anti-AAV9 neutralizing-antibody-эерэг өвчтөнүүдийг хасах нь ерөнхийшүүлэх чадварыг хязгаарлана. Exon-44 deletion-уудыг хасах нь тэр DMD дэд бүлэгт хэрэглэх боломжийг хязгаарлана. n=12 нь өргөн DMD хүн амд аюулгүй байдал ба үр нөлөөг тодорхойлоход хэт бага.	Боломжтой бол шаардлагыг өргөжүүл, эсвэл үр дүнг өргөн зөвшөөрөл дэмжихэд ашиглахаас өмнө эсрэгбиеийн байдал, genotype/exon ангилал, нас, эхний үйл ажиллагаагаар давхаргат шинжилгээг урьдчилан тодорхойл.

Зохицуулалтын дүгнэлт: Багц биологийн идэвх харуулж болох ч хэмжсэн micro-dystrophin илэрхийлэл клиникийн ашиг тусыг таамаглах магадлалтай найдвартай surrogate гэдгийг хараахан тогтоогоогүй. Гол цоорхой нь assay specificity, хүчингүй тоон хэмжилтийн стандарт, боломжит revertant-fiber будлиан, санамсаргүй хяналтгүй байдал, нас-тай холбоотой NSAA будлиан, тодорхойгүй тогтвортой байдал, шийдэгдээгүй аюулгүй байдал/ерөнхийшүүлэх асуудлууд юм.

Цоорхойг хаахын тулд хөтөлбөрт transgene-specific expression assay, ортогональ уургийн тоон хэмжилт, эдийн найрлагын хяналт, урт хугацааны durability өгөгдөл, тайрагдсан construct-ийн механист functional assay, ялангуяа элэг ба зүрхний илүү хүчтэй аюулгүй байдлын хяналт бүхий хяналттай, нас-давхаргат клиникийн дизайн хэрэгтэй.

Рубрикийн шалгуур ба Дүн

Шалгуур

Оноо

Identifies assay/measurement problems in micro-dystrophin quantification, including MANEX1A epitope sharing, invalid full-length dystrophin standards, and need for recombinant or orthogonal transgene-specific measurement.

+24

Explains why micro-dystrophin expression level is not automatically a valid surrogate for functional clinical benefit.

+22

Flags biopsy-site, tissue-composition, and age-window confounding that weaken expression and NSAA interpretation.

+19

Critiques the NSAA comparator/statistics, especially reliance on external natural-history controls.

+12

Addresses AAV durability, immune response, transaminitis, myocarditis, and need for longer-term expression/safety follow-up.

+15

Notes patient-selection/generalizability gaps, including anti-AAV9 exclusion, exon-44 exclusion, and small sample size.

LifeSciBench-ийг баталгаажуулах нь

Бид LifeSciBench-ийг хараат бус мэргэжилтний үнэлгээгээр баталгаажуулсан. Санал хүсэлтийг даалгавар бичихэд оролцоогүй 453 үнэлэгчээс авсан. Эдгээр үнэлэгчдийн 97% нь Ph.D. эсвэл түүнтэй дүйцэх докторын зэрэгтэй, дунджаар 12 жилийн салбарын туршлагатай, 14 хянан магадлагдсан нийтлэлтэй байсан; 88% нь дор хаяж нэг шагнал эсвэл тэтгэлэг авсан гэж мэдээлсэн.

Үнэлэгчид даалгавар бүр хүчтэй бенчмарк асуултад шаардлагатай чанаруудыг тусгаж байгаа эсэхийг оноогоор үнэлсэн: бодит ертөнцийн судалгааны ажилтай нийцэх байдал, шинжлэх ухааны сэтгэн бодох болон салбарын мэргэшлийг зохистой шалгах байдал, нотолгоо эсвэл мэргэжилтний зөвшилцөлд тулгуурлах байдал, загварын гүйцэтгэлийг үнэлэхэд ерөнхийдөө ашигтай байдал. Ангилал бүрт санал нэгдэлт 96%-иас давсан.

Бодит ертөнцөд хамааралтай байдал

Энэ даалгавар бодит ертөнцийн амьдралын шинжлэх ухааны ажлыг тусгаж байна уу?

Бүрэн санал нийлж байна: 90.4%
Ерөнхийдөө санал нийлж байна: 98.3%

Шинжлэх ухааны сэтгэн бодох / салбарын ур чадвар

Энэ даалгавар шинжлэх ухааны зөв сэтгэн бодох чадвар болон амьдралын шинжлэх ухааны салбарын ур чадварыг шалгаж, үнэлж чадаж байна уу?

Бүрэн санал нийлж байна: 86.4%
Ерөнхийдөө санал нийлж байна: 98.1%

Шинжлэх ухааны үндэслэл

Энэ даалгавар шинжлэх ухааны үндэслэлтэй, хариулах боломжтой бөгөөд зохих нотолгоо, өгөгдөл, артефакт эсвэл мэргэжилтний зөвшилцөлд тулгуурласан уу?

Бүрэн санал нийлж байна: 77.1%
Ерөнхийдөө санал нийлж байна: 96.5%

Ерөнхий ашиг тустай байдал

Ерөнхийд нь, энэ амьдралын шинжлэх ухааны хүчтэй үнэлгээний даалгавар мөн үү?

Бүрэн санал нийлж байна: 79.1%
Ерөнхийдөө санал нийлж байна: 96.6%

Үнэлэгчдийн тайлбар тоон үнэлгээг бататгасан:

1 -н 3

“Ерөнхийдөө энэ нь хүчтэй даалгавар, учир нь нэг зөв үндсэн тайлбартай атлаа илүү сайн хариултуудыг тодорхойгүй байдлыг хэр нямбай хязгаарлаж байгаагаар нь ялгах боломж үлдээдэг.”

Үр дүн

Бид харилцан нөхөх хоёр хэмжүүрийг тайлагнадаг. Тэнцэх хувь нь загвар даалгаврын түвшний 70%-ийн амжилтын босгыг хангаж буй даалгаврын хувь юм. Оноо нь дундаж рубрикийн урамшуулал бөгөөд бүх даалгавар шийдэгдээгүй байсан ч тус бүрийн шалгуурт хэсэгчилсэн кредит өгдөг. Шинжлэх ухааны даалгаврын хариулт бүрэн хариултын бүх шаардлагыг хангаагүй ч хэсэгчлэн зөв эсвэл ашигтай байж болох тул хоёулаа чухал.

Загварын гүйцэтгэл даалгаврын төрөл, ажлын урсгал, хариултын форматаас ихээхэн хамаарч өөрчлөгдөнө.

AI системүүдийн эхний хүчтэй тал харагдаж буй газар

LifeSciBench нь хил хязгаар загварууд шинжлэх ухааны нэгтгэл, харилцаа болон бүтэцтэй тайлбар шаардсан даалгаварт харьцангуй хамгийн хүчтэйг харуулж байна. Абсолют тэнцэх хувь одоо ч даруухан тул эдгээр бенчмарк салбар ханалтдаа огт хүрээгүй боловч GPT‑Rosalind нь GPT‑5.5‑тай харьцуулахад утгатай ахиц үзүүлж, нийт яг тэнцэх хувийг 25.7%-аас 36.1% болгож сайжруулсан.

Загварын чадварын хамгийн хүчтэй ахицын чиглэлүүд Шинжлэх ухааны харилцаа болон Орчуулгад харагдаж байна. Жишээлбэл, Шинжлэх ухааны харилцааны тэнцэх хувь GPT‑5.5‑д 56.3% байснаас GPT‑Rosalind‑д 71.1% болж өссөн; энэ ангилал жижиг (n=9) тул болгоомжтой тайлбарлах хэрэгтэй, гэхдээ хил хязгаар загварууд нотолгоог зохион байгуулж, мэргэжилтэнд чиглэсэн үнэмшилтэй тайлбар гаргах чадвараа хурдан сайжруулж байгааг илтгэнэ. Орчуулга (эм хөгжүүлэлтийн «bench-to-bedside» үйл явц) мөн төстэй хэв шинж үзүүлж, GPT‑5.5‑д 36.8% байснаас GPT‑Rosalind‑д 57.7% болж өссөн нь загварууд клиникийн өмнөх нотолгоог клиникийн үр дагавартай холбох чадвараа хурдан сайжруулж байгааг харуулна.

Рубрикийн түвшний үр дүн ч ижил чиглэлийг зааж байна. Мэргэжилтэнд ашигтай эсвэл хэрэгжүүлж болох гаралт шаардсан даалгаварт GPT‑Rosalind 44.7% оноо авч, GPT‑5.5 29.1% авсан. Тодорхойгүй байдал болон анхааруулгыг зохицуулах шаардлагатай даалгаварт энэ нь 44.8% оноо авч, 29.3%-тай харьцуулагдсан. Энэ хэв шинж нь даалгавар тодорхой нотолгооны хил хязгаартай бөгөөд бүтэцтэй шинжлэх ухааны шүүлт шаарддаг үед загварууд хамгийн ашигтайг харуулж байна.

GPT‑Rosalind нь үйлдвэрлэл болон академийн мэргэжилтнүүдийн тодорхойлсон шинжлэх ухааны үнэ цэнтэй даалгаврууд дээр гүйцэтгэлээр тэргүүлж байна.

GPT‑Rosalind нь салбарын болон академик мэргэжилтнүүдийн тодорхойлсон шинжлэх ухааны үнэ цэнтэй даалгавруудад гүйцэтгэлээр тэргүүлж байна.

AI системүүд хаана хангалтгүй хэвээр байна вэ

Артефакт ихтэй, дизайн ихтэй, үйл ажиллагааны хязгаарлалттай шинжлэх ухааны ажил дээр гүйцэтгэл нэлээд сул хэвээр байна. Тухайлбал, Дизайн, оновчлол ба таамаглал нь хамгийн хэцүү ажлын урсгалын нэг хэвээр бөгөөд GPT‑Rosalind‑ийн тэнцэх хувь 30.7%; Шинжилгээ мөн адил хэцүү, 30.3% байна.

Артефакт ашиглалт нь ялангуяа тодорхой зөрүү юм. GPT‑Rosalind артефакт ихтэй орчинд GPT‑5.5‑аас илүү сайн гүйцэтгэдэг ч тэнцэх хувь нь зөвхөн тексттэй даалгаварт 45.1% байснаас артефакт эсвэл URL-тэй даалгаварт 28.1% болж буурсаар байна. GPT‑5.5 мөн адил хэв шинж үзүүлж, 29.9%-аас 21.9% болж буурсан. Илүү дэлгэрэнгүй шинжилгээ нь хил хязгаар загварууд нарийн төвөгтэй зураг эсвэл том дарааллын файлаас мэдээлэл гарган авч, тэр мэдээллийг эцсийн хариултад нэгтгэхэд бэрхшээлтэйг баталж байна.

Даалгаврууд эх сурвалжид тулгуурласан сэтгэн бодох эсвэл артефакттай ажиллахыг шаардахад тэнцэх хувь буурдаг

Хариултын формат ч мөн чухал. Яг дараалал, бүтэц эсвэл конструкцийн түвшний гаралт шаарддаг даалгавруудын тэнцэх хувь бага: GPT‑Rosalind тоон даалгаварт ердөө 14.8%, дараалал эсвэл бүтцийн гаралтад 24.0%-д хүрсэн. Конструкц үүсгэх даалгаврууд мөн хэврэг бөгөөд GPT‑Rosalind 27.3%-тай, GPT‑5.5‑аас багахан ахиц үзүүлсэн. Энэ зөрүүний нэг хэсэг нь яг хариулттай даалгаварт үнэлгээний гадаргуу илүү хатуу байдагтай холбоотой байж болно: тооцоо эсвэл формат дахь жижиг ялгаа хариултыг тэнцэх босгоос доош унагаж чадна. Гэсэн ч эдгээр алдаа шинжлэх ухааны хувьд утгатай, учир нь амьдралын шинжлэх ухааны олон ажлын урсгал CRISPR/HDR донорын дизайн эсвэл siRNA дизайн гэх мэт шууд ашиглахад хангалттай нарийн гаралт шаарддаг.

Загварууд мөн даалгаврыг бүрэн шийдэхгүйгээр нэлээд ахих нь олонтаа. Даалгаврын ойролцоогоор 14%-д загварууд яг тэнцэх босгыг даваагүй ч рубрикийн мэдэгдэхүйц кредит авсан. GPT‑Rosalind‑ийн хувьд 109 даалгаврын тэнцэх хувь 20%-иас доогуур байсан ч рубрикийн урамшууллын дор хаяж 50%-ийг авсан. Практикт энэ нь загварууд холбогдох нотолгоог тодорхойлох эсвэл боломжийн хэсэгчилсэн хариулт гаргаж болох ч гол хязгаарлалтыг алгасах, буруу нотолгоо ашиглах, дутуу тооцоо хийх эсвэл сэтгэн бодох үйл явцаа шинжлэх ухааны хувьд ашигтай эцсийн шийдвэртэй холбохгүйгээс болж бүтэлгүйтдэг гэсэн үг.

Хязгаарлалтууд ба дараагийн алхам

LifeSciBench нь AI системүүд амьдралын шинжлэх ухааны судалгаанд хэр ашигтай байж болохыг хэмжих нэг алхам боловч загваруудыг бодит судалгааны орчинд судлахыг орлохгүй. Бенчмарк нь үйлдвэрлэлийн давтагддаг ажлын урсгалыг тусгасан бие даасан даалгавруудад төвлөрдөг бөгөөд олон шинжлэх ухааны мэргэшил, даалгаврын төрлийг одоогийн хамрах хүрээнээс гадуур үлдээдэг. Бодит судалгаа давталттай байдаг: эрдэмтэд шинэ нотолгоо цуглуулж, таамаглалаа засаж, дараагийн туршилтуудыг зохиож, үр дүн гарахын хэрээр төлөвлөгөөгөө тохируулдаг.

Тиймээс LifeSciBench дээрх хүчтэй гүйцэтгэлийг доод шатны судалгааны нөлөөллийн шууд хэмжүүр бус, бодит даалгаврын түвшний чадварын нотолгоо гэж тайлбарлах ёстой. Бенчмарк нь үйлдвэрлэлийн ажлын урсгалд тулгуурласан боловч цаг хугацааны явцад өрнөдөг хүчин зүйлээс ахиц хамаардаг бодит судалгааны хөтөлбөрүүдийн бүрэн олон янз байдал, динамикийг барьж чаддаггүй.

Дараагийн алхам бол бенчмаркийн гүйцэтгэлийг бодит судалгааны ажлын урсгал дахь нэвтрүүлэлтийн судалгаатай холбох явдал юм. LifeSciBench-ийг ажиллаж буй эрдэмтэдтэй хамтран боловсруулсан ч AI системүүд нээлтийг хурдасгах эсвэл R&D үр дүнг сайжруулах эсэхийг хэмжихийн тулд бодит судалгааны орчинд, илүү урт хугацаанд, сэтгэн бодох, санал хүсэлт авах, туршилтаар дагах олон үе шат дамнан загварын хэрэглээ ба гүйцэтгэлийг судлах шаардлагатай.