Menggunakan AI untuk membantu dokter mendiagnosis penyakit genetik langka pada anak
Dalam studi NEJM AI, para pakar memakai model penalaran OpenAI untuk menganalisis ulang 376 kasus yang sebelumnya tak terpecahkan dan memunculkan petunjuk bagi 18 diagnosis.
Meski telah menjalani pengurutan genom, banyak orang dengan penyakit langka tidak pernah mendapatkan diagnosis genetik yang jelas. Sekitar separuh tetap tidak terdiagnosis setelah pengujian ekstensif dan peninjauan oleh spesialis. Data medis mereka mungkin memuat petunjuk, tetapi menemukannya dapat menuntut penelusuran ribuan hingga jutaan kemungkinan varian genetik, rekam klinis yang terfragmentasi, dan literatur ilmiah yang berubah cepat.
Seiring bertambahnya hubungan gen-penyakit baru, laporan kasus, dan bukti klasifikasi, kasus yang belum terpecahkan dapat menjadi dapat ditafsirkan kembali.
Peneliti dari Manton Center for Orphan Disease Research di Boston Children’s Hospital, Harvard University, dan OpenAI menggunakan model penalaran OpenAI o3 Riset Mendalam untuk menganalisis informasi klinis dan genomik yang telah dideidentifikasi dari 376 kasus yang sebelumnya dianalisis tetapi tetap belum terpecahkan. Model memunculkan kandidat penjelasan yang terkait bukti untuk ditinjau oleh peneliti dan klinisi. Setelah peninjauan pakar, pengujian tambahan, dan konfirmasi klinis, dokter menetapkan diagnosis pada 18 kasus—tambahan hasil diagnostik sebesar 4,8% setelah analisis sebelumnya oleh spesialis. Studi ini diterbitkan pada 18 Juni 2026 di NEJM AI dan menunjukkan bagaimana alur kerja riset berbantuan AI dapat membantu para pakar menghasilkan petunjuk saat meninjau kembali sebagian kasus yang paling sulit.
Banyak dari kasus ini telah lolos dari analisis pakar selama bertahun-tahun. Dalam studi ini, OpenAI o3 Riset Mendalam membantu peneliti mengidentifikasi petunjuk yang kemudian dinilai melalui proses klinis yang mapan, menunjukkan bahwa reanalisis berkala yang dipimpin pakar dapat menjadi lebih mudah diskalakan seiring berkembangnya pengetahuan. Model tidak mendiagnosis pasien mana pun atau membuat keputusan klinis apa pun. Model menghasilkan hipotesis yang terkait bukti untuk ditinjau spesialis dan, bila sesuai, diselidiki melalui pengujian tambahan serta dikonfirmasi di laboratorium klinis.
Tes genetik yang tidak konklusif tidak selalu menjadi temuan permanen. Deskripsi fenotipe pasien, hasil tes, dan riwayat keluarga dapat tersebar di berbagai basis data yang menggunakan pengenal, format, dan kosakata berbeda. Menghubungkan catatan-catatan itu sulit, sehingga bahkan spesialis pun dapat melewatkan diagnosis. Pakar juga mungkin mengurutkan genom seorang anak sebelum gen yang relevan atau variannya dikaitkan dengan penyakit. Seiring kemajuan pengetahuan ilmiah, data yang sama dapat mengungkap jawaban yang sebelumnya mustahil ditemukan.
Reanalisis penyakit langka adalah persoalan ilmiah sekaligus persoalan pemeliharaan. Genom pasien mungkin tetap sama, tetapi bukti di sekitarnya terus berubah: peneliti mengaitkan gen dan varian baru dengan penyakit, laboratorium mengklasifikasi ulang varian lama, serta basis data kasus dan makalah menambahkan pengamatan baru. Setiap pembaruan dapat membuat kasus lama yang tidak konklusif layak ditinjau kembali, sehingga banyak institusi mewarisi tumpukan genom yang terus bertambah untuk diselaraskan dengan basis pengetahuan yang terus bergerak.
Dalam studi ini, peneliti merancang alur kerja agar model berperan sebagai lapisan penalaran yang mengutamakan penjelasan di atas pipeline genomik yang sudah ada. Alih-alih hanya mengembalikan gen berperingkat, model diminta menghubungkan fitur klinis, pola pewarisan, bukti varian, dan literatur ilmiah menjadi justifikasi yang dapat diuji oleh peninjau manusia.
Untuk setiap kasus, tim menyusun paket yang telah dideidentifikasi berisi istilah Human Phenotype Ontology terstandar untuk menggambarkan presentasi klinis pasien, catatan klinisi sesekali dan diagnosis klinis deskriptif bila ada, metadata seperti usia dan jenis kelamin, serta tabel varian yang telah difilter. Tabel tersebut mencatat kelangkaan tiap varian, perkiraan dampaknya pada protein yang dikodekan, klasifikasi ClinVar, dan kualitas sinyal di antara anggota keluarga yang datanya tersedia. Sebagian besar kasus mencakup data dari anak dan kedua orang tua biologisnya.
Tim meminta model mengusulkan penjelasan molekuler yang paling masuk akal dan menunjukkan dasar kerjanya. Peneliti kemudian meninjau keluaran menggunakan kerangka ACMG/AMP yang sama dengan yang digunakan laboratorium klinis untuk mengklasifikasikan varian genetik. Setidaknya dua anggota tim meninjau setiap kandidat, perbedaan pendapat diselesaikan melalui konsensus, dan keluaran model tidak pernah diperlakukan sebagai diagnosis. Sebuah temuan dihitung sebagai diagnosis hanya setelah pakar berkualifikasi meninjau bukti, varian diklasifikasikan sebagai patogenik atau kemungkinan patogenik, laboratorium bersertifikat CLIA mengonfirmasinya, dan tim klinis menyampaikan hasilnya kepada keluarga.
Sebelum menganalisis kasus yang belum terpecahkan, tim menyempurnakan alur kerja pada kasus dengan diagnosis yang sudah ditetapkan. Alur kerja ini menemukan kembali gen dan varian yang benar dalam ulangan duplikat untuk 48 dari 51 kasus yang mencakup beragam kondisi langka. Dalam satu set 57 kasus neuromuskular, alur kerja mengembalikan diagnosis yang benar dalam ulangan duplikat untuk 45 kasus. Dalam satu set 15 kasus genom long-read, alur kerja menyebutkan gen yang benar pada setiap kasus dan kedua alel penyebab penyakit pada 12 kasus. Evaluasi ini membantu pengembangan prompt dan menunjukkan bagian mana yang tetap membutuhkan tinjauan pakar.
Skor keyakinan yang dilaporkan sendiri oleh model selaras dengan diagnosis yang benar pada kasus-kasus yang sebelumnya telah terpecahkan ini: skor minimum rata-rata adalah 85,6 untuk panggilan yang konsisten benar dan 42,1 untuk panggilan yang salah atau tidak diketahui. Skor tersebut bukan probabilitas yang terkalibrasi, dan tim tidak menggunakannya sebagai pengganti bukti atau adjudikasi klinis. Namun, skor itu berguna untuk membantu peninjau pakar berfokus pada kandidat diagnosis yang paling menjanjikan.
Tim kemudian menerapkan alur kerja pada empat kelompok kasus yang sebelumnya belum terpecahkan: anak dengan kondisi perkembangan saraf, orang dengan penyakit neuromuskular langka, anak dan remaja dengan psikosis dini, serta kasus kematian mendadak tak terduga pada anak. Ini bukan kasus baru yang menunggu peninjauan pertama. Banyak yang sudah diperiksa oleh beberapa pipeline komersial atau institusional dan dibahas oleh tim multidisiplin.
Kohort | Kasus | Diagnosis yang teridentifikasi | Hasil |
Perkembangan saraf | 100 | 10 | 10,0% |
Penyakit neuromuskular | 61 | 4 | 6,6% |
Kematian mendadak yang tidak terduga pada pediatri | 200 | 2 | 1,0% |
Psikosis dini | 15 | 2 | 13,3% |
Total | 376 | 18 | 48% |
Kohort psikosis dini berukuran kecil, sehingga persentasenya memiliki interval kepercayaan yang lebar. Hasil juga mencerminkan seberapa besar kemungkinan tiap kohort memiliki penjelasan gen tunggal.
Setelah model memunculkan kandidat dan para pakar menyelesaikan peninjauan serta konfirmasi klinis, dokter menetapkan diagnosis pada 4,8% kasus. Angka itu sederhana tetapi bermakna pada populasi ini karena peninjauan pakar sebelumnya belum menyelesaikan kasus-kasus tersebut. Studi reanalisis serupa melaporkan peningkatan satu digit pada kasus yang telah banyak ditinjau; hasil yang lebih tinggi biasanya berasal dari studi yang memuat kasus baru atau gangguan yang sudah dikenal dan menunggu konfirmasi genetik.
Dari 18 diagnosis, 7 merupakan penemuan kembali: diagnosis yang ditetapkan di luar alur kerja riset lokal tetapi tidak ada dalam catatan yang ditinjau tim. Dalam beberapa kasus, varian sudah tercantum sebagai patogenik atau kemungkinan patogenik di basis data publik, menyoroti tantangan operasional dalam menyintesis informasi dari berbagai sumber data.
Dalam satu kasus psikosis dini, model menyimpulkan adanya peristiwa struktural dalam genom yang tidak tercantum dalam data masukan. Model mengaitkan serangkaian panggilan berkualitas rendah pada kromosom 22 dengan fitur jantung, imun, perkembangan saraf, dan psikiatri anak tersebut, lalu mengajukan hipotesis delesi 22q11.2 yang terkait dengan sindrom DiGeorge. Varian yang dihipotesiskan ini dikonfirmasi melalui pengurutan genom lanjutan.
Meski prompt meminta satu penyebab monogenik, model terkadang memunculkan dua gen yang lebih baik menjelaskan gambaran klinis yang kompleks. Varian pada LAMA2 dan FOXP1 bersama-sama membantu menjelaskan fitur otot dan perkembangan saraf dalam satu kasus; kasus lain memiliki penjelasan digenik yang sebelumnya tidak dikenali, melibatkan TTN dan SRPK3.
Selain diagnosis, model juga mengidentifikasi kemungkinan penjelasan mekanistik baru untuk kondisi yang disebut vitiligo. Dalam satu kasus perkembangan saraf, model menyoroti delesi 11 asam amino pada S1PR1 pada seseorang dengan vitiligo. S1PR1 mengodekan reseptor permukaan sel yang terlibat dalam pensinyalan, pergerakan sel imun, dan biologi jaringan. Model mengintegrasikan bukti yang menunjukkan bahwa delesi tersebut dapat mengubah struktur dan pensinyalan reseptor dengan cara yang mengurangi produksi pigmen sekaligus membantu sel imun bertahan di kulit.
Hubungan S1PR1-vitiligo yang diusulkan memerlukan validasi eksperimental tambahan, tetapi ini menggambarkan peran kuat AI dalam menerjemahkan temuan yang tersebar dari biologi struktural, imunologi, dan genetika klinis menjadi hipotesis konkret yang dapat diuji.
Tim juga melihat kemungkinan perluasan fenotipe pada kohort neuromuskular. Varian yang merusak pada HSPB8 dan CDK13 tidak sepenuhnya cocok dengan gangguan yang paling dikenal terkait gen-gen tersebut, menunjukkan spektrum klinis yang lebih luas yang perlu diuji dengan lebih banyak kasus dan pekerjaan laboratorium.
Studi kasus: diagnosis Kyra setelah hampir dua dekade
Semua bermula di kelas karate, ketika ibu Kyra memperhatikan bahwa putrinya yang berusia 9 tahun tidak lagi menurunkan posisi kuda-kudanya serendah dulu. Kyra juga mulai melambat saat latihan sepak bola dan berjalan serta berlari dengan bertumpu pada ujung jari kaki. Dokter anaknya tidak dapat mengidentifikasi penyebab kelemahan ototnya, sehingga ia merujuk Kyra ke spesialis. Yang terjadi kemudian adalah perjalanan hampir 20 tahun melalui berbagai tes, perawatan, dan konsultasi tanpa diagnosis.
Kasus Kyra adalah salah satu dari empat diagnosis yang ditemukan dalam kohort neuromuskular. Tim mengaitkan kondisinya dengan varian frameshift pada HSPB8 dan mendiagnosis suatu bentuk miopati miofibrilar, yaitu kondisi ketika struktur protein abnormal menumpuk di serat otot dan berkontribusi pada kelemahan. Seorang konselor genetik dari Manton Center menelepon Kyra sekitar seminggu sebelum ulang tahunnya yang ke-28.
Saat itu, Kyra telah menghabiskan sebagian besar hidupnya untuk beradaptasi dengan penyakit tersebut. Ia sudah bergantung pada ventilator dan menggunakan kursi roda ketika berusia 13 tahun, meski sejak itu kondisinya telah stabil. Meski bentuk miopati miofibrilar yang dialami Kyra begitu langka sehingga hanya sedikit yang diketahui tentang perjalanan jangka panjangnya, diagnosis itu memberinya sebagian kepastian.
Studi ini menunjukkan bahwa model penalaran serbaguna dapat berkontribusi pada reanalisis genomik retrospektif dengan menggabungkan fenotipe, pewarisan, anotasi varian, pola kualitas data, dan literatur ilmiah menjadi hipotesis yang dapat ditinjau. Studi ini juga menunjukkan mengapa reanalisis berkala penting: sebagian jawaban baru muncul hanya setelah pengetahuan berkembang atau catatan yang terfragmentasi disatukan.
Riset ini bukan bukti bahwa pasien, klinisi, atau pelanggan harus menggunakan model OpenAI untuk mendiagnosis penyakit atau membuat keputusan medis. Studi ini tidak menjelaskan atau mendukung penggunaan yang dimaksudkan bagi pelanggan atas OpenAI o3 Riset Mendalam, ChatGPT, atau produk OpenAI lainnya untuk diagnosis. Model tidak mendiagnosis peserta mana pun; dokter dan pakar klinis berkualifikasi lainnya membuat setiap diagnosis melalui proses peninjauan, pengujian, dan konfirmasi klinis yang mapan.
Studi ini bersifat retrospektif, kohortnya heterogen, dan peninjau tidak dibutakan terhadap keyakinan model. Para peneliti tidak mengukur waktu yang dihemat, biaya, upaya klinisi, beban kerja positif palsu, atau perubahan dalam perawatan. Mereka juga tidak mengevaluasi secara sistematis bentuk variasi genetik lain seperti varian struktural, ekspansi ulangan, perubahan deep-intronic, atau mosaikisme.
Model bahasa besar dapat salah membaca konteks atau menghasilkan penjelasan yang tampak masuk akal tetapi gagal saat diperiksa lebih dekat. Karena itu, setiap hasil melewati adjudikasi manusia dan konfirmasi klinis. Model memperluas pencarian dan memfokuskan analisis berikutnya yang dipimpin manusia; model tidak memutuskan informasi atau diagnosis apa yang harus disampaikan kepada keluarga.
Studi ini menggunakan informasi yang telah dideidentifikasi, tanpa informasi kesehatan terlindungi yang digunakan atau dikirimkan ke luar lingkungan yang disetujui. Penerapan klinis yang lebih luas akan memerlukan perhatian yang sama terhadap privasi, keamanan, auditabilitas, dan regulasi lokal seperti yang berlaku pada semua layanan medis. Akses model tidak menggantikan infrastruktur pengurutan, konseling genetik, pengujian konfirmasi, atau penilaian spesialis.

“Hambatannya adalah waktu. Seorang pakar hanya dapat mencurahkan sebagian waktu harinya untuk satu orang tertentu.”
Dr. Catherine Brownstein, Manton Center for Orphan Disease Research di Boston Children’s Hospital

“Peneliti seperti Catherine dan saya tidak mungkin menyimpan 8.000 penyakit berbeda di kepala kami. Itulah kekuatan AI.”
Alan Beggs, direktur Manton Center for Orphan Disease Research
Studi prospektif multisenter perlu membandingkan reanalisis berbantuan LLM dengan praktik standar dalam hal hasil diagnostik, waktu hingga kandidat ditemukan, upaya klinisi, beban positif palsu, biaya, dan dampak pada perawatan. Prompt berversi, pemeriksaan referensi, log audit, dan ketidakpastian terkalibrasi akan penting untuk reproduksibilitas dan keselamatan. Studi semacam itu tetap memerlukan klinisi berkualifikasi untuk mengevaluasi bukti, memesan tes yang sesuai, dan membuat diagnosis atau keputusan pengobatan apa pun.
Studi ini menggunakan OpenAI o3 Riset Mendalam. Model serbaguna yang lebih baru dapat mencari dan menyintesis lebih banyak materi ilmiah, sementara sistem yang dibuat khusus seperti GPT‑Rosalind dirancang untuk pekerjaan ilmu hayati yang lebih mendalam, termasuk dampak varian pada struktur dan fungsi protein. Kemampuan tersebut tidak diuji di sini dan akan memerlukan evaluasi serta kontrol akses tersendiri.
Meski OpenAI membantu mendukung studi riset awal ini, Manton Center akan memimpin tahap kerja berikutnya melalui hibah dari OpenAI Foundation. Hibah tersebut akan mendukung upaya Center yang lebih luas untuk mengembangkan copilot AI genetika yang berbiaya rendah dan agnostik platform, guna membantu tim klinis menganalisis kasus penyakit langka dengan lebih cepat dan konsisten.
Peluang riset jangka panjangnya adalah mengeksplorasi apakah reanalisis berbantuan AI yang dipimpin pakar dapat membantu pemahaman ilmiah mengimbangi laju penemuan. Janji utamanya bukan bahwa AI menggantikan diagnosis dokter, melainkan bahwa alat riset yang dievaluasi dengan cermat dapat membantu spesialis mengidentifikasi bukti yang layak diselidiki. Bagi ribuan keluarga, pertanyaan yang belum terjawab hari ini tidak harus tetap tak terjawab selamanya.
- 2026


