শিশুদের বিরল জেনেটিক রোগ নির্ণয়ে চিকিৎসকদের সহায়তায় AI ব্যবহার
NEJM AI-এর এক গবেষণায়, বিশেষজ্ঞরা OpenAI reasoning মডেল দিয়ে আগে অমীমাংসিত 376টি কেস পুনর্বিশ্লেষণ করে 18টি রোগনির্ণয়ের সূত্র বের করেছেন.
জিনোমিক সিকোয়েন্সিং থাকলেও, বিরল রোগে আক্রান্ত অনেক মানুষ কখনও স্পষ্ট জেনেটিক রোগনির্ণয় পান না. বিস্তৃত পরীক্ষা ও বিশেষজ্ঞ পর্যালোচনার পরও প্রায় অর্ধেকের রোগনির্ণয় অনির্ধারিত থেকে যায়. তাদের চিকিৎসা-ডেটায় সূত্র থাকতে পারে, কিন্তু সেগুলো খুঁজে পেতে হাজার থেকে লক্ষ লক্ষ সম্ভাব্য জেনেটিক ভ্যারিয়েন্ট, খণ্ডিত ক্লিনিক্যাল রেকর্ড এবং দ্রুত বদলে যাওয়া বৈজ্ঞানিক সাহিত্য ছেঁকে দেখতে হতে পারে.
নতুন জিন-রোগ সম্পর্ক, কেস রিপোর্ট ও শ্রেণিবিন্যাসের প্রমাণ জমা হতে থাকলে, অমীমাংসিত কেস নতুনভাবে ব্যাখ্যাযোগ্য হয়ে উঠতে পারে.
Boston Children’s Hospital-এর Manton Center for Orphan Disease Research, Harvard University এবং OpenAI-এর গবেষকেরা OpenAI o3 Deep Research reasoning মডেল ব্যবহার করে আগে বিশ্লেষিত কিন্তু অমীমাংসিত থাকা 376টি কেসের পরিচয়মুক্ত ক্লিনিক্যাল ও জিনোমিক তথ্য বিশ্লেষণ করেন. মডেল গবেষক ও চিকিৎসকদের পর্যালোচনার জন্য প্রমাণ-সংযুক্ত সম্ভাব্য ব্যাখ্যা সামনে আনে. বিশেষজ্ঞ পর্যালোচনা, অতিরিক্ত পরীক্ষা ও ক্লিনিক্যাল নিশ্চিতকরণের পর, চিকিৎসকেরা 18টি কেসে রোগনির্ণয় স্থাপন করেন—বিশেষজ্ঞদের আগের বিশ্লেষণের পর অতিরিক্ত diagnostic yield 4.8%. এই গবেষণাটি 18 জুন 2026 তারিখে NEJM AI-তে প্রকাশিত হয়েছে এবং দেখিয়েছে, সবচেয়ে কঠিন কিছু কেস পুনরায় পর্যালোচনার সময় AI-সহায়ক গবেষণা workflow কীভাবে বিশেষজ্ঞদের সূত্র তৈরি করতে সাহায্য করতে পারে.
এর অনেক কেস বহু বছরের বিশেষজ্ঞ বিশ্লেষণ এড়িয়ে গিয়েছিল. এই গবেষণায় OpenAI o3 Deep Research গবেষকদের এমন সূত্র শনাক্ত করতে সাহায্য করেছে, যা পরে প্রতিষ্ঠিত ক্লিনিক্যাল প্রক্রিয়ায় মূল্যায়ন করা হয়; এতে ইঙ্গিত মেলে যে জ্ঞান বিকশিত হওয়ার সঙ্গে বিশেষজ্ঞ-নেতৃত্বাধীন পর্যায়ক্রমিক পুনর্বিশ্লেষণ আরও scalable হতে পারে. মডেল কোনো রোগীর রোগনির্ণয় করেনি বা কোনো ক্লিনিক্যাল সিদ্ধান্ত নেয়নি. এটি বিশেষজ্ঞদের পর্যালোচনার জন্য প্রমাণ-সংযুক্ত অনুমান তৈরি করেছে এবং উপযুক্ত ক্ষেত্রে অতিরিক্ত পরীক্ষার মাধ্যমে তদন্ত ও ক্লিনিক্যাল ল্যাবরেটরিতে নিশ্চিত করার সুযোগ দিয়েছে.
অসিদ্ধান্তমূলক জেনেটিক পরীক্ষা সব সময় স্থায়ী ফল নয়. রোগীর phenotype বিবরণ, পরীক্ষার ফল ও পারিবারিক ইতিহাস এমন ডেটাবেসে ছড়িয়ে থাকতে পারে, যেগুলো ভিন্ন identifier, format ও vocabulary ব্যবহার করে. এসব রেকর্ড যুক্ত করা কঠিন, তাই বিশেষজ্ঞরাও রোগনির্ণয় মিস করতে পারেন. কোনো প্রাসঙ্গিক জিন বা তার ভ্যারিয়েন্ট রোগের সঙ্গে যুক্ত হওয়ার আগেই বিশেষজ্ঞরা কোনো শিশুর জিনোম সিকোয়েন্স করে থাকতে পারেন. বৈজ্ঞানিক জ্ঞান এগোলে, একই ডেটা এমন উত্তর প্রকাশ করতে পারে যা আগে উদ্ঘাটন করা অসম্ভব ছিল.
বিরল-রোগ পুনর্বিশ্লেষণ একই সঙ্গে বৈজ্ঞানিক ও রক্ষণাবেক্ষণ-সংক্রান্ত সমস্যা. রোগীর জিনোম একই থাকতে পারে, কিন্তু তাকে ঘিরে প্রমাণ বদলাতেই থাকে: গবেষকেরা নতুন জিন ও ভ্যারিয়েন্টকে রোগের সঙ্গে যুক্ত করেন, ল্যাবগুলো পুরনো ভ্যারিয়েন্ট পুনঃশ্রেণিবিন্যাস করে, এবং কেস ডেটাবেস ও প্রবন্ধে নতুন পর্যবেক্ষণ জমা হয়. প্রতিটি আপডেট পুরনো অসিদ্ধান্তমূলক কেসকে আবার দেখার মতো করে তুলতে পারে, তাই অনেক প্রতিষ্ঠান চলমান জ্ঞানভাণ্ডারের সঙ্গে মিলিয়ে রাখতে বাড়তে থাকা জিনোমের backlog উত্তরাধিকারসূত্রে পায়.
এই গবেষণায় গবেষকেরা workflow এমনভাবে নকশা করেন যাতে মডেল বিদ্যমান জিনোমিক pipeline-এর ওপর explanation-first reasoning layer হিসেবে কাজ করে. শুধু ranked gene ফেরত দেওয়ার বদলে, তাকে clinical features, inheritance pattern, variant evidence ও scientific literature-কে এমন যুক্তিতে যুক্ত করতে বলা হয়েছিল যা মানব reviewer খুঁটিয়ে পরীক্ষা করতে পারেন.
প্রতিটি কেসের জন্য দলটি পরিচয়মুক্ত একটি packet তৈরি করে, যাতে রোগীর clinical presentation বর্ণনার standardized Human Phenotype Ontology terms, মাঝে মাঝে clinician notes ও কোনো descriptive clinical diagnosis, age ও gender-এর মতো metadata এবং filtered variant table ছিল. টেবিলে প্রতিটি ভ্যারিয়েন্টের rarity, encoded protein-এ তার predicted effect, ClinVar classification এবং available family members জুড়ে signal quality ধরা হয়েছিল. বেশির ভাগ কেসে শিশু ও উভয় জৈবিক পিতামাতার ডেটা অন্তর্ভুক্ত ছিল.
দলটি মডেলকে সবচেয়ে সম্ভাব্য molecular explanation প্রস্তাব করতে এবং তার যুক্তি দেখাতে বলে. এরপর গবেষকেরা clinical labs যে ACMG/AMP framework ব্যবহার করে genetic variants শ্রেণিবিন্যাস করে, সেই একই framework দিয়ে output পর্যালোচনা করেন. প্রতিটি candidate অন্তত দুইজন team member পর্যালোচনা করেন, মতভেদ consensus-এর মাধ্যমে মেটানো হয়, এবং মডেলের output কখনও diagnosis হিসেবে ধরা হয়নি. শুধু তখনই কোনো finding-কে diagnosis হিসেবে গণনা করা হয়েছে, যখন যোগ্য বিশেষজ্ঞরা evidence পর্যালোচনা করেছেন, variant-টি pathogenic বা likely pathogenic হিসেবে classified হয়েছে, CLIA-certified laboratory সেটি নিশ্চিত করেছে, এবং clinical team ফলটি family-কে জানিয়েছে.
অমীমাংসিত কেস বিশ্লেষণের আগে, দলটি প্রতিষ্ঠিত রোগনির্ণয় থাকা কেসে workflow উন্নত করে. বিভিন্ন বিরল অবস্থাসহ 51টি কেসের মধ্যে 48টিতে duplicate run-এ এটি সঠিক gene ও variant উদ্ধার করে. 57টি neuromuscular case-এর একটি সেটে, workflow duplicate run-এ 45টি কেসের সঠিক diagnosis ফেরত দেয়. 15টি long-read genome কেসের সেটে, এটি প্রতিটি কেসে সঠিক gene এবং 12টি কেসে উভয় disease-causing allele-এর নাম দেয়. এই মূল্যায়নগুলো প্রম্পট development-এ সহায়তা করেছে এবং কোথায় expert review অপরিহার্য ছিল তা দেখিয়েছে.
আগে সমাধান হওয়া এসব কেসে মডেলের self-reported confidence score সঠিক diagnosis-এর সঙ্গে সামঞ্জস্যপূর্ণ ছিল: consistently correct call-এর mean minimum score ছিল 85.6, আর incorrect বা unknown call-এর ক্ষেত্রে 42.1. স্কোরগুলো calibrated probability ছিল না, এবং দলটি evidence বা clinical adjudication-এর বিকল্প হিসেবে সেগুলো ব্যবহার করেনি. তবে সবচেয়ে promising candidate diagnosis-এ expert reviewer-দের মনোযোগ দিতে সেগুলো সহায়ক ছিল.
এরপর দলটি workflow প্রয়োগ করে আগে অমীমাংসিত চারটি group-এর কেসে: neurodevelopmental condition থাকা শিশু, rare neuromuscular disease-এ আক্রান্ত মানুষ, early psychosis থাকা শিশু ও কিশোর-কিশোরী, এবং pediatrics-এ sudden unexpected death-এর কেস. এগুলো প্রথম পর্যালোচনার অপেক্ষায় থাকা নতুন কেস ছিল না. অনেকগুলোই আগে একাধিক commercial বা institutional pipeline-এ পরীক্ষা করা হয়েছিল এবং multidisciplinary team-এ আলোচনা হয়েছিল.
দল | মামলা | রোগ নির্ণয় সামনে এলো | ফলন |
স্নায়ুবিকাশমূলক | 100 | দশ | ১০.০% |
নিউরোমাসকুলার রোগ | 61 | চার | ৬.৬% |
শিশু বিভাগে আকস্মিক অপ্রত্যাশিত মৃত্যু | 200 | দুই | ১.০% |
প্রাথমিক মানসিক রোগ | 15 | দুই | 13.3% |
মোট | 376 | 18 | ৪.৮% |
আর্লি সাইকোসিস কোহর্টটি ছোট ছিল, তাই এর শতাংশের confidence interval বিস্তৃত. প্রতিটি কোহর্টে একক-জিনভিত্তিক ব্যাখ্যা থাকার সম্ভাবনাও yield-এ প্রতিফলিত হয়েছে.
মডেল candidate সামনে আনা এবং বিশেষজ্ঞদের review ও clinical confirmation শেষ হওয়ার পর, physicians 4.8% কেসে diagnosis স্থাপন করেন. এই হার modest হলেও এই population-এ তা meaningful, কারণ আগের expert review-গুলো কেসগুলো সমাধান করতে পারেনি. একই ধরনের reanalysis study-তে গভীরভাবে reviewed case-এ single-digit gain দেখা যায়; higher yield সাধারণত নতুন case বা genetic confirmation-এর অপেক্ষায় থাকা well-known disorder-সমৃদ্ধ study থেকে আসে.
18টি diagnosis-এর মধ্যে সাতটি ছিল rediscovery: local research workflow-এর বাইরে স্থাপিত diagnosis, কিন্তু দল যে record পর্যালোচনা করেছিল তাতে অনুপস্থিত. কয়েকটি ক্ষেত্রে, variant-গুলো public database-এ আগেই pathogenic বা likely pathogenic হিসেবে তালিকাভুক্ত ছিল, যা data source জুড়ে information synthesizing-এর operational challenge তুলে ধরে.
আর্লি-সাইকোসিসের এক ক্ষেত্রে, মডেল জিনোমে এমন একটি গঠনগত ঘটনা অনুমান করেছিল যা ইনপুট ডেটায় তালিকাভুক্ত ছিল না. এটি ক্রোমোজোম 22-এ নিম্নমানের কলের একটি ধারাকে শিশুর হৃদ্যন্ত্র, রোগপ্রতিরোধ, স্নায়ুবিকাশ ও মানসিক বৈশিষ্ট্যের সঙ্গে যুক্ত করে, তারপর DiGeorge syndrome-সংশ্লিষ্ট 22q11.2 deletion অনুমান করে. পরবর্তী জিনোম সিকোয়েন্সিংয়ে এই অনুমিত ভ্যারিয়েন্টটি নিশ্চিত হয়.
প্রম্পটে একটি মনোজেনিক কারণ চাওয়া হলেও, মডেল কখনও কখনও এমন দুটি জিন সামনে এনেছে যা জটিল উপস্থাপনাকে আরও ভালোভাবে ব্যাখ্যা করেছে. LAMA2 ও FOXP1-এর ভ্যারিয়েন্ট একসঙ্গে একটি ক্ষেত্রে পেশি ও স্নায়ুবিকাশগত বৈশিষ্ট্য ব্যাখ্যা করতে সহায়তা করেছে; আরেকটিতে TTN ও SRPK3 জড়িত আগে অচেনা একটি ডিজেনিক ব্যাখ্যা ছিল.
রোগনির্ণয়ের পাশাপাশি, মডেল vitiligo নামের একটি condition-এর সম্ভাব্য নতুন mechanistic explanation-ও শনাক্ত করেছে. একটি neurodevelopmental case-এ, মডেল vitiligo থাকা একজন ব্যক্তির S1PR1-এ 11-amino-acid deletion তুলে ধরে. S1PR1 signaling, immune-cell movement ও tissue biology-তে জড়িত cell-surface receptor encode করে. মডেল এমন প্রমাণ একত্র করে যা ইঙ্গিত দেয় যে deletion receptor structure ও signaling এমনভাবে বদলাতে পারে, যা pigment production কমায় এবং immune cell-কে skin-এ টিকে থাকতে সাহায্য করে.
প্রস্তাবিত S1PR1-vitiligo সম্পর্কের আরও experimental validation দরকার, তবে structural biology, immunology ও clinical genetics-এর ছড়ানো finding-কে concrete, testable hypothesis-এ রূপান্তরে AI-এর শক্তিশালী ভূমিকা এটি দেখায়.
দলটি neuromuscular cohort-এ সম্ভাব্য phenotype expansion-ও দেখেছে. HSPB8 ও CDK13-এর damaging variant gene-গুলোর সবচেয়ে পরিচিত disorder-এর সঙ্গে পুরোপুরি মেলেনি, যা broader clinical spectrum-এর ইঙ্গিত দেয়; আরও case ও laboratory work দিয়ে তা পরীক্ষা করতে হবে.
কেস স্টাডি: প্রায় দুই দশক পর Kyra-র রোগনির্ণয়
শুরুটা হয়েছিল karate class-এ, যখন Kyra-র মা খেয়াল করেন তার নয় বছর বয়সী মেয়ে আগের মতো stance-এ নিচু হতে পারছে না. Kyra soccer practice-এও ধীর হয়ে যাচ্ছিল এবং হাঁটা ও দৌড়ানোর সময় পায়ের আঙুলের ওপর ভর দিয়ে থাকছিল. তার pediatrician পেশির দুর্বলতার কারণ শনাক্ত করতে পারেননি, তাই তাকে specialist-এর কাছে পাঠান. এরপর শুরু হয় রোগনির্ণয় ছাড়া পরীক্ষা, চিকিৎসা ও পরামর্শের প্রায় 20 বছরের যাত্রা.
Kyra-র কেসটি neuromuscular cohort-এ সামনে আসা চারটি diagnosis-এর একটি ছিল. দলটি তার condition-কে HSPB8-এর একটি frameshift variant-এর সঙ্গে যুক্ত করে এবং myofibrillar myopathy-র একটি form diagnosis করে, যেখানে abnormal protein structure muscle fiber-এ জমে weakness-এ ভূমিকা রাখে. Manton Center-এর একজন genetic counselor Kyra-র 28তম জন্মদিনের প্রায় এক সপ্তাহ আগে তাকে ফোন করেন.
তত দিনে Kyra তার জীবনের বড় অংশ রোগের সঙ্গে মানিয়ে কাটিয়েছে. 13 বছর বয়সের মধ্যেই সে ventilator-এর ওপর নির্ভরশীল এবং wheelchair-এ ছিল, যদিও এরপর থেকে তার condition স্থিতিশীল হয়েছে. Kyra-র myofibrillar myopathy-র form এতই rare যে এর long-term course সম্পর্কে খুব কম জানা যায়, তবে diagnosis কিছুটা closure এনে দিয়েছে.
এই গবেষণা দেখায় যে general-purpose reasoning মডেল phenotype, inheritance, variant annotation, data-quality pattern ও scientific literature মিলিয়ে reviewable hypothesis তৈরি করে retrospective genomic reanalysis-এ অবদান রাখতে পারে. এটি আরও দেখায় কেন periodic reanalysis গুরুত্বপূর্ণ: কিছু উত্তর কেবল জ্ঞান এগোনোর পর বা fragmented record একত্র করার পর সামনে আসে.
এই গবেষণা এমন প্রমাণ নয় যে patient, clinician বা customer-দের disease diagnosis বা medical decision নিতে OpenAI মডেল ব্যবহার করা উচিত. এটি diagnosis-এর জন্য OpenAI o3 Deep Research, ChatGPT বা অন্য কোনো OpenAI product-এর intended customer use বর্ণনা বা সমর্থন করে না. মডেল কোনো participant-এর diagnosis করেনি; physicians ও অন্যান্য qualified clinical experts established review, testing ও clinical-confirmation process-এর মাধ্যমে প্রতিটি diagnosis করেছেন.
গবেষণাটি retrospective ছিল, cohort-গুলো heterogeneous ছিল, এবং reviewer-রা model confidence সম্পর্কে blinded ছিলেন না. গবেষকেরা saved time, cost, clinician effort, false-positive workload বা care-এর পরিবর্তন মাপেননি. তারা structural variant, repeat expansion, deep-intronic change বা mosaicism-এর মতো genetic variation-এর অন্যান্য form-ও systematicভাবে evaluate করেননি.
Large language model context ভুল পড়তে পারে বা এমন plausible explanation তৈরি করতে পারে যা কাছ থেকে পরীক্ষা করলে টেকে না. তাই প্রতিটি result human adjudication ও clinical confirmation-এর মধ্য দিয়ে গেছে. মডেল search প্রসারিত করেছে এবং পরবর্তী human-led analysis-কে focused করেছে; কোনো family-কে কোন information বা diagnosis ফেরত দেওয়া উচিত, তা সে সিদ্ধান্ত নেয়নি.
এই গবেষণায় de-identified information ব্যবহার করা হয়েছে; approved environment-এর বাইরে কোনো protected health information ব্যবহৃত বা transmitted হয়নি. বৃহত্তর clinical deployment-এর জন্য privacy, security, auditability ও local regulation-এ সেই একই মনোযোগ দরকার হবে, যা সব medical care-এর ক্ষেত্রেই প্রযোজ্য. মডেল access sequencing infrastructure, genetic counseling, confirmatory testing বা specialist judgment-এর বিকল্প নয়.

“বাধাটা হলো সময়. একজন বিশেষজ্ঞ দিনের কেবল সীমিত অংশই কোনো নির্দিষ্ট ব্যক্তির জন্য দিতে পারেন.”
Dr. Catherine Brownstein, Boston Children’s Hospital-এর Manton Center for Orphan Disease Research

“Catherine আর আমার মতো গবেষকদের পক্ষে 8,000টি আলাদা রোগ মাথায় রাখা সম্ভব নয়. এটাই AI-এর শক্তি.”
Alan Beggs, Manton Center for Orphan Disease Research-এর পরিচালক
Prospective, multi-center study-তে diagnostic yield, candidate পেতে সময়, clinician effort, false-positive burden, cost এবং care-এর ওপর প্রভাবের ক্ষেত্রে LLM-assisted reanalysis-কে standard practice-এর সঙ্গে তুলনা করা উচিত. Reproducibility ও safety-এর জন্য versioned prompt, reference check, audit log এবং calibrated uncertainty গুরুত্বপূর্ণ হবে. এ ধরনের study-তেও evidence মূল্যায়ন, উপযুক্ত test order করা, এবং যেকোনো diagnosis বা treatment decision নেওয়ার জন্য qualified clinician লাগবে.
এই গবেষণায় OpenAI o3 Deep Research ব্যবহার করা হয়েছে. নতুন general-purpose মডেল আরও বেশি scientific material search ও synthesize করতে পারে, আর GPT‑Rosalind‑এর মতো purpose-built system variant-এর protein structure ও function-এর ওপর effect-সহ life sciences-এ আরও গভীর কাজের জন্য designed. এসব capability এখানে পরীক্ষা করা হয়নি এবং এগুলোর নিজস্ব evaluation ও access control লাগবে.
OpenAI এই প্রাথমিক research study-তে সহায়তা করলেও, OpenAI Foundation-এর grant-এর মাধ্যমে Manton Center কাজের পরবর্তী পর্যায়ের নেতৃত্ব দেবে. এই grant Center-এর platform-agnostic, low-cost genetics AI copilot তৈরির বৃহত্তর প্রচেষ্টাকে সহায়তা করবে, যা clinical team-কে rare disease case আরও দ্রুত ও consistently বিশ্লেষণে সাহায্য করবে.
দীর্ঘমেয়াদি research opportunity হলো, expert-led AI-assisted reanalysis scientific understanding-কে discovery-র গতির সঙ্গে তাল মেলাতে সাহায্য করতে পারে কি না তা অনুসন্ধান করা. প্রতিশ্রুতিটি এই নয় যে AI চিকিৎসকের diagnosis-কে replace করবে; বরং careful evaluation করা research tool specialist-দের investigation-worthy evidence শনাক্ত করতে সাহায্য করতে পারে. হাজারো পরিবারের জন্য, আজকের অনুত্তরিত প্রশ্নগুলো চিরকাল অনুত্তরিত থাকতে হবে না.
- 2026


