2026년 6월 18일

AI 활용 사례

AI를 활용해 의사의 소아 희귀 유전질환 진단 지원

NEJM AI에 게재된 연구에서 전문가들은 OpenAI 추론 모델을 활용해 기존에 원인을 찾지 못했던 376건의 사례를 재분석하고, 18건의 진단 단서를 찾아냈습니다.

로딩 중...

유전체 시퀀싱을 수행하더라도 많은 희귀질환 환자는 명확한 유전학적 진단을 받지 못합니다. 광범위한 검사와 전문가 검토를 거친 뒤에도 약 절반은 진단되지 않은 상태로 남아 있습니다. 이들의 의료 데이터에는 단서가 포함되어 있을 수 있지만, 이를 찾아내기 위해서는 수천에서 수백만 개에 이르는 잠재적 유전 변이, 여러 곳에 흩어진 임상 기록, 그리고 빠르게 변화하는 과학 문헌을 검토해야 할 수 있습니다.

새로운 유전자-질환 연관성, 증례 보고, 그리고 다양한 근거가 계속 축적되면서, 이전에는 원인을 찾지 못했던 사례에서도 새로운 해석이 가능해질 수 있습니다.

보스턴 아동병원 맨턴 희귀질환 연구센터, 하버드대학교, OpenAI의 연구진은 OpenAI o3 심층 리서치 추론 모델을 활용해 이전에 분석했지만 원인을 밝혀내지 못했던 376건의 사례에 대한 비식별화 임상 및 유전체 정보를 분석했습니다. 모델은 연구진과 임상의가 검토할 수 있도록 근거를 바탕으로 가능한 원인 후보를 제시했습니다. 이후 전문가 검토와 추가 검사, 임상 확인 과정을 거쳐 의사들은 18건의 사례에서 진단을 확정했으며, 이는 기존 전문가 분석 이후 4.8%의 추가 진단 성과에 해당합니다. 이 연구는 2026년 6월 18일 NEJM AI에 게재됐으며, AI를 활용한 연구 워크플로가 특히 진단이 어려운 사례를 다시 검토하는 과정에서 전문가들이 새로운 단서를 발견하는 데 어떻게 도움을 줄 수 있는지를 보여줍니다.

이들 사례 중 상당수는 수년에 걸친 전문가들의 분석에도 불구하고 원인을 밝혀내지 못했던 경우였습니다. 이번 연구에서 OpenAI o3 심층 리서치는 연구진이 새로운 단서를 찾아내는 데 도움을 주었으며, 이러한 단서는 이후 확립된 임상 절차를 통해 평가됐습니다. 이는 관련 지식이 계속 축적됨에 따라 전문가가 주도하는 정기적인 재분석을 보다 폭넓게 수행할 수 있게 될 가능성을 보여줍니다. 모델은 어떤 환자도 진단하지 않았으며 어떠한 임상적 의사결정도 내리지 않았습니다. 대신 전문가가 검토할 수 있는 근거 기반 가설을 제시했으며, 필요한 경우 추가 검사를 통해 검증하고 임상 검사실에서 확인할 수 있도록 지원했습니다.

오래된 사례에서 새로운 답을 찾을 수 있는 이유

유전 검사에서 명확한 결론이 나오지 않았다고 해서 그 상태가 영원히 바뀌지 않는 것은 아닙니다. 환자의 표현형 정보, 검사 결과, 가족력은 서로 다른 식별 체계와 형식, 용어를 사용하는 여러 데이터베이스에 흩어져 저장돼 있을 수 있습니다. 이러한 정보를 하나로 연결하기는 쉽지 않기 때문에 전문가조차 진단을 놓치는 경우가 있습니다. 또한 관련 유전자나 변이가 질환과 연관되기 전에 아동의 유전체 시퀀싱이 이뤄지는 경우도 있습니다. 하지만 과학적 지식이 발전함에 따라, 같은 데이터에서도 과거에는 발견할 수 없었던 원인을 찾아낼 수 있게 됩니다.

희귀질환 재분석은 단순히 과학적 문제에 그치지 않고 지속적으로 관리해야 하는 과제이기도 합니다. 환자의 유전체 자체는 변하지 않지만, 이를 해석하는 데 필요한 근거는 계속 늘어나고 달라집니다. 연구진은 새로운 유전자와 변이를 질환과 연결하고, 검사실은 기존 변이에 대한 분류를 다시 평가하며, 증례 데이터베이스와 학술 논문에는 새로운 관찰 결과가 꾸준히 축적됩니다. 이러한 변화가 있을 때마다 과거에 결론을 내리지 못했던 사례를 다시 검토할 가치가 생깁니다. 그 결과 많은 기관은 계속해서 축적되는 미해결 유전체 사례를 관리하며, 끊임없이 업데이트되는 지식과 이를 맞춰 나가야 하는 과제를 안고 있습니다.

이번 연구에서 연구진은 모델이 기존 유전체 분석 파이프라인을 보완하며, 결과에 대한 설명을 중심으로 추론하도록 워크플로를 설계했습니다. 모델은 단순히 가능성이 높은 유전자를 순위별로 제시하는 데 그치지 않고, 임상 특징과 유전 양상, 변이 관련 근거, 과학 문헌을 종합해 검토자가 그 타당성을 직접 확인할 수 있는 근거를 제시하도록 했습니다.

재분석이 이루어진 방식

연구팀은 각 사례에 대해 비식별화된 데이터를 준비했습니다. 여기에는 환자의 임상 양상을 설명하는 표준화된 Human Phenotype Ontology 용어를 비롯해, 임상의의 메모와 관련 진단 정보, 연령과 성별 등의 메타데이터, 그리고 선별된 변이 목록이 포함됐습니다. 이 목록에는 각 변이의 희귀도, 해당 변이가 단백질에 미칠 것으로 예측되는 영향, ClinVar 분류 정보, 그리고 이용 가능한 가족 구성원들의 데이터 품질 정보가 담겼습니다. 대부분의 사례에는 아동과 친부모 두 명의 데이터가 포함되어 있었습니다.

연구팀은 모델에 가장 가능성이 높은 분자적 원인을 제시하고, 그 판단의 근거를 함께 설명하도록 요청했습니다. 이후 연구진은 임상 검사실에서 유전 변이를 분류할 때 사용하는 것과 동일한 ACMG/AMP 기준에 따라 결과를 검토했습니다. 각 후보 결과는 최소 두 명의 팀원이 검토했으며, 의견이 엇갈린 경우에는 논의를 통해 합의에 도달했습니다. 또한 모델의 출력 결과를 진단으로 간주하는 일은 없었습니다. 어떤 결과가 진단으로 인정되기 위해서는 자격을 갖춘 전문가가 관련 근거를 검토하고, 해당 변이가 병원성 또는 병원성 가능성이 높은 것으로 분류되고, CLIA 인증 검사실에서 이를 확인한 뒤, 임상팀이 그 결과를 환자 가족에게 전달해야 했습니다.

연구팀은 미해결 사례를 분석하기에 앞서, 이미 진단이 확정된 사례를 대상으로 워크플로를 개선했습니다. 다양한 희귀질환이 포함된 51건의 사례 가운데 48건에서는 반복 실행 시 정확한 유전자와 변이를 찾아냈습니다. 또한 57건의 신경근육 질환 사례 중 45건에서는 반복 실행을 통해 정확한 진단 결과를 도출했습니다. 15건의 장독립 시퀀싱(long-read sequencing) 유전체 데이터 세트에서는 모든 사례에서 정확한 유전자를 식별했으며, 이 가운데 12건에서는 질환을 유발한 두 개의 대립유전자까지 정확히 찾아냈습니다. 이러한 평가는 프롬프트를 개선하는 데 도움이 되었으며, 전문가 검토가 여전히 중요한 역할을 하는 영역이 어디인지를 보여주었습니다.

이미 진단이 확정된 사례들을 대상으로 평가한 결과, 모델이 스스로 제시한 신뢰도 점수는 진단 정확도와 일정한 관련성을 보였습니다. 반복 실행에서도 일관되게 정확한 결과를 낸 경우 최소 신뢰도 점수의 평균은 85.6이었으며, 결과가 틀렸거나 정답을 확인할 수 없었던 경우에는 42.1이었습니다. 다만 이러한 점수는 통계적으로 보정된 확률값이 아니었으며, 연구팀도 이를 근거 평가나 임상적 판단을 대신하는 지표로 사용하지는 않았습니다. 그럼에도 이 점수는 전문가 검토자들이 가능성이 높은 진단 후보에 우선 집중하는 데 도움이 됐습니다.

‘희귀질환 유전체 재분석을 위한 인간 주도 AI 워크플로’라는 제목의 도표. 비식별화된 환자 데이터가 사람의 의사결정, LLM 기반 근거 종합, 전문가 검토, 검사, 임상 확인, 그리고 결과 전달 과정을 거쳐 환자 가족에게 전달되는 과정을 보여줍니다.

연구진이 확인한 결과

연구팀은 이어서 이 워크플로를 기존에 원인을 찾지 못했던 네 개의 환자군에 적용했습니다. 대상에는 신경발달 질환이 있는 아동, 희귀 신경근육 질환 환자, 조기 정신증을 겪는 아동 및 청소년, 그리고 소아의 갑작스러운 예기치 않은 사망 사례가 포함됐습니다. 이들은 처음으로 검토되는 신규 사례가 아니었습니다. 상당수는 이미 여러 상용 또는 기관 내 분석 시스템을 통해 검토됐으며, 다양한 분야의 전문가들이 참여한 다학제 팀에서도 논의된 사례들이었습니다.

코호트별 결과

코호트	사례 수	진단 건수	진단율
신경발달	100	10	10.0%
신경근육 질환	61	4	6.6%
소아의 갑작스러운 예기치 않은 사망	200	2	1.0%
조기 정신증	15	2	13.3%
합계	376	18	4.8%

조기 정신증 코호트는 규모가 작아 해당 비율의 신뢰구간이 넓습니다. 또한 진단율은 각 코호트가 단일 유전자 원인으로 설명될 가능성이 얼마나 높은지를 반영합니다.

모델이 원인 후보를 제시한 뒤 전문가 검토와 임상 확인 과정을 거쳐, 의사들은 전체 사례의 4.8%에서 진단을 확정했습니다. 이 수치는 크다고 보기는 어렵지만, 이미 전문가들이 검토했음에도 원인을 찾지 못했던 사례들을 대상으로 했다는 점에서 의미가 있습니다. 유사한 재분석 연구에서도 여러 차례 검토가 이뤄진 사례에서는 대체로 한 자릿수 수준의 추가 진단 성과가 보고됩니다. 이보다 높은 진단율은 보통 신규 사례가 포함되거나, 유전학적 확인만 남아 있는 비교적 잘 알려진 질환을 대상으로 한 연구에서 나타납니다.

18건의 진단 가운데 7건은 이미 다른 경로를 통해 확인된 진단이었습니다. 해당 진단들은 연구팀이 수행한 분석 과정에서 새롭게 밝혀진 것이 아니라, 연구팀이 검토한 기록에는 포함되어 있지 않았지만 외부에서 이미 확인된 상태였습니다. 또한 일부 사례에서는 해당 변이가 이미 공개 데이터베이스에 병원성 또는 병원성 가능성이 높은 변이로 등록돼 있었습니다. 이는 여러 데이터 출처에 흩어져 있는 정보를 종합하고 연결하는 일이 얼마나 어려운지를 보여줍니다.

변이를 식별하는 과정에서 유연성 입증

조기 정신증 코호트의 한 사례에서 모델은 입력 데이터에 포함되지 않았던 유전체상의 구조적 이상을 추론했습니다. 모델은 22번 염색체에서 관찰된 저품질 호출 구간을 해당 아동의 심장, 면역, 신경발달 및 정신과적 특징과 연결한 뒤, 디조지 증후군과 관련된 22q11.2 결실을 가설로 제시했습니다. 이후 추가 유전체 시퀀싱을 통해 이 변이가 확인됐습니다.

프롬프트에서는 단일 유전자 원인을 찾도록 요청했지만, 모델은 복잡한 임상 양상을 더 잘 설명하는 두 개의 유전자를 제시하는 경우도 있었습니다. 한 사례에서는 LAMA2와 FOXP1 변이가 함께 근육 및 신경발달 관련 특징을 설명하는 데 도움이 되었고, 또 다른 사례에서는 TTN과 SRPK3가 관여하는 이전까지 알려지지 않았던 이중유전자성 원인이 확인됐습니다.

검증 가능하고 생물학적으로 타당한 가설 도출

모델은 진단뿐 아니라 백반증에 대한 새로운 발병 기전을 설명할 수 있는 가능성도 제시했습니다. 신경발달 질환 코호트의 한 사례에서 모델은 백반증이 있는 환자에게서 S1PR1 유전자에 11개 아미노산이 결실된 변이가 있다는 점에 주목했습니다. S1PR1은 세포 신호 전달과 면역세포 이동, 조직 기능에 관여하는 세포 표면 수용체를 암호화하는 유전자입니다. 모델은 해당 결실이 수용체의 구조와 신호 전달 방식에 영향을 미쳐 색소 생성을 감소시키는 동시에 면역세포가 피부에 더 오래 머물도록 할 수 있다는 근거들을 종합해 제시했습니다.

이번에 제시된 S1PR1과 백반증의 연관성은 추가적인 실험을 통해 검증될 필요가 있습니다. 하지만 이 사례는 구조생물학, 면역학, 임상유전학 분야에 흩어져 있는 연구 결과를 종합해 실제로 검증 가능한 구체적인 가설로 발전시키는 과정에서 AI가 얼마나 강력한 역할을 할 수 있는지를 보여줍니다.

연구팀은 신경근육 질환 코호트에서 표현형 범위가 기존에 알려진 것보다 더 넓을 가능성도 확인했습니다. HSPB8와 CDK13의 기능에 영향을 미치는 변이는 해당 유전자와 가장 잘 알려진 질환 양상과 완전히 일치하지 않았습니다. 이는 이들 유전자가 현재 알려진 것보다 더 다양한 임상적 특징과 연관될 수 있음을 시사하며, 이를 확인하기 위해서는 추가 사례와 실험실 연구가 필요합니다.

사례 연구: 거의 20년 만에 받은 카이라의 진단

모든 것은 가라테 수업에서 시작됐습니다. 카이라의 어머니는 당시 9살이던 딸이 예전처럼 자세를 낮게 취하지 못한다는 것을 알아차렸습니다. 카이라는 축구 연습 중에도 예전보다 움직임이 느려졌고, 걷거나 뛸 때 발뒤꿈치를 충분히 딛지 못한 채 발끝으로 걷는 모습도 보였습니다. 소아과 의사는 근력 저하의 원인을 찾지 못했고, 결국 카이라를 전문의에게 의뢰했습니다. 하지만 그 후에도 진단은 내려지지 않았습니다. 검사와 치료, 여러 전문가와의 상담이 이어졌지만, 정확한 원인을 찾기까지는 거의 20년의 시간이 걸렸습니다.

카이라의 사례는 신경근육 질환 코호트에서 새롭게 진단된 네 건 중 하나였습니다. 연구팀은 카이라의 질환이 HSPB8 유전자의 프레임시프트 변이와 관련이 있다는 사실을 확인하고, 근섬유 내에 비정상적인 단백질 구조가 축적돼 근력 약화를 일으키는 근원섬유성 근병증의 한 형태로 진단했습니다. 맨턴 희귀질환 연구센터의 유전 상담사는 카이라의 28번째 생일을 약 일주일 앞두고 그녀에게 전화를 걸었습니다.

그때까지 카이라는 삶의 대부분을 질환에 적응하며 살아왔습니다. 13살이 되었을 무렵에는 인공호흡기와 휠체어에 의존해야 했지만, 이후 병의 진행은 안정된 상태를 유지하고 있습니다. 카이라가 진단받은 근원섬유성 근병증은 장기적인 경과에 대해 알려진 정보가 거의 없을 정도로 매우 드문 질환입니다. 그럼에도 이번 진단은 오랫동안 답을 찾지 못했던 질문에 하나의 해답을 안겨주었습니다.

한계

이번 연구는 범용 추론 모델이 표현형 정보, 유전 양상, 변이 주석 정보, 데이터 품질 패턴, 그리고 과학 문헌을 종합해 전문가가 검토할 수 있는 가설을 제시함으로써 유전체 재분석에 기여할 수 있음을 보여줍니다. 또한 정기적인 재분석이 왜 중요한지도 보여줍니다. 일부 답은 과학적 지식이 축적되거나 여러 곳에 흩어져 있던 기록이 하나로 모인 뒤에야 비로소 드러나기 때문입니다.

이번 연구는 환자, 의료진 또는 고객이 질병을 진단하거나 의료적 의사결정을 내리는 데 OpenAI 모델을 사용해야 한다는 근거가 아닙니다. 또한 이 연구는 OpenAI o3 심층 리서치, ChatGPT 또는 기타 OpenAI 제품을 진단 목적으로 사용하는 것을 설명하거나 권장하는 내용이 아닙니다. 모델은 어떤 참여자도 진단하지 않았습니다. 모든 진단은 의사와 자격을 갖춘 임상 전문가들이 확립된 검토, 검사, 임상 확인 절차를 거쳐 내렸습니다.

이번 연구는 후향적으로 수행됐으며, 코호트의 구성도 서로 달랐습니다. 또한 검토자들은 모델의 신뢰도 점수를 확인할 수 있는 상태에서 평가를 진행했습니다. 연구진은 시간 절감 효과, 비용, 의료진의 업무 부담, 위양성으로 인해 발생하는 추가 검토 부담, 또는 진료 방식의 변화는 측정하지 않았습니다. 아울러 구조 변이, 반복서열 확장, 심부 인트론 변이, 모자이크 현상과 같은 다른 유형의 유전 변이에 대해서는 체계적인 평가를 수행하지 않았습니다.

대규모 언어 모델은 문맥을 잘못 해석하거나, 겉으로는 그럴듯해 보이지만 면밀히 검토하면 타당하지 않은 설명을 제시할 수 있습니다. 따라서 모든 결과는 전문가의 검토와 임상 확인 절차를 거쳤습니다. 모델은 검토 대상의 범위를 넓히고 이후 전문가가 주도하는 분석의 방향을 잡는 데 도움을 주었을 뿐, 어떤 정보나 진단 결과를 환자 가족에게 전달할지는 결정하지 않았습니다.

이번 연구에는 비식별화된 정보만 사용됐으며, 보호 대상 건강 정보(PHI)는 승인된 환경 밖에서 사용되거나 전송되지 않았습니다. 보다 광범위한 임상 현장 적용을 위해서는 모든 의료 서비스와 마찬가지로 개인정보 보호, 보안, 감사 가능성, 그리고 현지 규제 준수에 대한 철저한 관리가 필요합니다. 또한 모델에 대한 접근만으로는 유전체 분석 인프라, 유전 상담, 확진 검사, 또는 전문의의 임상적 판단을 대체할 수 없습니다.

밝은 파란색, 청록색, 짙은 파란색 톤이 부드럽게 이어져 매끄럽고 흐릿한 효과를 만드는 추상적인 파란색 그라데이션 배경.

“가장 큰 제약은 시간입니다. 전문가가 한 사람에게만 하루의 많은 시간을 할애할 수는 없습니다.”

캐서린 브라운스타인 박사, 보스턴 아동병원 맨턴 희귀질환 연구센터

“캐서린과 저 같은 연구자들이 8,000가지 질환을 모두 머릿속에 담아둘 수는 없습니다. 그것이 바로 AI의 힘입니다.”

앨런 베그스, 맨턴 희귀질환 연구센터 소장

앞으로의 과제

향후에는 여러 기관이 참여하는 전향적 연구를 통해 LLM 기반 재분석과 기존 진단 방식을 비교할 필요가 있습니다. 이러한 연구에서는 진단 성과뿐 아니라, 유력한 원인 후보를 찾아내기까지 걸리는 시간, 의료진의 업무 부담, 위양성으로 인한 추가 검토 부담, 비용, 그리고 환자 진료에 미치는 영향 등을 함께 평가해야 합니다. 또한 연구 결과의 재현성과 안전성을 확보하기 위해서는 버전 관리된 프롬프트, 참고 자료 검증, 감사 로그, 그리고 보정된 불확실성 평가 체계가 중요할 것입니다. 다만 이러한 연구가 진행되더라도, 근거를 평가하고 적절한 검사를 결정하며 진단이나 치료와 관련된 판단을 내리는 일은 여전히 자격을 갖춘 의료 전문가의 역할입니다.

이번 연구에는 OpenAI o3 심층 리서치가 사용됐습니다. 최신 범용 모델은 더 많은 과학 자료를 검색하고 종합할 수 있습니다. 한편 GPT‑Rosalind와 같이 특정 목적에 맞춰 개발된 시스템은 변이가 단백질의 구조와 기능에 미치는 영향 분석을 비롯해, 보다 심층적인 생명과학 연구를 수행하도록 설계됐습니다. 이러한 기능은 이번 연구에서 평가되지 않았으며, 별도의 평가와 접근 통제 체계가 필요합니다.

OpenAI는 이번 초기 연구를 지원했으며, 다음 단계 연구는 OpenAI 재단의 지원금을 바탕으로 맨턴 희귀질환 연구센터가 주도할 예정입니다. 이번 지원금은 임상팀이 희귀질환 사례를 보다 신속하고 일관되게 분석할 수 있도록 돕는, 플랫폼에 구애받지 않는 저비용 유전학 AI 코파일럿 개발을 위한 연구센터의 장기적인 노력에 활용될 예정입니다.

장기적으로는 전문가가 주도하는 AI 지원 재분석이 새로운 발견의 속도에 맞춰 과학적 이해를 발전시키는 데 도움이 될 수 있는지 살펴보는 것이 연구 과제입니다. 이 연구가 보여주는 가능성은 AI가 의사의 진단을 대체한다는 데 있지 않습니다. 오히려 충분한 검증을 거친 연구 도구가 전문가들이 추가로 검토해 볼 가치가 있는 근거를 찾아내는 데 도움을 줄 수 있다는 점에 있습니다. 수많은 가족에게 오늘 풀리지 않은 의학적 의문이 영원히 풀리지 않은 채로 남아 있을 필요는 없습니다.

2026

작성자

OpenAI

더 읽어보기

모두 보기

A near-autonomous AI chemist improves a challenging reaction

준자율 AI 화학자가 의약화학 분야의 난이도 높은 반응을 개선합니다

리서치2026년 6월 17일

GPT-Rosalind의 새로운 기능 소개

제품2026년 6월 3일

GPT-5는 무세포 단백질 합성 비용을 낮춥니다.

리서치2026년 2월 5일