희귀질환 진단을 위한 의료 기술의 인공지능

중국 AI 시스템 DeepRare, 역사적 이정표 달성: 희귀질환 진단에서 최초로 인간 전문가 능가

1. 서론: 수십 년간 기다려온 획기적 발전

전 세계 3억 명 이상의 희귀질환 환자에게 진단의 길은 역사적으로 험난한 여정이었습니다. 환자들은 평균 5년간 반복되는 의뢰, 오진, 불필요한 시술을 견뎌야 정확한 진단을 받습니다——연구자들이 “진단의 여정”이라고 부르는 기간입니다. 이제 중국 연구진이 개발한 획기적인 인공지능 시스템이 한때 불가능하다고 여겨졌던 것을 달성했습니다: 복잡한 희귀질환 진단 작업에서 지속적으로 인간 전문가를 능가하는 것입니다.

2026년 2월 권위 있는 저널 Nature에 게재된 DeepRare 시스템은 의료 AI의 패러다임 전환을 나타냅니다. 상하이 자오퉁 대학교 의과대학 부속 신화병원과 중남대학교 샹야 의과대학 부속 후난성 아동병원의 협력으로 개발된 이 다중 에이전트 AI 시스템은 전 세계적으로 희귀질환 진단 방식을 재편할 수 있는 이정표를 달성했습니다.

의사가 병원에서 환자와 상담하는 모습

2. 희귀질환 진단 위기

희귀질환——2,000명 중 1명 미만에게 영향을 미치는 질환으로 정의——은 집단적으로 전 세계 3억 명 이상에게 영향을 미치며, 현재까지 7,000개 이상의 서로 다른 질환이 확인되었습니다. 이러한 질환의 약 80%가 유전적 기원을 가지고 있습니다. 집단적 유병률에도 불구하고 희귀질환은 오랫동안 임상의들을 좌절시키고 가족들을 황폐화시킨 독특한 진단적 도전을 제시합니다.

희귀질환의 임상적 이질성은 개별 질환이 환자마다 완전히 다른 증상으로 나타날 수 있음을 의미합니다. 단일 희귀질환이 한 환자에게는 신경학적 증상으로 나타나고 다른 환자에게는 심장 문제로 나타날 수 있어, 경험 많은 의사조차 패턴 인식이 극도로 어렵습니다. 게다가 각 질환의 개별 유병률이 낮기 때문에 대부분의 임상의는 전체 경력 동안 소수의 사례만 경험하거나 전혀 경험하지 않습니다.

이 진단 위기는 심각한 결과를 초래합니다. 연구에 따르면 희귀질환 환자는 정확한 진단을 받기 전에 평균 7명의 의사를 방문하는 것으로 나타났습니다. 이 여정 동안 환자들은 반복되는 불필요한 검사와 시술을 받고, 불확실성으로 인한 상당한 심리적 부담을 겪으며, 결과를 크게 개선할 수 있는 조기 개입의 중요한 기회를 종종 놓칩니다.

의료 서비스를 받는 소아 환자

3. DeepRare: 다중 에이전트 진단 혁명

DeepRare는 희귀질환 진단에 근본적으로 다른 접근 방식을 취합니다. 초희귀 질환에는 불가능한 대규모 라벨링된 데이터셋이 필요한 전통적인 지도 학습 모델에 의존하는 대신, 대규모 언어 모델이 탑재된 정교한 다중 에이전트 아키텍처를 사용합니다.

Anthropic의 모델 컨텍스트 프로토콜에서 영감을 받은 시스템의 3계층 아키텍처는 다음으로 구성됩니다:

  • 중앙 호스트: 기억 저장소를 갖춘 추론 강화 대규모 언어 모델(기본적으로 DeepSeek-V3)로, 수집된 증거를 종합하고 진단 프로세스를 관리하여 전체 진단 워크플로를 조정합니다.
  • 전문 에이전트 서버: 표현형 분석, 유전자형 해석, 임상 데이터 정규화, 다양한 의학 데이터베이스에서의 지식 검색 등 특정 작업을 처리하는 여러 에이전트.
  • 이질적 의학 지식 소스: 연구 논문, 임상 가이드라인, 환자 사례 저장소, 권위 있는 의학 데이터베이스에 연결하는 40개 이상의 전문 도구 통합.

DeepRare를 차별화하는 것은 멀티모달 환자 데이터를 처리하는 능력입니다——자유 텍스트 임상 기술, 구조화된 인간 표현형 온톨로지(HPO) 용어, VCF 파일의 원시 유전자 시퀀싱 데이터——그리고 임상의가 1차 의학 문헌에 대해 검증할 수 있는 투명한 추론 체인과 함께 순위가 매겨진 진단 가설을 생성합니다.

인공지능 신경망 뇌 시각화

4. 중국 주요 병원에서의 임상 검증

연구팀은 전례 없는 규모로 엄격한 검증을 수행했습니다: 14개 의학 전문 분야에 걸친 2,919개 희귀질환을 포함하는 6,401개 임상 사례. 평가 데이터셋은 7개 공개 데이터베이스와 2개 주요 중국 임상 센터에서 수집되어 아시아, 북미, 유럽의 다양한 인구를 대표합니다.

상하이 자오퉉 대학교 의과대학 부속 신화병원은 975개 사례를 기여했으며, 그중 168개는 완전한 전염기 시퀀싱(WES) 데이터를 포함했습니다. 후난성 아동병원은 완전한 유전자 검사 결과를 가진 162개 소아 사례를 기여했습니다. 이러한 내부 데이터셋은 실제 의료 진료의 실제 임상 데이터를 포함하여 시스템의 실용적 적용 가능성에 대한 중요한 검증을 제공했습니다.

평가 데이터셋의 다양성——잘 문서화된 문헌 사례부터 도전적인 실제 임상 발현까지——은 다양한 진단 난이도 수준 전반에 걸친 DeepRare의 견고성을 보여줍니다. 사례는 출처별로 분류되었습니다: 연구 논문(명확한 문서화로 일반적으로 더 쉬움), 사례 보고서(중간 난이도), 직접 임상 접촉(가장 도전적이며 실제 적용을 대표).

병원 건물 외관

5. 성과 이정표: 인간 전문가 능가

연구에서 가장 놀라운 발견은 인간 전문가에 대한 DeepRare의 성과입니다. 신화병원의 163개 임상 사례를 사용한 직접 비교 연구에서 DeepRare는 희귀질환 임상 진료에서 10년 이상의 경험을 가진 5명의 경험 많은 의사와 경쟁했습니다. 의사와 DeepRare는 동일한 입력을 받았습니다: 자유 텍스트 외래 기록에서 추출된 구조화된 HPO 용어.

결과는 전례가 없었습니다. DeepRare는 **78.5%**의 Recall@5를 달성하여 임상의 평균 **65.6%**를 크게 앞섰습니다. Recall@1——정확한 진단이 시스템의 최우선 추천으로 나타남을 의미——에서 DeepRare는 **64.4%**를 기록한 반면 의사는 **54.6%**였습니다. 이는 계산 시스템이 희귀질환 표현형 분석 및 진단에서 전문 의사 성과를 능가한 최초의 문서화된 사례를 나타냅니다.

모든 벤치마크의 HPO 기반 평가에서 DeepRare는 평균 Recall@1 **57.18%**를 달성하여 2위 방법(Claude-3.7-Sonnet-thinking)을 **23.79%**의 상당한 차이로 능가했습니다. Recall@3에서 시스템은 **65.25%**를 달성하여 경쟁자를 18.65% 앞섰습니다.

시스템은 특정 데이터셋에서 특히 인상적인 결과를 보여주었습니다: RareBench-MME 평가에서 78% Recall@1(2위를 30% 앞섬), MyGene2 평가에서 74%(경쟁자를 35% 앞섬).

의사들이 수술실에서 수술하는 모습

6. 유전자 데이터 통합이 정확도 변화

DeepRare의 가장 강력한 기능 중 하나는 유전자 시퀀싱 데이터를 임상 표현형과 통합하는 능력입니다. 연구자들이 HPO 용어와 전염기 시퀀싱 데이터를 결합하자 진단 정확도가 극적으로 향상되었습니다——신화병원 데이터셋에서 **39.9%에서 69.1%**로, 후난성 아동병원 데이터셋에서 **33.3%에서 63.6%**로.

시스템은 또한 유전자 변이 해석을 위해 특별히 설계된 널리 사용되는 바이오인포매틱스 도구인 Exomiser를 능가했습니다. HPO와 유전자 데이터를 결합하면 DeepRare는 신화 사례에서 69.1% Recall@1을 달성한 반면 Exomiser는 **55.9%**였고, 후난 사례에서는 63.6% 대 **58.0%**였습니다.

이 멀티모달 능력은 유전자 검사가 희귀질환 검사에서 점점 더 일반화되고 있기 때문에 특히 중요합니다. 그러나 원시 게놈 데이터 해석은 전문 유전학 교육이 없는 임상의에게 여전히 도전적입니다. DeepRare는 VCF 파일을 자동으로 처리하고 변이 분석을 임상 표현형과 통합하여 더 정확한 진단 가설을 생성함으로써 이 격차를 해소합니다.

DNA 유전자형 분석 및 시퀀싱 실험실

7. 투명한 추론: 임상적 신뢰 구축

아마도 DeepRare의 가장 임상적으로 중요한 기능은 투명한 추론 체인일 것입니다. 설명 없이 진단을 제공하는 블랙박스 AI 시스템과 달리 DeepRare는 검증 가능한 의학적 증거——연구 논문, 임상 가이드라인, 환자 사례 보고서——를 참조하는 명시적 추론과 함께 진단 가설을 생성합니다.

이러한 추론 체인의 신뢰성을 검증하기 위해 연구팀은 희귀질환을 전문으로 하는 10명의 부과장 의사를 초청하여 무작위로 표본 추출된 180개 사례에서 시스템의 출력을 평가했습니다. 각 사례는 3명의 전문가에 의해 독립적으로 검토되었습니다.

결과는 평균 **95.4%**의 참조 정확도를 보여주었습니다. 이는 DeepRare가 인용한 의학적 증거가 거의 모든 사례에서 신뢰할 수 있고 진단 결론에 직접적으로 관련되어 있음을 의미합니다. 이러한 높은 수준의 사실적 정확도는 임상의가 1차 소스에 대해 AI의 추론을 검증하고 시스템의 권장 사항에 대한 신뢰를 구축할 수 있게 하므로 임상 채택에 매우 중요합니다.

시스템에는 또한 가설을 반복적으로 재평가하는 자기 성찰 루프가 통합되어 있어 과잉 진단을 줄이고 대규모 언어 모델의 일반적인 문제인 환각을 완화하는 데 도움이 됩니다. 초기 가설이 검증 기준을 충족하지 않으면 시스템은 이전 단계로 돌아가 추가 환자별 증거를 수집할 수 있습니다.

의사가 디지털 기술과 컴퓨터를 사용하는 모습

8. 글로벌 영향과 미래 의미

DeepRare의 의미는 검증된 두 중국 병원을 훨씬 넘어 확장됩니다. 시스템은 희귀질환 의사를 위한 진단 보조 역할을 하는 사용자 친화적인 웹 애플리케이션으로 배포되었으며, 개방형 아키텍처는 전 세계 의료 환경에 적응될 수 있음을 의미합니다.

의료 시스템, 특히 전문 의사에 대한 접근이 제한된 저개발 지역에서 DeepRare는 희귀질환 진단 민주화의 잠재력을 제공합니다. 시스템은 전문가 컨설턴트 역할을 하여 일반 개업의와 비전문가가 그렇지 않으면 수년간 진단되지 않은 채 남을 수 있는 희귀질환을 식별하도록 돕습니다.

연구팀은 14개 의학 전문 분야 전반의 성과를 분석했습니다——혈액 및 순환계에서 생식계까지——거의 모든 범주에서 일관된 우위를 발견했습니다. 시스템은 신장 및 비뇨기계 장애에서 가장 좋은 성과를 보였으며(66% 정확도), 내분비(60%) 및 소화기계(49%) 범주에서 강력한 결과를 보여 광범위한 적용 가능성을 입증했습니다.

미래를 보면 다중 에이전트 아키텍처는 다양한 지식 소스의 통합이 필요한 복잡한 의학적 도전을 해결하기 위해 AI 시스템을 어떻게 설계할 수 있는지에 대한 템플릿을 제공합니다. 국제 희귀질환 연구 컨소시엄에 따르면 의학 지식은 계속 확장되고 있으며——연간 약 260~280개의 새로운 희귀 유전성 질환이 발견되고——새로운 정보를 효율적으로 통합할 수 있는 DeepRare와 같은 시스템은 점점 더 가치 있게 될 것입니다.

DeepRare의 성취는 기술적 돌파구뿐만 아니라 AI가 임상 진료에 어떻게 배포될 수 있는지의 근본적인 변화를 나타냅니다. 대규모 언어 모델의 추론 능력을 투명하고 검증 가능한 증거 체인과 결합함으로써 시스템은 AI가 고도로 정확하면서도 임상적으로 신뢰할 수 있음을 보여줍니다——이것은 오랫동안 의료 인공지능의 성배였습니다.

현재 자신만의 진단 여정을 경험하고 있는 수백만 환자에게 DeepRare는 5년간의 진단 여정이 곧 과거의 일이 될 수 있다는 희망을 제공합니다.

의학 연구 실험실 작업

출처 및 참고문헌

← 뉴스로 돌아가기