中国AI系统DeepRare实现历史性突破：首个在罕见病诊断上超越人类专家的AI系统

1. 引言：数十年的等待终于迎来突破

对于全球超过3亿罕见病患者来说，诊断之路一直是一段艰难的旅程。患者平均要经历五年的反复转诊、误诊和不必要的检查，才能获得准确诊断——研究人员称之为”诊断之旅”。现在，中国研究人员开发的一款突破性人工智能系统实现了曾被认为不可能的成就：在复杂的罕见病诊断任务中持续超越人类专家。

2026年2月发表在顶级期刊《Nature》上的DeepRare系统，代表了医疗AI的范式转变。该系统由上海交通大学医学院附属新华医院和中南大学湘雅医学院附属湖南儿童医院合作开发，这个多智能体AI系统实现了可能重塑全球罕见病诊断方式的里程碑。

医生在医院环境中与患者交流

2. 罕见病诊断危机

罕见病——定义为影响少于1/2000人口的疾病——共同影响着全球超过3亿人，目前已识别出7000多种不同疾病。约80%的罕见病具有遗传起源。尽管罕见病的总体患病率很高，但它们带来了独特的诊断挑战，长期困扰着临床医生并让家庭陷入绝望。

罕见病的临床异质性意味着个体疾病在不同患者身上可能表现出发然不同的症状。同一种罕见病在一位患者身上可能表现为神经系统症状，而在另一位患者身上可能表现为心脏问题，这使得即使对经验丰富的医生来说，模式识别也极其困难。此外，每种疾病的个体患病率很低，意味着大多数临床医生在整个职业生涯中只能遇到极少数病例，甚至从未遇到过。

这种诊断危机带来了严重后果。研究表明，罕见病患者平均要看七位医生才能获得准确诊断。在这段旅程中，患者接受反复的不必要检查，面临来自不确定性的巨大心理负担，往往错过可能显著改善预后的早期干预关键窗口期。

儿童患者接受医疗护理

3. DeepRare：多智能体诊断革命

DeepRare采用了一种根本不同的罕见病诊断方法。该系统不依赖需要大量标注数据的传统监督学习模型——这对超罕见疾病是不可能的——而是使用由大型语言模型驱动的复杂多智能体架构。

系统的三层架构灵感来自Anthropic的模型上下文协议，包括：

中央主机： 一个配备记忆库的推理增强型大型语言模型（默认使用DeepSeek-V3），通过综合收集的证据和管理诊断流程来协调整个诊断工作流程。
专业智能体服务器： 多个智能体处理特定任务，包括表型分析、基因型解读、临床数据标准化和从多样化医学数据库中进行知识检索。
异构医学知识源： 集成超过40个专业工具，连接研究文章、临床指南、患者病例库和权威医学数据库。

DeepRare的独特之处在于其处理多模态患者数据的能力——自由文本临床描述、结构化人类表型本体（HPO）术语和来自VCF文件的原始基因测序数据——并生成带有透明推理链的排序诊断假设，临床医生可以对照主要医学文献进行验证。

人工智能神经网络大脑可视化

4. 中国领先医院的临床验证

研究团队进行了前所未有的规模验证：6,401例临床病例，涵盖14个医学专科的2,919种罕见病。评估数据集来自七个公共数据库和两个主要中国临床中心，代表亚洲、北美和欧洲的多样化人群。

上海交通大学医学院附属新华医院贡献了975例病例，包括168例具有完整全外显子组测序（WES）数据。湖南儿童医院贡献了162例具有完整基因检测结果的儿科病例。这些内部数据集包含来自实际医疗实践的真实世界临床数据，为系统的实际应用提供了关键验证。

评估数据集的多样性——从文献记载良好的病例到具有挑战性的真实世界临床呈现——证明了DeepRare在不同诊断难度水平上的稳健性。病例按来源分类：研究论文（因文档清晰通常较易）、病例报告（中等难度）和直接临床接触（最具挑战性，代表真实世界应用）。

医院建筑外观

5. 性能里程碑：超越人类专家

研究最引人注目的发现是DeepRare在与人类专家对比中的表现。在使用来自新华医院的163例临床病例进行直接对比研究中，DeepRare与五位经验丰富的医生进行了较量，每位医生都有十多年的罕见病临床实践经验。医生和DeepRare接收相同的输入：从自由文本门诊叙述中提取的结构化HPO术语。

结果前所未有。DeepRare达到78.5%的Recall@5，显著超越临床医生平均的65.6%。在Recall@1——意味着正确诊断作为系统首位推荐出现——DeepRare得分64.4%，而医生为54.6%。这代表了计算系统在罕见病表型分析和诊断中超越专家医生表现的首次记录。

在所有基准测试的基于HPO的评估中，DeepRare平均Recall@1达到57.18%，以23.79%的显著优势超越第二名方法（Claude-3.7-Sonnet-thinking）。在Recall@3，系统达到65.25%，超越竞争对手18.65%。

系统在特定数据集上表现出特别令人印象深刻的结果：RareBench-MME评估中78%的Recall@1（超越第二名30%）和MyGene2评估中74%（超越竞争对手35%）。

医生在手术室进行手术

6. 基因数据整合改变准确率

DeepRare最强大的能力之一是其整合基因测序数据与临床表型的能力。当研究人员将HPO术语与全外显子组测序数据结合时，诊断准确率大幅提升——在新华医院数据集中从39.9%提升至69.1%，在湖南儿童医院数据集中从33.3%提升至63.6%。

系统还超越了Exomiser，一种专门用于基因变异解读的广泛使用的生物信息学工具。结合HPO和基因数据，DeepRare在新华病例中达到69.1%的Recall@1，而Exomiser为55.9%；在湖南病例中为63.6%对58.0%。

这种多模态能力特别重要，因为基因检测在罕见病检查中变得越来越普遍。然而，对于没有专业遗传学培训的临床医生来说，解读原始基因组数据仍然具有挑战性。DeepRare通过自动处理VCF文件并将变异分析与临床表型整合来生成更准确的诊断假设，从而弥合了这一差距。

DNA基因分型和测序实验室

7. 透明推理：建立临床信任

DeepRare最具临床意义的特征可能是其透明推理链。与不提供解释就给出诊断的黑盒AI系统不同，DeepRare生成诊断假设时附带明确推理，引用可验证的医学证据——研究文章、临床指南和患者病例报告。

为验证这些推理链的可靠性，研究团队邀请了十位专门从事罕见病的副主任医师评估系统在180个随机抽样病例上的输出。每个病例由三位专家独立审查。

结果显示平均引用准确率为95.4%，意味着DeepRare引用的医学证据在几乎所有病例中都是可靠且与诊断结论直接相关的。这种高水平的事实准确性对临床采用至关重要，因为它允许医生对照主要来源验证AI的推理，并建立对系统建议的信任。

系统还包含自我反思循环，迭代重新评估假设，帮助减少过度诊断并缓解幻觉——这是大型语言模型的常见问题。如果初始假设不满足验证标准，系统可以回到早期步骤收集更多患者特异性证据。

医生使用数字技术和计算机

8. 全球影响与未来意义

DeepRare的影响远远超出其验证的两家中国医院。该系统已作为用户友好的Web应用程序部署，作为罕见病医生的诊断助手，其开放架构意味着可以适应全球医疗环境。

对于医疗系统，特别是专家医生资源有限的欠发达地区，DeepRare提供了使罕见病诊断民主化的潜力。系统可以作为专家顾问，帮助全科医生和非专科医生识别否则可能数年无法诊断的罕见疾病。

研究团队分析了14个医学专科的表现——从血液和循环系统到生殖系统——发现几乎所有类别都保持一致的优势。系统在肾脏和泌尿系统疾病中表现最佳（**66%**准确率），在内分泌（60%）和消化系统（49%）类别中表现强劲，展示了其广泛适用性。

展望未来，多智能体架构为如何设计AI系统来解决需要整合多样化知识源的复杂医学挑战提供了模板。根据国际罕见病研究联盟，医学知识持续扩展——每年约发现260到280种新的罕见遗传疾病——像DeepRare这样能有效整合新信息的系统将变得越来越有价值。

DeepRare的成就不仅代表技术突破，还代表AI如何部署在临床实践中的根本转变。通过将大型语言模型的推理能力与透明、可验证的证据链相结合，系统证明AI既可以高度准确又可以在临床上值得信赖——这一直是医疗人工智能的圣杯。

对于数百万目前正在经历自己诊断之旅的患者，DeepRare带来了希望：五年的诊断旅程可能很快成为历史。

医学研究实验室工作

来源与参考

← 返回新闻