医联MedGPT诊断命中实现突破！借技术创新持续辅助医生、赋能医疗-动脉网

2021年初，当IBM在坚持十年无果最终放弃Watson的时候，大概没有想到，仅仅过了两年，Watson所遇到的技术难题就因为大模型出人意料的快速进展得到解决。基于强大的语义理解及文本生成能力，依赖大模型的生成式AI在一夜之间重新燃起了业界重拾打造“AI医生”的热情。

就在最近，医联MedGPT再次领先业界，率先将诊断命中率提升到与真人相当的水准，实现了历史性突破，为AI进一步赋能医生奠定了基础。

生成式AI推动AI医生赛道崛起

毋庸置疑，生成式AI在包括医疗在内的许多行业展现出颠覆式创新的巨大潜力。行业均认同，生成式AI将会给医疗行业带来巨大的想象空间。根据动脉橙数据的不完全统计，从2022年1月1日至2023年6月28日全球生成式AI医疗领域累计投融资事件超过160起，累积投资金额超57.1亿美元。相比数字医疗过去一段时间的“寒冬”，生成式AI堪称是“冬天里的一把火”。

代表AI的NVIDIA GTC和代表医疗信息化的CHINC，这两场会议看上去毫不相干的会议，却异曲同工地呈现出生成式AI+医疗的盛景。

就医疗文本而言，以往以NLP和CV为代表的AI虽然具有强规则和强可控性的优点，但在自然语言沟通上存在障碍，也无法处理系统性和复杂性问题。

生成式AI则在自然语言处理上实现了巨大进步。以Transformer为代表的大模型具有比以往AI算法好得多的自然语言沟通能力，并能在海量医学文本与数据中进行高并发、长距离学习整合，从而实现复杂性问题的系统性整合。

人与计算机的交互模式正从传统的UI界面、操作系统以及冷冰冰的电子病历系统转变为流畅的自然语言对话，更具亲和力。这种交互模式的改变将使“AI医生”或“AI健康助理”可以在就诊的各个阶段发挥作用，从而为医生和医疗机构赋能。

在诊前，生成式AI可以利用其强大的资料检索和推理能力增强对患者疾病的预测，从而提升分诊导诊的准确性。在诊中，生成式AI则可基于患者的病历、症状和疾病历史等多模态数据，通过数据分析和智能算法为医生提供辅助诊断、指导治疗方案和预后方案。在诊后，生成式AI可以减轻医务人员负担，实现临床文档工作流程自动化，并作为宣教工具向患者传授正确的健康知识和预防措施。

尤其对于医生而言，生成式AI是一个方便的医学指南库，能帮助他们及时了解最新的医学研究进展、循证医学证据和临床指南，从而提升专业水平并促进医疗质量提升。

无论国内还是国外，背后依托于生成式AI的“AI医生”或“AI健康助理”正如春笋般涌现，其中的佼佼者当属Hippocratic AI。这家开发出基于生成式AI健康助理的初创企业在2022年才刚成立，却已经在短短一年内完成了3轮高达1.18亿美元的融资，其估值也已来到5亿美元。

医联MedGPT的又一次历史性突破

虽然底层技术上大体类似，但AI健康助理和AI医生还是有所区别。前者主要为大众使用，在提供意见时可以给出比较宽泛的回答，目标用户的容忍度也较高。AI医生则需要切入医疗场景，针对患者和医生，并需要根据具体症状给出严谨正确的医学意见，其难度不可同日而语。

显然，具有针对性的医学解答的准确性，将是决定AI医生能否真正得到认可的关键。

曾经在医疗垂直大模型上给业界带来惊喜的医联再次实现了突破。在一次测试中，医联MedGPT诊断命中率高达60%，比现有医疗大模型约35%的平均诊断命中率有大幅提升，也比真人诊断命中率明显更高。

在这次测试之前，医联曾对MedGPT做过内部测试，测试结果表明其能够通过完整的国家执业医师资格考试试题集和美国执业医师资格考试试题集的测试，并拿到的高于80%的正确率。

不过，考试结果固然重要，但并不能说明真实世界中的表现，毕竟“高分低能”并不是一件新鲜事。

为了验证MedGPT的真实能力，医联决定给MedGPT上上强度，设定了颇为严格的测试条件。

在这次测试中，AI需要仅凭病历记录，并通过文字问答的形式进一步了解患者状况，最终给出诊断意见。随后，AI给出的诊断意见需要与已确诊的诊断意见进行对比，从而衡量AI医生给出正确医学诊断的能力。

更值得一提的是，整个问答尽可能采用患者的表达方式，以模拟真实世界的情况。在以往的类似测试中，往往会配备专业人员，将患者的表达“翻译”为生成式AI更容易理解的标准术语。显然，这对于生成式AI的语义理解能力提出了比以往更为严苛的要求。

按照测试标准，若AI给出与确诊诊断完全一样的诊断意见即为“命中”。若AI的诊断未包含正确疾病名称，但与目标非常相似，经过专业评判认为需要进一步辅助检查才能确诊，则视为“相似”，比如，实际确诊诊断为“甲亢”，AI给出的诊断为“甲状腺疾病”。

无论是“命中”，还是“相似”，都被视为与确诊诊断“相关”；反之，则被视为“无关”。

MedGPT除了在命中率测试上达到了60%的高水准外，其诊断相关率提升到了84%，诊断无关率仅有16%。换句话说，MedGPT是目前国内诊断最准确的AI医生，甚至超越了真人水平。

未标题-1.jpg

同时，MedGPT并不单单只是给出诊断，而是以治愈为目的，进一步依据初诊和确诊结果给出相应的治疗方案。若疾病较轻，通过药物干预可以解决，则给出相应的药物方案，也可提供送药上门；若疾病较重，则为患者推荐附近的医疗机构。

不过，需要强调的是，即便测试条件较为严苛，这依然是一次理论上的测试，MedGPT在现实中或许还需要更多的时间。

一直以来，医联都致力于服务医生。从最初实现医生社交需求的社交App，到后来为医生提供问诊平台的互联网医疗，无不如此。MedGPT则是医联利用技术赋能医生的最新尝试。随着MedGPT在诊断命中率和相关率上的突破，AI终于可以成为医生依赖的可靠后盾。不仅可以帮助医生处理与患者的沟通，也可以通过可信度高的辅助诊断为医生提供参考。

反过来，医生也对医联的研发起到了关键作用——无论是通过参与内测提供意见，还是直接参与研发。事实上，MedGPT的研发就得到了来自华西医院、华山医院、北大附一院、首都儿研所、中山医院、中山大学孙逸仙纪念医院等一系列顶尖医院医学专家的直接参与。

这也确保了MedGPT的技术权威，以及对医疗场景的深刻洞察；更是技术企业和医生双向赋能的经典代表。

“最初，大模型的诊断还不那么准确，使用起来也有诸多限制，需要比较严格的术语输入。当时感觉这东西实用价值并不大。不过，经过多轮迭代后，现在MedGPT的诊断已经相当准确。有的时候诊断可能找不到头绪，或者模棱两可，用MedGPT给出诊断意见两相对比后按照这个思路去做进一步的检验，多数情况下都是准确的。这样诊断效率大大提升，患者口碑也在持续提升。对于我们基层来说，这个技术的确是很有意义的。”一直参与MedGPT内测的华西基层医院医生认为AI对医生的赋能效应愈发明显。

MedGPT对医生的赋能并不仅只局限在辅助诊断上。对于大量的基层、年轻医生，MedGPT可以很好地扮演数据库、知识库的角色，同时，AI提供的诊断思路也为他们提供了借鉴，从而帮助他们尽快成长。

同时，MedGPT在赋能医生进行临床研究上也有巨大的潜力。其强大的NLP能力使其可以作为一个可靠的临床研究助理，比以往更快捷地搜集疾病案例和数据，并将这些数据结构化整理起来供专家参考和攻克。

目前，这种探索正在进行之中。根据医联透露，来自中华医学会的大量专家对于MedGPT颇为认可，已在利用MedGPT进行科研。专家+AI未来会结出怎样的成果，相当值得期待。

透过MedGPT，我们似乎看到一副崭新的医疗全景正在徐徐展开。

一次模式创新向技术创新的华丽转身

这并非医联在生成式AI上的第一次突破。从去年4月，医联宣布推出基于Transformer架构且针对医疗应用场景调优的大语言模型MedGPT开始，这个被寄予厚望的生成式AI就在不断实现质的突破。

它被认为是国内第一个医疗专用大模型，率先引入了模型算法的一致性校验机制，确保医学准确性，并建立了多维度的诊疗准确性评测体系，可从多方面分析与评测MedGPT在诊疗全过程中的一致性和准确性。

不过，医联认为这些还并不足够，要衡量MedGPT的安全性和有效性，还需要基于专家评议的真实世界医生一致性对标机制加以衡量。于是，在去年6月，医联进行了国内首次AI医生与真人医生的一致性评测。

为了保证评测的合理性和科学性，此次测试的问诊环节进行了特殊的设计：患者进入诊室后，将与医助沟通自身病情，医助通过线上文字输入的方式将患者主诉分别传达给真人医生与AI医生，并协助医患完成多轮沟通。其最终目的，是通过单盲测试将MedGPT与真实医生给出的方案进行一致性评测。

经过来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授组成的专家委员会对结果的评定，MedGPT与三甲主治医生在比分结果上的一致性达到了96%，首次证明了AI诊疗的有效性和安全性。

此外，MedGPT还首次实现了AI从在线问诊向医学检查的跨越，可在诊断尚不明确时给患者开具必要的医学检查项目，结合医联多年建设而来的多种云化能力（如“云检验”）进行检验检测，使得患者逐不出户即可完成问诊-检验-确诊-买药的全流程，并根据患者返回的医学检查数据进行准确的疾病诊断及设计后续疾病治疗方案。

MedGPT取得的这些成就，正让医联从一家互联网医疗模式创新企业转变为一家专注医疗AI的技术创新企业。

这一成绩的取得并非偶然，而是来自医联数年如一日在该领域的持续积累和投入。

早在2017年，互联网医疗还流行咨询与轻问诊阶段时，医联就开始摒弃短期思维，寻找互联网与医疗真正的价值契合点，并试图找到一种更合理的方式去为医生和患者服务。最终，医联确定了对患者疾病的全病程管理这一路径，通过为患者提供包括医疗筛查检测、诊疗、康复在内的全病程管理，造福广大患者。

这需要从底层开始，建立并完善医疗大数据的清洗及数据结构化能力，也就是“下笨功夫”。在当时，这种下“笨功夫”的过程艰辛繁复，但这却为后来医联AI的推进提供了便利。

2018年，医联在布局慢病管理后一直完善横向的病种覆盖，纵向的服务完善与规范化。围绕数字化学科建设，在专家指导下，结合临床指南和临床路径，医联逐步形成着疾病的线上管理SOP，打造专业、规范、有效的互联网疾病管理。

随后，医联又开始在数据挖掘、机器学习、深度学习和知识图谱等领域进行布局，并在预防、诊断和康复等环节落地了智能体液检测、智能分诊、TMD辅助诊断、口腔影像识别和智能医助等一系列应用场景。

这些应用场景让医联的决策者直观地看到了AI对医疗产生的巨大赋能，并进一步确定了之后的规划。

2019年，医联开始针对单病种分阶段建立AI诊疗模型。当年，医联携手广州中山大学附属第三医院、北京大学医药管理国际研究中心和赛诺菲等机构、企业共同创建了亚洲首个多发性硬化症领域的早筛AI模型。

根据医联和专家团队分别进行的外部独立测试，验证结果与模型性能指标高度一致。这一早筛AI模型可使61%、51%和49%的多发性硬化症患者分别实现提前1年、2年和3年预警，提升了多发性硬化症的风险预测和防控能力。

这一研究结果也被第八届国际多发性硬化症专病大会ECTRIMS-ACTRIMS收录，并被发表在专病杂志《Mulitiple Sclerosis and Related Disorders》上。

到了2021年，医联已经初步形成一套基于互联网医院的AI诊疗系统。基于自然语言处理、图像识别和认知计算等AI技术建立的互联网医院系统将线上、线下和团队结合在一起，大大提升了就诊效率。

医联在AI上的早期探索虽然一度遇到难关，但随着MedGPT的问世，这些早期的探索终于可以被整合到一起形成合力，这些在其他人看来费时费力的事情正是医联多年探索出的“自身发展节奏”，即用一种“沉下心”来的慢节奏，实现了在患者疾病管理方面的深入拓展。

不难发现，没有之前持续多年的深耕积累，医联也不可能在生成式AI领域达成今日的成就。用“天道酬勤”来形容医联的厚积薄发再合适不过。

一副AI赋能医疗宏大画卷的徐徐展开

显而易见，MedGPT在诊断上的高命中率将带来巨大的想象空间。它将成为一个优秀的顾问，为医生提供辅助诊断、指导治疗方案和预后方案的意见，尤其MedGPT所具有的多学科和罕见病诊断能力也使得社区基层可以实现一直期望的多学科会诊能力，对于基层医生而言将是一个巨大的助力。

它也是一个方便的知识库，可以帮助年轻医生了解最新的医学研究进展、询证医学证据和临床指南，从而加速年轻医生的成长并进而提升医疗质量。

它还将是一个可靠的助理，通过其强大的拟人化沟通能力和数据分析能力帮助医生与患者沟通及辅助文书工作，减轻医生的负担，使得医生可以将更多的精力投入到攻克疑难杂症或医工转化上。

对于患者而言，这意味着可以极大减少不必要的检查而产生的时间和费用浪费，避免多次往返医院。一直没能得到很好实施的分级诊疗也终于有了实施的基础。MedGPT还会根据患者的诊断和用药，阶段性地对患者进行针对性的随访复诊，通过对病情进展进行跟进，并基于实时交互实时调整下一次的随访任务。

更为让人期待的是，结合医联在疾病早筛上的成果，以及智能可穿戴设备的助力，MedGPT已具备一定的疾病预防能力，可在3分钟内出具疾病预防策略报告，预测未来10年超过50种重症、慢性疾病。

不难发现，以MedGPT为代表的，基于生成式AI的AI医生已经完全具备了改写互联网医疗的可能，结合更多的服务和技术，一度陷入寒冬的互联网医疗或许有机会突破限制自身的诸多掣肘，迎来互联网医疗的又一个春天。

而这，只不过是生成式AI给我们带来的第一次小小的震撼。在医联的计划中，MedGPT将在更宏大的医疗场景中发挥更大的作用。目前，医联已规划医疗机构、智慧药店、智慧药械等一系列AI赋能解决方案，并已与数百家组织机构洽谈合作中。

以医疗机构为例，医联规划了相当详细的解决方案，可以利用MedGPT的能力为基层医疗、诊所和医院（及院端互联网医院）提供不同层次的服务，覆盖“健康咨询-预问诊-分导诊-辅助诊断-病例生成-报告解读-随访-预防”的全流程闭环。

除了医生和医疗机构，MedGPT也可以为医疗流程参与各方提供赋能：药店可以为患者给出更加准确的购药建议；药械厂商可以极大提升患者DOT，减少因治疗不当导致的并发症和不良反应，增加患者满意度；保险机构可实现定向推送和精确核保；体检机构及健康管理机构将具备一直求而不得的患者健康管理能力。

对于患者而言，则意味着通过搜索引擎获取未经过滤医疗内容的历史的终结；接近80%的健康需求可以在去医院前得到有效干预；并能够更全面了解自身疾病情况，及更多治疗可能性，从而寻求更具针对性的解决方案。目前，MedGPT已覆盖超过2000种常见疾病（按ICD10亚目计算），可覆盖95%的患者就诊人次。

写在最后

MedGPT近期取得的成就固然令人瞩目，但更需要注意到的是生成式AI强大的进化能力，使得MedGPT覆盖疾病数量不断增加，再到如今安全性上大幅提升，实现诊断命中率质的突破，MedGPT仅仅只花了一年左右的时间。

更让人期待的是，据动脉网了解，由更多高级别专家合作研发，更权威的AI产品已经蓄势待发。

借助MedGPT，医疗领域的众多痛点将可得到有效解决，从而有效补充医疗资源，助力全民健康生活水平的提升，补全基层诊疗服务短板，强化公共卫生服务效率，帮助解决优质医疗资源相对匮乏和基层医疗服务能力不足的结构性难题。

可以想象，随着未来AI对医生赋能的加深，科研成果的具体涌现，科技改写医疗的远景终将会变为现实。

编者按：如需商业合作，敬请联系赵安琪（18610088198，zhaoanqi@medlinker.com）