自ChatGPT引爆全球大模型浪潮以来,“医疗+AI”成为最拥挤的赛道之一,市场上冠以“医学/医疗AI”名头的产品层出不穷。
然而,医疗场景容错率极低,通用大模型的高幻觉率、证据不可追溯、信源不透明等问题,很长时间里成为困扰着医学或诊疗场景的使用者。
一项发表在英国皇家外科医学院官方期刊上的研究显示,某些主流AI平台在咨询场景下生成的参考文献,超过三分之一的参考文献是伪造或无法验证的。它们看起来真实,带有看似合理的文章标题、URL链接,但当医生试图复核数据时,发现引用的DOI号指向的是完全不相关的文章。
在引用质量上,部分AI大模型依赖维基百科、健康信息门户和新闻博客,其引用中超过一半来自非学术或未经同行评审的来源。
在动脉网主办的2026未来医疗医药100强大会演讲,阿里健康氢离子相关负责人分享:“在医学AI领域首要议题是可信。医生敢不敢用、愿不愿意用,取决于AI给出的建议是否可信、是否具备可追溯的循证依据。如果验证答案的成本高于检索成本,工具的实际效率反而会下降。”
氢离子的出现,正是为了突破这一困境。
破局路径:构建一个全新的循证AI体系
基于对医疗行业的洞察与判断,阿里健康推出的医学AI助手“氢离子”选择了一条更为艰难、却也更具长期主义的路径。
AI的答案是否可靠,首先取决于它“吃”进去的是什么数据。通用大模型之所以在医疗场景中频繁出错,根源在于其训练数据混杂着海量低质、甚至错误的信息。
氢离子的解法,是构建专业的医学知识库,与权威、顶尖的医学证据生产者合作。
5月13日,阿里健康宣布与英国BMJ集团达成期刊内容独家合作。BMJ旗下70本医学期刊,包括国际四大顶级综合医学期刊之一的《英国医学杂志》,其过去十年发表的全部内容及多媒体资源授权给氢离子。这意味着,氢离子成为国内唯一可以在站内直接阅读、解析并追溯BMJ集团顶刊全文的医学AI产品。
有了顶级数据,如何确保AI能正确理解和使用这些数据?继而,能够像三甲医生一样,理解、判别医学证据并给出辅助决策的答案指引。
这意味着,医学AI产品需要在底层技术上就要具备不同于通用大模型的循证能力。
在主题演讲中,阿里健康相关负责人分享了氢离子独创的“四层循证AI架构”体系,试图通过构建一套严密的“循证AI架构”与“专家评审体系”,为严肃医学AI确立一道关于“可靠”的准入门槛。
首先,在证据理解与内容体系上:所有指南和文献进入系统时,均基于PICO和GRADE标准进行结构化拆解。这确保了模型“吃”进去的每一口数据都是标准化、高质量的。
其次,基于PICO的检索与数据增强:通过语义检索技术,确保输出的每一句话都有据可查,实现了支持依据可追溯、可验证。
同时,模型能力做了强化与微调:让模型学会识别什么是“准确、忠实循证、安全有用”的答案,确保满足循证医学的严格标准,抑制幻觉的产生。
最后,构建医学专家评审体系:这是整个闭环的最后一道防线。邀请超300位中国临床专家组成的评审团队,对AI的输出进行持续验证与反馈,形成了“人机协同”的质量保障机制。
阿里健康氢离子相关负责人强调:“ 如今AI算法可解释性强于医学,但系统复杂度弱于医学以及生命科学,医学智能落地可以深度结合体系化的临床智慧,通过这种融合形成科学的医学AI评测标准。”
医学AI:应当将“可靠”刻进产品基因里
阿里健康氢离子的实践,恰好为行业提供了一个观察窗口。严肃医学AI的准入门槛,远高于通用大模型。
通用大模型可以抓取PubMed的摘要,但摘要只能告诉医生“这篇研究得出了什么结论”,而无法回答“这个结论是否可信”。要判断可信度,医生需要知道入组人群的具体特征、研究设计的统计方法、不良反应的详细数据、作者讨论中承认的局限性。这些关键信息,只存在于全文之中。
然而,获取全文并非易事。国际顶刊的API接口的开放极为谨慎。BMJ集团将其70本期刊的全文内容独家授权给氢离子,是其首次在中国市场进行此类深度合作。而据阿里健康透露氢离子正在与更多的国际顶刊沟通合作,这也意味着氢离子未来在顶级医学证据上的持续“重投入”。
而AI产品越往后,医生参与的部分就越重要。阿里健康坦言:“会每周请医生来讲课交流,讲医学知识,讲产品体验,更重要的是讲case。发现了哪些好的case,哪些不好的case,证据列表里哪个应该引用、哪个不应该。”
这意味着,医学AI产品的及格线极高。它不能只在标准测试集上表现优异,而必须在真实、开放、复杂的临床问题中保持稳定。而氢离子构建的从理解到检索,从训练到评审的循证AI闭环为此提供了解决方案。
行业习惯把医学AI的竞争理解为参数规模的竞赛、问答能力的比拼。
但氢离子的实践表明,医学AI赛道竞争的逻辑正在发生变化:从“会不会回答”转向“凭什么可信”。
医学AI的竞争,本质上是对医学本质理解深度的竞争。真正能走远的,不是参数最大的模型,也不是话术最流畅的聊天机器人,而是那个最让医生敢用的助手。
一位三甲医院急诊科主任医师,在88天内登录了氢离子193次。这意味着他几乎每天都在使用,有时甚至一天多次,其使用场景包括凌晨急诊、肾功能不全的急性心梗患者、需要快速确认替格瑞洛的剂量调整方案等。
过去遇到类似疑难问题,往往需要在PubMed、指南、药品说明书等多个平台之间来回切换,整个过程可能耗费几十分钟甚至更久。但氢离子压缩成了一次提问、一个可靠的回答。
产品发布后医生群体的自来水效应,正在验证氢离子的长期价值。通过医生端的反馈,也让阿里健康氢离子确信医学AI产品效果的拐点已经到了。
医学AI不是来取代医生的,而是来增强医生的。它通过将医生从繁重、重复的低价值信息筛选中解放出来,让他们有更多时间专注于那些AI无法替代的高阶工作,例如临床判断、患者沟通、复杂决策。
这一定位,也正是阿里健康为氢离子设定的方向。
从产品设计到技术架构,从数据合作到专家评审,氢离子的所有努力,都在致力于回答同一个问题:如何让AI的每一个结论,都经得起医生的追问和验证?
阿里健康氢离子,既是一款产品,也是严肃医学AI准入门槛的一个具体实例。


















