数据已成为当今世界核心经济资源和基本生产要素,我国也对此作出了相应的部署。2020年4月发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》中首次将数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列。
2021年11月25日,上海数据交易所正式成立,将聚焦数据交易确权难、定价难、互信难、入场难和监管难等关键共性难题,推进数据权属界定、开放共享、交易流通、监督管理等标准制定和系统建设。
尽管医疗健康数据所蕴含的巨大价值被行业公认,但其并未包含在首批交易的数据类型中。一大原因是目前的数据交易还处于初期探索阶段;另外一方面,我国的医疗健康数据在可利用性上具有巨大的改善空间。为此,国内医疗健康数据相关行业正用实际行动努力挖掘数据价值。以医疗大数据头部企业柯林布瑞为例,已通过“大数据+人工智能”的解决方案充分发挥数据价值,为医疗机构赋能。
通常而言,医疗人工智能利用深度学习处理影像和文本两类数据。尽管前者在资本市场较为火热且技术更成熟,但从应用场景而言,以电子病历、处方等为主的文本类数据无处不在,并已经广泛应用于医疗信息化系统。
对于文本类数据,行业一般通过构建知识图谱,开发自然语言处理(NLP)技术,应用人工智能自动识别、填充、监督、修正、分析文本类数据。随着技术的逐渐成熟,行业也在探索利用文本数据为医生提供辅助诊断支撑。
通过将散落在医疗信息化系统的原始数据进行整合并处理为研究和临床可用的标准化结构化数据,结合专家的宝贵知识和经验,人工智能企业将这些要素沉淀到算法上打造出疾病模型,乃至进一步的疾病专病库和疾病研究网络。以此为基础的人工智能可以支持医学研究、临床诊断治疗和医院运营管理。
不难看出,人工智能的本质是一种数据处理工具,需要大量数据支撑机器学习。因此,与其作用完全匹配的医疗大数据在2016年时便已初具规模。
不过,并非所有的数据都可以用于机器学习。恰恰相反,人工智能学习对于数据有较高的要求。由于历史和习惯等原因,我国医学“重临床、轻数据”的现象比较普遍,医疗数据呈现出数量大、质量差的特征,缺乏统一标准,医疗机构间数据孤岛等问题,在很大程度上滞后了健康医疗大数据的发展。
柯林布瑞联合创始人秦晓宏认为,要将现有的医疗大数据成功地应用到人工智能上存在几个难点。
首先,现有医疗数据的源数据量很大,可以达到PB级别,但是数据规范程度存在较大的问题。第一是数据结构不规范。由于缺乏相应的强制性标准,每个厂商和医院的数据结构都不太一致。第二是数据内容不规范。由于缺乏统一的模板,不同医院的医生乃至同一医院的医生在书写病历时对同一疾病可能有不同的描述。
举例而言,一级高血压的“一级”在实际书写中可能还会有“1级”“Ⅰ级”等不同的描述方式。人类可以轻松将这些不同的表达方式归为一类,又或者在特定的条件下分为不同类;但机器学习则无法对此进行分辨,需要在数据端就加以处理。
其次,我国医疗行业在快速发展的同时,各医院间、科室间数据孤岛现象严重,使得健康医疗数据的利用困难重重。尽管国家也在着手解决这一问题,但完全解决仍需时日。
最后,医学是一个具有较高专业性的领域。即使具有数据治理能力,但缺乏相应的医学背景,要想将这些数据加以利用,并进一步赋能临床或者研究,几乎是天方夜谭。
不难看出,将医疗大数据与人工智能成功结合具有较高的准入门槛,需要大数据企业不单具有数据挖掘能力,还需要具有深厚的数据分析和治理能力,并能理解医学行业特点和需求。在这方面,作为“医疗大数据+人工智能”探索者的柯林布瑞有着天然的优势。
在对医疗大数据的长期治理过程中,柯林布瑞对不标准的数据进行标准化映射处理、对非结构化进行后结构化处理、对脏数据进行清洗处理,构建起庞大的医疗行业标准库和医学术语库;从而解决了数据质量问题。
目前,包括华西医院、瑞金医院、海军军医大学第一附属医院、陆军军医大学西南医院、复旦大学附属肿瘤医院和上海市精神卫生中心等权威三甲医院都选择了柯林布瑞合作构建医疗大数据治理平台与应用平台,并对其评价颇高。
柯林布瑞的三大数据中心产品布局(图片来自柯林布瑞)
为了打通医院内部的数据孤岛,柯林布瑞通过持续的研发攻关和经验积累,打造出ClinData数据中台产品并在实践中多次迭代。即使相应HIS、EMR信息系统未开放接口,柯林布瑞也可以无需任何接口改造就可以无缝把一家医院数十个厂家数百套系统的数据整合到统一的数据中台上来,实现了医院内部“数据孤岛”的连通。
此外,柯林布瑞在医疗行业有着多年的沉淀,并建立了规模庞大的专业医疗团队。这些医学专业的人才已与数据开发人员形成了默契,能够互相配合完成临床专业数据的提取和处理。
目前,柯林布瑞已经在自然语言处理、知识图谱、文字识别、自动化机器学习和临床决策系统等细分领域上进行了相应的布局,并在罕见病临床决策和VTE智能防治管理等方面为医院赋能。
底层核心基础——自然语言处理与知识图谱
从2014年开始,柯林布瑞便开始在医疗大数据及AI领域布局,并探索大数据与人工智能的结合。彼时的医疗数据利用存在很多痛点,医疗人工智能更是刚刚起步,柯林布瑞较为超前的理念和接地气的实施思路获得了行业的认可和支持,并实现了底层技术的不断迭代优化。
通过近8年时间,柯林布瑞打磨出自研的自然语言处理技术NLP,数据涵盖病历、CT报告、B超报告、MR报告、病理报告等数类文本数据的后结构化处理系统。
柯林布瑞也对产品进行相应的优化以更好地满足医疗领域的独特需求。“医院基于科研需求希望可以有内部数据结构化工具,但每个病种结构化的东西不一样。柯林布瑞除了提供通用的模型,也为医院提供标注平台,让医生可以自己进行文本标注,随后自动去训练个性化的模型,”柯林布瑞AI部门同事举例道。
另外,医疗行业大量医学文献和医学指南以PDF形式展现,如何提取这些数据并加以利用一直有迫切的需求。借助自然语言处理技术及柯林布瑞相关模型的积累,公司实现了医学文献和医学指南PDF文件的内容识别和提取,不仅是常规的文字内容,更可以实现难度较大的表格和流程图等内容提取。
此外,柯林布瑞的医学知识图谱围绕医学领域知识展开,旨在通过建立医学实体之间的关联关系,将文本中的知识系统地组织起来,让知识更加容易被机器理解和处理,并为数据搜索、挖掘、分析等提供便利,为人工智能的实现提供知识库基础,为行业提供知识资源和工具资源。不仅如此,柯林布瑞还构建了庞大的医疗行业标准库和医学术语库,医学术语积累超过1600000条。
柯林布瑞目前已经将知识图谱与罕见病诊疗相结合。首先,罕见病在日常诊疗中非常罕见,因此难以诊断,经常漏诊、误诊;其次,罕见病很难进行临床干预,在7000多种罕见病中也只有400种罕见病具备治疗手段;最后,罕见病知识文献更新速度快,忙于临床工作的医生很难及时跟进最新的罕见病研究与诊疗进展。
然而,全球罕见病专家早已形成共识,罕见病越早诊断越有利于预防病情恶化、治疗干预和减少家庭负担。柯林布瑞充分利用了海量的医学知识和人工智能分析引擎,并且整合结构化、半结构化或非结构化医学信息,通过人机交互的方式改善和提高了罕见病的决策效率。
基于底层自然语言处理技术的积累,柯林布瑞还在临床决策系统不断延伸,通过大数据+AI结合知识图谱,人工智能将可以实现在不同的场景的疾病预测及治疗方案推荐等辅助功能。
柯林布瑞大数据+人工智能的典型应用
基于上述人工智能底层技术的搭建,柯林布瑞已经在多个专病领域引入了“大数据+人工智能”解决方案;其中,VTE智能防治管理平台和罕见病智能决策系统尤为值得一提。
静脉血栓栓塞症(VTE)是指静脉内血液斑块形成、脱落并进入血液循环形成栓塞的症状。其中,一部分栓塞会进入肺部导致潜在性的致命性肺栓塞。医院内致死性肺栓塞的发生,已构成医疗质量和安全的潜在风险,成为临床医务人员和医院管理者面临的严峻问题。临床上诸多科室的患者均存在VTE风险,其发病隐匿、临床症状不典型,容易误诊、漏诊。一旦发生致死和致残率高。
然而,VTE又是一种可预防的疾病,积极有效的预防可以显著降低其发生率,规范诊断与治疗可以显著降低其病死率。但是目前在临床实践中VTE预防现状并不乐观。为了加强VTE院内综合防治能力,并提高各科室医务人员对VTE严重性的认知。柯林布瑞打造了VTE智能防治管理平台。
这一平台利用医院大数据中台及AI模型,提供高质量决策依据;通过提供标准+定制化评估量表,结合AI全自动决策引擎对病情进行评估及诊疗推荐,通过医护辅助诊疗系统、诊疗质控管理系统、患者宣教随访系统对VTE防治进行全流程管理。
柯林布瑞VTE智能防治管理平台
它通过三级预防体系来多维度提高VTE防治管理质量。首先,结合自动筛查VTE相关危险因素,警示患者存在的VTE风险,针对病因建立一级预防,降低VTE发病率;其次,设立二级预防动态监测体系,早期识别高危人群并及时通知医生采取适当干预措施,进一步降低VTE发病率;最后,依据风险评估结果规范VTE预防治疗路径,实施三级预防,防止病情进一步发展和恶化,提高患者生存质量,延长寿命,降低病死率。
通过引入柯林布瑞VTE智能防治管理平台,各大医院患者实现VTE住院全流程全自动评估,平均每位患者VTE评估管理节省医护人员4个小时工作量,VTE风险评估率从46.14%提高到93.22%,评估模式由单次患者评估转变为住院全程评估。患者的平均住院费用减少一半。此外,平台还可实时识别高危患者主动提醒,使医护人员及时发现中高危风险患者知晓率由原来的无数据支撑提高至100%。
罕见病临床决策支持系统则是柯林布瑞人工智能底层技术综合应用的最新探索,包含了罕见病决策交互系统、疾病表型分析系统和罕见病决策引擎。它为罕见病诊疗提供机会,用于临床表型、疾病知识等信息的综合评估,并给出潜在罕见病的候选列表。其主要功能在于综合患者的疾病表型,对照已有的7000多种罕见病进行评估打分,辅助临床医师准确诊断。
一方面,知识图谱具有海量疾病信息的高效存储、管理和访问能力,方便临床医师快速检索和查询已知罕见病及其研究进展;另一方面,得益于人工智能算法模型的进步,罕见病临床智能辅助决策引擎可以快速综合、归档、识别和辨别罕见病所需信息,对患者症状进行初步评估,减少了临床医师重复烦琐的工作,以便其将更多精力分配到遗传病的辨别、诊断和治疗中。
柯林布瑞罕见病决策支持系统在技术上实现了创新,可将多种知识图谱对应概念的中文术语统一映射及扩展;并将临床惯用描述映射至疾病表型标准概念之上。随后,通过多种相似度算法,通过表型计算任意两个病种间的相似度,可用于疾病鉴别诊断。如果采集到一个全新病例的表型分布后,则可计算其在知识图谱中与各个罕见病的相似程度,并提示可能的罕见病诊断。
此外,该系统还可以图表方式直观展现医院罕见病,并可快速归档不同类型的罕见病和它的信息,帮助医生快速进行科研工作。
如何以人工智能、大数据等技术应用的探索辅助未来医学发展,提升人类医疗健康水平是国家战略的重点。为此,国家不断出台相关政策,不断完善相应的顶层设计。正因为此,“医疗大数据”在近年来持续火热。“得数据者得天下”已经成为行业共识,柯林布瑞花了9年时间打造了国内领先的“ClinBrain数据大脑”。
通过在医疗大数据领域的深耕,柯林布瑞已形成“大数据+人工智能”的竞争壁垒,未来,柯林布瑞将探索实践更多如VTE和罕见病智能决策支持系统等医疗应用场景,提升科研和临床质量,助力医疗数据应用发展,为医疗行业提供数据智能化支持,最终将打造服务医疗全场景的“ClinBrain医疗大脑”。