蛋白质组学是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学,包括对蛋白质表达模式和蛋白质组功能模式的研究。蛋白质组学的发展对寻找疾病的诊断标志、筛选药物靶点、毒理学研究等具有重要意义。因此被广泛应用于医学研究。
OmicEra Diagnostics(简称OmicEra)正是一家蛋白质组学和人工智能(AI)初创公司。公司使用基于质谱的蛋白质组学改变医学诊断方法并改善人类健康。OmicEra成立于2019年1月1日,位于德国普拉内格。该公司的领导团队由蛋白质组学科学家、AI专家和连续创业者组成。
Ole Vorm博士,首席执行官兼联合创始人(图源:OmicEra官网)
Ole Vorm博士是OmicEra的首席执行官兼联合创始人,是一位领导经验丰富的连续创业者。
1997年,Ole Vorm和Matthias Mann在丹麦欧登塞创办了Protana,一家较早的蛋白质组学公司,该公司于2000年被MDS Intl收购。2004年,Ole Vorm创立了Proxeon,该公司于2010年被Thermo Fisher Scientific收购。2014年至2016年,Ole Vorm在Bruker担任蛋白质组学副总裁。2016年3月,Ole Vorm成立了Evosep,一家创新和快速发展的HPLC公司。
2022年6月17日,OmicEra被Exact以1500万美元收购。Exact是一家专注于早期癌症诊断的公司。该公司期望利用基于质谱的蛋白质组学的最新技术来进一步发现癌症早期生物标志物。
那么OmicEra基于质谱的蛋白质组学的技术究竟有什么独特之处,值得Exact收购呢?动脉网对其进行了研究。
生物标志物(Biomarker)是指可以标记系统、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标,用途广泛。目前,生物标志物可用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。
OmicEra的蛋白质组学管道可以分析多种类型的人类样本,包括血浆、脑脊液(CSF)和尿液样本、分离的细胞和福尔马林固定石蜡包埋(FFPE)或新鲜冷冻组织。
样本队列(图源:OmicEra官网)
OmicEra开发了一个稳健的平台,用于对临床样本进行大规模的基于质谱的蛋白质组分析,该平台每年可处理超过200000个样本。Philipp Geyer博士等OmicEra的创始成员率先探索了血浆蛋白质组,并开发了新的生物标志物发现策略“矩形策略”。
矩形策略的工作流程分为两个阶段。
第一阶段:在发现阶段研究了一个大型队列,并尽可能多地覆盖蛋白质组。在验证阶段,分析另一个队列以确认候选生物标志物,但它需要使用相同的技术和相似的队列规模。也可以同时分析两个队列,但只有在两个研究中具有统计学显著差异的蛋白质才是经过验证的生物标志物。
第二阶段:不同生活方式、疾病、治疗方式的血浆蛋白质组分析将随着时间的推移建立一个知识库,以一般方式将血浆蛋白质变化与扰动联系起来。
矩形策略相较于传统的生物标志物发现策略“三角策略”具有两点优势。一是能够发现和验证具有特定健康或疾病状态特征的蛋白质模式,以及单个生物标志物候选者。二是能够快速对大量样本中的血浆蛋白质组进行深度量化。
矩形工作流程(图源:OmicEra官网)
与基因组学相比,蛋白质组学具有较高的特异性,如诊断甲状腺结节的良恶性。
2018年Nature Reviews Endocrinology杂志评估表明,基因测序检测结果灵敏度可以达到83%~100%,即如果结节是恶性,检测试剂盒基本可以判断出来,但特异性只有10%~52%。即试剂盒判断是恶性结节实际有大约50%~90%是良性,致使最高达90%的患者有过度治疗危险。
但是蛋白质组学技术亦有局限和难题。蛋白质检测难点在于,如何处理小量组织,鉴定更多蛋白,稳定进行蛋白质定量,提高数据的重现性,高效解析质谱数据。
OmicEra突破了蛋白质检测的难点,主要从数据的质量、高重现性以及数据的处理两方面来获取有效信息,进而发现并验证生物标志物。
行业有一个共识:数据的质量是诊断结果正确的前提。所以OmicEra从样本到数据的严格把控,以保证数据的质量。
OmicEra利用机器人进行样品制备,以实现蛋白质提取、变性、酶消化成肽和纯化的可扩展性和高重现性。
为检测并纠正与样本采集或储存相关的质量问题,OmicEra定期应用质量标记物组和质量评估策略,以纠正因红细胞裂解、血小板再污染和部分血液凝固引起的血浆样本偏差。
OmicEra应用的质量标记物组主要有红细胞和血小板质量标记物组合和凝血质量标记物组。
红细胞和血小板质量标记物组合(图源:OmicEra官网)
凝血质量标记物组(图源:OmicEra官网)
应用质量标记物组可以从三个层面评估样本相关质量问题。它们分别是临床队列中每个样本的质量、整个研究中潜在的系统偏差,以及个体生物标记候选物属于污染物蛋白质组的可能性。
此外OmicEra还建立了标准操作程序(SOP)样品跟踪策略和实时质量控制软件,以监控液相色谱仪和质谱仪系统的性能,保证数据的质量。
通过控制样本到数据全过程的质量偏差,OmicEra保证了数据的质量。那么它所使用的质谱法分析蛋白质组,是怎么确保数据的高重现性的呢?
OmicEra主要应用(数据非依赖采集技术)DIA来定性和定量分析蛋白质
目前广泛应用于蛋白质的定性和定量分析的主要是数据依赖采集技术(DDA),然而DDA在扫描肽段时总是偏向于信号强的肽段,易造成低丰富度肽段的缺失。
与DDA相比,DIA可对样品中所有离子的碎片信息进行无偏向性的数据采集,提升了定量结果的重复性和准确性。DIA数据采集也不受指定目标肽段的限制,可用于未知蛋白和大规模蛋白的定量分析。
OmicErade通过对DIA技术对肽进行多次定量,以保证数据的高重现性。
OmicErade的蛋白质组学管道可对每种蛋白质的多个肽进行定量,并且每个肽在一次分析中被定量多次,从而产生高度可重现的数据和准确的蛋白质定量。
与抗体和其他亲和力测定方法相比,质谱法通过分析物的物理特性来识别分析物,是具有确定性的。因此,肽和蛋白质的鉴定几乎具有100%的特异性。
OmicEra通过DIA技术获得了高质量、高重现性的数据。但是对于数据的处理,如何从获取的数据中提取出有效的信息来发现并验证生物标志物,依旧是蛋白质组学技术的局限性,那么OmicEra是如何突破局限的呢?
临床数据库能够帮助医院和科研机构建立信息化管理机制,以此从一定程度上提高临床诊断效率和决策能力。对于生命科学研究,将蛋白质组学数据与人工智能联合,可以快速、准确的解析质谱数据。
图形数据库,提高对数据的洞察力
OmicEra采用一个图形数据库,以提高对蛋白质组学数据的医学和生物学洞察力。此数据库由包含不同健康和疾病状态下的蛋白质扰动信息的知识库和生物医学信息系统组成。
OmicEra的软件管道包括新颖的人工智能数据库搜索引擎和优化的量化算法,使原始数据被转换为定量肽和蛋白质信息。
机器学习,建立预测模型
机器学习是一种通过让计算机系统从数据中学习和提取知识,从而实现自动改进和优化的人工智能技术。
OmicEra通过集成学习等机器学习技术发现并验证新型生物标志物,从而为患者分层或病程预测建立预测模型。
预测模型可以帮助研究机构决策是否进一步检验。若得出诊断结果的可能性极小时,则不会进一步检验。患者病程的预测,有利于医生治疗方案的决策以及患者的心理建设。
此外OmicEra还应用机器学习预测肽的保留时间、碰撞横截面或肽的MS/MS光谱强度来加强管道技术。
从2019年起,OmicEra一直与质谱仪供应商Bruker、临床或转化应用液相色谱系统供应商Evosep合作以期突破临床蛋白质组学的界限。最终OmicEra取得基于质谱的蛋白质组学的最新技术,于2022年被Exact收购。
未来定量蛋白质组学技术的发展方向是进一步提高通量、准确度、稳定性和自动化程度。OmicEra基于质谱的蛋白质组学技术将向此方向进一步前进。