EN
登录

北师大秦志伟Digital Discovery基于蛋白质语言模型嵌入的进化网络分析方法

2025-10-06 遇见生物合成 等3家媒体报道 科研进展

北京师范大学秦志伟教授团队在《Digital Discovery》期刊上发表了一种名为MAAPE的新算法,该算法通过整合蛋白质语言模型嵌入分析,为解决传统序列比对方法在处理低相似性蛋白质序列时遇到的“暮光区”问题提供了新的解决方案。MAAPE基于“组装理论”,认为自然界倾向于重复利用已存在的功能序列模块,其包含两个核心组件:一是基于欧几里得距离的k-最近邻(KNN)相似性网络,用于可视化多样化的进化关系;二是共现矩阵分析系统,通过比较不同大小滑动窗口切分后的子向量相似性和包含关系,揭示进化的方向性路径和基因转移信号。技术流程包括使用ESM2_t36_3B_UR50D模型进行蛋白质序列嵌入、主成分分析降维以及信息熵分析确定最佳滑动窗口配置等步骤。这一创新方法有望显著提升蛋白质进化研究的准确性和效率。(摘要由动脉网AI生成)