北京大学汤富酬教授团队在《Genome Biology》上发表文章,介绍了一种名为scExtract的新框架。该框架利用大型语言模型(LLM)对单细胞RNA测序数据进行全自动预处理、注释和集成。scExtract能够从已发表的研究文章中自动提取并集成单细胞RNA-seq数据,显著提高了数据处理效率,并在基准测试中表现出色。此外,研究人员还开发了新的整合算法scanorama-prior和cellhint-prior,通过结合先验注释信息,在提高批处理校正效果的同时保持生物多样性的完整性。研究团队通过整合14个数据集创建了一个包含44万个细胞的全面人体皮肤图谱,展示了scExtract在揭示新生物学见解方面的实用性和有效性。scExtract只需原始表达矩阵和文章内容作为输入,即可自动执行预处理、聚类和注释操作。