《Nature Methods》上的一项研究探讨了单细胞基础模型(scFMs)在预训练数据量与模型性能之间的关系。研究人员基于包含2220万个细胞的scTab语料库,预训练了400个模型,并完成了6400次下游评估。结果显示,许多模型在仅使用全部预训练数据的一小部分(约1%)后,性能就进入了平台期。这一发现挑战了“越大越好”的传统观念,提示在单细胞组学领域,更多的数据并不一定带来更好的表现。该研究强调了在AI for biology中,更合适的模型设计和任务设计可能比单纯增加数据量更为重要。此外,研究还指出单细胞转录组与自然语言处理中的文本数据存在本质差异,因此不能简单地套用NLP的成功经验。这项研究为单细胞基础模型的发展提供了新的视角和思考方向。