ICLR2025上,中科院自动化所的研究团队提出了一种名为Mind-Animator的两阶段模型,从功能性磁共振成像(fMRI)数据中解码出动态视频。该模型通过fMRI-视觉-语言三模态对比学习解码语义特征,并设计了稀疏因果注意力机制来解码多帧视频运动特征。在特征到视频阶段,这些特征通过膨胀的StableDiffusion模型整合为视频,有效消除了外部视频数据的干扰。研究在多个视频-fMRI数据集上的广泛实验表明,Mind-Animator实现了最先进的性能,并通过逐体素和逐ROI可视化技术从神经生物学角度阐明了模型的可解释性。此外,研究引入了八项评估指标,在三个公开的数据集上全面评估了模型的重建效果,为后续研究建立了首个统一基准。所有重建结果和代码均已公开,以促进未来研究。