日前,中山大学发布专利普通实施许可公示,拟将一项专利发明“一种基于多模态信息控制的说话人脸视频生成方法及装置”,以1万元的许可费用授予广东省恒生生物医疗科技有限公司3年普通实施许可权。该专利的发明人为中山大学王昊頔教授及其团队。
本次拟转化的专利核心是一项聚焦计算机视觉技术领域的说话人脸视频生成技术,其关键创新点在于突破传统技术对人脸情感细节的忽略局限,通过融合视觉、音频、文本多模态信息实现更自然、高保真且情感可控的视频生成。技术上,它基于扩散模型框架,先对输入图像编码并添加正态分布噪声,再提取视觉人脸参考图像的人物身份特征与掩码特征、输入音频的口型控制特征、输入情感文本的情感特征,通过联合嵌入与ControlNet生成情感控制特征,最终在多模态特征协同引导下完成去噪解码与图像插帧,形成视听同步、身份保真且面部情感鲜明的说话人脸视频,为多场景应用提供了更优解决方案。
此处所涉及的“疾病”核心是说话人脸视频生成技术在实际应用中存在的“技术缺陷类问题”,即现有技术难以生成自然、保真、情感可控且视听同步的说话人脸视频,这类技术短板导致其无法满足多领域对高质量交互体验的需求,本质是技术应用层面的“功能性缺失”。
说话人脸视频生成技术作为计算机视觉领域的重要应用方向,核心是通过音频、图像等输入信息,还原人类说话时的口型运动、面部动作,实现高视觉逼真度与高视听同步性的视频生成,其广泛服务于娱乐、教育、商务、人机交互等多个场景,是提升虚拟交互体验的关键技术支撑。
当前行业内的主流技术方案主要分为三类:
一是基于生成对抗网络(GAN)的方法,通过生成器与判别器的对抗训练生成图像,常以人脸关键点或三维模型作为中间桥梁;
二是基于神经辐射场(NeRF)的方案,借助神经网络建模三维空间辐射场,实现从图像视角到三维重建的生成;
三是近年来兴起的基于扩散模型(DM)的方法,通过逐渐减少噪声水平,从随机噪声中生成复杂人脸图像,以缓解GAN训练崩溃的问题。
然而,现有三类方案均存在显著技术缺陷,成为制约其落地应用的“瓶颈”:对于GAN类方法,中间量的引入易造成语义信息损失,且模型训练稳定性差、难度高,难以保证生成效果的一致性;NeRF类方案则存在生成视频画面抖动明显的问题,无法满足流畅自然的视觉需求;扩散模型虽在图像质量和训练稳定性上有优势,但多数研究仅聚焦视觉保真度与视听同步性,普遍忽略了面部情感细节的呈现,导致生成的人脸缺乏生动的情感表达,无法还原真实人类说话时的情感传递过程。
随着虚拟交互场景的不断丰富,市场对说话人脸视频生成技术的需求日益严苛:不仅要求生成视频具备高保真的人物身份还原、流畅的画面效果、精准的口型与音频同步,更核心的需求是实现面部情感的精准控制,让虚拟人物能够传递喜悦、严肃、温和等复杂情感,从而提升交互的沉浸感与真实性。
现有技术的缺陷与多场景下的深度需求形成鲜明矛盾,亟需一种能够整合多维度信息、突破传统技术局限的创新方案,以解决情感表达缺失、生成稳定性不足、画面流畅度欠佳等问题,推动说话人脸视频生成技术在各领域的规模化应用。
该专利技术相较于现有方案,具备显著的技术优势与核心创新点,全方位突破了传统说话人脸视频生成的技术瓶颈:
其一,创新构建多模态信息融合框架,实现生成效果的全面升级。区别于传统技术单一依赖图像或音频的局限,该技术首次系统性整合视觉、音频、文本三类核心模态信息,通过提取人物身份特征、人脸掩码特征、音频口型特征及情感文本特征,形成多维度协同控制体系。其中,视觉模态的身份特征与掩码特征保障了生成人脸的身份保真与空间定位精准性,音频模态特征实现口型与声音的高度同步,文本模态特征则填补了情感表达的空白,多模态信息的深度融合让生成视频兼具高视觉逼真度、强视听同步性与丰富情感表达,显著提升了交互的沉浸感与真实性。
其二,设计专属的说话人脸重建模块,精准解决生成稳定性与保真性难题。该模块将听觉与视觉关键特征作为外部条件,深度融入扩散模型的去噪过程:通过预训练图像编码器提取的人物身份特征,确保生成人脸与参考图像的身份一致性;人脸掩码特征通过关键点检测与编码获得,为生成过程提供精准的空域定位指引;音频特征经编码后通过交叉注意力机制,实现对嘴型运动的精细化控制。这一设计有效规避了传统GAN模型依赖中间量导致的语义损失与训练不稳定问题,同时解决了NeRF技术生成画面抖动的缺陷,大幅提升了生成视频的稳定性与保真度。
其三,首创人脸情感控制模块,攻克情感细节缺失的行业痛点。针对现有扩散模型忽略面部情感表达的不足,该技术通过情感文本特征与第二人物身份特征的对比学习,实现情感语义与视觉内容的精准对齐,联合嵌入共享特征空间后生成情感视觉联合特征;再通过预训练的ControlNet将其转化为情感控制特征,借助交叉注意力机制融入去噪过程,实现对喜悦、严肃等复杂面部情感的精准控制。这一创新让生成的虚拟人物不再是“无情感的说话机器”,成功还原了真实人类说话时的情感传递过程,填补了行业技术空白。
其四,采用先进的扩散模型生成架构,兼顾生成质量与训练效率。技术以扩散模型为核心框架,通过在隐层空间对输入图像编码后的隐式表征进行正态分布噪声加噪与逐步去噪,避免了GAN模型训练易崩溃的问题。
同时,降噪模块由多个U-Net组成,通过预测不同时间步的噪声残差实现高效去噪,配合图像插帧器完成视频合成,在保证生成图像高质量的前提下,有效降低了模型训练的计算负荷与成本。此外,该技术的核心逻辑具备良好的通用性与扩展性,经简单调整即可适配不同数据集与生成任务,适用场景广泛,具备极强的技术落地潜力。
针对多模态信息控制的说话人脸视频生成技术领域存在的情感表达缺失、生成稳定性不足、多角色协同难等行业痛点,国内外高校、科研机构与头部企业正通过产学研协同创新加速技术突破,依托差异化技术路径打造核心竞争力,并推动技术向各产业场景落地应用。
ACTalker(港科大+腾讯+清华)联合研发是全球首个多模态Mamba驱动的端到端视频扩散框架,核心创新为并行Mamba结构与mask-drop策略的融合应用。技术上采用多分支设计,各分支独立处理音频、视觉面部运动等驱动信号,实现面部特定区域的精准调控;依托门控机制可灵活切换单/多信号控制模式,搭配Mamba结构在时空维度的特征操纵,保障生成视频的自然协调性;mask-drop策略则让各驱动信号独立管控对应面部区域,有效规避控制冲突,大幅提升虚拟人嘴型与语音的同步精度。
依托腾讯生态资源,ACTalker已初步落地游戏、社交两大核心场景。在游戏领域,可通过多模态信号直接生成贴合角色形象的说话动画,替代传统人工动捕、3D建模的复杂流程,大幅缩短游戏NPC对话动画的制作周期,目前已在部分轻度手游中试点应用,显著提升游戏开发效率。在虚拟社交领域,支持用户上传音频与面部参考图生成专属虚拟形象说话视频,适配单/多信号控制的个性化需求,契合年轻用户对高同步、高可控面部动画的消费需求,未来有望与腾讯QQ、微信等社交产品的虚拟形象功能深度融合,进一步拓宽市场覆盖范围。
MultiTalk(中山大学+美团+港科大开源)MultiTalk以DiT为核心骨架,是首个支持多虚拟人对话视频生成的SOTA模型,核心突破在于Label Rotary Position Embedding(L-RoPE)技术。通过自适应人物定位分割视频潜在特征为不同人物区域,为每个说话人分配独立标签并通过RoPE映射到音频交叉注意力层,实现音频与人物唇部动作的精准绑定,解决多音频流输入下的人物-音频错配问题。
同时设计部分参数训练与多任务训练策略,兼顾指令遵循能力与视觉输出质量,支持文本prompt控制人物、物体与场景交互。从开源生态与产业应用来看,MultiTalk已形成初步的技术推广生态。在虚拟主播领域以及直播平台利用其多角色对话生成能力,打造多虚拟人互动直播场景,传统单虚拟人直播互动形式单一,而MultiTalk支持实时生成多虚拟人对话动画,提升直播内容丰富度与观众参与感,目前已在部分游戏直播、知识科普直播中试点应用,用户留存率较单虚拟人直播提升显著。
从行业发展趋势来看,多模态信息控制的说话人脸视频生成技术正朝着实时化、多角色化、场景深度融合的方向发展,技术层面的核心竞争点逐渐聚焦于跨模态对齐精度、生成效果自然度、多信号协同控制能力,同时产学研协同创新成为技术落地的重要推手,高校与科研机构的技术突破通过企业生态资源实现快速产业化,开源模式也进一步降低了行业技术接入门槛,推动技术在各领域的普及。
未来,随着虚拟交互场景的持续丰富,该技术也许将在游戏、社交、教育、医疗、政务等领域实现更规模化的落地,同时技术与各行业业务的融合将更趋深度,从单纯的内容生成工具向场景化解决方案升级。而技术的持续迭代、应用场景的不断拓展,也将推动行业形成更完善的技术标准与产业生态,同时如何平衡技术创新与合规发展、提升技术的普惠性,将成为行业发展过程中需要持续探索的课题。

















