EN
登录

多模态大模型首次实现像素级推理,UniPixel发布

中信建投证券研究 等信源发布 2025-10-21 07:39

2025年10月21日获悉,UniPixel是香港理工大学与腾讯PCG ARC实验室联合研发的多模态AI模型,该模型首次实现视频理解、像素级分割与区域推理的统一,支持点、框、掩码三类视觉提示交互,核心创新在于 “对象记忆银行” 机制,可动态存储目标时空特征,实现多轮对话的上下文感知。基于Qwen2.5-VL构建,通过多模态提示编码器、SAM 2.1掩码解码器及三阶段渐进训练,3B参数版本在ReVOS、MeViS等10个基准测试中刷新SOTA,性能超越72B传统模型。该模型已开源,在医疗影像分析、教育可视化、内容创作等领域具实用价值,推动多模态AI从“全局通感”迈向“细粒度精准交互”的新范式。