3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限

近年来,随着视频数据的爆炸式增长,超长视频理解成为了研究热点。来自上海交通大学、北京智源研究院和特伦托大学的联合研究团队推出了一种名为Video-XL-Pro的模型,实现了超长视频理解的SOTA性能刷新。 Video-XL-Pro模型采用了一种名为“重构式token压缩”的技术,通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。该模型在多个基准评测上超越了之前发布的meta模型Apollo-7B以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,并且项目代码、模型和训练数据均已开源。 Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过时空注意力块对token进行压缩,有效捕捉视频中的动态运动,同时通过自适应掩码策略减少冗余视觉token,优化重构学习过程。这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。 为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。同时,为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。 在多个主流的视频理解评测基准上,Video-XL-Pro展现了卓越性能。在MLVU、VideoMME、LongVideoBench、TempCompass和VNbench等评测基准中,Video-XL-Pro均取得了第一名的好成绩。特别是在最新的长视频时间基准测试V-STaR中,Video-XL-Pro的mIoU得分达到了25.07%,在IoU>0.7时仍能达到15.58%的准确率,远超过了同领域的知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B等。这表明Video-XL-Pro在长视频时间理解方面具有卓越的能力。 总的来说,Video-XL-Pro模型利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。该模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为长视频理解助手。目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

话题追踪

本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/50187/

(4)

导读信息推荐

发表回复

本站作者后才能评论

    联系我们

    邮件:sooting2000@qq.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们