近日,我院李云教授团队在国际权威期刊 IEEE Transactions on Multimedia 发表题为 “Deep Contrastive Hashing with Proxy Guidance for Multi-Label Micro-Video Retrieval” 的研究成果。TMM 是多媒体 / 计算机视觉领域国际顶级期刊(CCF A 类、中科院一区 TOP、JCR Q1),在全球图像视频处理与多媒体领域享有极高学术声誉。该研究在基于视频传播领域,围绕大规模智能检索中的关键技术难题,提出了一种面向多标签微视频检索的深度对比哈希算法 DCPH,为海量短视频内容的高效组织、精准匹配和智能利用提供了新的解决思路。

文章内容
随着短视频平台和移动互联网的快速发展,海量微视频内容持续增长,视频往往同时包含人物、场景、动作、事件等多重语义信息。如何在复杂语义交织的情况下,实现快速、准确、低成本的视频检索,已成为多媒体智能分析领域亟需解决的重要问题。针对微视频中场景变化快、信息密度高、标签关系复杂等特点,该研究将对比学习与代理中心引导机制相结合,构建了从视觉语义对齐到多标签哈希建模的完整检索框架。DCPH 通过异质性感知的视觉—语义投影模块,更充分地关联视频帧中的动态视觉信息与文本语义信息,降低由场景变化和视觉差异引发的标签混淆;同时,代理引导的分解式哈希模块进一步刻画多标签之间的共现关系与互斥关系,将复杂语义逐步映射为紧凑且具有判别力的二值哈希编码,从而在提升检索准确性的同时兼顾存储和查询效率。
实验结果表明,该方法在大规模视频数据集上取得了优于现有方法的检索性能,展现出良好的鲁棒性和应用潜力。基于其高效、精准的视频语义匹配能力,该成果可应用于短视频平台的相似内容检索、个性化推荐、重复视频识别、版权保护与侵权追踪、内容审核和媒体资源管理等场景,也可进一步拓展至新闻视频归档、舆情事件分析、电商视频检索、教育资源管理和城市智能感知等领域,为多媒体数据的智能管理与服务提供技术支撑。(初审:李旭 复审:玉琳 终审:覃志和)