近日,实验室校长专聘教授刘天山作为第一作者的最新研究成果“Injecting Text Clues for Improving Anomalous Event Detection from Weakly Labeled Videos”被CCF-A类期刊IEEE Transactions on Image Processing (TIP) 接收。论文通讯作者为实验室主任鲍秉坤。
论文提出一种基于文本线索注入的弱监督视频异常事件检测方法。视频异常检测旨在对长视频中包含异常事件的片段进行定位。弱监督设定,即在训练期间只利用视频级别标签,因其在检测性能和标注成本之间取得出色的平衡,引起了研究者较多的关注。但是,现有的弱监督视频异常检测方法由于缺乏片段级的密集标签,仍然容易出现虚警和不完整定位两类检测错误。为了解决这一难题,本文提出通过构建一个双分支架构来注入视觉-语言预训练大模型提供的丰富泛化性异常事件类型线索,进而提升弱监督视频异常检测性能。为了抑制混淆正常上下文响应,首先提出了一种基于层次化匹配机制的文本引导异常发现分支,该分支利用标签文本查询以全局到局部的方式搜索判别性异常片段;为了促进异常实例定位的完整性,进一步设计了一个异常条件文本补全分支来实施辅助生成任务,该任务本质上迫使模型从所有相关的异常片段中收集尽可能充足的事件语义,以完整重建被遮蔽的描述句。此外,为了促进跨分支知识共享,引入了一种互学习策略,对两个分支预测的异常得分施加一致性约束。在UCF-Crime和XD-Violence两个公共基准测试上的大量实验结果验证了提出方法的优良检测性能。
论文方法框图
(撰稿:刘天山 审核:贾耕云)
地址:江苏省南京市栖霞区仙林大学城文苑路9号(南京邮电大学仙林校区)计算机学科楼
电话:13813992640(贾老师)
邮箱:bingkunbao@njupt.edu.cn(鲍老师)