摘要:监控视频系统是一种重要的技术手段,用于从庞大而复杂的监控视频中提取关键信息,为安全管理和事件分析提供有效支持。随着监控设备的普及和监控视频数据的快速增长,传统的手动方法已经无法满足快速处理和准确提取所需信息的需求,现代的深度学习方法普遍存在计算复杂度高,参数多的问题。针对这一问题,提出了一种基于动态Transformer的监控视频模型。自动为每个输入视频帧配置适当数量的token,通过级联多个Transformer模型,并逐渐增加生成的token数量,以实现自适应的激活顺序;一旦产生足够置信的预测,推理过程就会终止,并采用了特征重用和注意力重用技术以减少冗余计算;该模型在降低计算复杂度方面取得了显著进展,经实验测试,相较于传统模型,该动态Transformer模型在准确率上有所提升,在这两个公开数据集上分数指标分别提高了3.7%和0.9%,同时计算复杂度降低了40%,可以满足精度要求和监控要求,证明模型具有良好的泛化性。