摘要:人体姿态估计是计算机视觉、模式识别领域的重要研究问题,在人机交互领域有重要应用。人体姿态估计用于将视频图像中的人体骨骼姿态进行检测识别,研究面向闸机场景下人群拥挤、遮挡严重的复杂场景下人体姿态估计方法,研究工作具有挑战性。首先,针对拥挤、遮挡严重的复杂场景下人体姿态估计任务,我们提出基于姿态矫正的人体姿态估计网络(PCNet,Pose Correction Network),设计了一种融合全局和局部信息的 Transformer 特征编码模块,并将其引入到模型特征提取骨干网络中提升精度表现。第二阶段对预测的关键点位置进行矫正,提出基于时空注意力机制的级联结构的姿态矫正模块,修正因遮挡、小尺度目标等引起的误差较大的关键点。提出的人体姿态估计方法在COCO数据集和CrowdPose数据集上进行实验,实验结果表示,本文提出的模型效果在精度和鲁棒性上均得到了提升,证明了本文所提出的人体姿态估计方法的有效性。