摘要:鉴于传统深度估计方法在高分辨率图像下存在特征提取不够充分、图像信息获取不完整、受限于局部信息或特定类型的特征提取等问题,为此提出一种面向全局特征的Transformer立体匹配网络。该网络采用编码器-解码器的端到端架构,使用多头注意力机制,允许模型在不同子空间中关注不同的特征,从而提高建模能力。模型将自注意力机制和特征重构窗口相结合,能够提高特征的表征能力,弥补局部特征不足问题,减少计算负担的同时有效应对Transformer架构通常伴随的高计算复杂度问题,确保模型的注意力计算保持在线性复杂度范围内。在Scene Flow、KITTI-2015数据集上分别进行实验,指标获得显著提升,通过对比实验验证模型的有效性和正确性。