当前位置：网站首页>BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Trans

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Trans

2022-07-17 05:10:00 【byzy】

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers论文笔记

原文链接：https://arxiv.org/pdf/2203.17270.pdf

1.引言

视觉感知是利用多个摄像机提供的图像来给出3D边界框或语义图。最直接的方法是基于单目框架和跨相机后处理。但这种方法单独处理每个视图，而不能捕捉跨相机的信息，导致性能和效率都很低。

另一框架是从多相机图像中提取整体表达。鸟瞰图（BEV）是一种合适的表达，但基于BEV的方法与3D检测相比没有优势。生成BEV的流行框架是基于深度估计，但误差较大，导致最终性能较差。

此外，现有的多相机3D检测方法很少关注时间信息，因为自动驾驶对算法时间要求很高，且物体在场景中变化迅速，引入多帧数据会带来额外的计算量。但时间信息对于估计物体运动状态、确定被遮挡物体而言很重要。

因此本文提出BEVFormer（如下图所示），从多相机图像和历史BEV特征中聚合时空信息，生成BEV特征。包含3个部分：BEV query，空间注意力和时间注意力。

3.BEVFormer

3.1 整体结构

如上图所示，BEVFormer大体结构和传统的Transformer类似。BEV query是网格化可学习参数，通过注意力机制从多相机视图中查询BEV特征；空间注意力中，每个BEV query仅与感兴趣区中的图像特征交互。

3.2 BEV Queries

预定义可学习参数 $Q\in \mathbb{R}^{H\times W\times C}$ 作为queries，其中 H,W 是BEV平面的长和宽。 $Q_p\in\mathbb{R}^{1\times C}$ 是位于 p=(x,y) 处的一个query。

默认BEV平面的中心是自车位置。

在输入到BEVFormer前，向中加入了可学习的positional embedding。

3.3 空间交叉注意力

普通的多头自注意力的计算复杂度很高，考虑使用可变形注意力（deformable attention）。

$\textup{DeformAttn}(q,p,x)=\sum_{i=1}^{N_{\textup{head}}}W_i \sum_{j=1}^{N_{\textup{key}}}A_{ij}{W}'_ix(p+\Delta p_{ij})$
其中分别为参考点和输入特征， $N_{\textup{head}}$ 为Attention head的数量， $N_{\textup{key}}$ 是每个head采样key的数量。是特征维度。 $A_{ij}\in[0,1]$ 是预测的注意力权重，被归一化为
$\sum_{j=1}^{N_{\textup{key}}}A_{ij}=1$
$\Delta p_{ij} \in \mathbb{R}^2$ 是相对参考点的预测偏移； $x(p+\Delta p_{ij})$ 是位置 $(p+\Delta p_{ij})$ 处的特征，通过双线性插值得到。

如图2(b)所示，首先将BEV平面的每个query提升为柱状query，并从其中采样 $N_{\textup{ref}}$ 个3D参考点，然后将这些点投影到2D视图。对一个query而言，可能只有部分视图有投影点，这些视图集合为 $V_{\textup{hit}}$ 。将这些2D点视为 Q_p 的参考点，并从 $V_{\textup{hit}}$ 中的这些参考点附近采样特征。最后使用这些采样特征的加权求和作为空间交叉注意力(SCA)的输出，即：

$\textup{SCA}(Q_p,F_t)=\frac{1}{|V_{\textup{hit}}|}\sum_{i\in V_{\textup{hit}}}\sum_{j=1}^{N_{\textup{ref}}}\textup{DeformAttn}(Q_p,P(p,i,j),F^i_t)$

其中 F_t^i 是当前时刻第个相机视图的特征； P(p,i,j) 为投影函数，得到 Q_p 在视图上产生的第个参考点。

如何用投影函数得到参考点。首先使用下式计算BEV平面 p=(x,y) 处的真实坐标 ({x}',{y}') （以自车位置为原点）：

${x}'=(x-\frac{W}{2})\times s,{y}'=(y-\frac{H}{2})\times s$

其中是BEV网格的分辨率。

由于BEV无高度信息，故在采样时需要预定义anchor heights $\{{z}'_j\}_{j=1}^{N_{\textup{ref}}}$ 。故3D参考点为 $({x}',{y}',{z}'_j)_{j=1}^{N_{\textup{ref}}}$ 。

投影函数满足 $P(p,i,j)=(x_{ij},y_{ij}),z_{ij}[x_{ij},y_{ij},1]^T=T_i[{x}',{y}',{z}'_j,1]^T$ ，其中 T_i 是第个摄像机的投影矩阵。

3.4 时间自注意力

首先将当前时刻的queries 与历史BEV特征 $B_{t-1}$ 对齐，使得对齐的网格对应真实世界中相同位置。将对齐后的历史BEV特征记为 ${B}'_{t-1}$ 。使用时间自注意力（TSA）进行时间交互：

$\textup{TSA}(Q_p,\{Q,{B}'_{t-1}\})=\sum_{V\in\{Q,{B}'_{t-1}\}}\textup{DeformAttn}(Q_p,p,V)$

与普通的可变形注意力不同，时间自注意力中的偏移 $\Delta p$ 由和 ${B}'_{t-1}$ 的拼接进行预测。

特别地，对于第一帧，使用 $\{Q,Q\}$ 替代 $\{Q,{B}'_{t-1}\}$ 。

3.6 实施细节

训练：对每个时间点，随机采样2s以内的3帧数据，记为 $F_{t-3},F_{t-2},F_{t-1}$ 。依次产生 $B_{t-3},B_{t-2},B_{t-1}$ （此过程无需梯度；对于 $B_{t-3}$ ，由于无过去BEV特征，时间自注意力退化为自注意力）。最后根据 $B_{t-1}$ 生成 B_t ，然后送入head中计算损失函数。