介绍

英文题目:BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

中文题目:BEVFormer: 通过时空 Transformers 从多摄像头图像学习鸟瞰图表示

论文地址:https://arxiv.org/pdf/2203.17270v1.pdf

领域:机器视觉,自动驾驶

发表时间:2022 年 3 月

作者:Zhiqi Li 等

出处:南京大学,上海人工智能实验室,香港大学

代码和数据:https://github.com/zhiqi-li/BEVFormer

阅读时间:2022.05.22

读后感

文中方法和特斯拉视频(特斯拉2021人工智能日AI Day完整视频)架构相似。比较有意思的地方是在BEV 层面结合了时间和空间信息

介绍

在 3D 感知领域,雷达已取得了很好效果,机器视觉近几年也受到关注,除了成本低,相对雷达,它还能感知远距离物体,以及识别道路标识。

BEV 鸟瞰图从多个摄像头信息计算表征,用于描述周围场景。分割任务证明了 BEV 的有效性,但由于该方法基于深度信息生成 BEV 容易出错,所以在三维目标检测方面效果不显著。

另外,时间信息也很重要,比如车往前开的时候,现在被遮挡的物体,之前可能是能看到的。但是目前用到时序数据的不多,主要因为运动中的情况不断变化,不能通过简单堆叠前帧的方法来辅助当前预测。

文中提出了结合多摄像头和历史 BEV 特征的方法 BEVFormer,如图 -1 所示:

Pasted image 20220524103231.png

左图是BEV 的网格图,即鸟瞰图,Ego 是汽车本身,黑色方块是关注的物体;中图的交叉注意力结合了多个摄像头信息的空间信息;右图使用自注意力模型,结合了之前数据的 BEV 信息。以此来解决估计运动物体的速度和检测严重遮挡物体的问题。

文章贡献

  • 提出 BEVFormer,结合时空信息,支持下游任务。
  • 使用自注意力和交叉注意力,将特征结合到 BEV
  • 实验效果好。

DEVFormer

总体架构

BEVFormer 有六个 Encoder 层,每层如图 -2 所示,

Pasted image 20220524104742.png

左图描述了车载的 6 个摄像头,通过底层 Backbone 提取多层图像特征(Feature Map);中间图 (a) 展示了一个编码层包含时间的自注意力和空间的交叉注意力,空间信息由左图提供,它的输入还包括前一层的网格 BEV 特征 (橙色) 和 BEV 查询 (蓝色),输出是 BEV 特征;右侧的图 (b) 细化了空间交叉注意力,BEV 查询只与它感兴趣的摄像机图片特征交互;右图 (c) 细化了时间自注意力,查询与之前的 BEV 特征和当前的 BEV 特征交互。

其中 BEV 查询是网格形状的可学习参数,用于从摄像头中查询 BEV 特征。

预测阶段,在时间 t,读取多摄像头的图片特征 F,以及 t-1 时刻的 BEV 特征,通过上述处理,输出 BEV 在 t 时刻的特征,送入下一层;多层处理完最后输出的 BEV 特征送入下游任务。

BEV 查询

定义一个网格形状的可学习的参数 Q ∈ RH×W×C,其中 H,W 是 BEV 平面的大小,其中每个点 p=(x,y) 指向现实世界中 s 米的区域,每个点对应一个大小为 C 的查询 Qp。BEV 的中心点一般是汽车本身所在的区域。依照惯例,在输入 BEVFormer 框架前,将位置嵌入到 Q 查询中。

空间交叉注意力

多个摄像头,每个摄像头又有多层特征输出时,数据量非常大,因此使用了多头注意力。具体使用形变注意力 deformable attention(一篇非常精典的论文)。BEV 查询使每个点只与某些摄像头(视图)相关。

本文将形变注意力从 2D 扩展到 3D。如图 -2(b) 所示,先将查询扩展成了一个柱形,采样 3D 参考点,再投影到 2D。把与某点相关的视图记作 Vhit。把 2D 点作为查询 Qp 的参考点,从相关视图中这些点周围采样。最终得到采样特征的加权和作为空间交叉注意力的输出:

Pasted image 20220524113809.png

式中的 i 是摄像头索引,j 是参考点,N 是柱中所有高度参考点,F 是特征,Q 是查询,P(p,i,r) 是投影函数,用于获取第 i 图中的第 j 个参考点。

使用投影函数计算参考点方法如下:

Pasted image 20220524114202.png

x',y' 是真实世界坐标,x,y 是 BEV 上的坐标,W,H 是 BEV 大小,S 是每个 BEV 小格对应现实世界的米数。

现实中,不仅有位置 x',y',还有高度 z',对于每个查询点 p,获取一个 3D 柱

Pasted image 20220524114604.png

,通过相机的投影矩阵将三维参考点投影到不同的图像视图上。

Pasted image 20220524115345.png

此处的 P(p, i, j) 是由第 j 个 3D 点 (x', y',z'j) 投影到第 i 个视图上的 2D 点,Ti 是第 i 个相机的已知投影矩阵。

时间自注意力

通过结合历史 BEV 来表征当前环境。查询 Q 和前一时间的 Bt-1,首先要对齐运动中的 Bt-1 和 Q,将对齐后的 B 记作 B',由于物体在运动中,因此,通过自注意力建模:

Pasted image 20220524115744.png

与之前的形变注意力不同的时,此处的位置偏移∆p 是通过串联 Q 和 B't-1 来预测的。

相对于简单的堆叠之前的 BEV,自注意力更有效地对长时依赖建模,也减少了计算量和信息干扰。

应用 BEV 特征

Encoder 输出的 DEV 特征 Bt 大小为 HxWxC,可用于自动驾驶的 3D 物体探测(预测三维边界框和速度,无需 NMS 后处理)和地图分割等任务中。

实现细节

训练阶段

从过去 2s 中随机抽取 3 个样本,表示为 t-3,t-2,t-1,t,在时间 t,根据多摄像头的输入和 Bt-1 生成 Bt,Bt 包含四个样本的时空信息,最终输出到下游任务,计算损失函数。

预测阶段

对视频中的每帧计算,并保留 BEV 特征用于后续计算,尽管使用了时间信息,但是文中方法的预测时间与其它方法差不多。

实验

数据集

实验使用两个公开的自动驾驶数据集:nuScenes 和 Waymo。

nuScense 包含 1000 个,每个约 20s 的数据,标注 2Hz,每个样本包含 6 个摄像机具有 360 度的水平场景。对于目标检测任务有标注了 1.4M 个 3D 框,共包含 10 个类别。5 种评价标准:ATE, ASE, AEO, AVE, AAE,另外,nuScense 还提出了 NDS 来计算综合评分。

Waymo Open Dataset 包含 798 个训练序列和 202 个验证序列,每帧 5 张图片,摄像机具有 252 度的水平场景,但提供了 360 度的标注。由于 Waymo 是高分辨率且高采样的,所以利用 5 秒采样切分数据,并只检测车辆类别。

实验设置

基础模型使用使 ResNet101-DCN 和 VoVnet-99,三层 256 通道的 FPN,BEV 大小为 200x200,每小块对应 0.512 米,用 6 层编码层,从 -5 米到 3 米取 4 个高度的参考点,24 次迭代。由于 Waymo 不能取到 360 度全景,由此对 BEV 大小做了调整。

基线使用 VPN 和 Lift-Splat 模型做对比,另外,还对比了不使用时间信息的 BEVFormer-S 模型。

3D 目标检测

Pasted image 20220528102547.png

Modality 中 L 表示雷达,C 表示摄像机,可以看到 BEVFormer 与雷达效果相似。另外,对于速度 mAVE 也有明显提升。

多任务感知

针对 3D 检测和地图分割同时训练两种任务,以节省资源,结果如表 -4 所示:

Pasted image 20220528103658.png

可以看到,在车辆分割中多任务训练效果更好,而道路和车道分割效果较差,这可能是负迁移导致的。

消融实验

空间交叉注意力

与之前模型相比,使用了 Deformable 的 BEV 模型有明显提升。相对于全局注意力,只关注参考点的注意力(限制了感受野),稀疏注意力利用了先验的感兴趣区域,取得了更好效果,且相对比较节省资源。

Pasted image 20220528105619.png

时间自注意力

通过 BEVFormer 与 BEVFormer-S 的比较可以看出,使用时间注意力的效果,其优势如下:更好地预测速度;预测位置方向更准确;对遮挡物体有更高召回率。

模型规模和延迟

Pasted image 20220528110159.png

由于需要处理多视图,时间主要用于 backbone 模型;另外,缩减了 BEVFormer 后,效果下降也能接受。

可视化效果

Pasted image 20220528104206.png

如图 -4 所示,模型只在较远和小型物体识别有误。