RSN(Range Sparse Net)的翻译解读

RSN是range view另一个代表性工作,range view由于其原生、紧凑的表达特点,近年来在3D检测/分割的工作越来越多,这篇论文是waymo在2021年发表在CVPR的工作,关键词:时序、前景点、稀疏卷积。但是这篇论文没有开源代码。

摘要

从LiDAR数据中检测3D物体是大多数自动驾驶系统中的一个关键组成部分。安全、高速的驾驶需要更大的探测范围,而新的LiDAR可以做到这一点。这些更大的探测范围需要更有效和准确的探测模型。为了实现这一目标,我们提出了Range Sparse Net(RSN)—一个简单、高效和准确的三维物体检测器–以解决这一扩展检测系统中的实时三维物体检测。RSN从RV图像中预测前景点,并在选定的前景点上应用稀疏卷积来检测物体。在密集的RV图像上进行轻量级的二维卷积,导致所选的前景点明显减少,从而使RSN中后来的稀疏卷积能够有效地运行。结合RV图像的特征,进一步提高检测精度。RSN在Waymo开放数据集(WOD)的150米×150米的检测区域上以每秒60帧以上的速度运行,同时比之前发布的检测器更准确。截至2020年11月,根据基于LiDAR的行人和车辆检测的APH/LEVEL_1指标,RSN在WOD排行榜上排名第一,同时比替代方案快几倍。

1.介绍

在稳步提高三维物体检测器算法的准确性和效率的同时[ 37, 24 , 21 , 16, 42 , 32, 22 , 30, 5 , 35, 3 ],LiDAR传感器硬件的最大范围和保真度也在提高,以满足安全、高速驾驶的需要。一些最新的商业LiDAR可以在车辆周围的各个方向感应到250米[12]和300米[36]。这种大体积的覆蓋对高效和准确的三维检测方法提出了强烈的要求。基于网格的方法[43 , 16, 42 , 35, 8]将三维空间划分为体素或支柱,每个体素或支柱可选择使用PointNet[25]进行编码。密集的卷积被应用于在网格上进行提取特征。这种方法对于长距离或小物体检测所需的大网格来说是低效的。稀疏卷积[30]对大的检测范围有更好的扩展,但由于应用于所有点的缺陷,通常很慢。RV图像是原生的、密集的表示,适合于处理由单个LiDAR捕获的点云。基于RV图像的方法[21 , 3]直接对range进行卷积,以提取点云特征。此类模型随距离扩展良好,但在处理遮挡、准确的物体定位和尺寸估计方面往往表现较差。第二阶段,完善一组最初的候选检测,可以帮助缓解其中的一些质量问题,但要付出大量的计算成本。

为了解决现有方法的缺点,我们介绍一种新颖的3D物体检测模型— Range Sparse Net (RSN) – 通过结合基于密集RV图像和网格的方法的优势来提高 3D 检测精度和效率。RSN首先应用轻量级2D卷积网络,从高分辨率RV图像中有效地学习语义特征。与现有的RV图像方法不同,RSN被训练用于高召回率前景分割。在随后的阶段,稀疏卷积仅应用于预测的前景体素及其学习的RV图像特征,以便准确回归 3D 框。引入了可配置的稀疏卷积主干和专为处理稀疏体素而设计的定制CenterNet [41]头,以实现端到端,高效,准确的对象检测,而无需非最大抑制。图 1 总结了 RSN 模型与 WOD 验证集上的其他模型相比获得的主要收益,以证明 RSN 的有效性和准确性。可配置的稀疏卷积主干和专为处理稀疏体素而设计的定制 CenterNet [41] 头被引入以实现端到端、高效、准确的目标检测,而无需non-maximum-suppression(nms)。图 1 总结了与 WOD 验证集上的其他模型相比,RSN 模型获得的主要收益,以证明 RSN 的效率和准确性。

图1.准确性(WOD 验证集上的 3D AP/L1)与延迟(毫秒)。RSN 模型的性能明显优于其他模型。有关更多详细信息,请参阅表 1 和表 2。

RSN是一种新颖的多视图融合方法,因为它将信息从RV图像传输到3D视图(前景点上的稀疏卷积)。它的融合方法与现有的多视图检测方法[42,35]的不同之处在于:1)RSN的第一阶段直接在高分辨率RV图像上操作,而过去的方法[42,35]执行体素化(在圆柱形或球面坐标系中),这可能会失去一些分辨率,特别是对于远处的小物体。2)RSN的第二阶段仅处理第一阶段选择为前景的3D点,这在特征质量和效率方面都有所提高。

RSN的设计结合了使模型非常有效的几种见解。初始阶段经过优化,可快速区分前景和背景点,该任务比全3D检测更简单,并允许以全分辨率将轻量级2D图像主干应用于RV图像。下游稀疏卷积处理仅应用于可能属于前景对象的点,从而在计算方面额外节省大量成本。此外,通过在输出上聚合局部最大值中心点来消除昂贵的后处理,例如非最大抑制,类似于CenterNet [41]。

在这项工作中,我们做出了以下主要贡献:1. 我们提出了一种简单、高效和准确的 3D LiDAR 检测模型 RSN,该模型利用 LiDAR RV进行前景物体分割,通过稀疏卷积来有效地处理分割的前景点以检测物体。2. 我们在RSN中提出了一种简单而有效的时间融合策略,几乎没有额外的推理成本。3. 在Waymo开放数据集[34](WOD)的实验中,我们展示了最先进的准确性以及车辆和行人检测的效率。在内部数据集上的实验进一步证明了RSN在远程物体检测方面的可扩展性。4. 我们进行消融研究,以检查RV图像特征的有效性以及前景点选择阈值或端到端模型训练等方面对延迟和准确性的影响。

2.相关工作

2.1. 激光雷达数据表示

这是用于 3D 对象检测的四种主要 LiDAR 数据表示形式,包括体素网格、点集、RV图像和混合。

基于体素网格的方法。3D 点被划分为体素格网。每个体素都使用手工制作的指标进行编码,例如体素要素均值和协方差。Vote3Deep [ 7 ] 是第一个将由稀疏 3D 卷积组成的深度网络应用于 3D 检测的公司。他们还提出了L1惩罚,以支持更深层的稀疏性。体素可以分散到伪图像中,伪图像可以通过标准图像检测架构进行处理。MV3D [ 4]、PIXOR [ 38] 和 Complex YOLO [33] 是基于这种方法的著名模型。体素网络 [43] 在每个体素中应用 PointNet [ 25 ] 以避免手工制作的体素特征。PointPillars [ 16 ] 引入了 2D 支柱来取代 3D 体素以提高模型效率。对于足够小的 3D 体素大小,如果使用 3D 稀疏卷积,则可以删除 PointNet。基于这种方法的著名例子包括Second [ 37 ]和PVRCNN [30]。

基于体素的方法有三个主要缺点。1)体素大小在所有范围内都是恒定的,这限制了模型在距离上的能力,通常需要更大的感受野。2)对完整3D网格的要求对长距离造成了限制,因为复杂性和内存消耗都随范围二次或立方缩放。稀疏卷积可用于提高可伸缩性,但通常仍受到大量体素的限制。3) 由于上述可扩展性问题,体素表示的分辨率有限。

基于点集的方法。这一系列方法将点云视为无序集合。大多数方法基于开创性的PointNet和变体[25,26]。FPointNet[ 24 ] 从图像中获得的 2D 建议给出的裁剪点云中检测对象;PointRCNN[ 32] 直接从每个点提出对象;STD [39] 依赖于稀疏到密集的策略来更好地细化提案;DeepHough [23 ] 探索了在生成框提案之前进行deep hough 投票以获得更好的分组点。尽管这些方法有可能随着范围更好地扩展,但它们落后于体素方法的质量。此外,它们需要最近邻搜索输入,随点数缩放,这可能成本很高。

基于距离图像的方法。尽管是从单个视点(例如激光雷达)捕获的 3D 点的原生和密集表示,但之前使用 2D 距离模型的工作并不广泛。LaserNet [ 21 ] 应用传统的 2D 卷积网络将图像距离直接定向到回归盒。RCD-RCNN [3] 追求距离条件膨胀以增强传统的 2D 卷积,然后是第二阶段来完善所提出的距离图像框,该框也被 Range-RCNN [18] 使用。在对 2D 图像执行 2D 卷积时,仅从距离图像中学习的特征非常有效,但在处理遮挡、准确的对象定位和尺寸回归方面并不擅长,这通常需要更具表现力的 3D 特征。

混合方法。MultiView [42] 融合了从球面坐标和笛卡尔坐标中的体素中学习的特征,以减轻基于网格的方法中固定体素离散化导致的有限的距离感受野。Pillar-MultiView [35 ] 通过进一步将融合的球面和笛卡尔特征投影到鸟瞰视图,然后进行额外的卷积处理以产生更强的特征来改进 [42]。这些方法面临着与体素方法类似的可伸缩性问题。

2.2. 目标检测架构

典型的两阶段检测器[10,9,28,6]生成一组稀疏的感兴趣区域(RoIs),并通过网络对每个区域进行分类。PointRCNN [32 ]、PVRCNN [30]、RCD-RCNN [ 3] 与 Faster-RCNN 共享类似的架构,但依赖于为不同点云表示设计的不同区域提案网络。单级检测器通过引入YOLO [27],SSD [20]和RetinaNet [19]而普及。类似的架构用于对单阶段3D点云方法进行设计[43,16,37,42,35]。与PVRCNN [30]等两阶段方法相比,这些方法具有竞争力的准确性,但延迟要低得多。基于关键点的体系结构,如 CornerNet [17] 和 CenterNet [ 41],可实现端到端训练,而无需非最大抑制。AFDet [ 8 ] 将 CenterNet 式检测头应用于类似 PointPillars 的探测器,用于 3D 点云。我们提出的RSN方法也依赖于两个阶段。然而,第一阶段执行分割而不是框建议估计,第二阶段从分割的前景点检测对象,而不是执行 RoI 细化。RSN 使 CenterNet 检测头适应稀疏体素。

3. Range Sparse Net

这项工作的主要贡献是Range Sparse Net(RSN)架构(图2)。RSN 接受原始 LiDAR 距离图像 [34] 作为提取距离图像特征的高效 2D 卷积主干的输入。分割头(unet)被添加到处理距离图像特征中。

图2

图2.(最佳彩色查看)RSN对象检测架构。该网络由五个部分组成:1)距离图像特征提取:对距离图像进行二维卷积网络,用于提取相关的图像特征。2)前景点选择:前景点在2a中的距离图像上分割);与学习的距离图像特征一起,将它们收集到2b中的稀疏点)。3)稀疏点特征提取:通过应用稀疏卷积在选定的前景点上提取每个点的特征。4)一个稀疏的CenterNet head回归到框。红色点是选定的前景点。浅灰色框是地面事实。蓝绿色框是检测结果。

这分割了背景和前景点,前景点是真实目标里的点。与传统的语义分割不同,在这个网络中,召回比高精确度更重要。我们根据分割结果选择前景点。选定的前景点被进一步体素化并馈送到稀疏卷积网络中。这些稀疏卷积非常有效,因为我们只需要在少量的前景点上进行操作。最后,我们应用修改后的 CenterNet [41 ] 头来有效地回归 3D 框,而不会进行非最大抑制。

3.1. Range Image Feature Extraction (RIFE)

距离图像是LiDAR传感器捕获的数据的原生密集表示。我们的输入距离图像包含距离、强度和反射率通道,其中距离是收集点时从 LiDAR 到点的距离,而强度和反射率是 LiDAR 返回属性,可以用其他 LiDAR 特定信号替换或增强。输入距离图像的通道值通过裁剪和重新缩放到 [0, 1] 进行归一化。

在距离图像上应用二维卷积网络,以学习距离图像特征并进行前景分割。我们采用轻量级的U-Net [29],其结构如图3所示。每个 D(L, C) 下采样模块包含 L个resnet [13] 模块,每个模块都有 C个输出通道。在每个块中,第一个块的步幅为 2。每个 U (L, C) 模块包含 1 个上采样层和 L个resnet 模块。所有 resnet 块都有步幅 1。上采样层由 1 × 1 卷积组成,然后是双线性插值。

图3.距离图像U-Net特征提取器,用于计算高级语义范围特征。有关详细信息,请参阅第 3.1 节。

3.2. Foreground Point Selection

为了通过下游处理中的稀疏性最大限度地提高效率,这种二维卷积网络的输出是将输入数据减少到仅可能属于对象的点。在这里,1×1卷积层对3.1中学习的距离图像特征执行像素级前景分类。这一层是用焦点损失[ 19]训练的,真实标签来自三维边界盒,检查相应的像素点是否在任何盒子里。

P是有效距离图像像素的总数。Li是i点的焦点损失。前景得分si大于阈值γ的点被选中。由于假阳性可以在后面的稀疏点特征提取阶段(第3.3节)中去除,但假阴性不能恢复,所以前景阈值的选择是为了达到高召回率和可接受的精度。

3.3. Sparse Point Feature Extraction (SPFE)

我们将动态体素化[ 42 ]应用于选定的前地点。与PointPillars[16]类似,我们在每个点p上附加p – m, var, p – c,其中m, var是每个体素的算术平均值和协方差,c是体素中心。体素大小沿每个维度表示为∆x,y,z。当使用二维稀疏卷积的支柱式体素化时,∆z被设置为+∞。选定的前地点被编码为稀疏体素特征,可以选择由 PointNet[25]进一步处理。一个二维或三维稀疏卷积网络(分别用于支柱式或三维式体素化)被应用于稀疏体素。图4说明了用于车辆和行人检测的网络构件和网络结构的例子。更多的网络结构细节可以在附录A中找到。

图4. SPFE构件和网状结构的例子。使用细节见3.3节。SC表示3×3或3x3x3稀疏卷积[ 11 ],跨度为1或2。SSC表示3X3或3X3X3的子网格稀疏卷积。PedL(2D)和CarL(2D)是大型的行人和车辆SPFE。/2表示跨度为2。

3.4. Box Regression

我们使用修改过的CenterNet [41 , 8]头来有效地从点特征中回归盒子。这在图5中得到了说明。σ是一个每类常数。我们使用一个单一的全连接层来预测热图和盒子的参数。热图是用惩罚性减弱的焦点损失[41, 19]进行回归的。

图5. RSN中心点热图的计算。热图值是由点和放置在盒子中心的圆之间的距离计算出来的,半径是盒子中心到最近的点(红点)的距离。

网络是端到端训练的,总损失定义为:

3.5. Temporal Fusion

现有的基于距离图像的检测方法[21][3]对时间融合不友好,因为距离图像是在自动驾驶汽车(SDC)移动时构建的(会造成边界模糊)。由于自我运动,直接堆叠距离图像对检测性能几乎没有好处。从距离图像中删除自我运动不是最佳的,因为不同帧的距离重建会导致大的量化误差。

时间RSN采用一系列时间顺序固定的距离图像作为输入,如图2所示。RIFE(特征提取)应用于每个距离图像以分割前景点并提取距离图像特征。然后我们变换所有被选中的点(所有帧)到最新的帧以消除自我运动。在 SPFE (稀疏卷积特征提取)阶段,每个点从其自己的帧而不是所有帧计算并附加体素特征。这效果更好,因为它避免了在体素化过程中将不同帧的点混合在一起。此外,我们将最新帧的时间差(以秒为单位)附加到每个点,以区分不同帧的点。从所有帧中选择的前景点由 SPFE 主干处理,与单帧模型相同。

有关时间融合的更多详细信息:

1) 时间 RSN 复制每个时间帧的 RIFE (§3.1) 和前景点选择部分 (§3.3)。如图 9 所示,每个分支共享权重并匹配单帧 RSN 的架构。这些分支一起训练,而在推理过程中,当其他时间步重用之前的结果时,只计算最后一帧。

2)分割分支后,点被收集到多组点Pδi,其中δi是帧0(最新帧)和帧i之间的帧时间差,通常接近0.1∗i秒。Pδi 中的每个点 p 都用 p − m、var、p − c、δi 和从 RIFE 阶段学习的特征进行增强,其中 m、var 是来自 Pδi 的体素统计量。在此每帧体素特征增强之后,所有点合并为一组 P,然后是正常体素化和点网络。模型的其余部分与单帧模型相同。3) 给定输入序列 F = {fi|i = 0, 1, …, },帧被重新分组为 ̃F = {(fi, fi−1, …, fi−k)|i = 0, 1, …} 以训练具有帧 i 目标输出的 k + 1 帧时间 RSN 模型。如果 i − k < 0,我们重用最后一个有效帧。

图9

4.实验

我们介绍了RSN实现的细节,并在多个实验中说明了其效率和准确性。进行消融研究以了解各种RSN成分的重要性。

4.1. Waymo Open Dataset

我们主要以具有挑战性的Waymo开放数据集(WOD)为基准[34]。WOD直接以高质量的距离图像格式发布其原始数据,这使得它更适合构建距离图像模型。该数据集总共包含 1150 个序列,分为 798 个训练、202 个验证和 150 个测试。每个序列包含大约 200 帧,其中每个帧捕获围绕自我车辆的完整 360 度,从而产生维度为 64 × 2650 像素的距离图像。该数据集有一个远程激光雷达,范围上限为 75 米,还有四个近距离激光雷达。我们只使用了来自远程激光雷达的数据,但仍然在全范围上评估了我们的结果。实际上,RSN可以适应接受多个LiDAR图像作为输入。

4.2. 实现细节

RSN 在 Tensorflow 框架 [ 1] 中实现,其稀疏卷积实现类似于 [ 37 ]。行人和车辆分别接受不同的SPFE训练(§3.3)。它们共享相同的RIFE(§3.1)。我们展示了 3 种车型 CarS、CarL、CarXL 和 2 款行人PedS、PedL 的结果,网络详细信息在 § 3.3 和附录 A 中进行了描述。每个模型都可以使用单帧输入(例如CarS 1f)或3帧输入(例如CarS 3f)进行训练。输入图像按min(v, m)/m归一化,其中v为距离、强度和伸长率,m分别为79.5、2.0、2.0。如果有多个激光回波,则选取最后一个。

§3.2 中的前景分数截止γ设置为车辆 0.15,行人 0.1。方程 6 中的分割损失权重 λ1 设置为 400。体素化区域是[-79.5米,79.5米]×[-79.5米,79.5米]×[-5米,5米]。车辆模型和行人模型的体素大小分别设置为 0.2 米和 0.1 米。热图计算中每个对象σ设置为车辆 1.0 和行人 0.5。热图损失权重 λ2 在等式 6 中设置为 4。§3.4 中的热图阈值 δ1、δ2 均设置为 0.2。

我们在方程 3 的航向箱损失中使用 12 和 4 个箱分别用于车辆和行人的航向回归。

4.3. 训练和推理

RSN 在 Tesla V100 GPU 上使用 ADAM 优化器 [15]从头开始端到端训练。不同的 SPFE 主干以最大可能的批量大小进行训练,以适合 GPU 内存中的网络。单帧模型在 8 个 GPU 上训练。3 帧时态模型在 16 个 GPU 上训练。我们采用了余弦学习率衰减,初始学习率设置为0.006,5k预热步从0.003开始,总共120k步。我们观察到,诸如AP之类的准确性指标在训练期间会波动,因为选择SPFE的点不断变化,尽管网络总是在最后稳定下来。SPFE 的这种输入多样性为 RSN 增加了正则化。在每个体素内的 PointNet 中使用图层归一化 [2] 而不是批量归一化 [14],因为输入帧之间的前景点数变化很大。

发表回复

相关推荐

海螺的功效與作用

海螺的功效 海螺味甘咸、性寒,入脾、胃、肝、大腸經。具有清熱,解暑,利尿,止渴,醒酒的功效。治熱結小便不利、黃疸、腳...

· 8秒前

16本已完結巫師流小說,芯片、魔藥、序列,神秘詭暗,殖民諸天

大傢好,這裡是宅胖看書,今天給大傢推薦16本已經完結的巫師流小說。巫師流小說是奇幻小說中影響力較大的流派,其給我最深的...

· 42秒前

忽悠我养“白猫”的人,你真的把我害惨了!

白猫大多数都是有鸳鸯眼的,让人看着就很养眼、很遗憾,但是自从养了白猫后,我是肠子都悔青了,那些忽悠我养白猫的,你真的 ...

· 12分钟前

較“貼吧”相比淺析“即刻”APP——用戶研究角度

作為群體性動物的人類,在這個互聯網爆發的時代,社區類互聯網產品無異於人類的第二社交重地。但同樣的,社區是個好產品,同...

· 25分钟前

清輔音濁化

以sp__, st___, sk___開頭的單詞中,清輔音/p/ /t/ /k/分別要發濁輔音/b/ /d/ /g/。/s/後面接/p/,/t/,/k/,/tr/時,發/b

· 29分钟前