飛行者聯(lián)盟 › 門(mén)戶 ›新聞資訊› 模擬飛行 › 查看內(nèi)容

2020 CVPR Oral—港中文+港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD

2022-11-12 07:46| 發(fā)布者: Jorliman 939 1

摘要: 0 基本信息：論文來(lái)源：2020 CVPR oral1 Motivation目前的二階段檢測(cè)網(wǎng)絡(luò)包括2個(gè)部分：proposal generation stage和prediction refinement stage。在proposal generation stage，SA層用于下采樣，以提高效率和增加感 ...

0 基本信息：

論文來(lái)源：2020 CVPR oral

1 Motivation

目前的二階段檢測(cè)網(wǎng)絡(luò)包括2個(gè)部分：proposal generation stage和prediction refinement stage。

在proposal generation stage，SA層用于下采樣，以提高效率和增加感受野，；FP層用于下采樣過(guò)程中丟失點(diǎn)的特征傳播，以恢復(fù)所有點(diǎn)。

在prediction refinement stage，對(duì)于RPN生成的proposals進(jìn)一步refine以提升精度。

然而，作者認(rèn)為提取特征的SA是必不可少的，而FP層和refinement可以移除以提升效率，三者耗時(shí)如下表所示。但是SA層中常用的下采樣策略D-FPS由于僅考慮點(diǎn)與點(diǎn)間的相對(duì)位置關(guān)系，會(huì)導(dǎo)致前景點(diǎn)中將近一半的點(diǎn)被刪除，使得代表點(diǎn)數(shù)量銳減；之前的做法是利用FP層召回這些被刪除的點(diǎn)，但耗時(shí)很多。因此本文擬解決該問(wèn)題，如何在移除FP層的情況下，盡可能的保留前景點(diǎn)。基于此，本文提出單階段的3D目標(biāo)檢測(cè)框架。

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-3250

2 Abstract

本文提出了一種輕量且有效的point-based的3D目標(biāo)檢測(cè)框架——3DSSD(3DSingle Stage objectDetector)，該框架刪除了上采樣層(FP層)和refinement模塊以減少計(jì)算量(取而代之的是融合層和CG層)。對(duì)于下采樣過(guò)程，新提出一種融合采用策略（fusion sample strategy），從而在代表性不強(qiáng)的點(diǎn)上取得較好的檢測(cè)結(jié)果。

邊界框預(yù)測(cè)網(wǎng)絡(luò)包括：候選框生成、anchor-free回歸頭、3D中心度分配策略（分配label）。在KITTI數(shù)據(jù)上性能達(dá)到SOTA，且速度為25FPS。

3 Introduction

縮寫(xiě)說(shuō)明：

SA：set abstraction（特征提取，抽象）
FP：feature propagation（特征傳播）
D-FPS：furthest point sampling based on 3D Euclidean distance（基于歐式距離的最遠(yuǎn)點(diǎn)采樣）
F-FPS：furthest point sampling based on feature distance（基于特征距離的最遠(yuǎn)點(diǎn)采樣）
CG：candidate generation layer（候選框生成層）

對(duì)于point-based的方法，一般由2部分組成：第一部分利用SA層下采樣和提取點(diǎn)云的語(yǔ)義特征，FP層用于上采樣，并將特征廣播到下采樣期間所丟棄的點(diǎn)，再利用3D RPN生成proposals；第二部分利用refinement模塊進(jìn)一步提高初始proposals的精度。

觀察發(fā)現(xiàn)，point-based方法中FP層和refinement模塊耗時(shí)較多，因此本文旨在移除FP層和refinement模塊。對(duì)于SA層中下采樣策略，如D-FPS，點(diǎn)數(shù)較少的前景目標(biāo)在下采樣后很容易失去所有點(diǎn)，因此不會(huì)被檢測(cè)到，導(dǎo)致performance降低。在之前的方法中，使用FP層召回刪除的點(diǎn)，盡管其計(jì)算量很大。為了解決這個(gè)問(wèn)題，本文基于特征間的距離提出一種新的采樣策略——F-FPS，有效保留目標(biāo)中的點(diǎn)。本文最終的采樣策略是D-FPS和F-FPS的融合。

為了充分利用SA層后保留的代表點(diǎn)，本文設(shè)計(jì)了邊界框預(yù)測(cè)網(wǎng)絡(luò)，包括：候選框生成層(CG)、anchor-free回歸頭、3D中心度分配策略。在CG層中，首先將代表點(diǎn)利用F-FPS轉(zhuǎn)移生成候選點(diǎn)，該過(guò)程由代表點(diǎn)與其實(shí)例的中心之間的相對(duì)位置來(lái)監(jiān)督；再將這些候選點(diǎn)看做中心點(diǎn)，基于F-FPS和D-FPS從整個(gè)代表點(diǎn)中找到其周?chē)c(diǎn)，然后利用MLP提取特征；特征再輸入anchor-fee回歸頭預(yù)測(cè)3D邊界框；此外，還設(shè)計(jì)了3D中心度分配策略，它向更接近實(shí)例中心的候選點(diǎn)分配更高的分類(lèi)分?jǐn)?shù)。

4 Method

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-8504

4.1 Fusion sampling

Challenge：

SA層利用D-FPS進(jìn)行下采樣，以選擇代表點(diǎn)；若沒(méi)有FP層，邊界框預(yù)測(cè)網(wǎng)絡(luò)僅利用D-FPS后剩下代表點(diǎn)進(jìn)行預(yù)測(cè)。然而，D-FPS抽樣只考慮了點(diǎn)與點(diǎn)之間的相對(duì)位置，也就是說(shuō)，大部分剩下的代表點(diǎn)實(shí)際上是背景點(diǎn)，如地面點(diǎn)，因?yàn)槠鋽?shù)量很大。在這個(gè)過(guò)程，存在某些前景目標(biāo)的點(diǎn)數(shù)較少（距離傳感器較遠(yuǎn)的目標(biāo)）而被刪除的可能，從而檢測(cè)不到。

統(tǒng)計(jì)上，使用點(diǎn)的recall值，即下采樣后剩下點(diǎn)數(shù)與總點(diǎn)數(shù)的商，來(lái)量化這個(gè)情況。如下表所示。當(dāng)代表點(diǎn)數(shù)設(shè)置為1024或512時(shí)，recall僅為65.9%和51.8%，也就是說(shuō)前景目標(biāo)上將近一半的點(diǎn)在下采樣過(guò)程被刪除掉了。為了解決這個(gè)問(wèn)題，一般情況下會(huì)使用FP層召回下采樣中刪除的點(diǎn)，盡管其耗時(shí)較多，

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-2730

Feature-FPS：（距離信息語(yǔ)義信息）

為了盡可能保留前景點(diǎn)，刪除背景點(diǎn)，必須同時(shí)考慮距離信息和語(yǔ)義信息。在深度網(wǎng)絡(luò)中，很容易得到目標(biāo)的語(yǔ)義信息，在FPS過(guò)程利用目標(biāo)的語(yǔ)義信息刪除無(wú)用的背景點(diǎn)；而僅使用語(yǔ)義信息作為FPS下采樣的標(biāo)準(zhǔn)會(huì)導(dǎo)致相同實(shí)例的點(diǎn)被保留下來(lái)，造成冗余。因此，本文同時(shí)考慮語(yǔ)義信息和距離信息作為FPS下采樣標(biāo)準(zhǔn)：

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-8843

其中，Ld(A,B)是XYZ空間的L2距離；Lf(A,B)是特征空間的L2距離。

Fusion Sampling：

利用F-FPS，SA層成功保留了大部分前景點(diǎn)。然而，對(duì)于代表點(diǎn)數(shù)固定為Nm的前景來(lái)說(shuō)，很多背景點(diǎn)被刪除了，這有利于回歸任務(wù)但不利于分類(lèi)任務(wù)。也就是說(shuō)，SA層的group stage會(huì)聚集周?chē)c(diǎn)的特征，但是由于背景點(diǎn)不能找到足夠多的周?chē)c(diǎn)，使其感受野較小，導(dǎo)致模型難以區(qū)分positive和negative點(diǎn)，降低分類(lèi)精度。

由上述分析可得，在SA層后，不僅要保留足夠多的前景點(diǎn)以提升回歸精度，也要保留足夠多的背景點(diǎn)提升分類(lèi)精度。因此，本文提出融合策略（FS），即在SA層中同時(shí)使用D-FPS和F-FPS，具體而言，分別用F-FPS和D-FPS采樣Nm/2點(diǎn)，并將這兩個(gè)集合一起輸入到SA層中進(jìn)行后續(xù)操作。

4.2 Box Prediction Network

Candidate Generation Layer：

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-8385

為了進(jìn)一步減少計(jì)算和利用融合策略的優(yōu)點(diǎn)，提出了CG層。對(duì)于邊界框回歸任務(wù)而言，背景點(diǎn)是無(wú)用的，因此僅使用F-FPS的點(diǎn)作為初始中心點(diǎn)。與votenet類(lèi)似，這些初始中心點(diǎn)在其相對(duì)位置的監(jiān)督下移動(dòng)到其相應(yīng)的實(shí)例中，得到候選點(diǎn)，如圖2所示。然后，將候選點(diǎn)當(dāng)做CG層的中心點(diǎn)，再通過(guò)預(yù)先設(shè)置的閾值從F-FPS和D-FPS的集合點(diǎn)中找到他們的周?chē)c(diǎn)，最后采用MLP提取它們的特征，這些特征用來(lái)預(yù)測(cè)最后的3D邊界框。

Anchor-free Regression Head：

對(duì)于每一個(gè)候選點(diǎn)，預(yù)測(cè)到對(duì)應(yīng)實(shí)例的距離(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每個(gè)點(diǎn)都沒(méi)有先驗(yàn)方向，因此采用F-pointnet中的方法。

3D Center-ness Assignment Strategy：（參考FCOS）

在訓(xùn)練的過(guò)程中，我們需要給每個(gè)候選點(diǎn)分配label。

在2d目標(biāo)檢測(cè)中，通常使用iou閾值或者mask去給每個(gè)像素分配label。在FCOS中，提出了一個(gè)連續(xù)的center-ness label，代替原始的二分類(lèi)標(biāo)簽，以進(jìn)一步區(qū)分像素，越是靠近object中心的像素，center-ness越接近于1，所得到的分?jǐn)?shù)也就設(shè)置越大，即

2020 CVPR Oral—港中文港科技聯(lián)合推出一階段3D目標(biāo)檢測(cè)框架3DSSD-9615

但是由于所有的3D點(diǎn)云都在物體的表面，因此center-ness都非常小并且接近，不太可能從這些點(diǎn)得到好的預(yù)測(cè)結(jié)果。因?yàn)?strong>候選點(diǎn)是從F-FPS采樣后再做中心回歸后得到的點(diǎn)，靠近中心的候選點(diǎn)可以有更加準(zhǔn)確的結(jié)果，所以利用候選點(diǎn)而非原始點(diǎn)云，更容易根據(jù)center-ness label輕松將object的表面的點(diǎn)區(qū)分開(kāi)。

對(duì)于center-ness label的定義，分為2步：