0 基本信息:論文來(lái)源:2020 CVPR oral 1 Motivation目前的二階段檢測(cè)網(wǎng)絡(luò)包括2個(gè)部分:proposal generation stage和prediction refinement stage。 在proposal generation stage,SA層用于下采樣,以提高效率和增加感受野,;FP層用于下采樣過(guò)程中丟失點(diǎn)的特征傳播,以恢復(fù)所有點(diǎn)。 在prediction refinement stage,對(duì)于RPN生成的proposals進(jìn)一步refine以提升精度。 然而,作者認(rèn)為提取特征的SA是必不可少的,而FP層和refinement可以移除以提升效率,三者耗時(shí)如下表所示。但是SA層中常用的下采樣策略D-FPS由于僅考慮點(diǎn)與點(diǎn)間的相對(duì)位置關(guān)系,會(huì)導(dǎo)致前景點(diǎn)中將近一半的點(diǎn)被刪除,使得代表點(diǎn)數(shù)量銳減;之前的做法是利用FP層召回這些被刪除的點(diǎn),但耗時(shí)很多。因此本文擬解決該問(wèn)題,如何在移除FP層的情況下,盡可能的保留前景點(diǎn)。基于此,本文提出單階段的3D目標(biāo)檢測(cè)框架。 2 Abstract本文提出了一種輕量且有效的point-based的3D目標(biāo)檢測(cè)框架——3DSSD(3DSingle Stage objectDetector),該框架刪除了上采樣層(FP層)和refinement模塊以減少計(jì)算量(取而代之的是融合層和CG層)。對(duì)于下采樣過(guò)程,新提出一種融合采用策略(fusion sample strategy),從而在代表性不強(qiáng)的點(diǎn)上取得較好的檢測(cè)結(jié)果。 邊界框預(yù)測(cè)網(wǎng)絡(luò)包括:候選框生成、anchor-free回歸頭、3D中心度分配策略(分配label)。在KITTI數(shù)據(jù)上性能達(dá)到SOTA,且速度為25FPS。 3 Introduction 縮寫(xiě)說(shuō)明:
對(duì)于point-based的方法,一般由2部分組成:第一部分利用SA層下采樣和提取點(diǎn)云的語(yǔ)義特征,FP層用于上采樣,并將特征廣播到下采樣期間所丟棄的點(diǎn),再利用3D RPN生成proposals;第二部分利用refinement模塊進(jìn)一步提高初始proposals的精度。 觀察發(fā)現(xiàn),point-based方法中FP層和refinement模塊耗時(shí)較多,因此本文旨在移除FP層和refinement模塊。對(duì)于SA層中下采樣策略,如D-FPS,點(diǎn)數(shù)較少的前景目標(biāo)在下采樣后很容易失去所有點(diǎn),因此不會(huì)被檢測(cè)到,導(dǎo)致performance降低。在之前的方法中,使用FP層召回刪除的點(diǎn),盡管其計(jì)算量很大。為了解決這個(gè)問(wèn)題,本文基于特征間的距離提出一種新的采樣策略——F-FPS,有效保留目標(biāo)中的點(diǎn)。本文最終的采樣策略是D-FPS和F-FPS的融合。 為了充分利用SA層后保留的代表點(diǎn),本文設(shè)計(jì)了邊界框預(yù)測(cè)網(wǎng)絡(luò),包括:候選框生成層(CG)、anchor-free回歸頭、3D中心度分配策略。在CG層中,首先將代表點(diǎn)利用F-FPS轉(zhuǎn)移生成候選點(diǎn),該過(guò)程由代表點(diǎn)與其實(shí)例的中心之間的相對(duì)位置來(lái)監(jiān)督;再將這些候選點(diǎn)看做中心點(diǎn),基于F-FPS和D-FPS從整個(gè)代表點(diǎn)中找到其周?chē)c(diǎn),然后利用MLP提取特征;特征再輸入anchor-fee回歸頭預(yù)測(cè)3D邊界框;此外,還設(shè)計(jì)了3D中心度分配策略,它向更接近實(shí)例中心的候選點(diǎn)分配更高的分類(lèi)分?jǐn)?shù)。 4 Method4.1 Fusion sampling Challenge: SA層利用D-FPS進(jìn)行下采樣,以選擇代表點(diǎn);若沒(méi)有FP層,邊界框預(yù)測(cè)網(wǎng)絡(luò)僅利用D-FPS后剩下代表點(diǎn)進(jìn)行預(yù)測(cè)。然而,D-FPS抽樣只考慮了點(diǎn)與點(diǎn)之間的相對(duì)位置,也就是說(shuō),大部分剩下的代表點(diǎn)實(shí)際上是背景點(diǎn),如地面點(diǎn),因?yàn)槠鋽?shù)量很大。在這個(gè)過(guò)程,存在某些前景目標(biāo)的點(diǎn)數(shù)較少(距離傳感器較遠(yuǎn)的目標(biāo))而被刪除的可能,從而檢測(cè)不到。 統(tǒng)計(jì)上,使用點(diǎn)的recall值,即下采樣后剩下點(diǎn)數(shù)與總點(diǎn)數(shù)的商,來(lái)量化這個(gè)情況。如下表所示。當(dāng)代表點(diǎn)數(shù)設(shè)置為1024或512時(shí),recall僅為65.9%和51.8%,也就是說(shuō)前景目標(biāo)上將近一半的點(diǎn)在下采樣過(guò)程被刪除掉了。為了解決這個(gè)問(wèn)題,一般情況下會(huì)使用FP層召回下采樣中刪除的點(diǎn),盡管其耗時(shí)較多, Feature-FPS:(距離信息 語(yǔ)義信息) 為了盡可能保留前景點(diǎn),刪除背景點(diǎn),必須同時(shí)考慮距離信息和語(yǔ)義信息。在深度網(wǎng)絡(luò)中,很容易得到目標(biāo)的語(yǔ)義信息,在FPS過(guò)程利用目標(biāo)的語(yǔ)義信息刪除無(wú)用的背景點(diǎn);而僅使用語(yǔ)義信息作為FPS下采樣的標(biāo)準(zhǔn)會(huì)導(dǎo)致相同實(shí)例的點(diǎn)被保留下來(lái),造成冗余。因此,本文同時(shí)考慮語(yǔ)義信息和距離信息作為FPS下采樣標(biāo)準(zhǔn): 其中,Ld(A,B)是XYZ空間的L2距離;Lf(A,B)是特征空間的L2距離。 Fusion Sampling: 利用F-FPS,SA層成功保留了大部分前景點(diǎn)。然而,對(duì)于代表點(diǎn)數(shù)固定為Nm的前景來(lái)說(shuō),很多背景點(diǎn)被刪除了,這有利于回歸任務(wù)但不利于分類(lèi)任務(wù)。也就是說(shuō),SA層的group stage會(huì)聚集周?chē)c(diǎn)的特征,但是由于背景點(diǎn)不能找到足夠多的周?chē)c(diǎn),使其感受野較小,導(dǎo)致模型難以區(qū)分positive和negative點(diǎn),降低分類(lèi)精度。 由上述分析可得,在SA層后,不僅要保留足夠多的前景點(diǎn)以提升回歸精度,也要保留足夠多的背景點(diǎn)提升分類(lèi)精度。因此,本文提出融合策略(FS),即在SA層中同時(shí)使用D-FPS和F-FPS,具體而言,分別用F-FPS和D-FPS采樣Nm/2點(diǎn),并將這兩個(gè)集合一起輸入到SA層中進(jìn)行后續(xù)操作。 4.2 Box Prediction Network Candidate Generation Layer: 為了進(jìn)一步減少計(jì)算和利用融合策略的優(yōu)點(diǎn),提出了CG層。對(duì)于邊界框回歸任務(wù)而言,背景點(diǎn)是無(wú)用的,因此僅使用F-FPS的點(diǎn)作為初始中心點(diǎn)。與votenet類(lèi)似,這些初始中心點(diǎn)在其相對(duì)位置的監(jiān)督下移動(dòng)到其相應(yīng)的實(shí)例中,得到候選點(diǎn),如圖2所示。然后,將候選點(diǎn)當(dāng)做CG層的中心點(diǎn),再通過(guò)預(yù)先設(shè)置的閾值從F-FPS和D-FPS的集合點(diǎn)中找到他們的周?chē)c(diǎn),最后采用MLP提取它們的特征,這些特征用來(lái)預(yù)測(cè)最后的3D邊界框。 Anchor-free Regression Head: 對(duì)于每一個(gè)候選點(diǎn),預(yù)測(cè)到對(duì)應(yīng)實(shí)例的距離(dx, dy, dz)、大小(dl, dw, dl)以及方向。由于每個(gè)點(diǎn)都沒(méi)有先驗(yàn)方向,因此采用F-pointnet中的方法。 3D Center-ness Assignment Strategy:(參考FCOS) 在訓(xùn)練的過(guò)程中,我們需要給每個(gè)候選點(diǎn)分配label。 在2d目標(biāo)檢測(cè)中,通常使用iou閾值或者mask去給每個(gè)像素分配label。在FCOS中,提出了一個(gè)連續(xù)的center-ness label,代替原始的二分類(lèi)標(biāo)簽,以進(jìn)一步區(qū)分像素,越是靠近object中心的像素,center-ness越接近于1,所得到的分?jǐn)?shù)也就設(shè)置越大,即 但是由于所有的3D點(diǎn)云都在物體的表面,因此center-ness都非常小并且接近,不太可能從這些點(diǎn)得到好的預(yù)測(cè)結(jié)果。因?yàn)?strong>候選點(diǎn)是從F-FPS采樣后再做中心回歸后得到的點(diǎn),靠近中心的候選點(diǎn)可以有更加準(zhǔn)確的結(jié)果,所以利用候選點(diǎn)而非原始點(diǎn)云,更容易根據(jù)center-ness label輕松將object的表面的點(diǎn)區(qū)分開(kāi)。 對(duì)于center-ness label的定義,分為2步:
最終分類(lèi)的標(biāo)簽是Lmask和Lctrness的乘積。 5 ExperimentKITTI數(shù)據(jù)集: nuScenes數(shù)據(jù)集: |