본문 바로가기
논문/3D_object_Detection

GLENet: Boosting 3D Object Detectors with Generative Label UncertaintyEstimation_2022

by dohunNewte 2023. 9. 2.
반응형

Abstract

3D bounding box의 annotation에서 내재된 모호성은 가림 현상, 신호누락, 또는 수동 annotation 오류로인해 발생하며, 이는 훈련중인 깊은 3D객체 탐지기를 혼란스럽게 만들어 탐지 정확도를 저하시킬 수 있습니다.

그러나 존재하는 방식은 이러한 문제를 간과하고 label을 결정적은 것으로 취급합니다.

이 논문에서는 이 저자들은 label을 object의 잠재적으로 그럴듯한 bounding box의 다양성을 불확실한 문제로 계산했다고 합니다.

그래서 이 저자들은 conditional variational 오토인코더로 적용된 생성 프레임워크인 GLENet을 소개합니다. 

latent 변수를 사용하여 전형적인 3D객체와  그것의 잠재적인 그라운드 트루스 경계 상자 사이의 일대다 관계를 모델링합니다. 

GLENet 불확실하게 생성된 label은 plug-and-play moudle 이고 확률 detector를 만들고 불확실한 localization의 learning을 supervised 하기 위해서 deep 3D detector에서 편리하게 통합될 수 있습니다. 

반면에 저자들은 확률 detector가  uncertainty-aware quality를 추정하는 아키텍쳐를 발표합니다.

이는예측된 localization 불확실성으로 IoU-branch의 training을 guid하기위한 것입니다.

특히 발표된 GLENet-VR의 결과는 모두 출판된 LiDAR기반 접근법에서 큰차이로 능가하고 KITTI 챌린지중 single-modal method에서 가장 top rank를 성취합니다. 

 

Introduction

현재 커뮤니티에서는 다양한 딥러닝 기반 3D detection 파이프라인이 확산되고 있음에도 불구하고,

대부분 mainstream 3D object는 전형적으로 결정적인 model로써 설계되어있으며 annotated된 ground-truth label들의 모호성이라는 중요한 문제를 고려하지 않는 것으로 관찰됩니다.

그러나 다른 불가피한 모호한 측면은 object-level에 boungding box의 ground-truth annotation에서 존재합니다. 

그리고 이것은 결정적인 detector 처럼 전체의 learning 과정에서 상당히 영향을 줄지도 모릅니다.

예를들어 데이터 수집 단계에서는 LiDAR센서의 본질적인 특성과 불가피한 환경적 가림현상 때문에 raw point cloud가 매우 불완전해질 수 있습니다.

게다가 data labelling 단계에서는 모호하게 자연적으로 발생합니다. 다른 인간 annotators는 주체적으로 object 모양을 추정하고 2D images와 공간적 3D points로부터 위치를 추정합니다.

 

 

이 저자들은 Fig1에 있는 예시를 제공합니다. 

이 저자들은 불완전한 LiDAR관찰이 여러 개의 잠재적으로 타당한 label에 해당할 수 있으며, 비슷한 LiDAR 관찰을 가진 객체들이 크게 다른 경계상자로 주석 처리될 수 있다는 것을 확인할 수 있었다고합니다.

 

앞서말한 현상에 동기부여 받아서 확률 detectors의 다른 부분 또한 존재합니다. 이러한 부분은 명시적으로 모호한 label의 잠재적으로 영향을주는지 고려합니다.

결론적으로 이러한 방법들은 두개의 패러다임으로 카테고리화가 되며 Fig2에 나와있습니다.

 

object detectors 확률분포의 두가지의 다른 패러다임을 밝힌 그림입니다.

(a)방법은 detection head안에서 확률분포 모델링에 적용시킬 수 있습니다. 그러나 필수적으로 bounding box의 ground-truth안에서 모호한 문제는 무시한다고합니다.

(b)방법은 명백히 ground-truth bounding box 분포를 추정하여 더욱 신뢰할수있는 supervision 신호로 사용되었습니다.

 

learning framework(He et al., 2019; Meyer et al., 2019; Feng et al., 2018, 2019)의 첫번째 패러다임은 bounding box 좌표로 회귀하는거 대신에  bounding box의 확률분포를 출력하는 경향이 있습니다.

에를들면 가우시안 분포의 사전가정 아래에서 그 detection head는 평균과 분포의 분산을 예측합니다.

확률 모델처럼 supervised 하기위해서 이러한 작업은 간단하게 ground-truth bounding box를 Dirac delta 분포로 취급하며 KL divergence는 추정된 분포와 ground truth사이에 추가됩니다. 

명백하게도 이러한 방법들의 주요한 한계는 그들이 label의 모호성의 문제를 본질적으로 해결하는데 실패했으며 ground-truth bounding box들이 zero의 불확실성을 가지고 여전히 결정적으로 고려되기때문입니다.

 

learning framework의 두번째 패러다임은 간단한 휴리스틱으로 파생된 label의 불확실성을 정량화 하려고시도하며 이와 같은 detector는 더 믿을수있는 bounding box 분포아래에서 supervised됩니다.

그러나 이러한 접근법들이 여전히 불충분한 모델링 능력으로 인해 만족스러운 label의 불확실성 추정결과를 내놓지 못하는것은 놀랍지 않습니다.

데이터 주도 방식으로 더 높은 품질의 label 불확실성 추정을 생성하는데 있어서 큰 잠재력에도 불구하고 일반적으로 이 분야는 연구는 아직 초기단계에 있습니다.

 

이 저자들은 GLENet을 발표했으며 놀라운 deep 생성 네트워크는 conditional variational auto-encoders(CVAE)를 적용시켰으며 latent 변수를 point colud object의 잠재적으로 타당한 bounding box 분포를 사로잡기위해 소개합니다.

inference 동안 위 저자들은 많은시간동안 다양한 bounding box를 생성하기위해서 latent 변수를 샘플화하며 이들의 분산은 label의 불확실성으로써 localization의 불확실한 추정의 학습을 가이드하기 위해 사용됩니다.

반면에 관측된 낮은 localization의 불확실한 확률을 가지고 detection 결과에 기반해서 detector는 실제로 정확환 localization 품질을 가지고 있으며 이 저자들은 uncertainty-aware quality estimator(UAQE0를 발표하며

그리고 이것은 위치 불확실성 추정을 가진 IoU-branch의 학습이 용이합니다.   

 

- 이 저자들은 먼저 3D label의 불확실한 문제를 object의 그럴듯한 bounding box 잠재성의 다양성으로써 말했다.

전형적인 3D object와 그것의 잠재적인 그럴듯한 ground-truth bounding box사이에 일대다 관계를 사로잡기위해
이 저자들은 deep generative 모델인 GLENet을 발표했다고합니다.

게다가 이 저자들은 일반적이고 통일된한 deep learning 베이스의  network 구조, loss function, evaluation metric 등등을 포함하는 패러다임을 소개했습니다.

 

- localization 품질과 예측된 불확실함 사이의 강력한 상관관계에 영감을 받으며 이 저자들은 IoU-branch의 training을 용이하게 하기 위해서 UAQE를 발표합니다. 

 

2.3 Label Uncertainty Estimation

Label noise(or uncertainty)는 현실 데이터셋에서는 흔한 문제이며 supervised learning 알고리즘의 성능에서 심각한 영향을 줍니다.

이 저자들은 uncerainty한 라벨을 잠재적으로 타당한 경계 상자들의 다양성으로서 구성하고, 이것을 GLENET을 통해 예측한다고합니다.

 

2.4 Conditional Variational Auto-Encoder

대화시스템 속에서 다양한 합리적인 반응 생성을위한 CVAE에 영감을받으며 이 저자들은 불완전한 point cloud와 잠재적으로 믿을 수 있는 ground-truth bounding box의 object 사이에 일대다 관계를 사로잡는 CVAE를 GLENet에 적용시켰다고합니다.

 

3.3 Training Process of GLENe

 

GLETNet의 전체 작업 흐름입니다.

학습단계에서 이저자들은 잠재 변수 z(또는z')의 매개변수(𝜇와 𝜎)를 사전 네트워크를 통해 학습하고, 그후에 샘플 z'와 context encoder에 의해 생성된 해당 기하학적 임베딩이 함께 사용되어 경계 상자 분포를 추정합니다.

추론 단계에서 이 저자들은 z의 분포를 여러 번 샘플링하여 다양한 경계 상자들을 생성하며,이들의 분산을 label certainty로 사용합니다. 

주목할 점은 그래프(a)에서 검은색, 오랜지색, 그린색으로 선을 다중 샘플링을 표시하는것입니다.

 

오차 |𝑦𝑔 − 𝑦ˆ|와 추정된 위치 분산 𝜎ˆ에 대한 함수로서의 분포 간 KL-발산의 시각화입니다.

라벨 불확실성 𝜎이 GLENet에 의해 추정되는 경우, 손실이 최소값으로 수렴할 때 그래디언트가 더 부드럽습니다.

게다가, 𝜎가 클수록 𝐿𝑟 𝑒𝑔은 작아지며, 이는 모델이 불확실한 주석에 과적합되는 것을 방지합니다."

 

(a) 살제 localization 정확도(즉, 예측된 box bounding과 ground-truth 사이의 IOU)와 확률론적 detector에 의해 예측된 분산 사이의 관계를 나타냅니다.

여기서 이 저자들은 시각화를 용이하게 하기 위해 PCA를 사용하여 분산의 차원을 줄였습니다.

(b) 두가지의 예시입니다.

희소샘플의 경우, 예측은 높은 불확실성과 낮은 위치 결정 품질을 가지며,

밀집 샘플의 경우, 예측은 높은 위치 결정 품질과 낮은 불확실성을 가집니다.

 

제안된 UAQE 모듈의 시각화는 detection 헤드에서 학습된 localization 분산을 사용하여 localization 품질(IoU) 추정하는것을 돕습니다.

 

3D variance voting 알고리즘입니다.

이 알고리즘에서 b와 큰 각도 차이를 가진 인접한 상자들은 각도의 앙상블에 참여하지않는것을 주목해야 한다고 합니다.

- 여러 bounding box중에서 어떤것들이 최종적인 앙상블 과정에 포함이되는지 설명하고 있습니다.

 

occlusion의 데이터 증강 시각화입니다.

(a)annotated가 달린 실제 경계 상자와 연관된 원본 객체의 point cloud입니다.

(b) 샘플링된 밀집 객체(빨간색)가 LiDAR 센서와 원본 객체(파란색)사이에 위치하게 됩니다.

(c) (b)에서의 포인트 클라우드로부터의 투영 범위 이미지입니다. 여기서 샘플링된 객체의 볼록껍질(빨간색 다각형)이 계산되고 더욱 흔들려 가려진 샘플들의 다양성을 높입니다.

원본 point cloud의 볼록 껍질(녹색 다각형)을 기반으로, 가려진 영역을 얻을 수 있습니다. 가려진 영역에 해당하는 원본 객체의 point cloud는 제거됩니다.

(d) annotated가 달린 실제 경계 상자를 가진 최종적으로 증강된 객체입니다.

 

(a), (b), 그리고 (c) 단계에서는 신중하게 선택한 '샘플링된 밀집 객체'를 사용하여 원래 감지하려던 대상 오브젝트가 일부 가려지도록 만듭니다.

(c), 그리고 (d) 단계에서는 이러한 가림 현상을 활용하여 학습 데이터셋에 다양성을 추가합니다. 이 과정에서 복잡한 계산과 처리 과정이 수반되며, 이는 최종적으로 모델 학습에 도움을 줍니다.

 

차량 탐지를 위한 KITTI test셋에서 sota moeth들과 비교한 표이며 평가 지표는 40개의 샘플링한 recall point들의 3D 평균정밀도(AP)입니다.

 

차량 탐지를 위한 kitti 검증셋에서 다른 방법들과 비교한 표입니다.

평가지표는 11개의 샘플링한 recall point의 위치로로 계산된 3D 평균 정밀도(AP)입니다.

중간 정도의 자동차 클래스에 대해 40개의 샘플링한 재현 점들 아래의 3D Ap도 보고된다고합니다.

AP𝑅1을 사용한 보행자와 자전거 타는 사람 클래스에 대한 KITTI 검증 세트에서의 성능 비교한 표입니다.

 

KITTI 테스트 세트의 자동차 클래스에 대한 GLENet-VR의 PR 곡선입니다.

차량탐지를 위한 waymo 검증 세트에서 다른 방법들의 양적 비교입니다.

* : oepnPCDet의 코드로 재생상된 실험결과. 최고 결과와 두번째로 좋은 결과는 굵게 표시되고 밑줄이 그어집니다.

 

다른 라벨 불확실성 추정 방법의 비교. "Convex hull"은 (Meyer와 Thakurdesai, 2020)에서의 방법을 의미합니다. 최고 결과는 굵게 표시되어 있습니다

 

KITTI 검증 세트에서 우리의 방법과 (Wang 등, 2022)를 비교한 표입니다.

 

우리가 구축한 GLENet-VR 파이프라인에서 각 구성 요소의 기여도. LU는 라벨 불확실성을 나타냅니다.

박스플롯은 실제 IoU 값의 다양한 구간에 걸쳐 추정된 IoU 오차를 표시하는 데 사용됩니다.

x축은 제안된 방식과 해당 GT 상자 사이의 실제 IoU를 나타내며, y축은 추정 오차의 분포를 나타냅니다.

이는 추정된 IoU 점수와 실제 IoU 사이의 차이입니다.

박스플롯은 최소값, 최대값, 중앙값, 첫 번째 사분위수(Q1), 그리고 세 번째 사분위수(Q3)라는 다섯 가지 요약 통계를 통해 오차 분포에 대한 정보를 제공합니다.

GLENet에서 절대 좌표를 포함하거나 포함하지 않은 point cloud 입력의 효

NC는 부분 포인트 클라우드의 정규화된 좌표를 나타내며, AC는 절대 좌표를 나타냅니다.

이 저자들은 GLENet의 평가를 위해 𝐿𝑁 𝐿𝐿을 보고하고, 하류 검출기의 평가를 위해 40개 샘플링 회수 지점들의 3D 평균 정밀도를 보고했다고합니다.

 

GLENet에서의 occlusion augmentation 기법과 context encoder에 대한 소거 연구이며 이 저자들은 우리는 GLENet의 평가를 위해 𝐿𝑁 𝐿𝐿을 보고하고, 하류 검출기의 평가를 위해 40개 샘플링 회수 지점들의 3D 평균 정밀도를 보고합니다.

 

다른 occlusion 수준과 거리 범위에 대한 비교, KITTI 검증 세트에서 40개의 샘플링 회수 위치를 사용하여 계산된 3D 평균 정밀도(AP)로 평가됩니다

 

KITTI 데이터셋에서 GLENet-VR과 Voxel R-CNN의 결과에 대한 시각적 비교. 지상 진실, 참 양성 및 거짓 양성 바운딩 박스는 각각 빨간색, 초록색, 노란색으로 포인트 클라우드와 이미지 모두에서 시각화됩니다

 

Waymo 검증 세트에서 SECOND와 GLENet-S의 결과에 대한 시각적 비교. 지상 진실, 참 양성 및 거짓 양성 바운딩 박스는 각각 빨간색, 초록색, 노란색으로 시각화됩니다. 색상으로 보고 세부 사항을 위해 확대하는 것이 가장 좋습니다. 더 나은 시각화를 위해 추가적인 NMS가 더 높은 IoU 임계값으로 수행되어 겹친 바운딩 박스를 제거합니다.

 

Conclusion

이 저자들은  CVAE의 학습 프레임워크에서 적응하여 불완전한 포인트 클라우드 객체와 잠재적으로 타당한 바운딩 박스 간의 일대다 관계를 포착하기 위해 GLENet을 제안했습니다

플러그 앤 플레이 구성 요소로서, GLENet은 신뢰할 수 있는 라벨 불확실성 통계를 생성할 수 있으며 이는 다양한 3D 검출 파이프라인에 편리하게 통합될 수 있습니다.

GLENet은 불완전한 포인트 클라우드 데이터와 그에 상응하는 여러 가능한 바운딩 박스 사이의 관계를 잡아내는 것입니다. 이런 방식으로 객체 인식 작업에서 발생할 수 있는 라벨링 오류나 불확실성 등 문제점들을 해결합니다.

GLENet은 다양한 3D 검출 파이프라인에 손쉽게 결합될 수 있는 '플러그 앤 플레이' 형태로 설계되어 있어, 각기 다른 환경과 요구사항에 유연하게 대응 가능합니다.

label의 불확실성을 인정하고 다양한 boxbounding을 앙상블시키는 방법론이 인상적이었던거같습니다.

728x90

댓글