Box overlap이 아닌 오직 위치만 가지고 "Anchor"를 할당
이전의 1 Stage Detector는 대부분 많은 수의 Anchor box들을 사용하여 최종 BBox 유추
많은 Anchor를 사용하게 되면, 정확도는 높아지지만 "Positive Anchor Box(IOU가 threshold보다 큰)와 Negative Anchor Box"사이의 불균형이 생기고, train 속도를 늦추게 된다.
많은 수의 Anchor box의 크기, 비율 등등 많은 수의 hyperparam과 조합을 만들어 낸다.
따라서 CornerNet에서는 Key point Estimation을 사용하여 고정적이지 않은 단 하나의 Anchor를 사용했었다.(CenterNet에서도 Key point Estimation을 사용하였다.)
오직 하나의 "Anchor"를 사용
물체마다 단 하나의 Keypoint인 중심점(Center Point)를 Estimate한다.
각 물체들은 따라서 모두 하나의 점(Key point)로 표현된다.
grouping 과정, post-processing 과정 (NMS)들이 필요 없게 되고, 단 하나의 Anchor를 갖는다.
또한, 예측된 중심점으로 부터 CenterNet은 Object size, Dimension, 3D extent, Orientation, Pose 등 다양한 정보를 regress 하여 Object Detection 분야 뿐 아니라
3D Object Detection과 Multi-person Human Pose Estimation으로 쉽게 확장할 수 있습니다.