Keypoints로 왼쪽 위, 오른쪽 아래 두 개의 모서리를 Detect하여 Bbox를 얻어낸다.
Keypoint 검출을 위해 pose estimation에서 사용하는 hourglass를 backbone으로 사용한다.
hourglass의 출력값에 좌측 상단 특징점과 우측 하단 특징점을 검출하는 두 개의 모듈을 적용
각 모듈은 corner pooling 과정을 거쳐 heatmap, embedding, offset을 예측
앵커 박스의 단점
많은 Anchor를 사용하게 되면, 정확도는 높아지지만 "Positive Anchor Box(IOU가 threshold보다 큰)와 Negative Anchor Box"사이의 불균형이 생기고, train 속도를 늦추게 된다.
많은 수의 Anchor box의 크기, 비율 등등 많은 수의 hyperparam과 조합을 만들어 낸다.
따라서 CornerNet은 앵커 박스를 모두 제거하고, 특징점을 기반으로 바운딩 박스를 예측한다.
Autoencoder와 유사하게 생긴 반복적인 모래시계(hourglass)형 네트워크를 통해 정제된 feature는 다시 top-left, bottom-right corner를 찾는데 사용된다.
Hourglass가 가장 성능이 우수하여 backbone으로 선택


위의 Hourglass를 통과한 결과물인 heatmap이 class별, bottom-right별로 생성
각 heatmap의 point별로 다시 embedding이 계산되고, 이 embedding의 유사도를 측정하여 pair 구성