공통점
목적: 이미지에서 물체의 위치(bounding box)와 종류(class)를 찾아내는 객체 검출 모델이다.
출력: 모두 물체의 위치와 종류를 예측하는 결과물을 출력한다.
backbone 사용: 둘 다 backbone 네트워크(ex. ResNet, VGG...)을 사용하여 이미지에서 중요한 특징을 추출한다.
차이점
1. 처리 단계
one stage: 한 번에 물체의 위치와 종류를 모두 예측(YOLO, SSD...)
two stage: 첫 번째 단계에서 물체가 있을 가능성이 있는 영역을 제안하고 두 번째 단계에서 그 영역 안의 물체가 무엇인지 더 정확하게 예측한다.(Faster R-CNN...)
2. 속도
one stage: 빠름. 실시간 응용 가능(CCTV감지, 자율 주행 등)
two stage : 느림.
3. 정확도
one stage: 상대적으로 낮음. 특히 복잡한 장면이나 작은 물체가 많을 때
two stage: 높음.
작동 방식
one stage:
1. 이미지 입력: 이미지 넣고, backbone으로 특징 추출
2. 한번에 예측: 각 특징 맵의 위치에서 경계 상자와 클래스를 동시에 예측
3. 후처리: 예측된 상자 중에서 겹치거나 불필요한 상자 제거
two stage:
1. 이미지 입력: 이미지를 넣고, backbone으로 특징 추출
2. (1) 물체 제안: RPN을 통해 물체가 있을 법한 후보 영역 찾기
(2) 물체 검출: 각 후보 영역에서 정확한 경계 상자와 클래스를 예측