ABOUT ME

-

  • [논문] Object Detection in 20 Years - A Survey
    컴퓨터 비전 2022. 4. 8. 10:40

    Object Detection이 지난 20년간 어떻게 발전 되어 왔는지 요약 해둔 논문이 있어서 소개하고자 합니다.

    (아직, Object Detection을 배우는 단계라서 잘 못 이해한 부분이 있을 수 있습니다.)

    페이퍼 원본은 아래 링크에서 확인 할 수 있습니다.

     

    Object Detection in 20 Years: A Survey

    Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Its development in the past two decades can be regarded as an epitome of computer vision history. If we think of tod

    arxiv.org

     

    Object Detection 소개

    Object Detection이란 디지털 이미지에서 특정 객체를 감지하고 구분하는 것을 의미합니다. 예를 들어 횡단보도, 사람 얼굴, 문자 감지 등이 있습니다. Object Detection은 컴퓨터 비전의 토대가 되는 기술로, Instance Segementation, Image captioning, Object tracking 등의 기술의 기초가 됩니다. 최근 딥러닝 기술이 발전함에 따라, Object Detection 역시 전례 없는 관심과 집중을 받고 있습니다. 실제로, 자율 주행 자동차, 로봇, 감시 카메라 등에서 쓰이고 있습니다. 

     

     

    Object Detection 발전 흐름

    저자는 Object Detection 기술의 발전을 2012년을 기점으로 크게 두 가지로 나누었습니다. 첫 번째는 Traditional Detection Methods, 두 번째는 Deep Learning Based Detection Methods 입니다. 2010년-2012년 기간 동안, 다소 정체되어 있었지만 2012년 Convolutional Neural Networks의 재탄생(AlexNet)과 함께 새로운 터닝 포인트가 되었습니다. 

    이에 대한 내용은 다음 블로그에 잘 정리되어 있습니다. 

     

    CNN 주요 모델들 · ratsgo's blog

    이번 글에서는 Convolutional Neural Network(CNN)의 주요 모델들에 대해 살펴보도록 하겠습니다. 이 글은 Adit Deshpande 님의 블로그와 이곳, 그리고 각 논문을 참고해 제 나름대로 정리했음을 먼저 밝힙니

    ratsgo.github.io

     

     

    1. Object Detection 발전 흐름: Traditional Detectors

    A. VJ Detectors (2001)

    2001년 처음으로 P.Viola and M.Jones 는 실시간 사람 얼굴 감지에 성공합니다. 이는 그 당시 다른 알고리즘에 비해 수십, 수 백배는 더 빠른 결과를 나타냈습니다.

    B. Histogram of Oriented Gradients (2005)

    HOG는 feature invariance와 비선형성 균형을 맞추기 위해 균일한 간격의 셀의 밀집된 그리드 (a dense grid of uniformly spaced cells)에서 계산됩니다. 또한 정확도를 높이기 위해 오버랩핑 로컬 대비 정규화 (overlapping local contrast normalization)를 사용합니다. 

    C. Deformable Part-based Model (2008

    HOG의 연장선으로 "Divide and conquer" 원리로 구성되어 있습니다. 일반적인 DPM 모델은 루트 필터와 다수의 부품 필터로 구성됩니다. 부품 필터의 구성(예: 크기 및 위치)을 수동으로 지정하는 대신, 부품 필터의 모든 구성을 잠재 변수(latent variables)로 자동 학습할 수 있는 약한 지도 학습 방법이 DPM에서 개발되었습니다.

     

     

    2-1. Object Detection 발전 흐름: CNN based Two-stage Detectors

    A. RCNN

    selective search에 의해서 여러개의 오브젝트 후보군(Bounding box)을 추출합니다. 그 다음 고정된 이미지 사이즈에 해당 바운딩 박스 크기를 재설정한 뒤 CNN 모델에 학습시킵니다. 이를 SVM Classifier를 사용해서 해당 지역에 오브젝트가 존재하는지 여부를 예측하고, 어떤 오브젝트인지 카테고리화 하는 작업을 합니다. RCNN는 VOC07에서 mAP를 33.7%에서 58.5%까지 성장 시키는 결과를 만들었습니다. 

    B. SPPNet

    Spartial Pyramid Pooling Networks의 약자입니다. Spatial Pyramid Pooling (SPP) Layer를 도입하여, 이미지 사이즈에 상관 없이 rescaling 없이도 고정된 길이를 표현할 수 있습니다. 앞서 언급한 RCNN보다 비슷한 정확도를 갖지만 20배 이상 빠릅니다. 

    C. Fast RCNN

    R-CNN과 SPPNet을 개선시킨 알고리즘으로, 동일한 네트워크 구성에서 디텍터를 학습 시키면서 바운딩 박스 회귀를 동시에 진행 할 수 있게 합니다. 

    D. Faster RCNN

    거의 Cost-free resion proposal을 가능하게 하는 Region Proposal Network (RPN)을 도입하였습니다. R-CNN부터 Faster RCNN까지 오브젝트 감지 시스템의 대부분의 블록들이 점차 통합되어 갔습니다.

     

     

    2-2. Object Detection 발전 흐름: CNN based One-stage Detectors

    A. You Only Look Once (YOLO) in 2015

    2015년, YOLO가 탄생하면서 One-stage Detector 시대가 시작되었습니다. 이름에서 알 수 있듯이, "proposal detection + verification" 감지 패러다임을 버리고, 완전히 새로운 원리를 적용하였습니다. 네트워크는 이미지를 각 영역으로 나눈뒤, 바운딩 박스를 예측하고, 동시에 그 영역에 바운딩 박스가 있을지 확률 계산을 합니다. 

    B. Single Shot MultiBox Detector (SSD) in 2015

    Multi-reference, Multi-resolution 감지 기술을 도입한 점이 가장 큰 특징입니다. YOLO의 단점이였던 작은 오브젝트에서의 정확도는 SSD를 통해 개선되었습니다. 

    C. RetinaNet in 2017

    One-stage detector가 two-stage detectors에 비해 정확도가 떨어지는 것의 주요 원인은 학습 중, 이미지의 전면과 배경 클래스의 불균형이라고 주장하였습니다. 이 문제를 해결하기 위해, 'focal loss'라는 loss function를 도입하였습니다. 

    댓글