-
[논문] Video Super-Resolution Based on Deep learning: A Comprehensive Survey컴퓨터 비전 2023. 8. 18. 18:27
비디오 고해상도화 알고리즘을 연구하기 위해 서베이논문을 읽었습니다. 해당 논문 링크는 아래와 같습니다.
https://arxiv.org/abs/2007.12928
1. Methods
(1) Methods with Alignment
MEMC (Motion estimation and Motion compensation)
타겟 프레임 주변 프레임들을 먼저 정렬한 뒤, reconstruction 하는 방식
DC (Deformable convolution)
CNN은 계층 안에서 고정된 구조를 사용함 → 다양한 형태의 변화를 모델링하는 것을 제한함 → CNN은 복잡한 형태 변화를 잘 표현 못 함.
따라서, deformable (형태가 없는) 컨볼루션이 필요함.
Target feature maps와 그 주변의 feature maps를 합침 → 추가적인 convolutional layers를 통해 이 합쳐진 데이터에서 "offsets"라는 것을 얻음 (여기서 "offsets"는 기본 convolution kernel을 얼마나 조절해야 하는지에 대한 정보). 이 "offsets" 정보를 사용해서 기본 convolution kernel을 변형해서 "deformable convolution kernel"이라는 새로운 커널을 만듦 → 이 새로운 커널을 입력 feature maps와 함께 convolution 연산을 하면, 결과로서 출력 feature maps를 얻게 됨.(2) Methods without Alignment
2D Conv
프레임이 2D Convolution network에 입력됨. 이 네트워크에서 정보나 패턴을 찾고 (Feature extraction), 여러 프레임의 정보를 결합한 뒤 (Fusion), 이미지의 해상도를 높임 (Super-resolution).
3D Conv
공간정보와 시간정보를 함께 처리함. 2D Conv는 입력 프레임 위의 슬라이딩 하는 커널을 통해 공간 정보만 활용하지만, 3D Conv는 비디오 프레임 간의 연결성을 고려하여 시간적 정보도 추출함.
RCNN
순차적인 데이터에서 시간적인 연관성을 모델링함. 데이터의 순서와 그 안에 숨겨진 패턴을 파악하여 정보를 처리함.
Non-local
공간적, 시간적 정보를 모두 활용함. Non-local neural network는 멀리 떨어진 정보 간의 연관성을 찾아냄.
전통적인 합성곱(convolution) 또는 순환(recurrent) 계산 방식은 국소적인 영역, 즉 주변 정보만을 보고 연산을 수행함.
그러나 non-local 연산은 입력 피처 맵의 모든 가능한 위치를 고려하여 특정 위치의 응답 값을 계산함. 즉, 하나의 특정 지점이 다른 많은 지점들의 정보를 통합하여 처리할 수 있음.Other
'컴퓨터 비전' 카테고리의 다른 글