Notice
Recent Posts
Recent Comments
Link
«   2026/03   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

Tomato Basil

FMA-Net | 논문리뷰 (1) 본문

AI/CV

FMA-Net | 논문리뷰 (1)

salt pepper 2024. 6. 6. 23:46

[FMA-Net]

 

 

FMA-Net은 Super Resolution + Deblurring 을 통해 저화질 영상을 고화질로 만들어주는 모델입니다.

모델 구조를 이해하고, pre-trained 모델을 돌려볼 예정입니다.

 

 

 

 


FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring

 

Abstract

본 논문은 흐릿한 저해상도 영상을 깨끗한 고해상도 영상으로 복원하기 위해 VSRDB(즉, FMA-Net)를 제시했습니다. VSRDB(Video Super-Resolution and Deblurring)는 합동 학습 방식으로, super resolution과 deblurring을 함께 다루는 프레임워크입니다.

FMA-Net을 구성하는 새로운 FGDF(Flow-Guided Dynamic Filtering, 동적 필터링)과 반복적인 FRMA(Feature Refinement with Multi-Attention, 특징 세밀화)를 소개하고 있습니다.

FGDF의 경우, 공간-시간적 degradation과 복원 커널(복잡한 움직임 학습으로 훈련되어 움직임의 궤적을 잘 인식하는)을 정확히 유추하는 역할을 합니다. FGDF는 기존의 동적 필터링에 비해 FMA-Net으로 하여금 큰 움직임을 효과적으로 인식하도록 합니다.

FRMA의 경우, 모델 내에 블럭 형태로 스택되어있는 구조입니다. FRMA는 새로운 TA(Temporal Anchor) loss 값으로 훈련된 덕분에 특징들을 세밀하게 정제합니다.

광범위한 실험으로 얻은 결과를 보면 알 수 있듯이, FMA-Net은 다른 최신 방법들보다 양적으로, 질적으로 뛰어나다고 합니다.

 

Introduction

영상 Supre Resolution(VSR)는 감시, 비디오 스트리밍, 의료 영상 등 고화질 비디오의 다양한 분야에 유용하게 사용될 수 있습니다. 실제 상황에서는 카메라 문제 또는 물체의 움직임으로 인해 낮은 품질의 영상을 얻고는 합니다. 따라서 VSRDB(FMA-Net)의 Super Resolution과 Deblurring의 동시 복원(joint restoration)이 필요합니다. 동시에 두 가지를 처리하는 것이 어렵기는 합니다.

사실 두 가지 작업을 순차적으로 수행하게 할 수가 있습니다. 즉, 먼저 Super Resolution을 수행한 다음 Deblurring을 수행하거나 반대로 하는 것입니다. 그러나 이렇게 접근할 경우, 이전 작업에서 발생한 추정 오류가 다음 작업으로 전파될 수 있습니다. 따라서 타 기관에서 두 작업을 동시에 처리하는 연구들이 수행되었고 , 두 작업이 꽤나 밀집한 연관을 가진다는 점을 알게 되었다고 합니다.

 

 

본 논문에서는 새로운 VSRDB 프레임워크인 FMA-Net을 제안했습니다. FGDF에서의 핵심은 고정된 포지션을 인식하는 것이 아닌, 큰 움직임 궤적을 포착한다는 것입니다. 따라서 작은 커널로 큰 움직임을 다룰 수 있습니다. Fig.2와 같이, FGDF는 DCN(Deformable Convolution Network)와 약간 비슷합니다. 하지만 DCN은 고정된 위치의 nxn 필터 계수를 학습하는 반면, FGDF는 유동적인 위치에서의 nxn 필터 계수를 학습합니다.

FMA-Net은 다음 두 가지 네트워크로 이루어져있습니다.

 

(i) degradation learning network : motion-award spatio-temporally-variant degradation kernels를 예측

 

(ii) resotration network : 예측된 degradation kernels을 활용하여 흐릿한 저화질 영상을 복원

 

 

 

3. Proposed Method

3-1. FMA-Net 구조

 

X : number of input frames

c : center frame index

 

restoration network(Net R) degradation learning network(Net D)가 움직임을 고려하여 예측한 degradation을 전역적으로 적용하여 영상의 center frame(X c)를 복원합니다.

 

Net D(Fig. 3의 위 그림)와 Net R(Fig. 3의 아래 그림) 의 구조는 비슷합니다.

두 네트워크 모두 반복적인 FRMA 블럭들과 FGDF 모듈을 가집니다.

앞으로 FRMA 블럭, FGDF 모듈, FMA-Net의 전체 구조, FMA-Net 훈련 과정 순으로 알아보겠습니다.

 

그 전에 optical flow 개념을 이해하기 위해 아래 블로그를 참고했습니다.

옵티컬 플로우 (Optical Flow) 알아보기 (Luckas-Kanade w/ Pyramid, Horn-Schunck, FlowNet 등)

 

옵티컬 플로우 (Optical Flow) 알아보기 (Luckas-Kanade w/ Pyramid, Horn-Schunck, FlowNet 등)

gaussian37's blog

gaussian37.github.io

 

 

 

3-2. Iterative Feature Refinement with MultiAttention (FRMA)

원래 흐릿한 영상에서 motion 정보를 얻기 위해 iamge-based, feature-based optical flow를 이용했습니다. 그러나 pre-trained된 optical flow 네트워크를 바로 사용하는 것은 흐릿한 프레임에 적용하기에는 불안정하고 연산이 비싸기도 합니다. 따라서 FRMA 블럭을 본 논문에서 제시하고 있는데, FRMA 블럭은 self-induced optical flow와 특징들을 학습합니다. 블럭들은 반복적으로 배치되어있는데, 각 블럭은 여러 optical flow들을 학습하며 프레임간 픽셀들의 관계를 파악합니다.

 

 

Fig. 4는 (i+1)번째 업데이트 시의 FRMA 블럭 구조를 보여줍니다.

 

3-3. Flow-Guided Dynamic Filtering (FGDF)

 

 

큰 모션을 감지하려면 큰 크기의 필터가 필요하고, 연산량이 늘어납니다. 따라서 본 논문에서는 DCN에서 영감을 받은 FGDF를 소개했습니다. 커널들은 pixel-wise motion-aware하게 optical flow를 따라 동적으로 생성됩니다. FGDF 덕분에 비교적 작은 크기의 커널들로 큰 모션을 다룰 수 있게 되었습니다.

 

 

4. Experiment Results

 

훈련에는 REDS 데이터셋이, 테스트에는 RESDS4 데이터셋이 사용되었습니다.

 

Publications Datasets CV

 

Publications Datasets CV

Senior Research Scientist NVIDIA

seungjunnah.github.io

 

 

4.2 Ablation Studies

이때 ‘Average Motion Magnitude’는 ‘the average absolute optical flow magnitude between the two consecutive frames’를 말합니다.

제안된 FGDF가 kd=20, average motion magnitude ≥ 40일때 성능 향상을 보인다고 합니다.

 

 

5. Conclusion

기존의 전형적인 동적 필터와 비교했을 때, FGDF는 FMA-Net에게 드라마틱한 성능 효과를 불러왔다고 합니다.

결론적으로 최근의 SOTA의 접근과 비교했을 때 FMA-Net이 다양한 데이터셋에 대해 훨씬 뛰어난 성능을 보여주었다고 합니다.

 

깃허브에 training model, testing model, pre-trained model이 올라와 있습니다.

GitHub - KAIST-VICLab/FMA-Net: [CVPR 2024 Oral] Official repository of FMA-Net

 

GitHub - KAIST-VICLab/FMA-Net: [CVPR 2024 Oral] Official repository of FMA-Net

[CVPR 2024 Oral] Official repository of FMA-Net. Contribute to KAIST-VICLab/FMA-Net development by creating an account on GitHub.

github.com

 

 

 

 

 

 

 

 

의문점 :  영상의 경우 앞/뒤 프레임을 고려하여 연관성 있게 디블러링 해야하지 않는지?



'AI > CV' 카테고리의 다른 글

FMA-Net | 논문리뷰 (2)  (0) 2024.06.10