안녕하세요 🐣 이번에 공부할 논문은 Very Deep Convolutional Networks for Large-Scale Image Recognition(VGGNet) 입니다. 아직 논문을 자세히 읽지 못해서 추후에 보완하도록 하겠습니다. 논문 원문은 여기서 확인할 수 있습니다.
논문 핵심 내용
- CNN layer를 깊이 쌓을수록 성능이 향상된다. → layer에 따른 성능 차이를 확인하기 위해 동일한 크기의 커널을 사용하고 layer만 다르게 쌓아 실험을 진행했다.
- layer에 따른 성능 차이를 비교하기 위해 3*3크기의 간단한 커널을 사용했다.
- 아래는 본 논문에서 실험한 6가지 구조이다.
- AlexNet, ZFNet 처럼 224*244 크기의 컬러 이미지 사용
- 1개 or 여러개의 convolution layer 이후에 max pooling layer가 오는 구조
- 기존 CNN 구조처럼 마지막에 Fully Connected layer오는 구조
작은 필터의 장점
1. 적은 파라미터로 연산량 감소
- 그림에서 왼쪽은 55 이미지에 55 필터를 1번 사용한 경우 → 파라미터 25개
- 그림에서 오른쪽은 55 이미지에 33 필터를 2번 사용한 경우 → 파라미터 18개
- 위의 그림은 둘 다 동일한 55크기의 이미지에서 11크기의 feature를 추출하지만, 필터 크기가 작은 경우 파라미터 수가 더 적다.
- 동일한 5*5크기의 receptive field를 바라보지만, 작은 필터를 사용하면 연산량을 줄일 수 있다. 이로 인해 학습 속도도 빨라지게 된다.
2. 비선형성(non-linearity) 증가
- 본 논문에서는 convolution layer 직후 ReLU 활성화 함수를 사용한다. 이러한 구조 때문에 큰 필터를 1번 사용하는 것 보다 작은 필터를 2번 사용했을 때 비선형성이 증가한다.
- 잠깐! 비선형성이 왜 필요할가?
- 데이터가 복잡해지고 특징의 차원이 증가하면서 데이터의 분포가 선형적이지 않고 비선형적으로 나타난다.
- 이러한 데이터는 비선형 boundary로 표현이 가능하기에, 비선형성이 필요하다.
Vanishing/ Exploding gradient를 어떻게 해결했나?
1. 더 깊은 모델을 학습시킬 때 11 layer 구조에서 학습된 파라미터로 초기화
2. 모델 구조는 deep하지만 데이터가 적어 overfitting 문제에 빠지는 것을 해결하기 위해 Data Augmentation 수행
- Single Scale: 입력 이미지 사이즈를 (256, 384)로 고정
- Multi Scale: 입력 이미지 사이즈를 256~512중 랜덤하게 선택해 사용
'Deep Learning > 논문 리뷰' 카테고리의 다른 글
[논문 리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (ICLR 2020) (0) | 2022.08.05 |
---|