CNN 비교
- Alexnet: 층의 깊이가 중요해
- Googlenet: 더 깊게 쌓자~~!!
- VGGnet: 깊게 쌓는게 좋을까? 좋다.
- Resnet: 깊이의 한계를 뛰어 넘어줄게
ABSTRACT
아키텍쳐, 학습방법, 성능개선전략은 무엇일까?- large-scale image recognition setting 으로 깊이가 정확도에 미치는 영향을 조사
- 깊이 외 다른 요인 통제, 깊이만 바꿔가면서 성능 비교
- 3x3 (아주 작은 크기) 필터가 성능에 매우 중요한 역할을 함.
- depth를 16-19로 증가하는 방법으로 conv 3x3을 사용한다. ( 홀수 중에 가장 최소 값 )
2.1 ARCHITECTURE
- ZERO-CENTERING
- 3 X 3: 컨볼루션 필터
- 1 X 1: 선형으로 만들기 위해
- pooling: nonoverap, size=2, stride=2
- FC: 4096
- LRN: 안씀, 성능을 향상시키지 않고, 메모리 증가만 가져옴
2.2 CONFIGURATIONS
- 11~19층
- 11층: 8conv, 3FC
- 19층: 16conv, 3FC
- conv 64개로 시작해서 max-pooling이 끝날때마다 2씩 증가한다. 512까지
2.3 DISCUSSION
A~E까지의 모델 구조
- 16층 D까지가 성능이 개선됨. E는 개선 안됨
D (16층)
- 13개 Conv
- 2(64, 2제곱수 중 2자리최대값)
- 2(128)
- 3(256)
- 3(512)
- 3(512, 3자리 최대값)
- 3개 Fc
- input_shape, output
- 224 x 224 x 3, 1000
conv 사이즈
- 첫 conv 필터 비교
- Alexnet: 11x11
- Google: 7x7
- VGG: 3x3 (only)
- (3 x 3, 2개 set)는 (5 x 5, 1개 set)와 결과가 유사하다.
- 5x5 1층 vs 3x3 2층
- input, 5 x 5 > conv, 5 x 5 > featuremap 1 x 1
- inuput, 5 x5 > conv, 3 x 3 > featuremap 3 x3 > conv, 3 x 3 > featuremap 1 x 1
- Receptive field:
- 원본 기준, 크기.
- featuremap 1 x 1의 Receptive field는 5 x 5다. (같다)
- Receptive fiield 가 작으면 전체를 보기 어렵다. 부분적으로 보기 때문이다.
- parameter 수의 차이
- 5 x 5 = 25개
- 3 x 3 (9개) * 2 = 18개 (더 적다)
- 깊이가 깊으면 비선형성이 증가한다.
- 5 x 5 = 1층
- 3 x 3 = 2층 (비선형성 증가)
3.1 TRAINING
Training image size
- VGGNET의 모델로 들어갈 때, 224x224x3으로 들어간다.
- Scale jittering (크기로 어렵게 만든다.)
- SxS를 넣게되면 (224보다 큰) crop이 발생한다.
- Fix S: 256, 384
- Multi-scale S
- image size 3가지 방식, (이미지 어그멘테이션과 유사)
- FS 256
- FS 384
- MS 256 ~ 512까지
- Fine-tuning(전이학습)
- head를 변경하여 사이즈 다르게 학습
TMI
GoogLeNet, VGGNet은 같은 해에 출전한 모델이었다. GoogLeNet 1등, VGGNet 2등
VGGNet의 3x3 conv는 표준이 되었다.
Tags:
AI개발_교육