VGG 논문보기

CNN 비교

  1. Alexnet: 층의 깊이가 중요해

  2. Googlenet: 더 깊게 쌓자~~!!

  3. VGGnet: 깊게 쌓는게 좋을까? 좋다.

  4. Resnet: 깊이의 한계를 뛰어 넘어줄게


ABSTRACT

아키텍쳐, 학습방법, 성능개선전략은 무엇일까?
  • large-scale image recognition setting 으로 깊이가 정확도에 미치는 영향을 조사
    • 깊이 외 다른 요인 통제, 깊이만 바꿔가면서 성능 비교
    • 3x3 (아주 작은 크기) 필터가 성능에 매우 중요한 역할을 함.

  • depth를 16-19로 증가하는 방법으로 conv 3x3을 사용한다. ( 홀수 중에 가장 최소 값 )


2.1 ARCHITECTURE

  • ZERO-CENTERING

  • 3 X 3: 컨볼루션 필터

  • 1 X 1: 선형으로 만들기 위해

  • pooling: nonoverap, size=2, stride=2

  • FC: 4096

  • LRN: 안씀, 성능을 향상시키지 않고, 메모리 증가만 가져옴


2.2 CONFIGURATIONS

  • 11~19층
    • 11층: 8conv, 3FC
    • 19층: 16conv, 3FC

  • conv 64개로 시작해서 max-pooling이 끝날때마다 2씩 증가한다. 512까지


2.3 DISCUSSION

A~E까지의 모델 구조

  • 16층 D까지가 성능이 개선됨. E는 개선 안됨

D (16층)

  • 13개 Conv
    • 2(64, 2제곱수 중 2자리최대값)
    • 2(128)
    • 3(256)
    • 3(512)
    • 3(512, 3자리 최대값)

  • 3개 Fc

  • input_shape, output
    • 224 x 224 x 3, 1000


conv 사이즈

  • 첫 conv 필터 비교
    • Alexnet: 11x11
    • Google: 7x7
    • VGG: 3x3 (only)

  • (3 x 3, 2개 set)는 (5 x 5, 1개 set)와 결과가 유사하다.

  • 5x5 1층 vs 3x3 2층
    • input, 5 x 5 > conv, 5 x 5 > featuremap 1 x 1 

    • inuput, 5 x5 > conv, 3 x 3 > featuremap 3 x3 > conv, 3 x 3 > featuremap 1 x 1

    • Receptive field: 
      • 원본 기준, 크기. 
      • featuremap 1 x 1의 Receptive field는 5 x 5다. (같다)
      • Receptive fiield 가 작으면 전체를 보기 어렵다. 부분적으로 보기 때문이다.

    • parameter 수의 차이
      • 5 x 5 = 25개
      • 3 x 3 (9개) * 2 = 18개 (더 적다)

    • 깊이가 깊으면 비선형성이 증가한다.
      • 5 x 5 = 1층
      • 3 x 3 = 2층 (비선형성 증가)


3.1 TRAINING

Training image size

  • VGGNET의 모델로 들어갈 때, 224x224x3으로 들어간다.

  • Scale jittering (크기로 어렵게 만든다.)
    • SxS를 넣게되면 (224보다 큰) crop이 발생한다.
      • Fix S: 256, 384
      • Multi-scale S

    • image size 3가지 방식, (이미지 어그멘테이션과 유사)
      • FS 256
      • FS 384
      • MS 256 ~ 512까지

  • Fine-tuning(전이학습)
    • head를 변경하여 사이즈 다르게 학습

TMI

GoogLeNet, VGGNet은 같은 해에 출전한 모델이었다. GoogLeNet 1등, VGGNet 2등

VGGNet의 3x3 conv는 표준이 되었다.


댓글 쓰기

다음 이전