VGG 논문보기

bySD •2월 21, 2025 • 2 min read

0

CNN 비교

Alexnet: 층의 깊이가 중요해
Googlenet: 더 깊게 쌓자~~!!
VGGnet: 깊게 쌓는게 좋을까? 좋다.
Resnet: 깊이의 한계를 뛰어 넘어줄게

ABSTRACT

아키텍쳐, 학습방법, 성능개선전략은 무엇일까?

large-scale image recognition setting 으로 깊이가 정확도에 미치는 영향을 조사

깊이 외 다른 요인 통제, 깊이만 바꿔가면서 성능 비교
3x3 (아주 작은 크기) 필터가 성능에 매우 중요한 역할을 함.

depth를 16-19로 증가하는 방법으로 conv 3x3을 사용한다. ( 홀수 중에 가장 최소 값 )

2.1 ARCHITECTURE

ZERO-CENTERING
3 X 3: 컨볼루션 필터
1 X 1: 선형으로 만들기 위해
pooling: nonoverap, size=2, stride=2
FC: 4096
LRN: 안씀, 성능을 향상시키지 않고, 메모리 증가만 가져옴

2.2 CONFIGURATIONS

11~19층

11층: 8conv, 3FC
19층: 16conv, 3FC

conv 64개로 시작해서 max-pooling이 끝날때마다 2씩 증가한다. 512까지

2.3 DISCUSSION

A~E까지의 모델 구조

16층 D까지가 성능이 개선됨. E는 개선 안됨

D (16층)

13개 Conv

2(64, 2제곱수 중 2자리최대값)
2(128)
3(256)
3(512)
3(512, 3자리 최대값)

3개 Fc
input_shape, output

224 x 224 x 3, 1000

conv 사이즈

첫 conv 필터 비교

Alexnet: 11x11
Google: 7x7
VGG: 3x3 (only)

(3 x 3, 2개 set)는 (5 x 5, 1개 set)와 결과가 유사하다.
5x5 1층 vs 3x3 2층

input, 5 x 5 > conv, 5 x 5 > featuremap 1 x 1
inuput, 5 x5 > conv, 3 x 3 > featuremap 3 x3 > conv, 3 x 3 > featuremap 1 x 1
Receptive field:

원본 기준, 크기.
featuremap 1 x 1의 Receptive field는 5 x 5다. (같다)
Receptive fiield 가 작으면 전체를 보기 어렵다. 부분적으로 보기 때문이다.

parameter 수의 차이

5 x 5 = 25개
3 x 3 (9개) * 2 = 18개 (더 적다)

깊이가 깊으면 비선형성이 증가한다.

5 x 5 = 1층
3 x 3 = 2층 (비선형성 증가)

3.1 TRAINING

Training image size

VGGNET의 모델로 들어갈 때, 224x224x3으로 들어간다.
Scale jittering (크기로 어렵게 만든다.)

SxS를 넣게되면 (224보다 큰) crop이 발생한다.

Fix S: 256, 384
Multi-scale S

image size 3가지 방식, (이미지 어그멘테이션과 유사)

FS 256
FS 384
MS 256 ~ 512까지

Fine-tuning(전이학습)

head를 변경하여 사이즈 다르게 학습

TMI

GoogLeNet, VGGNet은 같은 해에 출전한 모델이었다. GoogLeNet 1등, VGGNet 2등

VGGNet의 3x3 conv는 표준이 되었다.

Tags: AI개발_교육

4.94 / 169 rates

댓글 쓰기