๋ฅ๋ฌ๋ ๋ฒ ์ด์ง - 04.CNN ๊ธฐ์ด์ ์ญ์ฌ ํ์ด๋ณด๊ธฐ
BoostCamp AI Tech
CNN
Convolution Neural Network
Stride
Padding
ํจ๋ฉ
Demension Reduction
AlexNet
VGGNet
GoogLeNet
ResNet
DenseNet
02/03/2021
๋ณธ ์ ๋ฆฌ ๋ด์ฉ์ Naver BoostCamp AI Tech์ edwith์์ ํ์ตํ ๋ด์ฉ์ ์ ๋ฆฌํ ๊ฒ์
๋๋ค.
์ฌ์ค๊ณผ ๋ค๋ฅธ ๋ถ๋ถ์ด ์๊ฑฐ๋, ์์ ์ด ํ์ํ ์ฌํญ์ ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์ธ์.
Convolution Neural Network Basic
์๋ฆฌ
CNN
์ ํฉ์ฑ๊ณฑ ๊ณ์ธต(convolution layer)
๊ณผ ํ๋ง ๊ณ์ธต(pooling layer)
, ๊ทธ๋ฆฌ๊ณ ์ ์ฐ๊ฒฐ ๊ณ์ธต(fully-connected layer)
์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๋ ์ ๊ฒฝ๋ง์ผ๋ก, ์ด๋ฏธ์ง ๋ฑ์ ์ฒ๋ฆฌํ๋๋ฐ์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ชจ๋ธ์ด๋ค.
- ํฉ์ฑ๊ณฑ ๊ณ์ธต, ํ๋ง ๊ณ์ธต : feature๋ฅผ ์ถ์ถํ๋ค.
- ์ ์ฐ๊ฒฐ ๊ณ์ธต : ๋ถ๋ฅ/ํ๊ท ๋ฌธ์ ์ ๋ํด decision makingํ๋ค(์ถ๋ ฅ๊ฐ์ ๋ง๋ ๋ค)
๊ทธ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด ๋ง์์ง๋ฉด Generalization ์ด์๊ฐ ์๊ธฐ๊ธฐ ๋๋ฌธ์, ์ต๊ทผ์๋ ์ ์ฐ๊ฒฐ๊ณ์ธต์ ์์ ๋ ค๊ณ ํ๋ ์ถ์ธ์ด๋ค.
์๋์์ ํ์ดํ๋ CNN์ ํธ์์ ํธํฅ(bias)์ ์ค๋ช ํ์ง ์์์ง๋ง, ์ค์ ๋ก๋ ํธํฅ๋ ๊ณ ๋ คํ์ฌ ์ฐ์ฐ์ ์ถ๊ฐํ์ฌ์ผ ํ๋ค๋ ๊ฒ์ ์ ์ํ์.
Stride
Stride
๋ '๋๊ฒ ๊ฑท๋๋ค'๋ผ๋ ๋ป์ผ๋ก, ๋งค๋ฒ ์ปค๋์ ์ฐ์๋ ์ผ๋ง๋ ์ด๋ํ ๊ฒ์ธ๊ฐ๋ฅผ ์๋ฏธํ๋ค. stride๊ฐ ํด์๋ก output์ ์ฌ์ด์ฆ๋ ์์์ง๊ฒ ๋๋ค.
Padding
ํจ๋ฉ(Padding)
์ ์
๋ ฅ ๊ฐ์ ๊ฐ์ฅ์๋ฆฌ๋ฅผ ์ปค๋๋ก ์ฐ๊ธฐ ์ํด ๋ง๋๋ ๊ณต๊ฐ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ํด๋น ํจ๋ฉ ์์น์ 0์ ๋ฃ๋ ์ ๋กํจ๋ฉ์ ์ฌ์ฉํ๋ค.
์ปค๋์ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ํ๋๋์ ๋ฐ๋ผ ํจ๋ฉ์ ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ์ง๊ธฐ๋ ํ๋ค. ์๋ฅผ ๋ค์ด, 3x3 ์ปค๋์์๋ ํจ๋ฉ์ 1์นธ๋ง ์ถ๊ฐํด๋ ๊ฐ์ฅ์๋ฆฌ๋ฅผ ์ฐ์ ์ ์๊ฒ ์ง๋ง, 5x5 ์ปค๋์์๋ ๋ชจ์๋ฆฌ๋ฅผ ์ปค๋์ ์ค์ฌ์ผ๋ก ๋๊ณ ๊ฐ์ฅ์๋ฆฌ์ ์ปค๋์ ์ฐ๊ธฐ์ํด ํจ๋ฉ์ 2์นธ์ ์ถ๊ฐํด์ผํ ๊ฒ์ด๋ค.
Convolution ํ๋ผ๋ฏธํฐ ๊ฐ์ ๊ตฌํ๊ธฐ
๋ ๊ณ์ธต ๊ฐ์ ํ๋ผ๋ฏธํฐ ๊ฐ์
๋ง์ฝ (H,W,C)๊ฐ (40,50,128)์ธ ์ ๋ ฅ๊ฐ์ convolution์ฐ์ฐํ์ฌ (40,50,64)์ ์ถ๋ ฅ๊ฐ์ ๋ง๋ค์๋ค๋ฉด, ๊ทธ ์ฌ์ด์ ๋ค์ด๊ฐ์๋ ํ๋ผ๋ฏธํฐ๋ ๋ช๊ฐ๋ ๋ ๊น?
- ํจ๋ฉ์ 1, ์คํธ๋ผ์ด๋๋ 1, ์ปค๋์ ํฌ๊ธฐ๋ 3x3์ด๋ผ๊ณ ํ๋ค.
์ปค๋์ ์ฑ๋ ํฌ๊ธฐ๋ ์ ๋ ฅ๊ฐ์ ์ฑ๋์์ ๊ฐ์ผ๋ฏ๋ก, ์ปค๋์ (3,3,128)์ด ๋ ๊ฒ์ด๋ค. ์ปค๋์ ๊ฐฏ์๋ ์ถ๋ ฅ๊ฐ์ ์ฑ๋ ์์ ๊ฐ์์ผํ๋ฏ๋ก 64๊ฐ๊ฐ ๋ ๊ฒ์ด๋ค.
ํจ๋ฉ, ์คํธ๋ผ์ด๋ ๋ฑ์ ํ๋ผ๋ฏธํฐ ๊ฐ์์ ๋ฌด๊ดํ๋ค. ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ์ปค๋ (๋ด๋ถ) ๊ฐ๋ค์ ๊ฐ์์ด๋ฏ๋ก, 3x3x128x64 = 73,728๊ฐ๊ฐ ๋๋ค.
Fully Connected Layer๊ฐ ์๋ค๋ฉด
์์์ Fully Connected Layer๊ฐ ์๋ค๋ฉด ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๋๋ฌด ๋ง์์ ธ Generalization ์ด์๊ฐ ์๊ธธ ์ ์๋ค๊ณ ํ๋๋ฐ, ์ผ๋ฐ์ ์ธ Convolution์ ๋นํด ์ ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๋ง์์ง๊น?
์์ ๊ทธ๋ฆผ์ AlexNet์ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ฅผ ๋ํ๋ธ๋ค. ์ ๋ณด๋ฉด Fully Connected Layer์ธ Dense Layer์ ์ง์ ํ๋ ์๊ฐ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๊ฐ ์์ฒญ๋๊ฒ ์ปค์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๋ ์ ์ฐ๊ฒฐ์์ ๋ชจ๋ ์ ๋ ฅ ๋ ธ๋(๊ฐ)๋ค์ ๋ค์ ๊ณ์ธต์ ๋ ธ๋๋ค๊ณผ ์ฐ๊ฒฐํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ด๋ค.
์ด์ ๋ค๋ฅด๊ฒ Covolution ์ฐ์ฐ์์ ์ฌ์ฉํ๋ ํ๋ผ๋ฏธํฐ, ์ปค๋์ ๋ชจ๋ ์ฑ๋๊ณผ input์ ๋ํด ๋์ผํ๊ฒ ๋์ํ๋ ๊ณต์ ํ๋ผ๋ฏธํฐ(shared parameter)
์ด๋ค. ๋ฐ๋ผ์ ์ ์ฐ๊ฒฐ ๊ณ์ธต์ ๋นํด ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ํจ์ฌ ์ค์ด๋ค๊ฒ ๋์ด ๊ฒฐ๊ณผ์ ์ผ๋ก Generalization์ด ์ ๋๋ ํน์ง์ ๊ฐ์ง๋ค. ์ด ๋๋ฌธ์ ์ต๊ทผ CNN์ ํธ๋ ๋๋ ์๋จ์ Convolution Layer๋ฅผ ๊น๊ฒ ์๊ณ , ๋ค์ชฝ์ Fully Connected Layer๋ฅผ ์ต๋ํ ์ค์ด๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํตํด ๋คํธ์ํฌ์ ๊น์ด๋ ๊น์ด์ง์ง๋ง, ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ์คํ๋ ค ์ค์ด๋ค์ด, ์ ์ ์ฐ์ฐ์ผ๋ก๋ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ผ ์ ์๊ฒ ๋๋ค.
1x1 Convolution
๊ฐ๋ Convolution ์ฐ์ฐ์ ๋ณด๋ค๋ณด๋ฉด, 1x1์ ์ปค๋๋ก ์ฐ์ฐํ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค. 1x1๋ก ์ฐ์ฐํ๋ค๋ฉด H์ W์ ๊ฐ์ ์กฐ์ ํ ์๋ ์์ํ ๋ฐ ์ ํ๋๊ฒ์ผ๊น?
์ฐจ์์ถ์(Demension Reduction)
๋๋ฌธ์ด๋ค. ๊ธฐ์กด์ H,W๋ผ๋ ๊ณต๊ฐ์ฐจ์์ ๊ทธ๋๋ก ์ ์งํ ์ฑ, ์ฑ๋๋ง ์ค์ด๊ธฐ ์ํด ์ฌ์ฉํ๋ค. ์ด๋ฅผ ํตํด ๊น์ด(depth)๋ฅผ ๋๋ฆฌ๋ ๋์ค์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ฅผ ๊ฐ์์ํฌ์ ์๊ฒ ๋๋ค.
์์ฃผ ์์ฃผ ์ฌ์ฉํ๋ ํ ํฌ๋์ผ๋ก, ์์๋ก bottleneck architecture ๋ฑ์ด ์๋ค.
CNN์ ๋ณ์ฒ์ฌ
AlexNet
Imagenet Classification with Deep Convolutional NN ๋ ผ๋ฌธ
ILSVRC์์ 2012๋ ์ฐ์นํ ๋ชจ๋ธ์ด๋ค.
์ฌ๋ฌ ํํฐ ์ค ํ๋๋ก 11x11์ ์ฌ์ฉํ๋๋ฐ, ์ด๋ ๊ฒ ํ๋ฉด ํ๋์ ์ปค๋์ด ๋ณผ ์ ์๋ ์์ญ์ ์ปค์ง์ง๋ง, ์๋์ ์ผ๋ก ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ฏ๋ก ๊ทธ๋ ๊ฒ ์ข์ ์ ํ์ ์๋๋ค.
๋ชจ๋ธ์ ํต์ฌ ํฌ์ธํธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Rectified Linear Unit(ReLU) ํ์ฑํจ์ ์ฌ์ฉ
- ์ ํ ๋ชจ๋ธ์ ํ๋กํผํฐ๋ฅผ ๋ณด์กด : ์ด๋ฉด gradient๊ฐ ์ ํ๋ชจ๋ธ๊ณผ ๋์ผํ๋ค.
- ๊ฒฝ์ฌํ๊ฐ๋ฒ์ผ๋ก ์ต์ ํํ๊ธฐ ์ฝ๋ค.
- ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข๋ค(์คํ๊ฒฐ๊ณผ)
- ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (Vanishing Gradient Problem)์ ํด๊ฒฐํ์๋ค.
- GPU Inplementation (2๊ฐ์ GPU ์ฌ์ฉ) - ๋น์ ํ๋์จ์ด ๊ธฐ์ ์ ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ์ผ๋ก ์ธํ์ฌ 2๊ฐ์ GPU๋ฅผ ์ฌ์ฉํ์๋ค.
- Local response normalization, Overlapping pooling
- ์ง๊ธ์ ์ ์ฌ์ฉ๋์ง ์๋๋ค.
- Data augmentation
- Dropout(p=0.5)
VGGNet
Very Deep Convolutional Networks For Large-Scale Image Recognition ๋ ผ๋ฌธ
2014๋ ๋ ILSVRC์์ ์ค์ฐ์นํ ๋ชจ๋ธ์ด๋ค.
๋ชจ๋ธ์ ํต์ฌํฌ์ธํธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- 3x3 ํํฐ(์คํธ๋ผ์ด๋ 1)์ ์ฌ์ฉํ๊ณ depth๋ฅผ ๋๋ ธ๋ค.
- ์ ์ฐ๊ฒฐ๊ณ์ธต์์ 1x1 convolution ์ฐ์ฐ์ ์ฌ์ฉํ๋ค.
- Dropout(p=0.5)
- ๊ณ์ธต ์์ ๋ฐ๋ผ VGG16, VGG19๋ก ๋๋๋ค.
๋ชจ๋ ๋ ์ด์ด์์ ํํฐ๋ฅผ 3x3์ผ๋ก ํต์ผํ์๋ค. ์ด๊ฒ์ ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ์ง๊น?
ํํฐ๊ฐ ํฌ๋ค๋ ๊ฒ์, ์์ ํ ๊ณผ์ ์์ ํ๋์ convolution feature ๊ฐ์ ์ป๊ธฐ ์ํด ๊ณ ๋ คํ ์ ์๋ ์
๋ ฅ์ spatial dimension, ์ฆ ์์ฉ์์ญ(Receptive Field)
์ด ์ปค์ง๋ค๋ ๋ง์ด๋ค.
๋ง์ฝ 3x3 ํํฐ๋ฅผ ๋ ๋ฒ ์ฌ์ฉํ๊ฒ ๋๋ค๋ฉด, ๊ฒฐ๊ตญ 5x5๋ฅผ ํ๋ฒ ์ฌ์ฉํ๋๊ฒ๊ณผ ์์ฉ์์ญ ์ฐจ์์์๋ ๋์ผํ๋ค. 3x3์ ํ๋์ ์ ๋ก ์ถ์์ํจ๊ฒ์ ๋ค์ 3x3๊ฐ ๋ชจ์์ ์ถ์์ํค๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋ฌ๋ ํ๋ผ๋ฏธํฐ ๊ฐ์์๋ ํฐ ์ฐจ์ด๊ฐ ์๋ค. ์ ๋ ฅ, ์ถ๋ ฅ์ ์ฑ๋์ด ๊ฐ๊ฐ (128,128)์ด๋ผ๊ณ ์๊ฐํด๋ณด์.
๋ฐ๋ผ์ ๊ฐ์ ์์ฉ์์ญ์ ์ปค๋ฒํ๋ฉด์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ฅผ ์ค์ด๊ธฐ ์ํด์๋ 3x3์ผ๋ก ๊ณ์ธต์ ํ๋ฒ ๋ ์๋๊ฒ์ด ๋ซ๋ค.
์ด๋ฌํ ์ด์ ๋ก ์ต๊ทผ์๋ ๋๋ถ๋ถ ํํฐ์ ํฌ๊ธฐ๊ฐ 3x3, ์ปค๋ดค์ 7x7์ ๋์ง ์๋๋ค.
GoogLeNet
Christian et al, "Going Deeper with Convolutions", CVPR, 2015 ๋ ผ๋ฌธ
2014๋ ๋ ILSVRC์์ ์ฐ์นํ ๋ชจ๋ธ์ด๋ค.
22๋จ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ๋น์ทํ ๋คํธ์ํฌ๊ฐ ์ ์ฒด ๋คํธ์ํฌ ๋ด๋ถ์ ์ฌ๋ฌ๋ฒ ๋ค์ด๊ฐ ์๋ค. ์ด๋ฅผ Network in Network,NiN
๊ตฌ์กฐ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์
๋ ฅ๊ฐ์ด Convolution ์ฐ์ฐ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ์ ์ 1x1 Conv๋ฅผ ๊ฑฐ์น๋๋ฐ, ์ด๋ฅผ Inception Block
์ด๋ผ๊ณ ํ๋ฉฐ GoogLeNet ๋ชจ๋ธ์์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ด๋ค. Inception Block์ ์ด์ฉํ์ฌ ํ๋ผ๋ฏธํฐ ์ซ์๋ฅผ ์ค์ผ ์ ์๊ฒ ๋๋ค. ์ ๊ทธ๋ด๊น?
1x1 Convolution์ด ์ฑ๋๋ฐฉํฅ์ผ๋ก(channel-wise) ์ฐจ์์ ์ถ์ํ๋ ํจ๊ณผ๊ฐ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์ฑ๋๋ ๊ฐ๊ณ , ์์ฉ์์ญ๋ ๊ฐ์ง๋ง 1x1 convolution์ ์ค๊ฐ์ ์ถ๊ฐํ๋ ๊ฒ๋ง์ผ๋ก ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ 1/3๋ณด๋ค ๋ ์ค์ด๋ค์๋ค.
ResNet
Deep Residual Learning, CVPR, 2016 ๋ ผ๋ฌธ
2015๋ ๋ ILSVRC์์ ์ฐ์นํ ๋ชจ๋ธ์ด๋ค.
์ ๊ฒฝ๋ง์ ๊น์ด๊ฐ ๊น์์๋ก, ํ์ตํ๊ธฐ๋ ๋ ์ด๋ ค์์ง๋ค.
- ์ค๋ฒํผํ ์ ์ผ๋ฐ์ ์ผ๋ก ํ๋ผ๋ฏธํฐ ๊ฐ์๊ฐ ๋๋ฌด ๋ง์ ๊ฒฝ์ฐ ์ผ์ด๋๋ค.
- ๊ทธ๋ฌ๋ ๊น์ด๊ฐ ๊น์ ๊ฒฝ์ฐ์๋ ์ค๋ฒํผํ ์ด ์ผ์ด๋์ง ์์์๋ ๋ถ๊ตฌํ๊ณ ํ์ต์๋ฌ์ ๋นํด ํ ์คํธ์๋ฌ๊ฐ ํจ์ฌ ํฌ๊ฒ ๋์จ๋ค.
๊ทธ๋์ ResNet์ identity map(skip connection)
์ด๋ผ๋ ๊ฒ์ ์ถ๊ฐํ๋ค. ์
๋ ฅ๊ฐ์ผ๋ก ๋ค์ด์จ x๋ฅผ convolution layer ํ ์ธต์ ์ถ๋ ฅ๊ฐ์ ๋ํด์ฃผ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋ง๋ block์ Residual Block
์ด๋ผ๊ณ ํ๋ค.
๊ธฐ์กด์ ์ ๊ฒฝ๋ง์ ์
๋ ฅ๊ฐ x๋ฅผ ๋ชฉํ ์ถ๋ ฅ๊ฐ y๋ก ๋งคํํ๋ ํจ์ H(x)๋ฅผ ์ป๋๊ฒ์ด ๋ชฉํ์๋๋ฐ, ResNet์ F(x)+x๋ฅผ ์ต์ํ์ํค๋๊ฒ์ด ๋ชฉํ๋ค. ์ด ๋ x๋ ์ ํด์ง ์์์ด๋ฏ๋ก F(x)๋ฅผ ์ต์ํํด์ผํ๋ค. F(x) = H(x)-x, ์ฆ ์์ฐจ(Residual)
์ด๋ฏ๋ก ์์ฐจ๋ฅผ ์ต์ํํ๋ค๊ณ ํ์ฌ ResNet์ด๋ผ๋ ์ด๋ฆ์ด ๋ถ๊ฒ ๋๋ค.
์์ธํ ์ค๋ช ์ ์๋ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ์.
(7) ResNet (Residual Connection)
[CNN ์๊ณ ๋ฆฌ์ฆ๋ค] ResNet์ ๊ตฌ์กฐ
์ด๋ ๊ฒ ํ์ต์ํค๊ฒ ๋๋ฉด, ์ด๋ฏธ ๋ฐฐ์ ๋ ๋ด์ฉ x๋ฅผ ์ ์ธํ ์ฐจ์ด์ (f(x))๋ง์ ํ์ตํ๋ฉด ๋๋ฏ๋ก ํ์ต์ด ๋ ์์ด๋ฃจ์ด์ง๊ฒ ๋๋ค.
์ด ๋, ์์ Simple Shortcut๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์งํํ๋ ค๋ฉด ๋๋ฒ์ conv๋ฅผ ๊ฑฐ์น๊ณ ๋ ๋ค BN๊น์ง ์งํํ๊ณ ๋์์ (์ฑ๋)์ฐจ์์ด ๊ธฐ์กด์ ์
๋ ฅ๊ฐ x์ ๊ฐ์์ผํ๋ค. ๋ง์ฝ ์ฐจ์์ด ๋ค๋ฅด๋ค๋ฉด, ์ด๋ฅผ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด 1x1 Conv๋ก ์ฑ๋์ ๋ง์ถฐ์ฃผ๊ฒ ๋๋ค. ์ด๋ฅผ Projected Shortcut
์ด๋ผ๊ณ ํ๋ค.
- Projected Shortcut์ด ์์ฃผ ์ฌ์ฉ๋์ง๋ ์์ผ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก
Simple Shortcut
์ ๋ง์ด ์ฌ์ฉํ๋ค.
๋, ResNet์ Batch Normalization์ด Convolution ๋ค์ ์ผ์ด๋๋ค๋ ํน์ง์ด ์๋ค. ๋ค๋ง, Batch Normalization์ ReLu ๋ค์ ๋ฃ๋๊ฒ์ด ๋ ํ์ตํจ๊ณผ๊ฐ ์ข๋ค๋ ๋ ผ์๋ ์๋ค. ๋ ผ๋ฌธ์์๋ ์์ ์ด๋ฏธ์ง์ ๊ฐ์ ์์๋ก ์ํํ๋ค.
3x3 Conv๋ฅผ ์ํํ ๋, Conv์ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ [3x3x์
๋ ฅ์ฑ๋x์ถ๋ ฅ์ฑ๋]์ด๋ค. ๊ทธ๋ ๋ค๋ฉด 1x1 Conv๋ก ์
๋ ฅ์ฑ๋์ ์ค์ฌ์ ๋ฃ๊ณ , ์ถ๋ ฅ ํ์๋ ์ฑ๋์ ๋๋ฆด ์๋ ์์ ๊ฒ์ด๋ค. ์ด๋ฅผ Bottleneck architecture
๋ผ๊ณ ํ๋ค.
DenseNet
ResNet์ Residual Block์์ x๊ฐ์ ๋ํด(addition)์ฃผ๋ฉด ๋ ๊ฐ์ด ์์ด๊ฒ ๋๋ค. ๊ทธ๋์ ์ด ๊ณผ์ ์ ์ฐ์์ ์ผ๋ก ์๋ ๊ฒ(concatenation)
์ผ๋ก ๋์ฒดํ๋ค.
๋ฌธ์ ๋ concatenation ํ๋ฉด ํ ์๋ก ์ฑ๋์๊ฐ ์ ์ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๋ค๋๋ฐ์ ์๋ค. ์ฑ๋ ์๊ฐ ๋ง์์ง๋ฉด Conv ์ฐ์ฐ ์ ํ๋ผ๋ฏธํฐ์๊ฐ ์์ฐ์ค๋ ๋ง์์ง๋ฏ๋ก, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ฐ์ ์ฑ๋์ซ์๋ฅผ ์ค์ฌ์ฃผ๋ Transition Block
์ ๋ผ์๋ฃ๋๋ค.
Dense Block
- ๊ฐ ์ธต์ ๋ชจ๋ ์ด์ ์ธต์ feature map์ concatenateํ๋ค.
- ์ฑ๋์ ์๋ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๊ฒ ๋๋ค.
Transition Block
- BatchNorm โ 1x1 Conv โ 2x2 AvgPooling
- ์ฑ๋ ์ฐจ์์ ์ถ์ํ๋ค.(Dimension Reduction)
- ๋ฅ๋ฌ๋ ๋ฒ ์ด์ง - 03.์ต์ ํ ๊ธฐ๋ฒ
- ๋ฅ๋ฌ๋ ๋ฒ ์ด์ง - 05.CNN์ ํ์ฉํ ์ปดํจํฐ๋น์ ๊ธฐ์ด