๐ ๊ฐ์ ์ ๋ฆฌ
* Cousera ๊ฐ์ ์ค Andrew Ng ๊ต์๋์ Convolutional Neural Network ๊ฐ์๋ฅผ ๊ณต๋ถํ๊ณ ์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค.
* ์ด๋ฏธ์ง ์ถ์ฒ : Deeplearning.AI
Detection Algorithms
Object Localization
์์ ๊ฐ์ ์์์์ target label y๋ฅผ ์ดํด๋ณด๋ฉด [P_c, b_x, b_y, b_h, b_w, c1, c2, c3] ๋ก ๊ตฌ์ฑ์ด ๋์ด์๋ค. P_c๋ ์ด๋ฏธ์ง์ ๊ฐ์ฒด๊ฐ ์์ผ๋ฉด 1, ์์ผ๋ฉด 0์ด๊ณ b_๋ก ์์ํ๋ ๊ฒ๋ค์ ๋ฐ์ด๋ฉ๋ฐ์ค์ ๊ด๋ จ๋ ๊ฒ, c๋ก ์์๋๋ ๊ฒ๋ค์ ๊ฐ ํด๋์ค์ ํด๋นํ๋ ๊ฐ์ฒด๊ฐ ์ด๋ฏธ์ง ์์ ์๋์ง ๋ํ๋ด๋ ๊ฒ์ด๋ค.
๋ง์ฝ P_c(=y_1)๊ฐ 1์ด๋ผ๋ฉด predict์ target๊ฐ์ ๊ฐ๊ฐ์ ์์น์ ํด๋นํ๋ ์ธ์๋ผ๋ฆฌ loss๋ฅผ ๊ตฌํด์ ๋ํด์ฃผ๊ณ , P_c๊ฐ 0์ด๋ผ๋ฉด y1๊ณผ y1_hat ๊ฐ์ loss๋ง ๊ตฌํด์ค๋ค.
Landmark Detection
landmark๋ bbox์ b_x, b_y, b_h, b_w์ ๋น์ทํ๊ฒ ๊ฐ๊ฐ์ ์์น์ ์ ์ ์ฐ์ด์ ํน์ง์ ์ถ์ถํ๋ ๊ฒ์ด๋ค. ์ผ๊ตด์ ๊ฒฝ์ฐ ๋ ์ ๋, ํฑ ์ ๋ฑ์ ๋๋๋งํฌ๋ฅผ ์ฐ์ ์ ์๊ณ , ์ ์ฒด์๋ ๋ชฉ, ์ด๊นจ, ํ๊ฟ์น, ๋ฌด๋ฆ ๋ฑ์ ๋๋๋งํฌ๋ฅผ ์ฐ์ ์ ์๋ค.
์ค์ํ ์ ์ ํ์ต์ ์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํด ๋ ์ด๋ธ๋ง์ ์งํํ ๋ landmark1, landmark2, ..., landmark_n์ ์ผ๊ด์ฑ์ ์ง์ผ์ผํ๋ค๋ ์ ์ด๋ค. ์๋ฅผ ๋ค์ด ์ผ๊ตด์์ landmark1์ด ์ฝ๋์ด๋ผ๋ฉด ๋ชจ๋ ์ด๋ฏธ์ง์ landmark1์ ์ฝ๋์ ์ฐ์ ์ ์ด์ด์ผ ํ๋ค.
Object Detection
conv size๋ฅผ ์ ์ ํฌ๊ฒ ํด๊ฐ๋ฉด์ sliding window ๋ฐฉ์์ ์ฌ์ฉํ๋ค. computational cost๊ฐ ๋งค์ฐ ๋๋ค๋ ๋จ์ ์ด ์๋ค.
Convolutional Implementation of Sliding Windows
FC layer๋ฅผ convolutional layer๋ก ๋ณํํ๋ค.
Conv ์ฐ์ฐ์ ํตํด ์๋์ฐจ๊ฐ ์๋ ์์ญ์ ๋ ํจ์จ์ ์ผ๋ก ์ฐพ์๋ด๊ธฐ๋ ํ์ง๋ง ๋ฐ์ด๋ฉ๋ฐ์ค๊ฐ ์ ํํ์ง ์๋ค๋ ๋ฌธ์ ๊ฐ ๋จ์์๋ค.
Bounding Box Predictions
โ YOLO algorithm
3×3 grid, 19×19 grid ๋ฑ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํด์ object localization ์งํ
์์ธํ๊ฒ ํํ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค
Intersection Over Union
์ค์ฌ์ IoU๋ผ๊ณ ํ๋ฉฐ, ๊ฐ์ฒด ๊ฒ์ถ์ด ์๋์๋์ง ํ์ธํ๋ metric์ผ๋ก ์ฌ์ฉ๋๋ค.
Non-max Suppression
๊ฐ์ฒด ๊ฒ์ถ์ ๋ฌธ์ ์ ์ ๋์ผํ ๊ฐ์ฒด์ ๋ํด์ ์ฌ๋ฌ๋ฒ ๊ฒ์ถํ ์ ์๋ค๋ ์ ์ด๋ค. non-max suppression์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. P_c๊ฐ ๊ฐ์ฅ ๋์ ๊ฒ๋ง ๋ฝ์๋ธ๋ค.
Anchor boxes
์์ ๋ฌธ์ ๋ ํ๋์ ๊ทธ๋ฆฌ๋์ ์์์ ํ๋์ ๊ฐ์ฒด๋ง ํ์งํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด anchor box๋ฅผ ๋์ ํ์ต๋๋ค
Region Proposal
segmentation์ ํ์ฉํ์ฌ ํด๋น ์์ญ์ ๊ฐ์ฒด๊ฐ ์๋์ง ํ์ธ
Semantic Segmentation with U-Net
object detection ๋ณด๋ค ์กฐ๊ธ ๋ ์ฌ์ธํ๊ฒ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๋ ๋ฐฉ์์ผ๋ก ํฝ์ ์ด ์ด๋ค ๊ฐ์ฒด์ ์ํ๋์ง ํ์ธํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Transpose Convolutions
transpose convolution์ U-Net ๊ตฌ์กฐ์ ์ฃผ์ ๋ถ๋ถ์ด๋ค.
์ผ๋ฐ convolution์ ๊ฒฝ์ฐ ํฌ๊ธฐ๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง๋ง transpose convolution์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๋ฐฉํฅ(์๋ณธ ์ฌ์ด์ฆ๋ก ๋ณต๊ตฌ)ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
Transpose convolution ์งํ๊ณผ์
U-Net architecture intuition
์์ ๋ฐ์ ์ convolution, ๋ค์ ๋ฐ์ ์ transpose convolution ์งํ. earlier layer์ activation ๊ฒฐ๊ณผ๋ฅผ later layer์ copy ํด์ฃผ๋ฉด ํจ๊ณผ๊ฐ ์ข์๋ฐ, ๊ทธ ์ด์ ๊ฐ ๋ฌด์์ผ๊น?
low level์ ๋ํ ์ผ๊ณผ high level์ semanticํ ํน์ง์ ๋ชจ๋ ๋ด์ ์ ์๊ฒ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
U-Net architecture
๋๊ธ