๐ ๊ฐ์ ์ ๋ฆฌ
* Cousera ๊ฐ์ ์ค Andrew Ng ๊ต์๋์ Convolutional Neural Network ๊ฐ์๋ฅผ ๊ณต๋ถํ๊ณ ์ ๋ฆฌํ ๋ด์ฉ์ ๋๋ค.
* ์ด๋ฏธ์ง ์ถ์ฒ : Deeplearning.AI
Detection Algorithms
Object Localization

์์ ๊ฐ์ ์์์์ target label y๋ฅผ ์ดํด๋ณด๋ฉด [P_c, b_x, b_y, b_h, b_w, c1, c2, c3] ๋ก ๊ตฌ์ฑ์ด ๋์ด์๋ค. P_c๋ ์ด๋ฏธ์ง์ ๊ฐ์ฒด๊ฐ ์์ผ๋ฉด 1, ์์ผ๋ฉด 0์ด๊ณ b_๋ก ์์ํ๋ ๊ฒ๋ค์ ๋ฐ์ด๋ฉ๋ฐ์ค์ ๊ด๋ จ๋ ๊ฒ, c๋ก ์์๋๋ ๊ฒ๋ค์ ๊ฐ ํด๋์ค์ ํด๋นํ๋ ๊ฐ์ฒด๊ฐ ์ด๋ฏธ์ง ์์ ์๋์ง ๋ํ๋ด๋ ๊ฒ์ด๋ค.
๋ง์ฝ P_c(=y_1)๊ฐ 1์ด๋ผ๋ฉด predict์ target๊ฐ์ ๊ฐ๊ฐ์ ์์น์ ํด๋นํ๋ ์ธ์๋ผ๋ฆฌ loss๋ฅผ ๊ตฌํด์ ๋ํด์ฃผ๊ณ , P_c๊ฐ 0์ด๋ผ๋ฉด y1๊ณผ y1_hat ๊ฐ์ loss๋ง ๊ตฌํด์ค๋ค.
Landmark Detection

landmark๋ bbox์ b_x, b_y, b_h, b_w์ ๋น์ทํ๊ฒ ๊ฐ๊ฐ์ ์์น์ ์ ์ ์ฐ์ด์ ํน์ง์ ์ถ์ถํ๋ ๊ฒ์ด๋ค. ์ผ๊ตด์ ๊ฒฝ์ฐ ๋ ์ ๋, ํฑ ์ ๋ฑ์ ๋๋๋งํฌ๋ฅผ ์ฐ์ ์ ์๊ณ , ์ ์ฒด์๋ ๋ชฉ, ์ด๊นจ, ํ๊ฟ์น, ๋ฌด๋ฆ ๋ฑ์ ๋๋๋งํฌ๋ฅผ ์ฐ์ ์ ์๋ค.
์ค์ํ ์ ์ ํ์ต์ ์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํด ๋ ์ด๋ธ๋ง์ ์งํํ ๋ landmark1, landmark2, ..., landmark_n์ ์ผ๊ด์ฑ์ ์ง์ผ์ผํ๋ค๋ ์ ์ด๋ค. ์๋ฅผ ๋ค์ด ์ผ๊ตด์์ landmark1์ด ์ฝ๋์ด๋ผ๋ฉด ๋ชจ๋ ์ด๋ฏธ์ง์ landmark1์ ์ฝ๋์ ์ฐ์ ์ ์ด์ด์ผ ํ๋ค.
Object Detection
conv size๋ฅผ ์ ์ ํฌ๊ฒ ํด๊ฐ๋ฉด์ sliding window ๋ฐฉ์์ ์ฌ์ฉํ๋ค. computational cost๊ฐ ๋งค์ฐ ๋๋ค๋ ๋จ์ ์ด ์๋ค.

Convolutional Implementation of Sliding Windows
FC layer๋ฅผ convolutional layer๋ก ๋ณํํ๋ค.



Conv ์ฐ์ฐ์ ํตํด ์๋์ฐจ๊ฐ ์๋ ์์ญ์ ๋ ํจ์จ์ ์ผ๋ก ์ฐพ์๋ด๊ธฐ๋ ํ์ง๋ง ๋ฐ์ด๋ฉ๋ฐ์ค๊ฐ ์ ํํ์ง ์๋ค๋ ๋ฌธ์ ๊ฐ ๋จ์์๋ค.
Bounding Box Predictions
โ YOLO algorithm
3ร3 grid, 19ร19 grid ๋ฑ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํด์ object localization ์งํ

์์ธํ๊ฒ ํํ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค

Intersection Over Union
์ค์ฌ์ IoU๋ผ๊ณ ํ๋ฉฐ, ๊ฐ์ฒด ๊ฒ์ถ์ด ์๋์๋์ง ํ์ธํ๋ metric์ผ๋ก ์ฌ์ฉ๋๋ค.

Non-max Suppression
๊ฐ์ฒด ๊ฒ์ถ์ ๋ฌธ์ ์ ์ ๋์ผํ ๊ฐ์ฒด์ ๋ํด์ ์ฌ๋ฌ๋ฒ ๊ฒ์ถํ ์ ์๋ค๋ ์ ์ด๋ค. non-max suppression์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. P_c๊ฐ ๊ฐ์ฅ ๋์ ๊ฒ๋ง ๋ฝ์๋ธ๋ค.


Anchor boxes
์์ ๋ฌธ์ ๋ ํ๋์ ๊ทธ๋ฆฌ๋์ ์์์ ํ๋์ ๊ฐ์ฒด๋ง ํ์งํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด anchor box๋ฅผ ๋์ ํ์ต๋๋ค


Region Proposal
segmentation์ ํ์ฉํ์ฌ ํด๋น ์์ญ์ ๊ฐ์ฒด๊ฐ ์๋์ง ํ์ธ


Semantic Segmentation with U-Net
object detection ๋ณด๋ค ์กฐ๊ธ ๋ ์ฌ์ธํ๊ฒ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๋ ๋ฐฉ์์ผ๋ก ํฝ์ ์ด ์ด๋ค ๊ฐ์ฒด์ ์ํ๋์ง ํ์ธํ๋ ๋ฐฉ๋ฒ์ด๋ค.

Transpose Convolutions
transpose convolution์ U-Net ๊ตฌ์กฐ์ ์ฃผ์ ๋ถ๋ถ์ด๋ค.
์ผ๋ฐ convolution์ ๊ฒฝ์ฐ ํฌ๊ธฐ๊ฐ ์์์ง๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ง๋ง transpose convolution์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๋ฐฉํฅ(์๋ณธ ์ฌ์ด์ฆ๋ก ๋ณต๊ตฌ)ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.

Transpose convolution ์งํ๊ณผ์



U-Net architecture intuition

์์ ๋ฐ์ ์ convolution, ๋ค์ ๋ฐ์ ์ transpose convolution ์งํ. earlier layer์ activation ๊ฒฐ๊ณผ๋ฅผ later layer์ copy ํด์ฃผ๋ฉด ํจ๊ณผ๊ฐ ์ข์๋ฐ, ๊ทธ ์ด์ ๊ฐ ๋ฌด์์ผ๊น?
low level์ ๋ํ ์ผ๊ณผ high level์ semanticํ ํน์ง์ ๋ชจ๋ ๋ด์ ์ ์๊ฒ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
U-Net architecture

๋๊ธ