목차
1. 강의정리
1-1. DL Basic - chap7. Sequential Models - RNN
1-2. DL Basic - chap8. Sequential Models - Transformer
2. 피어세션 & 데일리회고
📜 강의 정리
* 부스트캠프 DL_Basic 강의를 맡아주신 최성준 교수님의 강의를 정리한 것 입니다.
[DL Basic] Chapter7. Sequential Models - RNN
- Sequential Model
- Naive Sequential Model : $
p\left(x_{t} \mid x_{t-1}, x_{t-2}, \ldots\right)
$- (문제) 입력의 차원을 정의할 수 없음
- Autoregressive model : $
p\left(x_{t} \mid x_{t-1}, \ldots, x_{t-\tau}\right)
$ - Markov model (first-order auto autoregressive model)
- (가정) 나의 현재는 나의 직전 과거에만 의존
- $
p\left(x_{1}, \ldots, x_{T}\right)=p\left(x_{T} \mid x_{T-1}\right) p\left(x_{T-1} \mid x_{T-2}\right) \cdots p\left(x_{2} \mid x_{1}\right) p\left(x_{1}\right)=\prod_{t=1}^{T} p\left(x_{t} \mid x_{t-1}\right)
$ - (문제) 과거의 많은 노드를 고려해야한다.
- Latent autoregressive model
- Hidden state를 사용 : 과거의 정보를 요약하는 hidden state
- $$
\begin{aligned}
\hat{x} &=p\left(x_{t} \mid h_{t}\right) \\
h_{t} &=g\left(h_{t-1}, x_{t-1}\right)
\end{aligned}
$$
- Naive Sequential Model : $
- Recurrent Neural Network
- MLP와 다른 점은 자기 자신에게 들어오는 구조 추가된 것. Xt 뿐만 아니라 이전의 정보인 Ht에도 의존한다
- RNN 문제
- Long-term dependency에 대한 문제가 있음. 오래 전의 input은 기억을 못하는 것
- $$
\begin{aligned}
h_{1} &=\phi\left(W^{T} h_{0}+U^{T} x_{1}\right) \\
h_{2} &=\phi\left(W^{T} \phi\left(W^{T} h_{0}+U^{T} x_{1}\right)+U^{T} x_{2}\right) \\
h_{3} &=\phi\left(W^{T} \phi\left(W^{T} \phi\left(W^{T} h_{0}+U^{T} x_{1}\right)\left(+U^{T} x_{2}\right)+U^{T} x_{3}\right)\right.\\
h_{4} &=\phi\left(W^{T} \phi\left(W^{T} \phi\left(W^{T} \phi\left(W^{T} h_{0}+U^{T} x_{1}\right)+U^{T} x_{2}\right)+U^{T} x_{3}\right)+U^{T} x_{4}\right)
\end{aligned}
$$ - $h_{4}$에서 $h_{0}$가 Vanishing gradient되거나 ReLU등의 nonlinear 변환을 하게 되면 Exploding gradient 될 위험이 있다
- Long Short Term Memory
- Vanilla RNN에서 가운데 노드와 같이 세부적인 것이 추가된 것이 LSTM
- Forget Gate : 어떤 값을 지울지
- Input Gate : 어떤 값을 사용할지 Ct
- Update Gate : 위의 두개를 취합
- Output Gate : candidate cell state를 조합해서 새로운 state를 만들고 그 정보를 얼만큼 밖으로 빼낼지
- Gated Recurrent Unit - GRU
- Reset Gate, Update Gate
- No cell state, just hidden state
- 적은 파라미터로 동일한 성능이 나오면 generalization performance가 좋다고 판단
- GRU가 LSTM에 비해 파라미터 수가 적다.
[DL Basic] Chapter8. Sequential Models - Transformer
- Sequential Model은 문장이 잘리거나, 누락되거나, 밀릴 수 있다.
- Transformer
- Attention is all you need, 2017
- Transformer는 sequential한 문제를 해결하고 encoding하는 방법.
🙋♀️ 피어세션 & 데일리 회고
목요일 피어세션 시간에는 멘토님이 함께하십니다.
저희의 규칙대로 TMI 시간을 먼저 가졌습니다. 무슨 말을 해야할지 잘 모르겠는데, 유난히 잘하시는 캠퍼님들이 있어서 웃으면서 피어세션을 시작할 수 있습니다. 이 규칙을 다른 프로젝트나 다른 사람들을 만날 때에도 제안해봐야겠습니다.
멘토님이 git/github 협업 방법에 대해 실습을 하고 도움을 주셨습니다. 오늘 개인학습 시간에 이고잉님의 git/github 특강이 있었지만 git에 익숙하지 않은 캠퍼님도 있었고, 중간에 놓쳐서 복습을 하려던 캠퍼님도 있었는데 멘토님께서 이런 시간을 준비해주셔서 많은 도움이 되었습니다
이고잉님의 특강 때는 vscode를 사용하여 실습을 진행했었는데, 멘토님께서는 git bash를 사용하여 명령어로 git을 관리하는 방법에 대해 알려주셨습니다. 오늘 하루동안 그동안의 숙제였던 깃을 끝낼 수 있는 것 같아서 뿌듯했습니다!!
'TIL > Boostcamp AI tech' 카테고리의 다른 글
[Boostcamp] week3-Day11. Pytorch 기본 :: seoftware (0) | 2021.08.17 |
---|---|
[Boostcamp] Week2-Day10. Generative Models :: seoftware (0) | 2021.08.13 |
[Boostcamp] Week2-Day8. CNN(Convolutional Neural Network) :: seoftware (0) | 2021.08.11 |
[Boostcamp] Week2-Day7. 최적화 Optimization :: seoftware (0) | 2021.08.10 |
[Boostcamp] Data Visualization 기본적인 차트 요소 :: seoftware (0) | 2021.08.09 |
댓글