목차
1. 강의정리
1-1. AI Math - chap8. 베이즈 통계학 맛보기
2. 피어세션 정리
3. 데일리 회고
📜 강의 정리
[AI Math] Chapter8. 베이즈 통계학 맛보기
- 조건부확률 P(A|B) : 사건 B가 일어난 확률에서 사건 A가 발생할 확률
- 베이즈 정리
- 용어 정리
- D : 관찰하는 데이터 / θ : 모수(계산하고자 하는 파라미터) / 사후확률은 데이터 관찰 후에 측정한 확률이고, 사전확률은 데이터가 주어지지 않은 상황에서 사전에 주어진 확률 / likelihood : 현재 데이터에서 어떤 모수가 관찰될 확률 / evidence : 데이터 자체의 분포
- 예제 : COVID-19의 발병률이 10%. COVID-19에 실제로 걸렸을 때 검진될 확률 99%. 실제로 걸리지 않았을 때 오검진될 확률이 1% 라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-19에 감염되었을 확률?
- θ = Covid-19 발병 사건으로 정의(관찰불가) / D = 테스트 결과라고 정의(관찰가능)
- 사전확률 : 발병률이 10% → P(θ) = 0.1
- 가능도 :
- 실제로 걸렸을 때 검진될 확률 99% → P(D|θ) = 0.99
- 실제로 걸리지 않았을 때 오검진될 확률 1% → P(D|-θ) = 0.01
- Evidence P(D) = ∑P(D|θ)P(θ) = 0.99 * 0.1 + 0.01 * 0.9 = 0.108 (θ에 대해 ∑, θ와 -θ)
- 사후확률 P(θ|D) = 0.1 * (0.99/0.108) ⩳ 0.916
- 오탐율이 오르면 테스트의 정밀도가 떨어진다
- 민감도(Recall)
- 오탐율(False alarm)
- 정밀도(Precision)
- 조건부 확률의 시각화
- 베이즈 정리를 통한 정보의 갱신
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다 - 베이즈 정리의 장점(새로운 사후확률 업데이트 가능)
- 앞서 Covid-19 판정을 받은 사람이 두번째 검진을 받았을 때도 양성이 나왔을 때 진짜 Covid-19에 걸렸을 확률은?
- 정확도가 높아지는 것을 확인했다. 이런식으로 사후확률을 갱신할 수 있는 것이 베이즈 정리의 장점
- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다 - 베이즈 정리의 장점(새로운 사후확률 업데이트 가능)
- 용어 정리
- 조건부 확률 → 인과관계?
- 조건부 확률로 인과관계(causality)를 추론할 때 함부로 사용하면 안된다
- 데이터가 많아져도 조건부확률만으로 인과관계 추론은 불가능
- 인과관계는 데이터 분포의 변화에 강건한 예측모형 만들 때 필요
- 인과관계가 여러 데이터를 포용하는 모델을 만들 수는 있지만 인과관계만으로 높은 예측 정확도를 담보하기는 어렵다
- 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다
- 예. 키가 크면 지능지수가 높다는 상관관계에서 어린이(키가 작은 데이터)와 어른(키가 큰 데이터) 중 어른의 지능지수간 높은 것은 연령이라는 중첩요인이 작용하기 때문
🙋♀️피어세션
1. 강의 질문
- 7강 베이즈 통계에서 인과관계 예시 관련 문제
- 10강 RNN 시퀀스 데이터 확률분포
2. 선택과제 리뷰
- 선택과제 2번 Backpropagation
- 선택과제 3번 Maximum Likelihood Estimation
3. 필수과제 리뷰
- 깔끔한 코드 공유
- 각자 다양한 방식의 코드 공유
💌 데일리 회고
어제가 과제 제출일이라 오늘은 과제보다는 강의를 듣고 강의를 정리하는 시간을 오래 가졌습니다.
강의 정리를 하며 모르는 것들은 다시 강의를 보고 참고자료를 찾아보며 복습을 하고, 그래도 모르는 것들은 다른 캠퍼님들께 물어보고 해결했습니다. 이번주는 몬테카를로, 베이즈정리, 최대가능도 이 3가지가 가장 이해되지 않는 삼대장이었는데 주말에 한 번 더 강의를 보면서 수식에 익숙해지도록 해야겠습니다.
어제까지는 과제 제출일이라 코드 공유가 불가했는데, 오늘은 서로 코드를 공유할 수 있어서 피어세션 시간에 제출한 과제의 코드를 공유하는 시간을 가졌습니다. 같은 기능의 함수를 구현하더라도 사람들마다 다양한 방식으로 코딩을 하기 때문에, 다른 캠퍼님들은 어떤 식으로 코드를 짰는지 보는 재미가 있었습니다. 또한 선택과제 중 제가 해결하지 못한 부분에 대해 다른 캠퍼님들의 코드를 보고 도움을 받을 수 있었습니다.
이번주 정말 알차게 공부도 하고 활발하게 의견도 나눴는데, 다음주도 매우 기대가 됩니다.
'TIL > Boostcamp AI tech' 카테고리의 다른 글
[Boostcamp] Data Visualization 기본적인 차트 요소 :: seoftware (0) | 2021.08.09 |
---|---|
[Boostcamp] Week2 - Day6. Neural network :: seoftware (0) | 2021.08.09 |
[Boostcamp] Week1 - Day4. 하루 정리 :: seoftware (0) | 2021.08.05 |
[Boostcamp] Week1 - Day3. 하루정리 :: seoftware (0) | 2021.08.05 |
[Boostcamp] Week1 - Day2. 하루 정리 :: seoftware (0) | 2021.08.05 |
댓글