본문 바로가기
TIL/Boostcamp AI tech

[Boostcamp]Week4-Day15. P stage start :: seoftware

by seowit 2021. 8. 23.
목차
1. 강의정리
    1-1. [P]이미지 분류 - chap1. Competition with AI stages!
    1-2. [P]이미지 분류 - chap2. Image classification & EDA
2. 실습
3. 피어세션 정리
4. 데일리 회고 

* P stage 는 3주간 배운 이론을 실제로 사용해보는 시간입니다.


📜 강의 정리 


[P stage] Chapter1. Competition with AI stages!

 

🌈대회 시작 전 중요한 포인트를 살펴보자

1. Overview : Kaggle, Dacon 등의 여러 competition 플랫폼이 존재하는데, 문제에서 가장 먼저 봐야할 것은 방향성이다. 어떤 문제인지 정확하게 파악한 후에 적절한 해결방안을 도출할 수 있다.

2. Description : 다양한 도메인의 데이터셋이 올라오기 때문에 낯선 용어가 있을 수 있다. 

3. Discussion : 등수를 올리는 것보다 문제를 해결하려는 마음에 집중하자. 다른 사람들과 방법을 토론하고 공유하면 더 좋은 결과를 얻을 수 있다.

competiton scope


[P stage] Chapter2. Image classification & EDA

 

🌈EDA의 의미와 사용법과 Image Classification의 과정을 알아보자

 

1. EDA

  • Exploratory Data Analysis, 탐색적 데이터 분석, "데이터를 이해하기 위한 노력"
  • EDA 목적
    • 궁금한 것, 알고 싶은 것, 주제와 연관성, 분포, 실제로 어떻게 생겼나,, 등의 뭐가 궁금한지 checking
    • 정리하면, EDA는 궁금한 걸 알아보는 과정
    • 도중에 궁금한게 생기면, 다시 EDA로 돌아올 수 있다.

2. Image classification

  • image는 uint8의 데이터타입의 원소들로 이루어진 배열로 볼 수 있다.
  • 각 데이터가 모델에 들어오면 아웃풋 반환하는데, image를 input으로 하고 output을 0과 1의 배열로 내보내는 모델이 image classification model이다.


👩‍💻 P stage 대회 과정


1. 서버 할당 : AI stage 에서 서버를 할당 받았다

2. submission test : jupyter notebook에 작성되어 있는 샘플 코드를 수행시키고 나온 submission.csv 파일을 제출했다. 아무런 값도 학습시키지 않고, 모두 0으로 분류되어 있기 때문에 정확도는 9프로 정도가 나왔다. 0으로 분류되는 비율이 9프로 정도인 걸로 파악된다.

3. EDA

  • 강의에서 데이터셋에 대해 무엇이 궁금한지, 어떤 것을 알고 싶은지 체크하라고 했다.
  • 2번에서 submission test를 하면서 18개의 클래스의 각 비율을 알고 싶었다. 그리고 각 클래스에 속하는 이미지 몇 개를 뽑아서 보고 싶다.
  • 마스크를 착용한 상태에서 성별, 나이대를 짐작하는 것이 어려울 것 같은데 얼굴의 윗부분 중 어떤 특징을 보고 모델이 성별과 나이대를 구분하는지 시각화 해보고 싶다.

4. 모델의 큰 구성

  • X : image
  • labels : mask, gender, age를 조합한 클래스 번호
  • 방법이 2개가 있을 것 같은데, 하나는 각 레이어마다 하나의 W, b 매트릭스로 결과를 예측하는 것이고, 다른 하나는 gender, race, age마다 각각의 W와 b를 주는 방식으로 각 파라미터 별로 다른 모델을 사용하는 것이다.
  • 우선 첫 번째 방법으로 시도해봐야겠다. 

🙋‍♀️피어세션

 

앞으로 어떤 방법을 적용하면 좋을지 토의하고 오늘 배웠던 EDA에 대한 수행과정을 승훈 캠퍼님께서 공유해주셨다.

https://luck-tuberose-cf9.notion.site/2021-08-23-4c1d57efb60a4e4a920b7f345ffd9704

 

피어세션(2021/08/23)

TMI

luck-tuberose-cf9.notion.site


💌 데일리 회고

 

EDA 강의를 들으니 데이터시각화가 중요한 것 같아서 시각화에 대한 이번주 강의를 코어타임 이후 모두 들었다.

오늘부터 하나씩 baseline 코드의 부분을 만들어가면서 금요일에 공개되는 코드와 비교해봐야겠다.

댓글