본문 바로가기

boostcamp29

[데이터제작] Text Detection in OCR Basics 위의 예시와 같이 글자 객체는 일반 객체와 다른 특징을 갖는다. 매우 높은 밀도, 극단적 종횡비, 특이 모양(구겨진 영역, 휘어진 영역, 세로 쓰기 영역), 모호한 객체 영역, 크기 편차 등의 특징을 볼 수 있다. 글자 객체가 갖는 특징 때문에 글자 영역을 표현하는 방법은 일반 객체를 표현하는 것과는 차이가 있다. 기본적인 표기 방법은 좌상단을 시작 좌표로 찍고 (x1, y1) 시계 방향으로 좌표를 찍는 것이다. 휘어진 글자의 경우에는 Polygon 형태로 어노테이션을 진행한다. 주의할 점은 2n개의 points를 찍는 것이다. 위의 두 점과 쌍이 되는 아래의 두 점을 잡았을 때 특정 글자 영역이 되도록 Polygon을 그린다. Taxonomy T1. Regression-based vs. S.. 2021. 11. 9.
[데이터제작] OCR Technology & Services - Computer Vision OCR Technology OCR : Optical Character Recognition STR : Scene Text Recofgnition (OCR로 포함됨) 글자 영역을 찾고 영역 내 글자를 인식하는 과정을 통틀어 OCR이라고 할 수 있다 ✔ Text Detector : 이미지 입력에 글자 영역 위치가 출력인 모델 단일 클래스의 object detection 문제로 볼 수 있다. 클래스가 하나인 이유는 글자가 맞냐 아니냐만 구분하기 때문. 객체 검출과의 차이점은 영역의 종횡비와 객체의 밀도가 다르다는 점이다. ✔ Text Recognizer : 하나의 글자 영역 이미지 입력에 해당 영역 글자열이 출력인 모델 글자 인식기는 Computer Vision과 Natural Language Processi.. 2021. 11. 9.
[데이터제작] 데이터 제작의 중요성 - Computer Vision 한 AI의 모델의 성능은 모델의 구조, 데이터, 최적화의 조합으로 이루어진다. 지금까지는 모델의 구조와 하이퍼파라미터의 튜닝으로 AI 모델의 성능을 올렸다면, 지금부터는 데이터 조작으로 모델의 성능을 올리는 과정을 알아보자. Software 1.0 vs. Software 2.0 software1.0은 딥러닝이 아닌 사람이 고민하여 feature를 추출하고 프로그램을 설계하고 구현하는 것을 의미한다. software2.0은 AI 모델의 구조로 프로그램의 검색 범위를 한정하고, 데이터와 최적화 방법을 통해 최적의 프로그램을 찾는 것을 의미한다. software2.0의 발전으로 software1.0의 프로그램이 software2.0으로 대체되고 있는 추세다. human detection, audio codec.. 2021. 11. 8.
[Segmentation] FCN, Semantic Segmentation의 기초와 이해 :: seoftware 1. 대표적인 딥러닝을 이용한 세그멘테이션 FCN Abstract 1. VGG 네트워크 백본을 사용 (Backbone : feature extracting network) 2. VGG 네트워크의 FC Layer (nn.Linear을 nn.Conv2d로 대체) 3. Transposed Convolution 을 이용해서 Pixel Wise prediction 을 수행 ✔ VGG를 백본으로 사용 AlexNet, ResNet 등의 다른 모델모다 VGG의 가장 좋았음 pretrained weight를 사용할 수 있음 Fully Connected Layer vs. Convolution Layer FCN의 두번째 특징인 FC layer를 Convolution Layer로 바꿈으로써 위치정보를 해치지 않은채로 특징 추.. 2021. 10. 20.
[Boostcamp]Week9-Day39. Object Detection Library :: seoftware 📜 강의 정리 MMDetection 실습 ✔ 전체구성 Model Config : model architecture 작성 Dataset Config : augmentation, dataset format, 종류 등 Scheduler Config : optim, lr, scheduler 등의 정보 Runtime Config : log, ckpt 정보 ✔ Model Config model architecture type backbone neck bbox rpn_head(2-stage detector만 있음) roi_head(2-stage detector만 있음) train_cfg test_cfg ✔ Dataset Config ✔ 새로운 backbone 등록 방법 swin.py(새로운 백본 파일)를 mmdete.. 2021. 9. 30.
[Boostcamp Lv2][P stage] Week9-Day38. 2 stage detector :: seoftwa 📜 강의 정리 2 Stage Detector 객체가 있을 법한 위치를 특정짓고, 해당 객체가 무엇인지 분류하는 2가지 단계를 거치는 모델을 2 stage detector라고 한다. 1. R-CNN ✔ Pipeline Input Image Extract Region proposals : Selective Search 방법을 통해 약 2000개의 RoI 추출 Warping : RoI의 사이즈를 조절해 모두 동일한 사이즈로 변경 warping을 하는 이유? FC layer의 입력 사이즈가 고정되어서, 동일한 사이즈로 맞춰줘야한다. Compute CNN features : 각 region 마다 4096(64×64)-dim feature vector 추출(2000×4096) - semantic 정보 포함되어 있다.. 2021. 9. 30.
[Boostcamp Lv2][P stage] Week9-Day37. Object Detection :: seoftware 📜 강의 정리 Obeject Detection Overview 1. Task classification : 이미지를 보고 어떤 객체인지 분류하는 것 object detection : bbox로 객체의 위치를 찾고 종류를 분류하는 것 semantic segmentation : 객체의 위치와 종류를 픽셀 단위로 분류하는 것 instance segmentation : semantic segmentation에 object detection의 기능을 더해서 같은 종류의 객체라도 다른 객체로 분류하는 것 2. History 3. Evaluation 모델의 평가 지표로 성능과 속도를 사용할 수 있다. 성능의 평가 지표로는 mAP, 속도의 평가 지표로는 FPS, Flops가 있다. ✔ mAP(mean Average P.. 2021. 9. 27.
[Boostcamp Lv2] Week8-Day36. 특강 Ⅱ :: soeftware 목차 1. 강의정리 1-1. 특강 - 2.1. Full Stack ML Engineer 1-2. 특강 - 2.3. AI 시대의 커리어 빌딩 2. 피어세션 정리 3. 이번주 회고 📜 강의 정리 [특강] 2-1. Full stack ML Engineer 1. Full stack Engineer란 무엇일까? ✔ ML Engineer란? ML 기술을 이해하고, 연구하고, product를 만드는 Engineer. ML Research와 software engineer의 경계에 ML Engineer가 있다. ✔ Full stack engineer란? client와 server software를 개발할 수 있는 사람 ✔ Full stack + ML? Deep learning research를 이해하고 + ML Pro.. 2021. 9. 24.
[Boostcamp Lv2] Week8-Day35. 특강 Ⅰ :: seoftware 목차 1. 강의정리 1-1. 특강 - 서비스 향 AI 모델 개발하기(이활석) 2. 피어세션 정리 📜 강의 정리 ✨ 특강 1. 이활석 - 서비스 향 AI 모델 개발하기 회사에서 AI 모델을 개발하는 것과 공부할 때 배우는 AI와의 차이에 대해 말씀해주셨습니다. 가장 큰 차이점은 학습에 사용할 데이터셋과 테스트 방법이 준비되어 있지 않다는 점이었습니다. 아래 이미지는 AI 서비스를 만드는 과정을 도식화한 것입니다. 이 중에서 처음부터 주어지는 것은 "서비스 요구사항"밖에 없습니다. 나머지 학습데이터셋, 테스트 데이터셋 등을 채워나가는 방법에 대해 알려주셨습니다. 학습 데이터셋을 준비하기 위해서는 정답/수량/종류에 대해 알아야합니다. 다음은 학습 데이터셋을 구하는 과정을 도식화한 것입니다. 테스트를 하는 방법.. 2021. 9. 23.