본문 바로가기

TIL51

[데이터제작] Text Detection in OCR Basics 위의 예시와 같이 글자 객체는 일반 객체와 다른 특징을 갖는다. 매우 높은 밀도, 극단적 종횡비, 특이 모양(구겨진 영역, 휘어진 영역, 세로 쓰기 영역), 모호한 객체 영역, 크기 편차 등의 특징을 볼 수 있다. 글자 객체가 갖는 특징 때문에 글자 영역을 표현하는 방법은 일반 객체를 표현하는 것과는 차이가 있다. 기본적인 표기 방법은 좌상단을 시작 좌표로 찍고 (x1, y1) 시계 방향으로 좌표를 찍는 것이다. 휘어진 글자의 경우에는 Polygon 형태로 어노테이션을 진행한다. 주의할 점은 2n개의 points를 찍는 것이다. 위의 두 점과 쌍이 되는 아래의 두 점을 잡았을 때 특정 글자 영역이 되도록 Polygon을 그린다. Taxonomy T1. Regression-based vs. S.. 2021. 11. 9.
[데이터제작] OCR Technology & Services - Computer Vision OCR Technology OCR : Optical Character Recognition STR : Scene Text Recofgnition (OCR로 포함됨) 글자 영역을 찾고 영역 내 글자를 인식하는 과정을 통틀어 OCR이라고 할 수 있다 ✔ Text Detector : 이미지 입력에 글자 영역 위치가 출력인 모델 단일 클래스의 object detection 문제로 볼 수 있다. 클래스가 하나인 이유는 글자가 맞냐 아니냐만 구분하기 때문. 객체 검출과의 차이점은 영역의 종횡비와 객체의 밀도가 다르다는 점이다. ✔ Text Recognizer : 하나의 글자 영역 이미지 입력에 해당 영역 글자열이 출력인 모델 글자 인식기는 Computer Vision과 Natural Language Processi.. 2021. 11. 9.
[데이터제작] 데이터 제작의 중요성 - Computer Vision 한 AI의 모델의 성능은 모델의 구조, 데이터, 최적화의 조합으로 이루어진다. 지금까지는 모델의 구조와 하이퍼파라미터의 튜닝으로 AI 모델의 성능을 올렸다면, 지금부터는 데이터 조작으로 모델의 성능을 올리는 과정을 알아보자. Software 1.0 vs. Software 2.0 software1.0은 딥러닝이 아닌 사람이 고민하여 feature를 추출하고 프로그램을 설계하고 구현하는 것을 의미한다. software2.0은 AI 모델의 구조로 프로그램의 검색 범위를 한정하고, 데이터와 최적화 방법을 통해 최적의 프로그램을 찾는 것을 의미한다. software2.0의 발전으로 software1.0의 프로그램이 software2.0으로 대체되고 있는 추세다. human detection, audio codec.. 2021. 11. 8.
[Segmentation] FCN의 한계를 극복한 models - 성능면 📜 강의 정리 FCN의 한계점 한계점 객체의 크기가 크거나 작은 경우 예측을 잘 하지 못하는 문제 큰 object의 경우 지역정인 정보만을 활용하여 예측을 하는 경우 작은 object가 무시되는 경우 같은 object에 대해 다르게 예측하는 경우 Deconvolution의 절차가 간단하여 Object의 디테일한 모습이 사라지는 문제 Decoder를 개선한 models 1. DeconvNet architecture : Decoder와 Encoder를 대칭으로 만든 형태 ✔ Unpooling과 Transposed Convolution이 반복적으로 이루어진 형태 Unpooling : 디테일한 경계 포착, 학습이 필요없어서 속도 빠름 Transposed Convolution : 전반적인 모습 포착(Unpooli.. 2021. 11. 8.
[Segmentation] FCN, Semantic Segmentation의 기초와 이해 :: seoftware 1. 대표적인 딥러닝을 이용한 세그멘테이션 FCN Abstract 1. VGG 네트워크 백본을 사용 (Backbone : feature extracting network) 2. VGG 네트워크의 FC Layer (nn.Linear을 nn.Conv2d로 대체) 3. Transposed Convolution 을 이용해서 Pixel Wise prediction 을 수행 ✔ VGG를 백본으로 사용 AlexNet, ResNet 등의 다른 모델모다 VGG의 가장 좋았음 pretrained weight를 사용할 수 있음 Fully Connected Layer vs. Convolution Layer FCN의 두번째 특징인 FC layer를 Convolution Layer로 바꿈으로써 위치정보를 해치지 않은채로 특징 추.. 2021. 10. 20.
[Segmentation] COCO Dataset format & EDA & Metric 📌재활용 쓰레기 관련 이미지 출처 : CC BY 2.0 Creative Commons — 저작자표시 2.0 대한민국 — CC BY 2.0 KR This content is freely available under simple legal terms because of Creative Commons, a non-profit that survives on donations. If you love this content, and love that it's free for everyone, please consider a donation to support our work. When you share, creativecommons.org 1. COCO Dataset COCO format COCO Dataset의 .. 2021. 10. 19.
[3rd P stage] Segmentation Wrap UP 10.18 1. 강의 듣기 & 정리 Introduction Competition Overview(EDA&Metric) (📝강의정리) 2. baseline 코드 돌려보기 ERROR error message : "Error loading preloads : Could not find renderer" 해결 : 관련 라이브러리 설치 apt-get update apt-get install -y libsm6 libxext6 libxrender-dev​ CUDA OOM restart를 하고 batch size를 6으로 줄임 gpu 어떻게 쓰고 있는지 보고 싶음 Unet++ baseline 코드 결과 : miou 0.219 (굉장히 낮음) 10.19 1. 강의 듣기 & 정리 Semantic Segmentation의 .. 2021. 10. 18.
[Boostcamp]Week9-Day39. Object Detection Library :: seoftware 📜 강의 정리 MMDetection 실습 ✔ 전체구성 Model Config : model architecture 작성 Dataset Config : augmentation, dataset format, 종류 등 Scheduler Config : optim, lr, scheduler 등의 정보 Runtime Config : log, ckpt 정보 ✔ Model Config model architecture type backbone neck bbox rpn_head(2-stage detector만 있음) roi_head(2-stage detector만 있음) train_cfg test_cfg ✔ Dataset Config ✔ 새로운 backbone 등록 방법 swin.py(새로운 백본 파일)를 mmdete.. 2021. 9. 30.
[Boostcamp Lv2][P stage] Week9-Day38. 2 stage detector :: seoftwa 📜 강의 정리 2 Stage Detector 객체가 있을 법한 위치를 특정짓고, 해당 객체가 무엇인지 분류하는 2가지 단계를 거치는 모델을 2 stage detector라고 한다. 1. R-CNN ✔ Pipeline Input Image Extract Region proposals : Selective Search 방법을 통해 약 2000개의 RoI 추출 Warping : RoI의 사이즈를 조절해 모두 동일한 사이즈로 변경 warping을 하는 이유? FC layer의 입력 사이즈가 고정되어서, 동일한 사이즈로 맞춰줘야한다. Compute CNN features : 각 region 마다 4096(64×64)-dim feature vector 추출(2000×4096) - semantic 정보 포함되어 있다.. 2021. 9. 30.