최신 글 Top 6
-
네이버 부스트캠프 AI tech & 구글 머신러닝 부트캠프
2021년 하반기에 네이버 부스트캠프 AI tech(2기)와 구글 머신러닝 부트캠프(2기)를 수료하였습니다. 두 과정에 대해 비교하며 좋았던 점과 아쉬웠던 점에 대해 포스팅 해보려고 합니다. 🌈 구성 부스트캠프 강의 : 이론적인 것에 대해 배웁니다. 파이썬, 확률과 통계, visualization, NLP, CV, Product Serving까지 ML의 End to end에 대해 배우게 됩니다. 강사진 분들도 엄청 유명하신 분들이 많고 강의력도 뛰어나서 이론적인 기본기를 탄탄하게 가져가실 수 있습니다. 대회 : 저는 computer vision 과정이었는데, image classification, object detection, semantic segmentation, OCR text detection,..
2022.01.29
-
[데이터제작] Text Detection in OCR
Basics 위의 예시와 같이 글자 객체는 일반 객체와 다른 특징을 갖는다. 매우 높은 밀도, 극단적 종횡비, 특이 모양(구겨진 영역, 휘어진 영역, 세로 쓰기 영역), 모호한 객체 영역, 크기 편차 등의 특징을 볼 수 있다. 글자 객체가 갖는 특징 때문에 글자 영역을 표현하는 방법은 일반 객체를 표현하는 것과는 차이가 있다. 기본적인 표기 방법은 좌상단을 시작 좌표로 찍고 (x1, y1) 시계 방향으로 좌표를 찍는 것이다. 휘어진 글자의 경우에는 Polygon 형태로 어노테이션을 진행한다. 주의할 점은 2n개의 points를 찍는 것이다. 위의 두 점과 쌍이 되는 아래의 두 점을 잡았을 때 특정 글자 영역이 되도록 Polygon을 그린다. Taxonomy T1. Regression-based vs. S..
2021.11.09
-
[데이터제작] OCR Technology & Services - Computer Vision
OCR Technology OCR : Optical Character Recognition STR : Scene Text Recofgnition (OCR로 포함됨) 글자 영역을 찾고 영역 내 글자를 인식하는 과정을 통틀어 OCR이라고 할 수 있다 ✔ Text Detector : 이미지 입력에 글자 영역 위치가 출력인 모델 단일 클래스의 object detection 문제로 볼 수 있다. 클래스가 하나인 이유는 글자가 맞냐 아니냐만 구분하기 때문. 객체 검출과의 차이점은 영역의 종횡비와 객체의 밀도가 다르다는 점이다. ✔ Text Recognizer : 하나의 글자 영역 이미지 입력에 해당 영역 글자열이 출력인 모델 글자 인식기는 Computer Vision과 Natural Language Processi..
2021.11.09
-
[데이터제작] 데이터 제작의 중요성 - Computer Vision
한 AI의 모델의 성능은 모델의 구조, 데이터, 최적화의 조합으로 이루어진다. 지금까지는 모델의 구조와 하이퍼파라미터의 튜닝으로 AI 모델의 성능을 올렸다면, 지금부터는 데이터 조작으로 모델의 성능을 올리는 과정을 알아보자. Software 1.0 vs. Software 2.0 software1.0은 딥러닝이 아닌 사람이 고민하여 feature를 추출하고 프로그램을 설계하고 구현하는 것을 의미한다. software2.0은 AI 모델의 구조로 프로그램의 검색 범위를 한정하고, 데이터와 최적화 방법을 통해 최적의 프로그램을 찾는 것을 의미한다. software2.0의 발전으로 software1.0의 프로그램이 software2.0으로 대체되고 있는 추세다. human detection, audio codec..
2021.11.08
-
[Segmentation] FCN의 한계를 극복한 models - 성능면
📜 강의 정리 FCN의 한계점 한계점 객체의 크기가 크거나 작은 경우 예측을 잘 하지 못하는 문제 큰 object의 경우 지역정인 정보만을 활용하여 예측을 하는 경우 작은 object가 무시되는 경우 같은 object에 대해 다르게 예측하는 경우 Deconvolution의 절차가 간단하여 Object의 디테일한 모습이 사라지는 문제 Decoder를 개선한 models 1. DeconvNet architecture : Decoder와 Encoder를 대칭으로 만든 형태 ✔ Unpooling과 Transposed Convolution이 반복적으로 이루어진 형태 Unpooling : 디테일한 경계 포착, 학습이 필요없어서 속도 빠름 Transposed Convolution : 전반적인 모습 포착(Unpooli..
2021.11.08
-
[Segmentation] FCN, Semantic Segmentation의 기초와 이해 :: seoftware
1. 대표적인 딥러닝을 이용한 세그멘테이션 FCN Abstract 1. VGG 네트워크 백본을 사용 (Backbone : feature extracting network) 2. VGG 네트워크의 FC Layer (nn.Linear을 nn.Conv2d로 대체) 3. Transposed Convolution 을 이용해서 Pixel Wise prediction 을 수행 ✔ VGG를 백본으로 사용 AlexNet, ResNet 등의 다른 모델모다 VGG의 가장 좋았음 pretrained weight를 사용할 수 있음 Fully Connected Layer vs. Convolution Layer FCN의 두번째 특징인 FC layer를 Convolution Layer로 바꿈으로써 위치정보를 해치지 않은채로 특징 추..
2021.10.20