본문 바로가기
TIL/Boostcamp AI tech

[데이터제작] Text Detection in OCR

by seowit 2021. 11. 9.

Basics

위의 예시와 같이 글자 객체는 일반 객체와 다른 특징을 갖는다. 매우 높은 밀도, 극단적 종횡비, 특이 모양(구겨진 영역, 휘어진 영역, 세로 쓰기 영역), 모호한 객체 영역, 크기 편차 등의 특징을 볼 수 있다.

글자 객체가 갖는 특징 때문에 글자 영역을 표현하는 방법은 일반 객체를 표현하는 것과는 차이가 있다. 

기본적인 표기 방법은 좌상단을 시작 좌표로 찍고 (x1, y1) 시계 방향으로 좌표를 찍는 것이다.

휘어진 글자의 경우에는 Polygon 형태로 어노테이션을 진행한다. 주의할 점은 2n개의 points를 찍는 것이다. 위의 두 점과 쌍이 되는 아래의 두 점을 잡았을 때 특정 글자 영역이 되도록 Polygon을 그린다.

Taxonomy

T1. Regression-based vs. Segmentation-based

Regression-based의 경우 이미지를 입력으로 받아서 anchor box를 이용하여 글자의 위치 영역을 바로 출력한다.

(-) Regression-based 방식은 아래와 같이 bounding box의 표현 한계로 인해 불필요한 영역을 포함해야하거나, 앵커박스의 크기 문제로(=Receptive field 한계) bounding box의 정확도가 하락하는 문제가 있다.

 

Segmentation-based의 경우 이미지에서 바로 출력을 하는 것이 아니라 중간에 후처리 과정이 포함된다. 이미지를 입력 받아 글자 영역 표현값들에 사용되는 화소 단위 정보를 뽑고, 후처리를 통해서 최종 글자 영역 표현 값들을 확보한다.

(-) 시간이 오래 걸리는 post-processing이 필요할 수 있고, 서로 간섭이 있거나 인접한 개체 간의 구분이 어렵다는 단점이 있다.

 

Hybrid

 

 

T2. Character-based vs. Word-based

✔ Character-based Methods

character 단위로 검출하고 이를 조합하여 word instance 예측. Character level의 GT 필요

✔ Word-based Methods

대부분의 모델이 여기 속하며 word 단위로 예측

 

EAST : An Efficient and Accurate Scene Text Detector. CVPR, 2017.

이건 더 공부..

댓글