JM_Research Blog

[Project] Data centric-AI로 글자 인식 모델 성능 개선하기 #3-평가 & 목표설정 본문

+ 딥러닝/OCR task

[Project] Data centric-AI로 글자 인식 모델 성능 개선하기 #3-평가 & 목표설정

-jm- 2023. 9. 16. 21:10

 

 텍스트 인식(Text Recognition) 성능을 평가하기 위한 여러가지 지표들이 존재합니다. 이러한 지표들은 텍스트 인식 모델의 정확성을 평가하는데 도움이 됩니다. 텍스트 인식 성능 지표에는 WEM(Word based Exactly Matching), 1-NED 등이 존재합니다. 하지만 해당 지표들은 한국어 데이터 셋에 대해 적합하지 않습니다. 그래서 해당 프로젝트에서는 네이버에서 2019년도에 발표한 Popeval을 사용하였습니다. 

 

 

Popeval


  • 단어 단위가 아닌, 글자 단위로 ground truth와 prediction 글자를 비교하며 precision, recall을 평가하는 방법
  • 겹치는 영역의 글자 중에서, 같은 글자(=맞춘 글자)를 하나씩 지워서 성능 측정
  • Recall: 맞춘 글자수 / 정답 글자수
  • Precision: 맞춘 글자수 / 예측한 글자수
*Popeval에 대해서 더 자세히 살펴보시려면 해당 논문을 참고하시기 바랍니다.(아래 논문 참조)

 

 

목표 설정


 다음은 기존 서비스 중인 api와 open source인 easyocr의 baseline 성능이 얼마나 나오는지 앞에서 구축한 테스트 데이터로 평가하였습니다.

 

  Precision Recall F1-score
Google vision API 0.952 0.964 0.956
Naver OCR API 0.957 0.980 0.968
EasyOCR Korean v1 0.836 0.855 0.845
EasyOCR Korean v2 0.778 0.844 0.809

결과를 보면, naver ocr api가 가장 우수한 성능을 보였습니다. 따라서 해당 성능을 프로젝트 목표로 잡고, Opensource인 easyocr을 개선하여 성능을 높이기로 하였습니다. 

 

 

 

참고 문헌


  • Lee, H. S., Yoon, Y., Jang, P. H., & Choi, C. (2019, September). Popeval: A character-level approach to end-to-end evaluation compatible with word-level benchmark dataset. In 2019 International Conference on Document Analysis and Recognition (ICDAR) (pp. 1207-1213). IEEE.)