JM_Research Blog

BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents 본문

+ 딥러닝/논문리뷰

BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents

-jm- 2024. 4. 9. 10:26

🌞Summary

이번 포스팅은 text 정보와 layout 정보를 같이 통합하여 모델링 하는 방향에 의문점을 제기하며 visual 특징에 의존하지 않고 텍스트의 상대적인 위치를 이용하여 모델링 하는 BROS(BERT Relying On Spatiality)를 소개 합니다.  

해당 논문을 통해서 document image understanding task에서 텍스트의 spatial Information을 잘 인코딩하는 것이 성능에 도움이 되는 것임을 확인하였습니다.

BROS에서는 spatial Information을 어떻게 encoding 하였는지, 그리고 objective는 무엇인지를 살펴보면 spatial Information을 모델에 어떻게 반영하였는지 알 수 있습니다.

 

 

 

ABSTRACT


기존의 많은 연구들이 text feature와 visual features(layout 정보)를 연결하려 시도했습니다. 하지만 본 논문에서는 visual features에 의존하지 않고 2D 공간에서 텍스트의 상대적 위치를 인코딩하고 area masking strategy로 레이블이 없는 문서에서 학습하는 사전 훈련된 언어 모델인 BROS(BERT Relying On Spatiality)를 제안합니다

 

✔ 제안 : BROS (BERT Relying On Spatiality)

1️⃣ encodes relative positions of texts in 2D space

2️⃣ area masking strategy

 

 

INTRODUCTION


✔  문제 

document images에서 기존의 parsing 모델들은 Serializer의 성능에 크게 의존적임

    • 문서가 복잡할 수록 Serializer의 성능은 더 중요해짐.

    •  Serializer를 rule base로 밖에 처리할 방법이 없어서 spatial 정보들을 모델에 반영하기 시작

•  bert 등장으로 기존의 rule base model보다 성능이 좋았지만

    text를 2d space → 1d space로 변환함에 있어 layout 정보를 손실

layout 정보를 손실을 보완하기 위해 추가적인 visual features가 결합된 pre-trained language model인 layoutlm 등장 하였고 이에 연관된 많은 연구들이 진행됨

    하지만, visual features는 추가적인 계산 비용과 더 효과적인 spatial information의 결합에 대한 수요가 존재함

 

제안

시각적 특징에 의존하지 않고 텍스트와 spatial information의 조합에 중점을 둠

  대부분의 선행 연구가 절대적인 2D 위치를 사용하는 반면, 텍스트 블록 간의 상대적 위치를 활용하여 효과적인 공간 인코딩 방법을 제안

  area-masked 언어 모델이라는 새로운 self-supervision method를 제안

 

 

BERT Relying on Spatiality (BROS)


 

BROS vs LayoutLM

 BROS는 LayoutLM의 main structure를 따름

 2가지 차이 존재

    1) spatial encoding metric : text block 간의 spatial relations(상대적 좌표)을 추출 ↔ layoutLM은 절대적인 좌표를 이용해 학습

    • 2) 2D pre-training objective : 2D space에서의 text block을 위해 설계

 

 

 

Encoding Spatial Information into BERT

 

LayoutLM

    • encodes 각 text blocks의 absolute x- and y-axis positions → text blocks의 minor한 위치 변경에 견고하지 않음

BROS

    text blocks 간의 relative positions을 사용하여 spatial relations을 인코딩

    이 방법은 모델이 키-값 구조가 유사한 entities를 더 잘 인식할 수 있음

 

 

formal description

 

p = (x, y) → point on 2D space

top-left, top-right, bottom-right, and bottom-left points

 

1) 먼저 이미지의 size를 이용하여 text blocks의 모든 2D 포인트를 normalizes

2) text blocks 간의 동일한 꼭지점에서 relative positions를 계산하고 사인 곡선 함수를 적용

;(세미클론) = concat

3) 두 text block간의 relative positions을 구할 수 있음

4) linear transformation을 적용하여 4개의 relative positions을 더함

5) attention 로짓에 spatial features를 반영

attention 로짓에 문맥적 정보와 spatial 정보를 함께 반영한다는 취지인듯

좌표 4개를 다 반영하여 embedding 했기 때문에 상대적 거리 뿐만 아니라 모양, 크기도 고려가 가능

 

 

 

Area-masked Language Model

BROS utilizes two pre-training objectives( TMLM + AMLM)

• TMLM = MVLM 과 동일

AMLM

    • a novel area-masked LM

    • AMLM은 무작위로 선택된 영역에 할당된 모든 텍스트 블록을 마스킹 함

    •(1) 랜덤하게 텍스트 블록을 선택하고

    •(2) 텍스트 블록의 영역을 확장하여 마스킹 할 영역을 식별합니다.

    •(3) 영역에 할당될 텍스트 블록을 결정합니다.

    •(4) 텍스트 블록의 모든 토큰을 마스킹하고 예측합니다.

    AMLM은 공간적으로 가까운 토큰을 함께 마스킹하기 때문에, 추정 대상에서 멀리 떨어진 텍스트 블록에서 더 많은 단서가 필요

     • 마스킹

        •먼저 AMLM에 대해 토큰의 15 %를 마스킹한 다음 → TMLM에 대해 토큰의 15 %를 마스킹

        •마스킹한 토큰에서 80%는 [MASK]  / 10% 랜덤 토큰 / 10% 원래 토큰

 

 

 

 

 

참고문헌


더 자세한 내용을 보고 싶으시다면 해당 자료를 살펴보시기 바랍니다

1. paper : https://arxiv.org/abs/2108.04539

 

BROS: A Pre-trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents

Key information extraction (KIE) from document images requires understanding the contextual and spatial semantics of texts in two-dimensional (2D) space. Many recent studies try to solve the task by developing pre-trained language models focusing on combin

arxiv.org