| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- OCR
- 딥러닝
- layoutlm
- document understanding
- layoutxml
- VrDU
- Test set
- document image understanding
- joint training of textual and layout information
- 레이블링
- multilingual
- Text Recognition
- Pre-training
- Today
- Total
목록전체 글 (28)
JM_Research Blog
🌞Summary어떤 내용의 논문인가요? 👋간략하게 어떤 내용의 논문인지 작성해 주세요! (짧게 1-2줄 이어도 좋아요!) •CLIP은 기존의 컴퓨터 비전 모델과 언어 모델의 한계를 넘어서려는 중요한 시도 •이미지와 자연어를 결합하여 새로운 학습 방법을 제안 •대규모의 이미지와 텍스트 데이터 셋 구축 •contrastive learning 방법을 활용하여 학습 •기존 vision model의 한계 였던 zero shot 학습 방법의 가능성을 보여줌 Abstract (요약) 🕵🏻♂️ 논문의 abstract 원본을 적어주세요! State-of-the-art computer vision systems are trained to predict a fixed set of predetermined..
🌞Summary💡 주목하고 있는 문제가 무엇인지? language 모델이 다양한 task에서 수행될 수 있도록 general하게 만들기 원함 : zero-shot 기존 접근 방식은 특정 task에 대해 전문성을 가지는 모델을 만들지만, 데이터 분포의 변화나 task의 변화에 매우 취약하여 모델의 일반화 성능을 저해 현재 NLP 분야에서 가장 성능이 좋은 모델은 사전 학습(pre-training)과 미세 조정(fine-tuning)을 함께 사용하는 모델임. BERT와 GPT-1 같은 사전 학습된 언어 모델은 작업별로 특화된 구조가 필요하지 않지만, 여전히 fine-tuning 과정에서 지도 학습이 필요함 💡 해결하기 위해 어떤 방법을 사용했는지?GPT2수 백만의 webpage dataset인 webt..
🌞Summary💡 주목하고 있는 문제가 무엇인지? context fragmentation 문제 : 고정된 길이의 입력 시퀀스를 사용함으로써 발생하는 문제 텍스트 데이터를 고정된 길이의 세그먼트로 나누는 경우, 이 세그먼트는 문장이나 다른 의미적 경계를 고려하지 않고 단순히 일정한 길이만큼의 기호(단어, 토큰 등)를 포함하게 됨 고정된 길이의 세그먼트는 문장이나 문맥의 시작 부분에서 필요한 충분한 문맥 정보를 제공하지 못함모델은 첫 몇 개 단어를 예측하는 데 필요한 문맥 정보가 부족하게 되어 비효율적인 최적화와 성능 저하로 이어짐Transformer 모델은 고정된 길이의 입력 시퀀스만을 처리할 수 있어 긴 문맥을 처리하는 데 한계가 존재 💡 해결하기 위해 어떤 방법을 사용했는지? Transforme..
🌞Summary💡 주목하고 있는 문제가 무엇인지?pre-trained language representations을 downstream tasks에 효과적으로 전달하는 전략 ELMo와 GPT1은 사전 학습 단계에서 단방향 language model을 사용함. 이러한 방식은 결과적으로 제한된 표현을 도출할 수 있다는 한계가 있다고 주장 💡 해결하기 위해 어떤 방법을 사용했는지?Transformer Encoder: 양방향 token 학습을 위해 transfomer의 encoder를 사용Masked Language Model (MLM) 사전 학습 목표: 양방향 문맥에서 의미를 이해하며 효과적인 언어 표현을 학습 가능Next Sentence Prediction: 두 문장 간의 관계를 이해함으로써 텍스트 쌍..