Improving Language Understanding by Generative Pre-Training 리뷰

Language Models are Few-Shot Learners 리뷰 (0)	2025.05.12
Language Models are Unsupervised Multitask Learners 리뷰 (0)	2025.05.11
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 리뷰 (1)	2025.05.09
P-Tuning 1: GPT Understands, Too (1)	2025.05.07
Prefix-Tuning: Optimizing Continuous Prompts for Generation (0)	2025.05.02

링크:

Background

Tuning
- 모델을 scratch부터 labeled data로 학습시키는 것은 많은 데이터가 필요한데 데이터를 만드는데 많은 비용가 시간이 듬
- 모델이 labeled data에 과적합되거나 편향될 수 있음
Pretrained word embedding
- 사전에 학습된 단어 임베딩을 사용하는 이전 연구가 있음
- 이 연구에서는 unlabeled text에서 word-level 정보를 활용함

Leveraging unlabeled text
- unlabeled text에서 단어 수준 이상의 정보를 활용하는 것은 어려움
- 어떤 유형의 optimization objectives가 효율적인지 알기 어려움 -> 여러 연구에서 각 방법이 다른 작업에서 우수한 성능을 보임
- trained representation을 task로 옮기는 방법에 대해 합의가 안됌
- 모델을 각 task별로 사용하거나, 복잡한 학습 방법을 사용하거나, 보조 학습 목표를 추가하는 방법이 있었음
- Language processing을 위한 semi-supervised learning이 어려웠음
  -> language understanding tasks를 위한 semi-supervised 방법을 제안
Related Work
- Semi-supervised learning for NLP: word-level, phrase-level, sentence-level 등 다양한 방식으로 학습 -> 우리는 word-level
- Unsupervised pre-training: linguistic information을 학습하기 위해서 LSTM을 사용 -> 우리는 Transformer
- Auxiliary training objectives: semi-supervised learning 대신 사용 -> 우리도 auxiliary objective를 사용하지만 unsupervised pre-training에서 이미 학습됨

Figure 2-1
- of layers transferred: pretraining한 block을 finetuning한 레이어의 수
- 많은 층을 finetuning할 수록 높은 성능을 보임

Figure 2
- zero-shot (pretraining 후 finetuning하지 않음) 성능에서도 당시 성능과 비교해 SOTA 달성했음
- 이를 통해 language modeling과 attentional memory의 효과를 알 수 있음

Table 5
- ablation study 진행
- auxiliary objective는 큰 데이터셋에서만 성능 개선을 보임
- LSTM을 사용했을 때 성능이 감소함
- pretraining 없이 바로 supervised target tasks에 대해 학습했을때 크게 성능이 감소

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`