논문 리뷰/자연어처리

Improving Language Understanding by Generative Pre-Training 리뷰

2025. 5. 11. 15:26
목차
  1. Background
  2. Methods
  3. Experiment & Analysis
  4. Result
  5. Limitation
      링크:

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Background

  • Tuning
    • 모델을 scratch부터 labeled data로 학습시키는 것은 많은 데이터가 필요한데 데이터를 만드는데 많은 비용가 시간이 듬
    • 모델이 labeled data에 과적합되거나 편향될 수 있음
  • Pretrained word embedding
    • 사전에 학습된 단어 임베딩을 사용하는 이전 연구가 있음
    • 이 연구에서는 unlabeled text에서 word-level 정보를 활용함
  • Leveraging unlabeled text
    • unlabeled text에서 단어 수준 이상의 정보를 활용하는 것은 어려움 
    •  어떤 유형의 optimization objectives가 효율적인지 알기 어려움 -> 여러 연구에서 각 방법이 다른 작업에서 우수한 성능을 보임
    • trained representation을 task로 옮기는 방법에 대해 합의가 안됌
    • 모델을 각 task별로 사용하거나, 복잡한 학습 방법을 사용하거나, 보조 학습 목표를 추가하는 방법이 있었음
    • Language processing을 위한 semi-supervised learning이 어려웠음
      -> language understanding tasks를 위한 semi-supervised 방법을 제안
  • Related Work
    • Semi-supervised learning for NLP: word-level, phrase-level, sentence-level 등 다양한 방식으로 학습 -> 우리는 word-level
    • Unsupervised pre-training: linguistic information을 학습하기 위해서 LSTM을 사용 -> 우리는 Transformer
    • Auxiliary training objectives: semi-supervised learning 대신 사용 -> 우리도 auxiliary objective를 사용하지만 unsupervised pre-training에서 이미 학습됨

 

Methods

  • Framework
    • Generative pre-training과 discriminative fine-tuning 두 단계로 진행
    • Transformer 모델의 decoder block만 사용
    • pretraining된 모델에 task에 맞는 레이어 (Text Prediction, Task Classifier) 를 추가
    • 모든 task에서 start token <s>와 end token <e>를 사용함
    • 하이퍼파라미터: 768 dimensional states, 12 attention heads, 3072 dimensional position-wise feed-forward networks, BPE vocab

  • Unsupervised pre-training
    • unlabeled data의 다음 단어를 예측하는 방식으로 사전 학습
    • downstream task 와 다른 domain의 데이터로도 pretraining할 수 있음
    • 수식 (1): 모델 파라미터가 Θ일때, 앞의 k개의 토큰을 바탕으로 현재 토큰 ui의 확률을 예측해 최대가 되도록 함
    • 수식 (2)-1: 입력 토큰 시퀀스 U와 word embedding We를 곱하고, position embedding Wp를 더해 초기값 설정
    • 수식 (2)-2: transformer block에 넣어 나온 값을 다음 hidden state에 저장
    • 수식 (2)-3: 최종 hidden state에 word embedding WeT를 곱하고 Softmax를 취해 모든 단어에 대한 확률 분포 출력

  • Supervised fine-tuning
    • Task에 따라 다른 adaptation layer를 추가
    • Labeled data로 adaptation 부분을 Finetuning
    • 수식 (3): transformer decoder block의 마지막 토큰의 hidden state에 softmax를 씌워 클래스 별 확률을 계산해 라벨 y를 예측
    • 수식 (4): 전체 데이터셋 C에 대해 로그 확률을 최대화
    • 수식 (5): L1은 pretraining loss (language modeling), L2 finetuning loss (cross-entropy)의 가중치를 조절

 

Experiment & Analysis

  • NLU task 4가지에 대해 평가: NLI, QA, semantic similarity, text classification

  • 다양한 task에서 SOTA 달성

  • Figure 2-1
    • of layers transferred: pretraining한 block을 finetuning한 레이어의 수
    • 많은 층을 finetuning할 수록 높은 성능을 보임

  • Figure 2
    • zero-shot (pretraining 후 finetuning하지 않음) 성능에서도 당시 성능과 비교해 SOTA 달성했음
    • 이를 통해 language modeling과 attentional memory의 효과를 알 수 있음

  • Table 5
    • ablation study 진행
    • auxiliary objective는 큰 데이터셋에서만 성능 개선을 보임
    • LSTM을 사용했을 때 성능이 감소함
    • pretraining 없이 바로 supervised target tasks에 대해 학습했을때 크게 성능이 감소



Result

  • 9/12 task에서 SOTA
  • Transformer architecture를 기반으로 pretraining의 중요성을 증명

 

Limitation

  • Task 별 Fine-tuning 필요
  • Decoder-only 구조라 bidirectional context 학습 불가
  • Pretraining 시간과 비용이 많이 듬

 

  • Background
  • Methods
  • Experiment & Analysis
  • Result
  • Limitation
'논문 리뷰/자연어처리' 카테고리의 다른 글
  • Language Models are Few-Shot Learners 리뷰
  • Language Models are Unsupervised Multitask Learners 리뷰
  • P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 리뷰
  • P-Tuning 1: GPT Understands, Too
kyj0015
kyj0015
kyj0015
기록용 블로그
kyj0015
전체
오늘
어제
  • 분류 전체보기 (89)
    • BOJ (42)
    • Project (4)
    • 혼공단 (14)
    • 자기계발 (5)
      • 독서 (5)
      • 영상 (0)
      • 스크랩 (0)
    • 메모 (0)
    • IT (2)
    • 논문 리뷰 (1)
      • 자연어처리 (20)
      • 강화학습 (1)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • 논문 기록

인기 글

태그

  • Mahotas
  • Baekjoon
  • Algorithm
  • 혼공컴운
  • 혼공학습단
  • 머신러닝
  • 메타버스
  • 독서
  • nlp
  • 회귀
  • 자연어처리
  • 딥러닝
  • PYTHON
  • 혼공단
  • 알고리즘
  • BOJ
  • 독후감
  • 딥려닝
  • paper
  • python 파이썬
  • 혼공
  • 자료구조
  • 파이썬
  • 백준
  • 혼공머신
  • RL
  • 학부연구생
  • python baekjoon
  • 논문리뷰
  • 데니스홍_활

최근 댓글

최근 글

hELLO · Designed By 정상우.
kyj0015
Improving Language Understanding by Generative Pre-Training 리뷰
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.