- 링크:
https://openreview.net/pdf?id=B1ckMDqlg
Background
- Conditional computation
- 모델 사이즈를 키우면 성능이 증가하나 컴퓨팅 자원 문제로 한계가 있음
- Conditional copmtation: 모델의 모든 부분을 항상 활성화하지 않고, 입력된 데이터에 따라 필요한 부분만 선택적으로 활성화하여 계산 효율성을 높이는 방법
Methods
- Sparsely-Gated Mixture-of-Experts Layer (MoE)
- 입력에 따라 Noisy Top-K Gating 방식으로 상위 K개의 일부 전문가를 선택하여 작동하게 함
- n개 experts와 feed-forward neural network로 이루어져 있음

- 수식
- Ei(x): i번째 expert의 출력
- G(x)i: i번째 gate의 출력

- Performance Challenges
- Shrinking batch problem: Expert가 처리하는 배치 크기가 작아져 비효율성 발생 -> data parallelism와 model parallelism를 혼합하여 문제 해결
- Network bandwidth: 병목 현상을 해결하려함
- Expert utilization balancing: gating network가 특정 전문가에만 집중하는 경향을 해결하기 위해 추가적인 손실항 도
Experiment & Analysis
- Figure 3
- 기존 모델보다 낮은 복잡도를 보이며 큰 성능 향상을 보임

- Table 2, 3, 4
- 강화학습을 사용하지 않도록 BLEU 점수를 기준으로 기존 모델보다 높은 성능 달성

Result
- 새로운 방법론 MoE를 제안
Limitation
- Expert N을 사람이 조정해야함
- 가장 큰 모델의 경우 너무 높은 희소성으로 오히려 성능 저하
- 방대한 양의 학습 데이터 필요
나중에 다시 읽어야할 것 같다 이해가 잘 안됨