- 링크:
https://arxiv.org/abs/1707.06347
Proximal Policy Optimization Algorithms
We propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standar
arxiv.org
Background
- 몰랐던 용어
- surrogate objective: 특정 constraint 안에서 최대가 되는 objective function -> Lcpi: E(r_tA_t)에서 시작
- -> 현재 policy를 최대한 큰 step만큼 빠르게 향상시키면서도 발산하거나 튈 정도의 너무 큰 step의 업데이트는 억제하여 surrogate를 찾고자 함
Previous Work
- Policy Gradient Methods (PG)
- gradient ascent를 위해 Policy Gradient할 때 기울기의 추정치
- 분산을 줄이기 위해 Q-function이 아닌 GAE의 truncated 버전의 A-function을 사용함
- Trust Region Metods (TRPO)
- 과하게 업데이트 되는 것을 막기 위해 hard-constraint인 δ를 설정
- 이를 penalty 형태로 바꾸어 maximize
- object term (첫 줄)을 최대화하면서도 KL[πold||πθ]는 최소화하고자
- 상대적으로 복잡하며, architecture에 noise (dropout)나 parameter sharing이 있을 경우 compatible하지 못함
- -> 우리는 TRPO보다 간단하며, general하고, sample complexity하다
Methods
- PPO
- sampling data through interaction with the environment와 optimizing a "surrogate" objective function using stochastic gradient ascent를 번갈가며하는 policy gradient methods
- Clipping과 KL-penalty으로 구현 방법이 나뉨
- 한 번의 roll-out으로 K epoch x minibatch size로 최적화 -> PG보다 샘플 효
- TRPO와 달리 오직 first-order optimization이다 -> ?
- 최종 Loss: Clip + Value function + Entropy loss로 이루어져 있음 -> ?
- Clipping
- 확률 분포로 구하는 것이 아닌 clipping으로 값이 너무 튀는 경우를 방지
- 만약 πθ==πold인 경우, rt(θ)는 1이 됨 -> rt(θ) 좌우로 ε만큼 자르
- min 함수를 사용해 한 쪽만 자름 -> 이해 덜 됨
- KL-penalty
- KL constraint를 penalty 형태로 적용
- β 값을 동적으로 변경시킬 경우 TRPO와 유사한 효과를 내면서도 구현이 간단하고 first-order임
- if KL<1.5d_targ: β=β/2; elif KL>1.5d_targ: β=2β
Experiment & Analysis
- Setting
- Task: robotic locomotion, Atari game playing
- Figure 2, Table 1
- 기본 값으로는 clip-surrogate(ε==0.2)가 가장 general하고 재현성이 높음
- Adaptive-KL은 하이퍼파라미터 조정이 어렵지만, specific task에서는 가치 있음
- Blue: 정책 사이의 평균 KL -> 발산하므로 제약이 필요
- Orange: CPI의 대리 손실
- Green: r_t를 ε로 자른 값 -> 잘라서 평평해
- Red: PPO 최종 손실
- Figure 3
- 전반적으로 PPO-Clip의 성능이 높음
- TRPO가 더 높은 성능을 보이는 task도 있음
- Figure 4
- 2가지 sed로 실험해보았을 때 차이가 적어 안정성을 입증함
Result
- 구현이 간단하면서 general한 policy gradient ascent 방법론 제안
Limitation
- 아직 TRPO보다 낮은 성능을 띌 때가 있음
- ε와 같은 하이퍼파라미터에 여전히 민감함
'논문 리뷰 > 강화학습' 카테고리의 다른 글
Deep reinforcement learning from human preferences 논문 리뷰 (1) | 2025.07.04 |
---|---|
Playing Atari with Deep Reinforcement Learning 리뷰 (0) | 2025.04.27 |