Playing Atari with Deep Reinforcement Learning 리뷰

논문 리뷰/강화학습

kyj0015 2025. 4. 27. 14:20

간단 요약 및 목차

V (상태 가치 함수), Q (행동 가치 함수), Agent (모델), action (모델이 하는 행동), r (action을 통해 받을거라고 기대되는 리워드), R (모든 action 뒤에 최종적으로 받을거라도 기대되는 리워드의 합), G (모든 action 뒤에 최종적으로 받을 실제 리워드), state (실제 환경), observation (관찰해서 모델이 알고 있는 환경), p (보상을 얻거나 사건이 발생할 확률).
강화학습이란 상태-행동 쌍 (s, a)에 대한 최적의 행동가치 함수 Q∗(s,a)를 학습하여 미래의 보상을 최대화 하는 정책을 찾는 것
agent는 state를 관찰해서 얻은 observation에서 최대한 큰 R를 받기 위해 스스로 어떤 action을 하면 p의 확률로 r의 reward를 받을 수 있는지 학습
예를 들어 이상하게 생긴 주사위를 굴리면 정확히 몇의 확률로 6이 나오는지는 알 수 없음. 하지만 최대한 많이 6을 굴리기 위해서 스스로 주사위를 굴려보면서 이렇게 던지면 0.6의 확률로 리워드 5를 받고, 저렇게 던지면 0.4의 확률로 리워드 3을 받는다는 것을 알게됌

Experience Replay
1. 에이전트의 경험 et = (st, at, rt, st+1)을 D (버퍼)에 저장하고 미니배치를 랜덤하게 샘플링하여 업데이트 함
손실함수
1. yi=r+γa′maxQ(s′,a′;θi−1) -> 실제 값 예측
2. Li(θi)=Es,a∼ρ[(yi−Q(s,a;θi))2] -> 실제값과 예측값의 차이를 줄이는 방식으로 학습
3. 특이한 점은 예측값 네트워크를 실제값 네트워크로 갈아끼움
4. 랜덤 초기화 후 실제값 네트워크와 예측값 네트워크가 비슷해지도록 학습
5. 여태까지 학습한 예측값 네트워크를 실제값 네트워크로 바꿔끼움
6. 다시 실제값 네트워크와 예측값 네트워크가 비슷해지도록 학습