링크:https://arxiv.org/abs/1707.06347 Proximal Policy Optimization AlgorithmsWe propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standararxiv.org Background몰랐던 용어 surrogate objective: 특정 constraint 안에서 최..
링크:https://arxiv.org/abs/1706.03741BackgroundRL많은 RL task를 해결하기 위해서는 well-specified reward function이 필요한데, 이를 찾는 것은 complex, poorly-defined, or hard함시스템에 맞는 간단한 reward function을 설계할 수 있으나 이는 사용자의 의도를 완전히 충족시키지 모함이전 연구는 전문가의 피드백이 필요하거나, 비교보다는 순위를 매김Inverse Reinforcement learning, Imitation Learning과 같은 연구가 있으나 인간이 입증하기 어려운 행동에는 직접적으로 적용할 수 없음-> human feedback을 반영하여 reward function을 학습시키자 MethodsH..
링크: https://arxiv.org/pdf/1312.5602 간단 요약 및 목차Background강화학습과 딥러닝이 달라 접목시키가 어려움ArchitectureCNN 기반의 네트워크MethodsExperience Replay손실함수Contribution최초로 강화학습에 딥러닝을 사용Result and Conclusion7개중 6개의 게임에서 기존 방법 (Sarsa) 능가 강화학습의 기초V (상태 가치 함수), Q (행동 가치 함수), Agent (모델), action (모델이 하는 행동), r (action을 통해 받을거라고 기대되는 리워드), R (모든 action 뒤에 최종적으로 받을거라도 기대되는 리워드의 합), G (모든 action 뒤에 최종적으로 받을 실제 리워드), state (실제 환경..