Excerpt from PDF:

Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning Henrik Müller L3S Research Center Hannover, Germany hmueller@l3s.de Daniel Kudenko L3S Research Center Hannover, Germany kudenko@l3s.de ABSTRACT Potential-based reward shaping is commonly used to incorporate prior knowledge of how to solve the task into reinforcement learn- ing because it can formally guarantee policy invariance. As such, the optimal policy and the ordering of policies by their returns are not altered by potential-based reward shaping. In this work, we highlight the dependence of effective potential-based reward shaping on the initial Q-values and external rewards, which deter- mine the agent’s ability to exploit the shaping rewards to guide its exploration and achieve increased sample efficiency. We formally derive how a simple linear shift of the potential function can be used to improve the effectiveness of reward shaping without chang- ing the encoded preferences in the potential function, and without having to adjust the initial Q-values, which can be challenging and undesirable in deep reinforcement learning. We show the theo- retical limitations of continuous potential functions for correctly assigning positive and negative reward shaping values. We verify our theoretical findings empirically on Gridworld domains with sparse and uninformative reward functions, as well as on the Cart Pole and Mountain Car environments, where we demonstrate the application of our results in deep reinforcement learning. KEYWORDS Reinforcement Learning, Reward Shaping, Potential-Based Reward Shaping 1 INTRODUCTION Reward shaping is a common approach to accelerate the training of reinforcement learning agents by incorporating some form of external guidance into the reward function, thereby improving the exploration of the environment. In this work, we focus on potential-based reward shaping [12]. The primary appeal of potential-based reward shaping is the guaran- tee of policy invariance. Despite changing the rewards, the optimal policy of the MDP with the shaped reward function remains iden- tical to that of the original MDP. Potential-based reward shaping utilizes a potential function to assign a heuristic value of goodness (or potential) to each state, with the reward shaping subsequently derived from the difference between the potential of the states before and after executing an action. Previous theoretical evaluations of potential-based reward shap- ing have given pointers of how to structure an effective potential function [5, 6], yet they have overlooked the intrinsic link between the reward and the initialization of the state-action values. While potential-based reward shaping has been shown to be equivalent to shifting the Q-value initialization by adding the potential func- tion [17], previous work has not addressed two key questions: first, how the Q-value initialization and external rewards affect sample efficiency in potential-based reward shaping; and second, how the potential function can be modified to improve the sample efficiency without altering the encoded preferences over states. In this paper, we propose a modification of the potential function incorporating a constant bias 𝑏. We demonstrate that a constant bias of the potential function can be used in sparse-reward settings to improve the sample efficiency by improving the attribution of positive and negative shaped …더보기

This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!

번역 (Translation):

Henrik Müller L3S 연구 센터 Hannover, Germany hmueller @l3s.de Daniel Kudenko L3S Research Center Hannover, 독일 Kudenko@l3s.de의 추상적 인 보상 형성의 잠재적 기반 보상 형성의 효과 개선은 잠재적 인 보상 형성이 일반적으로 사용되는 방법에 대한 우선적 인 지식을 통합하는 데 사용됩니다. 따라서, 최적의 정책과 수익에 의한 정책 주문은 잠재적 인 보상 형성에 의해 변경되지 않습니다. 이 작업에서, 우리는 초기 Q- 값과 외부 보상에 대한 효과적인 잠재적 인 보상의 의존성을 강조하여, 이는 에이전트가 탐색 보상을 이용하여 탐색을 안내하고 샘플 효율성을 높이는 능력을 결정합니다. 우리는 잠재적 인 기능의 간단한 선형 이동을 사용하여 잠재적 기능에서 인코딩 된 선호도를 변경하지 않고 보상 형성의 효과를 향상시키고 초기 Q- 값을 조정하지 않고도 깊은 강화 학습에서 도전적이고 바람직하지 않을 수있는 방법을 공식적으로 도출합니다. 우리는 긍정적 및 부정적인 보상 형성 값을 올바르게 할당하기 위해 연속 전위 기능의 이론적 한계를 보여줍니다. 우리는 이론적 결과가 드문 드문 및 정보가없는 보상 기능을 갖춘 그리드 월드 영역과 카트 극 및 산 차량 환경에서 깊은 강화 학습에 결과의 적용을 보여줍니다. 키워드 강화 학습, 보상 성형, 잠재적 인 보상 1 소개 보상 형성은 보상 기능에 어떤 형태의 외부 지침을 통합함으로써 강화 학습 에이전트의 훈련을 가속화하여 환경의 탐색을 개선하는 일반적인 접근법입니다. 이 작업에서 우리는 잠재적 인 보상 형성에 중점을 둡니다 [12]. 잠재적 인 보상 형성의 주요 매력은 정책 불변의 보증입니다. 보상을 바꾸지 않았음에도 불구하고, 형성 보상 기능을 갖춘 MDP의 최적 정책은 원래 MDP의 정책과 관련이 있습니다. 잠재적 기반 보상 형성은 잠재적 인 기능을 활용하여 각 주에 혜성 (또는 잠재력)의 휴리스틱 가치를 할당하며, 보상 형성은 그 후에 조치를 수행하기 전후에 국가의 잠재적 차이에서 파생된다. 잠재적 기반 보상 형성에 대한 이전의 이론적 평가는 효과적인 잠재적 기능을 구성하는 방법에 대한 포인터를 제공했지만 [5, 6], 그들은 보상과 국가 행동 가치의 초기화 사이의 본질적인 연결을 간과했다. 잠재적 인 보상 형성은 잠재적 기능을 추가하여 Q- 값 초기화를 이동시키는 것과 동등한 것으로 나타 났지만 [17] 이전 연구는 두 가지 주요 질문을 다루지 않았습니다. 첫째, Q- 값 초기화와 외부 보상이 잠재적 인 보상 형성에서 샘플 효율성에 영향을 미칩니다. 둘째, 상태에 대한 인코딩 된 선호도를 변경하지 않고 샘플 효율을 향상시키기 위해 잠재적 기능을 수정하는 방법. 이 논문에서는 일정한 바이어스를 포함하는 잠재적 기능의 수정을 제안합니다. 우리는 잠재적 인 기능의 지속적인 바이어스가 희소 보상 설정에서 사용될 수 있음을 보여줍니다. 양성 및 음성 모양의 속성을 향상시켜 샘플 효율을 향상시킵니다 …

이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!

PDF 다운로드

Leave a comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다