ilikeafrica.com

Innovative Summaries and Translations of Scientific Papers

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT

|

This post provides an AI-generated summary and analysis of the scientific paper titled “GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT“. You can access the original PDF document directly using the links provided.

➡️ Download Original PDF Document


Summary (English)

In this paper, we explore the COllective INtelligence (COIN) framework for designing large decentralized systems with no centralized control. The COIN approach focuses on ensuring that agents’ reinforcement learning algorithms do not work at cross-purposes but instead maximize collective behavior towards achieving global objectives. We investigate two computer experiments: leader-follower problems and avoiding tragedy of the commons, demonstrating near optimal performance in both cases.


요약 (Korean Summary)

이 논문에서는 중앙 집중식 제어없이 대형 분산 시스템을 설계하기위한 COIN (Collective Intelligence) 프레임 워크를 탐구합니다. 코인 접근법은 에이전트의 강화 학습 알고리즘이 교차 목록에서 작동하지 않고 대신 글로벌 목표 달성을 향한 집단적 행동을 극대화하는 데 중점을 둡니다. 우리는 두 가지 컴퓨터 실험, 즉 리더-팔로워 문제와 공통의 비극을 피하며 두 경우 모두 최적의 성능을 보여줍니다.


Key Technical Terms (Explained in Korean with English Original)

  • COIN Framework [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 중앙 집중식 제어가없는 문제에 대한 해결책을 구현하는 집단 지능 시스템을 위해 설계된 수학적 프레임 워크. 이러한 시스템은 강화 학습 알고리즘을 통해 행동을 수정하는 개별 에이전트의 집단적 영향에 의해 지배되어 글로벌 목표 달성을 보장합니다. (Original English: A mathematical framework designed for COllective INtelligence systems that embody solutions to problems with no centralized control. These systems are governed by collective effects of individual agents modifying their behavior via reinforcement learning algorithms, ensuring the achievement of global objectives.)
  • Leader-Follower Problem [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 일련의 실험이 리더-팔로우 문제를 위해 설계된 실험 설정으로,이 맥락에서 동전에 대한 최적의 성능을 보여줍니다. 리더-팔로워 문제는 글로벌 목표 달성을 용이하게하기 위해 에이전트 보상 기능과 전반적인 시스템 구조를 변경하는 것을 포함합니다. (Original English: An experimental setup where a set of experiments is designed for leader-follower problems, illustrating optimal performance for COINs in this context. The leader-follower problem involves altering agent reward functions and overall system structure so as to facilitate the achievement of global objectives.)
  • Tragedy of Commons [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 개별 에이전트가 집단적 행동을 달성함으로써 교차 조사에서 자신의 이익을 우선시하여 전 세계적으로 유용성을 낮추면 자신의 이익을 우선시 할 때 발생하는 현상. 코인 시스템은 에이전트 상호 작용 및 심리학 시스템의 로컬 유틸리티 기능에 대한 추가 제한을 통해이 문제를 피하도록 설계되었습니다. (Original English: A phenomenon occurring when individual agents prioritize their own interests at cross-purposes with achieving collective behavior, leading to lower global utility. COIN systems are designed to avoid this issue by means of further restrictions on agent interactions and psychology systems’ local utility functions.)

Excerpt from the Paper (English Original)

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA Ames Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moffett Field, CA 94035 Moffett Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4. Control of a large, distributed chemical plant. We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad-May multi-agent systems (MAS’s) in an automated fashion, with dressed by using a large Multi-Agent System (MAS) [19], little or no hand-tuning. Our approach has each agent run where each agent is restricted to communicate with only a a reinforcement learning algorithm. This converts the prob- few neighbors, and where each agent runs a Reinforcement10 lem into one of how to automatically set/update the reward Learning (RL) algorithm. In such systems, a crucial problem functions for each of the agents so that the global goal is is ensuring that the agents’ RL algorithms do not “work at achieved. In particular we do not want the agents to “work cross-purposes”, so that their collective behavior maximizes at cross-purposes” as far as the global goal is concerned. We a provided global utility function. The difficulty in achiev- use the term artificial COllective INtelligence (COIN) to re- ing this is that these systems have no centralized control, so fer to systems that embody solutions to this problem. In this the dynamics is governed by the collective effects of the indi- paper we present a summary of a mathematical framework vidual agents each modifying their behavior via their (local) RL algorithms.[cs.MA] for COINs. We then investigate the real-world applicability of the core concepts of that framework via two computer ex- We are interested in such systems where…

논문 발췌 (Korean Translation)

학습 기반 다중 에이전트 시스템의 일반 원칙 David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA AMES 연구 센터 NASA AMES RESTEAR CENTRE MO U ETT FIEL, CA 94035 CAELUM RESTEAR CAELUM RESTEAR DHW@ptolemy.ARC.NASA.GOV MO ff ETT FIEL, CA 94035 MO ett Field, CA 9435 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4. 대형 분산 화학 공장의 제어. 우리는 이러한 종류의 문제가 큰 다중 에이전트 시스템 (MAS)을 사용하여 옷을 입어 드레스를 입어 자동화 된 방식으로 이러한 종류의 문제가 대규모로 분산 된 대형 분산화 된 방법에 대한 문제를 고려합니다 [19], 손을조차하지 않아도됩니다. 우리의 접근 방식은 각 에이전트가 강화 학습 알고리즘과 만 통신하도록 제한되는 각 에이전트가 실행됩니다. 이것은 소수의 이웃을 변환하고 각 에이전트가 RL (Resward Learning) 알고리즘을 자동으로 설정/업데이트하는 방법 중 하나로 강화 10 LEM을 실행합니다. 이러한 시스템에서 각 에이전트에 대한 중요한 문제 기능은 에이전트의 RL 알고리즘이 “달성되지 않는다는 것입니다. 특히 우리는 에이전트가”작업 “을”작업 “하기를 원하지 않으므로 전 세계 목표에 관한 한 집단적 행동이 교차 검사에서 최대화되기를 원합니다. 우리는 제공된 글로벌 유틸리티 기능을 제공합니다. 이를 위해 인공 집단 지능 (코인)이라는 용어를 달성하는 데 있어서는이 시스템이 중앙 집중화 된 제어가 없으므로이 문제에 대한 솔루션을 구현하는 시스템에 대한 제어가 없다는 것입니다. 이 역학에서는 개별 논문의 집단적 영향에 의해 지배된다. 우리는 (로컬) RL 알고리즘을 통해 동작을 수정하는 수학적 프레임 워크 Vidual 에이전트의 요약을 제시한다. [cs.ma] 코인. 그런 다음 두 컴퓨터를 통해 해당 프레임 워크의 핵심 개념의 실제 적용 가능성을 조사합니다. 우리는 그러한 시스템에 관심이 있습니다.

Source: arXiv.org (or other source if specified in the paper)

➡️ Re-Download Original PDF