ilikeafrica.com

Innovative Summaries and Translations of Scientific Papers

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT

|

This post provides an AI-generated summary and analysis of the scientific paper titled “GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT“. You can access the original PDF document directly using the links provided.

➡️ Download Original PDF Document


Summary (English)

This paper introduces COllective INtelligence (COIN) [21, 22, 23] as a framework for designing multi-agent systems where agents’ reward functions and overall system structure are automatically set up in a machine learning-like fashion. The COIN framework is related to many other fields such as game theory, statistical mechanics, computational economics, parallel computing, etc., with the goal of achieving high global utility while avoiding phenomena like leader-follower scenarios or Tragedy of Commons practices [12]. In designing a COIN we have more freedom than anti-trust regulators though, in that there is no base-line organic local utility function over which we must superimpose set of local utility functions. We call the design of a COIN using two components of the COIN framework: COIN initialization and leader/follower experiments [24].


요약 (Korean Summary)

이 논문은 에이전트의 보상 기능과 전반적인 시스템 구조가 기계 학습과 같은 방식으로 자동으로 설정되는 다중 에이전트 시스템을 설계하기위한 프레임 워크로서 집단 지능 (COIN) [21, 22, 23]을 소개합니다. 코인 프레임 워크는 게임 이론, 통계 역학, 계산 경제학, 병렬 컴퓨팅 등과 같은 다른 많은 분야와 관련이 있으며, 리더-홀로 시나리오 나 Commons 관행의 비극과 같은 현상을 피하면서 높은 글로벌 유틸리티를 달성하려는 목표를 달성합니다 [12]. 동전을 설계 할 때 우리는 항해 방지 조절기보다 더 많은 자유가 있습니다. 그러나 현지 유틸리티 기능 세트를 중첩 해야하는베이스 라인 유기 로컬 유틸리티 기능이 없기 때문입니다. 코인 프레임 워크의 두 가지 구성 요소 인 코인 초기화와 리더/추종자 실험 [24]을 사용하여 동전의 설계를 호출합니다.


Key Technical Terms (Explained in Korean with English Original)

  • COllective INtelligence (COIN) [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 분산 된 통신 또는 제어로 설계된 시스템 및 전체 시스템의 가능한 이력을 평가하여 에이전트의 집단 행동이 전반적인 성능을 극대화 할 수있는 제공된 세계 유틸리티 기능. (Original English: Systems designed with decentralized communication or control and a provided world utility function that rates possible histories of the full system, ensuring agents’ collective behavior maximizes overall performance.)
  • Reinforcement learning [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 에이전트가 역동적 인 환경에서 시행 착오 상호 작용을 통해 최적의 행동 전략을 배우는 기계 학습 유형. (Original English: A type of machine learning where agents learn optimal behavioral strategies through trial-and-error interactions in a dynamic environment.)
  • World utility function [Wikipedia] [Britannica] [NASA] [PubMed] [Nature] [arXiv]: 전체 시스템의 가능한 역사를 평가하는 데 사용되는 집계 품질 측정. (Original English: An aggregate quality measure used to rate possible histories of the full system.)

Excerpt from the Paper (English Original)

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA Ames Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moffett Field, CA 94035 Moffett Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4. Control of a large, distributed chemical plant. We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad-May multi-agent systems (MAS’s) in an automated fashion, with dressed by using a large Multi-Agent System (MAS) [19], little or no hand-tuning. Our approach has each agent run where each agent is restricted to communicate with only a a reinforcement learning algorithm. This converts the prob- few neighbors, and where each agent runs a Reinforcement10 lem into one of how to automatically set/update the reward Learning (RL) algorithm. In such systems, a crucial problem functions for each of the agents so that the global goal is is ensuring that the agents’ RL algorithms do not “work at achieved. In particular we do not want the agents to “work cross-purposes”, so that their collective behavior maximizes at cross-purposes” as far as the global goal is concerned. We a provided global utility function. The difficulty in achiev- use the term artificial COllective INtelligence (COIN) to re- ing this is that these systems have no centralized control, so fer to systems that embody solutions to this problem. In this the dynamics is governed by the collective effects of the indi- paper we present a summary of a mathematical framework vidual agents each modifying their behavior via their (local) RL algorithms.[cs.MA] for COINs. We then investigate the real-world applicability of the core concepts of that framework via two computer ex- We are interested in such systems where…

논문 발췌 (Korean Translation)

학습 기반 다중 에이전트 시스템의 일반 원칙 David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA AMES 연구 센터 NASA AMES RESTEAR CENTRE MO U ETT FIEL, CA 94035 CAELUM RESTEAR CAELUM RESTEAR DHW@ptolemy.ARC.NASA.GOV MO ff ETT FIEL, CA 94035 MO ett Field, CA 9435 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4. 대형 분산 화학 공장의 제어. 우리는 이러한 종류의 문제가 큰 다중 에이전트 시스템 (MAS)을 사용하여 옷을 입어 드레스를 입어 자동화 된 방식으로 이러한 종류의 문제가 대규모로 분산 된 대형 분산화 된 방법에 대한 문제를 고려합니다 [19], 손을조차하지 않아도됩니다. 우리의 접근 방식은 각 에이전트가 강화 학습 알고리즘과 만 통신하도록 제한되는 각 에이전트가 실행됩니다. 이것은 소수의 이웃을 변환하고 각 에이전트가 RL (Resward Learning) 알고리즘을 자동으로 설정/업데이트하는 방법 중 하나로 강화 10 LEM을 실행합니다. 이러한 시스템에서 각 에이전트에 대한 중요한 문제 기능은 에이전트의 RL 알고리즘이 “달성되지 않는다는 것입니다. 특히 우리는 에이전트가”작업 “을”작업 “하기를 원하지 않으므로 전 세계 목표에 관한 한 집단적 행동이 교차 검사에서 최대화되기를 원합니다. 우리는 제공된 글로벌 유틸리티 기능을 제공합니다. 이를 위해 인공 집단 지능 (코인)이라는 용어를 달성하는 데 있어서는이 시스템이 중앙 집중화 된 제어가 없으므로이 문제에 대한 솔루션을 구현하는 시스템에 대한 제어가 없다는 것입니다. 이 역학에서는 개별 논문의 집단적 영향에 의해 지배된다. 우리는 (로컬) RL 알고리즘을 통해 동작을 수정하는 수학적 프레임 워크 Vidual 에이전트의 요약을 제시한다. [cs.ma] 코인. 그런 다음 두 컴퓨터를 통해 해당 프레임 워크의 핵심 개념의 실제 적용 가능성을 조사합니다. 우리는 그러한 시스템에 관심이 있습니다.

Source: arXiv.org (or other source if specified in the paper)

➡️ Re-Download Original PDF