이 게시물은 논문을 기반으로 AI가 생성한 요약 및 분석 결과입니다. 원문 PDF를 다운로드하거나 브라우저에서 직접 확인하세요.
Summary (English)
GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS David H.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA Ams Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moײַtt Field, CA 94035 Moײַitt Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4.
Control of a large distributed chemical plant.
We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad- MAS’s (MAS’s) in an automated fashion, with little or no hand-tuning.
Our approach has each agent run where each agent is restricted to communicate with only a few neighbors, and where each agent runs a Reinforcement Learning (RL) algorithm.
In such systems, ensuring that the agents’ RL algorithms do not “work at cross-purposes” so that their collective behavior maximizes the global goal is crucial.
We use the term COllective INtelligence (COIN) to refer to either MAS’s designed in this perspective or to naturally occurring MAS’s where no centralized communication exists, and a provided world utility function rates the possible histories of the full system.
The COIN framework is related to many other fields such as computational economics, reinforcement learning for adaptive control, statistical mechanics, game theory , particularly evolutionary game theory among others.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA Ams Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moײַtt Field, CA 94035 Moײַitt Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4.
Control of a large distributed chemical plant.
We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad- MAS’s (MAS’s) in an automated fashion, with little or no hand-tuning.
Our approach has each agent run where each agent is restricted to communicate with only a few neighbors, and where each agent runs a Reinforcement Learning (RL) algorithm.
In such systems, ensuring that the agents’ RL algorithms do not “work at cross-purposes” so that their collective behavior maximizes the global goal is crucial.
We use the term COllective INtelligence (COIN) to refer to either MAS’s designed in this perspective or to naturally occurring MAS’s where no centralized communication exists, and a provided world utility function rates the possible histories of the full system.
The COIN framework is related to many other fields such as computational economics, reinforcement learning for adaptive control, statistical mechanics, game theory , particularly evolutionary game theory among others.
요약 (Korean)
학습 기반 다중 에이전트 시스템의 일반 원칙 David H.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA AMS 연구 센터 NASA AMS Research Center Mo ff ett Field, CA 94035 Caelum Research dhw@ptolemy.arc.nasa.gov mo ײַ TT Field, CA 94035 Mo · itt Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4.
대규모 분산 화학 공장의 제어.
우리는 이러한 종류의 문제가 큰 분산화 된 대규모 디자인을 설계하는 방법에 대한 문제를 고려하여 손으로 조정하지 않고 자동화 된 방식으로 가장 쉽게 Admas (MAS) 일 수 있습니다.
우리의 접근 방식은 각 에이전트가 실행되며 각 에이전트는 소수의 이웃과의 통신으로 제한되고 각 에이전트가 RL (Rinforcement Learning) 알고리즘을 운영하는 곳.
이러한 시스템에서, 에이전트의 RL 알고리즘이 “교차 목적으로 작동”하지 않도록하여 집단적 행동이 글로벌 목표를 극대화하도록합니다.
우리는 COIN (Collective Intelligence)이라는 용어를 사용하여 MAS 가이 관점에서 설계된 MAS를 사용하거나 중앙 집중식 커뮤니케이션이 존재하지 않는 자연스럽게 발생하는 MAS를 지칭하고 제공된 세계 유틸리티 기능은 전체 시스템의 가능한 역사를 평가합니다.
코인 프레임 워크는 계산 경제학, 적응 제어를위한 강화 학습, 통계 역학, 게임 이론, 특히 진화 게임 이론과 같은 다른 많은 분야와 관련이 있습니다.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA AMS 연구 센터 NASA AMS Research Center Mo ff ett Field, CA 94035 Caelum Research dhw@ptolemy.arc.nasa.gov mo ײַ TT Field, CA 94035 Mo · itt Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4.
대규모 분산 화학 공장의 제어.
우리는 이러한 종류의 문제가 큰 분산화 된 대규모 디자인을 설계하는 방법에 대한 문제를 고려하여 손으로 조정하지 않고 자동화 된 방식으로 가장 쉽게 Admas (MAS) 일 수 있습니다.
우리의 접근 방식은 각 에이전트가 실행되며 각 에이전트는 소수의 이웃과의 통신으로 제한되고 각 에이전트가 RL (Rinforcement Learning) 알고리즘을 운영하는 곳.
이러한 시스템에서, 에이전트의 RL 알고리즘이 “교차 목적으로 작동”하지 않도록하여 집단적 행동이 글로벌 목표를 극대화하도록합니다.
우리는 COIN (Collective Intelligence)이라는 용어를 사용하여 MAS 가이 관점에서 설계된 MAS를 사용하거나 중앙 집중식 커뮤니케이션이 존재하지 않는 자연스럽게 발생하는 MAS를 지칭하고 제공된 세계 유틸리티 기능은 전체 시스템의 가능한 역사를 평가합니다.
코인 프레임 워크는 계산 경제학, 적응 제어를위한 강화 학습, 통계 역학, 게임 이론, 특히 진화 게임 이론과 같은 다른 많은 분야와 관련이 있습니다.
기술적 용어 설명 (Technical Terms)
본 논문을 이해하는 데 도움이 되는 주요 기술 용어와 일반적인 설명을 제공합니다. 각 용어 옆의 링크를 통해 외부 참고 자료를 검색해 볼 수 있습니다.
- Multi-Agent Systems (MAS’s) [Wikipedia] [NASA] [PubMed] [Nature] [arXiv]: 에이전트가 서로 상호 작용하여 공유 목표 또는 목표를 달성하는 분산 시스템 (Original English: Decentralized systems where agents interact with one another to achieve a shared goal or objective)
- Reinforcement Learning (RL) [Wikipedia] [NASA] [PubMed] [Nature] [arXiv]: 코인 프레임 워크에서 개별 에이전트가 사용하는 기술로 인해 RL 학습을 통해 로컬 유틸리티 기능을 수정하여 교차 목적에서 작업하지 않고도 많은 보상 기능을 달성 할 수 있습니다. 이것은 TOC와 같은 현상을 방지하는 데 도움이되고 글로벌 목표가 달성되도록합니다. (Original English: A technique used by individual agents in the COIN framework, allowing them to modify their local utility functions via RL learning so that they can achieve large values of their reward functions without working at cross-purposes. This helps prevent phenomena like TOC from occurring and ensures that the global goal is achieved)
- COllective INtelligence (COIN) [Wikipedia] [NASA] [PubMed] [Nature] [arXiv]: 에이전트가 특히 중앙 집중식 커뮤니케이션이나 제어가없는 시스템에서 공유 목표 또는 목표를 달성하기 위해 함께 작동하도록 설계된 수학적 프레임 워크. 코인은 에이전트 상호 작용을 수정하여 목적 간 조치를 피하고 현지화 된 정보를 기반으로 런타임에서 보상 기능을 수정하는 것과 같은 문제를 해결합니다. (Original English: A mathematical framework where agents are designed to work together towards achieving a shared objective or goal, particularly in systems with no centralized communication or control. COINs address problems such as avoiding cross-purpose actions by modifying agent interactions and reward functions at run-time based on localized information)
Excerpt (English Original)
GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS David H.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA Ames Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moffett Field, CA 94035 Moffett Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4.
Control of a large, distributed chemical plant.
We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad-May multi-agent systems (MAS’s) in an automated fashion, with dressed by using a large Multi-Agent System (MAS) [19], little or no hand-tuning.
Our approach has each agent run where each agent is restricted to communicate with only a a reinforcement learning algorithm.
This converts the prob- few neighbors, and where each agent runs a Reinforcement10 lem into one of how to automatically set/update the reward Learning (RL) algorithm.
In such systems, a crucial problem functions for each of the agents so that the global goal is is ensuring that the agents’ RL algorithms do not “work at achieved.
In particular we do not want the agents to “work cross-purposes”, so that their collective behavior maximizes at cross-purposes” as far as the global goal is concerned.
We a provided global utility function.
The difficulty in achiev- use the term artificial COllective INtelligence (COIN) to re- ing this is that these systems have no centralized control, so fer to systems that embody solutions to this problem.
In this the dynamics is governed by the collective effects of the indi- paper we present a summary of a mathematical framework vidual agents each modifying their behavior via their (local) RL algorithms.[cs.MA] for COINs.
We then investigate the real-world applicability of the core concepts of that framework via two computer ex- We are interested in such systems where…
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA Ames Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moffett Field, CA 94035 Moffett Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4.
Control of a large, distributed chemical plant.
We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad-May multi-agent systems (MAS’s) in an automated fashion, with dressed by using a large Multi-Agent System (MAS) [19], little or no hand-tuning.
Our approach has each agent run where each agent is restricted to communicate with only a a reinforcement learning algorithm.
This converts the prob- few neighbors, and where each agent runs a Reinforcement10 lem into one of how to automatically set/update the reward Learning (RL) algorithm.
In such systems, a crucial problem functions for each of the agents so that the global goal is is ensuring that the agents’ RL algorithms do not “work at achieved.
In particular we do not want the agents to “work cross-purposes”, so that their collective behavior maximizes at cross-purposes” as far as the global goal is concerned.
We a provided global utility function.
The difficulty in achiev- use the term artificial COllective INtelligence (COIN) to re- ing this is that these systems have no centralized control, so fer to systems that embody solutions to this problem.
In this the dynamics is governed by the collective effects of the indi- paper we present a summary of a mathematical framework vidual agents each modifying their behavior via their (local) RL algorithms.[cs.MA] for COINs.
We then investigate the real-world applicability of the core concepts of that framework via two computer ex- We are interested in such systems where…
발췌문 (Korean Translation – 1차 번역)
학습 기반 다중 에이전트 시스템의 일반 원칙 David H.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA AMES 연구 센터 NASA AMES RESTEAR CENTRE MO U ETT FIEL, CA 94035 CAELUM RESTEAR CAELUM RESTEAR DHW@ptolemy.ARC.NASA.GOV MO ff ETT FIEL, CA 94035 MO ett Field, CA 9435 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4.
대형 분산 화학 공장의 제어.
우리는 이러한 종류의 문제가 큰 다중 에이전트 시스템 (MAS)을 사용하여 옷을 입어 드레스를 입어 자동화 된 방식으로 이러한 종류의 문제가 대규모로 분산 된 대형 분산화 된 방법에 대한 문제를 고려합니다 [19], 손을조차하지 않아도됩니다.
우리의 접근 방식은 각 에이전트가 강화 학습 알고리즘과 만 통신하도록 제한되는 각 에이전트가 실행됩니다.
이것은 소수의 이웃을 변환하고 각 에이전트가 RL (Resward Learning) 알고리즘을 자동으로 설정/업데이트하는 방법 중 하나로 강화 10 LEM을 실행합니다.
이러한 시스템에서 각 에이전트에 대한 중요한 문제 기능은 에이전트의 RL 알고리즘이 “달성되지 않는다는 것입니다.
특히 우리는 에이전트가”작업 “을”작업 “하기를 원하지 않으므로 전 세계 목표에 관한 한 집단적 행동이 교차 검사에서 최대화되기를 원합니다.
우리는 제공된 글로벌 유틸리티 기능을 제공합니다.
이를 위해 인공 집단 지능 (코인)이라는 용어를 달성하는 데 있어서는이 시스템이 중앙 집중화 된 제어가 없으므로이 문제에 대한 솔루션을 구현하는 시스템에 대한 제어가 없다는 것입니다.
이 역학에서는 개별 논문의 집단적 영향에 의해 지배된다.
우리는 (로컬) RL 알고리즘을 통해 동작을 수정하는 수학적 프레임 워크 Vidual 에이전트의 요약을 제시한다.
[cs.ma] 코인.
그런 다음 두 컴퓨터를 통해 해당 프레임 워크의 핵심 개념의 실제 적용 가능성을 조사합니다.
우리는 그러한 시스템에 관심이 있습니다.
Wolpert Kevin R.
Wheeler Kagan Tumer NASA Ames Research Center NASA AMES 연구 센터 NASA AMES RESTEAR CENTRE MO U ETT FIEL, CA 94035 CAELUM RESTEAR CAELUM RESTEAR DHW@ptolemy.ARC.NASA.GOV MO ff ETT FIEL, CA 94035 MO ett Field, CA 9435 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4.
대형 분산 화학 공장의 제어.
우리는 이러한 종류의 문제가 큰 다중 에이전트 시스템 (MAS)을 사용하여 옷을 입어 드레스를 입어 자동화 된 방식으로 이러한 종류의 문제가 대규모로 분산 된 대형 분산화 된 방법에 대한 문제를 고려합니다 [19], 손을조차하지 않아도됩니다.
우리의 접근 방식은 각 에이전트가 강화 학습 알고리즘과 만 통신하도록 제한되는 각 에이전트가 실행됩니다.
이것은 소수의 이웃을 변환하고 각 에이전트가 RL (Resward Learning) 알고리즘을 자동으로 설정/업데이트하는 방법 중 하나로 강화 10 LEM을 실행합니다.
이러한 시스템에서 각 에이전트에 대한 중요한 문제 기능은 에이전트의 RL 알고리즘이 “달성되지 않는다는 것입니다.
특히 우리는 에이전트가”작업 “을”작업 “하기를 원하지 않으므로 전 세계 목표에 관한 한 집단적 행동이 교차 검사에서 최대화되기를 원합니다.
우리는 제공된 글로벌 유틸리티 기능을 제공합니다.
이를 위해 인공 집단 지능 (코인)이라는 용어를 달성하는 데 있어서는이 시스템이 중앙 집중화 된 제어가 없으므로이 문제에 대한 솔루션을 구현하는 시스템에 대한 제어가 없다는 것입니다.
이 역학에서는 개별 논문의 집단적 영향에 의해 지배된다.
우리는 (로컬) RL 알고리즘을 통해 동작을 수정하는 수학적 프레임 워크 Vidual 에이전트의 요약을 제시한다.
[cs.ma] 코인.
그런 다음 두 컴퓨터를 통해 해당 프레임 워크의 핵심 개념의 실제 적용 가능성을 조사합니다.
우리는 그러한 시스템에 관심이 있습니다.
출처: arXiv