ilikeafrica.com

Innovative Summaries and Translations of Scientific Papers

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS (학습 기반 다중 에이전트 시스템의 일반적인 원칙)

|

본 게시물은 AI를 활용하여 논문 “GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS”에 대한 주요 내용을 요약하고 분석한 결과입니다. 심층적인 정보는 원문 PDF를 직접 참고해 주시기 바랍니다.


📄 원문 PDF 다운로드 / 전체 화면 보기

영문 요약 (English Summary)

In this paper, Wolpert et al. introduce a mathematical framework called COINs that addresses problems related to large decentralized chemical plants and automated control systems. The COIN approach aims to ensure that agents’ reinforcement learning algorithms do not “work at cross-purposes,” but instead function collectively towards achieving the global goal. This paper focuses on investigating COINs in two experiments: leader-follower problems and avoiding tragedies of commons (TOC) by designing local utility functions via reinforcement learning. The COIN framework is related to multi-agent systems, game theory, statistical mechanics, computational economics, parallel algorithms for solving numer optimization problems, among others.

한글 요약 (Korean Summary)

이 논문에서는 Wolpert et al. 대형 분산 화학 플랜트 및 자동 제어 시스템과 관련된 문제를 해결하는 코인이라는 수학적 프레임 워크를 소개합니다. 코인 접근 방식은 에이전트의 강화 학습 알고리즘이 “교차 목적으로 작업하지 않고”대신 글로벌 목표를 달성하기 위해 집합 적으로 기능하도록하는 것을 목표로합니다. 이 백서는 두 가지 실험에서 동전 조사에 중점을 둡니다. 리더-팔로어 문제와 강화 학습을 통해 지역 유틸리티 기능을 설계함으로써 Commons의 비극 (TOC)을 피하는 데 중점을 둡니다. 코인 프레임 워크는 다중 에이전트 시스템, 게임 이론, 통계 역학, 계산 경제학, 숫자 최적화 문제를 해결하기위한 병렬 알고리즘과 관련이 있습니다.

주요 기술 용어 설명 (Key Technical Terms)

이 논문의 핵심 개념을 이해하는 데 도움이 될 수 있는 주요 기술 용어와 그 설명을 제공합니다. 각 용어 옆의 링크를 통해 관련 외부 자료를 검색해 보실 수 있습니다.

  • Reinforcement Learning (RL) [Wikipedia (Ko)] [Wikipedia (En)] [나무위키] [Google Scholar] [Nature] [ScienceDirect] [PubMed]
    설명: 에이전트가 강화 학습 과정에서 얻은 현지화 된 정보를 기반으로 유틸리티 기능을 수정하는 코인 접근법에 사용 된 기술. 이를 통해 에이전트는 전 세계 목표에 해로운 부작용을 일으키지 않고 현지 유틸리티 기능의 많은 가치를 달성 할 수 있습니다.
    (Original: A technique used in the COIN approach where agents modify their utility functions based on localized information obtained during reinforcement learning processes. This helps ensure that agents achieve large values of their local utility functions without causing detrimental side effects to the global goal.)
  • Arthur’s Bar Problem [Wikipedia (Ko)] [Wikipedia (En)] [나무위키] [Google Scholar] [Nature] [ScienceDirect] [PubMed]
    설명: 코인 프레임 워크를 조사하기 위해 설계된 예제 시나리오, 특정 행동이 특정 대리인에게 유익하지만 다른 에이전트가 복사 할 때 부정적인 결과를 초래할 수있는 리더-팔로워 실험에 중점을 둡니다. 이 문제는 우리의 접근 방식이 각 실험에서 발생하는 많은 함정을 어떻게 다루는지를 설명하는 데 도움이됩니다.
    (Original: An example scenario designed for investigating COIN frameworks, focusing on leader-follower experiments where certain actions are beneficial to a particular agent but may have negative consequences when copied by other agents. This problem helps illustrate how our approach deals with many pitfalls encountered in each experiment.)
  • Tragedy of Commons [Wikipedia (Ko)] [Wikipedia (En)] [나무위키] [Google Scholar] [Nature] [ScienceDirect] [PubMed]
    설명: 개별 행동이 글로벌 목표에 해로운 TOC 발생을 피하는 데 중점을 둔 코인 프레임 워크를 조사하기 위해 설계된 시나리오 (예 : 병목 현상에 대한 걱정이 없습니다). 이를 통해 실험 중에 강화 학습 프로세스를 통해 로컬 유틸리티 기능을 수정하여 접근 방식 이이 문제를 처리하는 방법을 설명합니다.
    (Original: A scenario designed for investigating COIN frameworks, focusing on avoiding TOC occurrences where individual actions are detrimental to the global goal (e.g., they have no concern for bottlenecks). This helps illustrate how our approach handles this issue by modifying local utility functions via reinforcement learning processes during experiments.)
원문 발췌 및 번역 보기 (Excerpt & Translation)

원문 발췌 (English Original)

GENERAL PRINCIPLES OF LEARNING-BASED MULTI-AGENT SYSTEMS David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA Ames Research Center NASA Ames Research Center Moffett Field, CA 94035 Caelum Research Caelum Research dhw@ptolemy.arc.nasa.gov Moffett Field, CA 94035 Moffett Field, CA 94035 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov September 6, 2018 1999 ABSTRACT 4. Control of a large, distributed chemical plant. We consider the problem of how to design large decentralized These kinds of problems may well be most readily ad-May multi-agent systems (MAS’s) in an automated fashion, with dressed by using a large Multi-Agent System (MAS) [19], little or no hand-tuning. Our approach has each agent run where each agent is restricted to communicate with only a a reinforcement learning algorithm. This converts the prob- few neighbors, and where each agent runs a Reinforcement10 lem into one of how to automatically set/update the reward Learning (RL) algorithm. In such systems, a crucial problem functions for each of the agents so that the global goal is is ensuring that the agents’ RL algorithms do not “work at achieved. In particular we do not want the agents to “work cross-purposes”, so that their collective behavior maximizes at cross-purposes” as far as the global goal is concerned. We a provided global utility function. The difficulty in achiev- use the term artificial COllective INtelligence (COIN) to re- ing this is that these systems have no centralized control, so fer to systems that embody solutions to this problem. In this the dynamics is governed by the collective effects of the indi- paper we present a summary of a mathematical framework vidual agents each modifying their behavior via their (local) RL algorithms.[cs.MA] for COINs. We then investigate the real-world applicability of the core concepts of that framework via two computer ex- We are interested in such systems where…

발췌문 번역 (Korean Translation)

학습 기반 다중 에이전트 시스템의 일반 원칙 David H. Wolpert Kevin R. Wheeler Kagan Tumer NASA Ames Research Center NASA AMES 연구 센터 NASA AMES RESTEAR CENTRE MO U ETT FIEL, CA 94035 CAELUM RESTEAR CAELUM RESTEAR DHW@ptolemy.ARC.NASA.GOV MO ff ETT FIEL, CA 94035 MO ett Field, CA 9435 kwheeler@mail.arc.nasa.gov kagan@ptolemy.arc.nasa.gov 2018 년 9 월 6 일 1999 년 초록 4. 대형 분산 화학 공장의 제어. 우리는 이러한 종류의 문제가 큰 다중 에이전트 시스템 (MAS)을 사용하여 옷을 입어 드레스를 입어 자동화 된 방식으로 이러한 종류의 문제가 대규모로 분산 된 대형 분산화 된 방법에 대한 문제를 고려합니다 [19], 손을조차하지 않아도됩니다. 우리의 접근 방식은 각 에이전트가 강화 학습 알고리즘과 만 통신하도록 제한되는 각 에이전트가 실행됩니다. 이것은 소수의 이웃을 변환하고 각 에이전트가 RL (Resward Learning) 알고리즘을 자동으로 설정/업데이트하는 방법 중 하나로 강화 10 LEM을 실행합니다. 이러한 시스템에서 각 에이전트에 대한 중요한 문제 기능은 에이전트의 RL 알고리즘이 “달성되지 않는다는 것입니다. 특히 우리는 에이전트가”작업 “을”작업 “하기를 원하지 않으므로 전 세계 목표에 관한 한 집단적 행동이 교차 검사에서 최대화되기를 원합니다. 우리는 제공된 글로벌 유틸리티 기능을 제공합니다. 이를 위해 인공 집단 지능 (코인)이라는 용어를 달성하는 데 있어서는이 시스템이 중앙 집중화 된 제어가 없으므로이 문제에 대한 솔루션을 구현하는 시스템에 대한 제어가 없다는 것입니다. 이 역학에서는 개별 논문의 집단적 영향에 의해 지배된다. 우리는 (로컬) RL 알고리즘을 통해 동작을 수정하는 수학적 프레임 워크 Vidual 에이전트의 요약을 제시한다. [cs.ma] 코인. 그런 다음 두 컴퓨터를 통해 해당 프레임 워크의 핵심 개념의 실제 적용 가능성을 조사합니다. 우리는 그러한 시스템에 관심이 있습니다.


출처(Source): arXiv.org (또는 해당 논문의 원 출처)

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다