Excerpt from PDF:

arXiv:2501.15280v1 [cs.AI] 25 Jan 2025 Who’s Driving? Game Theoretic Path Risk of AGI Development Robin Young∗ robin.young@cl.cam.ac.uk Department of Computer Science and Technology University of Cambridge January 28, 2025 Abstract Who controls the development of Artificial General Intelligence (AGI) might matter less than how we handle the fight for control it- self. We formalize this ”steering wheel problem” as humanity’s great- est near-term existential risk may stem not from misaligned AGI, but from the dynamics of competing to develop it. Just as a car crash can occur from passengers fighting over the wheel before reaching any destination, catastrophic outcomes could arise from development com- petition long before AGI exists. While technical alignment research focuses on ensuring safe arrival, we show how coordination failures during development could drive us offthe clifffirst. We present a game theoretic framework modeling AGI develop- ment dynamics and prove conditions for sustainable cooperative equi- libria. Drawing from nuclear control while accounting for AGI’s unique characteristics, we propose concrete mechanisms including pre-registration, shared technical infrastructure, and automated deterrence to stabi- lize cooperation. Our key insight is that AGI creates network effects in safety: shared investments become more valuable as participation grows, enabling mechanism designs where cooperation dominates de- fection. This work bridges formal methodology and policy frameworks, providing foundations for practical governance of AGI competition risks. ∗Collaborators welcome; please email me. 1 1 Introduction The development of Artificial General Intelligence represents one of human- ity’s biggest opportunities and most consequential challenges. While techni- cal alignment – ensuring AGI systems pursue human-compatible objectives – has dominated safety discussions, we argue that a more immediate existential risk could preempt alignment concerns entirely: catastrophic competition be- tween developers on the pathway to AGI. Just as nuclear weapons research triggered arms races and near-catastrophic conflicts long before any bombs were deployed, AGI competition could precipitate disaster before any system is actually built. Nation-states and corporations racing to achieve AGI first may not only sacrifice safety precautions or deploy untested systems, they could engage in preemptive strikes or trigger military conflicts based merely on the perception of rival progress. We formalize this as the steering wheel problem: humanity risks disaster not from the destination (AGI itself), but from the struggle to control the journey. Current AGI risk paradigms focus overwhelmingly on technical alignment challenges. While critical, this neglects the structural dynamics that could render alignment irrelevant. Historical precedents from nuclear arms races to antibiotic resistance demonstrate how rational actors in competitive systems often converge on collectively suboptimal outcomes [Schelling, 1960]. Early signs of analogous dynamics appear in modern AI development: proprietary model secrecy, compute arms races, and geopolitical preemptive sanctions over semiconductor access. Without intervention, AGI development may be- come a prisoner’s dilemma where defection (reckless acceleration) dominates cooperation (measured, safe progress). While prior work has rigorously analyzed technical alignment challenges in AGI [Bostrom, 2014, Yudkowsky, 2006], three gaps persist in addressing competitive dynamics. First, Armstrong et al. [2016] formalize AGI races but stop short of proposing concrete mechanisms to stabilize cooperation. …더보기

This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!

번역 (Translation):

ARXIV : 2501.15280V1 [CS.AI] 2025 년 1 월 25 일 누가 운전하고 있습니까? AGI 개발의 게임 이론 경로 Robin Young * Robin.young@cl.cam.ac.uk 2025 년 1 월 28 일 캠브리지 컴퓨터 과학 기술학과 인공 일반 정보 (AGI)의 개발을 통제하는 초록은 우리가 자체적으로 통제하기위한 방법보다 중요 할 수 있습니다. 인류의 단기적 실존 위험이 잘못 정렬 된 AGI가 아니라 그것을 개발하기위한 경쟁의 역학에서 비롯 될 수 있으므로 우리는이“스티어링 휠 문제”를 공식화합니다. 목적지에 도달하기 전에 휠 위로 파는 승객들로부터 자동차 사고가 발생할 수있는 것처럼, AGI가 존재하기 오래 전에 치명적인 결과가 개발 계약에서 발생할 수 있습니다. 기술적 인 정렬 연구는 안전한 도착을 보장하는 데 중점을 두지 만 개발 중 조정 실패가 어떻게 우리를 최초로 이끌어 낼 수 있는지 보여줍니다. 우리는 게임 이론 프레임 워크 모델링 AGI 개발 역학을 제시하고 지속 가능한 협력 적 입상 조건을 증명합니다. AGI의 고유 한 특성을 설명하는 동안 핵 통제에서 나오는 동안, 우리는 사전 등록, 공유 기술 인프라, 협력을 꾸미기위한 자동 억제를 포함한 구체적인 메커니즘을 제안합니다. 우리의 주요 통찰력은 AGI가 안전에 네트워크 효과를 창출한다는 것입니다. 참여가 증가함에 따라 공유 투자가 더 가치있게되므로 협력이 지배적 인 메커니즘 설계를 가능하게합니다. 이 작업은 공식적인 방법론과 정책 프레임 워크를 연결하여 AGI 경쟁 위험의 실질적인 거버넌스를위한 기초를 제공합니다. * 공동 작업자를 환영합니다. 이메일을 보내주세요. 1 1 소개 인공 일반 정보의 개발은 인간의 가장 큰 기회와 가장 큰 도전 중 하나를 나타냅니다. 기술적 인 조정- AGI 시스템이 인간 호환 목표를 추구하는 보장- 안전 토론을 지배했지만,보다 즉각적인 실존 위험이 AGI로가는 경로에 대한 치명적인 경쟁은 전적으로 정렬 문제가 될 수 있다고 주장합니다. 핵무기 연구가 폭탄이 배치되기 오래 전에 무기 종족과 거의 재앙적인 충돌이 발생했을 때, AGI 경쟁은 실제로 시스템을 건설하기 전에 재난을 촉진 할 수 있습니다. 처음으로 농업을 달성하기 위해 경주하는 국가 국가와 기업은 안전 예방 조치를 희생하거나 테스트되지 않은 시스템을 배치 할 수있을뿐만 아니라 경쟁 발전의 인식에 따라 선제 적 파업에 관여하거나 군사 충돌을 유발할 수 있습니다. 우리는 이것을 스티어링 휠 문제로 공식화합니다. 인류는 목적지 (AGI 자체)가 아니라 여행을 통제하기위한 투쟁에서 재난을 위험에 빠뜨립니다. 현재 AGI 위험 패러다임은 기술적 인 조정 문제에 압도적으로 중점을 둡니다. 비판적이지만, 이것은 정렬을 무의미하게 만들 수있는 구조적 역학을 무시합니다. 핵무기 경쟁에서 항생제 내성에 이르기까지 역사적 선례는 경쟁 시스템의 합리적인 행위자들이 종종 집단적으로 차선책 결과에 어떻게 수렴 하는지를 보여줍니다 [Schelling, 1960]. 유사한 역학의 초기 징후는 현대 AI 개발에 나타납니다
: 독점 모델 비밀, 계산 무기 경주 및 반도체 접근에 대한 지정 학적 선제 제재. 개입없이, AGI 발달은 결함 (무모한 가속)이 협력 (측정, 안전한 진보)을 지배하는 죄수의 딜레마가 될 수있다. 이전 작업은 AGI [Bostrom, 2014, Yudkowsky, 2006]의 기술 정렬 문제를 엄격하게 분석했지만 경쟁 역학을 해결하는 데 세 가지 격차가 지속됩니다. 먼저, Armstrong et al. [2016]은 AGI 종족을 공식화하지만 협력을 안정화시키기 위해 구체적인 메커니즘을 제안하는 데 부족한 것을 막습니다. … 더보기

이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!

PDF 다운로드

Leave a comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다