요약본 (Summary):

This paper proposes a new reasoning framework called Thought Rollback (TR) for large language models to adaptively build and maintain effective reasoning towards problem-solving under “hallucinations”. TR allows LLMs to perform error analysis on thoughts, roll back to any previously mistaken thought for revision, and gradually explore thoughts for a correct solution. Comprehensive experiments on mathematical problems and multi-task reasoning demonstrate the state-of-the-art performance of TR in terms of problem-solving rate and interaction cost.

이 논문은 대형 언어 모델이 “환각”하에서 문제 해결에 대한 효과적인 추론을 적용하고 유지하기위한 TR (Think Rollback)라는 새로운 추론 프레임 워크를 제안합니다. TR은 LLM이 생각에 대한 오류 분석을 수행하고, 이전에 실수 한 개정에 대한 사고로 롤백하며, 올바른 솔루션에 대한 생각을 점차 탐색 할 수 있습니다. 수학적 문제와 멀티 태스킹 추론에 대한 포괄적 인 실험은 문제 해결 속도 및 상호 작용 비용 측면에서 TR의 최신 성능을 보여줍니다.

Excerpt from PDF:

Toward Adaptive Reasoning in Large Language Models with Thought Rollback Sijia Chen 1 Baochun Li 1 Abstract Large language models (LLMs) have been rou- tinely used to solve various tasks using step-by- step reasoning. However, the structure of inter- mediate reasoning steps, or thoughts, is rigid and unidirectional, such as chains, trees, or acyclic- directed graphs. Consequently, the resulting in- flexible and forward-only reasoning may not ad- dress challenging tasks and fail when the LLM frequently gives false responses, i.e., “hallucina- tions”. This paper proposes a new reasoning framework, called Thought Rollback (TR), al- lowing LLMs to adaptively build thought struc- ture while maintaining effective reasoning toward problem-solving under “hallucinations”. The core mechanism of TR is rolling back thoughts, which allows LLMs to perform error analysis on thoughts, and thus roll back to any previously mistaken thought for revision. Subsequently, by including such trial-and-error in the prompt to guide the LLM, each rollback leads to one more reliable reasoning path. Therefore, start- ing with a simple prompt without human anno- tations, LLM with TR adaptively and gradually explores thoughts for a correct solution. Com- prehensive experiments on mathematical prob- lems and multi-task reasoning demonstrate the state-of-the-art performance of TR in terms of problem-solving rate and interaction cost. For instance, the solving rate of GPT-4 with TR out- performs the current best by 9% on the MATH dataset. The source code is available under the folder examples/ThoughtRollback of https:// github.com/iQua/llmpebase. 1Department of Electrical and Computer Engineering, Univer- sity of Toronto, Toronto, Ontario, Canada. Correspondence to: Sijia Chen . Proceedings of the 41 st International Conference on Machine Learning, Vienna, Austria. PMLR 235, 2024. Copyright 2024 by the author(s). 1. Introduction Large Language Models, initially designed for text gener- ation with autoregression, are widely recognized to excel in a diverse array of natural language processing (NLP) tasks. Yet, at a particular model scale, their reasoning abili- ties, particularly in scaled-up versions like GPT-4 (OpenAI, 2023) and Llama 2 (Touvron et al., 2023), heavily depend on prompt engineering. With well-crafted prompts — even just a simple Let’s think step by step (Kojima et al., 2022) — LLMs are able to perform step-by-step reasoning and achieved noteworthy success in mathematical, symbolic, and common sense tasks. With reasoning, LLMs are ca- pable of producing coherent language sequences, called thoughts, which serve as intermediate reasoning steps to- ward solving the problem at hand. Extended from simple chain reasoning (Wei et al., 2022) with linear left-to-right thoughts, more complex reasoning became feasible in re- cent works by establishing thought structures that resembled trees (Yao et al., 2023) and graphs (Besta et al., 2023; Zhang et al., 2023; Luo et al., 2024). However, existing thought structures are unidirectional and thus allow a forward-only reasoning process, meaning that thoughts are generated sequentially from the start to the end. The efficacy of this reasoning process hinges on a redundant and, consequently, inefficient thought structure, requiring thorough explorations of each thought before progressing to the next. One major drawback of forward-only …더보기

This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!

번역 (Translation):

사고 롤백 Sijia Chen 1 Baochun Li 1 추상 대형 언어 모델 (LLMS)을 사용하여 대형 언어 모델에서 적응 추론을 향해 단계별 추론을 사용하여 다양한 작업을 해결하는 데 사용되었습니다. 그러나 중간 중간 추론 단계 또는 사고의 구조는 체인, 나무 또는 acyclic-diversited 그래프와 같이 엄격하고 단방향입니다. 결과적으로, 결과적으로 불가능하고 앞으로 전용되는 추론은 도전적인 작업을 해결하지 못하고 LLM이 자주 잘못된 반응, 즉 “환각”을 제공 할 때 실패 할 수 있습니다. 이 논문은“환각”하에서 문제 해결에 대한 효과적인 추론을 유지하면서 사고 구조를 적응 적으로 구축하기 위해 LLM을 적응 적으로 구축하기 위해 LLM을 제작하기 위해 LLM을 제작하는 새로운 추론 프레임 워크를 제안한다. TR의 핵심 메커니즘은 생각을 롤백하여 LLM이 생각에 대한 오류 분석을 수행 할 수있게하므로 이전에 잘못된 수정에 대한 잘못된 생각으로 롤백합니다. 그 후, LLM을 안내하라는 프롬프트에 그러한 시행 착오를 포함시킴으로써, 각 롤백은 하나 이상의 신뢰할 수있는 추론 경로로 이어진다. 따라서 인간의 주석이없는 간단한 프롬프트로 시작하여 TR을 사용하여 적응 적으로 LLM은 올바른 솔루션에 대한 생각을 점차적으로 탐구합니다. 수학적 문제와 멀티 태스킹 추론에 대한 전제 실험은 문제 해결 속도 및 상호 작용 비용 측면에서 TR의 최신 성능을 보여줍니다. 예를 들어, TR 아웃이있는 GPT-4의 해결 속도는 수학 데이터 세트에서 현재 최고를 9% 늘립니다. 소스 코드는 https : // github.com/iqua/llmpebase의 폴더 예제/huttrollback에서 사용할 수 있습니다. 1 캐나다 온타리오 주 토론토, 토론토 대학교 전기 및 컴퓨터 공학, 캐나다 온타리오 주. 서신 : Sijia chen . 오스트리아 비엔나 머신 러닝에 관한 41 ST 국제 회의 절차. PMLR 235, 2024. 저자의 저작권 2024. 1. 소개 자동 회귀와 함께 텍스트 생성을 위해 설계된 대형 언어 모델은 다양한 자연어 처리 (NLP) 작업에서 탁월한 것으로 널리 인식됩니다. 그러나 특정 모델 척도에서, 그들의 추론은 특히 GPT-4 (OpenAI, 2023) 및 Llama 2 (Touvron et al., 2023)와 같은 스케일 업 버전에서는 신속한 엔지니어링에 크게 의존합니다. LLM은 잘 만들어진 프롬프트 (Kojima et al., 2022)를 단계별로 생각하자 (Kojima et al., 2022). 추론을 통해 LLM은 문제를 해결하는 중간 추론 단계 역할을하는 사고라는 일관된 언어 시퀀스를 생성 할 수 있습니다. 선형 왼쪽에서 오른쪽으로 생각하는 단순한 체인 추론 (Wei et al., 2022)에서 확장 된 경우, 나무와 유사한 사고 구조 (Yao et al., 2023)와 그래프 (Besta et al., 2023; Zhang et al., 2023; Luo et al., 2024)를 확립함으로써 더 복잡한 추론이 실현 가능해졌습니다. 그러나 기존의 사고 구조는 단방향이므로 앞으로의 추론 과정을 허용하므로 생각은 처음부터 끝까지 순차적으로 생성됩니다. 이러한 추론 과정의 효능은 중복되고 결과적으로 비효율적 인 사고 구조에 달려있어 다음으로 진행하기 전에 각 생각을 철저히 탐색해야합니다. 순방향 전용의 주요 단점 중 하나 … 더보기

이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!

PDF 다운로드

Leave a comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다