요약본 (Summary):
This paper proposes a new reasoning framework called Thought Rollback (TR) for large language models to adaptively build and maintain effective reasoning towards problem-solving under “hallucinations”. TR allows LLMs to perform error analysis on thoughts, roll back to any previously mistaken thought for revision, and gradually explore thoughts for a correct solution. Comprehensive experiments on mathematical problems and multi-task reasoning demonstrate the state-of-the-art performance of TR in terms of problem-solving rate and interaction cost.
이 논문은 대형 언어 모델이 “환각”하에서 문제 해결에 대한 효과적인 추론을 적용하고 유지하기위한 TR (Think Rollback)라는 새로운 추론 프레임 워크를 제안합니다. TR은 LLM이 생각에 대한 오류 분석을 수행하고, 이전에 실수 한 개정에 대한 사고로 롤백하며, 올바른 솔루션에 대한 생각을 점차 탐색 할 수 있습니다. 수학적 문제와 멀티 태스킹 추론에 대한 포괄적 인 실험은 문제 해결 속도 및 상호 작용 비용 측면에서 TR의 최신 성능을 보여줍니다.
Excerpt from PDF:
Toward Adaptive Reasoning in Large Language Models with Thought Rollback Sijia Chen 1 Baochun Li 1 Abstract Large language models (LLMs) have been rou- tinely used to solve various tasks using step-by- step reasoning. However, the structure of inter- mediate reasoning steps, or thoughts, is rigid and unidirectional, such as chains, trees, or acyclic- directed graphs. Consequently, the resulting in- flexible and forward-only reasoning may not ad- dress challenging tasks and fail when the LLM frequently gives false responses, i.e., “hallucina- tions”. This paper proposes a new reasoning framework, called Thought Rollback (TR), al- lowing LLMs to adaptively build thought struc- ture while maintaining effective reasoning toward problem-solving under “hallucinations”. The core mechanism of TR is rolling back thoughts, which allows LLMs to perform error analysis on thoughts, and thus roll back to any previously mistaken thought for revision. Subsequently, by including such trial-and-error in the prompt to guide the LLM, each rollback leads to one more reliable reasoning path. Therefore, start- ing with a simple prompt without human anno- tations, LLM with TR adaptively and gradually explores thoughts for a correct solution. Com- prehensive experiments on mathematical prob- lems and multi-task reasoning demonstrate the state-of-the-art performance of TR in terms of problem-solving rate and interaction cost. For instance, the solving rate of GPT-4 with TR out- performs the current best by 9% on the MATH dataset. The source code is available under the folder examples/ThoughtRollback of https:// github.com/iQua/llmpebase. 1Department of Electrical and Computer Engineering, Univer- sity of Toronto, Toronto, Ontario, Canada. Correspondence to: Sijia Chen
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
사고 롤백 Sijia Chen 1 Baochun Li 1 추상 대형 언어 모델 (LLMS)을 사용하여 대형 언어 모델에서 적응 추론을 향해 단계별 추론을 사용하여 다양한 작업을 해결하는 데 사용되었습니다. 그러나 중간 중간 추론 단계 또는 사고의 구조는 체인, 나무 또는 acyclic-diversited 그래프와 같이 엄격하고 단방향입니다. 결과적으로, 결과적으로 불가능하고 앞으로 전용되는 추론은 도전적인 작업을 해결하지 못하고 LLM이 자주 잘못된 반응, 즉 “환각”을 제공 할 때 실패 할 수 있습니다. 이 논문은“환각”하에서 문제 해결에 대한 효과적인 추론을 유지하면서 사고 구조를 적응 적으로 구축하기 위해 LLM을 적응 적으로 구축하기 위해 LLM을 제작하기 위해 LLM을 제작하는 새로운 추론 프레임 워크를 제안한다. TR의 핵심 메커니즘은 생각을 롤백하여 LLM이 생각에 대한 오류 분석을 수행 할 수있게하므로 이전에 잘못된 수정에 대한 잘못된 생각으로 롤백합니다. 그 후, LLM을 안내하라는 프롬프트에 그러한 시행 착오를 포함시킴으로써, 각 롤백은 하나 이상의 신뢰할 수있는 추론 경로로 이어진다. 따라서 인간의 주석이없는 간단한 프롬프트로 시작하여 TR을 사용하여 적응 적으로 LLM은 올바른 솔루션에 대한 생각을 점차적으로 탐구합니다. 수학적 문제와 멀티 태스킹 추론에 대한 전제 실험은 문제 해결 속도 및 상호 작용 비용 측면에서 TR의 최신 성능을 보여줍니다. 예를 들어, TR 아웃이있는 GPT-4의 해결 속도는 수학 데이터 세트에서 현재 최고를 9% 늘립니다. 소스 코드는 https : // github.com/iqua/llmpebase의 폴더 예제/huttrollback에서 사용할 수 있습니다. 1 캐나다 온타리오 주 토론토, 토론토 대학교 전기 및 컴퓨터 공학, 캐나다 온타리오 주. 서신 : Sijia chen
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!