Excerpt from PDF:
Faithfulness of LLM Self-Explanations for Commonsense Tasks: Larger Is Better, and Instruction-Tuning Allows Trade-Offs but Not Pareto Dominance Noah Y. Siegel Google DeepMind, University College London siegeln@google.com Nicolas Heess Google DeepMind Maria Perez-Ortiz University College London Oana-Maria Camburu University College London Abstract As large language models (LLMs) become increasingly capable, ensuring that their self- generated explanations are faithful to their in- ternal decision-making process is critical for safety and oversight. In this work, we conduct a comprehensive counterfactual faithfulness anal- ysis across 62 models from 8 families, encom- passing both pretrained and instruction-tuned variants and significantly extending prior stud- ies of counterfactual tests. We introduce phi- CCT, a simplified variant of the Correlational Counterfactual Test, which avoids the need for token probabilities while explaining most of the variance of the original test. Our findings reveal clear scaling trends: larger models are consis- tently more faithful on our metrics. However, when comparing instruction-tuned and human- imitated explanations, we find that observed dif- ferences in faithfulness can often be attributed to explanation verbosity, leading to shifts along the true-positive/false-positive Pareto frontier. While instruction-tuning and prompting can in- fluence this trade-off, we find limited evidence that they fundamentally expand the frontier of explanatory faithfulness beyond what is achiev- able with pretrained models of comparable size. Our analysis highlights the nuanced relation- ship between instruction-tuning, verbosity, and the faithful representation of model decision processes. 1 Introduction As the capabilities of large language models (LLMs) advance, there is an increasing recogni- tion of their risks, as well as interest in methods for evaluation and mitigation of these risks (Ngo et al., 2023; Anthropic, 2023; DeepMind, 2025; OpenAI, 2023; Meta, 2024). One safety strategy, “exter- nalized reasoning oversight”, proposes to “force a language model to think out loud, and use the reasoning itself as a channel for oversight” (Lan- ham, 2022). This direction is of particular interest recently, as model reasoning via self-explanations has become an increasingly useful tool for solv- ing complex tasks with frontier LLMs (Wei et al., 2022; Zhong et al., 2024; Guo et al., 2025). How- ever, this strategy relies on the self-explanations accurately representing the true factors responsi- ble for model decisions, which is not always the case (Turpin et al., 2023). As such, it is important to measure the extent to which these explanations are faithful, i.e. whether they accurately describe the true factors responsible for the model predic- tion. Recent work has proposed faithfulness tests based on counterfactual interventions such as the Counterfactual Test (CT, Atanasova et al. (2023)) and Correlational Counterfactual Test (CCT, Siegel et al. (2024)). However, these studies have been limited to small sets of pretrained (PT) models, in contrast to the currently predominant instruction- tuned (IT) models. Does instruction-tuning make a difference in ex- planation faithfulness? Binder et al. (2025) claim that language models are capable of introspection, defined as “acquiring knowledge that is not con- tained in or derived from training data but instead originates from internal states”. If true, one might expect that …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
상식 과제에 대한 LLM 자기 설명의 충실 함 : 더 큰 것은 더 좋으며, 지시 조정은 트레이드 오프를 허용하지만 파레토 지배력 Noah Y. Siegel Google College London Siegeln@google.com Nicolas Heess Google Deepmind Maria Perez-oriz University College London OANA-Maria University London Camburu College London (Llms)이라는 General Language Beenselfing은 런던의 추상적 인 Maria Perez-Oortiz University College입니다. 내부 의사 결정 과정에 대한 설명은 안전과 감독에 중요합니다. 이 작업에서 우리는 8 가족의 62 개 모델에 걸쳐 포괄적 인 반 사실적인 신실성 항문을 수행하여 사전에 사전 및 교육 조정 변형을 전달하고 이전의 반대 활성 테스트의 이전 연구를 크게 확장합니다. 우리는 상관 역 활성 테스트의 단순화 된 변형 인 PHI-CCT를 소개하며, 이는 원래 테스트의 대부분의 분산을 설명하면서 토큰 확률이 필요하지 않습니다. 우리의 연구 결과는 명확한 스케일링 트렌드를 보여줍니다. 더 큰 모델은 우리의 지표에 대해 더 충실합니다. 그러나, 지시 조정 및 인간의 모방 된 설명을 비교할 때, 우리는 충실 함에서 관찰 된 차이가 종종 설명의 진실성에 기인하여 진정한 양성/거짓 양성 파레토 프론티어를 따라 이동할 수 있음을 발견했습니다. 지시 조정과 프롬프트 가이 트레이드 오프를 불러 일으킬 수는 있지만, 우리는 그들이 비슷한 크기의 사전에 걸린 모델로 성취 할 수있는 것 이상으로 설명적인 충실의 국경을 근본적으로 확장한다는 제한된 증거를 발견했습니다. 우리의 분석은 지시 조정, 구두 및 모델 결정 과정의 충실한 표현 사이의 미묘한 관계를 강조합니다. 1 소개 대형 언어 모델 (LLMS)의 능력으로서, 이러한 위험에 대한 평가 및 완화에 대한 관심뿐만 아니라 위험에 대한 인식이 증가하고있다 (Ngo et al., 2023; Anthropic, 2023; Deepmind, 2025; Openai, 2023; Meta, 2024). 한 가지 안전 전략 인“추론 감독”은“언어 모델이 큰 소리로 생각하고 추론 자체를 감독을위한 채널로 사용하도록 강요”(Lan-Ham, 2022)를 제안합니다. 자기 설명을 통한 모델 추론이 프론티어 LLM과 복잡한 작업을 해결하는 데 점점 더 유용한 도구가 되었기 때문에이 방향은 최근에 특히 관심이 있습니다 (Wei et al., 2022; Zhong et al., 2024; Guo et al., 2025). 그러나이 전략은 모델 결정에 대한 진정한 요인을 정확하게 표현하는 자기 설명에 의존하며, 이는 항상 그런 것은 아닙니다 (Turpin et al., 2023). 따라서, 이러한 설명이 충실한 정도, 즉 모델 예측에 책임있는 진정한 요소를 정확하게 설명하는지 여부를 측정하는 것이 중요합니다. 최근의 연구는 반 사실 테스트 (CT, Atanasova et al. (2023)) 및 상관 역상 시험 (CCT, Siegel et al. (2024))와 같은 반 사실적 개입에 기초한 충실 성 테스트를 제안했다. 그러나,이 연구는 현재 우세한 지시 (IT) 모델과 달리 소규모 사전 취소 (PT) 모델로 제한되었습니다. 지시 조정은 계획의 신실함에 변화를 가져 오는가? 바인더 et al. (2025)는 언어 모델이 내성이 가능하다고 주장하며,“훈련 데이터에 포함되지 않거나 내부 상태에서 비롯된 지식을 획득하는 지식으로 정의된다”고 주장한다. 사실이라면, 그것을 기대할 수 있습니다 … 더보기
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!