[논문 리뷰] Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

핵심 아이디어

  • 어텐션 기반 환각 탐지
    • 기존 연구들이 주로 모델의 내부 은닉 표현이나 출력 텍스트 간 추론 모델을 활용해 환각을 탐지한 반면 Transformer의 어텐션 맵에 주목
    • 모델이 생성 시 입력 문서를 얼마나 참고하고 있는지를 나타내는 룩백 비율이라는 새로운 특징량을 도입해 복잡한 내부 상태 분석 없이도 환각을 효율적으로 포착.
    • 인간에게도 직관적인 지표(모델이 문맥에 집중했는지)라는 점에서 결과 해석이 용이
  • 경량 선형 분류기 – Lookback Lens
    • 룩백 비율 특징을 입력으로 사용하는 로지스틱 회귀 모델을 구축하여 환각 여부를 이진 분류
    • 단순한 분류기만으로도, 복잡한 최첨단 기법과 동등하거나 그 이상의 탐지 성능을 달성
    • 소량의 데이터로도 훈련 가능하고 추론 속도가 빠른 경량 해법으로, 현실 적용에 유리
  • 범용성과 이식성
    • Lookback Lens 분류기는 특정 데이터셋이나 모델에 국한되지 않고 다양한 환경에서 일반화될 수 있음
    • 여러 과제(예: 기사 요약 XSum, 질의응답 NQ 등)와 여러 모델(LLaMA-2 7B vs 13B 등)에서 한 작업에서 학습한 분류기가 다른 작업의 환각도 상당 부분 탐지
    • 또한 작은 언어모델(7B)로 훈련한 분류기를 더 큰 언어모델(13B)에 그대로 적용해도, 환각 감소 효과가 유지
    • 모델 구조나 규모가 달라져도 어텐션 패턴의 유사성을 활용하여 통용될 수 있음
  • 생성 과정 통합 – 환각 완화 기법 제안
    • 환각 탐지기를 텍스트 생성 과정에 실시간으로 활용하는 새로운 디코딩 전략을 제안
    • . “Lookback Lens 안내 디코딩”은 모델이 한 번에 출력할 다음 문장이나 덩어리를 여러 후보로 생성하게 한 뒤, Lookback Lens 분류기가 판단한 가장 사실적인 후보를 선택
    • 생성된 최종 답변/요약의 환각 포함률이 크게 낮아지는 효과
      • XSum summarization task에서 환각 사례 수를 기존 대비 약 18.8% 감소(510→414건)시키는 개선
    • 탐지와 완화를 결합한 접근은 대부분 탐지와 수정이 분리되어 있던 이전 연구들에 비해 실용적

향후 활용 및 비판적 관점

  • 향후 적용 가능성: Lookback Lens는 사실성 검증이 중요한 다양한 생성 작업에 폭넓게 응용
    • 문서 요약 시스템 : 이 기술을 적용하면 모델이 원문에 없는 내용을 덧붙이지 않도록 실시간 모니터링이 가능
    • 질의응답 시스템 : 모델이 주어진 지문을 벗어난 답변을 하지 않도록 사전 억제
    • 특색 기반 생성(RAG)처럼 외부 지식을 주입하는 응용 분야: 검색된 문맥을 모델이 충실히 활용하고 있는지 점검하는 모듈로서 Lookback Lens가 활용
    • 다중 문서 요약이나 대화형 AI처럼 맥락이 복잡한 시나리오: 어느 부분에서 모델이 문맥을 놓치고 환각이 발생하는지 설명 가능한 지표로 활용되어 시스템의 신뢰성을 높이는 방향으로 발전
    • 모델 해석 연구 : 어텐션 분포와 사실성의 상관관계를 밝혔다는 점에서, 향후 LLM의 어텐션 조작을 통한 출력 제어훈련 피드백 등 관련 연구에 아이디어를 제공
  • 한계 및 비판적 고찰: 몇 가지 제약과 고려사항이 존재
    • 샘플링 의존성: Lookback Lens를 이용한 디코딩은 여러 출력 후보 중 올바른 것을 골라내는 구조이므로, 모델이 애초에 올바른 후보를 생성해낼 수 있어야만 효과를 볼 수 있습니다 . 예를 들어 모델이 생성한 8개의 후보 모두가 잘못된 정보라면, 그 중 어느 것을 선택해도 사실과 다른 결과가 나올 수밖에 없습니다. 따라서 모델 자체의 한계가 근본적일 경우 Lookback Lens로도 수정이 어렵습니다.
    • 추론 지연 및 비용: 여러 후보를 생성하여 평가하는 과정 때문에 출력 생성 속도가 느려지고 계산 비용이 증가할 수 있습니다 . 논문에서 제안한 방법은 개념 증명적인 초기 접근으로서, 8개의 후보를 분류기로 평가하여 선택하는 방식인데, 이는 실제 서비스 적용 시 추론 시간이 8배까지 늘어날 가능성을 의미합니다. 저자들은 추후 어텐션 맵 상의 개입 등을 통해 분류기가 지목한 부분을 즉각 수정하는 등 더 효율적인 방법을 모색할 수 있을 것이라고 제안하였습니다 .
    • 학습 데이터 요구:
      • train 할 때 모델 출력의 환각 여부가 레이블된 데이터 약 1~2천 개가 필요
      • 추가적인 라벨링 작업이 필요
      • 도메인마다 해당 데이터를 확보해야 됨
  • 환각 유형 범위: Lookback Lens는 모델이 문맥을 무시하고 자의적으로 생성하는 환각을 잡아내는 데 효과적
    • 문맥을 참고하면서도 잘못 이해하거나 왜곡하는 경우에는 탐지가 어려움.
    • 잘못된 요약이나 논리적 오류를 내는 경우, 어텐션 비율만 봐서는 높은 집중도로 인해 환각이 아닌 것처럼 분류될 가능성 존재
    • 환각의 정의를 무엇으로 보느냐에 따라 탐지기의 한계

Data creation

  1. 다양한 작업(Task)에서 모델 출력 수집
  • 기존 벤치마크(예: 기사 요약, 질의응답 등)를 사용하여, LLM이 실제로 정답(혹은 원문)에 충실했는지 아닌지를 평가할 수 있도록 모델 출력을 대량으로 생성했다.
    • Summarize task : 1000 samples CNN/DM
    • QA : 2655 samples Natural Questions
  • 답변과 관련없는 문서 사이에 답변과 관련 있는 문서 넣음 ( X, O, X) 이렇게 세개
  • 이렇게 여러 작업에서 다양한 예시를 모으면, Lookback Lens 분류기가 특정 도메인에만 한정되지 않고 범용적으로 동작하게 만들 수 있다.
  1. 문맥-출력 페어(문장 쌍)에 환각 라벨 부여
  • 생성된 결과(예: 요약문)가 원본 문맥에 존재하지 않는 정보를 포함하거나 부정확하면 hallucination 라벨로 분류하고, 그렇지 않으면 사실 factual 이라고 라벨링.
    • 대부분 Human Annotation을 통해 직접 문맥과 생성물을 대조하여 사실 여부를 판별.
    • 일부 데이터는 기존 데이터셋의 정답 레이블이나 평가 지표를 활용.
  1. 어텐션 정보 추출
  • 모델이 각 토큰을 생성할 때 활용한 어텐션 가중치 맵을 저장
  • 이후 각 토큰별로 “룩백 비율”(lookback ratio) 등 해당 섹션에서 정의한 지표를 계산해, 환각(또는 사실) 라벨과 짝지어 (어텐션 특징, 라벨) 쌍을 구성
  1. 학습 세트 구성
  • 훈련데이터: [어텐션 기반 특징 벡터, 환각/사실 라벨]
  • 이를 통해 로지스틱 회귀와 같은 경량 분류기를 학습시키면, 새로운 생성 결과가 주어졌을 때 환각 가능성을 즉시 판별
  1. Data Creation의 의의
  • 다양한 도메인의 예시를 함께 사용해 범용적으로 환각을 잡아내도록 했다.
  • 인적 검증을 바탕으로 정확한 레이블을 확보함으로써, Lookback Lens가 강력한 이진 분류 정확도를 달성할 수 있었다.
  • 논문에서는 라벨링 과정이 상대적으로 소량(약 1천~2천 개의 문장)만으로도 충분하다고 강조.
    • 실무에서 레이블링 비용을 크게 줄일 수 있음