[논문 리뷰] Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
핵심 아이디어
어텐션 기반 환각 탐지
기존 연구들이 주로 모델의 내부 은닉 표현이나 출력 텍스트 간 추론 모델을 활용해 환각을 탐지한 반면 Transformer의 어텐션 맵에 주목
모델이 생성 시 입력 문서를 얼마나 참고하고 있는지를 나타내는 룩백 비율이라는 새로운 특징량을 도입해 복잡한 내부 상태 분석 없이도 환각을 효율적으로 포착.
인간에게도 직관적인 지표(모델이 문맥에 집중했는지)라는 점에서 결과 해석이 용이
경량 선형 분류기 – Lookback Lens
룩백 비율 특징을 입력으로 사용하는 로지스틱 회귀 모델을 구축하여 환각 여부를 이진 분류
단순한 분류기만으로도, 복잡한 최첨단 기법과 동등하거나 그 이상의 탐지 성능을 달성
소량의 데이터로도 훈련 가능하고 추론 속도가 빠른 경량 해법으로, 현실 적용에 유리
범용성과 이식성
Lookback Lens 분류기는 특정 데이터셋이나 모델에 국한되지 않고 다양한 환경에서 일반화될 수 있음
여러 과제(예: 기사 요약 XSum, 질의응답 NQ 등)와 여러 모델(LLaMA-2 7B vs 13B 등)에서 한 작업에서 학습한 분류기가 다른 작업의 환각도 상당 부분 탐지
또한 작은 언어모델(7B)로 훈련한 분류기를 더 큰 언어모델(13B)에 그대로 적용해도, 환각 감소 효과가 유지
모델 구조나 규모가 달라져도 어텐션 패턴의 유사성을 활용하여 통용될 수 있음
생성 과정 통합 – 환각 완화 기법 제안
환각 탐지기를 텍스트 생성 과정에 실시간으로 활용하는 새로운 디코딩 전략을 제안
. “Lookback Lens 안내 디코딩”은 모델이 한 번에 출력할 다음 문장이나 덩어리를 여러 후보로 생성하게 한 뒤, Lookback Lens 분류기가 판단한 가장 사실적인 후보를 선택
생성된 최종 답변/요약의 환각 포함률이 크게 낮아지는 효과
XSum summarization task에서 환각 사례 수를 기존 대비 약 18.8% 감소(510→414건)시키는 개선
탐지와 완화를 결합한 접근은 대부분 탐지와 수정이 분리되어 있던 이전 연구들에 비해 실용적
향후 활용 및 비판적 관점
향후 적용 가능성: Lookback Lens는 사실성 검증이 중요한 다양한 생성 작업에 폭넓게 응용
문서 요약 시스템 : 이 기술을 적용하면 모델이 원문에 없는 내용을 덧붙이지 않도록 실시간 모니터링이 가능
질의응답 시스템 : 모델이 주어진 지문을 벗어난 답변을 하지 않도록 사전 억제
특색 기반 생성(RAG)처럼 외부 지식을 주입하는 응용 분야: 검색된 문맥을 모델이 충실히 활용하고 있는지 점검하는 모듈로서 Lookback Lens가 활용
다중 문서 요약이나 대화형 AI처럼 맥락이 복잡한 시나리오: 어느 부분에서 모델이 문맥을 놓치고 환각이 발생하는지 설명 가능한 지표로 활용되어 시스템의 신뢰성을 높이는 방향으로 발전
모델 해석 연구 : 어텐션 분포와 사실성의 상관관계를 밝혔다는 점에서, 향후 LLM의 어텐션 조작을 통한 출력 제어나 훈련 피드백 등 관련 연구에 아이디어를 제공
한계 및 비판적 고찰: 몇 가지 제약과 고려사항이 존재
샘플링 의존성: Lookback Lens를 이용한 디코딩은 여러 출력 후보 중 올바른 것을 골라내는 구조이므로, 모델이 애초에 올바른 후보를 생성해낼 수 있어야만 효과를 볼 수 있습니다 . 예를 들어 모델이 생성한 8개의 후보 모두가 잘못된 정보라면, 그 중 어느 것을 선택해도 사실과 다른 결과가 나올 수밖에 없습니다. 따라서 모델 자체의 한계가 근본적일 경우 Lookback Lens로도 수정이 어렵습니다.
추론 지연 및 비용: 여러 후보를 생성하여 평가하는 과정 때문에 출력 생성 속도가 느려지고 계산 비용이 증가할 수 있습니다 . 논문에서 제안한 방법은 개념 증명적인 초기 접근으로서, 8개의 후보를 분류기로 평가하여 선택하는 방식인데, 이는 실제 서비스 적용 시 추론 시간이 8배까지 늘어날 가능성을 의미합니다. 저자들은 추후 어텐션 맵 상의 개입 등을 통해 분류기가 지목한 부분을 즉각 수정하는 등 더 효율적인 방법을 모색할 수 있을 것이라고 제안하였습니다 .
학습 데이터 요구:
train 할 때 모델 출력의 환각 여부가 레이블된 데이터 약 1~2천 개가 필요
추가적인 라벨링 작업이 필요
도메인마다 해당 데이터를 확보해야 됨
환각 유형 범위: Lookback Lens는 모델이 문맥을 무시하고 자의적으로 생성하는 환각을 잡아내는 데 효과적
문맥을 참고하면서도 잘못 이해하거나 왜곡하는 경우에는 탐지가 어려움.
잘못된 요약이나 논리적 오류를 내는 경우, 어텐션 비율만 봐서는 높은 집중도로 인해 환각이 아닌 것처럼 분류될 가능성 존재
환각의 정의를 무엇으로 보느냐에 따라 탐지기의 한계
Data creation
다양한 작업(Task)에서 모델 출력 수집
기존 벤치마크(예: 기사 요약, 질의응답 등)를 사용하여, LLM이 실제로 정답(혹은 원문)에 충실했는지 아닌지를 평가할 수 있도록 모델 출력을 대량으로 생성했다.
Summarize task : 1000 samples CNN/DM
QA : 2655 samples Natural Questions
답변과 관련없는 문서 사이에 답변과 관련 있는 문서 넣음 ( X, O, X) 이렇게 세개
이렇게 여러 작업에서 다양한 예시를 모으면, Lookback Lens 분류기가 특정 도메인에만 한정되지 않고 범용적으로 동작하게 만들 수 있다.
문맥-출력 페어(문장 쌍)에 환각 라벨 부여
생성된 결과(예: 요약문)가 원본 문맥에 존재하지 않는 정보를 포함하거나 부정확하면 hallucination 라벨로 분류하고, 그렇지 않으면 사실 factual 이라고 라벨링.
대부분 Human Annotation을 통해 직접 문맥과 생성물을 대조하여 사실 여부를 판별.
일부 데이터는 기존 데이터셋의 정답 레이블이나 평가 지표를 활용.
어텐션 정보 추출
모델이 각 토큰을 생성할 때 활용한 어텐션 가중치 맵을 저장
이후 각 토큰별로 “룩백 비율”(lookback ratio) 등 해당 섹션에서 정의한 지표를 계산해, 환각(또는 사실) 라벨과 짝지어 (어텐션 특징, 라벨) 쌍을 구성
학습 세트 구성
훈련데이터: [어텐션 기반 특징 벡터, 환각/사실 라벨]
이를 통해 로지스틱 회귀와 같은 경량 분류기를 학습시키면, 새로운 생성 결과가 주어졌을 때 환각 가능성을 즉시 판별
Data Creation의 의의
다양한 도메인의 예시를 함께 사용해 범용적으로 환각을 잡아내도록 했다.
인적 검증을 바탕으로 정확한 레이블을 확보함으로써, Lookback Lens가 강력한 이진 분류 정확도를 달성할 수 있었다.
논문에서는 라벨링 과정이 상대적으로 소량(약 1천~2천 개의 문장)만으로도 충분하다고 강조.