[논문 리뷰] Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
핵심 아이디어어텐션 기반 환각 탐지기존 연구들이 주로 모델의 내부 은닉 표현이나 출력 텍스트 간 추론 모델을 활용해 환각을 탐지한 반면 Transformer의 어텐션 맵에 주목모델이 생성 시 입력 문서를 얼마나 참고하고 있는지를 나타내는 룩백 비율이라는 새로운 특징량을 도입해 복잡한 내부 상태 분석 없이도 환각을 효율적으로 포착.인간에게도 직관적인 지표(모델이 문맥에 집중했는지)라는 점에서 결과 해석이 용이경량 선형 분류기 – Lookback Lens룩백 비율 특징을 입력으로 사용하는 로지스틱 회귀 모델을 구축하여 환각 여부를 이진 분류단순한 분류기만으로도, 복잡한 최첨단 기법과 동등하거나 그 이상의 탐지 성능을 달성소량의 데이터로도 훈련 가능하고 추론 속도가 빠른 경량 해법으로, 현실 적용에 유리범용성..