Do Large Language Models Judge Error Severity Like Humans?

Do Large Language Models Judge Error Severity Like Humans?

Abstract

논문은 “LLM은 오류의 ‘심각도(severity)’를 인간처럼 판단할 수 있는가?”라는 질문을 던진다. 이 질문의 대한 답을 찾기 위해 이미지 설명에서 발생하는 서로 다른 유형의 오류를 만들고, 인간 평가자와 여러 LLM에게 “이 오류가 얼마나 심각한가”를 점수로 평가하게 했다.
그 결과 대부분의 LLM은 인간과 다른 기준으로 오류 심각도를 평가했다. 예시로 성별 오류는 과소 평가하였고, 색상 오류는 과대평가하는 경향을 보였다. 즉. LLM은 ‘오류의 의미’를 아는 것이 아니라 훈련된 패턴으로 평가한다.

Introduction

기존 평가의 문제

  • 정확도
  • 정답이 맞았는가?
  • BLEU / ROUGE
 
실제로 중요한 것
  • 얼마나 위험한 실수인가
  • 사람에게 얼마나 큰 영향을 주는 오류인가

Error Severity의 중요성

인간으로서, 사람의 성별을 틀리게 말하는 오류와 옷의 색깔을 틀리게 말하는 오류는 같은 수준의 오류로 보지 않는다.
 
LLM 평가에는 ‘오류의 질적 차이’가 반영되지 않는다.

연구 공백

현재, LLM이 평가자의 역할을 점점 더 맡아가고 있지만, LLM이 오류의 심각성까지 인간처럼 판단하는지 검증되지 않았다.

Main Body

1. 실험 설계

데이터 구성
  • 실제 이미지 + 설명 문장
  • 설명 문장에 의도적인 오류 삽입
오류 유형
  • Age
  • Gender
  • Clothing Type
  • Clothing Colour
평가 방식
인간 평가자 + 여러 LLM에게 공통된 질문 “이 설명의 오류는 얼마나 심각한가?” → 0~100 점수로 평가

2. 실험 결과

인간 평가 결과
  • 오류 유형에 따라 명확한 심각도 차이
  • 이미지가 함께 주어졌을 때, 오류의 심각도를 더 민감하게 인식한다.
  • 인간은 맥락과 시각적 의미를 함께 고려한다
LLM 평가 결과
  • 성별 오류 → 낮은 심각도
  • 색상 오류 → 높은 심각도
결과
인간과 일관되게 어긋난다

3. 분석

  • LLM은 사회적 의미, 맥락적 민감성을 인간만큼 반영하지 못한다.
  • 오류를 “정보적 차이”, “표면적 불일치”로만 판단하는 경향
  • 결론적으로 모델 전반의 신뢰성은 일반화가 불가능하다.

Conclustion

대부분의 LLM은 오류의 심각도를 인간처럼 판단하지 못한다. 특히 윤리, 민감 정보, 사회적 맥락 관련 오류에서는 왜곡 가능성이 크다.