세은

[호붕싸 모각코 5차] Image Captioning - Evaluation

뱁새은 2025. 3. 24. 23:58

Image Captioning 모델의 inference와 평가 지표를 멀티모달 인공지능 시간에 배우게 되어 정리해보았습니다. 


 

자연어 처리(NLP) 모델에서 Inference(추론) 과정은 모델이 학습한 내용을 바탕으로 실제 문장을 생성하는 중요한 단계입니다. 이 과정에서 다양한 디코딩 전략과 평가 지표가 사용되며, 각각의 방식은 장단점을 가지고 있습니다. 이번 글에서는 대표적인 디코딩 방법인 Greedy Decoding과 Beam Search, 그리고 평가 지표인 BLEU에 대해 알아보겠습니다.


1. Image Captioning 모델의 Inference 방법

1) Greedy Decoding

Greedy Decoding은 매 타임스텝(time step)마다 확률이 가장 높은 단어를 선택하는 방식입니다.

수식:

S1=arg⁡max⁡p1,S2=arg⁡max⁡p2,…S_1 = \arg\max p_1, S_2 = \arg\max p_2, \dots

즉, 모델이 생성할 수 있는 모든 단어 중에서 확률이 가장 높은 단어를 하나씩 선택하여 문장을 완성합니다. 하지만 이 방법은 몇 가지 단점이 있습니다.

Greedy Decoding의 단점:

  • 문맥을 고려하지 못할 가능성이 높음: 초반에 선택한 단어 하나가 잘못되면, 이후 문장이 전체적으로 어색해질 수 있습니다.
  • 전역 최적 해를 찾기 어려움: 단어 하나하나를 독립적으로 선택하기 때문에 최적의 문장 구조를 찾는 데 한계가 있습니다.

2) Beam Search

Beam Search는 Greedy Decoding보다 발전된 방식으로, 매 타임스텝마다 확률이 가장 높은 상위 k개의 후보를 유지하면서 문장을 생성하는 방법입니다.

예제 (beam size = 2):

  1. 첫 번째 단어에서 확률이 높은 2개의 단어를 선택합니다.
  2. 두 번째 단어에서도 각각의 후보 단어에 대해 가장 확률이 높은 단어 2개를 선택하여 조합을 확장합니다.
  3. 이런 방식으로 최종 문장을 구성한 후, 확률이 가장 높은 문장을 최종 선택합니다.

Beam Search의 장점:

  • 문맥을 보다 잘 반영: Greedy Decoding보다 더 나은 품질의 문장을 생성할 가능성이 높음
  • 전역 최적 해를 탐색할 가능성이 있음

하지만 Beam Search도 단점이 있습니다. Beam size가 크면 탐색 범위가 넓어지지만 연산량이 증가하며, 지나치게 높은 확률을 부여하는 단어 조합이 생길 수 있습니다.


2. 모델의 평가 지표

자연어 생성 모델을 평가하기 위한 여러 가지 지표가 존재하는 이유는 단 하나의 완벽한 평가 기준이 없기 때문입니다. 사람이 읽었을 때 자연스럽고 문맥적으로 적절한 문장이 나오더라도, 단순한 단어 일치율로 평가하면 낮은 점수가 나올 수도 있기 때문입니다.

대표적인 NLP 평가 지표에는 BLEU, METEOR, CIDEr, SPICE 등이 있습니다.

BLEU Score

BLEU는 기계 번역 모델의 성능을 평가하기 위해 개발된 지표로, n-gram을 기반으로 번역된 문장이 얼마나 원문과 유사한지를 측정합니다.

BLEU 점수 계산 방법:

  1. n-gram Precision 계산: 생성된 문장과 정답 문장의 단어 또는 n-gram(예: bigram, trigram)의 일치도를 측정합니다.
  2. Brevity Penalty (문장 길이에 대한 보정): 짧은 문장일수록 높은 점수를 받는 문제를 방지하기 위해, 생성된 문장이 정답 문장보다 현저히 짧으면 패널티를 적용합니다.
  3. Clipping (겹치는 단어에 대한 보정): 특정 단어가 과도하게 반복되어 점수가 높아지는 문제를 방지하기 위해, 단어 개수를 조정하는 클리핑 기법을 적용합니다.
  4. 최종 점수 계산: 위의 요소들을 종합하여 BLEU 점수를 계산합니다.

BLEU의 단점은 단순한 n-gram 일치율을 기반으로 평가하기 때문에 문장의 의미를 정확히 반영하지 못할 수 있다는 점입니다.

작성자 배세은
소 감 BLEU score에 대해서 항상 궁금했었는데 이번에 깊게 알게 되어 좋았다. 언어 생성은 항상 정해진 정답이 없기 때문에 측정하기가 굉장히 까다로운 것 같다. 
일 시 2025. 3. 24. (월) 18:00 ~ 21:00
장 소 미래관 429호 자율주행스튜디오
참가자 명단 신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진