세은

[호붕싸 모각코 1주차] Unimodal Representation - Text

뱁새은 2025. 3. 10. 23:54

자연어 처리에서 단어 임베딩과 문맥 인식


1. 텍스트 데이터의 특징

  • 문장은 단어들로 구성됨.
  • 단어는 문맥 내에서 의미를 가짐.

2. 단어 임베딩

(1) One-hot Encoding

  • 단어를 벡터로 변환하는 가장 기초적인 방법.
  • 단점: 벡터 크기가 커지고, 단어 간 유사성을 측정할 수 없음.

(2) Word2Vec

  • 아이디어: “비슷한 문맥에서 등장하는 단어는 비슷한 의미를 가진다.”
  • 방법: 신경망을 활용하여 단어를 저차원 벡터로 변환.
  • Skip-gram 모델: 중심 단어로 주변 단어를 예측하는 방식.
  • 내적 연산을 통해 단어 간 의미적 유사성 계산 가능.
  • 단점: 정해진 윈도우 크기 내에서만 문맥을 고려하여 학습됨.

(3) GloVe

  • 통계 기반 (Count-based) 방법 사용.
  • 전체 코퍼스의 단어 분포를 고려하여 학습.
  • Common Crawl 데이터셋으로 학습된 모델 → 300차원 벡터 사용.

3. 단어 임베딩의 한계

  • 단어별로 고정된 벡터값을 가짐.
  • 문맥에 따라 단어 의미가 달라질 수 있지만 반영되지 않음.
  • 해결책: 순차적 데이터 처리를 지원하는 모델 필요!

4. 순차적 데이터의 특성

  1. 순서가 중요
    • Ex) "나는 밥을 먹었다." ≠ "밥을 나는 먹었다."
  2. 가변성
    • Ex) "오늘 비가 온다."
      vs. "오늘 서울에서는 아침부터 흐린 날씨가 이어졌고, 오후가 되면서 비가 내리기 시작했다."
      (문장의 길이가 다르지만, 핵심 의미는 유사함.)
  3. 문맥 의존성
    • Ex) "지수는 유명한 작가다. 그녀의 최신 소설은 베스트셀러가 되었다."
    • → ‘그녀’가 누구를 지칭하는지 문맥이 필요함.
    • MLP (Multi-Layer Perceptron)는 입력 길이가 고정되고 문맥을 활용하지 못함.

5. 문맥을 반영하는 단어 임베딩

(1) RNN

  • 이전 단어 정보를 유지하며 학습하는 신경망 구조.
  • Hidden state에서 이전 시점 정보를 전달.
  • 단점:
    • 단방향 처리 (왼쪽 → 오른쪽)로만 정보 전달.
    • 긴 문장에서 기억 손실 (Vanishing Gradient Problem) 발생 가능.

(2) Bi-RNN

  • 오른쪽 → 왼쪽 방향의 정보를 추가적으로 학습하는 구조.
  • 두 방향의 은닉층 결과를 결합하여 더 풍부한 문맥 정보 제공.
  • 기계 번역에서 유용 (언어 간 어순이 다를 경우).

 

작성자 배세은
소 감 다 같이 모여 방학 동안 나누지 못한 이야기들을 하며 공부하니 반가운 마음이 들었고, 집중도 더 잘되는 느낌이었다. 오늘 배운 멀티모달 인공지능을 바로 복습하니 내용이 명확하게 정리되어 효과적으로 공부할 수 있었다.
일 시 2025. 3. 10. (월) 18:00 ~ 21:00
장 소 미래관 429호 자율주행스튜디오
참가자 명단 신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진