[호붕싸 모각코 1주차] Unimodal Representation - Text

세은

[호붕싸 모각코 1주차] Unimodal Representation - Text

뱁새은 2025. 3. 10. 23:54

자연어 처리에서 단어 임베딩과 문맥 인식

1. 텍스트 데이터의 특징

문장은 단어들로 구성됨.
단어는 문맥 내에서 의미를 가짐.

2. 단어 임베딩

(1) One-hot Encoding

단어를 벡터로 변환하는 가장 기초적인 방법.
단점: 벡터 크기가 커지고, 단어 간 유사성을 측정할 수 없음.

(2) Word2Vec

아이디어: “비슷한 문맥에서 등장하는 단어는 비슷한 의미를 가진다.”
방법: 신경망을 활용하여 단어를 저차원 벡터로 변환.
Skip-gram 모델: 중심 단어로 주변 단어를 예측하는 방식.
내적 연산을 통해 단어 간 의미적 유사성 계산 가능.
단점: 정해진 윈도우 크기 내에서만 문맥을 고려하여 학습됨.

(3) GloVe

통계 기반 (Count-based) 방법 사용.
전체 코퍼스의 단어 분포를 고려하여 학습.
Common Crawl 데이터셋으로 학습된 모델 → 300차원 벡터 사용.

3. 단어 임베딩의 한계

단어별로 고정된 벡터값을 가짐.
문맥에 따라 단어 의미가 달라질 수 있지만 반영되지 않음.
해결책: 순차적 데이터 처리를 지원하는 모델 필요!

4. 순차적 데이터의 특성

순서가 중요
- Ex) "나는 밥을 먹었다." ≠ "밥을 나는 먹었다."
가변성
- Ex) "오늘 비가 온다."
  vs. "오늘 서울에서는 아침부터 흐린 날씨가 이어졌고, 오후가 되면서 비가 내리기 시작했다."
  (문장의 길이가 다르지만, 핵심 의미는 유사함.)
문맥 의존성
- Ex) "지수는 유명한 작가다. 그녀의 최신 소설은 베스트셀러가 되었다."
- → ‘그녀’가 누구를 지칭하는지 문맥이 필요함.
- MLP (Multi-Layer Perceptron)는 입력 길이가 고정되고 문맥을 활용하지 못함.

5. 문맥을 반영하는 단어 임베딩

(1) RNN

이전 단어 정보를 유지하며 학습하는 신경망 구조.
Hidden state에서 이전 시점 정보를 전달.
단점:
- 단방향 처리 (왼쪽 → 오른쪽)로만 정보 전달.
- 긴 문장에서 기억 손실 (Vanishing Gradient Problem) 발생 가능.

(2) Bi-RNN

오른쪽 → 왼쪽 방향의 정보를 추가적으로 학습하는 구조.
두 방향의 은닉층 결과를 결합하여 더 풍부한 문맥 정보 제공.
기계 번역에서 유용 (언어 간 어순이 다를 경우).

작성자	배세은
소 감	다 같이 모여 방학 동안 나누지 못한 이야기들을 하며 공부하니 반가운 마음이 들었고, 집중도 더 잘되는 느낌이었다. 오늘 배운 멀티모달 인공지능을 바로 복습하니 내용이 명확하게 정리되어 효과적으로 공부할 수 있었다.
일 시	2025. 3. 10. (월) 18:00 ~ 21:00
장 소	미래관 429호 자율주행스튜디오
참가자 명단	신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

'세은' 카테고리의 다른 글

[호붕싸 모각코 6차] 논문 리뷰 - Attention is All you Need (0)	2025.03.31
[호붕싸 모각코 5차] Image Captioning - Evaluation (0)	2025.03.24
[호붕싸 모각코 4주차] 컴퓨터 네트워크 - 인터넷의 구조와 네트워크 접근 방식 (0)	2025.03.22
[호붕싸 모각코 3주차] Semi-Supervised Learning (0)	2025.03.17
[호붕싸 모각코 2주차] Unimodal Representation - Image (0)	2025.03.14

현재글[호붕싸 모각코 1주차] Unimodal Representation - Text

호붕싸

hobungssa 님의 블로그 입니다.

합분해, 코딩, 알고리즘, DP, 2225, mean teacher, semi-supervised, consistency regularization,

Today :
Yesterday :

티스토리툴바