자연어 처리에서 단어 임베딩과 문맥 인식
1. 텍스트 데이터의 특징
- 문장은 단어들로 구성됨.
- 단어는 문맥 내에서 의미를 가짐.
2. 단어 임베딩
(1) One-hot Encoding
- 단어를 벡터로 변환하는 가장 기초적인 방법.
- 단점: 벡터 크기가 커지고, 단어 간 유사성을 측정할 수 없음.
(2) Word2Vec
- 아이디어: “비슷한 문맥에서 등장하는 단어는 비슷한 의미를 가진다.”
- 방법: 신경망을 활용하여 단어를 저차원 벡터로 변환.
- Skip-gram 모델: 중심 단어로 주변 단어를 예측하는 방식.
- 내적 연산을 통해 단어 간 의미적 유사성 계산 가능.
- 단점: 정해진 윈도우 크기 내에서만 문맥을 고려하여 학습됨.

(3) GloVe
- 통계 기반 (Count-based) 방법 사용.
- 전체 코퍼스의 단어 분포를 고려하여 학습.
- Common Crawl 데이터셋으로 학습된 모델 → 300차원 벡터 사용.
3. 단어 임베딩의 한계
- 단어별로 고정된 벡터값을 가짐.
- 문맥에 따라 단어 의미가 달라질 수 있지만 반영되지 않음.
- 해결책: 순차적 데이터 처리를 지원하는 모델 필요!
4. 순차적 데이터의 특성
- 순서가 중요
- Ex) "나는 밥을 먹었다." ≠ "밥을 나는 먹었다."
- 가변성
- Ex) "오늘 비가 온다."
vs. "오늘 서울에서는 아침부터 흐린 날씨가 이어졌고, 오후가 되면서 비가 내리기 시작했다."
(문장의 길이가 다르지만, 핵심 의미는 유사함.)
- Ex) "오늘 비가 온다."
- 문맥 의존성
- Ex) "지수는 유명한 작가다. 그녀의 최신 소설은 베스트셀러가 되었다."
- → ‘그녀’가 누구를 지칭하는지 문맥이 필요함.
- MLP (Multi-Layer Perceptron)는 입력 길이가 고정되고 문맥을 활용하지 못함.
5. 문맥을 반영하는 단어 임베딩
(1) RNN
- 이전 단어 정보를 유지하며 학습하는 신경망 구조.
- Hidden state에서 이전 시점 정보를 전달.
- 단점:
- 단방향 처리 (왼쪽 → 오른쪽)로만 정보 전달.
- 긴 문장에서 기억 손실 (Vanishing Gradient Problem) 발생 가능.
(2) Bi-RNN
- 오른쪽 → 왼쪽 방향의 정보를 추가적으로 학습하는 구조.
- 두 방향의 은닉층 결과를 결합하여 더 풍부한 문맥 정보 제공.
- 기계 번역에서 유용 (언어 간 어순이 다를 경우).
작성자 | 배세은 |
소 감 | 다 같이 모여 방학 동안 나누지 못한 이야기들을 하며 공부하니 반가운 마음이 들었고, 집중도 더 잘되는 느낌이었다. 오늘 배운 멀티모달 인공지능을 바로 복습하니 내용이 명확하게 정리되어 효과적으로 공부할 수 있었다. |
일 시 | 2025. 3. 10. (월) 18:00 ~ 21:00 |
장 소 | 미래관 429호 자율주행스튜디오 |
참가자 명단 | 신수민, 임혜진, 배세은, 김윤희 (총 4명) |
사 진 | ![]() |
'세은' 카테고리의 다른 글
[호붕싸 모각코 6차] 논문 리뷰 - Attention is All you Need (0) | 2025.03.31 |
---|---|
[호붕싸 모각코 5차] Image Captioning - Evaluation (0) | 2025.03.24 |
[호붕싸 모각코 4주차] 컴퓨터 네트워크 - 인터넷의 구조와 네트워크 접근 방식 (0) | 2025.03.22 |
[호붕싸 모각코 3주차] Semi-Supervised Learning (0) | 2025.03.17 |
[호붕싸 모각코 2주차] Unimodal Representation - Image (0) | 2025.03.14 |