윤희

[호붕싸 모각코 3주차] Unimodal Representation

y_unique 2025. 3. 17. 22:23
작성자 김윤희 
소 감 오늘은 멀티모달인공지능 수업시간에 배운 내용을 복습하였다. 정리하는 시간을 가지니 훨씬 머릿속에 잘 저장된 것 같아 기분이 좋아졌다.
일 시 2025. 3. 17. (월) 18:00 ~ 21:00
장 소 미래관 429호 자율주행스튜디오
참가자 명단 신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

 

Speech 

- 주파수(frequency): 소리의 피치 결정 

- 진폭(Amplitude): 소리의 크기 결정 

 

- Fourier Transform 

시간에 대한 함수를 주파수 성분으로 분해하는 변환 

여기서 음파를 일정한 시간 단위로 끊어서 window 단위로 FFT를 적용할 수 있음 

 

- Spectogram 

window별 FFT의 결과를 취합한 것으로 MEL-Spectogram은 주파수를 Mel scale로 변환하여 낮은 주파수에서 나타내는 것을 말한다. 

 

CNN에서 접근해보자. 

spectogram을 2d data로 다루기 위해서 CNN을 고려해보아야 한다. 

 

CNN을 사용한다면 훨씬 낮은 차원의 임베딩에서 처리할 수 있다는 장점이 있지만, 

시간적인 context를 다 고려하지 못한다는 점이 문제가 될 수 있다. 

 

따라서 CNN + RNN으로 접근할 수 있다. 

DeepSpeech2(2015) 논문에 따르면 

spectogram을 입력으로 받아 CNN이 특징을 추출하고 RNN이 시계열정보를 학습하는 구조가 제안되었다. 

위 구조로 학습을 진행한다면, 공간 feature를 시간 축으로 훑으면서 시간적 context를 많이 반영할 수 있어 CNN만 사용했을 시의 단점을 해결할 수 있다. 

 

- Video 

image는 눈으로 들어오는 시각 정보 중 한 시점의 snapshot으로 time 축으로 image를 확장한 것이 video라고 할 수 있다. 

video를 숫자로 저장하려면 아래와 같이 time축으로 samplig이 필요하다.

- single frame CNN 

매 frame을 독립적으로 취급하는 방법이다.

 

- 3D CNN 

3차원 Kernel을 이용하여 spatial한 정보 뿐만 아니라 temporal 정보도 모델링이 가능하다. 

-> spatiotemporal feature extraction 

SlowFast Network (2019) 논문을 보면, 

slow path를 통해 identity 모델링을 진행하고, fast path를 통해 motion 모델링을 진행하는 아키텍처가 제시되어있다.