작성자 | 김윤희 |
소 감 | 오늘은 멀티모달인공지능 수업시간에 배운 내용을 복습하였다. 정리하는 시간을 가지니 훨씬 머릿속에 잘 저장된 것 같아 기분이 좋아졌다. |
일 시 | 2025. 3. 17. (월) 18:00 ~ 21:00 |
장 소 | 미래관 429호 자율주행스튜디오 |
참가자 명단 | 신수민, 임혜진, 배세은, 김윤희 (총 4명) |
사 진 | ![]() |
Speech
- 주파수(frequency): 소리의 피치 결정
- 진폭(Amplitude): 소리의 크기 결정

- Fourier Transform
시간에 대한 함수를 주파수 성분으로 분해하는 변환

여기서 음파를 일정한 시간 단위로 끊어서 window 단위로 FFT를 적용할 수 있음
- Spectogram
window별 FFT의 결과를 취합한 것으로 MEL-Spectogram은 주파수를 Mel scale로 변환하여 낮은 주파수에서 나타내는 것을 말한다.
CNN에서 접근해보자.
spectogram을 2d data로 다루기 위해서 CNN을 고려해보아야 한다.
CNN을 사용한다면 훨씬 낮은 차원의 임베딩에서 처리할 수 있다는 장점이 있지만,
시간적인 context를 다 고려하지 못한다는 점이 문제가 될 수 있다.
따라서 CNN + RNN으로 접근할 수 있다.
DeepSpeech2(2015) 논문에 따르면
spectogram을 입력으로 받아 CNN이 특징을 추출하고 RNN이 시계열정보를 학습하는 구조가 제안되었다.

위 구조로 학습을 진행한다면, 공간 feature를 시간 축으로 훑으면서 시간적 context를 많이 반영할 수 있어 CNN만 사용했을 시의 단점을 해결할 수 있다.
- Video
image는 눈으로 들어오는 시각 정보 중 한 시점의 snapshot으로 time 축으로 image를 확장한 것이 video라고 할 수 있다.
video를 숫자로 저장하려면 아래와 같이 time축으로 samplig이 필요하다.

- single frame CNN
매 frame을 독립적으로 취급하는 방법이다.

- 3D CNN
3차원 Kernel을 이용하여 spatial한 정보 뿐만 아니라 temporal 정보도 모델링이 가능하다.
-> spatiotemporal feature extraction

SlowFast Network (2019) 논문을 보면,
slow path를 통해 identity 모델링을 진행하고, fast path를 통해 motion 모델링을 진행하는 아키텍처가 제시되어있다.

'윤희' 카테고리의 다른 글
[호붕싸 모각코 6차] CA-MoE: Channel-Adapted MoE for Incremental Weather Forecasting 논문 리뷰 (0) | 2025.03.31 |
---|---|
[호붕싸 모각코 5차] beakjoon 2225. 합분해 (0) | 2025.03.24 |
[호붕싸 모각코 4주차] semi-supervised learni (0) | 2025.03.22 |
[호붕싸 모각코 2주차] 실전프로젝트 문제 다시풀기 (0) | 2025.03.14 |
[호붕싸 모각코 1주차] Leetcode 62. Unique Paths, 72. Edit Distance (0) | 2025.03.10 |