[호붕싸 모각코 2주차] Unimodal Representation

세은

[호붕싸 모각코 2주차] Unimodal Representation - Image

뱁새은 2025. 3. 14. 21:30

기존 Neural Network의 한계

기존의 전통적인 인공신경망(ANN, Artificial Neural Network)은 이미지 데이터를 처리하는 데 있어 몇 가지 근본적인 한계를 가지고 있음. 이러한 한계는 네트워크가 복잡한 패턴을 학습하는 데 장애물이 될 수 있으며, 학습 속도와 정확도에 영향을 미칠 수 있음.

공간적 구조 손실
- 일반적인 Fully Connected Layer를 사용하는 경우, 이미지는 2D(가로×세로) 형태의 행렬이 아닌 1차원 벡터로 변환되어야 함. 이 과정에서 원본 이미지의 공간적 구조가 손실되며, 중요한 시각적 특징들이 희미해지거나 완전히 사라질 수 있음.
- 예를 들어, 얼굴 이미지를 분석하는 경우, 눈, 코, 입과 같은 개별적인 특징들이 위치에 따라 중요한 정보를 가질 수 있음. 그러나 1차원 변환 과정에서 이러한 특징들의 상관관계가 깨지게 됨.
가중치 수 증가
- 이미지의 해상도가 커질수록 학습해야 하는 가중치의 개수도 기하급수적으로 증가함. 이는 신경망의 학습 속도를 저하시킬 뿐만 아니라, 데이터가 충분하지 않을 경우 오버피팅 문제가 발생할 가능성을 증가시킴.
- 예를 들어, 256×256 픽셀 크기의 흑백 이미지 하나를 입력 데이터로 사용할 경우, Fully Connected Layer에서는 65,536개의 입력 뉴런이 필요하게 되며, 컬러 이미지(RGB)의 경우 3배가 증가하여 196,608개의 입력 뉴런이 필요하게 됨.

CNN의 등장과 구조

CNN은 위에서 언급한 문제를 해결하기 위해 등장하였으며, 이미지 데이터의 공간적 특징을 유지하면서도 효율적으로 학습할 수 있도록 설계된 딥러닝 모델임. CNN의 기본적인 구조는 다음과 같음.

[CONV & ReLU & POOL] × N ➔ Flatten ➔ FC ➔ Softmax

각 단계의 역할은 다음과 같음.

Convolution (CONV) Layer: 이미지에서 작은 지역 단위의 특징을 추출하여, 전체 이미지의 공간적 구조를 유지하면서도 중요한 패턴을 학습함.
ReLU Activation: 비선형성을 추가하여 신경망이 더 복잡한 특징을 학습할 수 있도록 함.
Pooling (POOL) Layer: 특징 맵의 크기를 줄여 연산량을 감소시키고, 중요한 정보를 유지하면서도 불필요한 세부 정보를 제거함.
Flatten & Fully Connected Layer (FC): CNN이 학습한 특징을 벡터 형태로 변환하여 최종적으로 분류 작업을 수행함.
Softmax Layer: 다중 클래스 분류 작업에서 각 클래스에 대한 확률을 계산하여 최종적인 예측을 수행함.

CNN의 장점

CNN은 기존 신경망의 한계를 극복하며, 특히 이미지 및 영상 데이터를 처리하는 데 뛰어난 성능을 제공함. 주요 장점은 다음과 같음.

공간적 구조를 유지하면서 특징을 학습할 수 있음
- 필터를 이용한 지역적 특징 추출이 가능하며, 원본 이미지의 구조를 보존하면서도 중요한 패턴을 감지할 수 있음.
가중치 공유를 통해 학습해야 하는 파라미터 수가 감소함
- 같은 필터(커널)가 여러 영역에서 반복적으로 사용되기 때문에, 학습해야 하는 전체 가중치의 개수가 줄어들며, 이는 학습 속도를 향상시키고 오버피팅을 방지하는 데 도움을 줌.
계층적인 특징 학습이 가능함
- CNN의 깊은 층을 통해 저수준 특징(선, 모서리, 색상 등)에서부터 고수준 특징(객체, 패턴 등)까지 점진적으로 학습할 수 있음.
위치 변화에도 일관된 특징 학습이 가능하여 강건한 성능을 제공함
- 풀링 레이어 및 컨볼루션 연산을 통해 이미지의 일부가 이동하거나 회전되더라도 강건한 특징을 추출할 수 있음.

대표적인 CNN 모델

1) VGGNet

2014년 ImageNet 챌린지에서 2위를 차지한 모델로, 옥스포드 대학교 VGG 연구팀에서 개발함.
3×3 컨볼루션 필터만을 사용하며, 깊이를 증가시키는 전략을 채택하여 성능을 향상시킴.
네트워크 깊이가 8층에서 19층까지 증가하며, 깊이가 증가할수록 더 복잡한 특징을 학습할 수 있도록 설계됨.
오차율이 11.7%에서 7.3%로 감소하며, 네트워크의 깊이가 모델 성능 향상에 기여함.

2) ResNet

2015년 ImageNet 챌린지에서 우승한 모델로, Microsoft가 개발함.
네트워크가 깊어질수록 최적화가 어려워지는 문제를 해결하기 위해 Residual Connection을 도입함.
Short connection을 추가하여, 네트워크의 깊이가 증가해도 학습이 원활하게 이루어질 수 있도록 설계됨.
ResNet-50 모델은 2048차원의 Embedding을 제공하며, 일반적으로 ImageNet Pre-trained 모델을 활용하여 다양한 응용에서 사용됨.

주요 Computer Vision 작업

1) Segmentation

Segmentation은 입력 이미지와 동일한 해상도의 출력을 생성해야 하는 작업으로, 픽셀 단위로 객체를 분류하는 방식으로 진행됨.
의료 영상 분석, 자율 주행, 위성 이미지 분석 등 다양한 분야에서 활용됨.
Loss Function: Pixel-wise Cross Entropy Loss 사용하여 학습함.

2) Object Detection

Object Detection은 Localization과 Classification를 동시에 수행하는 작업임.
관심 영역(Region of Interest, RoI) 기반으로 물체의 위치를 찾고, 각 객체를 분류하는 방식으로 진행됨.
대표적인 Object Detection 모델로는 Faster R-CNN, YOLO, SSD 등이 있음.
Loss Function: Localization Loss + Classification Loss 조합하여 최적화함.

CNN은 이미지 분석에서 가장 강력한 성능을 발휘하는 모델 중 하나이며, 다양한 컴퓨터 비전 작업에 필수적으로 사용됨. 이미지 분류, 객체 탐지, 이미지 캡셔닝, 얼굴 인식, 자율 주행 등과 같은 다양한 분야에서 활용되며, 심층 신경망 기반의 대표적인 아키텍처로 자리 잡음.

작성자	배세은
소 감	알고있는 내용을 한 번 더 정리하는 기회가 되어 좋았고, object detection 모델이 localization하는 부분은 다시 배우게 되어도 신기한 것 같다.
일 시	2025. 3. 14. (금) 18:00 ~ 21:00
장 소	미래관 429호 자율주행스튜디오
참가자 명단	신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

'세은' 카테고리의 다른 글

[호붕싸 모각코 6차] 논문 리뷰 - Attention is All you Need (0)	2025.03.31
[호붕싸 모각코 5차] Image Captioning - Evaluation (0)	2025.03.24
[호붕싸 모각코 4주차] 컴퓨터 네트워크 - 인터넷의 구조와 네트워크 접근 방식 (0)	2025.03.22
[호붕싸 모각코 3주차] Semi-Supervised Learning (0)	2025.03.17
[호붕싸 모각코 1주차] Unimodal Representation - Text (0)	2025.03.10

현재글[호붕싸 모각코 2주차] Unimodal Representation - Image

호붕싸

hobungssa 님의 블로그 입니다.

mean teacher, 코딩, 합분해, DP, 알고리즘, semi-supervised, 2225, consistency regularization,

Today :
Yesterday :

호붕싸