작성자 | 김윤희 |
소 감 | 오늘은 논문 리뷰를 진행했다. 바쁜 학기 중에 논문 읽을 시간이 필요했는데, 모각코를 핑계로 읽을 수 있어서 좋았다. diffusion은 잘 모르는 분야라 친구들과 토론하며 이해하기도 좋았다. |
일 시 | 2025. 4. 4. (금) 18:00 ~ 21:00 |
장 소 | 미래관 429호 자율주행스튜디오 |
참가자 명단 | 신수민, 임혜진, 배세은, 김윤희 (총 4명) |
사 진 | ![]() |
Abstract
- diffusion model
- retraning 없이도 이미지 생성과정 제어 가능
- 일반적으로 픽셀 공간에서 직접 작동 → 오랜 시간 gpu 연산이 소모, 많은 추론 비용
- ⇒ cross-attention layer 추가 → 합성곱 방식으로 처리하여 고해상도 처리
- image inpainting, 조건부 이미지 생성에서 sota 달성
- text-to-image, unconditional image, super-resolution 등에서도 경쟁력있는 성능 달성
- DMs와 비교하여 computational requirements를 크게 줄인 상태에서
Introduction
- DMs의 문제점
- mode convering 동작에서 많은 capacity가 요구됨
- likelihood-based generative models이 갖는 특징 중 하나로 데이터 분ㅍ의 다양한 모드를 포괄적으로 모델링하려는 동작을 말함
- 다양한 데이터 패턴 이미지에서의 스타일, 색상, 형태 등을 균등? 하게 학습하고 생성된 샘플이 전체 데이터 분포를 잘 반영하도록 하려는 것
- [Denoising Diffusion Probabilistic Models, In NeurIPS, 2020] 에서 denosing 과정에서 샘플 수를 줄여 해결하려고 하지만 여전히 계산 요구사항이 높음
- 이러한 모델은 학습 및 평가 시에 RGB 이미지의 반복적인 gradient 계산이 필요해
- 방대한 계산 자원 필요
- 이미 학습된 모델을 평가하는데에도 시간 및 메모리 요구량이 높음
- mode convering 동작에서 많은 capacity가 요구됨
- latent space
- 이전 방법
위 figure의 경우 이미지의 많은 bits가 imperceptible detail에 대응됨
→ DMs가 loss term을 최소화함으로써 의미 없는 정보를 억제할 순 있지만 전체 모든 픽셀을 고려하며 gradient계산 및 backbone 평가를 진행해야하기에 불필요한 계산과 비싼 추론을 해야하는 문제점
⇒ perceptually equivalent하며 연산량을 줄일 수 있는 latent space 에서 DM을 적용한 LDM을 제시
- LDM
- autoencoder를 학습하는 단계
- data space와 perceptually equivalent한 낮은 차원의 representation space를 만드는 autoencoder임
- 학습된 latent space에서 DM을 학습하는 단계
- spatial compression에 의존하지 않음
- autoencoding 단계를 한 번만 학습하면 됨 → 다른 task에 재사용 가능
- 다양한 image-to-image or text-to-image 작업을 효율적으로 탐구할 수 있음
- autoencoder를 학습하는 단계
- 학습 과정은 두 단계로 나뉨
- contribution
- 순수 transformer 접근보다 더 높은 차원의 데이터에 확장이 유연? 함
- 이전 연구보다 더 충실하고 디테일한 복원을 제공하는 level을 제공
- high-resolution
- pixel based diffusion model에 비해 계산 비용 절감
Method
- compressive learning
- generative learning
Perceptual Image Compression
- perceptual loss와 patch-based adversarial objective 를 조합하여 학습된 autoencoder로 구성
- 이 방법은 L2 or L1에만 의존하여 생길 수 있는 blurriness를 피하며
- realism을 유지하여 복원이 image manifold에 제한되도록 보장 함
- 왜?
- perceptual loss는 단순히 픽셀 단위의 차이인 L2 or L1 을 최소화하지만 이미지의 feature를 고려함
- 중간 레이어의 출력을 사용해 input image와 복원된 이미지의 feature map 차이를 계산하도록 구성
- L1 or L2 를 계산하면서 평균화된 결과 → 흐릿해질 수 있음 ⇒ 이를 완화가능
- patch based → 이미지의 local detail을 학습하는데 효과적이므로
- global < local
- 정규화
- KL-reg
- vae와 유사하게 학습된 representation space에 대해 약간의 패널티?
- VQ-reg
- decoder 안에 있는 vector quantaization layer를 사용함 ( ~= VQGAN?)
- KL-reg
'윤희' 카테고리의 다른 글
[호붕싸 모각코 9차] Show and Tell code 구현 (0) | 2025.05.02 |
---|---|
[호붕싸 모각코 8차] 컴퓨터네트워크 복습 (0) | 2025.04.11 |
[호붕싸 모각코 6차] CA-MoE: Channel-Adapted MoE for Incremental Weather Forecasting 논문 리뷰 (0) | 2025.03.31 |
[호붕싸 모각코 5차] beakjoon 2225. 합분해 (0) | 2025.03.24 |
[호붕싸 모각코 4주차] semi-supervised learni (0) | 2025.03.22 |