[호붕싸 모각코 7차] High-Resolution Image Synthesis with Latent Diffusion Models 논문리뷰

윤희

y_unique 2025. 4. 4. 21:39

작성자	김윤희
소 감	오늘은 논문 리뷰를 진행했다. 바쁜 학기 중에 논문 읽을 시간이 필요했는데, 모각코를 핑계로 읽을 수 있어서 좋았다. diffusion은 잘 모르는 분야라 친구들과 토론하며 이해하기도 좋았다.
일 시	2025. 4. 4. (금) 18:00 ~ 21:00
장 소	미래관 429호 자율주행스튜디오
참가자 명단	신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

Abstract

diffusion model
- retraning 없이도 이미지 생성과정 제어 가능
- 일반적으로 픽셀 공간에서 직접 작동 → 오랜 시간 gpu 연산이 소모, 많은 추론 비용
⇒ pretranined auto encoder에 latent space에서 모델을 적용
⇒ cross-attention layer 추가 → 합성곱 방식으로 처리하여 고해상도 처리
image inpainting, 조건부 이미지 생성에서 sota 달성
text-to-image, unconditional image, super-resolution 등에서도 경쟁력있는 성능 달성
- DMs와 비교하여 computational requirements를 크게 줄인 상태에서

위 figure의 경우 이미지의 많은 bits가 imperceptible detail에 대응됨

→ DMs가 loss term을 최소화함으로써 의미 없는 정보를 억제할 순 있지만 전체 모든 픽셀을 고려하며 gradient계산 및 backbone 평가를 진행해야하기에 불필요한 계산과 비싼 추론을 해야하는 문제점

⇒ perceptually equivalent하며 연산량을 줄일 수 있는 latent space 에서 DM을 적용한 LDM을 제시

LDM
1. autoencoder를 학습하는 단계
  1. data space와 perceptually equivalent한 낮은 차원의 representation space를 만드는 autoencoder임
2. 학습된 latent space에서 DM을 학습하는 단계
  1. spatial compression에 의존하지 않음
장점
- autoencoding 단계를 한 번만 학습하면 됨 → 다른 task에 재사용 가능
- 다양한 image-to-image or text-to-image 작업을 효율적으로 탐구할 수 있음
학습 과정은 두 단계로 나뉨
contribution
- 순수 transformer 접근보다 더 높은 차원의 데이터에 확장이 유연? 함
- 이전 연구보다 더 충실하고 디테일한 복원을 제공하는 level을 제공
- high-resolution
- pixel based diffusion model에 비해 계산 비용 절감

perceptual loss와 patch-based adversarial objective 를 조합하여 학습된 autoencoder로 구성
- 이 방법은 L2 or L1에만 의존하여 생길 수 있는 blurriness를 피하며
- realism을 유지하여 복원이 image manifold에 제한되도록 보장 함
- 왜?
  - perceptual loss는 단순히 픽셀 단위의 차이인 L2 or L1 을 최소화하지만 이미지의 feature를 고려함
  - 중간 레이어의 출력을 사용해 input image와 복원된 이미지의 feature map 차이를 계산하도록 구성
  - L1 or L2 를 계산하면서 평균화된 결과 → 흐릿해질 수 있음 ⇒ 이를 완화가능
  - patch based → 이미지의 local detail을 학습하는데 효과적이므로
    - global < local
정규화
- KL-reg
  - vae와 유사하게 학습된 representation space에 대해 약간의 패널티?
- VQ-reg
  - decoder 안에 있는 vector quantaization layer를 사용함 ( ~= VQGAN?)

[호붕싸 모각코 9차] Show and Tell code 구현 (0)	2025.05.02
[호붕싸 모각코 8차] 컴퓨터네트워크 복습 (0)	2025.04.11
[호붕싸 모각코 6차] CA-MoE: Channel-Adapted MoE for Incremental Weather Forecasting 논문 리뷰 (0)	2025.03.31
[호붕싸 모각코 5차] beakjoon 2225. 합분해 (0)	2025.03.24
[호붕싸 모각코 4주차] semi-supervised learni (0)	2025.03.22

현재글[호붕싸 모각코 7차] High-Resolution Image Synthesis with Latent Diffusion Models 논문리뷰

호붕싸

hobungssa 님의 블로그 입니다.

semi-supervised, consistency regularization, DP, mean teacher, 코딩, 합분해, 2225, 알고리즘,