윤희

[호붕싸 모각코 7차] High-Resolution Image Synthesis with Latent Diffusion Models 논문리뷰

y_unique 2025. 4. 4. 21:39
작성자 김윤희
소 감 오늘은 논문 리뷰를 진행했다. 바쁜 학기 중에 논문 읽을 시간이 필요했는데, 모각코를 핑계로 읽을 수 있어서 좋았다.
diffusion은 잘 모르는 분야라 친구들과 토론하며 이해하기도 좋았다.
일 시 2025. 4. 4. (금) 18:00 ~ 21:00
장 소 미래관 429호 자율주행스튜디오
참가자 명단 신수민, 임혜진, 배세은, 김윤희 (총 4명)
사 진

 

Abstract


  • diffusion model
    • retraning 없이도 이미지 생성과정 제어 가능
    • 일반적으로 픽셀 공간에서 직접 작동 → 오랜 시간 gpu 연산이 소모, 많은 추론 비용
    ⇒ pretranined auto encoder에 latent space에서 모델을 적용
  • ⇒ cross-attention layer 추가 → 합성곱 방식으로 처리하여 고해상도 처리
  • image inpainting, 조건부 이미지 생성에서 sota 달성
  • text-to-image, unconditional image, super-resolution 등에서도 경쟁력있는 성능 달성
    • DMs와 비교하여 computational requirements를 크게 줄인 상태에서

Introduction


  • DMs의 문제점
    • mode convering 동작에서 많은 capacity가 요구됨
      • likelihood-based generative models이 갖는 특징 중 하나로 데이터 분ㅍ의 다양한 모드를 포괄적으로 모델링하려는 동작을 말함
      • 다양한 데이터 패턴 이미지에서의 스타일, 색상, 형태 등을 균등? 하게 학습하고 생성된 샘플이 전체 데이터 분포를 잘 반영하도록 하려는 것
      • [Denoising Diffusion Probabilistic Models, In NeurIPS, 2020] 에서 denosing 과정에서 샘플 수를 줄여 해결하려고 하지만 여전히 계산 요구사항이 높음
      • 이러한 모델은 학습 및 평가 시에 RGB 이미지의 반복적인 gradient 계산이 필요해
    1. 방대한 계산 자원 필요
    2. 이미 학습된 모델을 평가하는데에도 시간 및 메모리 요구량이 높음
  • latent space
    • 이전 방법

 

위 figure의 경우 이미지의 많은 bits가 imperceptible detail에 대응됨

→ DMs가 loss term을 최소화함으로써 의미 없는 정보를 억제할 순 있지만 전체 모든 픽셀을 고려하며 gradient계산 및 backbone 평가를 진행해야하기에 불필요한 계산과 비싼 추론을 해야하는 문제점

⇒ perceptually equivalent하며 연산량을 줄일 수 있는 latent space 에서 DM을 적용한 LDM을 제시

  • LDM
    1. autoencoder를 학습하는 단계
      1. data space와 perceptually equivalent한 낮은 차원의 representation space를 만드는 autoencoder임
    2. 학습된 latent space에서 DM을 학습하는 단계
      1. spatial compression에 의존하지 않음
    장점
    • autoencoding 단계를 한 번만 학습하면 됨 → 다른 task에 재사용 가능
    • 다양한 image-to-image or text-to-image 작업을 효율적으로 탐구할 수 있음
  • 학습 과정은 두 단계로 나뉨
  • contribution
    • 순수 transformer 접근보다 더 높은 차원의 데이터에 확장이 유연? 함
    • 이전 연구보다 더 충실하고 디테일한 복원을 제공하는 level을 제공
    • high-resolution
    • pixel based diffusion model에 비해 계산 비용 절감

 

Method


  • compressive learning
  • generative learning

Perceptual Image Compression

  • perceptual loss와 patch-based adversarial objective 를 조합하여 학습된 autoencoder로 구성
    • 이 방법은 L2 or L1에만 의존하여 생길 수 있는 blurriness를 피하며
    • realism을 유지하여 복원이 image manifold에 제한되도록 보장 함
    • 왜?
      • perceptual loss는 단순히 픽셀 단위의 차이인 L2 or L1 을 최소화하지만 이미지의 feature를 고려함
      • 중간 레이어의 출력을 사용해 input image와 복원된 이미지의 feature map 차이를 계산하도록 구성
      • L1 or L2 를 계산하면서 평균화된 결과 → 흐릿해질 수 있음 ⇒ 이를 완화가능
      • patch based → 이미지의 local detail을 학습하는데 효과적이므로
        • global < local
  • 정규화
    • KL-reg
      • vae와 유사하게 학습된 representation space에 대해 약간의 패널티?
    • VQ-reg
      • decoder 안에 있는 vector quantaization layer를 사용함 ( ~= VQGAN?)