본문 바로가기
논문/image generation

High-Resolution Image Synthesis with Latent Diffusion Models

by dohunNewte 2024. 6. 25.
반응형

Abstract

이미지 형성 과정을 denoising autoencoders의 순차적 적용으로 분해함으로써 diffusion models(DMs)는 sota를 성취했습니다.

게다가 그들의 함수는 재학습없이 이미지 generation을 컨트롤 하기 위한 매커니즘을 guide하는 것을  항상 허락합니다. 

픽셀 공간에서 직접 작동하는 denoise autoencoder 기반의 이미지 생성 모델은 계산 복잡도가 높아 실용적인 활용에 어려움이 있습니다.

그래서 저자들은 강력한 pretrain된 autoencoder의 latent space를 적용했습니다.이전의 연구와는 대조적으로 diffusion model을 특정한 representation에서 학습하는것이 복잡도 감소와 세부 정보 보존 간의 최적점을 달성할 수 있습니다.모델 아키텍쳐에서 cross-attention layer를 소개하면서 저자들은 diffusion model을 text, bounding box, 고해상도 환경의 합성 input 에서 강력하고 flexible한 생성이 가능했습니다.저자들의 latent diffusion model(LDMs)는 sota를 성취했습니다.

 

Method

diffusion 모델을 훈련할때 computational을 줄이기 위해서 저자들은 diffusion 모델이 loss term을 undersampling하여 지각적으로 무관한 부분을 무시하도록 했습니다. 그런데도 여전히 픽셀단위에서 많은 비용이 듭니다.

이 문제를 해결하기위해  생성적 학습단계로부터 압축 단계를 분리했습니다. 

이것을 성취하기 위해서 저자들은 autoencoder 모델을 활용했습니다. autoencoder는 이미지의 공간과 지각적으로 동등한 공간을 학습하지만 계산 복잡도는 크게 감소합니다.

autoencoder는 여러가지 장점이 있습니다.

1. 저차원 공간에서 샘플링을 수행하므로 계산적으로 훨씬 더 효율적입니다.

2. UNet 아키텍쳐에서 사용된 귀납적 편향을 활용할 수 있습니다.

3. 다양한 생성 모델을 학습하고 단일 이미지 CLIP과 같은 압축 모델의 잠재 공간을 얻을 수 있습니다.

 

3.1. Perceptual Image Compression

저자들의 이해하는 모델은 이전의 연구에 기반되었고 perceptual loss의 균형에 의한 훈련된 오토인코더, patch-based adversarial objective에 기반되었다.

이 접근방식은 local한 사실을 강제함으로써 재구성된 이미지가 다양한 이미지내에 국한되도록 하며 L1, L2와 같은 픽셀 공간 손실에만 의존하여 발생하는 문제를 피할 수 있습니다.

 

input이미지가 HxWx3으로 주어졌을때

코더 E는 x를 잠재 표현 z = E(x)로 인코딩합니다.

디코더 D는 잠재 표현 z에서 재구성된 이미지 x̃ = D(z) = D(E(x))를 출력합니다.

중요한 점은 인코더가 이미지를 다운샘플링한다는 것입니다. 다운샘플링 비율은 f = H/h = W/w로, 다양한 정수 m에 대해 f = 2^m을 고려합니다.

즉, 인코더는 입력 이미지 크기를 H×W에서 h×w로 줄이며, 이 과정에서 압축된 잠재 표현 z를 생성합니다.

 

이 논문은 latent space의 분산이 임의로 높아지는 것을 방지하기 위해 두가지 유형의 정규화 기법을 사용했습니다.

첫번째는 KL-reg입니다. 이는 VAE와 유사하게 학습된 latent presentation에 대해 표준 정규 분포를 향한 약간의 KL 패널티를 부과합니다.

두번째는 VQ-reg입니다. 이는 decoer 내부에 벡터 quantization layer를 사용합니다.

이 모델은 VQGAN과 유사하게 해석될 수 있지만, 양자화 계층이 decoder에 포함되어 있습니다.

2차원의 latent space 구조를 활용함으로써 이 연구는 입력 이미지 x의 세부사항을 잘 보존할 수 있었습니다.

 

3.2 Latent Diffusion Models

모델의 아키텍쳐

Diffusion 모델은 점진적으로 정규분포 변수들을 denoising함으로 data 분포 p(x)를 학습하는 확률적인 모델이며 이 모델은 길이 T의 고정된 마르코프 체인의 역과정을 학습합니다.

이미지 합성 분야에서 가장 성공적인 diffusion model은 p(x)에 대한 variational lower bound의 재가중 변형(reweighted variant)을 사용합니다. 이는 denoising score-matching 기법과 유사합니다.

 

diffusion모델은 동일한 가중치를 가진 일련의 denoising autoencoder로 해석할 수 있습니다.

이 denosing encoder는 xt의 denoising된 버전을 예측하도록 학습됩니다. 여기서 xt는 입력 x의 노이즈가 포함된 버전 입니다.

Latent Representations의 모델링 생성에서 저자들은 효율적인 접근방식을 사용햇으며 고주파와 같은 저차원 latent 공간에는 인지되지 않은 세부정보가 추상화되어 있습니다

이러한 방식을 사용해서 고차원의 픽셀 정보와 비교했을때 효율적인 계산량의 감소가 있었습니다.

 

이전 연구는 고도로 압축된 latent space에서 autoregressive인 attention 기반의 transformer 모델을 사용했으며 이것은 귀납적 편향(inductive biases)의 장점이 있습니다. 이것을 이용하여 2D convolution layer로 구성된 기본 UNet구조를 구축할 수 있었고 재가중된 목적함수(reweighted bound)를 이용하여 지각적으로 가장 관련성 있는 비트에 초점을 맞출 수 있었습니다.

 

3.3. Conditioning Mechanisms

확산 모델은 조건부 분포를 모델링할 수 있는 능력을 가지고 있으며, 이를 통해 다양한 입력 데이터를 활용하여 생성 과정을 제어할 수 있습니다.

diffusion 모델의 생성능력은 클래스 레이블이나 흐린 입력 이미지 외의 다른 유형의 조건과 결합하는것은 아직 연구되지 않은 영역입니다. 이를 위해 저자들은 UNet 아키텍쳐에 cross-attention 매커니즘을 도입했습니다.

 

Experiments

이미지 합성에 대한 평가지표 입니다.

LDM모델이 대부분의 지표에서 성능이 좋음을 보여줍니다.

이 표는 256x256 크기의 MS-COCO 데이터셋에서 텍스트 조건부 이미지 합성에 대한 평가 결과를 보여줍니다.

  • FID(Fréchet Inception Distance): 생성된 이미지와 실제 데이터 분포 간의 유사도를 측정하는 지표. 값이 낮을수록 생성 품질이 우수하다고 평가됩니다.
  • IS(Inception Score): 생성된 이미지의 다양성과 품질을 평가하는 지표. 값이 높을수록 생성 품질이 우수하다고 평가됩니다.
  • Nparams: 모델의 매개변수 개수. 일반적으로 매개변수 개수가 적을수록 모델이 효율적이라고 볼 수 있습니다.

저자들의 모델이 이들 모델에 비해 훨씬 적은 매개변수를 사용했다는 점에서 주목할 만한 결과입니다.

728x90

댓글