|
인간 두뇌 활동의 잠재 확산 모델을 사용한 고해상도 이미지 재구성
다카기와 니시모토, CVPR 2023
개요
추상적인
인간의 뇌 활동에서 시각적 경험을 재구성하면 뇌가 세상을 나타내는 방식을 이해하고 컴퓨터 비전 모델과 시각 시스템 간의 연결을 해석할 수 있는 고유한 방법이 제공됩니다. 최근 이 작업을 위해 심층 생성 모델이 사용되었지만 의미론적 충실도가 높은 사실적인 이미지를 재구성하는 것은 여전히 어려운 문제입니다. 여기에서는 기능적 자기 공명 영상(fMRI)을 통해 얻은 인간의 뇌 활동에서 이미지를 재구성하기 위해 확산 모델(DM)을 기반으로 하는 새로운 방법을 제안합니다. 보다 구체적으로 우리는 Stable Diffusion이라는 LDM(잠재 확산 모델)에 의존합니다. 이 모델은 높은 생성 성능을 유지하면서 DM의 계산 비용을 줄입니다. 우리는 또한 LDM의 다른 구성 요소(예: 잠재 벡터 Z, 컨디셔닝 입력 C 및 노이즈 제거 U-Net의 다른 요소)는 뚜렷한 뇌 기능과 관련됩니다. 우리는 제안한 방법이 복잡한 딥 러닝 모델의 추가 교육 및 미세 조정 없이 간단하고 높은 충실도로 고해상도 이미지를 재구성할 수 있음을 보여줍니다. 또한 신경과학적 관점에서 다양한 LDM 구성 요소에 대한 정량적 해석을 제공합니다. 전반적으로 우리 연구는 인간의 뇌 활동에서 이미지를 재구성하는 유망한 방법을 제안하고 DM을 이해하기 위한 새로운 프레임워크를 제공합니다. 복잡한 딥 러닝 모델의 추가 교육 및 미세 조정이 필요하지 않습니다. 또한 신경과학적 관점에서 다양한 LDM 구성 요소에 대한 정량적 해석을 제공합니다. 전반적으로 우리 연구는 인간의 뇌 활동에서 이미지를 재구성하는 유망한 방법을 제안하고 DM을 이해하기 위한 새로운 프레임워크를 제공합니다. 복잡한 딥 러닝 모델의 추가 교육 및 미세 조정이 필요하지 않습니다. 또한 신경과학적 관점에서 다양한 LDM 구성 요소에 대한 정량적 해석을 제공합니다. 전반적으로 우리 연구는 인간의 뇌 활동에서 이미지를 재구성하는 유망한 방법을 제안하고 DM을 이해하기 위한 새로운 프레임워크를 제공합니다.
High-resolution image reconstruction with latent diffusion models from human brain activity
Accepted at CVPR 2023
Yu Takagi* 1,2 , Shinji Nishimoto 1,2
1. Graduate School of Frontier Biosciences, Osaka University, Japan
2. CiNet, NICT, Japan
[ Paper | Code (Coming soon!) ]
Abstract
Reconstructing visual experiences from human brain activity offers a unique way to understand how the brain represents the world, and to interpret the connection between computer vision models and our visual system. While deep generative models have recently been employed for this task, reconstructing realistic images with high semantic fidelity is still a challenging problem. Here, we propose a new method based on a diffusion model (DM) to reconstruct images from human brain activity obtained via functional magnetic resonance imaging (fMRI). More specifically, we rely on a latent diffusion model (LDM) termed Stable Diffusion. This model reduces the computational cost of DMs, while preserving their high generative performance. We also characterize the inner mechanisms of the LDM by studying how its different components (such as the latent vector Z, conditioning inputs C, and different elements of the denoising U-Net) relate to distinct brain functions. We show that our proposed method can reconstruct high-resolution images with high fidelity in straightforward fashion, without the need for any additional training and fine-tuning of complex deep-learning models. We also provide a quantitative interpretation of different LDM components from a neuroscientific perspective. Overall, our study proposes a promising method for reconstructing images from human brain activity, and provides a new framework for understanding DMs.
Reconstructing visual experiences from human brain activity with Stable Diffusion
We demonstrate that our simple framework can reconstruct high-resolution images from brain activity with high semantic fidelity, without the need for training or fine-tuning of complex deep generative models.
Left: Overview of our framework. Right: Presented images (redbox, top row) and images reconstructed from human brain activity (grey box, bottom row).
How does it work?
We reconstructed visual images from functional Magnetic Resonance Imaging (fMRI) signals using a latent diffusion model named Stable Diffusion.
Visualization of denoising process conditioned with human brain activity
Understanding internal process of Stable Diffusion with encoding models of brain activity
We quantitatively interpret each component of an LDM from a neuroscience perspective, by mapping specific components to brain regions.
We also present an objective interpretation of how the text-to-image conversion process implemented by an LDM incorporates the semantic information expressed by the conditional text, while at the same time maintaining the appearance of the original image
BibTeX
@article {Takagi2022.11.18.517004,
author = {Takagi, Yu and Nishimoto, Shinji},
title = {High-resolution image reconstruction with latent diffusion models from human brain activity},
elocation-id = {2022.11.18.517004},
year = {2022},
doi = {10.1101/2022.11.18.517004},
publisher = {Cold Spring Harbor Laboratory},
URL = {https://www.biorxiv.org/content/early/2022/11/21/2022.11.18.517004},
eprint = {https://www.biorxiv.org/content/early/2022/11/21/2022.11.18.517004.full.pdf},
journal = {bioRxiv}
}
OpenAI Plugin 출시의 의미는 정말 엄청납니다. 이제 ChatGPT로 인터넷에서 하는 모든 게 가능한 세상이 옵니다.