Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
https://arxiv.org/abs/2510.25976


fMRI 뇌 활동 기록을 통해 사람이 본 이미지를 재구성하는 기술은 인간의 뇌를 비침습적으로 들여다볼 수 있는 창을 제공합니다. 최근 확산 모델(diffusion models)을 통해 진전이 있었음에도 불구하고, 현재의 방법들은 실제 본 이미지에 대한 충실도가 부족한 경우가 많습니다.
우리는 이러한 문제를 해결하기 위해 뇌에서 영감을 받은 접근 방식인 “Brain-IT”를 제시합니다. 이 방법은 기능적으로 유사한 뇌 복셀(voxel) 클러스터 간의 효과적인 상호작용을 가능하게 하는 ‘뇌 상호작용 트랜스포머(Brain Interaction Transformer, BIT)’를 사용합니다. 이러한 기능적 클러스터는 모든 피험자에게 공유되며, 뇌 내부 및 뇌 간의 정보를 통합하기 위한 구성 요소 역할을 합니다. 모든 모델 구성 요소는 모든 클러스터 및 피험자에게 공유되므로 제한된 양의 데이터로도 효율적인 학습이 가능합니다.
이미지 재구성을 유도하기 위해, BIT는 두 가지 상호 보완적인 국소적 패치 수준 이미지 특징을 예측합니다. 즉, (i) 확산 모델이 이미지의 정확한 의미론적 콘텐츠를 향하도록 이끄는 ‘고수준 의미론적 특징’과 (ii) 이미지의 정확한 대략적 레이아웃으로 확산 과정을 초기화하는 데 도움이 되는 ‘저수준 구조적 특징’입니다.
BIT의 설계는 뇌 복셀 클러스터에서 국소적 이미지 특징으로 정보가 직접 흐를 수 있게 합니다. 이러한 원리를 통해, 우리 방법은 fMRI로부터 본 이미지를 충실하게 재구성하며, 시각적으로나 표준 객관 지표로나 현재의 최고 수준(SotA) 접근 방식들을 능가합니다.
더욱이, 새로운 피험자로부터 단 1시간 분량의 fMRI 데이터만으로도, 40시간 전체 기록으로 학습된 현재의 방법들과 비슷한 수준의 결과를 달성합니다.
바로: 이미지 출력이 점차 가시화 된다. 텍스트 그리고 사유의 출력은? 그리고 입력은?