Reconstruction d'images haute résolution à partir de l'activité cérébrale humaine avec des modèles de diffusion latente

Résumé

Dans une étude récente, Yu Takagi et Shinji Nishimoto ont proposé une nouvelle méthode pour reconstruire des expériences visuelles à partir de l'activité cérébrale humaine en utilisant un modèle de diffusion latente (LDM) appelé Stable Diffusion. Cette approche réduit les coûts computationnels tout en préservant les performances de génération d'images. Les chercheurs ont réussi à reconstruire des images haute résolution avec une grande fidélité sémantique sans avoir besoin d'entraînement supplémentaire ni de réglage fin de modèles d'apprentissage profond complexes.

Figure 1. Images présentées (encadré rouge, rangée supérieure) et images reconstruites à partir des signaux IRMf (encadré gris, rangée inférieure) pour un sujet (subj01).

Une nouvelle méthode pour la reconstruction d'images

L'étude se concentre sur la reconstruction d'images à partir de l'activité cérébrale humaine obtenue par imagerie par résonance magnétique fonctionnelle (IRMf). La méthode Stable Diffusion permet de mieux comprendre comment le cerveau représente le monde et d'interpréter la connexion entre les modèles de vision par ordinateur et notre système visuel.

Comment ça marche ?

La méthode utilise un modèle de diffusion latente nommé Stable Diffusion pour reconstruire les images à partir des signaux d'IRMf. L'architecture du modèle est entraînée sur un grand ensemble de données et présente de hautes performances en génération d'images à partir de texte.

Figure 2. Performance de prédiction (mesurée à l'aide des coefficients de corrélation de Pearson) pour le modèle d'encodage par voxel appliqué aux images test de rétention chez un seul sujet (subj01), projetées sur la surface corticale gonflée (en haut, vues latérale et médiale) et aplatie (en bas, les zones occipitales sont au centre), pour les hémisphères gauche et droit, les zones occipitales sont au centre), pour les hémisphères gauche et droit. Les régions cérébrales présentant une précision significative sont colorées (tous les voxels colorés P < 0,05, FDR corrigé).

Principaux résultats

Les résultats montrent que cette approche simple peut reconstruire des images haute résolution (512x512) avec une grande fidélité sémantique sans entraînement ni ajustement fin de modèles d'apprentissage profond complexes. De plus, les chercheurs ont réussi à interpréter quantitativement chaque composant du LDM d'un point de vue neuroscientifique en les associant à des régions cérébrales distinctes.

Conclusion

Cette étude propose une méthode prometteuse pour la reconstruction d'images à partir de l'activité cérébrale humaine et offre un nouveau cadre pour la compréhension des modèles de diffusion. Vous pouvez consulter la page web du projet à l'adresse suivante : https://sites.google.com/view/stablediffusion-with-brain/.

Source : BiorXiv