Environnement informatique d'imagerie microscopique en biologie structurale à l'IGBMC

Lien vers la présentation.

Contexte scientifique À l'IGBMC (Institut de Génétique et de Biologie Moléculaire et Cellulaire, une unité mixte de recherche de l'université de Strasbourg, de l'Inserm et du CNRS, grand centre français de biologie et découpé en 4 départements, comptant en tout près de 750 personnes), le département de biologie structurale intégrative est confronté à des problématiques informatiques de stockage et de calcul relativement exigeantes. En effet, le principal microscope électronique en place doit être capable de générer 2 To de données brutes par jour qu'il faut ensuite stocker et traiter. Ce microscope n'est pas l'unique système d'acquisition local et fait partie d'une plateforme, dans le cadre d'Instruct pour la partie européenne et plus précisément FRISBI (French Infrastructure For Integrated Structural Biology) pour la partie française.

Infrastructure Nous avons donc mis en place et développé une infrastructure informatique conséquente, dédiée à la biologie structurale et en particulier à la microscopie électronique. Stockage Nous avons 288 To bruts de disques capacitifs, pilotés par 3 serveurs Dell R720xd et des baies de disques MD1200. Nous avons opté pour du stockage sur matériel générique car nous avions besoin de maîtriser au maximum la partie stockage (ainsi que toute le chaine « acquistions – stockage - traitement » afin de l'adapter à la problématique. Actuellement ces disques sont répartis en RAID6 sur 12 disques et agrégés en réplication simple par le système de fichiers distribué « GlusterFS », un logiciel libre dont la communauté a été rattachée à la société RedHat. Calcul Le calcul se découpe en 3 catégories. Nous avons des tâches extrêmement parallélisables (classification 2D de particules par exemple), des tâches gourmandes en mémoire (reconstruction 3D) et des pré/post-traitements ainsi que de la visualisation 3D demandant des ressources graphiques (affichage et GPGPU). Pour répondre à cela les chercheurs ont maintenant accès à plusieurs systèmes : deux serveurs R920 comprenant chacun 60 cœurs de calcul et 1To de RAM pour les tâches nécessitant beaucoup de mémoire, le méso-centre de l'Université de Strasbourg pour les tâches parallèles et des serveurs comportant des cartes graphiques. Nous avons contribué directement 256 cœurs au méso-centre. En effet, les travaux des chercheurs sont souvent groupés par a-coups, donc une mutualisation des gros moyens de calcul est judicieuse : nous déléguons la gestion et les coûts de fonctionnement en échange de temps de calcul disponible aux autres usagers du centre.

Réseau D'un point de vue réseau, toutes les interconnexions se font en 10gbps ethernet, y compris vers le méso-centre avec lequel nous avons collaboré efficacement. Les machines de traitement locales sont directement en montage permanent sur les données du stockage. Les machines d'acquisition et le méso-centre bénéficient d'une interface simplifiée de transfert de fichiers en parallèle. En effet, pour réussir à saturer un lien 10gpbs avec des fichiers de taille variable, et sur une réseau métropolitain pour la partie méso-centre, il est nécessaire de paralléliser les opérations sur les fichiers.

Conclusion Les chercheurs de biologie structurale de l'IGBMC ont maintenant accès à une infrastructure informatique forte, répondant aux divers problématiques inhérentes à leurs travaux. Il nous appartient maintenant de faire évoluer l'infrastructure en augmentant les capacités (le stockage est le prochain travail) là où les besoins se feront sentir. Nous pouvons aussi nous concentrer sur les programmes et la gestion des flux de données en étant assuré d'une base de travail solide et évolutive

public/michalon.txt · Dernière modification: 2015/12/31 15:39 par david@unistra.fr