Infrastructures

Le paysage des infrastructures destinées à la recherche scientifique est vaste. Cette section est destinée à la présentation d’infrastructures européennes, nationales, thématiques dans différents domaines. Cette liste n’est bien sûr pas exhaustive et sa caractéristique principale est d’être alimentée par les présentations qui ont été réalisées au cours des événements organisés par les réseaux métiers. Ces exposés ciblent donc en général le public de ces réseaux.

Infrastructures Européennes

Ces infrastructures font régulièrement l’objet de présentations qui permettent de comprendre leur organisation, leur mode de fonctionnement, et de suivre leurs évolutions.

European Open Science Cloud (EOSC), Infrastructure Européenne pour la science ouverte (en cours de montage)

Le cloud européen EOSC a été abordé par Volker Beckman, chargé de mission CNRS-EOSC et Directeur adjoint scientifique Calcul et Données IN2P3/CNRS, lors des JCAD 2019. Il explique comment concrètement les chercheurs peuvent utiliser EOSC, et fait le point sur les principales questions que vous vous posez peut-être sur EOSC : Qu’est ce que EOSC ? Où en est-on et quelles sont les prochaines étapes ? Comment puis-je contribuer et/ou bénéficier ? EOSC en France. Il présente la stratégie européenne d’élaboration de ce Cloud européen lancé en 2016, qui offre aux chercheurs des services, l’accès à des données et à d’autres ressources fournies par des infrastructures de recherche publiques nationales, régionales et institutionnelles en Europe. Partant des nombreux appels à projets qui ont été lancés pour construire ce cloud (EOSCpilot, EOSC-hub, EOSC-Pillar, etc.), il expose les possibilités de collaboration. Depuis 2019, une structuration se met en place : une gouvernance temporaire et une implication forte des ministères nationaux comme têtes de file des communautés scientifiques impliquées. Ces travaux préparatoires devraient déboucher sur d’importantes opportunités de financement dans le “Horizon Europe Work Programme”. Le lien avec l’infrastructure nationale France Grilles est également décrit.

EOSC a fait l’objet d’une journée spéciale au CNRS en janvier 2020. Cette journée a en particulier permis de faire le point sur l’implication française dans le projet à travers plusieurs exemples. Une journée nationale EOSC-France aura lieu en février 2021.

Plus récemment dans le cadre de l’atelier Dialogu’IST, Réseau Renatis, le 9 juillet 2020, une autre présentation de Volker Beckman a fait le point sur l’European Open Science Cloud (EOSC), opportunités pour la recherche en France.

Enfin, lors des JCAD 2020, Volker Beckmann a présenté dans “EOSC en France: défis et opportunités.” (vidéo) les prochaines étapes prévues.

EOSC en France: défis et opportunités.

Vidéo :
Volker Beckmann, Chargé de mission EOSC France pour le ministère.
JCAD 2020

EOSC est ouvert à la participation de fournisseurs de services, que ce soit des services de stockage ou de traitement de données ou encore des services de publication. Différents projets européens successifs ont pour objectif de préparer EOSC. Dans le cadre du projet EOSC-Pillar, une enquête internationale a été menées dans cinq pays (Allemagne, Autriche, Belgique, France et Italie) pour connaître l’état des Infrastructures de Recherche, e-infrastructures, universités et organismes financeurs par rapport à une éventuelle participation à EOSC. Un aperçu des résultats de cette enquête a été présenté lors des JCAD 2020.

Que nous apprend l’enquête du projet européen EOSC-Pillar ?

Vidéo :
Geneviève Romier, Centre de Calcul de l’IN2P3, CNRS
JCAD 2020

Infrastructure Européenne EGI (infrastructure proposant différents services basés sur des infrastructures grille et cloud), egi.eu

L’infrastructure EGI a été présentée de façon complète en 2018 lors des JCAD, Journées Calcul et Données : la fédération, les participants, le catalogue de services, les utilisateurs, le positionnement dans EOSC. Le projet EOSC-Hub qui participe à la construction d’EOSC est également détaillé. C’est la présentation à consulter si vous souhaitez savoir ce qu’est EGI.

EGI, the EOSC and the Hub

Vidéo EGI, the EOSC and the Hub Yannick Legré, directeur de la fondation EGI
JCAD 2018

Une présentation des évolutions a eu lieu en 2019 avec un focus sur quelques services EGI - Check-in, Cloud, Stockage, Notebooks, Application on Demand - et quelques communautés utilisatrices.

Infrastructures Nationales

CAT OPIDoR recense les services dédiés aux données de la recherche en perspective du cycle de vie des données et par type de service. Ce catalogue se présente sous la forme d’un wiki, n’hésitez donc pas à le compléter si besoin.

Les présentations détaillées de différentes infrastructures et de leurs services citées ci-dessous peuvent vous permettre à la fois de découvrir le large paysage de l’offre en Europe et en France mais aussi de vérifier rapidement si les critères de votre projet peuvent être remplis par les différentes infrastructures et leurs offres de services.

Infrastructures de travail collaboratif

Dans la phase de montage de projet, il convient de choisir et de mettre en place des outils de gestion de projets tels que :

  • des listes de discussion fournies par un service de gestion de listes,

  • des outils de partage de documents et de données dans des dossiers partagés en réseau ou de type “service de cloud”,

  • une plate-forme de gestion de projet de type “redmine” ou autre.

Pour cela il est utile de connaître les possibilités et ressources internes à l’unité et celles fournies par l’institution ou des partenaires extérieurs : université, CNRS, Renater, etc…

Infrastructures de traitement de données, calcul, stockage

De nombreuses infrastructures offrent des services à la communauté scientifique. Il convient de choisir celles qui conviennent le mieux pour chaque projet.

Infrastructure France Grilles, www.france-grilles.fr

Le catalogue de services de France Grilles propose des services de traitement de données qui s’appuient sur une infrastructure de grille et une infrastructure cloud ainsi que des services de stockage de données. L’ensemble est interconnecté permettant aux données stockées d’être traitées grâce aux services grille et cloud.

Un poster présente le service de stockage de France Grilles :

FG-iRODS : un service de gestion de données pour les communautés scientifiques à l’échelle nationale et européenne basé une infrastructure fédérée

Emmanuel Medernach, Jérôme Pansanel, Raphaël Flores, Christine Gondrand, Patrick Moreau, Vincent Negre, Genevieve Romier
JCAD 2019

Un autre poster a pour objet le cloud France Grilles : FG-Cloud: the French Academic Cloud for Scientific computing

Groupe FG-Cloud
JCAD 2018

Il est aussi important de se faire une idée à travers des retours d’expérience réalisés par des collègues. En voici quelques exemples récents :

Le projet Phénome, Infrastructure nationale de phénomique végétale, regroupe sur neuf sites des plateformes expérimentales de phénotypage haut-débit (champ, serre, omique). Un système complet a été mis en place pour ce projet, système qui s’appuie sur les services FG-iRODS et FG-Cloud.

Déploiement de la plateforme de traitement des données phénotypage haut débit 4P sur l’infrastructure France Grilles

Vidéo :
Vincent Negre, Eric David, Philippe Burger, Romain Chapuis, Boris Adam, Anne Tireau, Patrick Moreau, Antony Tong, Samuel Thomas, Gallian Colombeau, Pascal Neveu, Jérôme Pansanel, Frédéric Baret, Marie Weiss
JCAD 2019

Centres de calcul de GENCI

Les plateformes de calcul intensif nationales, ainsi que leurs évolutions, sont régulièrement présentées par l’opérateur GENCI (Grand Equipement National pour le Calcul Intensif). GENCI et ses trois centres nationaux fournissent des moyens de calcul de niveau “Tier 1” pour les utilisateurs nationaux :

  • Ainsi, lors des JCAD 2019 a été abordé le supercalculateur Jean Zay dont une partie est dédiée à l’Intelligence Articficielle (IA).

  • La présentation de GENCI aux JCAD 2018 propose une approche plus générale et introduit également l’écosystème national des mésocentres, et les projets européens liés au calcul intensif.

  • Une présentation plus récente de GENCI aux JCAD 2020 présente aussi des résultats obtenus sur le supercalculateur Jean Zay.

Actualité GENCI

vidéo
Philippe Lavocat représenté par Elise Quentel et Jean-Philippe Proux, GENCI
JCAD 2019

GENCI, une TGIR active au niveau régional, national et européen.

Vidéo :
Stéphane Requena, Directeur innovation et technologie, GENCI.
JCAD 2020

Infrastructures des mésocentres et centres régionaux, quelques exemples

Au niveau régional et local, les mésocentres de calcul fournissent des ressources et un accompagnement de proximité plus souple et en général plus facile d’accès que les ressources nationales.

Une présentation réalisée en 2017 fait un retour sur les mésocentres au cours des dix dernières années.

Les mésocentres ont fait l’objet de présentations régulières, à la fois techniques et organisationnelles, lors des journées mésocentres organisées jusqu’en 2017 par le réseau Calcul :

De nombreux mésocentres ont participé à l’equipex Equip@Meso coordonné par GENCI et qui a fait l’objet par exemple, lors des JCAD 2018, d’un poster d’Elise Quentel de GENCI, qui synthétise les informations

Lors des JCAD 2019, Cyrille Toulet a présenté l’intégration du cloud OpenStack du mésocentre de Lille dans plusieurs fédérations de cloud nationales et internationale. Il explique l’intérêt de ces intégrations et les aspects techniques et donne des cas d’utilisation dans différentes disciplines.

Intégration d’un cloud OpenStack à plusieurs fédérations de cloud

Vidéo :
Cyrille TOULET, Mésocentre de Lille, Université de Lille JCAD 2019

Lors des JCAD 2018, Jérôme Pansanel a présenté la plate-forme SCIGNE de l’Institut Pluridisciplinaire Hubert Curien de Strasbourg. Cette plate-forme est accessible aux utilisateurs régionaux, nationaux et européens.

La plateforme SCIGNE : présentation et utilisation du service de Cloud Computing

Vidéo :
Jérôme Pansanel, Institut Pluridisciplinaire Hubert Curien, CNRS JCAD 2018

La présentation d’autres centres est disponible sous forme de poster, comme par exemple le Pôle Scientifique de Modélisation Nunmérique (PSMN) de l’ENS de Lyon, le Centre Blaise Pascal de l’ENS de Lyon et le mésocentre CALMIP à Toulouse.

Qu’est-ce que le PSMN de l’ENS de Lyon ?

Coraline Petit, Cerasela Iliana Calugaru, Micaël Calvas et Loïs Taulelle, Pôle Scientifique de Modélisation Numérique, École Normale Supérieure de Lyon JCAD 2018

Le Centre Blaise Pascal : de l’hôtel à projets au centre d’essais.

Emmanuel Quemener et Micaël Calvas, Centre Blaise Pascal, École Normale Supérieure de Lyon JCAD 2018

Mésocentre CALMIP

Mickaël Duval, Nadine Marouzé, UMS 3667 CALMIP - Université de Toulouse, INPT, Université Paul Sabatier, INSAT, ISAE-SUPAERO et CNRS JCAD 2018

Il est aussi possible d’utiliser des ressources fournies par plusieurs mésocentres dans le cadre d’un même projet. Ce retour d’expérience dans le domaine de la chimie en est un témoignage.

Calculs de chimie quantique distribués entre méso-centres avec Quantum Package

Vidéo :
Anthony Scemama, Patrick BOUSQUET-MELOU, Marie-Sophie Cabot, Nicolas Renon
JCAD 2019

Infrastructure pour les expériences à grande échelle en informatique

SILECS, “Super Infrastructure for Large-scale Experimental Computer Science”, est dédiée aux expériences à grande échelle en informatique basée sur les infrastructures FIT et GRID’5000. Cette infrastructure, tout en conservant les objectifs de FIT et GRID’5000, vise de nouveaux challenges : Internet des objets - Internet of Things (IoT) et Clouds, nouvelles générations de plateformes Cloud et de piles logicielles (Edge, FOG), applications de Data streaming, gestion de volumes de données importants, mobilité…

Dans la présentation “Slices, towards a Scientific Large-Scale Infrastructure for Computing - Communication Experimental Studies”, aux JCAD 2020, est détaillée la proposition d’infrastructure européenne Slices, “Super Infrastructure for Large-Scale Experimental Computer Science”, dont l’objectif est de construire sur 15 pays une infrastructure dont SILECS est la partie française.

Infrastructures régionales de gestion de données

Des initiatives régionales proposent des infrastructures de gestion et valorisation des données pour la recherche.

A Toulouse, le mésocentre CALMIP étoffe son offre de services et construit CALLISTO, une interface pour le partage et l’analyse semi-automatique de données. CALLISTO propose ainsi une aide à la rédaction de Plans de Gestion de Données sur les aspects techniques, une plateforme de partage de données proche des utilisateurs et en lien avec les ressources du supercalculateur pour permettre la réutilisation des données hébergées.

Une présentation du projet a été réalisée lors des JCAD 2019, puis une démonstration a eu lieu lors des JCAD 2020 qui permettent de voir les évolutions.

En Bourgogne Franche-Comté, le projet dat@UBFC a pour objectif la création d’un service de gestion des données de la recherche pour la communauté scientifique de l’Université de Bourgogne Franche-Comté. Ce projet fait le lien entre dat@OSU (Description et référencement des données de recherche de l’OSU THETA) et le datacenter régional UBFC. Il a fait l’objet d’une présentation détaillée aux JCAD 2020.

Les “datalakes” ou “lacs de données”

De nouvelles infrastructures de stockage de grandes quantités de données apparaissent dans le paysage. Plusieurs présentations vous permettront de vous faire une idée sur ce qu’est un Data Lake même si le concept n’est pas encore complétement défini et figé.

Jean-Pierre Gleyze présente le contexte du CNES, quelques applications et leur dimensionnement. Les points de vue des utilisateurs et des administeurs des infrastructures sont exposés, aussi cet exposé intéressera autant les informaticiens que les utilisateurs scientifiques.

CEBA, a pour ambition la création d’un « grand » observatoire de l’environnement en Auvergne, unique en Europe. Ce cloud environnemental permettra la gestion des données à tous les stades de leur cycle de vie. Il propose différents services comme un site Web, des outils d’ingestion, un moteur d’indexation, un catalogue de données, des outils de visualisation qui s’appuient sur une infrastructure incluant des bases de données et système de fichiers.

CEBA, un data lake dédié à l’observation des écosystèmes environnementaux

Vidéo :
Francis Ogereau, Vincent Breton, Alexandre Claude, David Grimbichler, Antoine Mahul, Gilles Mailhot, Jérémy Mezhoud, Christine Plumejeaud, Laurent Royer, Estelle Théveniaud, Richard Vandaele, David Sarramia
JCAD 2019

Le projet international DOMA n’est pas un projet de DATALAKE ni un produit mais une organisation qui participera à définir ce que sera un DATALAKE. Ses objectifs sont de suivre les avancées et les développements, être un forum de partage d’informations et veiller à l’interopérabilité des différentes solutions de stockage. Une première présentation de DOMA a eu lieu en 2018 et une présentation des évolutions en 2019.

Infrastructures pour l’information scientifique et technique

L’Institut de l’Information Scientifique et Technique (INIST), unité de service du CNRS déploie ses activités vers un projet d’ingénierie des connaissances qui s’articule autour de 3 axes principaux : « Analyse et fouille de l’information », « Valorisation des données de la recherche », « Accès à l’information scientifique ». Claire François présente ici un panorama des outils et services proposés aux chercheurs : portail d’accès aux ressources électroniques (bibCNRS), plateforme d’accès aux archives scientifiques (ISTEX), une suite logicielle de mesure des usages des ressources électroniques (EzPAARSE.EzMESURE) pour faciliter l’accès à l’information scientifique aux chercheurs. Elle présente également les outils de formation à distance et services d’accompagnement tels que Doranum, Conditor, CoRea pour optimiser le partage et l’intéropérabilité des données de la recherche. Et pour finir les outils d’analyse et fouille de l’information scientifique tels que LOTERRE, ISTEX, LODEX ou VISA TM pour créer et gérer la terminologie scientifique et permettre le recueil des données sur les publications et la production d’indicateurs bibliométriques

Positionnement et offre globale de l’INIST dans le contexte IST en évolution

Claire François
Fredocs 2018 - Démarches innovantes en IST : expérimenter, proposer, (se) réinventer », 2018, Albi

Infrastructures pour les logiciels / les codes sources

Le projet Software Heritage a pour objectif de collecter, préserver et rendre disponible le code source (et son historique) de tous les logiciels publiquement disponibles. Cette présentation explique le contexte et les motivations qui ont donné lieu à Software Heritage, puis, l’architecture mise en oeuvre.

Infrastructures thématiques

Des portails nationaux et européens organisés autour d’une thématique scientifique existent par ailleurs. Ils donnent accès à des pôles de données qui fédèrent dans différentes disciplines, des activités de gestion et valorisation des données.

Au sein de l’infrastructure de recherche “Data Terra” on trouve par exemple Odatis qui est un pôle de données et de services pour l’océan, Theia, une infrastructure de données et de services dédiée aux données spatiales d’observation de la terre, Aeris qui s’intéresse aux données et services pour l’atmosphère mais aussi Form@ter ou PNDB (Pôle National de Données de Biodiversité).

Les projets de recherche au sein de ces infrastructures ont donné lieu à des retours d’expériences qui témoignent de spécificités disciplinaires dans la gestion des données de la recherche.

Sismologie et géodésie

Dans le domaine de la sismologie et de la géodésie, Résif (Réseau sismologique et géodésique français), une infrastructure de recherche pour l’observation des déformations de la terre a été mise en place. Catherine Pequegnat lors de son intervention aux Fredocs 2013, présente la spécificité des données de sismologie, les réseaux de capteurs associés à ces données et pointe les manques et les avancées en termes de description, de norme et de formats pour la transcription et l’échange des données. Elle aborde aussi la question des possibilités d’accès aux données. Elle présente ensuite la TGIR Résif, son projet, son centre de données national (possibilités d’hébergement et de stockage) et sa contribution au projet européen EPOS

« RESIF (données sismologiques et géodésiques) »

Catherine Pequenat, Institut des Sciences de la Terre, Observatoire des Sciences de l’Univers de Grenoble
Fredocs2013 - Gestion et valorisation des données de la recherche, 2013, Aussois

Astronomie

Soizick Lesteven, retrace ensuite les missions du centre astronomique de Strasbourg qui depuis 1972 collecte des informations « utiles » sur les objets astronomiques. Elle détaille les processus de collecte et de traitements effectués pour mettre à disposition des données. Elle explique comment se crée l’interopérabilité des données entre les bases « Simbad », « Vizier », « Aladin » et leur interaction avec le dictionnaire des nomenclatures des objets célestes. Elle explique ainsi le processus de création de contenu de qualité, des données d’observations réutilisables et à forte valeur ajoutée pour les équipes de recherche.

La gestion des données astronomiques à l’Observatoire Astronomique de Strasbourg

Soizick Lesteven, Observatoire Astronomique de Strasbourg
Fredocs2013 - Gestion et valorisation des données de la recherche, 2013, Aussois

Sciences Sociales

Dans cette présentation très complète bien qu’ancienne, Roxane Silberman fait une description du Réseau Quetelet, composante de la TGIR Progedo qui est une banque française de données pour les sciences sociales. Elle indique la spécificité des données collectées au sein de ce réseau qui peuvent être des données individuelles, qualitatives, parfois de santé publique et les enjeux de protection de la vie privée associés à ces données. Elle retrace l’historique des premières banques de données pour lesquelles se posait déjà la question de l’accès et du partage des données à caractère individuel. Ce réseau s’inscrit dans une infrastructure européenne, le CESSDA (réseau européen des archives de données) et fournit des métadonnées accessibles à tous et en particulier aux chercheurs. Après avoir expliqué les grandes fonctions de Quetelet (dépôt, archivage, documentation, diffusion des données), elle revient sur quelques enjeux pour l’état, les politiques publiques et autres acteurs économiques, le paysage qui se dessine autour de la donnée et qui bouscule les frontières dans le contexte de l’open data.

Biodiversité

Dans le domaine de la biodiversité, le Pôle national de données de Biodiversité, PNDB, e-Infrastructure nationale de recherche est inscrite sur la feuille de route du MESRI depuis mars 2018. L’UMS PatriNat du Museum National d’Histoire Naturelle, MNHN, en est le maître d’oeuvre. Yvan Le Bras, lors des JCAD 2020 a présenté le PNDB et l’implémentation en cours.

Infrastructure PNDB, de la donnée de biodiversité au calcul scientifique via la métadonnée.

Yvan Le Bras – Laboratoire Patrinate du Museum national d’Histoire Naturelle, Paris.
JCAD 2020

Plateformes d’archivage des données

Agrée par le Service Interministériel des Archives de France, le CINES (Centre Informatique National de l’Enseignement Supérieur) est le centre officiel d’archivage d’une partie de la production scientifique de nos établissements.
Il offre une solution pour la conservation à long terme du patrimoine numérique (données scientifiques : issues d’observations ou de calculs, données patrimoniales, données administratives) et est impliqué le projet européen EUDAT visant à mettre en place une infrastructure européenne d’échange et de conservation de données.

A l’occasion d’une intervention au Gricad à Grenoble, Olivier Rouchon, détaille largement l’offre de service du CINES et témoigne de la variété des données archivées. Il retrace également le processus d’archivage et rend compte des défis et problématiques qu’il pose.

L’offre de service archivage du CINES

Oliver Rouchon, CINES
Archivage numérique des données de la recherche, 2019, Grenoble
vidéo

A noter :
La TGIR Huma-Num propose une offre de service pour accompagne les producteurs de données tout au long du processus d’archivage à long terme vers un dépôt au CINES. (Voir la présentation de Michel Jacobson « Archivage des données à Huma-Num » présentée dans la section Préserver et archiver )