Imaginer et préparer

Contenu

1. Imaginer et préparer#

Imaginer est la première étape de notre cycle de vie. C’est une phase préparatoire qui correspond à la connaissance et à l’identification des problématiques générales, techniques et juridiques associées à la gestion des données dans un projet de recherche ou dans la pratique quotidienne de nos métiers. Etape où l’on doit se projeter, s’informer, comprendre pour anticiper et envisager sereinement le déroulement d’un projet. C’est une étape initiale importante pour appréhender globalement la gestion des données, l’écosystème dans lequel elle s’inscrit avec ses contraintes et opportunités, les outils et infrastructures disponibles ou nécessaires, les politiques d’accompagnement et la multiplicité des acteurs qui interagissent, les réglementations en vigueur ou encore les compétences et expertises à acquérir.

L’apport des réseaux est ici important en termes de croisement des disciplines et des métiers pour apporter un éclairage global dans la nécessaire évolution des métiers et compétences et répondre au mieux aux besoins des communautés scientifiques.

1.1. Comprendre le paysage de la gestion des données#

Avant d’aborder la gestion des données sous ses aspects techniques qui seront développés tout au long des étapes du cycle de vie de la donnée dans ce guide, nous souhaitons apporter une vision d’ensemble du paysage de la gestion des données.
Ce paysage s’appréhende dans le cadre du mouvement open science, de la politique d’open data en particulier et par la connaissance de l’ensemble du processus de recherche depuis la compréhension des possibilités de financement de la recherche (attendu des financeurs Horizon Europe, ERC, ANR …) jusqu’à la diffusion, la valorisation et l’évaluation des résultats.

1.1.1. Connaître les politiques d’accompagnement des données au niveau français, européen et international#

Différentes initiatives institutionnelles sont développées au sein de nos établissements en France ou à l’étranger pour accompagner la politique des données de la recherche. Il est intéressant de se pencher sur ces travaux pour anticiper les besoins et prévoir les évolutions stratégiques possibles au sein de notre environnement.

À l’occasion des « FréDoc 2013 », Simon Hodson (Directeur exécutif de CODATA) dresse un panorama très complet des différentes politiques institutionnelles, des tendances gouvernementales et internationales. Nous percevons déjà très distinctement les défis et obstacles à lever pour la mise en place d’une gestion des données de la recherche. On comprend l’importance d’analyser le comportement des communautés de recherche pour parvenir à construire ensemble une politique autour des données et aussi l’intérêt d’une approche convergente « top down et bottom up » pour la mise en place d’actions de terrain qui rejoignent les actions de la gouvernance. Les nombreux défis à la mise en place d’une politique des données de la recherche sont bien présents, à commencer par le fait d’instaurer au sein de nos communautés une culture du partage de la donnée et de mettre à disposition des chercheurs des infrastructures et des services de formation.
Simon Hodson souligne aussi le rôle essentiel des politiques et parties prenantes pour mettre en place des actions et des concertations.

Les politiques d’accompagnement des données : une comparaison internationale

Simon Hodson, ISCU-CODATA,
ANF “Frédocs2013 - Gestion et valorisation des données de la recherche”, 2013, Aussois

En 2017 à l’occasion d’une ANF dédiée à l’organisation du management des données de la recherche et dans le contexte d’omniprésence du numérique et des défis sociétaux actuels, Francis André (Chargé des données de la recherche à la DIST du CNRS) a présenté l’évolution des pratiques scientifiques et le cadre stratégique offert par l’open science autour des données de la recherche.

On découvre à travers son intervention les principes FAIR et l’importance de disposer de métadonnées de qualité. On comprend également la nécessité du partage pour faire évoluer les connaissances. Francis André distingue dans sa présentation différents types de données, d’infrastructures et de services à l’échelle européenne et internationale avec un focus sur le fonctionnement et les groupes de travail de la Research Data Alliance (RDA). Il revient sur les résultats d’une enquête réalisée auprès des directeurs d’unité pour aborder la question du point de vue du chercheur et insiste sur la nécessité de réinventer nos métiers et de s’approprier la gestion des données.

Gestion des données de la recherche dans le contexte d’Open Science

Francis André, DIST-CNRS
ANF “Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données”, 2017, Paris

La gestion des données s’organise également au sein des structures d’accompagnement au niveau européen comme en témoigne dès 2013 Susan Reilly (Directeur exécutif de la Ligue Européenne des Bibliothèques de Recherche LIBER) qui pointe en particulier les besoins de réorganisation et d’adaptation des structures d’accompagnement de la recherche pour aider les chercheurs dans la gestion de leurs données. Le rôle des bibliothèques est crucial dans ces actions et les opportunités à saisir pour évoluer dans ce sens sont nombreuses. Partant du constat que sans une infrastructure qui aide les chercheurs à gérer leurs données de façon adéquate et efficace, aucune culture du partage n’est possible. Elle expose dans le cadre de LIBER une démarche proactive au sein des bibliothèques de recherche en Europe et présente 10 recommandations à suivre pour répondre aux besoins des chercheurs en termes de services et de supports.

From data management policy to implementation : opportunities and challenges for libraries

Susan Reilly, Liber
ANF “Frédocs2013 - Gestion et valorisation des données de la recherche”, 2013, Aussois

On constate en effet aujourd’hui que les services communs de documentation, nouvellement investis de ces problématiques d’open acces et de gestion des données de la recherche ont entrepris une restructuration de fond au sein des Universités pour proposer des services d’accompagnement à destination des équipes de recherches. De nouveaux services d’appui à la recherche se constituent peu à peu et proposent un soutien pour la publication en libre accès ou la rédaction de plan de gestion de données. (voir SOS-PGD, répertoire des services opérationnels de soutien à la rédaction de plans de Gestion de données au sein des établissements de l’enseignement supérieur et de la recherche)

L’INSU est aussi depuis les années 1990 à l’origine d’un dispositif d’accompagnement de la recherche à caractère national ou international qui bénéficie d’un processus de labellisation et qui a pour vocation d’apporter un service à la communauté scientifique. Il s’agit des Services Nationaux d’Observation (SNO) labellisés par la direction de l’INSU. Ces services ont été créés pour répondre au besoin de documenter sur le long terme la formation, l’évolution, la variabilité des systèmes astronomiques et des milieux terrestres, et de faire progresser les connaissances dans ces domaines.

Un écosystème au service du partage et de l’ouverture des données de recherche

Pour favoriser le partage et l’ouverture des données produites par la recherche française, le Ministère de l’enseignement supérieur et de la recherche (MESR) a inauguré le 8 juillet 2022 l’ouverture de la d’une plateforme nationale fédérée des données de la recherche “Recherche Data Gouv”. Cette plateforme a pour vocation de soutenir les équipes de recherche dans leur travail de structuration des données et met à leur disposition un entrepôt pluridisciplinaire dédié au dépôt des données qui ne trouveraient pas place au sein d’un entrepôt thématique de confiance.

Outre le service de dépôt et de diffusion, cet environnement propose aux chercheurs un catalogue des données de la recherche française et des services d’accompagnement de la donnée. Ces services se décomposent en trois catégories :

Ateliers de la donnée : point d’entrée des équipes de recherche, les ateliers de la donnée apportent un premier niveau d’expertise et développent des services généralistes,
Centres de référence thématiques : en appui aux ateliers de la donnée, ils apportent une expertise disciplinaire,
Centre de ressources rattachés à recherche data.gouv : ils apportent des services liés à l’entrepôt générique des données, au catalogue, aux e-formations etc.

Pour en savoir plus sur la plateforme et les services d’accompagnement, nous vous invitons à visionner une vidéo d’Isabelle Blanc, administratrice ministérielle des données, des algorithmes et du code de la recherche réalisée dans le cadre du 13ème atelier Dialogu’IST ou à consulter le déroulé de sa présentation qui dresse un panorama politique de cet écosystème en construction. Des témoignages et retours d’expérience autour des modules d’accompagnement sont également proposés.

Comment la gestion des données a changé notre vie

Ateliers Dialogu’IST, 2022

1.1.2. Comprendre le contexte#

Ces dernières années, la réglementation en matière de science ouverte a largement modifié le paysage des données de la recherche et a permis de mieux cadrer les pratiques scientifiques sur le plan juridique.

Un contexte politique favorable à la gestion et au partage des données

En 2018, à la suite des objectifs fixés par l’Europe, la France s’est dotée d’un plan national pour la science ouverte qui prône la diffusion sans entraves des publications et des données de la recherche. Renouvelé en 2021 dans la continuité des actions menées au cours des trois dernières années, et en résonance avec la loi de programmation de la recherche de 2020, ce second plan inscrit la science ouverte dans les missions des chercheurs et des enseignants-chercheurs, vise 100% des publications en accès ouvert en 2030 et s’enrichit d’un nouvel axe dédié aux codes sources et logiciels libre prenant appui sur la politique nationale des données, des algorithmes et des codes sources impulsée par le Premier ministre.

Suivant le même cap à l’échelle internationale, l’UNESCO produit en novembre 2021, une recommandation sur une science ouverte et propose des actions en convergence avec le deuxième Plan national pour la Science ouverte.

Le CNRS, a pour sa part rédigé une feuille de route pour la science ouverte s’appuyant sur des actions concrètes structurées autour de quatre grands objectifs : (i) 100% de la production scientifique en accès ouvert, (ii) développement d’une culture de la gestion et du partage des données, (iii) développement d’infrastructure pour la fouille et (iv) l’analyse des contenus et la transformation des modalités d’évaluation des chercheurs).

Il a également publié en novembre 2020 un plan Données de la recherche avec l’objectif d’accélérer le développement vers la science ouverte, et d’encourager les chercheurs à rendre leur données accessibles et réutilisables. A côté de la mise en place d’une politique des données en phase avec les besoins des communautés scientifiques, ce plan envisage un nouveau mode de gouvernance et un plan d’action pour les données de la recherche.

Du côté des financeurs de la recherche, l’ANR dans son plan d’action 2020 réaffirme son engagement en faveur de la science ouverte. En lien avec le plan national pour la science ouverte, elle demande l’élaboration d’un Plan de Gestion des Données (PGD) pour les projets financés à partir de 2019. Partant des recommandations du Comité pour la Science Ouverte (CoSO), elle a adopté un modèle de PGD proposé par Science Europe qui vise à harmoniser la gestion des données au niveau international. Ce plan constitue désormais un livrable de tout projet financé par l’ANR.

Le partage des données suppose également la mise en place d’un cadre juridique. La loi pour la république numérique, dite loi Lemaire, a posé ce cadre en octobre 2016 afin de favoriser l’ouverture et la circulation des données, de garantir un environnement numérique ouvert et respectueux de la vie privée et faciliter l’accès et la réutilisation des données. Le Règlement général sur la protection des données (RGPD) instaure quant à lui un nouveau cadre juridique pour la protection des données personnelles.

A noter, pour finir, que la notion d’intégrité scientifique, qui relevait principalement d’une démarche de bonne pratique est désormais inscrite dans la loi, avec la parution du décret du 3 décembre 2021 relatif au respect des exigences de l’intégrité scientifique par les établissements publics contribuant au service public de la recherche.

L’application de ce décret oblige les établissements publics et fondations reconnues d’utilité publique à mettre en oeuvre les conditions nécessaires au respect des exigences de l’intégrité scientifique, à en promouvoir les valeurs et à en favoriser le respect. Les établissements publics ont à charge par exemple de définir une politique de conservation, de communication et de réutilisation des résultats bruts des travaux scientifiques menés en son sein, de veiller à la mise ne oeuvre par leurs personnels de plan de gestion de données et de contribuer aux infrastructures qui permettent la conservation, la communication et la réutilisation des données et des codes sources. (cf: article 6).

Un contexte technologique en constante évolution

Outre une attention particulière sur les besoins des communautés scientifiques, une veille technologique portant sur les services, outils, plateformes et infrastructures de stockage, de partage ou d’archivage des données de la recherche doit être assurée pour permettre d’adapter les moyens mis œuvre aux besoins exprimés.

De nombreuses initiatives internationales et programmes européens ont été constitués pour travailler à l’ouverture progressive des données de la recherche, produire et harmoniser des outils et méthodologies. Nombre d’entre eux sont des espaces de travail et d’échange pour les ingénieurs et chercheurs, comme RDA (Research Data Alliance) qui a pour motto “Building the social and technical bridges to enable open sharing and re-use of data” ou Go FAIR dont l’objectif est de promouvoir les principes FAIR. Le “European Open Science Cloud” a été initié par la commission européenne. Il est défini comme “The system resulting from the activities and initiatives promoted by the European Commission to support its policies on Open Science and Open Innovation 2.0” (voir le Glossaire de l’EOSC).

Une présentation de Françoise Genova et de Francis André détaille le fonctionnement de la RDA, organisation internationale créée en mars 2013, pilotée par la communauté, qui vise à construire les ponts sociaux et techniques pour le meilleur partage des données. Les groupes d’intérêt et de travail y sont présentés par thématiques ainsi que les productions et recommandations issues de ces groupes. Un focus particulier est porté sur le nœud national RDA France, ses objectifs et ses activités.

Les activités de RDA : perspectives dans le cadre du noeud national français

Francis André, DIST-CNRS & Françoise Genova, Observatoire Astronomique de Strasbourg
SIST 2018 - Séries Interopérables et Systèmes de Traitement, 2018, Guyancourt

Dans cette autre présentation, Volker Beckman (chargé de mission CNRS-EOSC et Directeur adjoint scientifique Calcul et Données IN2P3/CNRS) explique, de manière concrète, comment les chercheurs pourront utiliser l’EOSC. Il présente la stratégie européenne d’élaboration de ce Cloud européen lancé en 2018, qui coordonne les initiatives et projets de construction de cet espace à destination de la recherche et des chercheurs. Partant des nombreux projets qui ont été financés pour élaborer ce cloud (EOSCpilot, EOSC-Pillar, EOSC-hub etc.), il montre les possibilités de collaboration. Depuis 2019, une structuration est en cours avec la mise en place d’une gouvernance temporaire et une implication forte des ministères en charge de la recherche dans les différents pays européens. Ces travaux préparatoires devraient déboucher sur d’importantes opportunités de financement complémentaires dans le programme cadre “Horizon Europe”.

European Open Science Cloud (EOSC), opportunités pour la recherche en France

Volker Beckman, CNRS/IN2P3
Atelier Dialogu’IST - Rendre FAIR les données, mais quelles données préserver ? 2020

Pour accompagner les communautés de chercheurs, une feuille de route nationale des infrastructures de recherche est mise à disposition sur son site par le ministère de l’Enseignement supérieur et de la Recherche. Elle recense aujourd’hui 108 infrastructures de formes et contenus variés et est régulièrement remise à jour.

Les projets de recherche au sein de ces infrastructures ont donné lieu à certains retours d’expériences qui témoignent de spécificités disciplinaires dans la gestion des données de la recherche. (Ils sont détaillés dans la partie dédiée aux Infrastructures)

Il est important également de suivre attentivement l’évolution des espaces de partage des données de la recherche qui sont différents en fonction des communautés scientifiques. Les organismes de financement, les éditeurs ou les établissements de recherche ont pour coutume de recommander le dépôt des données dans des entrepôts, car ceux-ci permettent de conserver, rendre visible et accessible les données de recherche. Il en existe plusieurs catégories : entrepôts généralistes comme Zenodo ou Dryad, institutionnels comme Dataverse Cirad, Datapartage à INRAE, dataSuds à l’IRD ou thématiques comme GBIF pour les données de biodiversité, ou Pangaea pour les données des géosciences.

Des répertoires de données comme Re3Data (répertoire d’entrepôts créé par DataCite) ou Cat OPIDoR (catalogue de services dédié aux données de la recherche hébergé à l’INIST) sont accessibles pour guider les recherches.

Pour plus de détails, on se reportera à la section Infrastructures.

1.2. Comprendre et respecter la législation en vigueur#

Gérer les données de la recherche suppose de clarifier en amont les modalités de partage et de mise à disposition des données de la recherche et le cadre juridique applicable aux projets de recherche.

Comme le précisent les interventions de Nathalie Gandon (Frédocs 2018) ou Nathalie Le Ba (ANF Sciences des données), il existe un certain nombre de principes fondamentaux associés à la notion d’open data et un certain nombre de textes législatifs en France et en Europe qui réglementent ou impactent la gestion des données de la recherche et la réutilisation des informations publiques. Parmi ces textes, figurent principalement la loi Valter (2015) et la Loi pour la république numérique] (2016) qui toutes deux élargissent le champ d’application de la Loi CADA et ont pour objectif de favoriser la réutilisation de l’information publique. La loi Valter instaure le principe de gratuité dans la réutilisation des informations publiques tandis que la Loi pour la république numérique (Loi Lemaire) conduit à l’obligation de mise en ligne spontanée des documents administratifs librement réutilisables (y compris à des fins commerciales). Ces deux lois sont à l’origine du principe d’ouverture ou d’open data par défaut. Les notions de « document administratif », d’universalité et de gratuité des informations publiques sont ici des notions incontournables à saisir pour passer d’une logique de demande citoyenne à une logique de diffusion volontaire des informations du secteur public.

Dans tous les cas, l’application des textes législatifs aux données de la recherche n’est pas toujours aisée. Nathalie Gandon, nous apporte des renseignements précieux à travers une check-list pour déterminer si les résultats de recherche sont ou ne sont pas des « documents administratifs » à diffuser. Il convient de s’interroger tout d’abord sur la nature et la forme du résultat concerné (le document doit être achevé), ensuite sur l’auteur du résultat (le document doit être produit dans le cadre d’une mission de service public) et enfin sur les conditions de production du résultat (collaboration publique ou privée). Il existe également de nombreuses exceptions prévues par la loi qui conduisent à une interdiction totale d’accès et de réutilisation (documents secret défense etc.). On trouvera sur ces supports le détail des exceptions liées aux données environnementales et personnelles.

Résultats de la recherche et open data : le cadre juridique

Nathalie Gandon, INRA
ANF “Fredocs 2018 - Démarches innovantes en IST : expérimenter, proposer, (se) réinventer”, 2018, Albi

Questions juridiques autour de l’ouverture des données

Nathalie Le Ba, CNRS
ANF «Sciences des données : un nouveau challenge pour les métiers liés aux bases de données», 2018, Sète

En complément de ces présentations, il est important de retenir que le droit des producteurs de bases de données (droit sui generis) est désormais “neutralisé” par la Loi sur la république numérique. Comme toute administration, les universités et établissements de recherche ne peuvent opposer leur droit de producteur de bases de données à la libre réutilisation des informations qu’elles produisent. Le principe d’ouverture par défaut s’applique. Pour plus d’information sur ce point nous vous invitons à consulter l’article de Lionel Maurel : les universités françaises et l’Open Data après la loi numérique.

Les données à caractère personnel

La gestion des données implique également de porter un regard attentif à la législation sur les données à caractère personnel.

Les données personnelles, régies en France par la loi informatique et liberté (loi de 1978, modifiée le 20 juin 2018 pour adaptation au RGPD) font l’objet d’un traitement particulier. Entré en vigueur le 25 mai 2018 dans toute l’Union européenne, le Règlement général sur la protection des données (RGPD) instaure un nouveau cadre juridique pour la protection des données personnelles. Ce nouveau règlement renforce les droits des citoyens européens et responsabilise les organismes qui traitent les données pour garantir la protection des droits fondamentaux.
Les principes énoncés dans ce règlement doivent être connus et respectés, car ils s’appliquent aussi aux activités de recherche. Le texte prévoit néanmoins un régime spécifique, dérogatoire offrant une large marge de manœuvre aux chercheurs pour l’utilisation des données personnelles dans le cadre d’un projet de recherche. (Voir l’article de Lionel Maurel : Données personnelles et recherche scientifique : quelle articulation dans le RGPD ?)

On trouvera dans l’intervention de Patrick Guillot (CIL des établissements universitaires de la ComUE Université Grenoble Alpes), une présentation riche et complète comprenant entre autres, un rappel des définitions et principes fondamentaux de la loi, une définition des “données à caractère personnel”, un historique des principaux textes et un quiz de questions-réponses (vrai/faux) très utile pour comprendre l’évolution de la réglementation.

Prise en compte des données personnelles - Évolution de la règlementation

Patrick Guillot, Univ. Grenoble Alpes
ANF “Traçabilité des activités de recherche et gestion des connaissances”, Réseau Qualité en Recherche, 2017, Grenoble

L’INSHS a par ailleurs produit un guide pour la recherche « Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte. Ce guide régulièrement mis à jour synthétise les règles applicables à chaque étape du cycle de vie des données et s’appuie sur des exemples concrets pour présenter des bonnes pratiques.

Les licences

Le choix des licences est également réglementé par la Loi pour une république numérique

L’ouverture et le partage des données impliquent par ailleurs l’utilisation de licences (GNU, Creative Commons, CeCILL, et autres) qui fixent les conditions dans lesquelles les données peuvent être réutilisées. La Loi pour une république numérique impose l’utilisation de licences applicables aux “informations publiques” d’une part et aux codes sources et logiciels d’autre part. Les licences utilisables sont référencées sur cette liste fixée par décret et applicable par les administrations. Si toutefois, le consortium du projet dans lequel les données ont été créées impose un autre choix, il faut s’y conformer. La Licence ouverte / open licence conçue par Etalab est considérée comme une licence de référence par le gouvernement pour la réutilisation et la publication de données publiques.

Pour accompagner les équipes dans le traitement juridique des données, un collectif de juristes issus de l’enseignement supérieur et de la recherche a rédigé un guide de référence “Ouverture des données de recherche. Guide d’analyse du cadre juridique en France” qui explique les principes à respecter en matière de diffusion des données.

1.3. Adopter des pratiques numériques responsables dans la gestion des données scientifiques#

La démarche d’ouverture des données de recherche dans laquelle nos établissements sont engagés est une démarche positive à de nombreux égards (préservation pérenne, reproductibilité, etc.), elle doit néanmoins, et de manière urgente, être considérée aussi du point de vue de son impact environnemental.

S’il est encore difficile de quantifier très précisément l’impact de la gestion des données de recherche en particulier sur l’empreinte carbone ou sur la biodiversité, la disponibilité, la manipulation et le traitement de gros volumes de données entraînent de nouveaux usages qu’il s’agit aujourd’hui de mesurer et de questionner pour parvenir à une gestion sobre et écoresponsable. La gestion des données participe à cet impact avec une soixantaine de zettaoctets de données créées en 2020 et des projections à 170 zettaoctets pour 2025.

Une réflexion sur les outils, les infrastructures et les formats à utiliser s’impose, de même qu’une gestion FAIR rigoureuse avec une sélection stricte des données utiles, nécessaires, validées et suffisamment bien qualifiées (avec des métadonnées de qualité) pour éviter de sauvegarder et de conserver des données inutilisables.

C’est la croissance matérielle portée par de nouveaux usages (IA, cryptomonnaies par exemple) et par l’obsolescence rapide du matériel et du logiciel qui participe fortement à ces impacts. Cette croissance n’est malheureusement pas compensée par les progrès techniques d’efficacité énergétique qui, bien que destinés à aider à une plus grande sobriété, participent au final à une augmentation des usages notamment à cause de l’effet rebond.

La croissance et la disponibilité des jeux de données entraînent de nouveaux usages tels que le deep learning qui introduit de nombreuses interrogations, notamment vis à vis d’usages discutables (fake news, profilage, …). Les performances associées à ces usages se font cependant au prix d’une consommation d’énergie importante afin de manipuler et extraire les gros volumes de données nécessaires.

Ces objectifs d’économie du numérique ne sont pas si triviaux et devront être réfléchis pour être atteints avec intelligence et efficacité. On cherchera ainsi à ce que l’investissement en temps et en argent ainsi que l’impact environnemental d’acquisition ou de fabrication de ces données ne soient pas vains.

1.3.1. La gestion des données scientifiques face à ces enjeux#

La conservation pérenne de la donnée passe par l’application des principes FAIR qui, en soit, ne sont pas « éco responsables » puisque ces principes imposent de mobiliser des fortes ressources informatiques en permanence pour la conservation et la diffusion des données. Par ailleurs, pour permettre la pérennité et la réutilisation de ces données, les métadonnées descriptives des jeux de données augmentent d’autant les volumes de données à stocker.

Cependant, ces principes permettent de garantir que la donnée sera exploitable et réutilisable et le formalisme nécessaire à leur application présente également plusieurs avantages (mais aussi quelques inconvénients) environnementaux. Parmi les avantages, on notera tout de même des éléments importants qui vont à priori dans le sens d’une certaine sobriété et rationalisation des processus numériques :

Garantir la disponibilité des données dans le temps impose une réflexion sur les outils et les infrastructures à utiliser. Cette réflexion doit impérativement se mener à plusieurs échelles avec des collaborations et des réflexions locales, nationales et internationales et être pensée avec des éléments qui intègrent les impacts environnementaux. Normalement, cette réflexion devrait conduire assez naturellement à réduire et rationaliser les centres de données et grandes infrastructures assurant le stockage mais également à utiliser des outils et des formats communs et interopérables permettant de favoriser des outils performants et éco conçus.
Garantir la pérennité de la donnée permet de réutiliser des jeux de données souvent uniques et donc « d’absorber » et rentabiliser le coût environnemental des campagnes d’acquisition de ces données.

Parmi les inconvénients, on notera cependant :

Le risque de sauvegarder « tout et n’importe quoi », fruit du symptôme « ça peut servir ». Il est indispensable que les données qui rentrent dans le cycle de vie soient utiles, qualifiées et validées et respectent scrupuleusement les principes FAIR.
Cette logique d’ouverture contribue à la croissance déjà très forte des données numériques.

À chacune des étapes du cycle de vie de la donnée, on pourra s’attacher à identifier les axes d’amélioration possible en prenant en compte les enjeux environnementaux critiques. Cette réflexion devra être menée dès la création du projet d’acquisition afin de penser aux impacts environnementaux à chaque étape :

capteurs lowtech et réutilisables,
minimisation des transports physiques,
gestion intelligente des flux de données à toutes les étapes,
éviter de dupliquer la donnée inutilement,
ne pas produire ni stocker de données inutiles,
utiliser la bonne « distance » physique lorsqu’on manipule les données (penser « traitement au plus près du stockage »),
archiver sur des systèmes passifs ou en collaboration avec des centres adaptés à l’archivage (on pensera par exemple au CINES dans le monde de l’ESR ou encore aux différentes solutions institutionnelles qui se mettent en place telles que l’Infrastructure de Recherche Data Terra par exemple).

La mise en place des infrastructures nationales et internationales doit impérativement se faire en cohérence avec les enjeux environnementaux. Cette mise en place doit également intégrer l’instabilité potentielle de la fourniture d’énergie aux centres de données, qui risque de s’aggraver avec le déclin inéluctable des énergies fossiles. Il paraît ainsi judicieux de se pencher sur des capacités de stockage hors ligne (stockage froids), pour des données faiblement utilisées et donc accessibles à la demande dans des délais de traitement acceptables. Cette méthode permettrait de minimiser ainsi les stockages actifs (stockage chauds) nécessaires à héberger les données 24 heures sur 24, 7 jours sur 7.

L’open data permettant le partage et la réutilisation des données, pourrait également permettre une maîtrise des impacts environnementaux à travers la rationalisation et une cohérence de la gestion des données à l’échelle nationale.

La diminution des impacts de la donnée numérique s’inscrit clairement dans un contexte plus large de diminution des impacts du numérique. Cette réflexion ne peut pas se mener sans regarder dans leur ensemble les solutions de service numériques mises en place, et cela demande donc de tenir compte des aspects matériels et logiciels.

Pour le matériel, les enjeux de durée de vie sont la première clé de la diminution des impacts. Quant aux logiciels et aux formats de fichiers, les formats et les logiciels libres assurent une pérennité incontestable et apparaissent comme une réponse incontournable.

Ces aspects sommairement évoqués ici, sont tout aussi importants que l’attention portée à la donnée sous peine de prendre le risque d’effet rebond ou pire, de partir dans des directions orthogonales à l’objectif de diminution des impacts de l’ensemble de la chaîne numérique pour répondre au besoin de pérennisation des jeux de données utiles tout en minimisant les impacts environnementaux associés à cette conservation. Parmi les pistes logiques, on pourra ainsi penser à :

Eviter de refaire localement ce qui existe à d’autres échelles comme :
- développer ses propres solutions logicielles : de nombreux outils, formats de données et/ou conventions existent déjà dans de nombreux domaines permettant de diffuser de la donnée en respectant les principes FAIR,
- déployer des infrastructures de stockage locales alors que des infrastructures nationales existent.
Limiter les transports physiques de la donnée. On pensera ainsi à mettre la donnée au plus près de l’usage (notamment les phases de calculs et traitement ou de nettoyage des données devront se faire sans avoir à consulter en permanence des données « à distance »),
Minimiser les copies de données, ce qui demande une réflexion approfondie sur les infrastructures à mettre en place et leur cohérence, ce qui dépasse donc un peu le cadre de ce guide. Cependant, on pensera à se rapprocher des infrastructures nationales déjà existantes (IR Data Terra, data.gouv.fr) ou des réseaux métiers et technologiques qui pourront nous guider vers les meilleurs solutions du moment.

N’oublions pas cependant que cette mise à disposition pourrait entraîner un « effet rebond » d’usage qui annihilerait rapidement les gains environnementaux acquis par cette rationalisation de la gestion de la donnée. En effet, dans le domaine du numérique, les gains observés pourraient ainsi être absorbés par une augmentation de la demande de calcul intensif et de stockage d’informations.

Aujourd’hui, la situation nationale et internationale sur les aspects de centre de données reste assez confuse. On observe plutôt une augmentation des volumes de données notamment avec l’ajout de métadonnées mais aussi une multiplication des entrepôts et des solutions techniques qui peinent encore à émerger et se stabiliser.

Nous ne sommes donc pas encore arrivés dans une phase stable et encore moins dans une phase prenant en compte les impacts environnementaux. Il sera donc nécessaire de se questionner et de questionner les acteurs en place sur cette prise en compte des enjeux pour faire les choix les plus pertinents vis à vis de ses jeux de données pérennisés.

L’Open Data est une voie rationnelle, institutionnellement valorisée, et à priori prometteuse, ou en tout cas logique et pertinente quant à la valorisation des jeux de données et leur conservation. Mais il apparaît malgré tout que ce sont la simplicité, la sobriété et le questionnement de nos usages qui restent cependant, les priorités à mettre en œuvre. Ces principes peuvent réellement conduire à une diminution concrète et réelle des infrastructures et des outils numériques, ce qui est la seule voie accessible rapidement face à l’urgence environnementale.

De manière générale, on pourra se tourner vers le site du GDS EcoInfo ou vers le guide de bonnes pratiques numérique responsable pour les organisations, porté par la Direction Interministérielle du Numérique (DINUM), afin de trouver des informations pratiques plus complètes sur les actions à mener pour une maîtrise des impacts environnementaux et l’application de pratiques écoresponsables

Sur les aspects plus orientés données, citons l’article « Agir sur les données de la recherche » du groupe EcoInfo pour se questionner et agir sur les données. Lors des JRES 2022, Didier Mallarino Sylvie Le Bras et Cyrille Bonamy abordent également « Les impacts environnementaux et sociétaux des données : un défi pour l’avenir ».

Les impacts environnementaux et sociétaux des données : un défi pour l’avenir

JRES 2022 Marseille

1.4. Connaître et comprendre les principes FAIR#

Enoncés initialement par le groupe de travail FORCE 11, les principes FAIR « The FAIR Guiding Principles for scientific data management and stewardhip » ont été publiés en mars 2016 dans la revue Scientific Data. Elaborés par des représentants du monde universitaire, de l’édition, de l’industrie et des organismes de financement, ils répondent aux besoins urgents d’amélioration des infrastructures permettant la réutilisation des données scientifiques.

1.4.1. Définir les principes FAIR pour guider les stratégies de gestion des données#

Il s’agit d’un ensemble de principes directeurs visant à rendre les données de la recherche, Faciles à trouver, Accessibles, Interopérables et Réutilisables (FAIR) par les êtres humains et les machines. Ces principes permettent de guider les stratégies de gestion des données et d’aider tous les acteurs qui œuvrent à les produire, à en contrôler la qualité, à les traiter et les analyser, à assurer leur publication et leur dissémination, à les sélectionner et les préparer pour le dépôt dans des plateformes de partage ou d’archivage.
Il s’agit aussi en particulier de mettre l’accent sur le renforcement de la capacité des machines à rechercher et utiliser automatiquement les données afin de favoriser leur réutilisation par des particuliers.

Les principes FAIR ont pour objectif de guider le partage et la publication des données. Toutefois, s’il y a une volonté forte en faveur du partage et de la réutilisation des données (les principes sont adoptés par de plus en plus d’organismes de financement de communautés scientifiques et sont également préconisés dans le plan national pour la science ouverte et dans la feuille de route du CNRS), il faut bien garder à l’esprit qu’appliquer les principes FAIR n’implique pas l’ouverture systématique des données. Le principe de base « aussi ouvert que possible, aussi fermé que nécessaire » reste en vigueur y compris lorsque l’on applique les principes FAIR.

1.4.2. Appliquer les principes FAIR - Retours d’expériences#

Le groupe de travail inter-réseaux « Atelier données » s’est intéressé à l’application des principes FAIR. Une journée d’étude a été organisée en novembre 2018 avec l’objectif de présenter des retours d’expériences et des réflexions sur les pratiques de gestion des données de la recherche mises en œuvre par les réseaux métiers et les réseaux technologiques du CNRS. Elle a donné lieu à la production d’un livret de synthèse.

Cette journée s’appuie plus spécifiquement sur les notions de pérennisation et d’interopérabilité des données dans les projets de recherche, et cherche à en comprendre les facteurs ressorts de réussite et les points sensibles à surveiller.
Elle a pour ambition d’analyser les complémentarités des expériences au travers des métiers représentés par les réseaux ; de formuler des points de convergence de bonnes pratiques et d’accroître les échanges entre les réseaux de la MITI sur des questions à forts enjeux pour l’évolution de nos métiers.

Interopérabilité et pérennisation des données de la recherche : Comment FAIR en pratique ? Retour d’expérience

Atelier Données Inter réseau, 2018, Paris

1.5. Prévoir la traçabilité des données#

Dans un environnement où l’information arrive en masse, pouvoir assurer la traçabilité des données est essentiel. Les données numériques représentent un enjeu majeur pour la recherche, il est donc important d’intégrer une démarche qualité au sein des structures de recherche pour disposer de données fiables et réutilisables.

Le réseau Qualité en Recherche particulièrement investi sur ce sujet, a élaboré en 2018, un guide de référence : Traçabilité des activités de recherche et gestion des connaissances, à destination des agents des unités de recherche. Ce guide a pour objectif de fournir des recommandations et bonnes pratiques pouvant être appliquées dans tous les domaines d’activités, tant administratifs, techniques que scientifiques, afin d’assurer la traçabilité des activités de recherche et d’améliorer la gestion des données de la recherche.

Alain Rivet, Responsable qualité et système d’information au CERMAV, illustre cette question à l’occasion de l’ANF Données 2016 en présentant la problématique de la donnée dans la perspective de la traçabilité des activités de recherche. Il pose la question du défi organisationnel de la gestion des données dans les laboratoires et les établissements face aux contraintes de plus en plus fortes des autorités de tutelle. Il souligne ainsi le besoin d’optimiser le fonctionnement de nos laboratoires, la solution étant de s’appuyer sur des référentiels comme la norme ISO 9001. La nécessaire confiance en la qualité d’une recherche suppose une maîtrise de l’ensemble des moyens d’acquisition, de traitement, de diffusion et de conservation des résultats.

Nos tutelles, en réponse à cette problématique d’intégrité scientifique, ont mis en place une stratégie nationale avec la rédaction début 2016 d’une charte de déontologie des métiers de la recherche qui insiste sur l’importance de permettre la traçabilité des travaux expérimentaux et la conservation des données de la recherche. Une bonne gestion des données de la recherche apparaît comme une réponse au problème soulevé.

Activités de recherche et gestion des connaissances

Alain Rivet, CNRS_CERMAV
ANF “Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données”, 2016, Paris
Voir aussi les vidéos : La problématique de la donnée dans la perspective de la traçabilité des activités de recherche : contexte et enjeux (séquence 1) Le défi organisationnel de la gestion des données dans les laboratoires et les établissements (séquence 2) La qualité en recherche : contexte et définition (séquence 3) La qualité au service de la gestion des données dans les laboratoires (séquence 4) Conclusion : Développer les démarches “qualité” comme outil de gestion de données (séquence 5)

1.6. Envisager la curation des données#

La curation des données est une activité essentielle dans la pratique de gestion des données, car elle assure la pérennité des données sur le long terme, leur qualité et leur réexploitation. Elle s’avère toutefois difficile à définir, car sa pratique se situe très souvent à la croisée de différentes disciplines. Elle s’applique tout au long du cycle de vie de la donnée et intègre des tâches de nature parfois différentes comme la sélection, la vérification, la normalisation ou encore l’enrichissement nécessaires à la publication des données.

« Les activités de curation de données permettent de faciliter la découverte et la récupération de données, de maintenir la qualité des données, de leur ajouter de la valeur et d’en fournir pour de futures réutilisations. Ce nouveau champ inclut la représentation, l’archivage, l’authentification, la gestion, la préservation, la récupération, et l’utilisation. »

Digital Humanities Data Curation

La définition ci-dessus semble de nature à mieux cadrer l’activité de curation pour la gestion des données de la recherche. Elle est proposée par le Digital Curation Center (DCC), une organisation britannique qui produit une expertise et fournit une aide pratique sur le stockage, la gestion, la protection et le partage des données de la recherche.

Le DCC propose également un Briefing paper « What is Digital Curation » qui explique les bénéfices d’une curation des données.

Pour illustrer une pratique de curation des données en SHS, Emmanuelle Morlock, Ingénieure au Laboratoire HiSoMa a présenté un travail réalisé dans l’univers de l’édition critique des sources.

Cette présentation s’organise en trois parties : les spécificités de la « data curation », les défis spécifiques aux SHS et les solutions proposées par l’encodage TEI (Text Encoding Initiative) de sources textuelles pour relever ces défis. Emmanuelle Morlock définit ici la notion de curation et les notions associées, les activités engendrées par cette activité et les défis qu’elles représentent pour les sciences humaines et sociales. Elle s’intéresse également aux types d’objets de la curation. Elle aborde ensuite le chapitre de l’édition savante qui l’amène à définir précisément ce qu’est l’édition numérique (un texte enrichi, exploitable par des machines) et à présenter, définir et expliquer le processus d’édition dans un format XML TEI. Elle explique aussi l’apport de la TEI dans la réponse aux défis posés par l’édition numérique (distinction de niveaux d’interprétation via le balisage, conservation et documentation des choix de manière formalisée) et termine sa présentation sur le rôle des « curateurs » pour repérer les manques dans un objectif de réutilisation à long terme ou pour aider les chercheurs à améliorer leurs pratiques de documentation de leurs données.

De quelques défis spécifiques de la curation numérique des données en SHS : petite incursion dans l’univers de l’édition critique de sources au format TEI

Emmanuelle Morlock, HiSoMa)
Frédocs2013 - Gestion et valorisation des données de la recherche, 2013, Aussois

Dans le domaine spécifique des humanités numériques, il existe un guide auquel se référer : le DH Curation Guide. Il est composé d’un recueil d’articles fiables sur la curation des données, contextualisés par des rédacteurs experts et des membres de la communauté. Ce guide, réalisé suite à une analyse de besoins exprimés par des professionnels en Humanités numériques dans le cadre d’un projet de recherche (Data Curation Education Program for the Humanities (DCEP-H) a été conçu avec l’objectif d’aider à relever les défis posés par la curation des données.

1.7. Prévoir l’archivage des données#

La gestion des archives d’un laboratoire de recherche est une pratique assez peu courante au sein de nos unités, mais tend à se développer avec l’explosion du volume des données produites ou générées par les communautés de chercheurs.

Pour les archivistes de la section « Aurore » de l’association des archivistes français, « Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche ».

Se préoccuper de l’archivage des données fait partie intégrante d’une bonne gestion des données. Dans une logique de préservation, l’archivage se conçoit très en amont d’un projet, dès la création de la donnée. Son objectif est de décrire, documenter, contextualiser les données pour pouvoir ensuite assurer leur diffusion et leur préservation à long terme. Il concerne tout type de données (bases de données, questionnaire d’enquête, données brutes, photos, etc.). Au-delà du stockage, il s’agit là de faire en sorte qu’une donnée soit réexploitable (intègre, lisible, intelligible) dans 10, 20 ou 50 ans par une nouvelle communauté de chercheurs.

Les données sont des archives publiques dès lors qu’elles sont créées au sein d’un établissement public et l’archivage institutionnel est réglementé par la loi et notamment le code du patrimoine. Les données doivent faire l’objet d’un tri, d’une sélection, idéalement à la suite d’un échange entre chercheur et archiviste en vue d’une conservation, si nécessaire, aux Archives nationales ou départementales.

Des outils existent pour aider à la sélection des données notamment le référentiel de gestion des archives de la recherche. Ce référentiel est organisé par thématiques et indique pour chaque type de document sa durée de conservation, son sort final (tri, conservation, destruction) et les aspects légaux à connaître.

Pour plus de détails, on se reportera à la section Préserver et archiver.

1.8. Identifier les compétences et expertises pour la gestion des données de la recherche#

Évoluer dans nos pratiques suppose de développer de nouvelles expertises et d’acquérir de nouvelles connaissances. Les réseaux professionnels, vecteurs de partage et d’échange sont particulièrement indiqués pour organiser et faciliter l’acquisition de nouvelles compétences.

1.8.1. S’informer et se former#

La formation continue des personnels est fondamentale pour suivre l’évolution des métiers et des technologies.

Au CNRS, la formation continue est pilotée par le Service formation et Itinéraire Professionnel (SFIP). Celui-ci met en oeuvre des actions adaptées aux orientations et à la stratégie de l’établissement à travers deux dispositifs de formation principaux : les Actions Nationales de Formation (ANF) fortement orientées sur les technologies et ingénierie, et les “Écoles Thématiques” d’un contenu davantage scientifique et plutôt en relation avec les chercheurs. Le SFIP soutient également des actions régionales de formation.

Les réseaux métiers et réseaux technologiques

Dans ces dispositifs de formation institutionnels, les réseaux sont fréquemment au coeur des propositions de programme, du montage et de l’organisation des ANF. Chaque année de nombreuses formations sont en effet régulièrement organisées par les réseaux, et les supports de formations présentés sont habituellement capitalisés sous une forme ou une autre (résumé, pdf, vidéo) sur les sites des réseaux.

Outre les ANF, les réseaux organisent également de manière autonome, sur budget propre attribués par la Mission pour les Initiatives transverses et l’Interdisciplinarité (MITI) ou par les Instituts du CNRS, des journées de séminaires qui regroupent les membres des réseaux comme par exemple les journées thématiques organisées par le groupe de travail inter-réseaux « Atelier données » ou les séminaires annuels du réseau SIST de l’INSU.

Ils constituent bien évidemment des vecteurs importants de l’état de l’art et des connaissances à acquérir dans une discipline et contribuent à développer la connaissance d’un domaine de compétence.

Initiés et portés par des membres d’un même métier ou travaillant avec les mêmes technologies (outils, instruments, méthodes, etc.), les réseaux professionnels du CNRS ont vocation à faciliter les échanges d’informations et d’idées entre leurs membres.

Les réseaux favorisent le maintien et le développement des compétences, l’échange des pratiques professionnelles, l’implication et la motivation. Ils développent une connaissance fine de l’évolution des métiers et/ou des technologies de demain en assurant ainsi une veille pour les établissements d’Enseignement Supérieur et de la Recherche.

Les réseaux rattachés à la MITI du CNRS sont transversaux à tous les Instituts du CNRS, et accessibles aux personnels de l’Enseignement supérieur et de la Recherche,

La MITI accueille et pilote actuellement 23 réseaux labellisés au sein de sa plateforme. Ils couvrent l’ensemble du territoire national et sont transverses à l’organisme.

Les réseaux labellisés par les instituts du CNRS viennent plus spécifiquement en support à leurs axes stratégiques scientifiques. Le blog RH du CNRS en recense un certain nombre dans son billet « Evoluer, échanger, innover : les réseaux professionnels du CNRS ».

Un dispositif de formation à distance sur les données de la recherche est accessible sur le site DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage). Cette plateforme met à disposition différentes ressources d’autoformation en libre accès sur la gestion et le partage des données de la recherche.

Le réseau national des URFIST (Unité Régionale de Formation à l’Information Scientifique et Technique), créé en 1982 est un réseau inter-académique structuré depuis 2017 en Groupement d’Intérêt Scientifique (GIS) qui a pour objectif de développer l’usage de l’IST dans l’Enseignement Supérieur et de la Recherche.

Les sept unités régionales proposent chacune des ressources, documents pédagogiques ainsi que des formations (y compris doctorales) et manifestations scientifiques et professionnelles à Bordeaux, Lyon, Paris, Nice, Rennes, Strasbourg et Toulouse. Leur mission s’organise autour de trois axes principaux : la conception et la réalisation d’actions de formation, d’outils pédagogiques ainsi que la veille et la recherche dans le domaine des technologies de l’information.

Outre les actions de formation, d’expérimentations et innovations pédagogiques initiées par les Urfist, le réseau met à disposition un blog « UrfistInfo ».

Les Ateliers de la Donnée

Comme présenté plus haut dans la partie consacrée aux politiques d’accompagnement de la donnée, l’écosystème Recherche Data.Gouv et son maillage d’offre se construit pogressivement. L’accompagnement est un élément central de ce dispositif qui propose d’ores et déjà, avec les 13 ateliers de la donnée actuellement constitués, un service de proximité thématique et géographique qui déploie une expertise généraliste sur l’ensemble des questions relatives à l’ouverture des données. Au côté de ces ateliers, 6 centres de références (expertise par domaine scientifique) et 4 centres de ressources complètent le dispositif. L’ensemble de ces services est amené à se développer au service des équipes scientifiques.

1.8.2. Suivre les travaux du Collège “Compétences et formation du CoSO”#

Le 2ème Plan national pour la science ouverte (2021-2024), poursuit sa trajectoire ambitieuse et s’appuie sur la politique nationale des données, des algorithmes et des codes sources impulsée par le Premier ministre qui vise à faciliter l’accès des chercheurs aux données publiques. Il engage la communauté scientifique à « transformer les pratiques pour faire de la science ouverte le principe par défaut ».

Il souhaite étendre le mouvement de partage des données en développant et valorisant les compétences de la science ouverte tout au long du parcours des étudiants et des personnels de la recherche.

La mise en œuvre de ce principe est exprimée à travers des objectifs et des actions des collèges du Comité pour la science ouverte (CoSO), notamment les collèges Données de la recherche et Compétences et formation.

Les collèges sont des groupes d’experts (plus de 200 à l’heure actuelle) qui impulsent et mette en œuvre les projets en s’appuyant sur les acteurs, notamment ceux de la formation à la science ouverte.

Parmi leurs réalisations, on peut citer le guide « Pour une politique des données de la recherche : guide stratégique » où le CoSO émet sept recommandations pour aider à la formalisation et à la mise en œuvre d’une politique des données de la recherche au sein des établissements de l’ESR. Notons également la mise à jour du Passeport pour la science ouverte destiné aux doctorants de toutes disciplines, à chaque étape de leur parcours de recherche ainsi que deux déclinaisons du Passeport : le livret Science ouverte - entrez dans le débat qui apporte des éléments de réponses qui correspondent aux principaux questionnements des scientifiques et le livret Science ouverte – codes et logiciels qui aborde les questions spécifiques liées aux codes sources et logiciels, le guide « Je publie, quels sont mes droits » qui répond aux questions que se posent le plus souvent les auteurs de publications scientifiques sur leurs droits et la contribution à la session 3 du Mooc « Recherche reproductible : principes méthodologiques pour une science transparente ».

A noter !

A noter ! Le service Ingénierie terminologique de l’Inist-CNRS a créé un « Thésaurus de la science ouverte » trilingue (français, anglais et espagnol) actuellement riche de près de 400 concepts.