1. Imaginer et préparer

Imaginer est la première étape de notre cycle de vie. C’est une phase préparatoire qui correspond à la connaissance et à l’identification des problématiques générales, techniques et juridiques associées à la gestion des données dans un projet de recherche ou dans la pratique quotidienne de nos métiers. Etape où l’on doit se projeter, s’informer, comprendre pour anticiper et envisager sereinement le déroulement d’un projet. C’est une étape initiale importante pour appréhender globalement la gestion des données, l’écosystème dans lequel elle s’inscrit avec ses contraintes et opportunités, les outils et infrastructures disponibles ou nécessaires, les politiques d’accompagnement et la multiplicité des acteurs qui interagissent, les réglementations en vigueur ou encore les compétences et expertises à acquérir.

L’apport des réseaux est ici important en termes de croisement des disciplines et des métiers pour apporter un éclairage global dans la nécessaire évolution des métiers et compétences et répondre au mieux aux besoins des communautés scientifiques.

1.1. Comprendre le paysage de la gestion des données

Avant d’aborder la gestion des données sous ses aspects techniques qui seront développés tout au long des étapes du cycle de vie de la donnée dans ce guide, nous souhaitons apporter une vision d’ensemble du paysage de la gestion des données.
Ce paysage s’appréhende dans le cadre du mouvement open science, de la politique d’open data en particulier et par la connaissance de l’ensemble du processus de recherche depuis la compréhension des possibilités de financement de la recherche (attendu des financeurs H2020, ERC, ANR …) jusqu’à la diffusion, la valorisation et l’évaluation des résultats.

1.1.1. Connaître les politiques d’accompagnement des données au niveau européen et international

Différentes initiatives institutionnelles sont développées au sein de nos établissements en France ou à l’étranger pour accompagner la politique des données de la recherche. Il est intéressant de se pencher sur ces travaux pour anticiper les besoins et prévoir les évolutions stratégiques possibles au sein de notre environnement.

À l’occasion des « FréDoc 2013 », Simon Hodson (Directeur exécutif de CODATA) dresse un panorama très complet des différentes politiques institutionnelles, des tendances gouvernementales et internationales. Nous percevons très distinctement les défis et obstacles à lever pour la mise en place d’une gestion des données de la recherche. On comprend l’importance d’analyser le comportement des communautés de recherche pour parvenir à construire ensemble une politique autour des données et aussi l’intérêt d’une approche convergente « top down et bottom up » pour la mise en place d’actions de terrain qui rejoignent les actions de la gouvernance. Les nombreux défis à la mise en place d’une politique des données de la recherche sont bien présents à commencer par le fait d’instaurer au sein de nos communautés une culture du partage de la donnée et de mettre à disposition des chercheurs des infrastructures et des services de formation.
Simon Hodson souligne aussi le rôle essentiel des politiques et parties prenantes pour mettre en place des actions et des concertations.

Les politiques d’accompagnement des données : une comparaison internationale

Simon Hodson, ISCU-CODATA,
ANF “Frédocs2013 - Gestion et valorisation des données de la recherche”, 2013, Aussois

En 2017 à l’occasion d’une ANF dédiée à l’organisation du management des données de la recherche et dans le contexte d’omniprésence du numérique et des défis sociétaux actuels, Francis André (Chargé des données de la recherche à la DIST du CNRS) présente l’évolution des pratiques scientifiques et le cadre stratégique offert par l’open science autour des données de la recherche.

On découvre à travers son intervention les principes FAIR et l’importance de disposer de métadonnées de qualité. On comprend également la nécessité du partage pour faire évoluer les connaissances. Francis André distingue dans sa présentation différents types de données, d’infrastructures et de services à l’échelle européenne et internationale avec un focus sur le fonctionnement et les groupes de travail de la Research Data Alliance (RDA). Il revient sur les résultats d’une enquête réalisée auprès des directeurs d’unité pour aborder la question du point de vue du chercheur et insiste sur la nécessité de réinventer nos métiers et de s’approprier la gestion des données.

Gestion des données de la recherche dans le contexte d’Open Science

Francis André, DIST-CNRS
ANF “Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données”, 2017, Paris

La gestion des données s’organise également au sein des structures d’accompagnement au niveau européen comme en témoigne Susan Reilly (Directeur exécutif de la Ligue Européenne des Bibliothèques de Recherche LIBER) qui pointe en particulier les besoins de réorganisation et d’adaptation des structures d’accompagnement de la recherche pour aider les chercheurs dans la gestion des données. Le rôle des bibliothèques est crucial dans ces actions et les opportunités à saisir pour évoluer dans ce sens sont nombreuses. Partant du constat que sans une infrastructure qui aide les chercheurs à gérer leurs données de façon adéquate et efficace, aucune culture du partage n’est possible. Elle expose dans le cadre de LIBER une démarche proactive au sein des bibliothèques de recherche en Europe et présente 10 recommandations à suivre pour répondre aux besoins des chercheurs en termes de services et de supports.

From data management policy to implementation : opportunities and challenges for libraries

Susan Reilly, Liber
ANF “Frédocs2013 - Gestion et valorisation des données de la recherche”, 2013, Aussois

On constate en effet aujourd’hui que les services communs de documentation, nouvellement investis de ces problématiques d’open acces et de gestion des données de la recherche ont entrepris une restructuration de fond au sein des Universités pour proposer des services d’accompagnement à destination des équipes de recherches (Voir Arabesque n°95, ADBU, 2019). De nouveaux services d’appui à la recherche se constituent peu à peu et proposent un soutien pour la publication en libre accès ou la rédaction de plan de gestion de données. (voir SOS-PGD, répertoire des services opérationnels de soutien à la rédaction de plans de Gestion de données au sein des établissements de l’enseignement supérieur et de la recherche)

L’INSU est aussi depuis les années 1990 à l’origine d’un dispositif d’accompagnement de la recherche à caractère national ou international qui bénéficie d’un processus de labellisation et qui a pour vocation d’apporter un service à la communauté scientifique. Il s’agit des Services Nationaux d’Observation (SNO) labellisés par la direction de l’INSU. Ces services ont été créés pour répondre au besoin de documenter sur le long terme la formation, l’évolution, la variabilité des systèmes astronomiques et des milieux terrestres, et de faire progresser les connaissances dans ces domaines.

1.1.2. Comprendre le contexte

Ces dernières années, la réglementation en matière de science ouverte a largement modifié le paysage des données de la recherche et a permis de mieux cadrer les pratiques scientifiques sur le plan juridique.

Un contexte politique favorable à la gestion et au partage des données

En 2018, à la suite des objectifs fixés par l’Europe, la France s’est dotée d’un plan national pour la science ouverte. Présenté le 4 juillet par Frédérique Vidal, la ministre de l’Enseignement et de la Recherche, ce plan prône la diffusion sans entraves des publications et des données de la recherche. Il comporte différentes mesures déclinées en trois axes stratégiques et pose les conditions du développement de la science ouverte dans nos établissements. Dans la continuité de ce plan, le CNRS, a rédigé une feuille de route pour la science ouverte s’appuyant sur des actions concrètes structurées autour de quatre grands objectifs : (i) 100% de la production scientifique en accès ouvert, (ii) développement d’une culture de la gestion et du partage des données, (iii) développement d’infrastructure pour la fouille et (iv) l’analyse des contenus et la transformation des modalités d’évaluation des chercheurs).

Enfin, le CNRS a publié en novembre 2020 un plan Données de la recherche avec l’objectif d’accélérer le développment vers la science ouverte, et d’encourager les chercheurs à rendre leur données accessibles et réutilisables. A côté de la mise en place d’une politique des données en phase avec les besoins des communautés scientifiques, ce plan envisage un nouveau mode de gouvernance et un plan d’action pour les données de la recherche.

Du côté des financeurs de la recherche, l’ANR dans son plan d’action 2020 réaffirme son engagement en faveur de la science ouverte. En lien avec le plan national pour la science ouverte, elle demande l’élaboration d’un Plan de Gestion des Données (PGD) pour les projets financés à partir de 2019. Partant des recommandations du Comité pour la Science Ouverte (CoSO), elle a adopté un modèle de PGD proposé par Science Europe qui vise à harmoniser la gestion des données au niveau international. Ce plan constitue désormais un livrable de tout projet financé par l’ANR.

Le partage des données suppose également la mise en place d’un cadre juridique. La loi pour la république numérique, dite loi Lemaire, a posé ce cadre en octobre 2016 afin de favoriser l’ouverture et la circulation des données, de garantir un environnement numérique ouvert et respectueux de la vie privée et faciliter l’accès et la réutilisation des données. Le Règlement général sur la protection des données (RGPD) instaure quant à lui un nouveau cadre juridique pour la protection des données personnelles.

Un contexte technologique en constante évolution

Outre une attention particulière sur les besoins des communautés scientifiques, une veille technologique portant sur les services, outils, plateformes et infrastructures de stockage, de partage ou d’archivage des données de la recherche doit être assurée pour permettre d’adapter les moyens mis œuvre aux besoins exprimés.

De nombreuses initiatives internationales et programmes européens ont été constitués pour travailler à l’ouverture progressive des données de la recherche, produire et harmoniser des outils et méthodologies. Nombre d’entre eux sont des espaces de travail et d’échange pour les ingénieurs et chercheurs, comme RDA (Research Data Alliance) qui a pour motto “Building the social and technical bridges to enable open sharing and re-use of data” ou Go FAIR dont l’objectif est de promouvoir les principes FAIR. Le “European Open Science Cloud” a été initié par la commission européenne. Il est défini comme “The system resulting from the activities and initiatives promoted by the European Commission to support its policies on Open Science and Open Innovation 2.0” (voir le Glossaire de l’EOSC).

Une présentation de Françoise Genova et de Francis André détaille le fonctionnement de la RDA, organisation internationale créée en mars 2013, pilotée par la communauté, qui vise à construire les ponts sociaux et techniques pour le meilleur partage des données. Les groupes d’intérêt et de travail y sont présentés par thématiques ainsi que les productions et recommandations issues de ces groupes. Un focus particulier est porté sur le nœud national RDA France, ses objectifs et ses activités.

Les activités de RDA : perspectives dans le cadre du noeud national français

Francis André, DIST-CNRS & Françoise Genova, Observatoire Astronomique de Strasbourg
SIST 2018 : Séries Interopérables et Systèmes de Traitement, 2016, Guyancourt

Dans cette autre présentation, Volker Beckman (chargé de mission CNRS-EOSC et Directeur adjoint scientifique Calcul et Données IN2P3/CNRS) explique comment concrètement les chercheurs pourront utiliser l’EOSC. Il présente la stratégie européenne d’élaboration de ce Cloud européen lancé en 2018, qui coordonne les initiatives et projets de construction de cet espace à destination de la recherche et des chercheurs. Partant des nombreux projets qui ont été financés pour élaborer ce cloud (EOSCpilot, EOSC-Pillar, EOSC-hub etc.), il montre les possibilités de collaboration. Depuis 2019, une structuration est en cours avec la mise en place d’une gouvernance temporaire et une implication forte des ministères en charge de la recherche dans les différents pays européens. Ces travaux préparatoires devraient déboucher sur d’importantes opportunités de financement complémentaires dans le programme cadre “Horizon Europe”.

European Open Science Cloud (EOSC), opportunités pour la recherche en France

Volker Beckman, CNRS/IN2P3
Rendre FAIR les données, mais quelles données préserver ? Atelier Dialogu’IST, 2020

Pour accompagner les communautés de chercheurs, une feuille de route nationale des infrastructures de recherche est mise à disposition sur son site par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation. Elle recense aujourd’hui 99 infrastructures et est régulièrement remise à jour.

Les projets de recherche au sein de ces infrastructures ont donné lieu à certains retours d’expériences qui témoignent de spécificités disciplinaires dans la gestion des données de la recherche. (Ils sont détaillés dans la partie dédiée aux Infrastructures)

Il est important également de suivre attentivement l’évolution des espaces de partage des données de la recherche qui sont différents en fonction des communautés scientifiques. Les organismes de financement, les éditeurs ou les établissements de recherche ont pour coutume de recommander le dépôt des données dans des entrepôts, car ceux-ci permettent de conserver, rendre visible et accessible les données de recherche. Il en existe plusieurs catégories : entrepôts généralistes comme Zenodo ou Dryad, institutionnels comme Dataverse Cirad, Datapartage à INRAE, dataSuds à l’IRD ou thématiques comme GBIF pour les données de biodiversité, ou Pangaea pour les données des géosciences.

Des répertoires de données comme Re3Data (répertoire d’entrepôts créé par DataCite) ou Cat OPIDoR (catalogue de services dédié aux données de la recherche hébergé à l’INIST) sont accessibles pour guider les recherches.

Pour plus de détails, on se reportera à la section Infrastructures.

1.2. Comprendre et respecter la législation en vigueur

Gérer les données de la recherche suppose de clarifier en amont les modalités de partage et de mise à disposition des données de la recherche et le cadre juridique applicable aux projets de recherche.

Comme le précisent les interventions de Nathalie Gandon (Frédocs 2018) ou Nathalie Le Ba (ANF Sciences des données), il existe un certain nombre de principes fondamentaux associés à la notion d’open data et un certain nombre de textes législatifs en France et en Europe qui réglementent ou impactent la gestion des données de la recherche et la réutilisation des informations publiques. Parmi ces textes, figurent principalement la loi Valter (2015) et la Loi pour la république numérique] (2016) qui toutes deux élargissent le champ d’application de la Loi CADA et ont pour objectif de favoriser la réutilisation de l’information publique. La loi Valter instaure le principe de gratuité dans la réutilisation des informations publiques tandis que la Loi pour la république numérique (Loi Lemaire) conduit à l’obligation de mise en ligne spontanée des documents administratifs librement réutilisables (y compris à des fins commerciales). Ces deux lois sont à l’origine du principe d’ouverture ou d’open data par défaut. Les notions de « document administratif », d’universalité et de gratuité des informations publiques sont ici des notions incontournables à saisir pour passer d’une logique de demande citoyenne à une logique de diffusion volontaire des informations du secteur public.

Dans tous les cas, l’application des textes législatifs aux données de la recherche n’est pas toujours aisée. Nathalie Gandon, nous apporte des renseignements précieux à travers une check-list pour déterminer si les résultats de recherche sont ou ne sont pas des « documents administratifs » à diffuser. Il convient de s’interroger tout d’abord sur la nature et la forme du résultat concerné (le document doit être achevé), ensuite sur l’auteur du résultat (le document doit être produit dans le cadre d’une mission de service public) et enfin sur les conditions de production du résultat (collaboration publique ou privée). Il existe également de nombreuses exceptions prévues par la loi qui conduisent à une interdiction totale d’accès et de réutilisation (documents secret défense etc.). On trouvera sur ces supports le détail des exceptions liées aux données environnementales et personnelles.

Résultats de la recherche et open data : le cadre juridique

Nathalie Gandon, INRA
ANF “Fredocs 2018 - Démarches innovantes en IST : expérimenter, proposer, (se) réinventer”, 2018, Albi

Questions juridiques autour de l’ouverture des données

Nathalie Le Ba (DAJ du CNRS)
ANF « Sciences des données : un nouveau challenge pour les métiers liés aux bases de données », 2018, Sète

En complément de ces présentations, il est important de retenir que le droit des producteurs de bases de données (droit sui generis) est désormais “neutralisé” par la Loi sur la république numérique. Comme toute administration, les universités et établissements de recherche ne peuvent opposer leur droit de producteur de bases de données à la libre réutilisation des informations qu’elles produisent. Le principe d’ouverture par défaut s’applique. Pour plus d’information sur ce point nous vous invitons à consulter l’article de Lionel Maurel : les universités françaises et l’Open Data après la loi numérique.

Les données à caractère personnel

La gestion des données implique également de porter un regard attentif à la législation sur les données à caractère personnel.

Les données personnelles, régies en France par la loi informatique et liberté (loi de 1978, modifiée le 20 juin 2018 pour adaptation au RGPD) font l’objet d’un traitement particulier. Entré en vigueur le 25 mai 2018 dans toute l’Union européenne, le Règlement général sur la protection des données (RGPD) instaure un nouveau cadre juridique pour la protection des données personnelles. Ce nouveau règlement renforce les droits des citoyens européens et responsabilise les organismes qui traitent les données pour garantir la protection des droits fondamentaux.
Les principes énoncés dans ce règlement doivent être connus et respectés, car ils s’appliquent aussi aux activités de recherche. Le texte prévoit néanmoins un régime spécifique, dérogatoire offrant une large marge de manœuvre aux chercheurs pour l’utilisation des données personnelles dans le cadre d’un projet de recherche. (Voir l’article de Lionel Maurel : Données personnelles et recherche scientifique : quelle articulation dans le RGPD ?)

On trouvera dans l’intervention de Patrick Guillot (CIL des établissements universitaires de la ComUE Université Grenoble Alpes), une présentation riche et complète comprenant entre autres, un rappel des définitions et principes fondamentaux de la loi, une définition des “données à caractère personnel”, un historique des principaux textes et un quiz de questions-réponses (vrai/faux) très utile pour comprendre l’évolution de la réglementation.

Prise en compte des données personnelles - Évolution de la règlementation

Patrick Guillot, Univ. Grenoble Alpes
ANF “Traçabilité des activités de recherche et gestion des connaissances”, Réseau Qualité en Recherche, 2017, Grenoble

L’INSHS a par ailleurs produit un guide pour la recherche « Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte. Ce guide régulièrement mis à jour synthétise les règles applicables à chaque étape du cycle de vie des données et s’appuie sur des exemples concrets pour présenter des bonnes pratiques.

Les licences

Le choix des licences est également réglementé par la Loi pour une république numérique

L’ouverture et le partage des données impliquent par ailleurs l’utilisation de licences (GNU, Creative Commons, CeCILL, et autres) qui fixent les conditions dans lesquelles les données peuvent être réutilisées. La Loi pour une république numérique impose l’utilisation de licences applicables aux “informations publiques” d’une part et aux codes sources et logiciels d’autre part. Les licences utilisables sont référencées sur cette liste fixée par décret et applicable par les administrations. Si toutefois, le consortium du projet dans lequel les données ont été créées impose un autre choix, il faut s’y conformer. La Licence ouverte / open licence conçue par Etalab est considérée comme une licence de référence par le gouvernement pour la réutilisation et la publication de données publiques.

Pour accompagner les équipes dans le traitement juridique des données, un collectif de juristes issus de l’enseignement supérieur et de la recherche a rédigé un guide de référence “Ouverture des données de recherche. Guide d’analyse du cadre juridique en France” qui explique les principes à respecter en matière de diffusion des données.

1.3. Connaitre et comprendre les principes FAIR

Enoncés initialement par le groupe de travail FORCE 11, les principes FAIR « The FAIR Guiding Principles for scientific data management and stewardhip » ont été publiés en mars 2016 dans la revue Scientific Data. Elaborés par des représentants du monde universitaire, de l’édition, de l’industrie et des organismes de financement, ils répondent aux besoins urgents d’amélioration des infrastructures permettant la réutilisation des données scientifiques.

1.3.1. Définir les principes FAIR pour guider les stratégies de gestion des données

Il s’agit d’un ensemble de principes directeurs visant à rendre les données de la recherche, Faciles à trouver, Accessibles, Interopérables et Réutilisables (FAIR) par les êtres humains et les machines. Ces principes permettent de guider les stratégies de gestion des données et d’aider tous les acteurs qui œuvrent à les produire, à en contrôler la qualité, à les traiter et les analyser, à assurer leur publication et leur dissémination, à les sélectionner et les préparer pour le dépôt dans des plateformes de partage ou d’archivage.
Il s’agit aussi en particulier de mettre l’accent sur le renforcement de la capacité des machines à rechercher et utiliser automatiquement les données afin de favoriser leur réutilisation par des particuliers.

Les principes FAIR ont pour objectif de guider le partage et la publication des données. Toutefois, s’il y a une volonté forte en faveur du partage et de la réutilisation des données (les principes sont adoptés par de plus en plus d’organismes de financement de communautés scientifiques et sont également préconisés dans le plan national pour la science ouverte et dans la feuille de route du CNRS), il faut bien garder à l’esprit qu’appliquer les principes FAIR n’implique pas l’ouverture systématique des données. Le principe de base « aussi ouvert que possible, aussi fermé que nécessaire » reste en vigueur y compris lorsque l’on applique les principes FAIR.

1.3.2. Appliquer les principes FAIR - Retours d’expériences

Le groupe de travail inter-réseaux « Atelier données » s’est intéressé à l’application des principes FAIR. Une journée d’étude a été organisée en novembre 2018 avec l’objectif de présenter des retours d’expériences et des réflexions sur les pratiques de gestion des données de la recherche mises en œuvre par les réseaux métiers et les réseaux technologiques du CNRS. Elle a donné lieu à la production d’un livret de synthèse.

Cette journée s’appuie plus spécifiquement sur les notions de pérennisation et d’interopérabilité des données dans les projets de recherche, et cherche à en comprendre les facteurs ressorts de réussite et les points sensibles à surveiller.
Elle a pour ambition d’analyser les complémentarités des expériences au travers des métiers représentés par les réseaux ; de formuler des points de convergence de bonnes pratiques et d’accroître les échanges entre les réseaux de la MI sur des questions à forts enjeux pour l’évolution de nos métiers.

1.4. Prévoir la traçabilité des données

Dans un environnement où l’information arrive en masse, pouvoir assurer la traçabilité des données est essentiel. Les données numériques représentent un enjeu majeur pour la recherche et il est important d’intégrer une démarche qualité au sein des structures de recherche pour disposer de données fiables et réutilisables.

Le réseau Qualité en Recherche particulièrement investi sur ce sujet, a élaboré en 2018, un guide de référence : Traçabilité des activités de recherche et gestion des connaissances, à destination des agents des unités de recherche. Ce guide a pour objectif de fournir des recommandations et bonnes pratiques pouvant être appliquées dans tous les domaines d’activités, tant administratifs, techniques que scientifiques, afin d’assurer la traçabilité des activités de recherche et d’améliorer la gestion des données de la recherche.

Alain Rivet, Responsable qualité et système d’information au CERMAV, illustre cette question à l’occasion de l’ANF Données 2016 en présentant la problématique de la donnée dans la perspective de la traçabilité des activités de recherche. Il pose la question du défi organisationnel de la gestion des données dans les laboratoires et les établissements face aux contraintes de plus en plus fortes des autorités de tutelles. Il souligne ainsi le besoin d’optimiser le fonctionnement de nos laboratoires, la solution étant de s’appuyer sur des référentiels comme la norme ISO 9001. La nécessaire confiance en la qualité d’une recherche suppose une maitrise de l’ensemble des moyens d’acquisition, de traitement, de diffusion et de conservation des résultats.

Nos tutelles, en réponse à cette problématique d’intégrité scientifique, ont mis en place une stratégie nationale avec la rédaction début 2016 d’une charte de déontologie des métiers de la recherche qui insiste sur l’importance de permettre la traçabilité des travaux expérimentaux et la conservation des données de la recherche. Une bonne gestion des données de la recherche apparait comme une réponse au problème soulevé.

1.5. Envisager la curation des données

La curation des données est une activité essentielle dans la pratique de gestion des données, car elle assure la pérennité des données sur le long terme, leur qualité et leur réexploitation. Elle s’avère toutefois difficile à définir, car sa pratique se situe très souvent à la croisée de différentes disciplines. Elle s’applique tout au long du cycle de vie de la donnée et intègre des tâches de nature parfois différentes comme la sélection, la vérification, la normalisation ou encore l’enrichissement nécessaires à la publication des données.

« Les activités de curation de données permettent de faciliter la découverte et la récupération de données, de maintenir la qualité des données, de leur ajouter de la valeur et d’en fournir pour de futures réutilisations. Ce nouveau champ inclut la représentation, l’archivage, l’authentification, la gestion, la préservation, la récupération, et l’utilisation. »

Digital Humanities Data Curation

La définition ci-dessus semble de nature à mieux cadrer l’activité de curation pour la gestion des données de la recherche. Elle est proposée par le Digital Curation Center (DCC), une organisation britannique qui produit une expertise et fournit une aide pratique sur le stockage, la gestion, la protection et le partage des données de la recherche.

Le DCC propose également un Briefing paper « What is Digital Curation » qui explique les bénéfices d’une curation des données.

Pour illustrer une pratique de curation des données en SHS, Emmanuelle Morlock, Ingénieure au Laboratoire HiSoMa a présenté un travail réalisé dans l’univers de l’édition critique des sources.

Cette présentation s’organise en trois parties : les spécificités de la « data curation », les défis spécifiques aux SHS et les solutions proposées par l’encodage TEI (Text Encoding Initiative) de sources textuelle pour relever ces défis. Emmanuelle Morlock définit ici la notion de curation et les notions associées, les activités engendrées par cette activité et les défis qu’elles représentent pour les sciences humaines et sociales. Elle s’intéresse également aux types d’objets de la curation. Elle aborde ensuite le chapitre de l’édition savante qui l’amène à définir précisément ce qu’est l’édition numérique (un texte enrichi, exploitable par des machines) et à présenter, définir et expliquer le processus d’édition dans un format XML TEI. Elle explique aussi l’apport de la TEI dans la réponse aux défis posés par l’édition numérique (distinction de niveaux d’interprétation via le balisage, conservation et documentation des choix de manière formalisée) et termine sa présentation sur le rôle des « curateurs » pour repérer les manques dans un objectif de réutilisation à long terme ou pour aider les chercheurs à améliorer leurs pratiques de documentation de leurs données.

De quelques défis spécifiques de la curation numérique des données en SHS : petite incursion dans l’univers de l’édition critique de sources au format TEI

Emmanuelle Morlock, HiSoMa)
Frédocs2013 - Gestion et valorisation des données de la recherche, 2013, Aussois

Dans le domaine spécifique des humanités numériques, il existe un guide auquel se référer : le DH Curation Guide. Il est composé d’un recueil d’articles fiables sur la curation des données, contextualisés par des rédacteurs experts et des membres de la communauté. Ce guide, réalisé suite à une analyse de besoins exprimés par des professionnels en Humanités numériques dans le cadre d’un projet de recherche (Data Curation Education Program for the Humanities (DCEP-H) a été conçu avec l’objectif d’aider à relever les défis posés par la curation des données.

1.6. Prévoir l’archivage des données

La gestion des archives d’un laboratoire de recherche est une pratique assez peu courante au sein de nos unités, mais tend à se développer avec l’explosion du volume des données produites ou générées par les communautés de chercheurs.

Pour les archivistes de la section « Aurore » de l’association des archivistes français, « Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche ».

Se préoccuper de l’archivage des données fait partie intégrante d’une bonne gestion des données. Dans une logique de préservation, l’archivage se conçoit très en amont d’un projet, dès la création de la donnée. Son objectif est de décrire, documenter, contextualiser les données pour pouvoir ensuite assurer leur diffusion et leur préservation à long terme. Il concerne tout type de données (bases de données, questionnaire d’enquête, données brutes, photos, etc.). Au-delà du stockage, il s’agit là de faire en sorte qu’une donnée soit réexploitable (intègre, lisible, intelligible) dans 10, 20 ou 50 ans par une nouvelle communauté de chercheur.

Les données sont des archives publiques dès lors qu’elles sont créées au sein d’un établissement public et l’archivage institutionnel est réglementé par la loi et notamment le code du patrimoine. Les données doivent faire l’objet d’un tri, d’une sélection, idéalement à la suite d’un échange entre chercheur et archiviste en vue d’une conservation, si nécessaire, aux Archives nationales ou départementales.

Des outils existent pour aider à la sélection des données notamment le référentiel de gestion des archives de la recherche. Ce référentiel est organisé par thématiques et indique pour chaque type de document sa durée de conservation, son sort final (tri, conservation, destruction) et les aspects légaux à connaître.

Pour plus de détails, on se reportera à la section Préserver et archiver.

1.7. Identifier les compétences et expertises pour la gestion des données de la recherche

Évoluer dans nos pratiques suppose de développer de nouvelles expertises et d’acquérir de nouvelles connaissances. Les réseaux professionnels, vecteurs de partage et d’échange sont particulièrement indiqués pour organiser et faciliter l’acquisition de nouvelles compétences.

1.7.1. S’informer et se former

La formation continue des personnels est fondamentale pour suivre l’évolution des métiers et des technologies.

Au CNRS, la formation continue est pilotée par le Service formation et Itinéraire Professionnel (SFIP). Celui-ci met en oeuvre des actions adaptées aux orientations et à la stratégie de l’établissement à travers deux dispositifs de formation principaux : les Actions Nationales de Formation (ANF) fortement orientée sur les technologies et ingénierie, et les “Écoles Thématiques” d’un contenu davantage scientifique et plutôt en relation avec les chercheurs. Le SFIP soutient également des actions régionales de formation.

Les réseaux métiers et réseaux technologiques

Dans ces dispositifs de formation institutionnels, les réseaux métiers sont fréquemment au coeur des propositions de programme, du montage et de l’organisation des ANF. Chaque année de nombreuses formations sont en effet régulièrement organisées par les réseaux, et les supports de formations présentés sont habituellement capitalisés sous une forme ou une autre (résumé, pdf, vidéo) sur les sites des réseaux.

Outre les ANF, les réseaux organisent également de manière autonome, sur budget propre attribués par la Mission pour les Initiatives transverses et l’Interdisciplinarité (MITI) ou par les Instituts du CNRS, des journées de séminaires qui regroupent les membres des réseaux comme par exemple les journées thématiques organisées par le groupe de travail inter-réseaux « Atelier données » ou les séminaires annuels du réseau SIST de l’INSU.

Ils constituent bien évidemment des vecteurs importants de l’état de l’art et des connaissances à acquérir dans une discipline et contribuent à développer la connaissance d’un domaine de compétence.

Initiés et portés par des membres d’un même métier ou travaillant avec les mêmes technologies (outils, instruments, méthodes, etc.), les réseaux professionnels du CNRS ont vocation à faciliter les échanges d’informations et d’idées entre leurs membres.

Les réseaux favorisent le maintien et le développement des compétences, l’échange des pratiques professionnelles, l’implication et la motivation. Ils développent une connaissance fine de l’évolution des métiers et/ou des technologies de demain en assurant ainsi une veille pour les établissements d’Enseignement Supérieur et de la Recherche.

Les réseaux rattachés à la MITI du CNRS sont transversaux à tous les Instituts du CNRS, et accessibles aux personnels de l’Enseignement supérieur et de la Recherche,

La MITI accueille et pilote actuellement 22 réseaux labellisés au sein de sa plateforme. Ils couvrent l’ensemble du territoire national et sont transverses à l’organisme.

Les résaux labellisés par les instituts du CNRS viennent plus spécifiquement en support à leurs axes stratégiques scientifiques. Le blog RH du CNRS en recense uncertain nombre dans son billet « Evoluer, échanger, innover : les réseaux professionnels du CNRS ».

Un dispositif de formation à distance sur les données de la recherche est accessible sur le site DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage). Cette plateforme met à disposition différentes ressources d’autoformation en libre accès sur la gestion et le partage des données de la recherche.

Le réseau national des URFIST (Unité Régionale de Formation à l’Information Scientifique et Technique), créé en 1982 est un réseau inter-académique structuré depuis 2017 en Groupement d’Intérêt Scientifique (GIS) qui a pour objectif de développer l’usage de l’IST dans l’enseignement supérieur et de la recherche.

Les sept unités régionales proposent chacunes des ressources, documents pédagogiques ainsi que des formations (y compris doctorales) et manifestations scientifiques et professionnelles à Bordeaux, Lyon, Paris, Nice, Rennes, Strasbourg et Toulouse. Leur mission s’organise autour de trois axes principaux : la conception et la réalisation d’actions de formation, d’outils pédagogiques ainsi que la veille et la recherche dans le domaine des technologies de l’information.

Outre les actions de formation, d’expérimentations et innovations pédagogiques initiées par les Urfist, le réseau met à disposition un blog « UrfistInfo ».

1.7.2. Suivre les travaux du Collège “Compétences et formation du COSO”

Le Plan national pour la science ouverte, s’appuyant sur trois axes, engage les opérateurs de la recherche à « mettre en œuvre une politique de science ouverte et à structurer et ouvrir les données de la recherche ». La mise en œuvre de ce principe est exprimée à travers des objectifs et des actions de deux collèges du Comité pour la science ouverte (COSO) : les collèges Données de la recherche et Compétences et formation.

Les collèges sont des groupes d’experts (plus de 200 à l’heure actuelle) qui impulsent et mette en oeuvre les projets en s’appuyant sur les acteurs, notamment ceux de la formation à la science ouverte.

Parmi les réalisations récentes, on peut citer le guide « Pour une politique des données de la recherche : guide stratégique » où le CoSO émet sept recommandations pour aider à la formalisation et à la mise en œuvre d’une politique des données de la recherche au sein des établissements de l’ESR, la réalisation du Passeport pour la science ouverte destiné aux doctorants de toutes disciplines, le guide « Je publie, quels sont mes droits » qui répond aux questions que se posent le plus souvent les auteurs de publications scientifiques sur leurs droits et la contribution à la session 3 du Mooc « Recherche reproductible : principes méthodologiques pour une science transparente ».

.