7. Publier et diffuser

Cette dernière étape d’un projet de recherche représente en quelque sorte la finalité de toute une politique de gestion de données puisqu’elle vise, dans un contexte de Science ouverte, à publier et diffuser les données de manière à ce qu’elles soient bien accessibles et réutilisables selon des formats et des processus interopérables.

L’accompagnement des réseaux métiers s’exerce sur le processus de publication des données dans des entrepôts ou des plateformes techniques, pour en permettre l’accès, ainsi que sur la documentation des données avec des métadonnées descriptives provenant de vocabulaires contrôlés et de leurs formats d’exploitation pour en assurer la réutilisabilité. Ainsi, les réseaux travaillent sur l’ensemble des informations (données, métadonnées, modes opératoires, échantillons, publications, visualisation et interfaces graphiques) nécessaires à la mise en œuvre des supports de diffusion et de valorisation les plus pertinents en rapport avec l’objectif du projet initial.

Cette étape de publication et de diffusion est en outre accompagnée désormais d’une action nécessaire d’identification des données via des identifiants pérennes lors du dépôt dans des entrepôts de données.

7.1. Communiquer et documenter

Finaliser le Plan de Gestion de Données

Pour rappel, en fin de projet, il ne faut pas oublier de mettre à jour et finaliser la rédaction du plan de gestion de données. Il est nécessaire de s’assurer que les premières informations saisies sont encore valides et effectuer une mise à jour en ajoutant les dernières informations disponibles.

7.2. Publier les métadonnées

Utilisation de catalogues de métadonnées

Les catalogues de métadonnées représentent un moyen cohérent et rigoureux pour décrire et publier des jeux de données. Ils permettent de faciliter la recherche et l’identification des données (F de FAIR).

Pour être interopérables, ces catalogues s’appuient en général sur des normes pour représenter les métadonnées. Par exemple, dans les sciences de l’environnement les normes ISO 19115 et ISO 19139 sont des références pour représenter l’information géographique à l’aide de métadonnées dans les domaines où les données sont géospatialisées.

  • L’ISO 19115-1 définit le schéma requis pour décrire des informations géographiques et des services au moyen de métadonnées. Elle fournit des informations concernant l’identification, l’étendue, la qualité, les aspects spatiaux et temporels, le contenu, la référence spatiale, la représentation des données, la distribution et d’autres propriétés des données géographiques numériques et des services.

  • L’ISO 19139 définit le schéma d’implémentation et d’encodage XML pour représenter les métadonnées ISO 19115.

En ce sens, dans le domaine environnemental où les données proviennent fréquemment de mesures géolocalisées sur le terrain, le logiciel GeoNetwork est une des références importante pour décrire et représenter les jeux de données géolocalisés et constituer un catalogue qui inventorie les différents jeux de données d’un Institut.

Grace a l’utilisation de protocoles d’échanges normalisés, ce logiciel permet d’interagir avec d’autres catalogues de ressources spatialisées via le protocole CSW de l’OGC (Catalogue Services for the Web) et permet ainsi de construire un réseau de catalogues interagissant les uns avec les autres, réseau notamment demandé par la Directive Européenne Inspire.

Le logiciel GeoNetwork utilise, en outre, le protocole WMS (Web Map Service) de l’OGC, pour pouvoir interagir avec des serveurs cartographiques comme GeoServer, ce qui permet de représenter les points de mesures sur une carte et de pouvoir accéder aux données brutes associées à un point de mesure géoréférencé.

L’utilisation des logiciels GeoNetwork et GeoServer a été traitée par une action de formation ANF du réseau SIST pour laquelle on trouvera les informations sur les pages formation du site SIST

Documentations sur les logiciels étudiés GeoNetwork et GeoServer

J. Fabre, M. Libes, O. Lobry, D. Mallarino, M. Rouan, J. Schaeffer
ANF SIST 2017 Fréjus

Le recueil des métadonnées ainsi que la rédaction et la mise à jour des métadonnées dans des fiches adaptées sont souvent ressentis comme contraignants. Cependant le logiciel GeoNetwork propose une interface de programmation (API) qui permet d’automatiser la constitution des catalogues. Plusieurs développements se sont intéressés à l’utilisation de l’interface de programmation (API) de Geonetwork pour pouvoir insérer automatiquement des métadonnées dans les fiches avec des programmes écrits en langage « R ».

C. Bernard J. Fabre, et O. Lobry indiquent comment alimenter un catalogue de données GeoNetwork de l’OSU Oreme, de manière automatique à partir de données stockées dans une base de données interne à l’unité.

De la même manière, Emmanuel Blondel est l’auteur d’un ensemble de bibliothèques de programmation écrites en « R », destinées à faciliter l’insertion de métadonnées dans les catalogues « GeoNetwork ». Ces développements ont été présentés lors d’un atelier organisé par le réseau RBDD et SIST :

  • Atelier « Métadonnées et R »

    • Écrire et Lire des métadonnées avec la librairie R geometa

    • Gérer des données dans GeoServer avec la librairie R geosapi

    • Gérer des métadonnées dans GeoNetwork avec la librairie R geonapi

Ce logiciel de catalogage est utilisé dans de nombreux portails de données comme le catalogue Sextant d’Ifremer pour lequel M. Treguer nous indique les services de l’OGC utilisés.

A titre d’exemple, de nombreux OSU (Observatoire des Sciences de l’Univers) mettent en oeuvre ces catalogues « geonetwork » très utiles pour inventorier les jeux de données disponibles dans les unités de recherche :

B. Debray nous présente le projet DataOSU à l’Observatoire de Besançon destiné à élaborer un portail de données original propre à l’OSU Theta. Il décrit toute l’organisation et le développement nécessaire à la réalisation du projet. La nécessaire collecte des métadonnées auprès des chercheurs et le mapping sémantique destiné à assurer l’interopérabilité avec les standards existants du Dublin core, IVOA, Datacite, GBIF

Le projet Dat@OSU de gestion et valorisation des données de la recherche

Bernard Debray, Univers, Transport, Interfaces, Nanostructures, Atmosphère et environnement, Molécules
Séminaire SIST16 Montpellier

7.2.1. La directive européenne « INSPIRE »

La directive INSPIRE, élaborée par la Direction générale de l’environnement de la Commission européenne en 2007, vise à établir en Europe une infrastructure de données géographiques pour favoriser la protection de l’environnement, assurer l’interopérabilité entre bases de données et faciliter la diffusion, la disponibilité, l’utilisation et la réutilisation de l’information géographique en Europe. INSPIRE vise ainsi à mieux partager les données de la recherche.

Marc Leobet, chargé de mission à la Mission information géographique du ministère en charge du développement durable pose, dans cette présentation réalisée en 2013, le cadre de la Directive Inspire. Il présente tout d’abord l’utilité de cette Directive (identification des données, gestion de la confidentialité, les problèmes de conventionnement et la qualité des données), son contexte, les obligations qu’elle induit, le contexte autour de la réutilisation des données du secteur public et l’application de la Directive inspire dans le domaine de la recherche.

La Directive INSPIRE pour les néophytes

F. Merrien, M. Léobet, M. Francès Mission de l’information géographique du ministère de l’Environnement

Gestion et valorisation des données de la recherche

Marc Leobet, Chargé de mission et PCE INSPIRE
Frédocs2013 -7 au 10 octobre 2013, Aussois

7.2.2. Les portails nationaux et européens

Les pôles de données nationaux en environnement

Les catalogues et portails d’accès aux données se matérialisent également au niveau national où une infrastructure de recherche (IR) Data terra a été créée pour accéder aux données spatiales et in situ du système Terre.

La mission de l’IR Data Terra consiste à organiser de manière intégrée la diffusion et l’accès aux données, en mettant à disposition les données, les produits et des services relatifs à l’observation du système Terre, via les pôles de données et de services existants :

Présentation de l’IR Data terra

Richard Moreno, directeur technique IR Data Terra
Séminaire SIST 2019, OMP Toulouse

l’IR Data Terra est constitué de quatre pôles de données (ODATIS, AERIS, ForM@Ter & Theia dont la mission principale est de mettre à disposition des données, des produits, des logiciels, des outils et/ou des services destinés en premier lieu à la communauté scientifique française dans le cadre de ses recherches sur le système Terre.

Les informations proposées par les pôles de données sont aussi fondamentales pour la mise en œuvre des politiques publiques. En permettant de mieux comprendre la structure et le fonctionnement du système Terre, les travaux utilisant ces données ont un impact socio-économique important dans des domaines tels que les risques naturels, le changement climatique, les ressources minérales ou les ressources en eau. Dans ce contexte, les pôles servent aussi la communauté internationale (missions satellites, réseaux d’observation internationaux, partenariats pour le développement).

Les politiques opérationnelles de ces pôles sont suivies par le réseau SIST où elles ont été présentées :

Les portails de données européens

Par ailleurs, de grands projets européens mettent désormais en place des portails d’accès à très large échelle. C’est le cas du portail du projet Seadatanet qui vise à rassembler les données marines de plus de 30 pays européens. L’intérêt de ces portails est de fournir toutes les garanties d’une interopérabilité maximale basée sur des protocoles standards et des thesaurus et vocabulaires contrôlés du British Oceanographic Data Center : BODC. Le projet européen Seadatanet vise à élaborer et mettre en place un portail européen d’accès aux données marines en se basant sur de nombreux standards rendant les données FAIR.

Seadatanet est un exemple d’envergure européenne pour la mise en place de standards d’interopérabilité. Il repose sur de nombreux vocabulaires contrôlés fournis par le BODC. Une présentation du projet Seadatanet a été faite par Michele Fichaut et Florence Conquet

Soumaya Lahbib au séminaire SIST18 à l’observatoire OVSQ de Versailles, présente un exemple de dépôt de données de cytométrie en flux dans le portail de données Seadatanet. Il est intéressant de prendre connaissance de la démarche et du workflow de traitement nécessaire pour intégrer des données dans un portail interopérable qui respecte un grand nombre de standards.

7.3. Utilisation de thesaurus

Un vocabulaire contrôlé est une liste de termes (mots et expressions) soigneusement choisis pour désigner les concepts d’un domaine (un seul terme préférentiel et éventuellement plusieurs entrées non préférentielles). Ces vocabulaires sont regroupés dans des « thésaurus » qui sont des listes organisées de termes, contrôlés et normalisés, (descripteurs et non-descripteurs) représentant les concepts d’un domaine de la connaissance.

Un thésaurus permet donc d’organiser et de structurer un vocabulaire d’un domaine de connaissances à partir de relations sémantiques entre concepts (de types hiérarchiques ou associatifs) et d’équivalence entre termes. Il réduit donc l’ambiguïté inhérente au langage humain naturel dans lequel différents noms peuvent être attribués à un même concept.

De nombreux thesaurus existent dans divers domaines scientifiques. Par exemple, dans le domaine environnemental, on utilise fréquemment les thesaurus :

  • « Inspire » ou

  • « GEMET ». Ce dernier est un thésaurus documentaire multilingue développé et publié par l’Agence européenne pour l’environnement.

Cependant selon le domaine scientifique et dans certaines disciplines, lorsque les standards, thesaurus et vocabulaires contrôlés n’existent pas, ils doivent alors etre créés. Les communautés scientifiques peuvent alors se saisir d’outils tels qu”opentheso et thésauform pour répondre aux besoins de normalisation.

Ainsi, lors du séminaire SIST 2018, Dominique Vachez a présenté, en s’appuyant sur le thésaurus T-Semandiv, les conditions requises pour une interopérabilité sémantique dans le domaine de la biodiversité : choix de vocabulaires contrôlés et structurés en relations sémantiques utilisés comme référentiels permettant le partage et le croisement des données/métadonnées.

La première version de ce thésaurus a été élaborée avec l’outil ThesauForm développé par Baptiste Laporte. ThesauForm est un outil pour faciliter la création d’un thésaurus collaboratif. Ces deux points forts sont une élaboration collaborative des termes et une procédure de vote. Cet outil a été utilisé pour construire le thesaurus T-SITA qui est le fruit du groupe de travail « CESAB/BETSI ». Ce thesaurus a été utilisé pour annoter des données dans leur base de données à partir du vocabulaire créé.

Création d’un thésaurus collaboratif : cas d’un groupe CESAB, Fondation pour la Recherche sur la Biodiversité, 2015

Baptiste Laporte (Centre de synthèse et d’analyse sur la biodiversité) JrBDD 2015, Sète, mercredi 21/10/2015

En Archéologie, Blandine Nouvel nous présente l’intérêt du thésaurus PACTOLS pour l’archéologie sur le web des données de manière à ouvrir son utilisation au-delà des seules bibliothèques.

Enfin, notons la création du logiciel open source opentheso qui permet l’élaboration collaborative d’un thésaurus tout comme ThesauForm, mais aussi la gestion de thésaurus multilingue supportant la polyhiérarchie, en conformité avec la norme ISO 25964.

7.4. Utilisation d’identifiants pérennes

Afin d’être cités et réutilisés, les données et documents numériques se doivent de disposer d’un identifiant pérenne pour qu’ils puissent être référencés, visibles et accessibles de manière univoque.

Il existe différents types d’identifiants pérennes pour toutes sortes d’objets y compris les humains. Cet article de J-L Archimbaud fait le point sur les identifiants des documents numériques et leurs usages :

Identifiants des documents numériques : ISBN, ISSN, URL, Handle, DOI, OpenURL, OAI, ARK

Jean-Luc Archimbaud Journées « Conduire et construire un plan de gestion des données : de la base de données à la pérennisation » du réseau CNRS Bases de Données (rBDD) Sète – 22 oct 2015

Il faut aussi noter que dans le domaine de la bio-informatique, des identifiants uniques sont attribués aux enregistrements de séquences DNA ou de protéines. Ils sont nommés accession number.

7.4.1. Les DOI : « Digital Object Identification »

Dans le domaine des données, les D.O.I (Digital Object Identification) DOI est un identifiant pérenne favorisant le référencement et la citation des jeux de données. Ils permettent de citer un jeu de données homogène de manière univoque et de les lier aux publications ou à tout autre produit de recherche. Ils concourent donc à l’identification, la traçabilité et à l’interopérabilité des données. Ils garantissent un lien stable à la ressource en ligne et font correspondre en permanence l’identité de la ressource à sa localisation sur le web.

l’INIST du CNRS est l’agence d’attribution de l’identifiant DOI en France pour l’Enseignement Supérieur et Recherche (ESR). Les D.O.I sont obtenus auprès de l’organisme international « Datacite ».

L’allocation de D.O.I sur des données implique des devoirs de la part du déposant, qui est de maintenir un lien permanent vers les données identifiées pendant une certaine durée, à travers une page de description (appelée aussi « landing page ») qui permet de fournir les métadonnées principales pour décrire les données et y accéder.

Pour créer une « landing page », page d’accueil pour décrire un jeu de données, il faut s’assurer que certaines métadonnées obligatoires sont bien mentionnées et renseignées pour permettre une recherche. Le site Datacite rappelle quelles sont les métadonnées obligatoires. Pour en savoir plus sur les identifiants pérennes, on peut consulter la page de Doranum

Attention la pérennité demandée est purement une question de service et n’est pas inhérente à un objet, ni conféré par une syntaxe de nommage particulier. Maintenir la pérennité du lien vers la localisation de la ressource est de la responsabilité du déposant ou du créateur de l’identifiant.

Pourquoi citer les données ?

Herbert Gruttemeier illustre ses propos par des exemples de jeux de données exposés et cités dans différents entrepôts. Il présente la position « officielle » des éditeurs sur l’accès aux données de la recherche et s’attarde sur le type de données et de ressources concernées par l’attribution de DOI.

Data Cite propose un certain nombre de services (création de différents formats de citation pour les DOI, exposition des métadonnées, schéma de métadonnées DataCite et un environnement de test) que l’auteur détaille. Il est question aussi de « Data Citation Index » et de métrique, de l’importance d’accéder à la découverte des données (principe de moissonnage des métadonnées DataCite), des partenariats avec ORCID, OPENAIR, CODATA, FORCE 11, RDA…

DataCite : identifiants pérennes pour le partage des données

Herbert Gruttemeier, INIST/ CNRS
Frédocs2013 - Gestion et valorisation des données de la recherche - 7 au 10 octobre 2013, Aussois

Cette présentation est consacrée au service proposé par DataCite. Herbert Gruttemeier explique pour commencer ce qu’est un DOI, le principe de citation, pourquoi utiliser un DOI, comment le DOI s’inscrit dans le système Handle. Il aborde la question de la qualité des DOI qui nécessite la mise en place d’une politique institutionnelle. La suite de son exposé est consacrée à la présentation de DataCite, Consortium international porté par des institutions locales, créé officiellement à Londres en décembre 2009. Il présente les 26 membres, la structure, les différents rôles qui lui sont assignés (agence d’attribution de DOI et agence de donnée).

Pour en savoir plus sur le DOI de DataCite :

DOI de DataCite : Système d’identification pour valoriser les données de la recherche,

Mohamed Salah Yahia INIST

Nécessité de publier en identifiant les jeux de données par des « DOI »: présentation
vidéo sur les DOI de Datacite Mohamed Salah Yahia, Institut de l’information scientifique et technique du CNRS
Séminaire SIST16 OSU Oreme Montpellier

7.4.2. Comment obtenir des DOI ?

Une unité CNRS a la possibilité de souscrire un contrat avec l’INIST du CNRS pour être détenteur d’un préfixe de DOI qui servira à construire et déposer un DOI.

Cependant dans le paysage national actuel des données environnementales, certaines infrastructures de recherche comme Data Terra seront en charge de fournir des DOI selon les disciplines concernées. Dans le domaine marin le pôle de données Odatis fournit d’ores et déjà un service de fourniture de D.O.I via le site Seanoe.

Il est pratique d’avoir un outil logiciel qui vérifie de façon autonome les métadonnées requises pour obtenir un DOI et fasse la demande directement auprès de Datacite. C’est le cas du logiciel Geonetwork, que nous avons vu précédemment, pour élaborer des catalogues de jeux de données. Dans cette présentation Annick Battais indique comment assigner un D.O.I a des jeux de données en utilisant le logiciel de catalogage Geonetwork.

7.4.3. Retour d’expériences d’utilisation de DOI

Philippe Techiné nous indique comment il fournit des DOI sur des données océanographiques grâce à un contrat passé avec l’INIST du CNRS qui, en tant que membre de DataCite, peut fournir et attribuer des DOI. Il passe en revue les métadonnées obligatoires et la landing page qui est constituée.

Mise en place d’un DOI sur les données d’un réseau d’observations océanographiques

Philippe Téchiné, Laboratoire d’études en Géophysique et océanographie spatiales
Journée SIST16 Montpellier

Création de DOI sur les données et produits grillés du Service National d’Observation SSS

Philippe Téchiné, Laboratoire d’études en Géophysique et océanographie spatiales Journée SIST18 OVSQ

Juliette Fabre et Olivier Lobry nous indiquent leur solution pour attribuer des DOI aux jeux de données du Service National d’Observation « Karst ».

  • Établissement de DOI sur des requêtes dynamiques sur des Bases de données Dans l’atelier traçabilité organisé par RBDD en novembre 2018, MC Quidoz avait traité la possibilité de mettre un identifiant pérenne sur une requête SQL vers une base de données, pour la rejouer. C’est d’ailleurs une des recommandations de RDA.

Sophie Pamerlon rappelle les définitions des identifiants uniques et persistants, puis présente le « Integrated Publishing Toolkit » (IPT) mis en place par le GBIF Global Biodiversity Information Facility) dans le domaine de la biodiversité et ses nouvelles fonctionnalités, en particulier l’attribution de DOI lors de la publication d’un jeu de données.

Le GBIF et les identifiants persistants : Application des DOI aux jeux de données

Sophie Pamerlon (Système mondial d’information sur la biodiversité - Global Biodiversity Information Facility), 2015
RBDD

7.5. Les entrepôts de données

Dans un contexte de science ouverte, les acteurs de la recherche s’accordent aujourd’hui pour considérer les données de la recherche comme des produits de la recherche et appellent à mieux les gérer et à les partager. Le partage des données et des connaissances, mais également le partage des logiciels, des méthodes et des processus n’ont de réel bénéfice que s’ils sont accompagnés en amont par une gestion rigoureuse et de qualité des données, basé sur des principes clairs et consensuels.

Les enjeux liés à la gestion et au partage des données de la recherche nécessitent des outils appropriés communément appelés « Entrepôts de données ». Mais qu’est-ce qu’un entrepôt de données et quelles en sont les principales caractéristiques ? Comment les entrepôts de données contribuent-ils à la gestion et au partage des données ?

Qu’est-ce qui différencie un entrepôt de données d’une base de données classique dans le contexte de l’ouverture des données ? Quels services peut-on attendre d’un entrepôt de données aux différentes étapes du cycle de vie de la donnée? Comment trouver et choisir un entrepôt de données ? Un certain nombre de ces questions relatives aux entrepôts ont été abordées lors d’une journée de type Hackaton intitulée « entrepôts de données, comment améliorer le dépôt et le partage des données de la recherche ? ». Cette journée consacrée aux entrepôts de données a permis de cerner les fonctionnalités que l’on se doit d’attendre d’un entrepôt de données FAIR et les conditions d’utilisation de ce type de service.

Au terme de cette journée, un document « FAQ » a été rédigé répondant aux questions les plus fréquentes que l’on se pose sur le dépôt de données. Cette FAQ est la synthèse des échanges qui se sont tenus lors de l’hackathon « Comment améliorer le dépôt et le partage de données de recherche ? ». Elle est enrichie régulièrement des discussions sur la liste “données”.

On y répond à des questions fréquentes concernant les entrepôts comme :

Laurent Pelletier de l’INIST, dans une présentation générale sur les entrepôts de données, revient sur les différentes définitions des données, les métadonnées et les principes FAIR. Il explique pourquoi et comment partager les données et comment les entrepôts de données sont impliqués dans ce partage. Il présente les différents types d’entrepôts, les différentes fonctionnalités et les critères de choix pour un entrepôt.

Les entrepôts de données,

Laurent PELLETIER, INIST ANF rBDD du 5 au 7 novembre 2018 à Sète

Dans cette présentation complète, Jean-Christophe Desconnets passe en revue les rôles, les fonctionnalités et les domaines d’utilisation des entrepôts de données :

Les entrepôts de données de recherche

Sylvie Cocaud (INRA)
Participer à l’organisation du management des données de la recherche, gestion de contenu et documentation des données - 2017 Vandoeuvre-lès-Nancy

7.5.1. Vers des entrepôts de données de confiance ou certifiés

Dans le but de pouvoir etre pérennisées et réutilisées, les données ont intérêt à être déposées dans des entrepôts. Déposer des données dans des entrepôts nécessite un certain nombre de prérequis pour assurer la qualité des données déposées :

  • favoriser le dépôt des données dans des formats ouverts interopérables,

  • avoir des données validées et présentant un code renseignant sur la qualité des données,

  • avoir des métadonnées descriptives bien renseignées et faisant partie d’un thesaurus identifié.

Il est également nécessaire de se préoccuper de la qualité des entrepôts que l’on va choisir pour y déposer les données. Pour être dignes de confiance, les entrepôts doivent également répondre à certains prérequis et spécifications qui, si besoin, peuvent amener à une certification.

Dans le cadre du séminaire du réseau SIST20, Aude Chambodut a présenté les fonctionnalités « TRUST » qui permettent d’avoir confiance dans un entrepôt, et en quoi consiste l’intérêt d’une certification « Core Trust Seal » . Comme Le Plan national pour la Science ouverte , elle nous rappelle que : « rendre les données FAIR tout en les préservant sur le long terme nécessite d’avoir des entrepôts fiables, dotés d’une gouvernance et de cadres organisationnels durables, d’une infrastructure fiable et des politiques globales soutenant des pratiques approuvées par la communauté ».

CoreTrustSeal est un organisme communautaire sans but lucratif qui promeut le développement d’infrastructures de données durables et fiables et spécifie les critères de conformité qui permettent de certifier un entrepôt.

La Research Data Alliance recommande les critères de conformité de Core trust Seal, qui spécifient un entrepôt de confiance.

S’ils ne sont pas certifiés, les entrepôts de confiance devraient, a minima, respecter les 5 principes TRUST : transparence (Transparency), responsabilité (Responsibility), orientation vers l’utilisateur (User focus), durabilité (Sustainability) et technologie (Technology).

  • Transparence : La transparence signifie que la gestion de l’entrepôt doit etre vérifiable par des preuves accessibles au public.

  • Responsabilité : La responsabilité implique de fournir toutes les garanties d’intégrité des données, de fiabilité et de pérennité de l’entrepot.

  • Orienté utilisateur : implique de veiller aux attentes des utilisateurs en matière de dépot de données.

  • Durabilité : demande à ce que les collections de données soient préservées sur le long terme.

  • Technologie : implique de fournir l’infrastructure et les capacités nécessaires pour obtenir des services sécurisés, pérennes et fiables.

Les principes TRUST donnent aux utilisateurs l’assurance qu’ils bénéficient d’entrepôts sûrs avec des moyens durables.

7.5.2. Entrepôts en SHS

En sciences humaines et sociales, NAKALA est un service proposé par l’infrastructure de Recherches « Huma-Num » pour déposer, documenter et diffuser les données de la recherche. Il permet de rendre les données interopérables et de diffuser très simplement, dans des publications électroniques, les données déposées dans NAKALA.

L’entrepôt de données de recherche NAKALA, est destiné à accueillir, conserver et rendre visibles et accessibles les données de recherche selon les principes FAIR. Il permet d’enregistrer des données numériques de tout type (fichiers texte, son, images, vidéo), de les décrire en vue de les exposer et les rendre réutilisables et citables. Ainsi le dépôt de données dans NAKALA va offrir des services sur plusieurs étapes du cycle de vie de vos données, sur la préservation, la publication et la réutilisation. Le service NAKALA offre deux niveaux de préservation :

  • Un niveau par défaut qui est mis en pratique dès lors qu’une donnée est enregistrée dans NAKALA. La donnée est décrite, contextualisée et stockée de manière sécurisée. Au titre de la préservation, déposer et décrire ses données dans NAKALA apporte la garantie d’une conservation des données dans un environnement sécurisé. Accompagnée d’une description, elle apporte aussi une conservation au niveau intellectuel garantissant sa compréhension à long terme.

  • Les données peuvent être organisées et regroupées dans des collections qui elles mêmes peuvent être décrites et identifiables. Le projet NAKALA_Press permet de présenter de façon personnalisable vos collections en complément des pages de recherche et de consultation disponibles directement dans NAKALA.

On trouvera ci dessous les présentations nécessaires pour utiliser l’entrepôt nakala :

7.5.3. Déposer/Publier dans des entrepôts institutionnels

Déposer dans des Entrepôts.. lesquels? comment?

Il existe beaucoup d’entrepôts de données, de nature et de qualité différentes. Certains sont des entrepôts Institutionnels (Portail Data INRAE, DataSuds, Didomena, … ), d’autres sont thématiques (PANGAEA pour les données environnementales, SEANOE spécifique aux données marines …) ou généralistes (Dryad, Zenodo, …). Pour aider à trouver et à choisir un entrepôt, des catalogues sont disponibles : https://cat.opidor.fr/, https://www.re3data.org/ et https://fairsharing.org/databases/. Des entrepôts spécifiques peuvent être suggérés (ou imposés) par le journal dans lequel on dépose un article, mais aussi par le financeur, le consortium du projet ou l’institution dans laquelle on travaille. Il est conseillé de vérifier si l’établissement dans lequel on travaille a mis en place une politique de partage de données et de s’y référer pour éviter la dispersion des données tous azimuts.

7.5.4. Les Infrastructures de Recherche nationales

Le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation tient à jour la liste officielle des Infrastructures de Recherche nationales.

7.6. Publier un « Datapaper » pour valoriser et expliciter les données

Le data paper est un article scientifique sur les données : il permet de décrire un jeu de données de recherche (data, dataset), à l’aide d’informations plus précises et détaillées que celles qu’on peut trouver dans un « plan de gestion de données » (DMP), notamment en insistant sur :

  • Les aspects méthodologiques,

  • la qualité des données et de leur méthode de collecte et de traitement,

  • l’originalité et la portée de ce jeu de données, ainsi que leur potentiel pour des utilisations futures (arguments décisifs pour l’acceptation de la publication),

  • l’accès au jeu de données, dans un fichier attaché ou par un lien pérenne (URL, DOI) vers un entrepôt où le jeu est déposé et accessible.

On ne confondra pas les informations fournies par un data paper, avec celles qu’on l’on donne lorsqu’on rédige un Plan de Gestion de données. Ce sont des informations différentes nous en parlons dans une FAQ

Publier un data paper permet de :

  • valoriser les données,

  • faciliter leur réutilisation,

  • leur apporter de la visibilité,

  • les rendre plus facilement repérables et citables; le data paper étant une publication citable, au même titre que tout article scientifique, il met en valeur ses auteurs en tant que créateur de données et permet la traçabilité des citations et des réutilisations.

Un data paper est une publication scientifique. Comme un article scientifique, il est validé par des « reviewer ». Mais c’est un article scientifique qui se distingue des articles présentant des résultats de recherche en plusieurs points :

  • Il est centré sur un jeu de données et il a pour finalité de le décrire.

  • Il se distingue d’un article scientifique traditionnel par le fait qu’il ne comporte pas d’hypothèses, ni d’interprétation, ni de discussion de résultats, ni de conclusions sur une question de recherche scientifiques

Selon les journaux et les communautés, la portée du « peer review » va varier. Certains vérifient uniquement la cohérence et la qualité de la description du jeux de données, d’autres évaluent les données elles-mêmes. Il est donc important de prendre en compte les politiques des revues par rapport aux données 1.

La différence est plus délicate lorsqu’il s’agit de comparer un data paper et un article contenant des « supplementary data » qu’il décrit. Là en effet, les distinctions ne sont pas toujours claires, surtout du fait du manque de recul car ce sont des pratiques récentes et toujours émergentes. Certains data paper sont très très bref et ne vont pas beaucoup plus loin que ce qu’on trouve dans la fiche accompagnant le jeu de données dans l’entrepôt, d’autres sont beaucoup plus complexes et jouent plus profondément la carte de la réutilisation en tentant d’expliciter les implications des jeux de données et des traitements subis.

Le data paper est publié, en libre accès, sous la forme d’un article examiné par les pairs dans une revue scientifique classique publiant différentes formes d’articles, dont des data papers, ou dans un data journal, c’est-à-dire une revue contenant exclusivement des data papers.

Il n’existe pas, à ce jour, de catalogues ou de répertoires à proprement parlé, mais nous recommandons la consultation de ces listes de liens génériques :

Après avoir expliqué pourquoi le GBIF et l’éditeur de revues PENSOFT ont proposé le concept de data paper, Sophie Pamerlon en explique les avantages et comment les outils du GBIF facilitent la rédaction d’un datapaper en biodiversité à travers quelques exemples concrets.

Data papers : Une incitation à la publication de données sur la biodiversité,

Sophie Pamerlon :Système mondial d’information sur la biodiversité - GBIF Global Biodiversity Information Facility

On trouvera de nombreuses informations sur la création et l’évaluation de Data papers dans le Webinaire intitulé « DataPaper: une incitation à la qualification et à la réutilisation des jeux de données » organisé par l” »Atelier Données » du groupe de travail Données inter-réseaux de la MITI.

Sophie Pamerlon présente les avantages de publier un datapaper, ainsi que deux outils de rédaction de datapaper :

  • IPT (Integrated Publishing Toolkit) qui facilite le remplissage des métadonnées et la production automatisée d’un manuscrit de Data Paper

  • ARPHA : Outil de rédaction qui facilite la mise en page, la soumission, le processus de relecture, la publication, l’hébergement et l’archivage d’articles scientifiques.

Pour se faire une idée d’un exemple de datapaper, Annegret Nicolai nous présente un exemple de datapaper du projet bioBlitz et les avantages et inconvénients qu’elle y trouve :

BioBlitz 2017 à la Station Biologique de Paimpont – un data paper de science citoyenne

Vidéo :
Annegret Nicolai, (Univ. Rennes 1 – UMR ECOBIO, Station Biologique de Paimpont)

Dans sa présentation, Clémentine Cottineau nous indique quels sont les principes et le processus d’évaluation d’un datapaper pour la revue Cybergeo: Retour d’expérience et difficultés rencontrées. On trouvera sur cybergeo un exemple de recommandations aux auteurs pour un datapaper.

Évaluer un data paper : retour d’expérience de la revue Cybergeo

Vidéo :
Clémentine Cottineau, CNRS – Centre Maurice Halbwachs
Denise Pumain, Univ. Paris 1 – UMR Géographie-Cités
Christine Kosmopoulos, CNRS – UMR Géographie-Cités

Victor Gay nous présente un retour d’expérience de rédaction d’un datapaper publié sur HAL selon le modèle de la revue Scientific Data. Il nous présente la production d’un data paper du point de vue d’un chercheur. Après avoir exposé sa recherche et les données produites, il explique pourquoi il a décidé de rédiger un data paper, la manière dont il s’y est pris pour le dépôt des données et la rédaction, avant de revenir sur les choix de dissémination et le rôle des métiers de l’accompagnement de la recherche dans l’ensemble du processus.

Retour d’expérience d’un producteur de data paper

Vidéo :
Victor Gay, Univ. Toulouse 1 – École d‘Économie de Toulouse

Joachim Schöpfel, propose une synthèse des différentes communications du webinaire en indiquant qu’un data paper fournit l’information « on the what, where, why, how and who of the data ». Il revient ainsi sur l’intégration des data papers dans les pratiques des communautés, leur diversité de forme, leurs objectifs, leur évaluation, leur impact, le rôle des différents métiers de la recherche dans leur production, pour finir sur les perspectives en la matière et ouvrir ainsi sur des échanges avec les participants.

Synthèse du webinaire et échanges

Vidéo :
Joachim Schöpfel, Université Lille 3 – GERiiCO

En guise d’exercice de conclusion, Wilfried Heintz nous fait part de sa conception d’une gestion pérenne des données scientifiques, en reliant nos différentes actions depuis l’étape initiale de la rédaction d’un DMP (Plan de gestion des données) jusqu’à à la publication d’un DataPaper :

Gestion pérenne des données scientifiques : du plan de gestion de données au datapaper.

Wilfried Heintz, UMR 1201 Dynafor
Storage Day 2018, Paris.

7.7. Publier des données grâce au web des données et au web sémantique

Selon Wikipedia, « le Web sémantique est une extension du Web standardisée par le World Wide Web Consortium (W3C). Ces standards encouragent l’utilisation de formats de données et de protocoles d’échange normés sur le Web, en s’appuyant sur le modèle Resource Description Framework (RDF). Le Web sémantique est par certains qualifié de web 3.0.»

Selon Wikipedia, « le Web des données (linked data, en anglais) est une initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d’informations.»

Tim Berners-Lee (inventeur du Web et directeur du W3C), qui supervise le développement des technologies communes du Web sémantique a défini le web sémantique comme « une toile de données, données qui peuvent être traitées directement et indirectement par des machines pour aider leurs utilisateurs à créer de nouvelles connaissances ».

Rendre nos Données accessibles et interopérables sur le Web,

Franck Michel (I3S - UMR 7271, CNRS - Univ. Nice Sophia), 2015
mots-clés : SPARQL, web sémantique, RDF, SKOS, OWL
Action nationale de formation RBDD 2015

Rendre les données interopérables sur le web est le sujet essentiel de cette présentation très complète. Après avoir posé le contexte, Franck Michel développe le sujet en déroulant le plan suivant :

  • The Web of Data and the Semantic Web

  • Create, reuse and link vocabularies

  • Populate the Web of Data

  • Publish Linked Open Data on the Web

Il détaille le modèle RDF (Resource Description Framework) du W3C, puis, le langage de requêtes SPARQL. Il explique ensuite le standard SKOS (Simple Knowledge Organization System) utilisé pour représenter les vocabulaires contrôlés, les taxonomies et thesauri. Il termine en montrant comment publier des données ouvertes sur le web.

Atelier « Mise en place d’un SPARQL EndPoint. Servir du RDF via HTTP avec Jena et Fuseki »

Wilfried Heintz (Unité Mixte de Recherche « Dynamiques et écologie des paysages agriforestiers »), 2015

Cet atelier technique est organisé selon le plan suivant :

  • Présentation de l’outil Jena

  • Prérequis et préparation du serveur

  • RDFizer les métadonnées ou les données

  • Installation de Fuseki

  • Exemples d’exploitation du Sparql Endpoint

Tous les éléments exposés dans ce chapitre sont nécessaires et importants pour mettre en place une bonne publication et diffusion des données de la science.


1

https://datascience.codata.org/articles/10.5334/dsj-2020-005/