Foire Aux Questions

dernière mise à jour le 24/06/2020

Quels sont les points de vigilance pour préparer le partage de données ?

Pour bien préparer le partage des données, il est recommandé :

  • de penser cycle de vie de la donnée avant même qu'elle soit générée, c'est à dire dès l'origine du projet. Ceci permet notamment d'expliciter très clairement l'ouverture des données à l'ensemble des partenaires du projet
  • de décrire très spécifiquement les données collectées ou générées en le faisant autant que possible via un portail spécialisé, disciplinaire ou institutionnel, HAL, etc.
  • de décrire le plus finement possible la méthodologie et les outils nécessaires pour leur réutilisation (si possible fournir, avec les données, les programmes permettant l'utilisation (a minima la lecture) des données)
  • de veiller à ce que les formats et standards utilisés soient ouverts et communément utilisés par la communauté
  • d'utiliser une convention de nommage pour désigner correctement ses fichiers
  • de veiller au respect des lois et en particulier la RGPD et éventuellement prévoir d'anonymiser les données
  • de préciser les modalités d’accès et de réutilisation des données en choisissant une licence explicite, en indiquant les périodes d’embargo
  • de fournir avec les données une référence bibliographique associée aux données (un article de journal). Ainsi l'usage des données devrait impliquer la citation du doi (ou identifiant unique autre) des données elle même, plus un doi (ou identifiant unique autre) associé à la publication de référence.

Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données (cf. la plateforme DMP Opidor du CNRS/INIST https://dmp.opidor.fr/)

Quels sont les formats à privilégier pour le partage de données ?

Le format des données numériques étant important pour le partage et la préservation pérenne des données, il convient de :

  • de privilégier des formats non propriétaires et ouverts, c’est-à-dire des formats qui ne sont pas spécifiques ou brevetés, qui peuvent être maintenus indépendamment de l’éditeur et accessibles sans restriction (par exemple, le format txt est lisible par de nombreux logiciels, sans restriction)
  • d'utiliser des formats si possible communément partagés par la communauté (netCDF pour toutes les communautés qui ont de gros besoins)
  • de consulter le site du CINES https://www.cines.fr/archivage/des-expertises/les-formats-de-fichier/ qui développe une expertise sur les formats de fichiers et propose une liste de formats validables et l’outil « Facile » (https://facile.cines.fr/) permettant de vérifier la validité d’un format éligible à l’archivage au CINES
  • d'éviter les formats gourmands (ascii, txt) et le stockage inutile dans le cas de gros volumes de données. Priviligier les formats binaires (tels que netcdf ou hdf5)

Pourquoi et comment choisir une convention de nommage de fichiers ?

Construire et appliquer des règles communes de nommage est important pour faciliter l'accès et le partage des fichiers. Pour que les dénominations soient compréhensibles par les humains et interprétables par les machines, il convient a minima de respecter les règles suivantes pour le nommage :

  • unique, court et descriptif
  • sans caractères accentués ou spéciaux tels que \ / : * ? ̎ < >
  • sans espace mais en utilisant « _ » ou une majuscule en début de mot (camelCase)
  • sans mots vides : le, la, les, une…
  • avec l'acronyme du projet (le cas échéant)
  • en versionnant avec date (AAAA-MM-JJ) et numéro de version (_v01, _v01-01 )

Plusieurs recommandations ont été publiées auxquelles il est possible de se référer à :

Comment choisir l'endroit où déposer les données ?

Il est important que l'endroit où seront stockées les données soit identifiable et partagé par une large communauté de personnes susceptibles de réutiliser les données. Ainsi un site personnel n'est pas conseillé. Il est habituellement recommandé de déposer les données dans un entrepôt de données et si possible un entrepôt de données certifié (liste des entrepôts certifiées CoreTrustSeal https://www.coretrustseal.org/why-certification/certified-repositories/ )

Comment choisir un entrepôt ?

Il existe beaucoup d'entrepôts de données, de nature et de qualité différentes. Certains sont des entrepôts Institutionnels (Portail Data INRAE, DataSuds, Didomena, … ), d'autres sont thématiques (PANGAEA pour les données environnementales, SEANOE spécifique aux données marines …) ou généralistes (Dryad, Zenodo, …) Pour vous aider à trouver et à choisir votre entrepôt, des catalogues sont disponibles : https://cat.opidor.fr/, https://www.re3data.org/ et https://fairsharing.org/databases/. Des entrepôts spécifiques peuvent être suggérés (ou imposés) par le journal dans lequel vous déposez votre article, mais aussi par le financeur, le consortium du projet ou l’institution dans laquelle vous travaillez. Il est conseillé de vérifier si l'établissement dans lequel vous exercez a mis en place une politique de partage de données et de s'y référer pour éviter la dispersion des données tout azimut.

Quels sont les critères à prendre en compte pour sélectionner un entrepôt ?

Il convient de prendre des précautions et de s'assurer de la qualité de l'entrepôt. Il convient de prendre en compte les caractéristiques/fonctionnalités proposées par l’entrepôt : types de données, formats de fichiers acceptés, volumétrie, métadonnées, licence, identifiant pérenne, facilite/aide dépôt, gestion des accès (embargo), gestion des versions, liens vers publications, statistiques d’usages, localisation du serveur, organisme responsable de l’entrepôt, visibilité, conservation sécurisée, visualisation, coût…

Quelle est la durée de vie d'un dépôt de jeux de données dans un entrepôt?

Cette information dépend de la politique de l'entrepôt. Un entrepôt n'est pas une archive. Les temps de rétention des entrepôts sont toutefois conséquent.

A titre d'exemple, voici ce que dit Zenodo : "Retention period: Items will be retained for the lifetime of the repository. This is currently the lifetime of the host laboratory CERN, which currently has an experimental programme defined for the next 20 years at least."

Pourquoi les données doivent-elles disposer d'un identifiant pérenne ?

Pour qu'elles soient trouvables, visibles et accessibles au même titre que les publications. Pour qu'elles soient plus facilement citables et que l'on puisse les lier aux publications ou à tout autre produit de recherche. Il concourt à l'interopérabilité des données. Attention, la pérennité est purement une question de service et n'est ni inhérente à un objet, ni conférée par une syntaxe de nommage particulier. La pérennité du lien vers la localisation de la ressource est de la responsabilité du déposant ou du créateur de l'identifiant.

Pour en savoir plus sur les identifiants pérennes :

Comment citer mes données ?

Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu'une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l'attribution d'un DOI .

Voici deux exemples de citations proposées par des entrepôts :

  • Duchêne, Eric, 2019, "Vitis vinifera cv. Riesling developmental stages", https://doi.org/10.15454/GYSGNR, Portail Data INRAE, V1, UNF:6:kNx5sQl91wFK0qFXwyZe3A== [fileUNF]
  • Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854, Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science

Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation

Quand vous citez un jeu de données provenant d'un entrepôt spécifique, pensez à lui notifier l'article dès que celui-ci est publié pour que l'entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.

Est ce qu'il y a des métadonnées indispensables pour déposer ?

En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. C'est aussi un critère important pour choisir son entrepôt de données. Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s'appuient sur des vocabulaires contrôlés (https://schema.datacite.org)

Il est en général nécessaire de suivre les normes et recommandations relatives à la discipline et/ou thématique des données. Si on traite par exemple de jeux de données géolocalisés, il est nécessaire de suivre ou de se reposer sur certaines normes standards comme ISO19115, ISO19139 ou la directive INSPIRE relatives à l'information géographique (https://inspire.ec.europa.eu/id/document/tg/metadata-iso19139). Si vous ne connaissez pas les métadonnées de votre domaine, rejoignez le réseau métier de votre thématique et/ou consultez les sites suivants :

Les métadonnées sont le plus souvent modifiables après la création du dépôt et de l'identifiant unique, ce qui n'est en général pas le cas du jeu de données.

Est-ce que les métadonnées métiers sont indispensables pour déposer un jeu de données ?

Il est indispensable de documenter et d'expliquer les termes utilisés pour nommer les données. Dans le domaine environnemental, on peut citer par exemple la convention CF (climate forecast) http://cfconventions.org/ très utilisée pour les données des domaines océaniques et atmosphériques, qui standardise le libellé des variables à utiliser.

Il est possible de s'appuyer sur un datapaper pour porter à connaissance les métadonnées métiers.

Pour en savoir plus sur la notion de datapapers (qui sont une publication sur les données), vous pouvez aller sur le site de Doranum.

Ai-je vraiment besoin d'un vocabulaire contrôlé pour déposer les données ?

Il est possible de déposer un jeu de données sans disposer nécessairement d'un vocabulaire contrôlé pour le décrire mais s'appuyer sur un lexique ou un vocabulaire contrôlé permet d'optimiser la recherche d'information et de permettre l'interopérabilité sémantique entre différents jeux de données.

Quelle licence choisir ?

La loi pour une république numérique impose de choisir une licence parmi les licences suivantes pour les données ouvertes (https://www.data.gouv.fr/fr/licences). Si toutefois, le consortium du projet dans lequel les données ont été créés impose un autre choix, vous devez vous conformer à ce choix. Créée par EtatLab (https://www.etalab.gouv.fr/licence-ouverte-open-licence) pour la diffusion des données publiques françaises, la licence ouverte autorise la réutilisation, la reproduction, la modification, la redistribution des données et leur exploitation à titre commercial sous réserve de mentionner a minima le nom du producteur et la date de dernière mise à jour. Elle est compatible avec toute licence qui exige a minima la mention de paternité, notamment avec les licences ODBL (http://opendatacommons.org/licenses/odbl/) et CC-by (https://creativecommons.org/choose/?lang=fr). Cette licence est utilisée notamment sur la plate-forme de mise à disposition des données publiques data.gouv.fr. La licence est aussi un critère important pour choisir un entrepôt de données. Il faut veiller à ce que la licence que vous choisissez soit disponible sur l’entrepôt

Est-ce que les données sont nécessairement ouvertes?

Il n'est pas nécessaire de rendre public tous les jeux de données. Le principe est le suivant : les données doivent être aussi ouvertes que possible et aussi fermées que nécessaire. Vous pouvez consulter le guide d’analyse du cadre juridique sur l’ouverture des données de la recherche : "Nicolas Becard, Céline Castets-Renard, Gauthier Chassang, Martin Dantant, Laurence Freyt-Caffin, et al.. Ouverture des données de la recherche. Guide d'analyse du cadre juridique en France. 2017, 45 p. ⟨10.15454/1.481273124091092E12⟩. ⟨hal-02791224⟩".

Comment définir un jeu de données ?

« Peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent » (Gaillard R, 2014). Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée

Est-il utile de déposer les données à plusieurs endroits ?

Deux cas se posent :

  • Si les données appartiennent exactement au même jeu de données, il ne faut surtout pas dupliquer le jeu de données mais utiliser la notion de collections virtuelles qui existent sur de nombreuses plateformes (DataSuds / Zenodo / ..).
  • Si les mêmes données appartiennent à plusieurs jeux de données, les données peuvent se retrouver de facto être déposé à plusieurs endroits mais il n'est pas conseillé de le faire. Dans ce cas, il faut peut être réflechir aux critères utilisés pour définir le jeu de donnée.

Quelles sont les types d'API proposés par les entrepôts ?

  • OAI-PMH (accès distants)
  • Native API (dépot de données et publication)
  • API de présentation de données (DC, json-ld)
  • Sword API (dépôt), Search API, Data access API, Metrics API et Native API sont les API proposées par Dataverse

Quelles sont les différences entre les plans de gestion de données et les datapapers ?

Les plans de gestion de données (PGD) sont créés dès le début d'un projet (voire en phase exploratoire) et l'accompagnent. Ils décrivent qualitativement et quantitativement les données qui vont être manipulées et définissent ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans les PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).

Les datapapers accompagnent la publication de jeux de données : ils ont pour objectif de rendre les données accessibles, interprétables et réutilisables. Les datapapers doivent décrire les conditions d'acquisition des données, contenir la description fine de tous les champs, et proposer des usages potentiels. Le data paper est publié sous la forme d'un article examiné par les pairs. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper

Les datapapers et les PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Les datapapers sont dédiés à la publication scientifique et n'ont qu'une version alors que les PGD permettent une meilleure gestion du projet.

Contact

gt-donnees-inter-reseaux@groupes.renater.fr