dernière mise à jour le 07/01/2021
Cette FAQ est la synthèse des échanges qui se sont tenus lors de l'hackathon « Comment améliorer le dépôt et le partage de données de recherche ?" ». Elle est depuis enrichie régulièrement des discussions sur la liste données.
Pour bien préparer le partage des données, il est recommandé :
Pour vous aider dans cette tâche il est fortement conseillé de recourir à la rédaction d’un plan de gestion des données (PGD).
Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données (cf. la plateforme DMP Opidor du CNRS/INIST https://dmp.opidor.fr/)
Le format des données numériques étant important pour le partage et la préservation pérenne des données, il convient de :
Idéalement, il faut privilégier les formats qui permettent de faire de l'accès direct aux données. Par exemple, netcdf ou hdf5 permettent de ne lire qu'un bout de tableau, ce qui peut permettre des économies conséquentes en termes de transfert de données (et donc d'impact environnemental négatif)
Construire et appliquer des règles communes de nommage est important pour faciliter l'accès et le partage des fichiers. Pour que les dénominations soient compréhensibles par les humains et interprétables par les machines, il convient a minima de respecter les règles suivantes pour le nommage :
Plusieurs recommandations ont été publiées auxquelles il est possible de se référer à :
Il est important que l'endroit où seront stockées les données soit identifiable et partagé par une large communauté de personnes susceptibles de réutiliser les données. Ainsi un site personnel n'est pas conseillé. Il est habituellement recommandé de déposer les données dans un entrepôt de données et si possible un entrepôt de données certifié (liste des entrepôts certifiées CoreTrustSeal https://www.coretrustseal.org/why-certification/certified-repositories/ )
Un entrepôt de données est un dépôt central informatique contenant des données décrites par un ensemble minimum de métadonnées (titre, license, créateur, ..) permettant leur identification, leur diffusion et leur réutilisation. Un entrepôt de données garantit la conservation des données à plus ou moins long terme ainsi que la pérennisation des moyens d'identification (identifiant ou moyen d'accès). DataSuds (https://dataverse.ird.fr/) est un exemple d'entrepôts de données.
Il existe beaucoup d'entrepôts de données, de nature et de qualité différentes. Certains sont des entrepôts Institutionnels (Portail Data INRAE, DataSuds, Didomena, … ), d'autres sont thématiques (PANGAEA pour les données environnementales, SEANOE spécifique aux données marines …) ou généralistes (Dryad, Zenodo, …) Pour vous aider à trouver et à choisir votre entrepôt, des catalogues sont disponibles : https://cat.opidor.fr/, https://www.re3data.org/ et https://fairsharing.org/databases/. Des entrepôts spécifiques peuvent être suggérés (ou imposés) par le journal dans lequel vous déposez votre article, mais aussi par le financeur, le consortium du projet ou l’institution dans laquelle vous travaillez. Il est conseillé de vérifier si l'établissement dans lequel vous exercez a mis en place une politique de partage de données et de s'y référer pour éviter la dispersion des données tout azimut.
Il convient de prendre des précautions et de s'assurer de la qualité de l'entrepôt. Il convient de prendre en compte les caractéristiques/fonctionnalités proposées par l’entrepôt : types de données, formats de fichiers acceptés, volumétrie, métadonnées, licence, identifiant pérenne, facilite/aide dépôt, gestion des accès (embargo), gestion des versions, liens vers publications, statistiques d’usages, localisation du serveur, organisme responsable de l’entrepôt, visibilité, conservation sécurisée, visualisation, coût…
Cette information dépend de la politique de l'entrepôt. Un entrepôt n'est pas une archive. Les temps de rétention des entrepôts sont toutefois conséquent.
A titre d'exemple, voici ce que dit Zenodo : "Retention period: Items will be retained for the lifetime of the repository. This is currently the lifetime of the host laboratory CERN, which currently has an experimental programme defined for the next 20 years at least."
Pour qu'elles soient trouvables, visibles et accessibles au même titre que les publications. Pour qu'elles soient plus facilement citables et que l'on puisse les lier aux publications ou à tout autre produit de recherche. Il concourt à l'interopérabilité des données. Attention, la pérennité est purement une question de service et n'est ni inhérente à un objet, ni conférée par une syntaxe de nommage particulier. La pérennité du lien vers la localisation de la ressource est de la responsabilité du déposant ou du créateur de l'identifiant.
Pour en savoir plus sur les identifiants pérennes :
Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu'une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l'attribution d'un DOI .
Voici deux exemples de citations proposées par des entrepôts :
Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation
Quand vous citez un jeu de données provenant d'un entrepôt spécifique, pensez à lui notifier l'article dès que celui-ci est publié pour que l'entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.
En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. C'est aussi un critère important pour choisir son entrepôt de données. Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s'appuient sur des vocabulaires contrôlés (https://schema.datacite.org)
Il est en général nécessaire de suivre les normes et recommandations relatives à la discipline et/ou thématique des données. Si on traite par exemple de jeux de données géolocalisés, il est nécessaire de suivre ou de se reposer sur certaines normes standards comme ISO19115, ISO19139 ou la directive INSPIRE relatives à l'information géographique (https://inspire.ec.europa.eu/id/document/tg/metadata-iso19139). Si vous ne connaissez pas les métadonnées de votre domaine, rejoignez le réseau métier de votre thématique et/ou consultez les sites suivants :
Les métadonnées sont le plus souvent modifiables après la création du dépôt et de l'identifiant unique, ce qui n'est en général pas le cas du jeu de données.
Il est indispensable de documenter et d'expliquer les termes utilisés pour nommer les données. Dans le domaine environnemental, on peut citer par exemple la convention CF (climate forecast) http://cfconventions.org/ très utilisée pour les données des domaines océaniques et atmosphériques, qui standardise le libellé des variables à utiliser.
Il est possible de s'appuyer sur un datapaper pour porter à connaissance les métadonnées métiers.
Pour en savoir plus sur la notion de datapapers (qui sont une publication sur les données), vous pouvez aller sur le site de Doranum.
Il est possible de déposer un jeu de données sans disposer nécessairement d'un vocabulaire contrôlé pour le décrire mais s'appuyer sur un lexique ou un vocabulaire contrôlé permet d'optimiser la recherche d'information et de permettre l'interopérabilité sémantique entre différents jeux de données.
La loi pour une république numérique impose de choisir une licence parmi les licences suivantes pour les données ouvertes (https://www.data.gouv.fr/fr/licences). Si toutefois, le consortium du projet dans lequel les données ont été créés impose un autre choix, vous devez vous conformer à ce choix. Créée par EtatLab (https://www.etalab.gouv.fr/licence-ouverte-open-licence) pour la diffusion des données publiques françaises, la licence ouverte autorise la réutilisation, la reproduction, la modification, la redistribution des données et leur exploitation à titre commercial sous réserve de mentionner a minima le nom du producteur et la date de dernière mise à jour. Elle est compatible avec toute licence qui exige a minima la mention de paternité, notamment avec les licences ODBL (http://opendatacommons.org/licenses/odbl/) et CC-by (https://creativecommons.org/choose/?lang=fr). Cette licence est utilisée notamment sur la plate-forme de mise à disposition des données publiques data.gouv.fr. La licence est aussi un critère important pour choisir un entrepôt de données. Il faut veiller à ce que la licence que vous choisissez soit disponible sur l’entrepôt
Il n'est pas nécessaire de rendre public tous les jeux de données. Le principe est le suivant : les données doivent être aussi ouvertes que possible et aussi fermées que nécessaire. Vous pouvez consulter le guide d’analyse du cadre juridique sur l’ouverture des données de la recherche : "Nicolas Becard, Céline Castets-Renard, Gauthier Chassang, Martin Dantant, Laurence Freyt-Caffin, et al.. Ouverture des données de la recherche. Guide d'analyse du cadre juridique en France. 2017, 45 p. ⟨10.15454/1.481273124091092E12⟩. ⟨hal-02791224⟩".
« Peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent » (Gaillard R, 2014). Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée
Cette pratique n'est pas interdite, mais est fortement déconseillée. Un dépôt dans un entrepôt permet d'obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d'éparpillement.
Deux cas se posent :
Les plans de gestion de données (PGD) sont créés dès le début d'un projet (voire en phase exploratoire) et l'accompagnent. Ils décrivent qualitativement et quantitativement les données qui vont être manipulées et définissent ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans les PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).
Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessibles, interprétables et réutilisables. Un datapapers doit décrire les conditions d'acquisition des données, contenir la description fine de tous les métadonnées, et peut proposer des usages potentiels. Les data-papers ne comportent pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.
Les datapapers et les PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Les datapapers sont dédiés à la publication scientifique et n'ont qu'une version alors que les PGD permettent une meilleure gestion du projet.
Avant de déposer un jeu de données dans un entrepôt, il convient de vérifier si celui-ci s’inscrit dans le principe d’ouverture par défaut ou s’il relève d’un cas d’exception.
Les données de la recherche sont en principe considérées comme des informations publiques. A ce titre, elles s’inscrivent dans le principe d’ouverture par défaut et de libre réutilisation introduit par les loi Valter et Lemaire. Mais elles peuvent relever de cas particuliers(exceptions) qui dérogent à cette règle.
Il faut donc s’assurer que :
Nous vous conseillons de consulter le logigramme établi par l’institut pasteur, le Guide d’analyse du cadre juridique en France et le guide RGPD de l’INSHS.
Les données déposées dans un entrepôt de données sont destinées à être réutilisées selon les termes de la licence associée au jeu de données. Plusieurs types de licences existent et chacune énonce des autorisations et des restrictions spécifiques. Il convient donc de prendre connaissance directement du texte de la licence. En l’absence de licence spécifique associée à un jeu de données, il convient de se reporter aux conditions générales d’utilisation (CGU) du site qui les diffuse. Point de vigilance : si aucune licence ou mention n’est précisée, cela ne signifie pas pour autant que la réutilisation est libre, car des droits peuvent s’appliquer automatiquement (propriété intellectuelle, protection des données personnelles).
Il n’existe pas à ce jour de catalogue ou de répertoire à proprement dit mais nous vous recommandons la consultation de ces listes de liens génériques (CIRAD, Forschungsdaten, Datashare et dans le domaine de la Bio-Diversité (GBIF)) (Liste mise à jour le 20/11/2020)
Il est tout à fait possible de publier un nouveau data-paper si les données ont évolué. Voici par exemple, un data-paper publié l'année suivante avec de nouvelles données pour le même projet (Phenocam) : (Seyednasrollah, B., Young, A.M., Hufkens, K. et al. Tracking vegetation phenology across diverse biomes using Version 2.0 of the PhenoCam Dataset. Sci Data 6, 222 (2019). https://doi.org/10.1038/s41597-019-0229-9) et (Richardson, A., Hufkens, K., Milliman, T. et al. Tracking vegetation phenology across diverse North American biomes using PhenoCam imagery. Sci Data 5, 180028 (2018). https://doi.org/10.1038/sdata.2018.28).
Un data paper est nécessairement une publication scientifique, validée par les pairs. Mais le data-paper se distingue des articles traditionnels sur plusieurs points :
Les data-papers ne comportent pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche ni de conclusions.
Attention : Le contenu d'un data-paper peut différer d'une revue à une autre et dépendra de la ligne éditoriale de la revue éditrice.
D'après le Journal Officiel JORF n°0157 du 9 juillet 2019, on peut traduire data-journal par revue de données et data-paper par publication de données