Foire Aux Questions

Cette FAQ est la synthèse des échanges qui se sont tenus lors de l’hackathon «Comment améliorer le dépôt et le partage de données de recherche ?». Elle est depuis enrichie régulièrement des discussions sur la liste de discussion donnees-inter-reseaux.

Quels sont les points de vigilance pour préparer le partage de données ?

Pour bien préparer le partage des données, il est recommandé :

  • de penser cycle de vie de la donnée avant même qu’elle soit générée, c’est à dire dès l’origine du projet. Ceci permet notamment d’expliciter très clairement l’ouverture des données à l’ensemble des partenaires du projet
  • de décrire très spécifiquement les données collectées ou générées en le faisant autant que possible via un portail spécialisé, disciplinaire ou institutionnel, HAL, etc.
  • de décrire le plus finement possible la méthodologie et les outils nécessaires pour leur réutilisation (si possible fournir, avec les données, les programmes permettant l’utilisation (a minima la lecture) des données)
  • de veiller à ce que les formats et standards utilisés soient ouverts et communément utilisés par la communauté
  • d’utiliser une convention de nommage pour désigner correctement ses fichiers
  • de veiller au respect des lois et en particulier la RGPD et éventuellement prévoir d’anonymiser les données
  • de préciser les modalités d’accès et de réutilisation des données en choisissant une licence explicite, en indiquant les périodes d’embargo
  • de fournir avec les données une référence bibliographique associée aux données (un article de journal). Ainsi l’usage des données devrait impliquer la citation du doi (ou identifiant unique autre) des données elle même, plus un doi (ou identifiant unique autre) associé à la publication de référence.

Pour vous aider dans cette tâche il est fortement conseillé de recourir à la rédaction d’un plan de gestion des données (PGD).

Appuyez-vous sur ce plan pour répondre aux questions incontournables qui vous prépareront à un partage et une gestion optimum des données (cf. la plateforme DMP Opidor du CNRS/INIST https://dmp.opidor.fr/)

Quels sont les formats à privilégier pour le partage de données ?

Le format des données numériques étant important pour le partage et la préservation pérenne des données, il convient de :

  • de privilégier des formats non propriétaires et ouverts, c’est-à-dire des formats qui ne sont pas spécifiques ou brevetés, qui peuvent être maintenus indépendamment de l’éditeur et accessibles sans restriction (par exemple, le format txt est lisible par de nombreux logiciels, sans restriction)
  • d’utiliser des formats si possible communément partagés par la communauté (netCDF pour toutes les communautés qui ont de gros besoins)
  • de consulter le site du CINES https://www.cines.fr/archivage/des-expertises/les-formats-de-fichier/ qui développe une expertise sur les formats de fichiers et propose une liste de formats validables et l’outil « Facile » (https://facile.cines.fr/) permettant de vérifier la validité d’un format éligible à l’archivage au CINES
  • d’éviter les formats gourmands (ascii, txt) et le stockage inutile dans le cas de gros volumes de données. Priviligier les formats binaires (tels que netcdf ou hdf5)

Idéalement, il faut privilégier les formats qui permettent de faire de l’accès direct aux données. Par exemple, netcdf ou hdf5 permettent de ne lire qu’un bout de tableau, ce qui peut permettre des économies conséquentes en termes de transfert de données (et donc d’impact environnemental négatif)

Pourquoi et comment choisir une convention de nommage de fichiers ?

Construire et appliquer des règles communes de nommage est important pour faciliter l’accès et le partage des fichiers. Pour que les dénominations soient compréhensibles par les humains et interprétables par les machines, il convient a minima de respecter les règles suivantes pour le nommage :

  • unique, court et descriptif
  • sans caractères accentués ou spéciaux tels que  / : * ? ̎ < >
  • sans espace mais en utilisant « _ » ou une majuscule en début de mot (camelCase)
  • sans mots vides : le, la, les, une…
  • avec l’acronyme du projet (le cas échéant)
  • en versionnant avec date (AAAA-MM-JJ) et numéro de version (_v01, _v01-01 )

Plusieurs recommandations ont été publiées auxquelles il est possible de se référer à :

Comment choisir l’endroit où déposer les données ?

Il est important que l’endroit où seront stockées les données soit identifiable et partagé par une large communauté de personnes susceptibles de réutiliser les données. Ainsi un site personnel n’est pas conseillé. Il est habituellement recommandé de déposer les données dans un entrepôt de données et si possible un entrepôt de données certifié (liste des entrepôts certifiées CoreTrustSeal https://www.coretrustseal.org/why-certification/certified-repositories/ )

Qu’est ce qu’un entrepôt de données ?

un entrepôt de données est un dépôt central informatique contenant des données décrites par un ensemble minimum de métadonnées (titre, license, créateur, ..) permettant leur identification, leur diffusion et leur réutilisation. Un entrepôt de données garantit la conservation des données à plus ou moins long terme ainsi que la pérennisation des moyens d’identification (identifiant ou moyen d’accès). DataSuds (https://dataverse.ird.fr/) est un exemple d’entrepôts de données.

Comment choisir un entrepôt ?

Il existe beaucoup d’entrepôts de données, de nature et de qualité différentes. Certains sont des entrepôts Institutionnels (Portail Data INRAE, DataSuds, Didomena, … ), d’autres sont thématiques (PANGAEA pour les données environnementales, SEANOE spécifique aux données marines …) ou généralistes (Dryad, Zenodo, …) Pour vous aider à trouver et à choisir votre entrepôt, des catalogues sont disponibles : https://cat.opidor.fr/, https://www.re3data.org/ et https://fairsharing.org/databases/. Des entrepôts spécifiques peuvent être suggérés (ou imposés) par le journal dans lequel vous déposez votre article, mais aussi par le financeur, le consortium du projet ou l’institution dans laquelle vous travaillez. Il est conseillé de vérifier si l’établissement dans lequel vous exercez a mis en place une politique de partage de données et de s’y référer pour éviter la dispersion des données tout azimut.

Quels sont les critères à prendre en compte pour sélectionner un entrepôt ?

Il convient de prendre des précautions et de s’assurer de la qualité de l’entrepôt. Il convient de prendre en compte les caractéristiques/fonctionnalités proposées par l’entrepôt : types de données, formats de fichiers acceptés, volumétrie, métadonnées, licence, identifiant pérenne, facilite/aide dépôt, gestion des accès (embargo), gestion des versions, liens vers publications, statistiques d’usages, localisation du serveur, organisme responsable de l’entrepôt, visibilité, conservation sécurisée, visualisation, coût…

Quelle est la durée de vie d’un dépôt de jeux de données dans un entrepôt?

Cette information dépend de la politique de l’entrepôt. Un entrepôt n’est pas une archive. Les temps de rétention des entrepôts sont toutefois conséquent.

A titre d’exemple, voici ce que dit Zenodo : “Retention period: Items will be retained for the lifetime of the repository. This is currently the lifetime of the host laboratory CERN, which currently has an experimental programme defined for the next 20 years at least.”

Pourquoi les données doivent-elles disposer d’un identifiant pérenne ?

Pour qu’elles soient trouvables, visibles et accessibles au même titre que les publications. Pour qu’elles soient plus facilement citables et que l’on puisse les lier aux publications ou à tout autre produit de recherche. Il concourt à l’interopérabilité des données. Attention, la pérennité est purement une question de service et n’est ni inhérente à un objet, ni conférée par une syntaxe de nommage particulier. La pérennité du lien vers la localisation de la ressource est de la responsabilité du déposant ou du créateur de l’identifiant.

Pour en savoir plus sur les identifiants pérennes :

Comment citer mes données ?

Les entrepôts proposent en général un format de citation. Pour les autres types de dépôt, veillez à ce qu’une formule soit proposée en indiquant correctement les éléments indispensables (par exemple auteur, titre, date, ….). DataCite propose également un choix de modèles de citation lors de l’attribution d’un DOI . Voici deux exemples de citations proposées par des entrepôts :

  • Duchêne, Eric, 2019, “Vitis vinifera cv. Riesling developmental stages”, https://doi.org/10.15454/GYSGNR, Portail Data INRAE, V1, UNF:6:kNx5sQl91wFK0qFXwyZe3A== [fileUNF]
  • Ferré, Chiara; Comolli, Roberto (2019): Soil properties and humus forms in 50-year old and 80-year Red Oak stands and native mixed forests of Lombardy plain. PANGAEA, https://doi.org/10.1594/PANGAEA.905854, Supplement to: Ferré, C; Comolli, R (accepted): Effects of Quercus rubra on soil properties and humus forms in 50-year old and 80-year old forest stands of Lombardy plain. Annals of Forest Science

Pour plus de détails, vous pouvez consulter : https://dataverse.org/best-practices/data-citation

Quand vous citez un jeu de données provenant d’un entrepôt spécifique, pensez à lui notifier l’article dès que celui-ci est publié pour que l’entrepôt puisse établir un lien depuis le jeu de données cité vers votre article.

Est ce qu’il y a des métadonnées indispensables pour déposer ?

En général les entrepôts proposent une liste de métadonnées allant du générique aux spécifiques. C’est aussi un critère important pour choisir son entrepôt de données. Dans tous les cas, il faut veiller à compléter les métadonnées proposées par les informations nécessaires (métadonnées / méthodes et mots clefs) au bon référencement, à la compréhension et à la réutilisation du jeu de données. Si un DOI est attribué à une ressource, des métadonnées (obligatoires et/ou optionnelles) y sont associées. Certaines éléments de ces métadonnées s’appuient sur des vocabulaires contrôlés (https://schema.datacite.org)

Il est en général nécessaire de suivre les normes et recommandations relatives à la discipline et/ou thématique des données. Si on traite par exemple de jeux de données géolocalisés, il est nécessaire de suivre ou de se reposer sur certaines normes standards comme ISO19115, ISO19139 ou la directive INSPIRE relatives à l’information géographique (https://inspire.ec.europa.eu/id/document/tg/metadata-iso19139). Si vous ne connaissez pas les métadonnées de votre domaine, rejoignez le réseau métier de votre thématique et/ou consultez les sites suivants :

Les métadonnées sont le plus souvent modifiables après la création du dépôt et de l’identifiant unique, ce qui n’est en général pas le cas du jeu de données.

Est-ce que les métadonnées métiers sont indispensables pour déposer un jeu de données ?

Il est indispensable de documenter et d’expliquer les termes utilisés pour nommer les données. Dans le domaine environnemental, on peut citer par exemple la convention CF (climate forecast) http://cfconventions.org/ très utilisée pour les données des domaines océaniques et atmosphériques, qui standardise le libellé des variables à utiliser.

Il est possible de s’appuyer sur un datapaper pour porter à connaissance les métadonnées métiers.

Pour en savoir plus sur la notion de datapapers (qui sont une publication sur les données), vous pouvez aller sur le site de Doranum.

Ai-je vraiment besoin d’un vocabulaire contrôlé pour déposer les données ?

Il est possible de déposer un jeu de données sans disposer nécessairement d’un vocabulaire contrôlé pour le décrire mais s’appuyer sur un lexique ou un vocabulaire contrôlé permet d’optimiser la recherche d’information et de permettre l’interopérabilité sémantique entre différents jeux de données.

Quelle licence choisir ?

La loi pour une république numérique impose de choisir une licence parmi les licences suivantes pour les données ouvertes (https://www.data.gouv.fr/fr/licences). Si toutefois, le consortium du projet dans lequel les données ont été créés impose un autre choix, vous devez vous conformer à ce choix. Créée par EtatLab (https://www.etalab.gouv.fr/licence-ouverte-open-licence) pour la diffusion des données publiques françaises, la licence ouverte autorise la réutilisation, la reproduction, la modification, la redistribution des données et leur exploitation à titre commercial sous réserve de mentionner a minima le nom du producteur et la date de dernière mise à jour. Elle est compatible avec toute licence qui exige a minima la mention de paternité, notamment avec les licences ODBL (http://opendatacommons.org/licenses/odbl/) et CC-by (https://creativecommons.org/choose/?lang=fr). Cette licence est utilisée notamment sur la plate-forme de mise à disposition des données publiques data.gouv.fr. La licence est aussi un critère important pour choisir un entrepôt de données. Il faut veiller à ce que la licence que vous choisissez soit disponible sur l’entrepôt

Est-ce que les données sont nécessairement ouvertes?

Il n’est pas nécessaire de rendre public tous les jeux de données. Le principe est le suivant : les données doivent être aussi ouvertes que possible et aussi fermées que nécessaire. Vous pouvez consulter le guide d’analyse du cadre juridique sur l’ouverture des données de la recherche : “Nicolas Becard, Céline Castets-Renard, Gauthier Chassang, Martin Dantant, Laurence Freyt-Caffin, et al.. Ouverture des données de la recherche. Guide d’analyse du cadre juridique en France. 2017, 45 p. ⟨10.15454/1.481273124091092E12⟩. ⟨hal-02791224⟩”.

Comment définir un jeu de données ?

« Peut être défini comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent » (Gaillard R, 2014). Un jeu de donnée est un ensemble de ressources qui forme une unité cohérente du point de vue contenu. Il est important de bien réfléchir à la granularité du jeu de données. Attention, dans le cas des logiciels, un jeu de données peut être le code source ainsi que la documentation associée

Est-il utile de déposer les données à plusieurs endroits ?

Cette pratique n’est pas interdite, mais est fortement déconseillée. Un dépôt dans un entrepôt permet d’obtenir un identifiant pérenne. Déposer son jeu de données dans plusieurs entrepôts signifie que vous aurez plusieurs identifiants pérennes à gérer. Cela pose également un problème de lisibilité de la citation de votre jeu de données, avec un risque d’éparpillement.

Deux cas se posent : * Si les données appartiennent exactement au même jeu de données, il ne faut surtout pas dupliquer le jeu de données mais utiliser la notion de collections virtuelles qui existent sur de nombreuses plateformes (DataSuds / Zenodo / ..). * Si les mêmes données appartiennent à plusieurs jeux de données, les données peuvent se retrouver de facto être déposé à plusieurs endroits mais il n’est pas conseillé de le faire. Dans ce cas, il faut peut être réflechir aux critères utilisés pour définir le jeu de donnée.

Quelles sont les types d’API proposés par les entrepôts ?

  • OAI-PMH (accès distants)
  • Native API (dépot de données et publication)
  • API de présentation de données (DC, json-ld)
  • Sword API (dépôt), Search API, Data access API, Metrics API et Native API sont les API proposées par Dataverse

Quelles sont les différences entre les plans de gestion de données et les datapapers ?

Les plans de gestion de données (PGD) sont créés dès le début d’un projet (voire en phase exploratoire) et l’accompagnent. Ils décrivent qualitativement et quantitativement les données qui vont être manipulées et définissent ce que les chercheurs feront de leurs données pendant et après le projet, explicitant notamment la mise à disposition des données . Les éléments décrits dans les PGD transcrivent les choix des technologies à mettre en œuvre (volume de stockage, pérennité à moyen ou long terme, publication OpenData ou non, etc.).

Un data paper est nécessairement une publication scientifique, validée par les pairs : il a pour objectif de rendre un jeu de données accessibles, interprétables et réutilisables. Un datapapers doit décrire les conditions d’acquisition des données, contenir la description fine de tous les métadonnées, et peut proposer des usages potentiels. Les data-papers ne comportent pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche ni de conclusions. Pour en savoir plus, vous pouvez consultez https://coop-ist.cirad.fr/gerer-des-donnees/rediger-un-data-paper/1-qu-est-ce-qu-un-data-paper.

Les datapapers et les PGD peuvent contenir des informations similaires (résumé du projet, objectifs) mais leurs finalités sont totalement différentes. Les datapapers sont dédiés à la publication scientifique et n’ont qu’une version alors que les PGD permettent une meilleure gestion du projet.

Quels sont les principaux points de vigilance à respecter sur le plan juridique avant de déposer un jeu de données dans un entrepôt ?

Avant de déposer un jeu de données dans un entrepôt, il convient de vérifier si celui-ci s’inscrit dans le principe d’ouverture par défaut ou s’il relève d’un cas d’exception.

Les données de la recherche sont en principe considérées comme des informations publiques. A ce titre, elles s’inscrivent dans le principe d’ouverture par défaut et de libre réutilisation introduit par les loi Valter et Lemaire. Mais elles peuvent relever de cas particuliers(exceptions) qui dérogent à cette règle.

Il faut donc s’assurer que : * Le jeu de données n’est pas soumis au droit d’auteur (pour être soumis au droit d’auteur, il faut que ce soit une œuvre de l’esprit) * Qu’il ne s’agit pas de données à caractère personnel (le cas échéant il faudra demander un consentement aux personnes concernées ou procéder à une anonymisation des données. Il existe toutefois des dérogations pour la recherche qui permettent certaines formes de partage sécurisé des données – voir la règlementation générale sur la protection des données ) * Que le jeux de données n’est pas concerné par les secrets protégés (secret défense, médical, industriel etc.) * Que le jeu de données n’est pas concerné par une recherche partenariale (en cas de recherche partenariale entre acteurs public et privés, l’accès et la transmission dépend de l’accord de consortium ou du contrat)

Nous vous conseillons de consulter le logigramme établi par l’institut pasteur, le Guide d’analyse du cadre juridique en France et le guide RGPD de l’INSHS.

Quelles sont les conditions de réutilisation des données de la recherche déposée dans un entrepôt de données ?

Les données déposées dans un entrepôt de données sont destinées à être réutilisées selon les termes de la licence associée au jeu de données. Plusieurs types de licences existent et chacune énonce des autorisations et des restrictions spécifiques. Il convient donc de prendre connaissance directement du texte de la licence. En l’absence de licence spécifique associée à un jeu de données, il convient de se reporter aux conditions générales d’utilisation (CGU) du site qui les diffuse. Point de vigilance : si aucune licence ou mention n’est précisée, cela ne signifie pas pour autant que la réutilisation est libre, car des droits peuvent s’appliquer automatiquement (propriété intellectuelle, protection des données personnelles).

Où peut-on trouver des listes de revues publiant des data-papers ?

Il n’existe pas à ce jour de catalogue ou de répertoire à proprement dit mais nous vous recommandons la consultation de ces listes de liens génériques (CIRAD, Forschungsdaten, Datashare et dans le domaine de la Bio-Diversité (GBIF)) (Liste mise à jour le 20/11/2020)

Est-il possible de publier un nouveau data-paper si les données ont évolué ?

Il est tout à fait possible de publier un nouveau data-paper si les données ont évolué. Voici par exemple, un data-paper publié l’année suivante avec de nouvelles données pour le même projet (Phenocam): (Seyednasrollah, B., Young, A.M., Hufkens, K. et al. Tracking vegetation phenology across diverse biomes using Version 2.0 of the PhenoCam Dataset. Sci Data 6, 222 (2019). https://doi.org/10.1038/s41597-019-0229-9) et (Richardson, A., Hufkens, K., Milliman, T. et al. Tracking vegetation phenology across diverse North American biomes using PhenoCam imagery. Sci Data 5, 180028 (2018). https://doi.org/10.1038/sdata.2018.28).

Qu’est ce qu’un data-paper ?

Un data paper est nécessairement une publication scientifique, validée par les pairs. Mais le data-paper se distingue des articles traditionnels sur plusieurs points :

  • Il a pour objectif de rendre un jeu de données accessibles, interprétables et réutilisables.
  • Il doit décrire les conditions d’acquisition des données et contenir la description fine de toutes les métadonnées.
  • Il peut proposer des usages potentiels.

Les data-papers ne comportent pas d’hypothèses, ni d’interprétation, ni de discussion de résultats par rapport à une question de recherche ni de conclusions.

Attention : Le contenu d’un data-paper peut différer d’une revue à une autre et dépendra de la ligne éditoriale de la revue éditrice.

Comment peut-on traduire data-journal et data-paper ?

D'après le Journal Officiel JORF n°0157 du 9 juillet 2019, on peut traduire data-journal par revue de données et data-paper par publication de données

Qu'est ce que la curation des données ?

La curation des données est l'ensemble des activités visant à maintenir, préserver, valoriser les données numériques de la recherche à travers leur cycle de vie. Le travail de curation porte sur la qualité des données (correction des erreurs, etc...) et leur pérennité. Pour aller plus loin Les deux faces de la curation scientifique

Comment sont attribués les DOI ?

DataCite et Crossref sont les 2 principales agences d'enregistrement de DOI membres de l'IDF (international DOI Foundation).
L'Inist-CNRS est le Consortium Lead du Consortium français membre de DataCite. Il est habilité à attribuer aux adhérents de ce consortium des comptes (identifiant, mot de passe et préfixe) pour la création de DOI (DataCite). Pour pouvoir être membre du consortium, il faut-être à but non lucratif et créer moins de dix milles (10 000) DOI par an. Une organisation peut, si elle le souhaite, adhérer directement à DataCite (même si elle est à but non lucratif) sans passer par l'Inist, cependant le coût minimal est de 2500 euros/an.
Jusqu'au 31 décembre 2020, toutes les organisations ayant acquis un compte DataCite via l'Inist ont pour racine INIST pour leur identifiant comme par exemple INIST.UPVM3, INIST.IFREMER ou INIST.EHESS. Cependant avec le nouveau Membership Model appliqué à partir de janvier 2021 il y a 2 dénominations différentes pour chaque adhérent :
Le nom et l'identifiant du membre (exemple : Member name 'French National Centre for Scientific Research' ; et Member ID JBRU) appelé aussi Provider.
Un ou plusieurs entrepôts (appelés aussi Client) avec chacun un nom et un identifiant. L'identifiant de (ou des) l'entrepôt commence par le l'Identifiant du membre (par exemple l'identifiant pour l'Institut d'Astrophysique de Paris, l'UMR7095 ; qui a ouvert un compte auprès de l'Inist au mois de février 2021 est JBRU.IAP). Par contre, comme indiqué plus haut, tous les comptes créés avant 2021 gardent leur racine INIST (exemple l'UMR 6074 IRISA est considéré 'entrepôt' CNRS donc appartenant au membre JBRU mais son Identifiant commence par INIST (INIST.IRISA) et non pas par JBRU car leur compte a été créé en 2019).

Comment déterminer l'organisme fournisseur dans un identifiant DOI ?

Il existe deux méthodes: La première est par lecture dans un navigateur des métadonnées accompagnant un identifiant DOI. Dans un premier temps, vous devez entrer le préfixe du DOI de l'organisme recherché dans le moteur de recherche du site internet Datacite (par exemple 10.48502) suivi d'un slash et d'une étoile (soit 10.48502/*). Vous obtiendrez une liste de tous les identifiants DOI possédant ce préfixe. En cliquant sur l'URL de l'un d'entre eux, vous pourrez accéder aux métadonnées de cet identifiant et le champ Repository en haut à droite de la page vous permettra d'accéder au nom du fournisseur. La seconde s'effectue par la lecture brute des résultats de l'API proposé par Datacite, soit dans notre exemple https://api.datacite.org/prefixes/10.48502 et le champ providers. L'utilisation du moteur de recherche de Datacite pour les fournisseurs https://search.datacite.org/members peut vous permettre d'obtenir des informations complémentaires.