3. Collecter#

Cette phase du cycle de vie de la donnée concerne les aspects d’acquisition et de collecte des données ainsi que la constitution des jeux de données (“dataset” en anglais) avec leurs métadonnées descriptives. Il s’agit donc, dans cette phase, de travailler sur les processus d’acquisition des données qui peuvent être obtenues au moyen de divers médias selon le domaine étudié : capteurs environnementaux, instruments, sondages, modèles numériques… Une fois les données acquises, il est nécessaire et indispensable dans l’objectif de les rendre “FAIR”, de les décrire avec leurs métadonnées associées.

La description de ces jeux de données nécessite d’utiliser, autant que faire se peut, des référentiels de vocabulaires contrôlés (thésaurus) si possible standardisés et les plus appropriés au domaine étudié. Il est conseillé de gérer les jeux de données dans un environnement technique qui permette d’assurer la sauvegarde, l’archivage, le “versionning”, l’accessibilité et l’interopérabilité des données. Cette gestion se fait via des infrastructures techniques, des bases ou des supports qui doivent être fiables et bien documentés, et ce dans le respect des règles de traitement spécifiques des données personnelles.

Cette phase “Collecter” va nécessiter :

  • de disposer des données et de fournir les métadonnées nécessaires pour apporter toutes les informations utiles à la description des données brutes elles-mêmes (libellés des paramètres, unités de mesure, localisation, propriétaires etc.), ainsi que sur les dispositifs d’acquisition (capteurs de mesures, modèles numériques,…);

  • de mettre en place des chaines de collecte : du capteur jusqu’aux espaces disques et aux applications sur des serveurs où les traitements pourront être réalisés, avec la documentation adaptée;

  • d’utiliser des protocoles si possibles normalisés ou standardisés pour présenter les données brutes et les dispositifs d’acquisition (capteurs…) et les rendre interopérables;

  • de mettre en place une gestion et conduite de projets pour faire travailler ensemble les différents acteurs intervenant dans la chaîne de collecte : électroniciens, informaticiens, chercheurs…;

  • de disposer de cahiers de laboratoire, tablettes de terrain ou supports divers pour consigner les relevés et métadonnées observées;

  • de définir le stockage nécessaire à la collecte de données : travailler en amont avec une équipe informatique en mode projet (gestion de projet).

3.1. Utiliser des normes et des standards d’interopérabilité#

L’Association Francophone des Utilisateurs de Logiciels Libres (AFUL) donne une définition de l’interopérabilité qui est “la capacité que possède un produit ou un système, dont les interfaces sont intégralement connues, à fonctionner avec d’autres produits ou systèmes existants ou futurs, et ce sans restriction d’accès ou de mise en œuvre”. Développer l’interopérabilité consiste donc à mettre en place et utiliser des normes et des standards qui fixent des règles permettant d’assurer le bon fonctionnement et les échanges entre deux systèmes informatiques.

Appliquée aux données, l’interopérabilité permet de rendre les données accessibles et réutilisables. Pour parvenir à cela, il est nécessaire d’utiliser des protocoles d’accès et des formats des données “ouverts”, normés ou standardisés, d’une part, au niveau des formats de fichiers et d’autre part, au sein des outils informatiques qui serviront à échanger, diffuser et lire les données.

3.1.1. Les standards de métadonnées#

Dans l’optique d’une gestion “FAIR” des données, il est nécessaire, dans la mesure du possible, de suivre des normes et des standards pour la description des métadonnées, les formats de fichiers et les protocoles d’échange de données.

Catherine Morel-Pair propose une présentation riche et complète sur les formats et métadonnées qu’elle détaille de manière très approfondie et restitue dans le cadre de leur utilisation pour la gestion de contenu et la documentation des données. Elle aborde en introduction les notions de données de la recherche, de données FAIR, d’interopérabilité et de Data Management Plan.

  • la première partie de sa présentation porte sur les fichiers de données (organisation et nommage, format et critères d’interopérabilité-pérennité)

  • la deuxième partie est dédiée aux métadonnées et à la documentation (définitions, présentation des standards, des identifiants pérennes pour les données et syntaxes d’échange). Elle termine par un focus sur les sites de dépôt, de portails ou d’entrepôts de données et leur schéma de métadonnées associées.

Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données

Vidéo :
Catherine Morel-Pair , INIST, CNRS
ANF “Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données” - 2016 Paris

Les métadonnées dans un Plan de Gestion de données

Cette présentation de Marie Puren a été conçue pour animer un atelier de formation qui avait pour objectif de définir et comprendre l’importance des métadonnées dans le cadre de la rédaction d’un DMP. Elle définit, en donnant des exemples, ce qu’est une métadonnée, à quoi elle sert, quelle information elle donne. Elle distingue et détaille la spécificité des métadonnées de description, des métadonnées de gestion et des métadonnées de préservation. Elle aborde ensuite le chapitre du cycle de vie des métadonnées (créer, entretenir, mettre à jour, stocker, gérer la suppression des données, publier). Elle spécifie les métadonnées à faire figurer dans un DMP, explique comment les collecter et propose quelques outils d’extraction automatique de métadonnées. Autour de la notion de métadonnée, elle précise l’importance de définir des responsabilités en s’appuyant sur les chercheurs, documentalistes, bibliothécaires et informaticiens. Elle complète sa présentation avec une description des principaux standards interdisciplinaires et disciplinaires de métadonnées. Elle explique où et comment choisir ces standards. Elle explique également l’intérêt d’associer des ontologies ou vocabulaires contrôlés. Les dernières recommandations de sa présentation portent sur la gestion des métadonnées à long terme, l’importance d’évaluer leur qualité et revient sur la notion d’ouverture des métadonnées et la nécessité de choisir des licences pour nos métadonnées.

Les métadonnées dans un DMP

Marie Puren, INRIA
ANF “Participer à l’organisation du management des données de la recherche : gestion de contenu et documentation des données”, réseau Renatis, Paris, 2017

3.1.2. Les référentiels de métadonnées#

Les référentiels de métadonnées peuvent être des standards ou des normes; ce sont des documents importants qui se chargent de définir les informations nécessaires pour décrire les données elles-mêmes. De ce fait, ils sont utilisés pour donner toutes les informations nécessaires à la compréhension et à l’utilisation des données et ainsi faciliter leur réutilisation. Il est donc fortement recommandé de décrire ses données avec des normes ou des standards reconnus dans les disciplines concernées. Le choix d’un standard de métadonnées va dépendre du type de ressource, du domaine d’application, mais également de la communauté à laquelle on s’adresse.

À cet effet, le site du Digital Curation Centre recense les standards de métadonnées par grandes disciplines (biologie, physique, sciences sociales, sciences de la terre…). Des outils informatiques, permettant de passer d’un standard à un autre, sont également disponibles.

On trouve plusieurs standards et normes qui permettent de définir un ensemble de métadonnées sur des jeux de données. Parmi les standards les plus connus ou utilisés, citons le Dublin Core qui est un standard généraliste issu d’un consensus international et multidisciplinaire. Il a pour objectif de fournir un socle commun d’éléments descriptifs suffisamment structuré pour permettre une interopérabilité minimale entre des systèmes conçus indépendamment les uns des autres. Le Dublin Core est un vocabulaire du web sémantique utilisé pour exprimer les données dans un modèle de type Resource Description Framework dans ses attributs (RDFa). Le Dublin Core définit un ensemble d’items de métadonnées obligatoires pour décrire les données :

  1. Titre (métadonnée) (Title) : Nom donné à la ressource

  2. Créateur (métadonnée) (Creator) : Nom de la personne, de l’organisation ou du service responsables de la création du contenu de la ressource

  3. Sujet (métadonnée) ou mots clés (Subject) : Thème du contenu de la ressource (mots clés, expressions, codes de classification)

  4. Description (métadonnée) (Description) : Présentation du contenu de la ressource (résumé, table des matières, représentation graphique du contenu, texte libre)

  5. Éditeur (Publisher) : Nom de la personne, de l’organisation ou du service responsable de la mise à disposition ou de la diffusion de la ressource

  6. Contributeur (Contributor) : Nom de la personne, de l’organisation ou du service responsables de contributions au contenu de la ressource

  7. Date (métadonnée) (Date) : Date de création ou de mise à disposition de la ressource

  8. Type (Type) : Nature ou genre de la ressource (catégories, fonctions, genres généraux, niveaux d’agrégation du contenu)

  9. Format (Format) : Manifestation physique ou numérique de la ressource

  10. Identifiant de la ressource (Identifier) : Référence univoque à la ressource dans un contexte donné (URI, ISBN)

  11. Source (Source) : Référence à une ressource dont la ressource décrite est dérivée (URI)

  12. Langue (métadonnée) (Language) : Langue du contenu intellectuel de la ressource

  13. Relation (métadonnée) (Relation) : Référence à une ressource apparentée

  14. Couverture (métadonnée) (Coverage) : Couverture spatio-temporelle de la ressource (domaine d’application)

  15. Gestion de droits (métadonnée) (Rights) : Informations sur les droits associés à la ressource (IPR, copyright, etc.)

Pour la description des jeux de données géolocalisés, les normes ISO 19115 et ISO 19139 sont des normes de référence dans le domaine des métadonnées pour l’information géographique. L’ISO 19115 fournit une structure permettant de décrire et de découvrir des données géospatiales, y compris le moment et l’endroit de leur localisation, une vue d’ensemble de leur contenu, de leurs propriétés, de leur qualité, de leur utilisation adéquate, du mécanisme de distribution, des points de contact pour les demandes d’informations, etc. La norme ISO 19139 est l’implémentation XML de la norme ISO 19115. Elle définit le codage XML des métadonnées géographiques, une implémentation de schéma XML dérivée de la norme ISO 19115. La norme ISO 19139 est le modèle principal utilisé pour décrire des données dans le logiciel GeoNetwork et constituer ainsi un catalogue de données géospatialisées que l’on abordera dans le chapitre 7 “Publier” du présent guide.

3.1.3. Les protocoles standards en information Géographique#

L’échange de données d’une plateforme à l’autre se fait au travers de protocoles informatiques. De ce fait, si l’on veut que les systèmes soient interopérables entre eux, il est nécessaire d’utiliser des protocoles ouverts et standards, voire normés, pour permettre l’interopérabilité. Dans le domaine environnemental, pour des données qui sont souvent géolocalisées par des coordonnées Latitude/Longitude, l’Open Geospatial Consortium (OGC), est un consortium international qui a pour objectif de développer et promouvoir des standards ouverts, les spécifications OpenGIS, afin de garantir l’interopérabilité des contenus, des services et des échanges dans les domaines de la géomatique et de l’information géographique.

Les standards OGC sont importants à connaître dans la mesure où ils définissent les protocoles et formats à suivre pour être interopérables. Ils ont été présentés par François André dans les réseaux DEVLOG et dans le réseau SIST de l’Institut National des Sciences de l’Univers (INSU). Pour ce dernier réseau, l’interopérabilité dans la gestion des données des Observatoires de l’INSU est un enjeu important.

Les Normes OGC (Open Geospatial Consortium)

François André, Aeris
Séminaire SIST15 - OSU Pytheas Marseille 2015

Parmi les standards de l’OGC les plus utilisés dans nos réseaux métiers chez les gestionnaires de données environnementales, on peut citer :

  • CS-W - Catalog Service for the Web : ce protocole est destiné à diffuser des métadonnées ISO 19139 et permettre l’interrogation de catalogues de métadonnées. Une très bonne implémentation de ce protocole est réalisée dans le logiciel “Geonetwork” utilisé pour constituer des catalogues et des inventaires de jeux de données et les présenter sur le Web de manière interopérable. Ce logiciel est détaillé dans le chapitre 7 “Publier” du présent guide, dédié à la publication des jeux de données. Grâce à ce protocole, on peut constituer des réseaux de catalogues tels que demandés par la Directive Européenne Inspire.

  • WMS - Web Map Service est un protocole de communication standard qui permet de constituer des cartes de données géoréférencées à partir de différents serveurs de données cartographiques.

Le réseau SIST a organisé deux actions de formation nationale (ANF) sur ces logiciels mettant en oeuvre les standards d’interopérabilité WMS, CSW et SOS. Ils permettent aux personnels d’améliorer la gestion et la diffusion de leurs données scientifiques d’observation en apprenant à installer, configurer et utiliser différents outils logiciels, choisis pour leur aptitude à répondre de manière standardisée à ces problématiques.

De nombreux instituts et auteurs, gestionnaires de données suivent ces standards OGC :

Sylvain Grelet communique par exemple le retour d’expérience sur l’utilisation et le déploiement des standards d’interopérabilité au BRGM :

De la définition au déploiement de standards d’interopérabilité : retour d’expérience de la Direction des Systèmes d’Information (DSI) du BRGM

Grellet Sylvain, Stéphane Loigerot, BRGM
Séminaire SIST15, Marseille

Véronique Chaffard nous présente la mise en oeuvre des standards de l’OGC dans le projet AMMA-CATCH :

3.2. Les systèmes d’acquisition : maîtriser l’acquisition et la collecte des données#

Il est important que le processus de collecte des données soit clairement défini et validé. Par exemple, il conviendra de s’assurer que les systèmes d’acquisition sont bien étalonnés. Par ailleurs, l’ensemble des données produites doit être parfaitement répertorié et enregistré. Nous disposons pour ce faire d’un certain nombre de supports tels que les cahiers de laboratoires, les carnets de terrain…

3.2.1. La collecte de données à caractère personnel#

Si l’ouverture des données intervient dans un processus de recherche, généralement en fin de cycle, un certain nombre de mesures réglementaires doivent être prises en compte très en amont et notamment lorsqu’il s’agit de collecter des données personnelles.

Le RGPD est perçu bien souvent comme un véritable obstacle à la collecte de données. Emilie Masson, dans une intervention à Grenoble en 2021 pour la journée « Gestion des données de recherche en SHS », réfute cette idée dès le titre de sa présentation : tout est possible avec le RGPD ! Elle indique clairement que si l’esprit de cette réglementation va dans le sens de la protection des données personnelles, il n’interdit pas pour autant le traitement scientifique de données personnelles ou sensibles.

Après une définition claire de ce que sont les données et le traitement de données à caractère personnel, on découvre les trois exceptions applicables aux domaines de la recherche permettant de collecter des données personnelles à savoir le consentement, la mission de service public et les intérêts légitimes.

Au sujet du consentement libre et éclairé, difficile, voire impossible à obtenir dans certains cas, on verra qu’il n’est pas forcément obligatoire et qu’en pratique le fondement de licéité (base légale d’un traitement de données personnelles) repose davantage (si ce n’est exclusivement) sur le principe de mission de service public (et non sur celui de consentement).

Quant aux données sensibles, même si par principe leur collecte n’est pas autorisée, nous apprenons

  • qu’un consentement explicite pour une ou plusieurs finalités spécifiques peut lever cette interdiction,

  • qu’il est possible de collecter des données sensibles manifestement rendues publiques par la personne concernée,

  • ou de justifier la collecte du fait d’un nécessaire archivage dans l’intérêt public, selon certaines conditions (détaillées dans l’intervention).

Avant de conclure sur la nécessaire mise en sécurité des données personnelles, Emilie Masson indique la démarche à suivre pour être en conformité avec la loi :

  • Déterminer son objectif (finalité du projet de recherche) : cela est possible aussi en cas de recherche exploratoire !

  • Informer les personnes concernées (avec une liste d’information complète)

  • Ne collecter que les données nécessaires et en lien avec son objectif (en justifiant le besoin)

  • Déterminer une durée de conservation

3.2.2. La métrologie des équipements#

Par nature, la recherche n’est pas un processus répétitif, elle est pleine d’aléas et d’incertitudes contrairement à un processus industriel. La confiance dans la qualité d’une recherche consiste à établir et vérifier que les différentes étapes d’une étude peuvent être répétées en obtenant le même résultat par différents chercheurs à des moments différents. Il est donc essentiel de s’assurer que l’ensemble des activités soient tracées et maitrisées; cela est une nécessité pour toute la chaine fonctionnelle d’une analyse (des pipettes, balances jusqu’aux équipements d’analyse).

Confirmation métrologique des équipements

Virginie JAN LOGASSI, DAPEQ LUE
ANF Outils qualité, réseau QeR, 2019

De nombreux laboratoires et plateformes de tests du CNRS sont équipés de salles propres, dans des domaines variés tels que la micro et nanotechnologie, la géochimie, l’optique, la médecine, le spatial… En débutant par un point sur l’état de l’art (définition, réglementation, documentation…) de ces deux aspects, l’objectif principal de la journée thématique est de faire bénéficier de retours d’expériences sur les bonnes pratiques déjà éprouvées et sur les écueils à éviter afin de répondre, entre autres, aux questions suivantes :

  • Quand a-t-on besoin de travailler en salles propres ?

  • Quelles réglementations régissent l’installation, la maintenance et le contrôle des salles propres ?

  • Comment préparer l’installation dans nos locaux ? A quoi doit-on penser ?

  • Quelles sont les solutions techniques les mieux adaptées à notre besoin ?

  • Quels sont les critères de surveillance et systèmes de contrôle des installations ?

  • Comment doit-on travailler en salles propres ? Quelles sont les bonnes pratiques de gestion d’une salle propre ?

3.2.3. Les capteurs#

Diverses communautés scientifiques sont intéressées par les problématiques inhérentes aux systèmes d’acquisitions et aux instruments associés. Différents aspects de collecte de données existent, qu’ils proviennent d’un équipement, d’un capteur automatisé, d’un modèle numérique ou qu’ils soient obtenus par un personnel de terrain, par une enquête, au moyen d’interfaces. Dès lors, il convient d’élaborer des méthodologies de collecte, de se documenter sur les choix des référentiels de métadonnées et des thésaurus de vocabulaire, mais également de développer les procédures d’intégration des données dans les bases.

Pour la thématique “Ocean-Atmosphere” cette problématique occupe une place importante, à tel point que, depuis plusieurs décennies, METEO-FRANCE et l’INSU depuis 1966, l’IFREMER depuis 2002, l’IRD et le CNES depuis 2004, le Service hydrographique et océanographique de la Marine (SHOM) depuis 2005, organisent un atelier dédié aux rencontres portant sur l’expérimentation et l’instrumentation. Cet Atelier Expérimentation et Instrumentation (AEI) permet de réunir la communauté scientifique spécialisée dans la recherche instrumentale et de traiter divers thèmes d’actualité lors de ses différentes éditions. L’AEI traite de manière privilégiée les aspects de mesure et de méthodologie, sans exclure pour autant l’exploitation scientifique des résultats. Il a lieu alternativement à Paris, Toulon, Lille et Brest, généralement en début d’année. L’AEI permet aux équipes de recherche d’exposer leurs résultats dans un colloque francophone. C’est un lieu de rencontre pour les participants, issus des différents organismes et groupes industriels, afin de favoriser les synergies et coopérations.

Pour la gestion des capteurs, l’OGC (Open Geospatial Consortium) cité précédemment, publie un standard d’interopérabilité, Sensor Web Enablement (SWE), qui permet de présenter des données de capteurs de manière standardisée et interopérable. Ce protocole et les logiciels qui les implémentent sont bien adaptés à la description des capteurs et à la gestion des séries temporelles.

Le protocole « SOS » (Sensor observation service) de l’OGC permet de présenter de manière standardisée les données issues de capteurs de terrain de manière interopérable. Ce standard définit une interface de service Web qui permet d’interroger les observations, les métadonnées des capteurs, ainsi que les représentations des caractéristiques observées. En outre, cette norme définit les moyens d’enregistrer de nouveaux capteurs et de supprimer les capteurs existants. Elle définit également les opérations permettant d’insérer de nouvelles observations de capteurs.

Actuellement on trouve deux implémentations intéressantes du protocole SOS dans la gestion des données de capteurs environnementaux. Il s’agit de :

  • 52North, logiciel de la société éponyme, est une application qui fournit une interface web interopérable pour l’insertion et l’interrogation des données et des descriptions des capteurs. Il regroupe les observations provenant de capteurs in-situ en direct ainsi que des ensembles de données historiques (données de séries chronologiques).

  • istSOS est une implémentation de serveur OGC SOS écrite en Python. istSOS permet de gérer et d’envoyer des observations provenant de capteurs de surveillance selon la norme Sensor Observation Service. Le projet fournit également une interface utilisateur graphique qui permet de faciliter les opérations quotidiennes et une api RESTFull Web pour automatiser les procédures d’administration.

istSOS est un logiciel libre qui fonctionne sur toutes les principales plates-formes (Windows, Linux, Mac OS X), même s’il n’a été utilisé en production que dans l’environnement Linux.

Ces 2 logiciels ont été présentés par Christoph Stasch, et Massimiliano Canata lors du séminaire du réseau SIST en 2015 à l’OSU Pytheas Marseille.

Stephane Debard présente l’utilisation d’istSOS dans la gestion de mesures altimétriques radars :

3.2.4. Les chaines de collecte#

Les gestionnaires de données environnementales mettent en place des chaînes de collecte de données provenant de capteurs de terrains ou de modèles numériques. Ils se préoccupent de l’utilisation de normes interopérables dans les protocoles d’échange et dans les formats de données.

Regis Hocdé et ses collègues nous présentent un retour d’expérience sur le réseau de suivi de température des eaux côtières dans la région du Pacifique Sud et Sud-Ouest :

Alban Thomas nous présente la technologie utilisée à base de Raspberry et de développement en Python, dans la constitution d’un réseau de stations météorologiques de la région rennaise.

3.2.5. Surveillance et monitoring des chaines de collecte#

Récupérer des données relève souvent de la mise en place de chaines de collecte composées de plusieurs étapes, plusieurs transferts de fichiers, voire plusieurs transformations de données. Dans ces cas où les chaines de collecte sont automatisées il devient utile d’avoir des systèmes de contrôle, de surveillance ou de monitoring, qui permettent de s’assurer que les données arrivent bien à bon port, au bon format, à l’endroit où elles sont attendues.

L’élaboration de “dashboard” ou “tableau de contrôle” peut etre envisagé pour ce type de surveillance.

En 2019 Franck Gabarrot signalait déjà dans le réseau SIST qu’il était nécessaire d’automatiser l’acquisition de données, et qu’il y avait des limites humaines au contrôle de chaque situation, et _qu’il est nécessaire de centraliser l’orchestration, le contrôle/pilotage de nos flux de données hétérogènes.

Franck Gabarrot préconise “Apache Airflow” qui est un outil open source d’orchestration de workflows programmables en Python. [workflow = pipeline = flux de travaux = enchaînement de tâches]

Service de gestion des flux de données basé sur Apache Airflow – F. Gabarrot

Lors du séminaire SIST22 à Grenoble, une session a été consacrée à quelques outils de monitoring pour surveiller les données. Emmanuel Delage présente le logiciel Grafana permettant la visualisation de données temporelles à l’aide de graphiques organisés en tableaux de bord. Les données du site instrumenté COPDD de l’OPGC sont envoyées toutes les 5 minutes sur le serveur Web au moyen de services Web de l’observatoire virtuel. Ensuite ces données sont enregistrées dans une base de données PostgreSQL contenant l’ensemble des données des derniers sept jours. Cette base de données est définie en tant que source sur le serveur Grafana, permettant la visualisation sous forme de graphiques des données proche temps-réel, sur le serveur Web, selon différents paramètres d’affichage au design reponsive.

Christophe Ferrier présente le logiciel “ReDash” qui permet de concevoir un dashboard facilement et rapidement sans programmation. L’objectif de ReDash est de se connecter à une source de données (donc préférablement avec un protocole interopérable) d’établir des requêtes pour filtrer les données, et le logiciel compose des graphes automatiquement. Cet type de DashBoard permet donc de surveiller ses données en les visualisant en temps réel.

Enfin W. Masson dans le même esprit de mise en place de “DashBoards” utilise le Framework “Dash” en Python développé en 2017 par la société Plotly. Ce Framework permet de développer des applications web de type tableau de bord pour la visualisation de données et pour créer des interfaces utilisateurs interactives. “Dash” offre une couche d’abstraction qui permet de développer 100% en Python la visualisation et le monitoring de données.

Framework Dash – Dashboard web 100% Python

William Masson, Nathalie Reynaud, Arthur Coqué, Michel Candido & Thierry Tormos séminaire SIST22 à Grenoble, réseau SIST, Juin 2022

3.2.6. Web scraping ou grattage Web : collecte automatique et analyse de données#

“Le Web scraping est une technique permettant de convertir des données présentes dans un format non structuré (balises HTML) sur le Web en un format structuré facilement utilisable. Les exemples peuvent aller du texte sur Wikipedia, à des images sur Flickr en passant par les commentaires sur TripAdvisor, les articles d’actualité ou de chercheurs ou n’importe quelle page web présente sur Internet” (Introduction au Webscraping).

Depuis l’explosion quantitative des données numériques, il est devenu extrêmement intéressant d’apprendre à recueillir, comprendre et exploiter les informations issues du web. On constate ces dernières années, dans le domaine des sciences sociales, l’intérêt croissant des chercheurs ou ingénieurs pour l’utilisation de nouvelles techniques de collecte et de traitement automatisé des données et en particulier des données massives. Chaque utilisateur en fonction de son profil et de ses compétences peut choisir une technologie partant de simples outils comme les aspirateurs de site qui permettent de réaliser des opérations basiques de grattage (scraping) jusqu’à l’utilisation de langages plus performants comme R ou Python pour des utilisateurs plus avancés.

Au-delà des fonctionnalités de grattage web, la présentation « Analyse de données avec R » proposée par Hugues Pécout (CNRS) donne un exemple de l’analyse de données avec le logiciel R. En plus d’une présentation du logiciel R et de RStudio, elle contextualise R dans le paysage de l’analyse de données en le comparant à des logiciels propriétaires existants sur le marché ainsi qu’au langage Python. En Python, il faut utiliser le package BeautifulSoup, qui est très populaire Webscraping avec Python.

Ces outils sont depuis quelques années en plein essor car ils permettent d’automatiser la constitution des bases de données, de collecter des sommes de données importantes, inaccessibles il y a de cela quelques années comme les données de réseaux sociaux, de compiler des données pour créer ses propres indicateurs (impossible avec des techniques de collecte classiques) ou encore de nettoyer, structurer des données déjà existantes… Ces modes de collecte automatisés renvoient aussi aux notions d’exploration de données (Data Crawling) et de récolte de données (Data Harvesting).

Dans la pratique, des questions juridiques peuvent se poser au regard de l’exploitation des données récoltées en masse par ces moyens car ces données sont susceptibles d’être des données personnelles ou protégées par la propriété intellectuelle.

3.2.7. Les cahiers de laboratoire#

L’ensemble des données produites par la recherche doit être répertorié et enregistré dans l’objectif d’une réutilisation potentielle. Nous disposons pour ce faire d’un certain nombre de supports comme les cahiers de laboratoire. Le cahier de laboratoire est un outil non obligatoire, mais fortement recommandé pour toute structure générant des données donnant lieu à des connaissances diffusables et valorisables. Il constitue un véritable outil scientifique et ce, dès le commencement d’un projet. Les cahiers de laboratoire répondent également aux obligations légales et contractuelles, en apportant la preuve de l’invention et de ses inventeurs. Les plaquettes du réseau CURIE “Le cahier de laboratoire national : Pourquoi l’utiliser ?” et “Le cahier de laboratoire national : Comment l’utiliser ?” présentent des recommandations sur la bonne gestion de ce dernier.

Alain Rivet positionne le cahier de laboratoire comme un outil de gestion des données de la recherche :

Cahier de laboratoire et gestion des données de la recherche

Alain Rivet, CERMAV
Atelier Dialog’IST « Rendre FAIR les données, mais quelles données préserver ? », réseau Renatis, 2020

Les apports du numérique sont multiples en améliorant la traçabilité des recherches, la lutte contre la fraude et la gestion des données. Les cahiers de laboratoire électroniques présentent plusieurs ainsi avantages par rapport à leur version papier :

  • le partage de l’information avec un rattachement des données brutes ;

  • une recherche d’informations facilitée ;

  • une datation assurée des expériences par l’horodatage.

Le site datacc.org consacre la mise en œuvre d’un service d’accompagnement sur la gestion des données en physique et en chimie, dans le cadre d’un projet CollEx-Persée. Le site fournit des contenus nourris sur les cahiers de laboratoire électroniques, issus d’une expérimentation menée avec des chimistes de Lyon 1 et de Grenoble, assortis de bonnes pratiques sur leur utilisation.

Diverses expérimentations au sein de structures de recherche ont été réalisées :

Les cahiers de laboratoire électroniques : atelier elabFTW

Alain Rivet, Henri Valeins, CNRS
Ecole QUARES, Montpellier, 2020

Utilisation du cahier de laboratoire électronique BIOVIA au sein de l’Institut de Biologie Structurale

Cédric Laguri, IBS
ANF “Traçabilité des activités de recherche et gestion des connaissances”, Réseau Qualité en Recherche, Grenoble, 16-18 octobre 2017

L’INSERM s’est fortement intéressé à la version numérique des cahiers de laboratoires, comme une réplique du cahier papier. L’INSERM pense que si la version électronique reste une solution d’enregistrement au quotidien des expériences scientifiques, c’est désormais devenu un outil différent, fortement axé sur la qualité, la gestion de la connaissance, la gestion de projets et le travail collaboratif. Paul-Guy Dupré et ses collaborateurs présentent les cahiers de laboratoires qui ont été mis en place à l’INSERM :

Expérimentation du cahier de laboratoire électronique à l’Inserm

Paul-Guy Dupré, INSERM
ANF “Traçabilité des activités de recherche et gestion des connaissances”, Réseau QeR, Grenoble, 2017

La problématique des cahiers de laboratoire électroniques s’est intensifiée ces dernières années. Ainsi, le CNRS a lancé en 2020 une réflexion sur la mise en place de cahiers de laboratoires électroniques suite aux besoins remontés par les agents en laboratoire en alternative au cahier de laboratoire national (format papier). Cela s’est traduit par le déploiement d’une enquête destinée à réaliser un état des lieux sur l’utilisation des cahiers de lboratoire dans les unités de recherche et à définir les attentes et les craintes des personnels de la recherche sur le sujet.

Les travaux se sont poursuivis courant 2021 avec le groupe de travail « Cahiers de laboratoire électronique » (ELN) du comité pour la science ouverte (CoSO). Le rapport présente une vision partagée sur la définition, le cadrage, les usages et le périmètre fonctionnel de l’ELN, qui doit pouvoir s’intégrer dans les environnements informatiques et institutionnels existants. Il émet un ensemble de recommandations sur les critères de choix d’un outil et intègre une liste comparative d’outils existants.

Rapport du Groupe de Travail sur les cahiers de Laboratoire électroniques

Membres du GT
“Ouvrir la science”, MESRI, 2021

Dans le cadre des séminaires Pour une Recherche Reproductible, Gricad, MaiMoSiNE et SARI ont mis en place un webinaire sur l’ouil elabFTW .

Dans ce cadre, Nicolas Carpi, auteur et développeur d’elabFTW, a présenté son logiciel. eLabFTW est un cahier de laboratoire numérique open source destiné aux laboratoires de recherche, quelle que soit leur discipline. Il est utilisé par de nombreuses institutions et labos à travers le monde. Cette session est l’occasion de découvrir ce logiciel, ses fonctionnalités et son intérêt pour une recherche reproductible.

Jean-Luc Parouty ingénieur à SIMAP, a ensuite détaillé le service mutualisé de cahier de laboratoire elabFTW, intitulé CAOLILA, mis à disposition de la communauté ESR Grenobloise

En 2022, dans le cadre d’un des huit projets USERFIRST, lauréats du Fonds pour la Transformation de l’Action Publique (FTAP), le guide “Bonnes pratiques de mise en place d’un cahier de laboratoire électronique - Exemple d’eLabFTW” a été réalisé par le réseau “Qualité en Recherche” soutenu par la plateforme reseau de la Mission pour les Initiatives Transverses et Interdisciplinaires du CNRS .

A travers ce guide de bonnes pratiques, le réseau Qualité en Recherche souhaite sensibiliser les personnels des unités de recherche à la mise en place et à l’utilisation d’un cahier de laboratoire électronique au sein d’une unité de recherche en apportant une vision « terrain » à cette nouvelle organisation des activités de recherche.

3.2.8. Les tablettes et carnets de terrain#

Les données et documents produits directement sur le terrain témoignent de l’activité de recherche dans diverses disciplines, notamment en sciences humaines et sociales, en sciences de la terre… Il s’agit aussi bien de carnets issus d’entretiens de sociologues, d’ethnologues, de carnets de prélèvements en géochimie, géologie que de carnets de fouilles en archéologie, de notes, de photographies prises sur le terrain, etc. De plus, certaines données peuvent se révéler d’une valeur inestimable, qu’il s’agisse de données fortement temporelles (images satellites de la banquise, données sur les glaciers alpins) ou de données provenant de sites aujourd’hui endommagés ou détruits (Notre Dame de Paris, cité antique de Palmyre, etc). Il est de ce fait essentiel que ces données soient répertoriées et archivées.

L’utilisation de carnets de terrain électroniques que sont les tablettes permet de profiter des avantages d’appareils nomades pour faciliter la saisie des observations que l’on fait sur le terrain, en milieu naturel. L’utilisation de cet outil “nomade” va permettre :

  • d’améliorer la qualité des données collectées ;

  • de pouvoir utiliser les données plus rapidement ;

  • de réduire le coût (temps de ressaisie).

Cependant, ces nouvelles technologies très « ludiques » et « faciles » d’utilisation, nécessitent une réflexion importante pour définir de façon précise son besoin afin de ne pas être pénalisé sur le terrain. Elles nécessitent aussi une adaptation technologique pour permettre un stockage efficient et pérenne en bases de données.

Au niveau logiciel, cinq stratégies sont possibles pour développer des carnets de terrain électroniques :

  1. utiliser une application nomade existante

  2. utiliser une application web existante

  3. développer une application nomade spécifique avec un langage de programmation

  4. développer une application nomade en utilisant une boite à outils de génération de carnets de terrain

  5. développer une application nomade en adaptant des logiciels existants (par exemple QGIS, Lizmap)

Deux solutions ont été étudiées au Centre d’Ecologie Fonctionnelle et Evolutive (CEFE) : le développement d’une application nomade basée sur le système d’information géographique, libre, multiplate-forme, publié sous licence GPL QGIS ainsi qu’une application nomade utilisant une boite à outils de génération de carnets de terrain électronique Open Data Kit.

Dans la présentation détaillant la solution basée sur QGIS, l’auteur détaille l’étude et le développement de l’applicatif interopérable avec le système d’information du laboratoire CEFE et qui permet aux intervenants sur le terrain de collecter les données :

Carnet de terrain électronique, Retour d’expérience sur la création d’une boite à outils

Marie-Claude Quidoz, CEFE
15èmes Rencontres Mondiales du Logiciel Libre, Montpellier, 2014

La solution basée sur ODK a servi de fil rouge à l’ANF “Interfacer les outils mobiles avec son système d’information” en 2019, car la solution ODK permet de couvrir les étapes allant de la création du formulaire à la sécurisation en bases de données.

Des applicatifs « clef en main » ont été développés à partir du moteur ODK. Le plus connu est sans doute KoboToolbox, qui, aux fonctionnalités de base, a ajouté quelques fonctionnalités supplémentaires telles que le Formbuilder et la bibliothèque de questions.

Pierre-Yves Arnould nous présente sa solution à base de ODK pour Faciliter la saisie, Rendre autonome les chercheurs dans leur saisie Uniformiser la structure des fichiers, Génération d’étiquettes pour les échantillons, et Sauvegarder automatiquement sur un micro-serveur sur le terrain puis sur le SI OTELo

Retour terrain : la délicate question de l’intégration des données

Pierre-Yves Arnould, OTELo
ANF “Interfacer les outils mobiles avec son système d’information”, réseau RBDD, 2019, Sète.

De nombreuses autres solutions sont aussi envisageables, nous invitons le lecteur a consulter les ateliers et séminaires suivants pour en découvrir leurs avantages et inconvénients :

Il est à noter que la collecte sur le terrain nécessite de s’équiper d’un matériel apte à être utilisé sur des terrains parfois hostiles. Le choix de l’équipement conditionne aussi le choix de la solution logicielle comme le montre Marie-Claude Quidoz lors de cette présentation :

Carnet de terrain électronique

Vidéo :
Marie-Claude Quidoz, CEFE
Séminaire « les technologies mobiles : retours d’expériences et prospectives », Réseau ResInfo, Paris, 2016

3.2.9. La gestion des collections#

Collec-Science est un logiciel web qui a été créé pour suivre les échantillons collectés lors des campagnes d’acquisition, et permet de répondre, entre autres, à ces questions :

  • où est stocké l’échantillon ?

  • d’où vient-il, quelle est sa généalogie (protocole de collecte, métadonnées associées à l’échantillon et ceux de ces ancêtres) ?

  • quelles transformations ou opérations a-t-il subies ?

  • sous quelle forme est-il conservé, existe-t-il un risque à le manipuler ?

Fruit d’une collaboration initiale entre l’Irstea (centre de Bordeaux), le laboratoire Epoc à Bordeaux, le LIENSs à La Rochelle, il a été enrichi avec la participation de nombreux autres laboratoires, dont les laboratoires Chrono-environnement à Besançon, Edytem à l’Université Savoie - Mont Blanc, etc. Il a été choisi par le Réseau des Zones Ateliers pour assurer le suivi des échantillons.

Collec-Science

Webinaire réseau rBDD, 2021

3.3. Environnements de stockage - Sauvegarder les données#

Dès la phase de collecte, il convient de se préoccuper des aspects de stockage et de sauvegarde qui seront plus largement abordés dans la phase 6 du cycle de vie des données. En effet, dès le début d’un projet, il est nécessaire, d’une part, d’estimer le stockage nécessaire à la collecte de données et d’autre part, de mettre en place les moyens de sauvegarde des données récoltées. La duplication des données par stockage redondant sur des supports différents de ceux de l’équipement utilisé (poste de travail fixe, mobile, serveur, …) est un des principes de base d’une bonne conservation. Il convient de préférer un archivage centralisé conformément à la règle du 3-2-1 généralement recommandée (3 copies sur 2 supports différents dont 1 sur un lieu déporté). À cet effet, il conviendra de travailler en amont avec une équipe informatique afin que les dispositifs de stockage soient disponibles.

Rappels théoriques concernant les architectures de stockage traditionnel

Sylvain Maurin
ANF “Stockage Distribué”, 2016

Outils algorithmiques et logiciels pour le stockage distribué

Benoit Parrein
ANF “Des données au BigData : exploitez le stockage distribué !”, 2016

Divers outils de sauvegarde des données sont fréquemment utilisés dans les milieux informatiques comme backuppc, bacula, rdiff-backup.

Un nouveau paradigme dans la sauvegarde consiste à introduire et utiliser des fonctionnalités de déduplication. Cette technologie consiste à réduire les volumes sauvegardés et les durées de sauvegarde en découpant les gros fichiers en fragments (blocs) et en ne sauvegardant qu’une seule fois les fragments identiques.

Un retour d’expérience sur le logiciel borgbackup donne des résultats intéressants et prend tout son sens quand on a beaucoup de fichiers volumineux peu différents.

Sauvegardes dédupliquées avec BorgBackup : retour d’expérience

Maurice Libes - Didier Mallarino, OSU Pytheas
JRES 2017, Nantes

Respecter le RGPD !

Enfin n’oublions pas que, dès lors que l’on collecte des données personnelles (données permettant l’identification directe ou indirecte d’une personne), il est important de respecter des principes essentiels sur la durée de conservation des données, le droit à l’information et l’obligation de sécuriser les données. Il ne faut pas hésiter à se rapprocher du correspondant du Délégué à la protection des données (DPD) de votre délégation (pour le CNRS) ou du Délégué à la protection des données de votre établissement.