4. Traiter

Cette phase du cycle de vie des données correspond au prétraitement des données brutes issues des acquisitions et des collectes. Il s’agit souvent de regrouper, choisir, qualifier les données pertinentes parmi celles qui ont été collectées, puis les reformater dans des formats standards interopérables, et les préparer en vue de leur analyse ultérieure.

Cette partie est donc structurée en différentes sections décrivant cette préparation des données :

  • Préparer les fichiers de données, en vue de leur analyse, en utilisant des formats interopérables.

  • Utiliser des infrastructures logicielles « framework » d’intégration de données, lorsqu’elles sont hétérogènes.

  • Mettre en place et utiliser des plateformes de gestion de données locales, en vue de leur analyse.

  • Vérifier et s’assurer de la qualité des données.

4.1. Préparer les fichiers de données en vue de leur analyse

Bien souvent, les données « brutes » sont issues de capteurs ou divers instruments de collecte sur le terrain. Ils se présentent fréquemment sous la forme de fichiers dans des formats propriétaires, peu exploitables et peu interopérables directement tels quels.

Dans une optique de gestion FAIR, il est donc important de se préoccuper du format des données afin de les rendre « ouverts » et interopérables. La notion de format « ouvert » est importante pour que les données puissent être partagées, interopéables et préservées sur le long terme. A cet effet, le site Doranum propose une introduction à la définition de formats ouverts ou fermés.

De plus, si l’objectif est le traitement massif des données, il est important de choisir des formats capables de supporter des entrées / sorties intensives sur des infrastructures de calcul.

4.1.1. Utiliser des formats standards

Parmi les premiers traitements opérés sur des données brutes provenant du terrain, les données issues de capteurs environnementaux sont souvent illisibles et peu exploitables par un être humain. Il convient alors de traiter les fichiers bruts de manière à en extraire les données utiles, et de les réécrire dans des formats standards utilisables par un grand nombre de logiciels, et une communauté d’utilisateurs.

Chaque discipline utilise, voire définit un certain nombre de formats standards, et il est bon de les connaitre et de s’y référer.

On ne pourra pas tous les citer, mais à titre d’exemple dans les domaines Océan, Atmosphère par exemple,

  • Le format NetCDF est un format ouvert, autodocumenté et très utilisé en particulier dans les communautés sciences de l’environnement. Il est très bien adapté et utilisé, par exemple pour représenter et formater des données qui sont des profils verticaux, des séries temporelles, des trajectoires, ou encore des surfaces maillées en 2D. Ce format est dit « auto-descriptif » en ce sens qu’il permet de ne pas avoir besoin d’un fichier de description complémentaire. Les métadonnées sont en effet insérées dans l’entête du fichier, avec les données elles-mêmes. On peut ainsi décrire de manière assez précise les données du fichier, par exemple en insérant les unités de mesure des paramètres mesurés, la licence de diffusion, les propriétaires, etc., ainsi que l’organisation des données.

Toutefois dans son format originel NetCDF n’a pas imposé de directives particulieres pour inscrire les métadonnées dans l’entete du fichier. De ce fait, il était possible d’inscrire n’importe quel libellé de variables, unités, etc. Une standardisation a été nécessaire pour obtenir des fichiers compréhensibles et interopérables. C’est le but de la convention CF (climate forecast) qui fournit une table de standardisation des variables et unités de mesures à inscrire dans l’entete d’un fichier NetCDF.

Ce format standard, la convention « CF », et l’interface de programmation (API) en Python pour créer des fichiers NetCDF par programme ont été présentés au séminaire SIST19 à l’OMP de Toulouse, par Joël Sudre, Maurice Libes et Didier Mallarino :

  • Le format ODV (ocean data view) est également un format standard ouvert intéressant. C’est un format de type « tableur », ensemble de lignes comportant un nombre fixe de colonnes qui se rapproche d’un format CSV, composé de colonnes de données séparées par des virgules (ou tout autre séparateur), à cette différence près que le format ODV permet l’insertion d’un entête assez riche permettant de placer des métadonnées en début de fichier. On trouvera un exemple sur le Portail des données marines.

Le format de données ODV permet un stockage dense et un accès très rapide aux données. De grandes collections de données comprenant des millions de stations peuvent être facilement entretenues et explorées sur des ordinateurs de bureau.

Un explorateur et extracteur de données webODV est disponible sur le portail EMODnet Chemistry.. L’outil webODV Data Explorer and Extractor, développé à l’Institut Alfred Wegener en Allemagne, permet aux utilisateurs d’explorer, de visualiser et d’extraire des sous-ensembles de données validées simplement en utilisant leur navigateur web.

Les formats NetCDF et ODV sont les formats recommandés et utilisés par le pôle de données Odatis et par le projet européen Seadatanet.

  • Le format HDF5

Le format HDF5 (Hierarchical Data Format, version 5) est un format de fichier de type conteneur, c’est-à-dire assimilable à une arborescence de dossiers / fichiers contenus dans un même fichier.

C’est un format très utilisé lorsqu’on veut traiter ou simuler des données grâce au calcul intensif, car il offre des possibilités de compression et d’écriture/lecture parallèles très efficaces.

Des supports de formation sur ce format sont de ce fait disponibles via les infrastructures et réseaux en lien avec le calcul intensif:

Formations PRACE

HDF5 : theory & practice 1 et 2

Prace Advanced Training Centers, Course: Parallel I/O and management of large scientific data, 2014

4.2. Organiser les données

4.2.1. Développer les procédures d’intégration des données dans les bases de données

Les nouveaux mécanismes de collecte de données ont souvent simplifiés la mise en base de données comme c’est le cas avec la boite à outils ODK (cf partie Collecter) qui envoie directement les données collectées sur tablette dans un schéma d’une base de données PostgreSQL. Mais, pour sécuriser les données, elles doivent être ensuite transférées dans la base de données métier. Cette opération est souvent réalisée à l’aide de déclencheur comme on levoit dans la présentation suivante

Intégrer les données dans sa base métier

Marie-Claude Quidoz, CEFE
ANF « Interfacer les outils mobiles avec son système d’information », Réseau rBDD, Sète, 2019

4.2.2. Utiliser un cadre d’applications d’agrégation de données

Lorsque les données à traiter sont hétérogènes et que les technologies qui permettent de les fournir sont également différentes, une solution est d’utiliser un « framework » d’agrégation de données. Un « framework » est un cadre d’applications d’agrégation de données, autrement dit un outil qui va permettre de traiter des données de formats différents de façon transparente pour l’utilisateur final.

Le logiciel « Lavoisier » développé au Centre de Calcul de l’IN2P3 (CC-IN2P3), permet de récupérer, transformer, fusionner, et requêter des données de sources différentes. Il est utilisé dans plusieurs contextes pour fournir une vue unifiée des données collectées à partir de multiples sources hétérogènes

Lavoisier : un cadre d’applications d’agrégation de données, vidéo de la présentation

Cyril L’Orphelin, Sylvain Reynaud, CC-IN2P3, CNRS
JCAD 2018, Lyon.

D’autres outils logiciels existent, permettant l’intégration de données. Dans la catégorie des logiciels « ETL » (Extract, Transform, Load, le logiciel « Talend Open Studio » par exemple, a été abordé lors d’une session de formation du réseau RBDD :

Ce logiciel « Talend » a été également utilisé par Soumaya Lahbib pour traiter les fichiers de données issues des capteurs du projet EMSO Ligure-ouest et les transformer en fichiers CSV utilisables facilement.

4.2.3. Déposer et structurer dans des plateformes de gestion de données locales

Après la phase de collecte de données que nous avons vue dans l’étape précédente du cycle de vie des données, il est nécessaire de se préoccuper du dépôt, de la facilité d’accès et de la réutilisation des données localement dans une unité de recherche.

Un certain nombre de logiciels font office de plateforme d’accès et de gestion des données. Ils permettent de présenter les données avec leurs métadonnées, de fournir des interfaces de recherche, de géolocaliser les données, et parfois de visualisation des données avec des graphes. Cette organisation des données facilite grandement leur analyse ultérieure.

Des logiciels sont particulièrement adaptés dans la diffusion et l’affichage des données scientifiques d’observation par le fait qu’ils utilisent les standards interopérables de l’Open Geospatial Consortium (OGC), comme le protocole DAP (Data Access Protocol)

  • Les plateformes de dépôt et de diffusion de données comme THREDDS et ERDDAP sont intéressantes par le fait qu’elles mettent en oeuvre le protocole DAP, et sont des solutions très bien adaptées pour rendre les données FAIR et faciliter la diffusion des données.

La plateforme d’accès ERDDAP se présente comme étant un « accès facile aux données scientifiques » (« Easier access to scientific data ») et fournit un ensemble complet de fonctionnalités pour la gestion des jeux de données. Il permet :

  • déposer des jeux de données dans différents formats interopérables

  • de fournir un catalogue des jeux de données gérés par le serveur

  • d’afficher les métadonnées inscrites dans les fichiers

  • de lire et convertir des jeux de données dans de nombreux formats standards interopérables différents,

  • d’interroger et filtrer les données au travers de formulaires,

  • de créer des graphiques et des cartes simples pour visualiser le jeu de données analysé

  • de normaliser le format des unités de temps présentes dans les fichiers.

Une des fonctionnalités intéressantes est qu’ERDDAP agrège automatiquement les données nouvelles répondant a un format donné, qui sont déposées dans un répertoire. Ainsi pour les séries temporelles cette fonctionnalité est intéressante puisqu’il suffit de déposer des fichiers dans un répertoire pour que la série soit automatiquement enrichie et mise à jour.

Dans le projet scientifique EMSO, le logiciel ERDDAP permet de constituer un réseau de serveurs permettant de rassembler et fournir toutes les données d’un même projet sur plusieurs sites .

Lorsque les données sont géoréférencées, on peut aussi déposer et faire gérer des données de terrain via des serveurs cartographiques comme :

  • le serveur cartographique Geoserver permet d’afficher et d’échanger des données géospatiales sur le web selon les standards (WMS, WFS, …) de l’OGC ;

  • l’application GeoCMS permettent la visualisation de données géospatiales sur le web et de mettre en place une Infrastructure de Données Géographique (IDG). on peut voir un exemple de l’interet de cette application sur un portail comme celui de Indigeo

4.2.3.1. Exemple de mise en oeuvre de plateformes de données

Des exemples d’utilisation des plateformes logicielles ERDDAP et THREDDS ont été présentés lors de différentes sessions des journées du réseau SIST :

G. Brissebrat nous montre comment sont diffusées des données maillées NetCDF du SEDOO avec la plateforme logicielle THREDDS. Les avantages évoqués sont nombreux :

  • Consulter les métadonnées sans avoir à télécharger le jeu de données

  • Accéder uniquement à une partie d’un jeu de données

  • Télécharger un seul fichier même si les données originales sont réparties dans plusieurs fichiers

  • Avoir le choix entre plusieurs moyens d’accéder aux données

  • Accéder aux données dans des format compatibles avec les outils communs d’analyse ou de visualisation de données

  • Offrir plusieurs formats et protocoles d’accès aux données-

  • Fournir une prévisualisation des données

  • Pouvoir moissonner des données d’un autre serveur THREDDS

Dans cette présentation les auteurs montrent un workflow complexe depuis l’acquisition de données a 2500m de profondeur, jusqu’à l’affichage et la diffusion sur un serveur ERDDAP. Les données de capteurs sont traitées avec l’ETL Talend pour produire des fichiers CSV et NetCDF qui sont diffusées via la plateforme ERDDAP. Dans le cas de séries temporelles qui s’enrichissent quotidiennement, erddap permet d’aggréger automatiquement les données journalières qui sont déposées par programme dans un répertoire, sans intervention humaine.

Gestion des données du projet EMSO avec Talend et ERDDAP

Soumaya Lahbib, Maurice Libes, OSU Pytheas
Séminaire SIST 2018 OVSQ, Guyancourt.

La plateforme de gestion de données ERDDAP est utilisée dans le projet Européen EMSO et permet de constituer un réseau de serveurs qui regroupe les données d’un même projet avec des données issues de sites différents 1.

Dans cette présentation, les auteurs avaient pour objectif de diffuser des données dans un environnement tropical et ont utilisé et comparés les platformes logicielles THREDDS et ERDDAP

Les présentations suivantes fournissent un certain nombre de connaissances sur l’utilisation d’infrastructure de données géographiques (IDS, IDG) et de différentes plateforme logicielle de gestion des données

Publication automatique de données et de métadonnées dans geOrchestra

Ernest Chiarello, Théoriser et modéliser pour aménager, MSHE
Séminaire SIST 2018, Guyancourt.

Loic Salaun nous montre un exemple de consultation des données à partir d’un visualiseur cartographique (visualiseur d’INDIGEO), utilisant les services web géographiques (WMS, WFS, WCS, CSW)

Mise en place d’une IDS pour le programme de recherche Réseau de Suivi et de Surveillance de l’Environnement.

Loïc Salaun, Observatoire des Sciences de l’Univers Nantes Atlantique
Séminaire SIST 2016, Montpellier.

4.3. Mettre en place un contrôle qualité des données

Par nature, la recherche n’est pas répétitive, mais riche en incertitudes contrairement à un processus industriel. La confiance dans la qualité d’une recherche consiste donc à établir et vérifier que les différentes étapes d’une étude peuvent être répétées en obtenant le même résultat par des chercheurs différents à des moments différents. Ainsi, une donnée est fiable si, dans des conditions données, aucune déviation n’est constatée en fonction du temps, durant un laps de temps donné. Il est donc essentiel de s’assurer que l’ensemble des activités de recherche soit maîtrisé.

Le contrôle sur les équipements est le premier pas vers la traçabilité des données comme l’illustre l’exposé suivant :

En sciences environnementales, la qualification des données est importante pour estimer et fournir un degré de qualité de la donnée. On utilise pour cela des codes qui renseignent sur la qualité de la donnée : bonne, mauvaise, manquante, modifiée etc… Dans ce domaine bien souvent chacun utilise une codification personnelle, cependant une standardisation des codes qualité est bienvenue.

L’infrastructure de données européenne Seadatanet utilise par exemple une table « L20 » standardisant les codes qualité à placer sur les données

Le réseau rBDD a consacré un atelier à la qualité des données pour apporter des éclairages sur les questions suivantes :

  • Quelles sont les différentes notions de qualité des données ?

  • Comment contrôler la qualité des données dans la BDD : avant ou pendant l’insertion de données

  • Faut-il automatiser le contrôle de la qualité dans les bases de données ?

  • Quels sont les outils disponibles et comment les utiliser ?

Le programme de l’atelier s’appuie sur les travaux de Laure Berti Equille qui « classe les travaux autour de la problématique de la qualité des données selon quatres grands types d’approches complémentaires : prévenir / diagnostiquer / corriger / adapter ».

Dans la première partie de la présentation, après avoir explicité les notions autour de la qualité des données, Christine Plumejeaud nous donne de bonnes pratiques comme celle d’attribuer un code standard (suivant une norme choisie et citée) décrivant l’état de la valeur. Elle cite comme exemple le standard SDMX, qui est une initiative internationale, utilisée entre autre par Eurostat et l’INSEE. Elle cite aussi les travaux faits par le Service d’Observation en Milieu Littoral SOMLIT qui a défini sa propre classification 2.

Sa présentation se poursuit sur l’utilisation de contraintes SQL pour éviter l’insertion en base de données de valeurs incohérentes ou impossibles. Ces contraintes sont la transcription des régles de gestion définies lors de la modélisation de la base de données. Une fois la structure de la base de données définie, il reste une étape, celle du nettoyage des données, a réaliser avant l’intégration des données en base. Le réseau rBDD conseille pour cela le logiciel OpenRefine très simple à prendre en main et très puissant.

Qualité des données

Christine Plumejeaud, LIENSs & Nadine Mandran, LIG ANF « Sciences des données : un nouveau challenge pour les métiers liés aux bases de données », réseau rBDD, Sète, 2018

Dans cette intervention, Christine Plumejeaud se place dans le cadre de l’utilisation d’outils nomades qui envoient directement les données collectées sur tablette dans une base de données. La problèmatique est sensiblement différente. Partant du principe que sur le terrain, il est communément recommandé de laisser la saisie la plus libre possible pour permettre une prise en compte des aléas plus faciles, la détection des choses non conformes aux régles métier est à traiter a posteriori.

Outils nomades : validation des données

Christine Plumejeaud-Perreau, CNRS, U.M.R 7266 LIENSs, la Rochelle
ANF « Interfacer les outils mobiles avec son système d’information », réseau RBDD, 2019

Certains logiciels comme ODV (Ocean Data View) permettent de qualifier les données et d’attribuer un code qualité a des données après analyse par un expert du domaine. ODV est un format de fichiers, et un logiciel utilisés par le projet européen SeadataNet.

Cependant peu de logiciels de traitement de données propose d’associer des codes qualités aux données, aussi on retrouve souvent de nombreuses méthodes et implémentations personnelles pour essayer de qualifier les données, illustrées par les exposés suivants donnés lors des journées de séminaires SIST (Séries Interopérables et Systèmes de Traitement) :

P. Téchiné présente les méthodes de suivi de la qualité de diverses mesures comme le niveau de la mer ou la salinité de surface (SSS: Sea Surface Salinity ) dans différents projets. On peut constater la diversité des solutions mises en place.

Suivi de la qualité des mesures de réseaux d’observation océanographique

Philippe Téchiné, B. Buisson, L. Testut, T. Delcroix, G. Alory, Laboratoire d’études en Géophysique et océanographie spatiales
Séminaire SIST 2016 OSU OREME Montpellier

Dans cette présentation Lynn Hazan décrit son processus d’attribution de code qualité. Comme nous l’avons indiqué précédemment dans la phase de traitement, les données sont obtenues en temps quasi-réel et sont transformées en données consolidées par un traitement qui permet d’en augmenter la précision et la confiance. Les étapes de consolidation incluent une expertise humaine avec une inspection visuelle afin de détecter des problèmes potentiels difficilement détectables automatiquement. L’outil ATCQc a été développé afin de permettre aux scientifiques de visualiser et qualifier rapidement leurs données issues des instruments de mesures du réseau.

ATCQc : Un outil pour le QA/QC de mesures atmosphériques du TGIR ICOS, vidéo

Lynn Hazan, Laboratoire des Sciences du Climat et de l’Environnement
Séminaire SIST 2018 OVSQ , Guyancourt.

Dans cette présentation, les auteurs abordent la qualité des données sous l’angle utilisation de référentiels pour décrire finement les données et les rendre interopérables

La qualité des données à l’OSU OREME

Juliette Fabre, Olivier Lobry, Observatoire de REcherche Méditerranéen de l’Environnement
Séminaire SIST 2018 OVSQ, Guyancourt.

La qualité des données à l’OSU OREME

Juliette Fabre, Olivier Lobry, Observatoire de REcherche Méditerranéen de l’Environnement
Séminaire SIST 2018 OVSQ, Guyancourt.

Dans cette présentation, les auteurs proposent un développement graphique avec la librairie « DyGraphs » pour visualiser et valider des données de séries temporelles.

Dans son projet A. Campos utilise un ensemble de scripts Python pour convertir les fichiers « xls » en fichier « ascii », puis effectue un nettoyage avec la commande « awk » de Unix. Enfin des scripts en langage R permet de faire des moyennes glissantes, des graphes et des exports des fichiers au format NetCDF.

Site Web de diffusion des données « Sahelian Dust Transect »

André CAMPOS, Laboratoire interuniversitaire des systèmes atmosphériques
SIST 2016 OSU OREME Montpellier


1

http://erddap.emso.eu:8080/erddap/info/index.html?page=1&itemsPerPage=1000

2

Codes qualité SOMLIT