Préliminaires


Cet ensemble de rapports qui émane de la cellule de validation des données Pomme est intitulé validation des données. Dans cet ensemble un certain nombre de convention de vocabulaire a été adopté, tout en utilisant des mots d’usage courant d’une part et des néologismes d’autre part. Il convient donc d’en préciser le sens. Le sens utilisé n’a toutefois aucune prétention de généralité. Ensuite sera précisé le champ des données dont la cellule a effectué une validation d’une manière ou d’une autre. On a redécouvert dans ce travail systématique ce qui est connu depuis longtemps pour un nombre restreint de variables ou de données.


Vocabulaire


Validation, référencement, étalonnage, cross validation, harmonisation, contrôle, cellule de validation, tout terme se rapportant aux données, sont maintenant précisés.

Validation : Toute données d’observation doivent être validées. Cela relève du sens commun pour un scientifique. Lorsqu’elles sont acquises ou consignées, ce sont des données ‘brutes’, même lorsqu’elles proviennent d’un système d’acquisition élaboré muni d’un progiciel de traitement, et même lorsqu’elles sont éditées en unités officielles de mesure. On doit en effet réaliser ou contrôler leur étalonnage, évaluer leur précision, détecter les anomalies, les transcrire en unités en vigueur, donc les valider par rapport à des normes de référence, les rendre utilisables par tout scientifique compétent ne connaissant pas les détails de l’acquisition ou le déroulement de la campagne de mesure. Pour les données de notre discipline, il convient donc au minimum de les étalonner et de les ‘géolocaliser’.

La validation comporte donc plusieurs subdivisions :


i- Validation par étalonnage, on utilisera ici le terme de calibration, bien que non strictement d’un français académique. Cette étape n’est évidemment pas réalisée pour toutes les variables par la cellule de validation. Les données transmises au site pomme web par exemple sont supposées être déjà étalonnées par les spécialistes du moins dans un certain délai après la campagne. Toutefois la cellule a réalisé les étalonnages des capteurs des sondes CTD utilisées (à l’exception de Pomme 0, réalisés par le LPO).


ii- Validation par référencement. Elle a pour but de s’assurer que les données sont correctement géolocalisées et ceci de manière cohérente avec le déroulement de la campagne d’observation. La cohérence suppose une précision, la même pour tous les jeux de données validées, sur la position géographique du navire, sur le temps (date et heure ou jour julien) et sur la profondeur de l’engin de mesure ou du prélèvement d’eau. Cette validation est l’objet du présent rapport.

iii- Validation par croisement de données ou d’informations, ou ‘crossvalidation’. Un océanographe est capable de dire qu’une observation de température de 10°C à 4000 dbars (decakilopascals, pardon ) de profondeur, n’est pas correct dans la zone Pomme. Il se réfère à une connaissance externe à la campagne, obtenue à partir d’atlas ou d’observations antérieures. Clairement une erreur de transcription, d’étalonnage ou d’autre chose est venue interférer avec la saisie initiale. Un autre type de croisement d’information est fondé sur la variabilité attendue ou observée du milieu ce sera alors une cross validation statistique. Enfin on sait que les variables ne sont pas indépendantes dans le milieu océanique, en particulier en profondeur : Relation NO3-PO4, salinité - alcalinité, diagramme Theta - S, etc. ; le type de cross validation n’est pas figé, et demande l’intervention d’un scientifique connaissant la zone d’étude et les variables mesurées. Le résultat de tout croisement de données se traduit par une estimation selon un code précisé des données alors qualifiées de bonnes, anormales ou exceptionnelles, douteuses, aberrantes.


Malheureusement la situation n’est pas aussi simple et les validations ne sont pas indépendantes, dans le sens où l’ordre logique : étalonnage, référencement, cross validation ne peut pas toujours être respecté. Par exemple, pour ‘étalonner’ le signal issu d’un capteur d’oxygène, on a besoin de données de dosage sur des prélèvements. Avant d’effectuer la calibration on a donc besoin de valider par croisement les données acquises par la sonde et celles dosées sur des bouteilles de prélèvements. Des aller-retour entre validation par croisement de données et par étalonnage sont quasiment inéluctables avant de parvenir à un lot de données validées et présentables.


Référencement : Par ce terme il est entendu que chaque donnée d’une campagne est associée à une position géographique, une date, une heure et éventuellement une profondeur. Lorsque les données sont transmises au site web de la campagne, ces informations revêtent inéluctablement des formes, des précisions, des manques différents selon le scientifique en charge de ces données. L’objet de ce référencement est donc de géolocaliser d’une manière uniforme chaque donnée, sans modifier la forme de la donnée, ni porter une quelconque estimation sur la qualité ou la cohérence de la donnée.


Cross validation : lors d’une tâche de validation croisée, ‘cross validation’, des relations statistiques sont utilisées soit pour chaque variable, soit entre variables de manière à détecter des valeurs anormales, qui sont ensuite trouvées, aberrantes, exceptionnelles ou douteuses. Les valeurs normales ne se distinguent pas dans un nuage de points. Les procédures utilisées sont décrites dans le rapport sur la cross validation.




Cellule de validation


Louis Prieur et Caroline Pocho (Juin –Septembre 2002 et Janvier 2003 - Décembre 2005) au Laboratoire d’Océanographie de Villefranche sur Mer avec la participation initiale de Jean Raunet jusqu’en Décembre 2002


Principes respectés




Champ de la validation exercé par la cellule de validation


Le répertoire 3-DONNEES_TRAITEES  contient les fichiers de données validées par une des différentes méthodes pertinentes présentées dans le rapport.

Les données ‘non traitées’ telles que :

Temps réel M Assenbaum

Résultats de modèle

Données de flotteurs et d’ADCP

Pomme 0 (pas de fichier source de référencement)

Flux de surface

par exemple n’ont pas fait l’objet de validation, car elle avaient leur propre validation de géolocalisation complète. Un inventaire complet au 15-11-2005 des données validées ou non selon le découpage du site Pomme Web est donné en Annexe 4 et a été transmis à MP Torre : INVENTAIRE_FICHIERS_REFERENCEMENT.doc


Nom des fichiers : dans ces rapports, il est fait référence à des noms de fichier en les mettant en italique avec leur extension. Ces fichiers ont été rassemblés sur un CD de transmission à MP Torre au 15 Novembre 2005. Une arborescence de ce CD est donnée en annexe. Certaines transmissions partielles de fichiers ont été effectuées au site Pomme Web et aux responsables sans attendre la date précédente. Toutefois les dates de transmission restent importantes dans la mesure où certaines modifications ont pu être effectuées. D’une manière générale les noms des fichiers ont alors été changés, malgré l’inconvénient de noms à rallonge. Une annexe dédiée à l’historique des transmissions a été construite.