7- Comment utiliser les fichiers référencés


L’avantage de disposer d’un référencement cohérent et uniforme n’est pas ici repris. Il apparaît cependant que la géolocalisation complète des données par les référencements utilisés conduit à des redondances de variables, néfastes pour la clarté du choix de l’utilisateur. Comme la validation croisée de chaque variable avec toutes les autres n’a pas été effectuée systématiquement, un fichier unique rosette n’a pas été construit. Il convient de guider l’utilisateur qui désire croiser deux variables appartenant à des fichiers validés par référencement différents. Enfin, il est rappelé que la validation par référencement n’a pas effectuée de contrôle de la qualité intrinsèque des données autre que leur repérage dans la géolocalisation.


7.1- Exemple de redondance

On peut trouver dans les fichiers validés par référencement (FVR) plusieurs colonnes se référant au même paramètre. Ceci arrive lorsque le fichier original transmis sur le site Pomme web était déjà un fichier concaténé par un des responsables de dosage pour son utilisation personnelle, pour un contrôle ou bien parce qu’il en avait besoin pour un calcul. Un exemple est par exemple trouvé dans le fichier carbone inorganique dissous ficros_carbinorgdiss_p1l1_cor.xls dans lequel une colonne salinité est trouvé en col. V et une colonne NO3 en col. AV. Dans le fichier référencé issu de la cross validation pour le même leg, ficroscontr_cfinauxp1l1_Atal.xls, on trouve aussi une colonne salinité en col. L et une colonne NO3 en col. P. Ce qui a été validé par croisements statistiques de données par la cellule de validation est le second fichier. Le premier n’étant validé que par référencement. La validité des S et NO3 dans le premiers fichier n’a pas été contrôlée et reste sous la responsabilité du fournisseur de fichier (dans ce cas Melchior Gonzales Davila). Très probablement les deux colonnes NO3 donneront les mêmes résultats puisque dans ce cas les données originales viennent de l’équipe de Patrick Raimbault, lesquelles ont été utilisées pour faire la crossvalidation statistique. Dans ce cas précis donc, les colonnes NO3 à utiliser est la colonne du fichier ficroscontr_cfinauxp1l1_Atal.xls, au sein duquel on dispose d’ailleurs de l’information flag. Toutefois il y a eu plusieurs versions de NO3 fournis à différentes dates. Une note à ce sujet précis est en cours de rédaction. En ce qui concerne S les valeurs officielles et contrôlées sont bien dans le fichier cross validé.

Par ces exemples la redondance d’information dans la base de FVR est donc source d’ambiguïté. Il aurait été impossible de contrôler la cohérence de chaque redondance ou à tout le moins d’en rendre compte de manière claire, puisque la cellule de validation ne dispose pas nécessairement de la traçabilité des fichiers concaténés avant la transmission au site Pomme Web. Toutefois ces exemples montrent que la cellule de validation, tout en respectant les principes de tracabilité et de non modification des données au cours de la validation par référencement, doit fournir une liste des choix conseillés de colonne et de fichier pour chaque paramètre, en se référant au plus près aux dernières fichiers fournis par le responsable de chaque variable.

Cette liste conseillée est donc fournie en annexe.



7.2- Problème de Concaténation de deux FVR.

Ce cas se présente lorsqu’un utilisateur veut par exemple croiser un paramètre situé dans un fichier et un autre paramètre, voire le même situé dans un autre. Avec les deux fichiers cités précédemment il n’y aura aucun problème, puisque le nombre de lignes de ces deux tableaux est le même (1893) , c'est-à-dire le nombre de ligne du fichier trame ayant servi au référencement des données rosette. Il suffira d’extraire les colonnes pertinentes dans chaque fichier et de les comparer. Toutefois même pour un leg donné, tous les FVR n’ont pas exactement le même nombre de lignes. En effet il arrive que le fichier de données primaires arrivés au site web pomme, comporte des ‘doublets’, c'est-à-dire des données de dosage différents ayant la même référence en termes de n° de station et de bouteille de prélèvement. Dans ce cas le programme de concaténation ne documente pas automatiquement cette ligne du fichier trame, mais signale à l’opérateur l’existence d’un doublet. Caroline Pocho a ensuite manuellement ajouté et documenté avec le référencement ad hoc le nombre de ligne correct pour respecter les principes de non modification des données et de traçabilité, au détriment de la conservation des 1893 lignes pour le fichier validé. Cette opération manuelle est consignée dans le rapport journalier de construction des FVR. Un tableau synoptique synthétise toutes ces opérations manuelles et consigne quelles lignes sont ajoutées. Il est donc ainsi aisé de choisir d’ignorer les lignes ajoutées, d’effectuer un moyenne ou tout autre opération avant de concaténer les deux fichiers choisis pour un croisement. Le tableau synthétique mis à jour au 15 décembre 2005 est reproduit en Annexe 5 et est présent sur le CD2 de transmission à MP Torre (ficrosdcoord_donpomweb_controle_miseajour.doc). On y lit par exemple que pour le leg 1 de Pomme 1, le FVR concernant l’absorption particulaire contient non pas 1893 lignes mais 1894, car deux lignes sont redondantes pour la station 1007, bouteille 24.



7.3- Comment utiliser les résultats de la cross validation statistique pour une variable qui n’a pas été cross validée ?

Il suffit de concaténer, après consultation du tableau synthétique précédent, le FVR où se situe la variable avec le fichier rosette cross validé ficroscontr_cfinauxpXlY_Atal.xls pertinent, X pour n° de Pomme et Y pour n° du Leg. Ainsi il est aisé de choisir les lignes où le flag mécanique est nul , col. U du fichier rosette, qui indique la présence effective d’une bouteille correctement fermée, ou bien les lignes où le flag variable synthétique 2, col.AD, est nul qui indique que toutes les variables soumises à la cross validation ont été validées par les tests statistiques. La construction et la signification précise de ces flags sont indiquées dans les fichiers ‘rapport journalier’ de CP et sont présentés dans le rapport ‘Pomme validation de données – 2. cross validation’.


7.4- Problèmes issus des mises à jour du site Pomme Web et cas particuliers de TCO2 et de sels nutritifs.


On comprend aisément que la validation des données ne peut être effectuée en continu, c'est-à-dire à chaque fois que quelques données sont corrigées dans des fichiers préalablement transmis. Les mises à jour des fichiers de données par les responsables sont inévitables, car certaines erreurs peuvent apparaître au cours de leur utilisation scientifique ou au cours d’un croisement avec d’autres données. Malheureusement la tâche de validation par référencement, ou croisement de données ne peut être rendue automatique, surtout pour éviter d’imposer des formats contraignants de transmission des données. Même avec un tel format imposé, tout ne serait pas résolu dans la mesure ou toute intervention extérieure demande contrôle avant mise en base de fichiers validés. Les validations par référencement ont été effectuées aux dates signalées dans les annexes (novembre 2003, octobre 2004 et novembre 2005, voir Annexe 5 par exemple) et les FVR tiennent compte en principe de ces mises à jour. La date de téléchargement des fichiers soumis à validation est dans le rapport journalier associé à chaque fichier. Il se trouve qu’à date du présent rapport, certaines variables ont été actualisées en octobre 2005, mais non téléchargées ; c’est les cas des sels nutritifs et de TCO2, dernière version. Le travail de validation par référencement reste à faire, plus exactement à actualiser, car des FVR pour ces variables sont disponibles. Il se trouve que ces variables récemment actualisées sont intervenues aussi dans la validation croisée qui demande plus de temps. Aussi seront-elles mises à jour après le rendu des rapports et feront l’objet d’un rapport d’actualisation.

Cependant, pour les sels nutritifs, une première étude a montré que les fichiers de cross validation reste valables dans la mesure où les tests statistiques éliminaient (peut-être trop) les valeurs douteuses. En revanche les fichiers actuellement sur le site Pomme web après actualisation et non encore validés par référencement sont suspects dans la mesure où des références aux n° de bouteille semblent erronées. Une étude donc détaillée s’impose pour valider de tels fichiers corrigés par le responsable des sels nutritifs.



Par ces quelques exemples de problèmes rencontrés on s’aperçoit qu’une validation exhaustive ne pourrait-être réalisable que de manière définitive, c'est-à-dire qu’à partir d’un certaine date après une campagne, rien ne pourrait être modifié. On introduirait alors une rigidité dans la validation qui ne servirait pas forcément l’objectif recherché : mettre à disposition de la communauté internationale des données validées. D’ailleurs plutôt que validées on devrait dire contrôlées. Nous laissons à penser quel serait l’état des données d’une campagne de biogéochimie si la validation ici réalisée n’avait pas été effectuée. En général ce travail de validation est effectué par des scientifiques qui ont un objectif précis, par exemple de réaliser une climatologie. Alors les données qui apparaissent suspectes sont éliminées. Dans notre cas ce n’était pas envisageable.