Quelles données sont-elles concernées par la question de la qualité ? Toutes bien sûr ! Il s'agira donc d'analyser sur cette page les données qui offrent un meilleur potentiel de monté en qualité et de prioriser ainsi notre travail.

Que contrôler pour améliorer la qualité des données d'un jeu ?

  • la documentation
  • le jeu de données en lui-même : il faut distinguer des niveaux de contrôles différents :
    • l'encodage des caractères
    • les caractères de fin de ligne (est-ce si important ?)
    • l'architecture du fichier : CSV ? quel délimiteur ? etc.
    • le “dictionnaire” ou l'architecture du jeu : les champs et le sens de leur contenu (la sémantique)
    • le choix d'un standard qui cadre l'architecture des données : par exemple GTFS pour un jeu de données d'horaires de transports
    • la syntaxe de chaque champ
    • la pertinence des contenus : par exemple, peut-on contrôler si telle valeur est vrai ou fausse ? peut-on contrôler si une valeur paraît aberrante, obsolète ?

Quels critères de sélection/priorisation ?

Il va de soit qu'on ne va pas s'intéresser à la qualité d'un jeu de données anecdotique produit par un seul acteur et ne répondant à aucun standard.

  • Le jeu de données est-il simple à analyser (peu de champs, syntaxes simples à contrôler, etc.) ?
  • Le jeu de données répond-il à un standard documenté ?
  • Le jeu de données est-il produit par de nombreux acteurs ?
  • Le jeu de données est-il utilisé par de nombreux acteurs ?

Jeux de données candidats

Nous listons ici des jeux de données qui nous intéressent, en les présentant en quelques mots et en expliquant pourquoi ils nous intéressent. Nous listons dans ce paragraphe les jeux détaillés ou à détailler dans la suite de cette page (todo: à détailler/compléter) :

  1. Prénoms de nouveaux-nées d'une commune.
  2. Jeux contenus dans le socle commun des donnés locales (à compléter).
  3. Marchés publics.
  4. Données dont la standardisation est contrainte par des décrets (marché publics, subvention, bornes de recharge des véhicules électriques IRVE, vitesse limite).
  5. Données touristiques : TourinFrance, Apidae, (datatourisme ? → http://www.datatourisme.fr/ontologie/),
  6. Données transports : gtfs, neptune, netex > http://www.normes-donnees-tc.org/
  7. N'importe quel jeu CSV : conformité (encodage, séparateur).

1. La liste annuelle des prénoms des nouveaux-nés d'une commune

Quoi ?

Ce jeu consiste en une liste des prénoms des nouveaux-nés déclaré dans l'année à l'état-civil d'une commune, avec l'occurrence de chacun.

Pourquoi s'y intéresser ?

  • ce jeu de données est potentiellement produit par des milliers de communes
  • ce jeu de données est très apprécié du public
  • ce jeu de données est compréhensible par tous : pas de termes techniques, tout le monde comprend ce qu'il contient au premier coup d'oeil ; c'est en quelque sort le “Hello world” de l'open data
  • ce jeu de données a fait l'objet d'une proposition de standardisation : https://docs.google.com/document/d/1Vk0kpBw3MIocai9JqovLK2HxcUA_3QHnZicqxuOpcQ8/edit
  • cette proposition de standardisation avec été mené collaborativement, avec soin et le souci d'être bien documentée
  • un acteur local, Digne-les-Bains, a déjà produit un jeu de données conforme au standard proposé : https://twitter.com/mairiedigne/status/935878333174370305

Que pourrions-nous contrôler ?

  • la conformité du jeu au “standard” CSV
    • l'encodage du jeu de données en UTF-8
    • la virgule comme séparateur
  • la conformité au standard proposé :
    • le nombre, l'ordre et les libellés des champs
    • la syntaxe de chaque valeur
    • la pertinence de chaque valeur

2. Votre proposition ...