Torture de l'eau - Une analogie analytique va trop loin

analyse goutte à goutte

Les données, comme l'eau, se présentent sous de nombreuses formes. L'esprit humain a évolué pour filtrer la plupart des données qui nous parviennent parce qu'il y en a tout simplement tellement.

Lorsque vous ouvrez les yeux et les oreilles, les données sont partout. La couleur du mur, le bruit de la climatisation et l'odeur du café de votre voisin sont traités comme de l'humidité. L'eau est dans l'air tout le temps mais il n'est pas utile d'y prêter beaucoup d'attention.

Lorsque l'eau se condense en brouillard, elle vous oblige à la voir et rend la compréhension du monde qui vous entoure d'autant plus difficile. Des ensembles de données incomplets, des données corrompues, une mauvaise science, de fausses conclusions et un biais cognitif vous font tous perdre votre chemin dans la brume.

Les données tombent comme la pluie. Quand il y en a juste un peu, c'est extrêmement insatisfaisant - juste assez pour salir votre voiture et embrouiller la conversation. Vous vous retrouvez à essuyer la tache sur vos lunettes alors que quelqu'un jette des données aléatoires, glanées à partir d'une source obscure.

  • Eau viciée dans un étang peu profond est dangereux. Les données, collectées à partir d'un approvisionnement peu fiable, ni nettoyées ni normalisées et laissées à la stagnation, peuvent facilement conduire à des conclusions erronées.
  • A filet régulier d'eau peut suffire à remplir une cantine ou à maintenir un écosystème forestier. Seuls trois points de données (le nombre d'e-mails envoyés, par rapport à ouverts, par rapport aux clics) peuvent soutenir un programme marketing.
  • A un flux plus sain des données sous la forme d'un petit ruisseau peuvent être utilisées pour la baignade. Un flux de données continu permet une analyse comparative et une comparaison historique. L'optimisation de la page de destination peut être réalisée avec des données de conversion stables.
    A rivière modeste peut alimenter un moulin pour scier du bois ou moudre du blé. Un moteur de recommandation n'a besoin que de la contribution fiable d'une poignée d'affluents pour augmenter la valeur des caddies.
  • A Cascades de peut propulser une énorme roue à aubes et un afflux suffisant d'informations peut conduire un système de contenu dynamique en temps réel.
  • A rivière c'est assez large et profond pour soutenir toute une industrie du transport. Des données suffisantes peuvent faire flotter des barges et des cargos sous la forme d'une collection de cookies provenant de réseaux publicitaires, d'agrégateurs de données de programmes de cartes de fidélité et de courtiers en données.

Lorsque les données arrivent en quantités attendues à des moments prévus, elles peuvent être capturées, canalisées et utilisées. Les systèmes d'irrigation, les barrages et les réservoirs procurent un sentiment de contrôle et permettent la construction d'une infrastructure de plus en plus large avec des canaux, des écluses et des barrages. Les entrepôts de données ont été construits sur des flux moins fiables.

La propreté est à côté de la piété

L'eau propre est vitale pour le succès de la vie, l'irrigation, le fonctionnement des centrales électriques, etc. La définition de «propre» pourrait changer dans ce but; ce n'est pas grave s'il y a des algues dans l'eau qui refroidit une centrale électrique et ce n'est pas acceptable s'il y a plus de 10 parties par milliard d'arsenic dans l'eau potable.

Les données sont les mêmes. Dans une application de publipostage, la question de savoir si vous avez le titre d'une personne (M., Mme, Mme) n'a aucune importance… sauf si vous envoyez un courrier aux médecins. Mais les données sales vous feront trébucher à chaque fois.

En tant que Data Scientist américain en chef, DJ Patil, présentez-le lors d'un premier sommet des CTO: «Si vous ne réfléchissez pas à la façon de garder vos données propres dès le début, vous êtes f ^ ¢ & ed. Je le garantis. Essayer de le nettoyer après coup prendra au moins des mois. »

Si vous chauffez l'eau au point d'ébullition, elle peut alimenter toute une révolution industrielle. Les données semblent faire la même chose. À partir du moment où les ordinateurs ont pu stocker et calculer, les données ont été collectées aussi rapidement que l'équipement de stockage pourrait être créé pour le faire.

Le lac de données

Au fur et à mesure que les données de ces affluents ruissellent dans les moteurs des usines, tout se termine dans le lac, derrière le barrage. Comme les données sont diffusées de manière contrôlée, elles alimentent les turbines de l'industrie des données; ces moteurs géants de traitement de données avec des noms comme Google et Facebook. Il n'y aura pas de sécheresse ici.

Et, enfin, il y a une grande mare d'eau, attendant que l'analyste plonge. Équipement de plongée et fusil à la main, l'analyste explore les profondeurs, cartographie de nouveaux terrains et découvre de nouvelles espèces. C'est une période très excitante pour être un explorateur de données.

C'est pourquoi tant d'entre eux se sont présentés pour le Sommet eMetrics depuis 2002. La prochaine opportunité aura lieu à Boston, du 27 septembre au 1er octobre 2015.

Inscription au Sommet eMetrics

A Bridge Too Far

Et qu'en est-il de la puissance des données pour sculpter le prochain Grand Canyon? Qu'en est-il de la fonte glaciaire des données structurées? Comment traitons-nous les eaux usées dans un monde de plus en plus soucieux de la vie privée?

Ce sont des questions pour une autre fois et l'eau sous le pont.

Que pensez-vous?

Ce site utilise Akismet pour réduire les spams. Découvrez comment sont traitées les données de vos commentaires..