Big Data : les écueils de l'analyse comportementale

Le big data c'est la version 2.0 du bon vieux principe :  Dis moi qui tu hantes et je te dirais qui tu es ?

Avec l'avènement du big data on peut corréler beaucoup de choses entre elles pour le meilleur et pour le pire :

Une assurance corrèle la taille des pantalons achetés avec de la prise de poids pour faire monter les assurances
Une banque refuse un prêt à cause des amis que l'on a sur LinkedIn ou Facebook qui sont tous des mauvais payeurs
Une société de crédit va baisser les limites de crédit en fonction du magasin d'achat  où je consomme car les clients de ce magasin sont aussi de mauvais payeurs.
Sans aller jusqu'à Minority Report qui invente la fiction de la prédiction des crimes, cette nouvelle approche de l'analyse comportementale pose de nombreux problèmes.

Il y a un problème de méthode d'abord, comme le souligne cet article.  Pour prendre de bonnes décisions il faut avoir de bonnes données, ni tronquées, ni biaisées. Ce qui n'est pas toujours assuré.
Plus subtil,  corrélation ne vaut pas preuve. Voici l'exemple publié il y a quelques années dans pour la Science : La courbe du nombre de cigogne en Alsace et celle de la naissance des bébés est très bien corrélée ... conclusion imparable les bébés sont apportés par les cigognes. Ce n'est donc pas parce que certains événements semblent statistiquement corrélés qu'ils ont une relation de cause à effet. Il faut une explication que la statistique ou l'ordinateur seul ne saurait donner.
Mais il y a plus, cette nouvelle approche est rendue possible par la technologie digitale qui garde des traces de tout ce que nous faisons avec nos appareils numériques. Mais aussi par le fait que ces données soient accessibles aux sociétés et qu'on les laissent faire ces analyses comportementales.
Notre comportement digital est espionné à des fins commerciales et à notre insu.

Dans une approche d'écologie humaine, qui met l'homme au centre des préoccupations alors il y a quelque chose chose d’inacceptable. Au nom de la liberté des personnes on ne peut accepter que nos comportements digitaux soit épiés comme ils le sont, avec des erreurs graves possibles et sans notre accord.
Nous sommes suivis non pas tellement par un gouvernement à la Big Brother, encore que l'affaire Prism nous montre que nous le sommes, mais par la Big Corp. qui a accès à une quantité considérable de données sur nous soit directement comme Google [voir aussi Big Google is watching you], Facebook, Amazon, LinkedIn, Viadeo etc... soit indirectement par achat de données. Big Corp a plus de données sur nous que la plupart des gouvernements.
Remarquons que nous sommes en parti coupable de cette situation, car en refusant de payer pour les services informatiques (musiques, news, vidéo etc...) nous condamnons les sociétés à vivre de la publicité. Et vivre de la publicité c'est vendre un accès à des segments de populations aux contours et aux comportements homogènes que vont cibler les publicitaires. Sans vraiment nous en rendre compte nous cédons nos droits digitaux pour éviter de payer un service.
Il me semble qu'en temps que client je devrais toujours pouvoir choisir entre la version gratuite d'un service, la contre partie étant l'accès à mes données comportementales à des fins publicitaires et une version payante dans laquelle mes données sont confidentielles et ne regarde que moi.

Et vous qu'en pensez vous ?

Commentaires

  1. .. donc c'est normal que la ratp fasse payer le navigo pass anonyme + cher ? ouais ..
    Sinon, votre approche des études de corrélation n'est pas très exacte. 2 évènements peuvent être aussi corrélés car ils sont conséquences d'un autre..
    L'analyse mathématique des données ne se résume pas aux approches simples. De nombreux modèles mathématiques complexes existent et peuvent approcher certains phénomènes sans prétendre TOUT expliquer.

    RépondreSupprimer
  2. Non, car là c'est le risque pour elle que plusieurs personnes utilisent le même passe.

    Evidemment deux événements corrélés peuvent avoir une cause commune, mais pour autant il faut un modèle explicatif. Corrélation ne vaut pas causalité.
    Mais je suis d'accord mon article simplifie -volontairement- pour permettre de faire saisir l'enjeu.

    RépondreSupprimer

Enregistrer un commentaire

Merci pour vos remarques