Le machine learning : ou comment prédire le passé !

Le machine learning est le nouveau graal de l'informatique. Tout le monde veut en faire, personne ne sait vraiment pourquoi. Régulièrement, je vois des gens proposer de laisser la machine apprendre le résultat.

Derrière ce mot magique de machine learning que tout un chacun utilise à tire-larigot sans vraiment comprendre de quoi il s'agit que se cache-t-il ? Pardon de vous démystifier la chose, mais le machine learning c'est de la statistique principalement.

Cela consiste à analyser un ensemble de données pour un tirer une loi mathématique qui décrive les données au mieux.

Exemple cette société, QUCIT, avec laquelle j'ai travaillé et qui fait des prédictions pour les villes, pour les vélos en libre-service, pour les places de parking, etc. Dans un article récent, elle propose un algorithme pour mieux estimer les résultats passés (les points bleus) par une fonction mathématique (les traits rouge et orange).

Parfois quand on ne sait pas trop quelle fonction mathématique on doit utiliser ou trouver, on utilise des réseaux de neurones (voir ici). Ils ont l'avantage de modéliser des problèmes pas si simples à exprimer mathématiquement, à condition d'avoir suffisamment de données pour faire l'apprentissage.

Mais dans tous ces modèles, il y a une hypothèse, c'est que les performances passées préjugent des performances futures. On trouve des lois dans le passé qu'on projette dans le futur.
Notre comportement futur serait donc la reproduction du comportement passé. Çà n'est pas le futur qui est prédit, mais le passé. D'ailleurs en terme mathématique, on nomme ce mécanisme une régression, on modélise le passé pour projeter l'avenir.

C'était tout l'enjeu de la réflexion de Minority Report, sauf que la prédiction n'était pas issue d'un ordinateur, mais du vote des précogs qui eux devinaient l'avenir.

Il y a plusieurs limites à cette approche. On sait, par exemple, que certains systèmes sont chaotiques et que d'infimes changement des conditions initiales aboutissent à des états très différents.

C'est le fameux effet papillon, mis en évidence par Lorentz dans sa célèbre conférence et repris par Hubert Reeves dans son livre Malicorne.

Lorentz posait la question : « Le battement d'ailes d'un papillon au Brésil peut-il provoquer une tornade au Texas ? »

Ou l'analyse du déterminisme et du chaos de Prigogine :

Les chemins de la nature ne peuvent être prévus avec certitude, la part d'accident est irréductible : la nature bifurquante est celle où de petites différences, des fluctuations insignifiantes, peuvent, si elles se produisent dans des circonstances opportunes, envahir tout le système, engendrer un régime de fonctionnement nouveau.

Il y a donc une limite, rarement explicitée, dans les approches de machine learning. C'est que les systèmes peuvent avoir des tendances chaotiques. C'est que l'être humain est capable de modifier son comportement, de sortir du pseudo-déterminisme des lois statistiques et d'innover. Parfois, régulièrement, c'est du simple fruit du hasard que certaines innovations naissent.
Ce phénomène a un nom la sérendipité :

"La sérendipité est le fait de réaliser une découverte scientifique ou une invention technique de façon inattendue à la suite d'un concours de circonstances fortuit et très souvent dans le cadre d'une recherche concernant un autre sujet. La sérendipité est le fait de « trouver autre chose que ce que l'on cherchait », comme Christophe Colomb cherchant la route de l'Ouest vers les Indes, et découvrant un continent inconnu des Européens. Selon la définition de Sylvie Catellin, c'est « l'art de prêter attention à ce qui surprend et d'en imaginer une interprétation pertinente »." Wikipedia

Un bon investisseur n'est pas nécessairement celui qui suit le troupeau, mais celui qui investit au bon moment, et donc parfois, souvent, à contre-temps de la foule. Les performances passées ne préjugent pas des performances futures.

Gageons que dans le futur, les logiciels qui sauront créer de la sérendipité seront plus utilisés que ceux qui nous ramènent en permanence dans les mêmes ornières empruntés par tous les autres.

De Computeris

Rechercher dans ce blog

Le machine learning : ou comment prédire le passé !

Commentaires

Enregistrer un commentaire