Sur l’architecture distribuée du big data

Avec le Big data, la production volumétrique des données explose, constituant ce que Roberto di Cosmo appelle une « infobésité » ; c’est-à-dire la saturation de notre bande passante par un flux exponentiel d’information a priori peu ou pas utiles. Mais la nouveauté du Big data repose simultanément sur l’existence d’une nouvelle génération d’algorithmes qui permettent de gérer rapidement des milliers de données, de les mettre en relation les unes avec les autres et d’améliorer ainsi les capacités prédictives de tous les modèles d’analyse. Dans son ouvrage « Big data , penser l’homme et le monde autrement », Gilles Babinet rappelle justement que « la notion d’architecture distribuée permet alors d’accéder à la fois à des grandes quantités de données et de mobiliser de la ressource de calcul distribuée, c’est-à-dire située là où se trouve l’information elle-même distribuée. Toute l’astuce consiste à coordonner ces traitements de données dans le but de gérer les incohérences et les redondances ».
Ainsi, un service comme Google Flu permet de suivre presque en temps réel la propagation de la grippe. Ceci simplement en visualisant le nombre de fois ou les internautes tapent le mot grippe ou décrivent les symptômes de la grippe dans le moteur de recherche. Ces requête géolocalisées vont alimenter une représentation précise de la progression de la maladie et de la cartographier aussi bien dans le temps que dans l’espace. De la même façon, on serait capable de prédire l’évolution de la criminalité ou de localiser les zones d’embouteillage sur les routes. Ce type de démarche s’évérerait est aussi pertinente pour la météo, pour la prévention des maladies chroniques que pour l’émergence et la détection des tendances politiques. Même la cachette secrète de Ben Laden aurait été découverte grâce aux architectures distribuées du big data.
Pour caractériser la prégnance de ces nouveaux algorithmes, on parle volontiers d’une nouvelle « ère informationnelle », à partir de deux déterminants. D’une part, on mesure la multiplication des sources de données produisant des volumes exponentiels d’information. D’autre part, les nouvelles capacités de traitement et d’analyse permettent d’en extraire le sens explicite mais surtout d’en percer le sens implicite. Ce « sens caché » peut nourrir toutes les prédictions, en mettant en exergue les relations internes et la cohérence croisée des différentes bases de données.

Post to Twitter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Follow jb2point0 on Twitter Follow jb2point0 on Twitter