Qu’est-ce que le Big Data ?

[Article rédigé en collaboration avec Mathieu Millet]

LGA (Lise Gasnier) : C’est le big buzz de 2011 qui ne manquera pas de faire du bruit cette année encore! Il désigne les ensembles de données aux volumétrie et complexité telles qu’il faut repenser les moyens de leur gestion. Le volume de ces données se mesure désormais en pétaoctets (10¹⁵ octets). Et, par complexité, nous entendons une ou plusieurs caractéristiques parmi lesquelles :

croissance rapide et soutenue,
formats hétérogènes,
peu ou pas de structuration (comme par exemple pour les images, vidéos, pages web et emails),
des sources variées.

Les Big data sont par exemple des :

données transactionnelles (commandes, paiements etc.).
logs,
clickstreams,
événements géolocalisés,
contenus de réseaux sociaux,
données comportementales,
relevés de compteurs intelligents,
appels au service client.

Par extension, le terme désigne, au-delà des données, les moyens humains ou technologiques extraordinaires mis en œuvre pour les traiter.

MMI (Mathieu Millet) : L’ensemble de la chaîne de traitement technique de ces données se voit remaniée : capture, stockage, analyse et transformation en informations pertinentes et enfin, restitution.

Processus métiers et finalité des traitements n’ont rien de nouveau (pilotage opérationnel, aide à la décision, analyse clientèle et comportementale, optimisation de processus…). Par contre, le volume, la nature et le rythme d’acquisition en données, décrit par Lise, tout comme la volonté d’accélérer ces traitements provoquent un vrai changement de paradigmes technologiques et organisationnels.

Ainsi, certaines pratiques ne sont plus envisageables comme la recopie intégrale de données entre différentes applications susceptibles d’utiliser ces données. Également, de nouvelles pratiques sont à employer afin de tirer parti de l’écosystème Big Data ; par exemple : mettre en œuvre une plus grande coopération/interaction entre les solutions d’analyse et l’entrepôt de stockage afin de bénéficier des performances (I/O mais également CPU) de ce dernier.

LGA : La problématique de gestion des gros volumes de données ne date pas d’hier. Depuis bientôt dix ans, elle est même centrale aux métiers de la recherche scientifique, de la finance et de l’indexation web. Mais, la conjoncture actuelle en a fait un sujet de tout premier plan :

La production de données augmente drastiquement, par l’action des individus tout autant que celles des organisations. Ainsi, les analystes d’IDC relèvent que le volume du contenu numérique mondial a atteint 2.7 zettaoctets (soit 2.7*10²¹ octets), avec une augmentation de 48% en 2011. Ils estiment par ailleurs, qu’en 2012, 90% de l’information sera sans structure (voir le rapport complet gratuitement à cet endroit : http://www.idc.com/getdoc.jsp?containerId=231720).
Des solutions techniques ont émergé, dont certaines libres, comme la plus emblématique : Hadoop et son écosystème (que nous évoquerons plus en détail dans un prochain article). Elles rendent possible et accessible la refonte technologique nécessaire, évoquée par Mathieu.

Les entreprises réfléchissent donc aujourd’hui, tous secteurs confondus, à tirer un avantage concurrentiel de leurs gisements de données ou de ceux publics (web, open data). Des premiers “business cases” (optimisation du marketing numérique, détection et prévention des fraudes, analyse des réseaux sociaux et des relations…) démontrent déjà que de nouveaux indicateurs, de nouveaux leviers de valeurs sont à portée de main. Mais, les questions demeurent nombreuses : il faut définir précisément les besoins et cadrer les transformations stratégiques, organisationnelles, techniques et légales de ce “passage à l’échelle”. D’où le buzz, qu’alimentent par ailleurs les acteurs du paysage technologique!