En 2012, nous avions publié toute une série d’articles autour du Big data. Un an après, le sujet est suscite toujours autant d’intérêt auprès des DSI. Comment l’expliquer ?
Big data : un intérêt qui ne faiblit pas
Depuis 2012, l’intérêt pour le Big data ne cesse de croître (cf. courbe google trends). Pourtant, faute de disposer d’une définition tangible, la pertinence des usages de cette expression reste, aujourd’hui encore, sujette à interprétation.
Prenons un échantillon de définitions produites par les voix les plus influentes du domaine IT (Gartner, Forrester, IBM etc.). Derrière le Big data, une multitude de sujets : il peut s’agir, selon les analystes, 1) des données (d’un genre caractéristique), 2) d’un phénomène ou encore 3) d’un ensemble de techniques ou technologies. Il en ressort cependant un champ lexical qui fait assez largement consensus et s’est imposé sur la plupart des slidewares (avec aussi des contradicteurs).
« Petite » analyse lexicale du « Big » data
3 V. Volume, Variété, Vélocité. Vision du Gartner de 2001 : chacune de ces caractéristiques constituent un défi pour les entreprises qui souhaitent les exploiter ; leur combinaison accentue d’autant la difficulté que représente le traitement des données. Le Big data n’est pas que l’explosion des volumes. C’est aussi la richesse des formats et le temps réel. Ce qui pose question et qui est rarement explicité, c’est la mesure de chacune de ces trois dimensions. Le volume se mesure-t-il en téra- ou en pétabytes ? Où se situent les niveaux d’acceptabilité qui permettent de déterminer qu’une situation ou un cas d’usage relève du Big data ? Le Big data d’aujourd’hui sera-t-il celui de demain ? Car avec la croissance des données et les avancées technologiques, le curseur ne cessera sans doute pas de se déplacer…
4V = 3V+Valeur. Certains ont noté un glissement de l’acception Big data de 3 à 4 V : des caractéristiques de nature technique à celle de « valeur ». Que peut-on tirer des données ? C’est en fait la question essentielle : celle de « l’opportunité à saisir » ou du « besoin à combler ». Une autre question apparaît avec les fournisseurs de données : quel est le prix des données ?
Technologie accessible. Il n’y a pas de définition technologique du Big data au sens où aucune technologie n’est liée de manière exclusive et catégorique au concept. Tout comme les web services n’étaient pas la SOA, le Big data n’est pas Hadoop*, même si Hadoop est la valeur sure d’un marché en plein essor et encore peu lisible. Certes, l’envolée du Big data doit beaucoup à l’« accessibilité » d’Hadoop et du noSQL. Mais le coût et le ROI de ces solutions sont-ils à la hauteur des promesses ?
Acquisition, visualisation etc. Le Big data n’est pas que stockage et analyse de données. Il faut développer son gisement pour trouver la bonne information. L’information produite doit être comprise, retenue, travaillée et des techniques d’analyse visuelle sont aujourd’hui mises en avant. Enfin, pour les questions de fiabilité et de sécurité, des évidences en gestion des données, des solutions se positionnent.
Décision. Le Big data bouscule le décisionnel. Les cas d’usage Big data sont quasiment exclusivement analytiques. Les technologies dont nous parlions ne sont d’ailleurs pas construites pour supporter des processus transactionnels qui restent en périphérie de la « révolution » à la source des données.
Un Big data à ma sauce
Le Big data est une véritable problématique, soit littéralement un faisceau de questions. Si l’exercice de définition va se poursuivre, il serait salvateur de l’évacuer rapidement. Mieux vaut se concentrer sur les défis techniques et organisationnels du traitement des données et la recherche de nouveaux leviers de performance.
Forrester propose pour ce faire une approche pragmatique « Calculer son « Big Data score », qui vise à s’auto-évaluer sur sa capacité à stocker, traiter, requêter ses données selon chacune des 3 dimensions. Big data ne veut pas dire la même chose pour Google et pour moi. Il faut revenir à des enjeux réalistes : ai-je exploré les opportunités d’utilisation des données « à ma disposition » ? Suis-je capable de « passer à l’échelle » efficacement (délai, coût) si une opportunité se présente ?
Et, à quelle échelle : *10, *100, *1000 ? Que font mes concurrents ?
Alors : in or out ?
*Hadoop comme nombre de bases de données noSQL est distribué en open source. Le déploiement d’Hadoop n’exige pas d’infrastructure réseau et/ou serveurs haut de gamme.