Big data et Cloud computing : le pari gagnant des offres BDaaS ?

Dès 2009, avant même l’emballement médiatique autour du Big data, les fournisseurs Cloud lancent les premières offres [1] Big Data as a Service (BDaaS). On voit ainsi émerger des solutions combinant les frameworks de création d’applications distribuées avec ceux du Cloud, à l’image d’EMR lancée à cette époque par Amazon. Quel est l’état de l’offre aujourd’hui ? Le Cloud change-t-il réellement la donne de votre stratégie Big data ? Voici notre conviction.

Le marché BDaaS en pleine expansion

Le terme BDaaS désigne les services d’analyse de mégadonnées utilisant l’hébergement Cloud. Il couvre l’ensemble des offres Cloud computing traditionnelles : IaaS, PaaS, SaaS.

  • D’un côté, on retrouve les offres IaaS dédiées Big data: mise à disposition de serveurs optimisés pour Hadoop essentiellement (OVH, IBM Softlayer, Microsoft Azure …).
  • De l’autre, les offres PaaS Big data: plateformes permettant aux utilisateurs de déployer des applications distribuées et qui s’appuient nécessairement sur un stockage Cloud constituant parfois une offre à part entière : ainsi, Azure HDInsight utilise BLOB Storage et Amazon EMR, S3.
  • Enfin, il y a les offres SaaS Big data de deux 2 types :
    • celles permettant l’analyse et la data visualisation (Tibco, Splunk, Altiscale, Datameer) de grandes quantités de données en s’appuyant sur des moteurs d’exécution distribués,
    • celles répondant à des besoins métiers d’extraction d’information de gros volumes de données (ex. : offre d’eReputation s’appuyant sur l’analyse sémantique de réseaux sociaux pré-connectés comme twitter).

Au sein de ce marché pluriel, le modèle PaaS Big data s’impose comme la catégorie de solutions la plus en vue aujourd’hui. On y retrouve notamment EMR d’Amazon, Big Query de Google, ou encore HDInsight de Microsoft, tous les trois déjà bien matures. Par ailleurs, d’autres fournisseurs projettent de commercialiser des offres BDaaS en 2015. C’est le cas de Numergy et Oracle. Enfin, des start-ups se positionnent aussi sur le marché, à l’image de Qubole.

 

Panorama du marché BDaaS – copyright Solucom

PaaS Big data versus plateformes on premise

Le PaaS Big data offre des avantages significatifs parmi lesquels on retrouve :

  • La mise à disposition immédiate de ressources et le paiement à l’usage sans investissement initial : ce duo gagnant permet de se soustraire à des dépenses d’investissement particulièrement élevées pour un projet Big data et il simplifie le set up et la montée en charge des architectures Big data. Nul besoin de planifier l’allocation de capacité, le time-to-delivery est ici minime.
  • Une complexité réduite : les architectures PaaS sont créées en quelques clics par paramétrage. Un réel avantage pour le Big data qui utilise des technologies distribuées nouvelles et complexes.

Néanmoins, l’adoption du BDaaS pose la question de la sécurité, en particulier de la confidentialité des données : d’après une enquête menée en 2014 par PAC CloudIndex[2], près de 50% des entreprises sollicitées affirment avoir des craintes quant à la sécurité des données stockées dans le Cloud. Toutefois, il est important de souligner que ces risques ne sont pas nécessairement plus élevés que sur des infrastructures on-premise. Il convient donc de s’assurer que les fournisseurs cloud utilisent des services garantissant la confidentialité et l’intégrité des données (chiffrement des données stockées et des flux, mécanisme d’authentification forte…). Par ailleurs, plusieurs certifications garantissent la mise en place de bonnes pratiques de sécurité par les offreurs Cloud (ISO27001, CSA STAR, SSAE 16…).

 

C’est ce qui pousse la plupart des entreprises à choisir un déploiement hybride combinant les ressources d’un Cloud public et d’un Cloud privé.

Les principaux cas d’usage du BDaaS

3 cas d’usage sont moteurs dans l’adoption du BDaaS :

  • Le POC (Proof Of Concept) : le Big data poursuit son émergence, les entreprises continuent les expérimentations. Il n’est pas toujours évident d’une part de dimensionner son infrastructure et d’autre part  de parier sur l’atteinte des objectifs. Le Cloud permet de se lancer sans engagement.
  • La gestion de pics de charge : l’entreprise utilise des clusters temporaires pour des besoins ponctuels et les détruit ou éteint lorsque le pic de charge est passé (un traitement sur des milliers de nœuds pour valider une hypothèse par exemple). Mais l’immédiateté a ses limites : le traitement s’exécute sur des volumes de données qu’il faut évidemment provisionner.
  • Le Plan de reprise d’activité (PRA) : l’entreprise synchronise les données de la production vers une plateforme Cloud public prête à démarrer à tout moment en cas de problèmes. Ce qui lui évite un nouvel investissement pour sa plateforme de PRA.

Le BDaaS apparaît ainsi comme un moyen de se lancer dans l’analyse des mégadonnées plus rapidement, à moindre coût pour des usages ponctuels et avec plus de flexibilité.  Il lève les freins inhérents aux projets Big data que sont par exemple un retour sur investissement incertain et la complexité des nouvelles architectures. Reste le sujet de la confidentialité des données dans le Cloud qui peut être mis sous contrôle par le biais d’une analyse de risque. 

 

[1] L’offre EMR a été créée en 2009, Big Query en 2012, HDInsight en 2012.

[2] Source : http://www.cloudindex.fr/sites/default/files/PAC%20CloudIndex%20-%20Analyse%20juin%202014.pdf

 

Back to top