Home »  Technologie » Big Data » Spark vs Hadoop : ce qu’il faut savoir

Spark vs Hadoop : ce qu’il faut savoir

Tech Page One

En matière de big data, les deux solutions de référence se nomment Hadoop et Spark. Mais comment savoir vers quelle plateforme s’orienter ?

Spark vs Hadoop : ce qu’il faut savoir

Qui dit big data, dit Hadoop. Dès lors qu’on parle de traitement de grands volumes de données, la plateforme open source fait figure d’incontournable. Mais un autre acteur vient jouer les trouble-fêtes. La technologie Spark, s’avance sur le devant de la scène avec la ferme intention de s’imposer comme le framework de référence du big data. Quels sont leurs spécificités et l’une est-elle véritablement meilleure que l’autre ?

La question n’est pas simple à trancher dans la mesure où elles n’ont pas été conçues pour réaliser les mêmes tâches.

Stockage distribué

Hadoop est composé d’un système de stockage distribué, HDFS (Hadoop Distributed File System), et d’un outil de traitement, Map Reduce. Un des inconvénients de Spark est qu’il ne dispose pas de son propre système de stockage distribué. Un manque qui oblige à déployer un système supplémentaire quand Hadoop lui, utilise HDFS pour traiter nativement des pétaoctets de données sur des disques durs standards répartis dans un cluster.

Vitesse de traitement

D’un autre côté, Spark gère le traitement temps-réel et les algorithmes de machine learning bien mieux que ne peux le faire Hadoop. Pour les applications dont les entreprises souhaitent traiter les données sans délai, Spark présente un avantage considérable. En effet, ce dernier va être capable de traiter l’ensemble des données en mémoire en une seule fois, quand Hadoop procède de son côté en mode batch (traitement par lots), via Map Reduce. Il va donc analyser étape par étape les volumes de données, ce qui peut générer des temps de traitement plusieurs dizaines de fois plus longs.

“La destinée de Spark ne serait pas de supplanter Hadoop,
mais plutôt de remplacer Map Reduce.”

Structurée vs non-structurée

Tout est donc une question d’usage. L’entreprise moderne réclame des informations toujours plus précises pour définir sa stratégie. Et elle les veut rapidement et à moindre coûts. Pour une entreprise qui manipule de larges jeux de données structurées dans des bases SQL, Hadoop serait probablement un choix judicieux. En revanche, si elle souhaite analyser les médias sociaux, des fichiers vidéo ou tout autre type de données non structurées, Spark pourrait s’avérer une solution plus efficace.

Plutôt complémentaires que concurrentes

Les deux plateformes ne peuvent être réellement considérées comme des concurrentes, puisqu’en tant que plateforme open source, elles ne sont soumises à aucune forme de pression commerciale. Mais surtout parce que la meilleure façon de les utiliser est sûrement de les associer. Pour Matt Cutting, un des co-créateurs d’Hadoop, la destinée de Spark ne serait pas de supplanter Hadoop, mais plutôt de remplacer Map Reduce, l’outil de traitement par lot. Un scénario dans lequel Spark et Hadoop fonctionnerait donc de concert, l’un gérant le stockage distribué, l’autre le traitement. Un duo gagnant.

 

Max Cooter

Max Cooter

Max est un journaliste indépendant qui s’intéresse à une grande variété de sujets liés à l’informatique. Il a été le rédacteur en chef et le fondateur de Cloud Pro, l'une des premières publications dédiées au cloud. Il a également fondé et écrivait pour Techworld d'IDG après avoir été le rédacteur en chef de Network Week. En tant que journaliste pigiste, il travaillait pour IDG direct, SC Magazine, Computer Weekly, Computer Reseller News, Internet magazine, PC Business World et bien d'autres. Il a également participé à de nombreuses conférences et a été commentateur de la BBC, ITN et de la version online de la chaîne CNBC.

Derniers articles:

 

Tags: Big Data,  Technologie