Panorama des solutions de big data Principe de fonctionnement de MapReduce

MapReduce joue un rôle majeur dans le traitement des grandes quantités de données. La distribution des données au sein de nombreux serveurs permet le traitement parallélisé de plusieurs tâches portant chacune sur des morceaux de fichiers. La fonction Map accomplit une opération spécifique sur chaque élément. L'opération Reduce combine les éléments selon un algorithme particulier, et fournit le résultat. Soulignons que le principe de délégation peut être récursif : les nœuds à qui sont confiées des tâches peuvent aussi déléguer des opérations à d'autres nœuds.

figure 4.3. principe de fonctionnement de mapreduce
Figure 4.3. Principe de fonctionnement de MapReduce © Lavoisier

De très nombreuses entreprises utilisent Hadoop parmi lesquelles on peut citer Amazon, Adobe, AOL, Bing (Microsoft), Cornell University, eBay, Facebook, Fox Audience Network, Google, Hotels & Accomodation, IBM, Last FM, LinkedIn, Rakuten, Sling Media, Spotify, StumbleUpon, Telefonica Research, The New York Times, Twitter, Web Alliance, Yahoo.

On notera la forte présence de sociétés ayant une activité principale sur le web. Selon le cabinet IDC, le marché de Hadoop et MapReduce devrait croître de plus de 60% par an jusqu'en 2016. La pénurie de compétences et la concurrence des éditeurs propriétaires pourraient cependant freiner cette progression.