Open source et data visualisation : pourquoi "R" attire de plus en plus

Open source et data visualisation avec R Suite open source dédiée aux statistiques, "R" est aussi riche de fonctionnalités graphiques. L'explosion des données et le besoin de les mettre en forme ont dopé sa popularité.

Comme le résume très bien le site officiel dédié au projet, R est une suite logicielle dédiée à la manipulation de données, aux calculs statistiques et à leur présentation graphique. C'est aussi un langage de programmation. Gratuit et open source, il peut être largement et facilement enrichi grâce à des extensions, appelées les "packages".

En conséquence, "le logiciel R vous permettra de réaliser beaucoup de choses. Vous pourrez créer des graphiques de grande qualité (ou du moins leurs prémisses). Si vous le désirez, vous pourrez écrire vos propres fonctions et packages pour personnaliser les graphiques, ou utiliser ceux créés par d'autres et mis à disposition dans la bibliothèque R", explique le spécialiste Nathan Yau dans son livre, Data visualisation, paru chez Eyrolles il y a quelques mois. Un ouvrage de référence en matière de visualisation de données qui accordait justement une très large place à la prise en main de R, dont il dévoilait aussi tout le grand potentiel.

Un outil taillé pour de nombreux usages

nytimes et r
Frise interactive publiée sur le site du New York Times et réalisée en partie grâce à R. © Nytimes.com

Aidée par sa richesse et sa gratuité, la popularité de R a tout simplement explosé ces dernières années. Le potentiel et la pertinence de R ont même pu être largement vu du grand public, au moins outre-Atlantique, car R a été le socle utilisé par la brillante équipe de data visualisation du New York Times. Un groupe qui s'est fait remarquer pour son travail graphique avec de spectaculaires et innovantes frises interactives (voir aussi ci-dessus).  

Autres exemples d'usage révélant le potentiel de l'outil : son utilisation dans le web analytics, en tirant parti des API de Google Analytics ou Adobe Analytics.

Aujourd'hui, R est même tout simplement devenu l'un des outils les plus utilisés dans sa catégorie, en se hissant en tête (devant Excel) des sondages annuels réalisés par le site KDnuggets, spécialisé dans l'analytics et le datamining. Des entreprises de tout premier plan comme Google, Pfizer, Merck, Bank of America, ou Shell l'ont déployé. Et ses utilisateurs se comptent désormais en millions selon les spécialistes. De grands acteurs de l'informatique, comme Oracle, IBM, SAS ou Tibco ont d'ailleurs bien vu ce marché, et ont une ou plusieurs offres (connexions ou intégrations) dédiées à R.

Explosion des données, et du besoin de les analyser et de les visualiser

Le Big Data, et la volonté d'analyser les données numériques dont le volume a explosé, expliquent aussi, bien entendu, le succès de R. "L'utilisation de R continue de croître, tout comme le nombre et la diversité des packages qui permettent d'utiliser R avec de nombreuses sources de données et techniques d'analyse. Dans le même temps, les statistiques constituent actuellement un domaine très 'chaud', notamment à cause de l'émergence des data scientists et du Big data. Ces phénomènes ont évidemment stimulé l'intérêt pour R et son utilisation dans le cadre d'applications nécessitant de gros volumes de données ou de grandes capacités de calcul", a ainsi pu confirmer John M. Chambers, qui gère le projet R, lors de la 10e conférence annuelle des utilisateurs de R, useR!, qui s'est tenue en juin dernier à Los Angeles.

"Certes", a aussi admis Nathan Yau dans son ouvrage Data visualisation, "il existe d'autres solutions payantes, comme S-plus et SAS, mais il est difficile de rivaliser avec la gratuité et la communauté de développement active de R."

Big Data / Open source