Big Time Series, le futur du Big Data ?

Alors que le sujet du Big Data n'a pas encore pénétré toutes les strates du marché, on peut d'ores et déjà évoquer une partie de son futur, que certains appellent big time series.

Le temps (time) est la dimension qui impacte le plus la volumétrie. A l’horizon 2020, outre les 4 milliards d’humains connectés, ce seront plus de 20 milliards d’objets qui mesureront des dizaines d’indicateurs, à une fréquence réduite générant ainsi des milliards de séries temporelles.

Le temporel, un défi majeur pour tous

EDF ou Orange, pour ne citer qu'elles, ne s'y sont pas trompées, puisqu'elles estiment que le sujet «temporel» est un défi majeur en termes de recherche tant pour analyser des causalités sur le long terme que pour traiter en temps réel des informations précises sur un large flux de données.

Alors que la dimension temporelle est particulièrement présente, le Big Data traite mal les séries temporelles. En effet, il rassemble de nombreuses techniques d’analyse de données multidimensionnelles (algèbre, statistiques, mathématiques appliquées) dont les enjeux sont d’étudier les relations entre les variables et les individus (représenté sous une forme de matrice) et d’en déduire des modèles, permettant d’estimer ou de prédire des valeurs.

Détecter puis modéliser les répétitions dans le temps

L’étude des séries temporelles, développée en Econométrie et dans les sciences de l’ingénieur (traitement du signal), traite généralement d’une seule et unique série dont on va caractériser les principales composantes (tendance, saison, cycle…) et étudier les autocorrélations (corrélation de la série avec elle-même), pour détecter des répétitions et ainsi modéliser, souvent pour prédire. La production massive de séries temporelles ne permet pas de les étudier individuellement et nécessite de passer par des méthodes d’analyse de données. Chaque série temporelles est alors la «réalisation» d’une mesure sur une période donnée décrivant des «individus» en général plus complexes (des maisons, des trajets…) qu’on doit faire rentrer dans le cycle classique d’un projet data qui au-delà des aspects techniques de stockage va se concentrer sur le contrôle, l’exploration et la modélisation.

De plus en plus de centres de recherches académiques ou industriels traitent de ce sujet en cherchant à faire converger les deux approches (série temporelle et analyse de données). Une grande part de ces travaux concerne l’analyse exploratoire. Plusieurs laboratoires développent actuellement des méthodes permettant de visualiser de très nombreuses séries temporelles ou de les classer.

Ces méthodes adaptent souvent des techniques classiques à ce nouveau type de données. La classification par exemple permet de trouver des comportements homogènes au sein de milliers de courbes et ainsi d’identifier les quelques séries temporelles « types » sur lesquelles développer des modèles adéquats. Des techniques d’analyse vont chercher aussi à identifier la corrélation d’une série de mesure (température par exemple) sur une autre série de mesures (humidité par exemple) avec un décalage temporel.

Stockage / Orange