Ces chiffres qu'il ne faut pas trop croire dans Google Analytics

Ces chiffres qu'il ne faut pas trop croire dans Google Analytics Il ne faut pas croire aveuglément tous les indicateurs remontés par Google Analytics. Si certains sont de plus en plus imprécis, d'autres ne sont carrément pas fiables. Voici pourquoi.

Les données remontées par Google Analytics ne sont pas toujours à 100% fiables. La précision de cette solution de mesure du trafic se heurte à certains obstacles dont il vaut mieux avoir conscience. Nous avons soumis quelques-unes des limites rencontrées à un ancien salarié de Google Analytics, Serge Descombes, aujourd'hui Senior Data Insights Manager au sein de l'agence fifty-five. Ce spécialiste a des parades pour certains problèmes, mais pas pour tous. De plus, la liste ci-dessous n'est pas exhaustive.

Des sources de trafic de plus en imprécises ?

Le problème du SSL. Les SEO s'en souviennent bien, mais finalement aussi tous ceux qui suivent avec attention le trafic issu du moteur de recherche de Google : il y a quelques années, Google a commencé à adopter le SSL, et à ne plus faire remonter dans Google Analytics les requêtes tapées dans son moteur à l'origine du trafic organique du site analysé. Des mots clés qui apparaissent désormais, tous, comme "not provided". Une information très utile a donc disparu, rendant Google Analytics moins précis. L'utilisation du SSL a aussi pu perturber l'analyse du trafic venant de Bing, et, il y a quelques temps de Safari sur iOS.

Le problème avec certaines apps mobiles. Plus récemment, c'est le trafic provenant des apps mobiles Twitter et Facebook qui pose problème. Ces apps utilisent désormais leur propre navigateur interne, ce qui a deux conséquences néfastes pour la précision de Google Analytics. D'une part, le visiteur unique ne peut pas être reconnu et donc correctement compté (c'est comme s'il surfait depuis un autre navigateur, il est donc compté deux fois au lieu d'une). D'autre part, alors qu'il s'agit bien de trafic issu de Twitter, ou de Facebook, la source apparaît dans Google Analytics comme "directe" (et le support comme "none"), ce qui n'est pas très précis. A noter que dans le cas de Twitter, le fait d'utiliser un raccourcisseur d'URL compliquait déjà la tâche, sur desktop (la source correspondant à Twitter est souvent "t.co" dans Google Analytics).

Attention : Google attribue souvent du trafic direct à un site référent

Le problème du trafic direct réattribué. S'ajoute aussi un autre problème, plus ancien, et lié à un choix technique que Google a fait (et qui n'est pas forcément celui des autres acteurs). Google a en effet choisi d'attribuer à un site référent du trafic direct. L'exemple est bien connu des spécialistes : si un internaute visite un site directement (en tapant son adresse par exemple) après l'avoir visité depuis les résultats de Google, alors Google Analytics comptera ces deux visites comme provenant toutes les deux des résultats de Google !

Google Analytics a fait ce choix pour toutes les visites directes qui peuvent être attribuées à une source connue (site référent, liens sponsorisé sur Bing, Adwords). Cela peut avoir pour effet de gonfler les visites provenant de Google. Tout cela vient d'un cookie qui est réglé par défaut pour durer 6 mois. "Il est toutefois possible de changer sa durée. Pour nos clients, nous le configurons souvent sur 30 jours", témoigne Serge Descombes. En outre, ajoute ce spécialiste, "le rapport sur les entonnoirs multicanaux peut aussi apporter plus de précision concernant les canaux suivis par l'internaute et les sources de trafic".

Visiteurs uniques et durée des sessions mal mesurés

La dépendance de Google Analytics aux cookies l'expose à d'autres problèmes, concernant surtout la mesure des nouveaux visiteurs. En effet, il suffit qu'un utilisateur efface ses cookies pour qu'il ne soit pas reconnu, et donc mal compté. De plus, ceux qui surfent en navigation privée le font sans cookie, ce qui peut, là aussi, causer du tort aux statistiques remontées par l'outil de Google. Enfin, les recommandations de la CNIL sont censées empêcher aux sites de déposer leurs cookies Google Analytics sans le consentement de l'internaute. Des phénomènes qui peuvent tous plus ou moins grandement influencer la précision des statistiques...

En revanche, il y a un phénomène auquel échappe Google Analytics : la popularité des principaux adblockers. L'outil de mesure de Google n'est en effet pas bloqué par Adblock et Adblock Plus, du moins par défaut.

La "Durée moyenne des sessions" est erronée

La durée de ses sessions mal estimée. Google Analytics, comme tous les autres outils de web analytics, ne sait pas quand l'internaute s'en va d'un site (le visiteur n'envoie pas de signal à ce moment). Dès lors, Google Analytics comptera souvent un temps de 0 seconde sur la dernière page visitée, et ne pourra donc pas afficher le temps qu'il a réellement passé sur le site. La "Durée moyenne des sessions" et le "Temps moyen passé sur la page" sont par conséquent erronés (lire à cette page à ce sujet).

Le problème de l'échantillonnage et les limites des comptes gratuits. La limite de 10 millions de hits enregistrés est certes théorique pour les comptes gratuits de Google Analytics, qui peuvent tout à fait en traiter beaucoup plus – Google ne les a jamais empêché d'aller plus loin. Mais ceux qui payent un compte Premium pourront avoir accès à des rapports non échantillonnés.

Quels seront les rapports échantillonnés pour les comptes gratuits, et dans quelle mesure perdent-ils en précision ? En fait, peu de rapports sont échantillonnés : les rapports "basiques" ne le sont pas. "L'échantillonnage intervient lorsque Google Analytics doit retraiter les données. C'est le cas avec la segmentation, ou lorsque l'utilisateur veut croiser deux dimensions, et ajouter une dimension secondaire", explique Serge Descombes. Or, "si le compte gratuit enregistre beaucoup de hits, ces rapports qui nécessitent un retraitement vont être très fortement échantillonnés, et devenir quasiment inexploitables".

Les problèmes de marquage. Enfin, c'est évident, mais les pages mal marquées peuvent aussi considérablement fausser les données remontées. Et même si plus le site est complexe et volumineux, plus il s'expose à des erreurs de marquage, les sites simples, de moindre envergure, peuvent aussi rater le taggage, qui reste une tâche délicate, souvent confiée à des spécialistes.

Serge Descombes, Senior Data Insights Manager chez fifty-five. © 55

Cet article n'a évoqué que Google Analytics, car c'est l'outil le plus implanté, et le mieux connu. Mais pourtant, la quasi-totalité des problèmes de précision et de fiabilité relevés ci-dessus affectent aussi les autres outils – même payants, comme AT Internet et Adobe pour n'en citer que deux.

Serge Descombes confirme que "ces outils partage un socle technique commun, mais peuvent aussi faire des choix différents sur des point précis". Ce consultant en est sûr, "installer les trois outils sur un même site ne fera pas remonter exactement les même données", cela ne servirait donc à rien si c'est dans le cadre d'une quête de "vérité" absolue. D'ailleurs, l'expert de fifty-five admet que la précision de ces outils de Web Analytics a des limites, mais selon lui, ces outils n'ont en fait pas vocation à fournir des données à 100% fiables, mais plutôt à "relever des tendances", et c'est comme cela qu'il faut les utiliser. D'ailleurs, argumente-t-il, les trois outils cités, s'ils sont installés sur un même site  "donneront les mêmes tendances".