Referral Spam : Le spam des sites référents dans Google Analytics
Referral Spam : Le spam des sites référents dans Google Analytics
Le referral spam (en anglais) se présente comme un backlink apportant du trafic (nouveaux visiteurs) à votre site, sauf qu’il n’en est rien. Ce sont des faux visiteurs qui faussent les statistiques dans Google Analytics, un phénomène en recrudescence depuis quelques mois et qui agace ! En réalité, il s’agit de robots indésirables qui proviennent principalement de Russie et d’Asie, simulant des sessions imaginaires en laissant une empreinte numérique dans Google Analytics.
L’objectif de ces spammeurs : l’argent ! Le principe est de vous inciter à cliquer sur un de ces liens, qui vous dirigera vers un site d’affiliation. Votre clic rapportera de l’argent au spammeur.
J’ai passé du temps à faire le tour de certains blogs français et étrangers pour en savoir plus sur le spam des sites référents, et comment l’éradiquer efficacement de mes analyses. Je détaille dans cet article, les solutions que j’ai testé et qui vous permettrons de retrouver des analyses propres et cohérentes.
Ghost Referral Spam et Crawler Referral Spam : Comment se débarrasser de ces intrus qui polluent et faussent les statistiques de notre site Web
On en dénombre 2 types :
Le Crawler referral spam
Les référents spam crawler sont des robots qui simulent une visite sur votre site Web et l’indexation de son contenu. Cependant, les moteurs de recherche les identifient comme des serveurs web classiques et enregistrent leur passage comme un quelconque visiteur. Ils figurent donc naturellement dans les logs de votre hébergeur et dans les rapports d’analyses, mais avec un taux de rebond de 100% et une durée de session à 0 seconde.
Le Ghost referral Spam
Les référents spam fantômes, contrairement au crawler referral spam, ne visitent pas votre site, mais exploitent les failles de Google Analytics, via des requêtes http. Ils simulent également du trafic (souvent important), mais toujours avec un taux de rebond de 100% (ou proche) et une durée de session à 0 seconde (ou proche). C’est le spam le plus courant et il en existe de plus en plus, un vrai fléau !
Vos statistiques sont complètement faussées par ce nombre important de faux visiteurs, et cela commence à devenir grave car le referral spam crawler falsifie également les résultats du trafic organique.
Sites référents Google Analytics : Reconnaître le Spam
Si vous constatez dans Google Analytics des pics de sessions soudainement élevés, ne vous réjouissez pas trop tôt de l’intérêt des internautes pour votre site Web. Pensez à contrôler préalablement la raison de ce soudain engouement ! Il y a de fortes probabilités pour qu’une majorité de ces sessions proviennent des sites référents spam, et non pas de vos véritables backlinks, de votre référencement organique ou de vos liens sponsorisés.
Pour vérifier, allez dans votre compte Google Analytics, onglet « Rapport », dans le menu gauche ouvrez le menu « Acquisition » => « Tout le trafic » => « Sites référents« . Si vous avez une liste de noms de domaine qui vous sont inconnus et qui enregistrent des sessions plus ou moins importantes, incluant un taux de rebond égal ou très proche de 100%, et une durée de session égale ou très proche de 0 secondes, c’est du SPAM à 99,9% !
Je vous invite à consulter à la fin de cet article, la liste des sites reconnus comme du refferal spam.
Vérifiez également le nom d’hôte. Dans la majorité des cas, le spam référent fantôme (Ghost referral spam) affichera (no set) ou un nom d’hôte inconnu. Ce qui n’est pas le cas du spam crawler qui simule une visite sur votre site en utilisant votre propre nom de domaine. Le meilleur moyen de repérer ces derniers sera de vérifier leur présence dans les logs de votre hébergeur.
Dans le doute, je vous invite à consulter ou télécharger à la fin de cet article, la liste des sites qui sont reconnus comme étant du référent spam.
Supprimer le spam des sites référents
Google est bien évidemment conscient de ce problème et a mis en place l’option « Filtrage des robots« . Il faut absolument cocher cette option puisqu’elle permet de supprimer une partie de ces robots spammeurs. Malheureusement, ça ne suffit pas ! Google n’a pas encore trouvé la parade devant l’évolution incessante de ce type de spam.
Cette option figure dans l’onglet « Admin », « Paramètres de la vue », en bas de page.
Création de filtres pour bloquer les sites référents Spam dans Google Analytics
Dans l’attente que notre ami « le moteur de recherche » trouve une solution radicale à ce problème, j’ai testé plusieurs solutions. J’ai retenu celles qui me semblent les plus efficaces, pour filtrer le spam des sites référents dans Google Analytics.
Attention ! En passant directement par l’option de création d’un filtre dans les paramètres de vue, sachez que celui-ci ne sera effectif qu’à partir de la date de sa création. Ce qui veut dire, que vos statistiques antérieures à cette date ne seront pas prises en compte par le filtre et demeureront faussées, mais rien de grave ! Nous avons la possibilité de contourner ce problème en utilisant préalablement la fonction « Segment » dans Google Analytics.
En effet, cette fonction a l’avantage de filtrer vos données actuelles, mais également antérieures pour obtenir un rapport juste et cohérent. Par ailleurs, vous allez pouvoir tester l’efficacité des filtres que nous allons créer, avant de les appliquer définitivement sur vos paramètres de vue.
A retenir ! La création d’un filtre dans Google Analytics par le nom d’hôte ne suffit pas à éliminer la totalité du crawler referrer spam. Il faut créer un filtre supplémentaire et utiliser les expressions régulières. Autre solution, l’insertion d’un code spécifique à chaque spammeur dans le fichier htaccess. Toutes ces solutions sont détaillées dans cet article.
Filtre contre le referral spam avec l’option « Segment » de Google Analytics
Le filtre suivant va faire disparaître de vos statistiques d’audience, la grande majorité du Referral Spam.
J’explique, plus haut dans cet article, que le Ghost referral spam affiche un nom d’hôte de type (no set) ou un faux nom. De ce fait, nous allons utiliser une règle de filtrage qui va permettre de bloquer tous les sites référents utilisant un nom d’hôte différent du votre.
Pour procéder : Onglet « Admin « => « Segments », cliquez sur « Nouveau Segment ».
- Nommez le Segment, exemple : « Filtre Spam »
- Dans le menu de gauche, « Avancé « , cliquez sur onglet « Conditions »
- Sélectionnez « Nom d’hôte »
- Sélectionnez « Inclure »
- Sélectionnez « contient »
- Indiquez « votre nom de domaine »
- Enregistrez
Pour mettre en application le filtre :
Allez dans l’onglet « Rapports » et cliquez sur « Ajouter un segment ».
Sélectionnez le segment que vous avez créé et cliquez sur « Appliquer ». Vous pouvez décider de conserver l’option par défaut « Toutes les sessions », ce qui vous permettra de comparer les résultats avec le filtre et sans le filtre. Si vous souhaitez obtenir uniquement les résultats filtrés, décochez « Toutes les sessions ».
Comparez les résultats. Dans l’exemple ci-après, vous noterez que les écarts peuvent être très importants.
Comparatif des résultats obtenus avec le filtre et sans le filtre
Vérifiez à présent si le trafic en provenance du referral spam a été supprimé. Dans le menu de gauche, cliquez sur « Acquisition » => » Tout le trafic » => « Sites référents ». Vous devriez obtenir le résultat comme dans l’image ci-après.
Le referrer spam fantôme est supprimé et vos analyses sont devenues propres. Cependant, certains sont coriaces et peuvent figurer encore dans vos analyses, c’est souvent le cas pour le crawler referral spam. Dans ce cas, il faut éradiquer ces derniers, en utilisant soit les expressions régulières dans un nouveau filtre ou/et l’insertion de codes dans le fichier htaccess de votre site web.
Filtre en utilisant les expressions régulières
Dans l’exemple ci-après, je souhaite supprimer de mes analyses les sites malveillants suivants :
- Extension (.com) : darodar, priceg, semalt, boutons-pour-site, makemoneyonline, blackhatworth, hulfingtonpost, sites-avis, share-boutons sociaux,share-boutons simples
- Extensions (.Co, .com, .ru) : ilovevitaly, économ
- Extensions (.org): humanorightswatch, 4webmasters.
Pour procéder : Onglet « Admin « => « Segments », cliquez sur « Nouveau Segment ».
- Nommez le nouveau segment, exemple : « Filtre Spam 2 »
- Dans le menu de gauche, « Avancé « , cliquez sur onglet « Conditions »
- Dans menus déroulants, Sélectionnez « Filtre Sessions » et « Exclure »
- Sélectionnez « Source/support »
- Sélectionnez « Correspond à l’expression régulière »
- Insérez par Copier/Coller, l’expression régulière figurant après l’image suivante.
- Enregistrez
Expression régulière :
.*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|websites\-reviews|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*
Bien évidement, il conviendra de remplacer les sites ci-dessus par ceux qui figurent réellement dans vos analyses. Vous pouvez également conserver dans l’expression, certains de ces sites à titre préventif. Si vous modifiez l’expression, je vous recommande de vérifier sa validité avec ce testeur d’expressions régulières.
Attention ! Les expressions régulières sont limitées à 255 caractères. Le nombre de referral spam étant en constante progression, il est possible qu’un seul filtre ne suffise pas à bloquer tous les spammeurs. Dans ce cas, il faudra ajouter dans le filtre supplémentaire une nouvelle expression régulière. Procédez comme dans l’image ci-après :
Ajout nouvelle expression régulière (modifier selon vos besoins) :
.*((theguardlan|inbox|googlsucks|Get-Free-Traffic-Now|event-tracking|free-share-buttons|free-social-buttons)\.com)|((buy-cheap-online|torture|domination)(\.info|\.ml))|((guardlink|smailik|trafficmonetize)\.org).*
Filtre avec modification du fichier htaccess
Si vous n’avez pas les connaissances adéquates pour manipuler votre fichier htaccess, je vous déconseille ce tutoriel, car la moindre petite erreur dans la modification du fichier, peut planter votre site. Pensez à faire une sauvegarde de votre base de données avant de manipuler ce fichier. Personnellement, je n’ai pas eu besoin jusqu’à présent, de modifier le htaccess de mon site ou ceux de mes clients, pour obtenir des analyses sans spam. Les filtres sur le « nom d’hôte et les « expressions régulières » suffisent.
Néanmoins, il semblerait que le blocage du referral spam par le fichier htaccess , plus l’ajout de filtres dans Google Analytics, soit la solution optimale.
Procédure valable sur un serveur Apache :
Editez votre fichier htaccess et insérez les lignes de codes ci-dessous, que vous aurez préalablement modifier, en l’adaptant aux véritables pollueurs de votre site. Au même titre que les filtres dans GA, si un site spammeur de cette liste ne figure pas dans vos analyses, vous pouvez insérer ces codes à titre préventif. Vous pouvez utiliser la liste des sites reconnues comme spam, au bas de cet article.
RewriteEngine on RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*semalt\.com [NC,OR] RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Darodar\.com [NC,OR] RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Priceg\.com [NC,OR] RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*7makemoneyonline\.com [NC,OR] RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Buttons-for-website\.com [NC,OR] RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Ilovevitaly\.com [NC,OR] RewriteRule .* - [F]
Filtre contre le referral spam avec l’option « Filtres » de Google Analytics
Après avoir tester vos filtres par l’option « Segment », vous pouvez à présent créer et appliquer ce filtre définitivement à vos statistiques de Google Analytics en passant par l’option « Filtres ».
Je recommande de faire une copie de la vue actuelle et de la renommer par exemple : » Vue avec filtre SPAM », afin de créer le ou les filtres sur cette nouvelle vue. C’est une précaution à prendre, en cas d’erreur sur un filtre, vous aurez toujours la possibilité de récupérer toutes vos données antérieures sur la vue initiale.
Pour procéder, allez dans l’onglet « Admin », sélectionnez « Paramètre de la vue » et cliquez sur « copier la vue ». Appliquer un nom à la nouvelle vue et en bas de la page, vérifiez que l’option « Exclure les appels des Fichier Robots connus » est cochée, puis enregistrez.
Création d’un filtre avec les expressions régulières :
Dans la « nouvelle vue », cliquez dans le menu « Filtres » => « Ajouter un Filtre ». Suivez les étapes comme indiquer sur l’image ci-après.
Règle de filtrage avec expressions régulières
Insérez l’expression régulière identique à celle que l’on a utilisé plus haut dans cet article dans l’option « Segment ». Pour appliquer une expression régulière supplémentaire, vous devez créer et nommer un nouveau filtre, exemple : « Antispam-2 ». Le ou les filtres seront effectifs sur les données recueillies par Google Analytics, à compter de la date de mise en place.
Création d’un filtre avec le nom d’hôte :
Dans la « nouvelle vue », cliquez dans le menu « Filtres » => « Ajouter un Filtre ». Suivez les étapes comme indiquer sur l’image ci-après.
Règle de filtrage avec le nom d’hôte
Liste Noire du Referral Spam
Cette liste non-exhaustive vous aidera en cas de doute, à repérer facilement le referral spam. Soyez sympa ! A travers vos commentaires, participez à sa mise à jour régulière, dans l’intérêt de tous nos amis internautes qui désirent conserver des statistiques propres.
Google Analytics liste des sites référérents spam-AWM82 (PDF – Mise à jour le 23 décembre 2015)