Referral Spam : Le spam des sites référents dans Google Analytics

par | 9 Juin, 2015 | Référencement Internet | 4 commentaires

Le referral spam (en anglais) se présente comme un backlink apportant du trafic (nouveaux visiteurs) à votre site, sauf qu’il n’en est rien. Ce sont des faux visiteurs qui faussent les statistiques dans Google Analytics, un phénomène en recrudescence depuis quelques mois et qui agace ! En réalité, il s’agit de robots indésirables qui proviennent principalement de Russie et d’Asie, simulant des sessions imaginaires en laissant une empreinte numérique dans Google Analytics.

L’objectif de ces spammeurs : l’argent ! Le principe est de vous inciter à cliquer sur un de ces liens, qui vous dirigera vers un site d’affiliation. Votre clic rapportera de l’argent au spammeur.

J’ai passé du temps à faire le tour de certains blogs français et étrangers pour en savoir plus sur le spam des sites référents, et comment l’éradiquer efficacement de mes analyses. Je détaille dans cet article, les solutions que j’ai testé et qui vous permettrons de retrouver des analyses propres et cohérentes.

Ghost Referral Spam et Crawler Referral Spam : Comment se débarrasser de ces intrus qui polluent et faussent les statistiques de notre site Web

On en dénombre 2 types :

Le Crawler referral spam

Les référents spam crawler sont des robots qui simulent une visite sur votre site Web et l’indexation de son contenu. Cependant, les moteurs de recherche les identifient comme des serveurs web classiques et enregistrent leur passage comme un quelconque visiteur. Ils figurent donc naturellement dans les logs de votre hébergeur et dans les rapports d’analyses, mais avec un taux de rebond de 100% et une durée de session à 0 seconde.

Le Ghost referral Spam

Les référents spam fantômes, contrairement au crawler referral spam, ne visitent pas votre site, mais exploitent les failles de Google Analytics, via des requêtes http. Ils simulent également du trafic (souvent important), mais toujours avec un taux de rebond de 100% (ou proche) et une durée de session à 0 seconde (ou proche). C’est le spam le plus courant et il en existe de plus en plus, un vrai fléau !

Vos statistiques sont complètement faussées par ce nombre important de faux visiteurs, et cela commence à devenir grave car le referral spam crawler falsifie également les résultats du trafic organique.

Sites référents Google Analytics : Reconnaître le Spam

Si vous constatez dans Google Analytics des pics de sessions soudainement élevés, ne vous réjouissez pas trop tôt de l’intérêt des internautes pour votre site Web. Pensez à contrôler préalablement la raison de ce soudain engouement ! Il y a de fortes probabilités pour qu’une majorité de ces sessions proviennent des sites référents spam, et non pas de vos véritables backlinks, de votre référencement organique ou de vos liens sponsorisés.

Pour vérifier, allez dans votre compte Google Analytics, onglet « Rapport », dans le menu gauche ouvrez le menu « Acquisition » => « Tout le trafic » =>  « Sites référents« . Si vous avez une liste de noms de domaine qui vous sont inconnus et qui enregistrent des sessions plus ou moins importantes, incluant un taux de rebond égal ou très proche de 100%, et une durée de session égale ou très proche de 0 secondes, c’est du SPAM à 99,9% !

Je vous invite à consulter à la fin de cet article,  la liste des sites reconnus comme du refferal spam.

Le spam des sites référents dans Google Analytics

Vérifiez également le nom d’hôte. Dans la majorité des cas, le spam référent fantôme (Ghost referral spam) affichera (no set) ou un nom d’hôte inconnu. Ce qui n’est pas le cas du spam crawler qui simule une visite sur votre site en utilisant votre propre nom de domaine. Le meilleur moyen de repérer ces derniers sera de vérifier leur présence dans les logs de votre hébergeur.

Reconnaître le referral spam dans Google Analytcs - AWM82

Dans le doute, je vous invite à consulter ou télécharger à la fin de cet article,  la liste des sites qui sont reconnus comme étant du référent spam.

Supprimer le spam des sites référents

Google est bien évidemment conscient de ce problème et a mis en place l’option « Filtrage des robots« . Il faut absolument cocher cette option puisqu’elle permet de supprimer une partie de ces robots spammeurs. Malheureusement, ça ne suffit pas ! Google n’a pas encore trouvé la parade devant l’évolution incessante de ce type de spam.

Cette option figure dans l’onglet « Admin », « Paramètres de la vue », en bas de page.

Filtrage des robots dans Google Analytics

Création de filtres pour bloquer les sites référents Spam dans Google Analytics

Dans l’attente que notre ami « le moteur de recherche » trouve une solution radicale à ce problème, j’ai testé plusieurs solutions. J’ai retenu celles qui me semblent les plus efficaces, pour filtrer le spam des sites référents dans Google Analytics.

Attention ! En passant directement par l’option de création d’un filtre dans les paramètres de vue, sachez que celui-ci ne sera effectif qu’à partir de la date de sa création. Ce qui veut dire, que vos statistiques antérieures à cette date ne seront pas prises en compte par le filtre et demeureront faussées, mais rien de grave ! Nous avons la possibilité de contourner ce problème en utilisant préalablement la fonction « Segment » dans Google Analytics.

En effet, cette fonction a l’avantage de filtrer vos données actuelles, mais également antérieures pour obtenir un rapport juste et cohérent. Par ailleurs, vous allez pouvoir tester l’efficacité des filtres que nous allons créer, avant de les appliquer définitivement sur vos paramètres de vue.

A retenir ! La création d’un filtre dans Google Analytics par le nom d’hôte ne suffit pas à éliminer la totalité du crawler referrer spam. Il faut créer un filtre supplémentaire et utiliser les expressions régulières. Autre solution, l’insertion d’un code spécifique à chaque spammeur dans le fichier htaccess.  Toutes ces solutions sont détaillées dans cet article.

Filtre contre le referral spam avec l’option « Segment » de Google Analytics

Le filtre suivant va faire disparaître de vos statistiques d’audience, la grande majorité du Referral Spam.

J’explique, plus haut dans cet article, que le Ghost referral spam affiche un nom d’hôte de type (no set) ou un faux nom. De ce fait, nous allons utiliser une règle de filtrage qui va permettre de bloquer tous les sites référents utilisant un nom d’hôte différent du votre.

Pour procéder : Onglet « Admin « => « Segments », cliquez sur « Nouveau Segment ».

  1. Nommez le Segment, exemple : « Filtre Spam »
  2. Dans le menu de gauche, « Avancé « , cliquez sur onglet « Conditions »
  3. Sélectionnez « Nom d’hôte »
  4. Sélectionnez « Inclure »
  5. Sélectionnez « contient »
  6. Indiquez « votre nom de domaine »
  7. Enregistrez

Filtre Google Analytics contre le spam référent - AWM82

Pour mettre en application le filtre :

Allez dans l’onglet « Rapports » et cliquez sur « Ajouter un segment ».

Sélectionnez le segment que vous avez créé et cliquez sur « Appliquer ». Vous pouvez décider de conserver l’option par défaut « Toutes les sessions », ce qui vous permettra de comparer les résultats avec le filtre et sans le filtre. Si vous souhaitez obtenir uniquement les résultats filtrés, décochez « Toutes les sessions ».

Filtre Google Analytics, section segment - AWM82

Comparez les résultats. Dans l’exemple ci-après, vous noterez que les écarts peuvent être très importants.

Comparatif des résultats obtenus avec le filtre et sans le filtre

Vérifiez à présent si le trafic en provenance du referral spam a été supprimé. Dans le menu de gauche, cliquez sur « Acquisition » =>  » Tout le trafic » => « Sites référents ». Vous devriez obtenir le résultat comme dans l’image ci-après.

Le résultat après application du segment contre le refferal-spam - AWM82

Le referrer spam fantôme est supprimé et vos analyses sont devenues propres. Cependant, certains sont coriaces et peuvent figurer encore dans vos analyses, c’est souvent le cas pour le crawler referral spam. Dans ce cas, il faut éradiquer ces derniers, en utilisant soit les expressions régulières dans un nouveau filtre ou/et l’insertion de codes dans le fichier htaccess de votre site web.

Filtre en utilisant les expressions régulières

Dans l’exemple ci-après, je souhaite supprimer de mes analyses les sites malveillants suivants :

  • Extension (.com) : darodar, priceg, semalt, boutons-pour-site, makemoneyonline, blackhatworth, hulfingtonpost, sites-avis, share-boutons sociaux,share-boutons simples
  • Extensions (.Co, .com, .ru) : ilovevitaly, économ
  • Extensions (.org): humanorightswatch, 4webmasters.

Pour procéder : Onglet « Admin « => « Segments », cliquez sur « Nouveau Segment ».

  1. Nommez le nouveau segment, exemple : « Filtre Spam 2 »
  2. Dans le menu de gauche, « Avancé « , cliquez sur onglet « Conditions »
  3. Dans menus déroulants, Sélectionnez « Filtre Sessions » et « Exclure »
  4. Sélectionnez « Source/support »
  5. Sélectionnez « Correspond à l’expression régulière »
  6. Insérez par Copier/Coller, l’expression régulière figurant après l’image suivante.
  7. Enregistrez

Referrer spam - Segment-Filtre expressions régulières

Expression régulière :

.*((darodar|priceg|semalt|buttons\-for\-website|makemoneyonline|blackhatworth|hulfingtonpost|websites\-reviews|(social|simple\-share)\-buttons)\.com)|((ilovevitaly|econom)(\.co(m)?|\.ru))|((humanorightswatch|4webmasters)\.org).*

Bien évidement, il conviendra de remplacer les sites ci-dessus par ceux qui figurent réellement dans vos analyses. Vous pouvez également conserver dans l’expression, certains de ces sites à titre préventif. Si vous modifiez l’expression, je vous recommande de vérifier sa validité avec ce testeur d’expressions régulières.

Attention ! Les expressions régulières sont limitées à 255 caractères. Le nombre de referral spam étant en constante progression, il est possible qu’un seul filtre ne suffise pas à bloquer tous les spammeurs. Dans ce cas, il faudra ajouter dans le filtre supplémentaire une nouvelle expression régulière. Procédez comme dans l’image ci-après :

Spam Google Analytics - Ajout d'une expression régulière - AWM82

Ajout nouvelle expression régulière (modifier selon vos besoins) :

.*((theguardlan|inbox|googlsucks|Get-Free-Traffic-Now|event-tracking|free-share-buttons|free-social-buttons)\.com)|((buy-cheap-online|torture|domination)(\.info|\.ml))|((guardlink|smailik|trafficmonetize)\.org).*

Filtre avec modification du fichier htaccess

Si vous n’avez pas les connaissances adéquates pour manipuler votre fichier htaccess, je vous déconseille ce tutoriel, car la moindre petite erreur dans la modification du fichier, peut planter votre site. Pensez à faire une sauvegarde de votre base de données avant de manipuler ce fichier. Personnellement, je n’ai pas eu besoin jusqu’à présent, de modifier le htaccess de mon site ou ceux de mes clients, pour obtenir des analyses sans spam. Les filtres sur le « nom d’hôte et les « expressions régulières » suffisent.

Néanmoins, il semblerait que le blocage du referral spam par le fichier htaccess , plus l’ajout de filtres dans Google Analytics, soit la solution optimale.

Procédure valable sur un serveur Apache :

Editez votre fichier htaccess et insérez les lignes de codes ci-dessous, que vous aurez préalablement modifier, en l’adaptant aux véritables pollueurs de votre site. Au même titre que les filtres dans GA, si un site spammeur de cette liste ne figure pas dans vos analyses, vous pouvez insérer ces codes à titre préventif. Vous pouvez utiliser la liste des sites reconnues comme spam, au bas de cet article.

RewriteEngine on
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*semalt\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Darodar\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Priceg\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*7makemoneyonline\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Buttons-for-website\.com [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?:\/\/([^.]+\.)*Ilovevitaly\.com [NC,OR]
RewriteRule .* - [F]

Filtre contre le referral spam avec l’option « Filtres » de Google Analytics

Après avoir tester vos filtres par l’option « Segment », vous pouvez à présent créer et appliquer ce filtre définitivement à vos statistiques de Google Analytics en passant par l’option « Filtres ».

Je recommande de faire une copie de la vue actuelle et de la renommer par exemple :  » Vue avec filtre SPAM », afin de créer le ou les filtres sur cette nouvelle vue. C’est une précaution à prendre, en cas d’erreur sur un filtre, vous aurez toujours la possibilité de récupérer toutes vos données antérieures sur la vue initiale.

Pour procéder, allez dans l’onglet « Admin », sélectionnez « Paramètre de la vue » et cliquez sur « copier la vue ». Appliquer un nom à la nouvelle vue et en bas de la page, vérifiez que l’option « Exclure les appels des Fichier Robots connus  » est cochée, puis enregistrez.

Copie nouvelle Vue dans Google Anaytics - AWM82

Création d’un filtre avec les expressions régulières :

Dans la « nouvelle vue », cliquez dans le menu « Filtres » => « Ajouter un Filtre ». Suivez les étapes comme indiquer sur l’image ci-après.

Création filtre expressions régulières pour éliminer le referral spam dans Google Analytics - AWM82

Règle de filtrage avec expressions régulières

Insérez l’expression régulière identique à celle que l’on a utilisé plus haut dans cet article dans l’option « Segment ». Pour appliquer une expression régulière supplémentaire, vous devez créer et nommer un nouveau filtre, exemple : « Antispam-2 ». Le ou les filtres seront effectifs sur les données recueillies par Google Analytics, à compter de la date de mise en place.

Création d’un filtre avec le nom d’hôte :

Dans la « nouvelle vue », cliquez dans le menu « Filtres » => « Ajouter un Filtre ». Suivez les étapes comme indiquer sur l’image ci-après.

Création filtre nom d'hôte dans Google Analytics - AWM82

Règle de filtrage avec le nom d’hôte

Liste Noire du Referral Spam

Cette liste non-exhaustive vous aidera en cas de doute, à repérer facilement le referral spam. Soyez sympa ! A travers vos commentaires, participez à sa mise à jour régulière, dans l’intérêt de tous nos amis internautes qui désirent conserver des statistiques propres.

Google Analytics liste des sites référérents spam-AWM82 (PDF – Mise à jour le 23 décembre 2015)

A propos de 

Professionnel en marketing depuis plus de 25 ans, expert en e-commerce et passionné des techniques de référencement Internet. « La création d’un site Internet et sa visibilité sur le Web… C’est ma passion, mon métier ! »

    Me rejoindre sur :
  • facebook
  • googleplus
  • twitter
porta. ultricies felis id Donec quis, ut elementum accumsan