Vier manieren om spam referrals te blokkeren

spam referrals blokkerenElke webmaster heeft er last van: spam-referrals oftewel spookverwijzingen die de bezoekersstatistieken van je website vervuilen. Via een WordPress-plugin, je htaccess-bestand en het instellen van filters in Google Analytics kun je veel spam-referrals blokkeren.

Sinds Semalt in het najaar van 2014 ineens opdook in menig Analytics-statistieken is er een doos van Pandorra open gegaan van spookverwijzingen of spam-referrals die voor nepbezoek aan je site zorgen en je Analytics-statistieken vervuilen en je bounce-rate opjagen. Ze verschijnen onder namen als forum.darodar, best-seo-offer.com, buttons-for-websites.com, missspellingen als theguardlan.com en hulfingtonpost.com en vanuit Rusland zit ook ene vitaly de hele wereld uit te lachen. Die laatste dook in april ineens op in de lijst met keywords waarom je site gevonden wordt en dat bracht menig webmaster in paniek. Ten onrechte, want dit ettertje heeft je site niet gehackt, sterker nog, hij heeft je site niet eens bezocht.

Al deze spam-referrals zijn grofweg in te delen in twee groepen die elk een eigen aanpak behoeven om ze tegen te houden.

Spam-referrals via bots: crawler referral spam

De eerste groep referral spammers bezoeken via een bot of een geautomatiseerd script daadwerkelijk je site. Dit wordt crawler referrer spam genoemd. Jij ziet die referral, vraagt je af wie dat is, en bezoekt hun site. Daarmee trekken de spamboeren meer bezoekers. Daarnaast publiceren sommige sites, met name bloggers, lijsten online zetten met recente verwijzers. Dat levert de spammer weer een linkje op waardoor ze hoger in zoekmachines hopen te komen. En er zijn hardnekkige verhalen dat via sites van referral-spammers malware, trojans en andere ellende verspreid wordt. Bezoek dus nooit zo’n site.

Semalt blokkeren via htacess

Semalt is hier misschien wel het bekendste, of beruchtste zo je wilt, voorbeeld van. Hij duikt op met verschillende domeinen en subdomeinen zoals semalt.semalt.com of crawler.semalt.com. Je kunt semalt vrij eenvoudig en op verschillende manieren uit je Analytics-rapporten verwijderen. Als je een WordPress-site hebt, kun je een speciale plugin installeren maar die blokkeert alleen Semalt en niet al die andere spammers. Beter is het om dergelijke spammers via je .htaccess-bestand van je site te weren. Ik werk zelf met WordPress-sites en daar gaat het als volgt: Zet aan het eind van je htaccess-bestand, na #EndWordPress de volgende code:

SetEnvIfNoCase Referer semalt.com spammer=yes

Daaronder zet je:

Order allow,deny
Allow from all
Deny from env=spammer

Hiermee zeg je in feite dat de referral semalt een spammer is en geen toegang tot je site mag krijgen. Dit moet in je htaccess-bestand geplaatst worden en niet in je robots.txt-bestand (zoals je met normale bot-instructies zou doen), omdat Semalt zich niet aan je robots-bestand houdt. Ook buttons-for-websites en best-seo-solutions blokkeer je daarmee de toegang tot je site en hou je uit je Analytics.

Ik heb intussen onderstaande lijst in de htaccess-files van al mijn sites staan en die werk ik regelmatig bij:

# Block Spam botnets
SetEnvIfNoCase Referer fbdownloader.com spammer=yes
SetEnvIfNoCase Referer descargar-musicas-gratis.com spammer=yes
SetEnvIfNoCase Referer baixar-musicas-gratis.com spammer=yes
SetEnvIfNoCase Referer savetubevideo.com spammer=yes
SetEnvIfNoCase Referer srecorder.com spammer=yes
SetEnvIfNoCase Referer kambasoft.com spammer=yes
SetEnvIfNoCase Referer semalt.com spammer=yes
SetEnvIfNoCase Referer buttons-for-website.com spammer=yes
SetEnvIfNoCase Referer free-share-buttons.com spammer=yes
SetEnvIfNoCase Referer buttons-for-your-website.com spammer=yes
SetEnvIfNoCase Referer best-seo-solution.com spammer=yes

Order allow,deny
Allow from all
Deny from env=spammer

Helaas kun je deze lijst niet kopiëren, want ik heb de rechtermuisknop geblokkeerd op mijn sites om het contentscrapers (nog zo’n plaag) iets moeilijker te maken. Op de site van Ohow.co staat een actuele lijst die je wel kunt kopiëren.

Omdat deze bots gebruik maken van javascript kun je ook in Google Analytics > Beheer > Property > .js Trackinginfo > Lijst met verwijzingsuitsluitingen een filter maken om Semalt en hun subdomeinen uit te sluiten. Daarmee hou je wel je statistieken schoon, maar bezoeken de spambots nog steeds je site. Een combinatie van filers plus htaccess-blokkade zou dus het beste werken.

Spam-referrals in Analytics blokkeren

De tweede groep van spam-referrals is lastiger te bestrijden en is qua omvang ook groter. Dit zijn de zogeheten ‘Ghost referrer spammers’ oftewel spookreferrals. We hebben het dan over sites als darodar, hulfingtonpost. Hun bots bezoeken je site niet, dus je kunt hen ook niet blokkeren via je htaccess-bestand. Zij duiken op in Analytics-statistieken doordat ze willekeurige Google-Analytics-id’s genereren. Op die manier duiken ze op in Google Analytics-statistieken van willekeurige site-eigenaren en hopen ze bezoek te trekken.

Er zijn verschillende manieren om deze ghost-referrals uit je Analytics te verwijderen. Als je een nieuwe site hebt, kun je je Google-id-aanpassen. Die is te herkennen aan het UA-nummer dat altijd eindigt op –1. Vervang die 1 door een 2 of een ander getal en je krijgt waarschijnlijk nog maar heel weinig ghost-referral spam.

Bestaat je site al langer, dan kun je ghost-referral spam uit je Analytics-statistieken verwijderen door filters aan te maken.

filter aanmaken in Google AnalyticsGa daarvoor in je analytics-account naar Beheerder > Account > Alle Filters en klik op ‘Nieuw filter’. Klik vervolgens bij Filtertype op ‘Custom’ en vink bij ‘Filterveld’ ‘Verwijzende url’ aan. Je hoeft niet voor elke spammer een apart filter aan te maken. Ben Travis heeft op zijn site een paar filtercodes geplaatst waarmee je in een klap een hele rits spam-referrals kunt filteren.

Spam referrers blokkeren via hostnames

Bovenstaande manier heeft wel een nadeel: omdat de ghost referrers steeds andere namen gebruiken, moet je iedere keer je filters bijwerken. Daarom is er nog een vierde manier om spookreferrers uit je Analytics te verwijderen. Die bestaat uit het aanmaken van een filter waarmee je alleen ‘goede’ zoekbots zoals die van Google in je Analytics kunt opnemen. Zij maken immers gebruik van geldige hostnamen, terwijl de foute bots alleen hostnamen kunnen gebruiken die niets met jouw site te maken hebben. Je maakt dus een toelaten-filter in plaats van een uitsluit-filter. Maar let wel op, want deze manier van filteren is best tricky. Je moet namelijk ook de hostnamen van zoekmachines als Google toelaten zoals translate.googleusercontent.com, webcache.googleusercontent.com, youtube maar ook die van paypal.com. Een goede uitleg staat op de site van Ohow.

Ongeldige hostnamen opsporen

Ongeldige hostnamen kun je opsporen door in je Analytics naar Acquisitie > Alle verkeer > Bron/Medium te gaan. Selecteer daar onder het knopje ‘Secundaire dimensie’ de ‘hostnaam’ (even intikken in het zoekvenster). Zet vervolgens de datuminstelling rechts bovenaan op een zo groot mogelijk bereik. Hoe groter, hoe beter. Je zult dan zien dat bijvoorbeeld voor free-social-buttons.com en site3.free-share-buttons.com geen hostnaam wordt opgegeven. Logisch, want ze hebben je site ook niet bezocht. Voor buttons-for-your-website.com wordt wel een hostnaam opgegeven, namelijk je eigen domein, want dit is een crawler die je site wél heeft bezocht (maar waardeloos bezoek heeft opgeleverd). Ook hostnamen als www.egtgzmy.net,  www.thebesthosting.org,  forum.topic6831284.darodar.com,  www.br4.in/ForexMarket en co.lumb.co zijn van crawlers waar je niets aan hebt. Je kunt deze spam referrers uit je Analytics verwijderen door een filter aan te maken, waarbij je niet de foute hostnamen uitsluit (die veranderen steeds), maar alleen de goede hostnamen opneemt. Dat doe je door middel van reguliere expressies. Google heeft zelf in juli 2014 nog een nieuwe filter-functie geïntroduceerd waarmee je nog meer bots uit je statistieken kunt filteren.

Tags:
2 Comments

Reageer op dit artikel

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *