In dit artikel ontdek je dat robots.txt bestanden minder futuristisch zijn dan ze wellicht klinken. We gaan je laten zien welke impact ze op jouw SEO kunnen hebben en hoe je ze op een tactische manier kunt inzetten om je zoekposities te verbeteren. 

In dit artikel gaan we dus in op: 

  • Wat is robots.txt? 
  • Hoe werkt robots.txt? 
  • Op welke manier kun je dit zelf inzetten voor je SEO? 

Wat is robots.txt?

Robots.txt is een term die verwijst naar een bepaald tekstbestandje die webmasters aan hun websites kunnen toevoegen. Het doel van dat robots.txt bestandje is om zoekmachines te vragen bepaalde delen van een site niet te indexeren.

De meeste zoekmachines (in ieder geval de grote jongens als Google, Bing en Yahoo) herkennen en respecteren deze robots.txt verzoeken.

Maar waarom zou je aan zoekmachines verzoeken om bepaalde onderdelen van je site niet te indexeren? Dat indexeren was toch juist een belangrijk onderdeel van zoekmachine optimalisatie? Het is immers de manier waarop zoekmachines je pagina’s opnemen in hun index, zodat ze kunnen worden getoond in de zoekresultaten.

En getoond worden in de organische resultaten is het doel achter SEO werkzaamheden. Waarom dan toch actief zoekmachines ontmoedigen om bepaalde delen van je site te indexeren?

robots txt doublesmart

Waarom is robots.txt belangrijk?

In veel gevallen is robots.txt ook helemaal niet nodig. Google is namelijk prima in staat om zelf de belangrijke pagina’s op je site te vinden en indexeren. Toch zijn er drie belangrijke redenen om robots.txt te gebruiken:

  • Het blokkeren van niet-publieke pagina’s, zoals een login pagina of de staging omgeving voor een nieuw website design. Ook kun je denken aan een pagina waar je een bepaalde actie aanbiedt aan je trouwe klanten, waarvan je niet het risico wilt dat mensen die niet in aanmerking komen deze via Google kunnen vinden.
  • Je crawl budget maximaliseren wanneer je een bijzonder grote website hebt, zoals een webshop met duizenden productpagina’s. Dan kan het lonend zijn om de minder belangrijke pagina’s te blokkeren met robots.txt, zodat de crawlende Google bot haar kostbare tijd aan de juiste pagina’s kan besteden.
  • Ervoor zorgen dat media niet geïndexeerd worden. Wanneer je wilt voorkomen dat bepaalde bestanden uit je media bibliotheek (die immers ieder hun eigen URL krijgen) opgenomen worden in de Google database biedt robots.txt uitkomst.

De belangrijkste take-away is dus dat je met robots.txt controle krijgt over wat je wel en niet wilt laten indexeren door Google. Want hoewel de Google bot doorgaans weinig sturing nodig heeft, kan ook die wel een beetje hulp gebruiken zo nu en dan. En zoals je hierboven hebt kunnen zien wil je soms ook gewoon zelf de controle houden.

Hoe werkt robots.txt?

Het robots.txt bestand maakt onderdeel uit van het zogenaamde Robots Exclusion Protocol (REP). Dat is een verzameling van richtlijnen die bepalen hoe robots het web crawlen, informatie indexeren en content beschikbaar maken voor gebruikers van de zoekmachine. In het REP staan bijvoorbeeld ook richtlijnen voor hoe bots moeten omgaan met follow en nofollow links.

Een robots.txt bestand laat dus aan een crawler weten of een bepaalde pagina wel of niet geïndexeerd mag worden. Dat ziet er dan bijvoorbeeld zo uit:

robots.txt url uitsluiten

Waarin user-agent staat voor de bot waar de instructie aan gericht is en disallow duidt op het uitsluiten van een bepaalde URL voor crawling.

Zo’n regel wordt gezien als volledig robots.txt bestand, maar een bestand kan ook meerdere van dit soort regels (met dus meerdere aanwijzingen voor uitsluitingen) bevatten. Elke “set” van agent en disallow-aanwijzing wordt dan onderscheiden door een tussenregel.

Elk van die regels geeft als het ware zijn eigen instructies aan de crawlende bots. Elke (dis-)allow heeft dus alleen betrekking op de user-agent uit diezelfde regel.

Praktische tips voor het gebruik van robots.txt

Je weet nu in welke gevallen robots.txt gebruiken zinvol kan zijn. Ook heb je een idee van hoe zo’n bestand is opgebouwd en wat de logica erachter is. Tijd voor een aantal praktische tips om in je achterhoofd te houden bij het gebruik van robots.txt.

1. Het schrijven van je robots.txt bestand

Omdat het gaat om een tekstbestand, kun je een simpele tekstverwerker als Windows notepad gebruiken voor het schrijven van je robots.txt bestand. En onthoud dat de basisopzet altijd hetzelfde is:

User-agent: [ x ]

Disallow: [ y ]

Waarin “user-agent” de specifieke bot is aan wie deze instructie is gericht en alles achter “disallow” de pagina’s of secties zijn die je wilt blokkeren. Voor de volledigheid nog een voorbeeldje:

User-agent: googlebot

Disallow: /images

Hiermee vertel je aan de Googlebot dat je niet wilt dat de map met afbeeldingen op je website wordt geïndexeerd.

Nog een tip: om een instructie op alle bots tegelijkertijd van toepassing te laten zijn, vul je bij user-agent een asterix (*) in. En zo zijn er natuurlijk nog heel veel andere codes die je kunt gebruiken. Voor een compleet overzicht kun je hier bij Google zelf terecht.

2. (Drie)dubbelcheck je bestand

Je gaat aan zoekmachines aangeven dat bepaalde delen van je website niet geïndexeerd moeten worden. Dus is het extreem belangrijk dat je zeker weet dat de instructies kloppen. Een foutje kan er namelijk voor zorgen dat opeens je volledige website niet meer geïndexeerd wordt.

En Google zou Google niet zijn als ze daar geen handige tool voor ontwikkeld hebben. Zo hoef je niet op hoop van zegen je bestand online te slingeren en dan maar te duimen dat alleen de juiste pagina’s uitgesloten worden.

Deze tool is gekoppeld aan je Google Search Console property, dus je wordt gevraagd om een geverifieerde property te kiezen. Vervolgens kun je het zojuist getypte stukje tekst in het veld plakken om te zien of er fouten of waarschuwingen worden gegeven.

robots txt tester in google search console

3. Live zetten

Je kunt het robots.txt bestand in principe in elke map op je website plaatsen, maar het is aan te raden om het op een duidelijk vindbare plek te zetten. Bijvoorbeeld https://voorbeeldsite.com.robots.txt

Nadat je het bestand online hebt gezet, kun je opnieuw in de tool van Google van stap twee controleren of alles goed gaat. Check ook even de “live robots.txt bekijken” optie.

Twijfel je over een bepaalde URL? Controleer dan of die momenteel geblokkeerd wordt om je gemoed gerust te stellen.

4. Robots.txt of meta aanwijzingen?

Een veel gehoorde vraag is waarom je een robots.txt bestand zou gebruiken, terwijl je ook (op pagina niveau) een no-index tag mee kunt geven om te laten weten dat die pagina niet geïndexeerd zou moeten worden.

Ten eerste is het moeilijk om de no-index tag toe te passen op multimedia zoals video’s en PDF-bestanden.

Ten tweede is het soms ronduit makkelijker om een sectie te blokken dan individuele pagina’s, bijvoorbeeld wanneer het om honderden of duizenden pagina’s gaat die moeten worden uitgesloten.

Ten derde kan het ook zo zijn dat je geen crawl budget wilt verspillen doordat de Google bot landt op pagina’s met een no-index tag. Dan is het nuttig om te voorkomen dat Google die pagina überhaupt bezoekt.

Toch is het in andere gevallen over het algemeen juist aan te raden om met no-index te werken, omdat het de kans op fouten met verstrekkende gevolgen aanzienlijk doet afnemen. Je werkt immers op pagina niveau, waar een fout met robots.txt gevolgen kan hebben voor je hele website.

Meer weten over SEO? We hebben een hele SEO kennisbank voor je. Allemaal handige artikelen met bruikbare informatie die onze SEO specialisten met alle liefde delen met de wereld!

Veelgestelde vragen over robots.txt

Hoe werkt robots.txt?

Robots.txt is een tekstbestandje dat je toevoegt aan je website, om aan crawlende bots te vertellen dat bepaalde pagina’s of onderdelen van je site moeten worden uitgesloten van indexatie. Het bestandje geeft instructies, gericht aan een specifieke bot of aan alle mogelijke bots.

Met een robots.txt bestand kun je een bepaalde sectie van je website in één keer uitsluiten van indexatie, in tegenstelling tot no-index tags die op individueel pagina niveau moeten worden ingesteld. Daarnaast is robots.txt ook toepasbaar op multimedia.

Robots.txt kan worden toegevoegd aan elke (hoofd)map op je website. Meestal wordt het bestand geplaatst op een eigen URL (https://voorbeeldsite.nl/robots.txt) om het eenvoudig vindbaar en herkenbaar te maken voor crawlende bots.

Robots txt Robots txt