Wat is robots.txt en hoe zet je het in voor SEO?

Inhoudsopgave

Wat is robots.txt?
Waarom is robots.txt belangrijk?
Hoe werkt robots.txt?
Praktische tips voor het gebruik van robots.txt

Patrick Straver SEO-specialist

Deel dit artikel

Deze pagina direct samenvatten

Wie zich bezighoudt met zoekmachine optimalisatie, komt vroeg of laat de term robots.txt tegen. Deze kleine bestandjes kunnen een grote impact op SEO hebben. Maar wat zijn het nu precies? En hoe gebruik je ze? In dit artikel ontdek je dat robots.txt bestanden minder futuristisch zijn dan ze wellicht klinken. We gaan je laten zien welke impact ze op jouw SEO kunnen hebben en hoe je ze op een tactische manier kunt inzetten om je zoekposities te verbeteren.

Wat is robots.txt?

Robots.txt is een term die verwijst naar een bepaald tekstbestandje die webmasters aan hun websites kunnen toevoegen. Het doel van dat robots.txt bestandje is om zoekmachines te vragen bepaalde delen van een site niet te indexeren.

De meeste zoekmachines (in ieder geval de grote jongens als Google, Bing en Yahoo) herkennen en respecteren deze robots.txt verzoeken.

Maar waarom zou je aan zoekmachines verzoeken om bepaalde onderdelen van je site niet te indexeren? Dat indexeren was toch juist een belangrijk onderdeel van zoekmachine optimalisatie? Het is immers de manier waarop zoekmachines je pagina’s opnemen in hun index, zodat ze kunnen worden getoond in de zoekresultaten.

En getoond worden in de organische resultaten is het doel achter SEO werkzaamheden. Waarom dan toch actief zoekmachines ontmoedigen om bepaalde delen van je site te indexeren?

Waarom is robots.txt belangrijk?

In veel gevallen is robots.txt ook helemaal niet nodig. Google is namelijk prima in staat om zelf de belangrijke pagina’s op je site te vinden en indexeren. Toch zijn er drie belangrijke redenen om robots.txt te gebruiken:

Het blokkeren van niet-publieke pagina’s, zoals een login pagina of de staging omgeving voor een nieuw website design. Ook kun je denken aan een pagina waar je een bepaalde actie aanbiedt aan je trouwe klanten, waarvan je niet het risico wilt dat mensen die niet in aanmerking komen deze via Google kunnen vinden.
Je crawl budget maximaliseren wanneer je een bijzonder grote website hebt, zoals een webshop met duizenden productpagina’s. Dan kan het lonend zijn om de minder belangrijke pagina’s te blokkeren met robots.txt, zodat de crawlende Google bot haar kostbare tijd aan de juiste pagina’s kan besteden.
Ervoor zorgen dat media niet geïndexeerd worden. Wanneer je wilt voorkomen dat bepaalde bestanden uit je media bibliotheek (die immers ieder hun eigen URL krijgen) opgenomen worden in de Google database biedt robots.txt uitkomst.

De belangrijkste take-away is dus dat je met robots.txt controle krijgt over wat je wel en niet wilt laten indexeren door Google. Want hoewel de Google bot doorgaans weinig sturing nodig heeft, kan ook die wel een beetje hulp gebruiken zo nu en dan. En zoals je hierboven hebt kunnen zien wil je soms ook gewoon zelf de controle houden.

Hoe werkt robots.txt?

Het robots.txt bestand maakt onderdeel uit van het zogenaamde Robots Exclusion Protocol (REP). Dat is een verzameling van richtlijnen die bepalen hoe robots het web crawlen, informatie indexeren en content beschikbaar maken voor gebruikers van de zoekmachine. In het REP staan bijvoorbeeld ook richtlijnen voor hoe bots moeten omgaan met follow en nofollow links.

Een robots.txt bestand laat dus aan een crawler weten of een bepaalde pagina wel of niet geïndexeerd mag worden. Dat ziet er dan bijvoorbeeld zo uit:

Waarin user-agent staat voor de bot waar de instructie aan gericht is en disallow duidt op het uitsluiten van een bepaalde URL voor crawling.

Zo’n regel wordt gezien als volledig robots.txt bestand, maar een bestand kan ook meerdere van dit soort regels (met dus meerdere aanwijzingen voor uitsluitingen) bevatten. Elke “set” van agent en disallow-aanwijzing wordt dan onderscheiden door een tussenregel.

Elk van die regels geeft als het ware zijn eigen instructies aan de crawlende bots. Elke (dis-)allow heeft dus alleen betrekking op de user-agent uit diezelfde regel.

Praktische tips voor het gebruik van robots.txt

Je weet nu in welke gevallen robots.txt gebruiken zinvol kan zijn. Ook heb je een idee van hoe zo’n bestand is opgebouwd en wat de logica erachter is. Tijd voor een aantal praktische tips om in je achterhoofd te houden bij het gebruik van robots.txt.

1. Het schrijven van je robots.txt bestand

Omdat het gaat om een tekstbestand, kun je een simpele tekstverwerker als Windows notepad gebruiken voor het schrijven van je robots.txt bestand. En onthoud dat de basisopzet altijd hetzelfde is:

User-agent: [ x ]

Disallow: [ y ]

Waarin “user-agent” de specifieke bot is aan wie deze instructie is gericht en alles achter “disallow” de pagina’s of secties zijn die je wilt blokkeren. Voor de volledigheid nog een voorbeeldje:

User-agent: googlebot

Disallow: /images

Hiermee vertel je aan de Googlebot dat je niet wilt dat de map met afbeeldingen op je website wordt geïndexeerd.

Nog een tip: om een instructie op alle bots tegelijkertijd van toepassing te laten zijn, vul je bij user-agent een asterix (*) in. En zo zijn er natuurlijk nog heel veel andere codes die je kunt gebruiken. Voor een compleet overzicht kun je hier bij Google zelf terecht.

2. (Drie)dubbelcheck je bestand

Je gaat aan zoekmachines aangeven dat bepaalde delen van je website niet geïndexeerd moeten worden. Dus is het extreem belangrijk dat je zeker weet dat de instructies kloppen. Een foutje kan er namelijk voor zorgen dat opeens je volledige website niet meer geïndexeerd wordt.

En Google zou Google niet zijn als ze daar geen handige tool voor ontwikkeld hebben. Zo hoef je niet op hoop van zegen je bestand online te slingeren en dan maar te duimen dat alleen de juiste pagina’s uitgesloten worden.

Deze tool is gekoppeld aan je Google Search Console property, dus je wordt gevraagd om een geverifieerde property te kiezen. Vervolgens kun je het zojuist getypte stukje tekst in het veld plakken om te zien of er fouten of waarschuwingen worden gegeven.

3. Live zetten

Je kunt het robots.txt bestand in principe in elke map op je website plaatsen, maar het is aan te raden om het op een duidelijk vindbare plek te zetten. Bijvoorbeeld https://voorbeeldsite.com.robots.txt

Nadat je het bestand online hebt gezet, kun je opnieuw in de tool van Google van stap twee controleren of alles goed gaat. Check ook even de “live robots.txt bekijken” optie.

Twijfel je over een bepaalde URL? Controleer dan of die momenteel geblokkeerd wordt om je gemoed gerust te stellen.

4. Robots.txt of meta aanwijzingen?

en veel gehoorde vraag is waarom je een robots.txt bestand zou gebruiken, terwijl je ook (op pagina niveau) een no-index tag mee kunt geven om te laten weten dat die pagina niet geïndexeerd zou moeten worden.

Ten eerste is het moeilijk om de no-index tag toe te passen op multimedia zoals video’s en PDF-bestanden.

Ten tweede is het soms ronduit makkelijker om een sectie te blokken dan individuele pagina’s, bijvoorbeeld wanneer het om honderden of duizenden pagina’s gaat die moeten worden uitgesloten.

Ten derde kan het ook zo zijn dat je geen crawl budget wilt verspillen doordat de Google bot landt op pagina’s met een no-index tag. Dan is het nuttig om te voorkomen dat Google die pagina überhaupt bezoekt.

Toch is het in andere gevallen over het algemeen juist aan te raden om met no-index te werken, omdat het de kans op fouten met verstrekkende gevolgen aanzienlijk doet afnemen. Je werkt immers op pagina niveau, waar een fout met robots.txt gevolgen kan hebben voor je hele website.

Meer weten over SEO?

We hebben een hele SEO-kennisbank voor je. Allemaal handige artikelen met bruikbare informatie die onze specialisten met alle liefde delen met de wereld.

Benieuwd naar de nieuwste ontwikkelingen? Schrijf je nu in voor onze nieuwsbrief en blijf op de hoogte!

Robots.txt: wat zijn het en wat betekenen ze voor SEO?

Inhoudsopgave

Deel dit artikel

Deze pagina direct samenvatten

Wat is robots.txt?

Waarom is robots.txt belangrijk?

Hoe werkt robots.txt?

Praktische tips voor het gebruik van robots.txt

1. Het schrijven van je robots.txt bestand

2. (Drie)dubbelcheck je bestand

3. Live zetten

4. Robots.txt of meta aanwijzingen?

Meer weten over SEO?

Deze content is verzorgd door

Deel dit bericht

Patrick Straver

Veelgestelde vragen over robots.txt

Robots.txt: wat zijn het en wat betekenen ze voor SEO?

Inhoudsopgave

Deel dit artikel

Deze pagina direct samenvatten

Wat is robots.txt?

Waarom is robots.txt belangrijk?

Hoe werkt robots.txt?

Praktische tips voor het gebruik van robots.txt

1. Het schrijven van je robots.txt bestand

2. (Drie)dubbelcheck je bestand

3. Live zetten

4. Robots.txt of meta aanwijzingen?

Meer weten over SEO?

Blijf op de hoogte!

Deze content is verzorgd door

Deel dit bericht

Patrick Straver

Veelgestelde vragen over robots.txt