Hulp nodig met je WordPress website?
Hulp nodig met je WordPress website?
Hulp nodig met je WordPress website?
Als je je bezighoudt met web development, dan ben je ongetwijfeld wel eens een robots.txt bestand tegengekomen. In deze blogpost leggen we uit wat robots.txt precies doet en wanneer robots.txt in WordPress belangrijk is.
Het robots.txt bestand wordt gebruikt voor het implementeren van het Robots Exclusion Protocol – een in 1994 ontwikkelde standaard die aan zoekmachine crawlers en bots aangeeft welke delen van de website ze wel en niet mogen bezoeken. Met andere woorden: het vertelt aan zoekmachine bots hoe ze een website moeten indexeren. WordPress creëert automatisch een robots.txt bestand voor elke nieuwe installatie. Wanneer je het bestand opzoekt, dan zal je zien dat het bestand standaard in de root directory staat. Wanneer er een bot langskomt, dan zal deze als eerst robots.txt raadplegen en op basis van de instructies in het bestand je website crawlen. Indien een website geen robots.txt bestand heeft, dan zal de site volgens het standaard proces gecrawled worden.
Heb je een kleine WordPress site met een minimaal aantal pagina’s die gewoon geïndexeerd kunnen worden, dan hoef je doorgaans geen aandacht te besteden aan robots.txt. Grootschalige websites zijn een heel ander verhaal. Daarbij kan een aangepast robots.txt bestand een positieve impact hebben op zowel je ranking in zoekmachines als de laadtijden van je pagina’s. De belangrijkste reden hiervoor is een efficiënter gebruik van crawl budget. Zoekmachines wijzen aan elke website die geïndexeerd wordt een eigen crawl budget toe, oftewel het aantal pagina’s dat binnen een bepaalde periode gecrawled wordt. Als er meer pagina’s geïndexeerd moeten worden dan het crawl budget toelaat, bestaat de kans dat belangrijke pagina’s niet geïndexeerd worden en het crawl budget wordt verspild aan irrelevante pagina’s. Door in je robots.txt bestand aan te geven welke pagina’s overgeslagen kunnen worden, zorg je dat zoekmachines je primaire content prioriteit geven (dit kan overigens ook met canonical URL’s).
De tweede reden dat het aanpassen van robots.txt in WordPress een goed idee is, heeft te maken met laadtijden. Zoekmachine bots hebben dezelfde impact als menselijke bezoekers in de zin dat ze pagina’s opvragen en dus server capaciteit benutten. Door de webpagina’s die niet geïndexeerd hoeven te worden uit te sluiten van de crawls (of zelfs bepaalde bots weg te sturen van je website), blijft er meer server capaciteit over voor menselijke bezoekers, die profiteren van kortere laadtijden en dus een betere gebruikerservaring.
De bots van grote zoekmachines zullen zich over het algemeen houden aan de meeste instructies die je in het robots.txt bestand zet. ‘Slechte’ bots, zoals spambots, zullen het bestand echter negeren. Om die reden mag je nooit op robots.txt vertrouwen om gevoelige en persoonlijke informatie te beschermen. Verder is het goed om te weten dat wanneer een pagina als disallowed staat ingesteld, dat geen garantie is dat hij niet geïndexeerd wordt. Het kan namelijk dat een crawler op een andere website een backlink tegenkomt die naar de disallowed pagina leidt – in dat geval kan de pagina alsnog geïndexeerd worden. Als je zeker wilt weten dat een pagina niet geïndexeerd wordt, kun je beter de noindex tag gebruiken of de pagina beveiligen met een wachtwoord.
Als je website een robots.txt bestand heeft, dan kun je de inhoud van het bestand bekijken door “/robots.txt” achter de URL van je hoofddomein te typen.
Benieuwd naar hoe je robots.txt in WordPress kunt aanpassen? Dat lees je in onze volgende blogpost!
Gratis handleiding
Download de handleiding vandaag nog en haal het maximale uit jouw WordPress-site!