maandag 26 november 2012

Robots.txt, noindex, nofollow

Beste mensen,

vorige week was er wat onduidelijkheid over de mogelijkheden die webmasters hebben om het indexeren van pagina's tegen te gaan. Ik hoop het wat op te helderen met het onderstaande.


norobots.txt:
- dit is een betandje op de webserver waarin de webmaster kan aangeven wat een zoekmachine wel en niet mag.

- Wikipedia gebruikt het om aan te geven dat bepaalde soorten pagina's niet geïndexeerd mogen worden: bijvoorbeeld pagina's die gespammed worden, pagina's die op de rol staan verwijderd te worden, pagina's met mogelijke copyrightschendingen etc.

- de norobots.txt van Wikipedia ziet er zo uit: http://en.wikipedia.org/wiki/MediaWiki:Robots.txt


noindex:
- dit is een metatag die aan pagina's meegegeven kan worden en de zoekmachine vertelt die specifieke pagina niet te indexeren

- Wikipedia gebruikt de noindex tag vooral voor de talkpages, maar niet voor de reguliere artikelen; Wikipedia pagina's worden dus gewoon geïndexeerd en daarmee in Google zoekacties getoond

- zie het stukje over namespace control op deze pagina: http://en.wikipedia.org/wiki/Wikipedia:Controlling_search_engine_indexing#Namespace_control


nofollow:
- dit is een kenmerk dat meegegeven kan worden aan een hyperlink en dat de zoekmachine vertelt die link niet te volgen

- Wikipedia heeft (vanaf 2007) alle uitgaande links in Wikipedia artikelen van dat kenmerk voorzien

- uit onderzoek blijkt dat zoekmachines (o.a. Google) de link toch volgen, maar de link niet meerekenen in het bepalen van de Pagerank van de pagina waar de link naar wijst, zie: http://en.wikipedia.org/wiki/Nofollow#Interpretation_by_the_individual_search_engines

- niettemin betekent dit dat het voorbeeld van Wikipedia als gezaghebbende pagina van groot belang voor websites die er een link van ontvangen niet klopt: het is wel van groot belang links naar jou pagina te krijgen vanaf gezaghebbende website/pagina's, maar Wikipedia heeft geen invloed.

Geen opmerkingen:

Een reactie posten