Robots.txt - Robot Exclusion Standard

Was ist eine Robot Exclusion Standard – Robots.txt?

Der Robot Exclusion Standard wird von einem Webcrawler ausgelesen. Dazu wird auf der eigenen Seite eine robots.txt Datei abgelegt. In dieser Datei kann festgelegt werden, was der Webcrawler sehen darf und was nicht. Die „freundlichen“ Webcrawler halten sich auch daran. Die eher „unfreundlichen“ Webcrawler ignorieren das Robot Exclusion Standard Protokoll. Deshalb muss man seine Seiten, die niemand sehen soll, logischerweise mit einer HTTP Authentifizierung, einem ACL oder mit einem ähnlichen Mechanismus schützen. Die ACL ist eine Zugriffssteuerungsliste, mit der man Programme, Crawler oder Betriebssysteme eingrenzen kann. Wenn Sie also private Bilder im Internet ohne Kennwort Schutz vorhalten, so können Sie sich nicht auf die robots.txt verlassen und das sich alle Suchmaschinen daran halten.

 

Wie lade ich eine robots.txt hoch?

Eine Robots Exclusion Standard Datei können Sie einfach mit einem Editor erstellen und als txt. Datei abspeichern. Wichtig ist zu wissen, dass Sie nicht unbedingt eine robots.txt Datei benötigen. Wenn diese fehlt, passiert gar nichts. Im Ecommerce Bereich ist diese aber wichtig, damit Warenkörbe und sonstige Sessions nicht von den Suchmaschinen erfasst werden. Die Robots.txt sollte man immer wieder mal nachkontrollieren. So kann es sein, dass Sie einmal in einem Online Shop eine andere Sprache zum Test angelegt haben und daraufhin eine komplette englische robots.txt Datei  automatisch erstellt wird. Wenn Sie die Sprache wieder löschen, bleiben die Fehler trotzdem im Google Webmaster Tool sichtbar, da die robots.txt in _en weiter existiert.

 

Wo finde ich die robots.txt Datei bei WordPress?

Normalerweise wird eine robots.txt Datei von einem SEO Plugin automatisch erstellt und hochgeladen. Wenn Sie jedoch kein SEO Plugin installiert haben, müssen Sie wissen, dass die robots.txt Datei in WordPress von der functions.php erzeugt wird. Es gibt sogar Plug-ins für WordPress, welche nur eine Robots.txt Datei erzeugen. Suchmaschinen möchten gerne eine robots.txt Datei, damit diese nicht die kompletten Homepage crawlen und dann feststellen, dass viele Seiten gar keinen Sinn ergeben. Man spart sich als Suchmaschine Zeit, Geld und Energie wenn man nur das crawlt, was auch wirklich der Nutzer sehen möchte. Unsere Robots.txt Datei schaut folgendermaßen aus:

 

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

SEO-Lexikon

[insert page=’list‘ display=’content‘]

Karin TaiberRobot Exclusion Standard