Security Bildschirm Screenshot
Mit der robots.txt ist es möglich, verschiedenen Suchmaschinen zu verbieten bestimmte Inhalte in den SERPs zu listen.

Es kann sein, dass du, aus welchen Gründen auch immer, in bestimmten Suchmaschinen nicht gelistet werden möchtest. Es ist Aufgabe der Robots (auch Crawler oder Spider genannt) im Word Wide Web nach (neuen) Inhalten zu suchen, diese zu lesen, zu speichern und anschließend bei passenden Suchanfragen wieder auszugeben.

Im Netz sind unzählige Robots unterwegs und tun den ganzen Tag nichts anderes als dieser Vorgehensweise zu folgen.

Mit bestimmten Befehlen ist es möglich verschiedene Robots anzusprechen und diesen mitzuteilen, welche Inhalte der Website in den Suchergebnissen der jeweiligen Suchmaschine nicht dargestellt werden sollen.

Speichertort der robots.txt

Das Erstellen und Anlegen einer robots.txt ist in zwei einfachen Schritten erledigt.

  1. Erstelle eine robots.txt-Datei.
    Das kannst du mit jedem einfachen Editor machen. Erstelle einfach eine Textdatei und speichere diese als robots.txt ab.
  2. Jede Domain darf nur eine robots.txt besitzen.
    Lege die eben erstellte Datei in das Root-Verzeichnis (Stammverzeichnis) deines Webauftrittes.

    Aufrufen kannst du diese dann über folgende URL: https://www.deine-url.de/robots.txt

In die erstellte Datei schreibst du dann die Befehle für die jeweiligen Crawler. Um die Crawler anzusprechen, benötigst du zuerst einmal deren Bezeichnungen.

Robots-Liste

Jede Suchmaschine hat verschiedene Crawler mit unterschiedlichen Bezeichnungen. Ein paar Suchmaschinen, wie Google oder Bing, haben auch mehrere Crawler. Im Folgenden findest du eine Tabelle mit den wichtigsten Crawler-Bezeichnungen. Wie genau du mit diesen Bezeichnungen umzugehen hast, erfährst du im nächsten Schritt.

Suchmaschine Crawler-Bezeichnung
Google Websuche Googlebot
Google Bildersuche Googlebot-Image
Google News Googlebot-News
Google Videosuche Googlebot-Video
AdSense Mediapartners-Google
Yahoo Slurp
Bing bingbot

Eine ausführlichere Liste mit Google-Robots findest du hier: Von Google verwendete Robots zum Crawling des Webs

In der robots.txt Befehle erteilen

Ein paar wichtige Details:

Es gibt nur „allow“ oder „disallow“

Achte unbedingt auf die Groß- & Kleinschreibung!
Ein Verzeichnis namens „Bilder“ ist ein anderes als „bilder“.

Der Aufbau eines Befehles sieht immer gleich aus:

User-agent: Robots-Bezeichnung 
Allow/Disallow: Pfad

In der ersten Zeile gibt man den User-agent an, also den Crawler um den es gehen soll.
Die zweite Zeile muss entweder ein „Allow“ oder ein „Dissalow“ mit dem Pfad, der „erlaubt“ oder „verboten“ werden soll, enthalten.

Der Befehl „allow“ ist die Regel! Dieser muss im Normalfall nicht angegeben werden.

Beispiel: Allen Robots das Crawlen jeder Datei und jedes Verzeichnis erlauben

„Wenn Sie Ihre Seiten von allen Crawlern von Google crawlen lassen möchten, benötigen Sie keine robots.txt-Datei.“ – Google

Beispiel: Zugriff auf ein Verzeichnis für  Google verbieten

User-agent: Googlebot
Disallow: /private/

In diesem Fall würde man den Zugriff auf das Verzeichnis „private“ für den Google Bot verbieten. Diese Inhalte würden also nicht in der Google Suche erscheinen.

Beispiel: Zugriff auf Verzeichnis verbieten, ein Unterverzeichnis jedoch erlauben

User-agent: Googlebot
Disallow: /bilder/
Allow: /bilder/produktbilder/

In diesem Fall ist ein Allow-Befehl nötig. Mit dem ersten Befehl verbieten wir den kompletten Google-Zugriff auf das Verzeichnis „bilder“. Mit dem zweiten Befehl erlauben wir jedoch den Zugriff auf den Unterordner „produktbilder“ im Verzeichnis „bilder“.

Beispiel: Allen Suchmaschinen verbieten ein Verzeichnis zu Crawlen

User-agent: * 
Disallow: /private/

Mit dem Sternchen (*) ist es möglich alle Crawler anzusprechen. Man verbietet demnach allen Crawlern das auflisten des „private“-Verzeichnisses.

Beispiel: Dem Bilder-Robot verbieten eine einzelne Datei zu crawlen 

User-agent: Googlebot-Image
Disallow: /bilder/meine-frau.jpg

In diesem Beispiel verbieten wir dem Google-Bilder-Crawler das auflisten des Bilder „meine-frau.jpg“ aus dem Verzeichnis „bilder“ in der Bilder-Suche.

Beispiel: Google verbieten die komplette Website zu crawlen

User-agent: Googlebot
Disallow: /

Mit dem Slash (/) sagst du dem Googlebot, dass er NICHTS von der komplette Website crawlen darf.

Beispiel: Die Website soll nicht in den Google SERPs auftauchen, jedoch trotzdem Werbeanzeigen enthalten

User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Allow: /

Der erste Befehl bewirkt, dass allen Google-Bots das Crawlen aller Inhalte verboten wird. Anschließend erlaubt man dem Media-Bot das Crawlen aller Seiten. Keine Seite erscheint demnach in den Suchergebnissen, aber auf allen Seiten dürfen Anzeigen geschaltet werden.

Wichtig: Das komplette Thema robots.txt ist sehr komplex. In den meisten Fällen sollten die hier vorgezeigten Beispiele ausreichen. Bist du nicht fündig geworden, sieh dir die Hilfe auf der Google Entwicklerseite an: Robots.txt-Spezifikationen

Weitere Informationen

Ist die Robots-Datei falsch eingerichtet, könnte es sein, dass du versehentlich nicht in den Google SERPs gelistet wirst. Melde dich daher umgehend bei der Google Search Console an und teste deine robots.txt.

Weitere Gründe, wieso du evtl. nicht bei Google gelistet wirst, findest du in unserem Artikel: Warum deine Website möglicherweise bei Google nicht erscheint