Die Datei robots.txt im Verzeichnis einer Website regelt, auf welche Seiten oder Dateien Bots zugreifen dürfen. Sie enthält Richtlinien, mit denen Websitebesitzer steuern können, wie Suchmaschinen und andere Bots mit ihrer Website interagieren.
Die Datei robots.txt hat direkte Auswirkungen auf die Suchmaschinenoptimierung eines Unternehmens und die Platzierung in den Suchergebnissen. Legitime Scraper verweisen jedes Mal auf die Datei robots.txt, wenn sie Inhalte scrapen und indizieren. Außerdem verfügen beliebte Suchmaschinen wie Googlebot über ein sogenanntes Crawl Budget, auf das die Datei robots.txt direkten Einfluss hat. Das Crawl Budget bezieht sich auf die Anzahl der Seiten, die ein Web Scraper innerhalb eines bestimmten Zeitraums indiziert. Da eine Website möglicherweise aus mehr Seiten besteht, als ihr Crawl Budget zulässt, können Unternehmen mit Hilfe von robots.txt-Dateien das Crawlen der wichtigsten Seiten priorisieren und duplizierte oder nicht öffentliche Inhalte ausschließen.
Bösartige Scraper Bots handeln entgegen den robots.txt-Richtlinien und versuchen oft, auf Teile der Website zuzugreifen, die in der Datei ausdrücklich verboten sind. Sie können sich robots.txt-Dateien als eine Art Linie im Sand vorstellen, die legitime Bots in Schach halten soll. Bots können sich zwar daran halten, aber die Überschreitung ist lediglich eine moralische Entscheidung und wird durch die robots.txt-Regeln selbst in keiner Weise eingeschränkt. In der Regel nutzen Anwendungen aber noch weitere Sicherheitstools, mit denen sie sich und ihre sensiblen Dateien oder Verzeichnisse schützen. Viele Sicherheitstools schenken robots.txt-Dateien große Aufmerksamkeit, da sie als Falle genutzt werden können, um bösartigen Bots in Anwendungen schnell auf die Schliche zu kommen.
Bei der Erstellung von robots.txt-Dateien gilt es einiges zu beachten:
Die Datei muss sich im Root-Verzeichnis der Domain befinden, und jede Subdomain benötigt ihre eigene Datei.
Beim robots.txt-Protokoll kommt es auf Groß- und Kleinschreibung an.
Es ist leicht, versehentlich das Crawlen aller Inhalte zu blockieren. Vergewissern Sie sich also, dass Sie die Syntax eines Befehls verstehen, bevor Sie ihn implementieren:
„Disallow: /“ bedeutet, gar kein Crawling zuzulassen.
„Disallow:“ bedeutet, nichts zu blockieren, also alles zuzulassen.
„Allow: /“ bedeutet, alles zuzulassen.
„Allow:“ bedeutet, nichts zuzulassen, also alles zu blockieren.
Hier ein Beispiel für eine einfache robots.txt-Datei:
In diesem Beispiel bedeutet das Sternchen (*) im Feld „User-agent“, dass die Regeln für alle Web-Robots gelten. Der „Disallow“-Code gibt an, welche Verzeichnisse oder Dateien nicht von den Bots durchsucht werden sollen, und „/private/“, „/admin/“ und „/cgi-bin/“ sind die Verzeichnisse, die die Crawler auslassen sollen. Mithilfe dieser Logik können Administratoren genau festlegen, wo Bots nicht crawlen sollen, und dies auf beliebig viele Speicherorte ausweiten.
Mit der Datei robots.txt können Unternehmen aber nicht nur festlegen, auf welche Seiten ein Crawler zugreifen kann, sondern auch mit welcher Geschwindigkeit. Die Crawl-Verzögerung ist eine inoffizielle Richtlinie, mit der Unternehmen die Anzahl der Anfragen begrenzen können, die ein Crawler innerhalb eines bestimmten Zeitraums stellt. Auf diese Weise lässt sich die Wahrscheinlichkeit verringern, dass ein Crawler einen Server überlastet. Crawl-Verzögerungen können für einen bestimmten Crawler oder für alle Crawler, die diese Richtlinie unterstützen, eingeführt werden. Hinweis: Suchmaschinen wie Yahoo und Bing befolgen diese inoffizielle Richtlinie, bei anderen (wie Googlebot) sind jedoch Anpassungen in den einzelnen Konsolen erforderlich, um ein entsprechendes Ergebnis zu erzielen.
Websitebetreiber erstellen die Datei robots.txt, um Bots auf ihre Anwendungen zu leiten. Während legitime Bots diese Informationen nutzen, um herauszufinden, welche Seiten sie durchsuchen sollen, ignorieren bösartige Scraper Bots diese Informationen und crawlen, wo immer sie wollen. Hier erfahren Sie mehr über die verschiedenen Arten von Bots, die von robots.txt-Dateien beeinflusst werden.