Um einem Webcrawler oder -spider zu erklären, welche Verzeichnisse oder Dateien er nicht betrachten darf, benutz man die Datei robots.txt. Leider stellt diese
Datei nur einen Hinweis für den Bot dar, sie ist nicht verpflichtend. Der google Bot, als wichtigster Bot überhaupt, hält sich aber an diese Abmachung.
Sie benutzen diese Datei also um dem Bot zu sagen: "Es gibt zwar ein Verzeichnis Namens "/admin", aber das geht dich gar nichts an". In gewisser Hinsicht hat
diese Datei also auch sicherheitsrelavante Aspekte, die nicht zu verachten sind.
Die Datei robots.txt ist eine Textdatei in einem einfachen, sowohl von Menschen als auch maschinenlesbaren Format. Jede Zeile kann als Datensatz aus zwei, durch einen Doppelpunkt getrennten Feldern aufgefasst werden. Die erste Zeile bestimmt den Webcrawler (hier: User-agent), an den sich die darauf folgenden Verbots-Anweisungen (Disallow) richten. Es darf beliebig viele solcher Blöcke geben.
Als Beispiel finden Sie hier die robots.txt von eBusinessakademie.de, die allen Webcrawlerm erlaubt alle Dateien zu indexieren.
robots.txt betrachen
Social Bookmarking:
Schritt 1
Im ersten Schritt müssen Sie die Komplexität Ihrer Anfrage bestimmen, sollten Sie sich für einen der ersten beiden Punkte entscheiden, werden Sie nach einem
Klick schon am Ziel sein. Bei den speziellen Regeln müssen Sie diese noch definieren. Natürlich helfen wir Ihnen dabei, indem wir Ihnen einen Regelassistenten zur Verfügung stellen.