Robots.txtDie "robots.txt" liegt im Hauptverzeichnis einer Domain und wird als erstes vom sog. Webcrawler / Spider beim Auffinden analysiert und gelesen. In dieser Datei kann festgelegt werden, ob und wenn ja, welche Verzeichnisse vom Webcrawler durchsucht werden dürfen.
Eine robots.txt kann z.B. wie folgt aussehen:
User-agent: *
Disallow: /banner/
Disallow: /img/
Disallow: /pic/
Disallow: /v/
Mit dem Befehl "Disallow" wird dem Crawler verboten die nachfolgenden Verzeichnisse zu durchsuchen. So wird in unserem Beispiel verhindert, dass "Banner", "Grafiken", "Artikelbilder" und "Verwaltungseiten" erfasst werden.
|