Internet Archive Bot von der Webseite aussperren
Ihr habt es sicherlich schon mitbekommen: Das Internet Archive will künftig die Einträge in der robots.txt ignorieren. Wenn jemand seine Seite nicht archiviert haben wollte, hat ein Eintrag in der robots.txt genügt:
User-agent: ia_archiver Disallow: /
In Zukunft muss man wohl zu User-Agent oder IP-Sperren greifen. In den Log-Files hinterlässt der Archive Bot folgenden Eintrag:
www.kuketz-blog.de 207.241.226.219 - - [25/Apr/2017:12:19:18 +0200] "GET /robots.txt HTTP/1.1" 200 166 "-" "Mozilla/5.0 (compatible; archive.org_bot; Wayback Machine Live Record; +http://archive.org/details/archive.org_bot)"
Wenn ihr also den User-Agent »archive.org_bot« blockiert bzw. diesem einen 403 HTTP-Statuscode übersendet, sollte das genügen. Wer auf Nummer sicher gehen möchte, der erweitert seine Firewall Regeln um den Adressbereich des Internet Archives. Bei iptables sieht das dann so aus:
$IPTABLES -A INPUT -s 207.241.224.0/20 -j DROP $IPTABLES -A INPUT -s 208.70.24.0/21 -j DROP