Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-includes/cache.php on line 99

Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-includes/query.php on line 21

Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-includes/theme.php on line 576

Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-content/plugins/paged-comments.php on line 125

Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-content/plugins/paged-comments.php on line 128

Deprecated: Assigning the return value of new by reference is deprecated in /vrmd/homepages/u20782/blogneu/wp-content/plugins/paged-comments.php on line 168
Faris SEO Blog» Blogarchiv » Spider-Trap für böse Bots

Spider-Trap für böse Bots

Gestern habe ich bei Mario den Beitrag über die Spider-Trap gelesen. Diese kleine Falle fängt Spider ein, die sich nicht an die robots.txt halten und in verbotenen Verzeichnissen spidern wollen. Die IP dieser fiesen Robots wird sogleich per .htaccess gesperrt. Damit dürfte man so einige Content-Grabber von ihrem Tun abhalten können.

Fein, dachte, das baust du gleich mal ein. Gesagt, getan, funktioniert einwandfrei. Bis jetzt ist aber noch kein böder Spider hineingelaufen. Das wird sich sicherlich in den nächsten Tagen noch ändern.

Allerdings hilft das feine Tool nicht bei allen Auswüchsen von Content-Grabbing. Einige dieser ungeliebten Zeitgenossen arbeiten nach folgendem Schema: Man nehme eine Liste mit Suchbegriffen, nehme die Top 20 Ergebnisse einer Suchmaschine (Google, Yahoo, MSN) zu diesen Begriffen und grabbe die entsprechenden Seiten um daraus eigene Seiten zu “kreieren”. Dies alles geschieht natürlich mit gefälschtem Useragent, damit man nicht als Grabber erkannt wird.

Diese Art von Grabbing wird man nicht unterbinden können, da diese Bots keinen Links folgen, sondern immer nur einzelne Seiten holen.

Die Frage, die mich hierzu bewegt, ist natürlich, wie man solchen Dingen automatisiert auf die Schliche kommt. Dummerweise will mir dazu nichts gescheites einfallen…

Hinterlasse eine Antwort