Stagy's Blog

18. Dezember 2012

ContentScraper BOTs -IP-Sperren für 2013

Filed under: Technologie — stagy @ 10:04

Hallo zum letzten mal in 2012.

nachdem meine Artikel bzgl. Webserversperren und IP-Blocking sp viel anklang gefunden haben veröffentliche ich heute mal ein paar weitere IP-Adressen, die man besser sperren sollte. Es handlet sich dabei um drei Contentscraper.

Was ist ein Contentscraper?

Ein Contentscraper ist ein Bot, der eine Webseite crawlt und die Bilder – inbesondere aber leider die Texte – dann woanders weiterverwendet um Traffic und Reichweite zu generieren. Das ist sehr schlecht wenn man mit Google zusammen Reichweite genieren will. Wenn man nicht „besonders“ gut gefunden werden will, dann kann einem das egal sein. Hier also die Ip-Adressen die

94.23.225.68 und 94.23.220.161 kommen aus frankreich aus dem Netz von ovh.net (94.23.192.0 – 94.23.255.255) und machen nur unsinn

69.164.111.198 kommt von der SUNGARD-NETWORK-SOLUTIONS-SGNS-BLK-11 aus „USA – Pennsylvania“ und konzentriert sich auf das abgreifen von pdfs

nefonie“ kommt mit dem useragent MIA+DEV/search:robot/0.0.1+(This+is+the+MIA+Bot+-+crawling+for+mia+research+project.+If+you+feel+unhappy+and+do+not+want+to+be+visited+by+our+crawler+send+an+email+to+spider@neofonie.de;+http://spider.neofonie.de;+spider@neofonie.de)

diese Firma gibt sich als Softwarefirma aus, die auf web spezialisiert ist und schreibt dann auf der eigenen Seite tatsächlich, dass sich der eigene bot an die Robots.txt hält… …natürlich ohne den Namen des Bots auf der seite spider.neofonie.de anzugeben um dann folgenden Abschnitt loszulassen.

Die Anweisungen in „robots.txt“ oder die Meta-Tags stellen keinen garantierten Schutz einer Webseite vor dem Zugriff von Spidern dar, weil diese nicht verpflichtet sind, sich an die Anweisungen zu halten.

Wenn Sie verhindern wollen, dass Spider auf Ihre komplette Webseite oder Teile davon zugreifen können, benutzen Sie zum Schutz der Webseite oder von Teilen der Webseite eine User-Kennung und ein Passwort. Oder tragen Sie die IP-Adresse, von welcher aus der Crawler zugreift, in eine Blacklist ein.

Also liebe Neofonie:

Entweder ihr könnt keinen Bot schrieben, der die Robots beachtet.

Oder Ihr wollt das gar nicht. (und davon gehe ich aus!)

Advertisements

Schreibe einen Kommentar »

Es gibt noch keine Kommentare.

RSS feed for comments on this post. TrackBack URI

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

Bloggen auf WordPress.com.

%d Bloggern gefällt das: