pageLogger Boterkennung verbessern

Online seit Tue 24 November 2009 in Digital • Stichwörter Bots, Crawler, Download, PageLogger, Regex, robots, Statistik

Ich habe schon über die Statistiksoftware pageLogger berichtet und bin auch bisher damit zufrieden. Allerdings stellte ich fest, dass die Bot-Erkennungsliste etwas mager ist.

Im Verzeichnis PAGELOGGER/includes/robots liegt die Datei robots.txt. Sie ist gefüllt mit RegEx - also kleinen Textschnipseln die in einem User Agent auftauchen können - und …


Weiterlesen

Bösen Bots den Kampf ansagen!

Online seit Tue 28 April 2009 in Digital • Stichwörter Bot, Crawler, robots.txt, Spam, Spider

Beim Test der Statistik-Plugins ist mir aufgefallen, dass sich doch einiges an Bots, Robots und Spidern auf diesem Blog rumtreibt. Da man nicht bei allen weiß, wer sich dahinter verbirgt und was sie mit den gewonnenen Daten so treiben, habe ich mich entschlossen “böse Bots” auszusperren. Doch was ist ein …


Weiterlesen

Eine freie Suche

Online seit Mon 27 April 2009 in Digital • Stichwörter Open Source, Crawler, Google, Index, P2P, Suchmaschine, verteiltes Rechnen, Yacy

Viele sind wahrscheinlich mit folgenden Begriffen vertraut: Verteiltes Rechnen und P2P. Wenn man diese beiden Techniken kombiniert und noch einen Crawler und eine Suchmaske hinzufügt erhält man die perfekte Internetsuchmaschine. Sie ist von keinem Unternehmen kontrollierbar, durch Dezentralität vor Ausfällen und Angriffen sicher, kostenlos, quelloffen und eine Zensur ist nicht …


Weiterlesen