Suchmaschine, Crawler, Bot, Spider, etc.

Suchmaschine, Crawler, Bot, Spider, etc.

Sigi Saudi am 13.09.2012, 17:32 / 2 Antworten / Flachansicht

Hallo Gemeinde,
Vielen Dank noch einmal an alle, die mir mit Ratschlaegen zur Seite standen, als ich meine alten CDs nicht mehr lesen konnte. Mittlerweile konnte ich, Dank Eurer Hilfe, fast alle Bilder retten. Ich konnte seinerzeit nicht anrworten, weil der Login zu Nickles nicht klappte und einige Tage spaeter die Angelegenheit in Vergessenheit geriet.
Nun zu meiner neuen Frage:
Ich habe mich in PHP eingearbeitet, fuer mich kein grosses Problem, weil ich frueher schon mal in Borland C++ und in anderen Programmiersprachen programmiert habe.
Da ich neugierig bin, habe ich mir ein PHP/Html Programm (oder meinetwegen Makro) geschrieben, mit dem ich fuer jeden Aufruf meiner Homepage u. a. die Server Environment Variable 'HTTP_USER_AGENT' auslesen kann. In der komprimierten Form erhalte ich z. B. Ausdruecke wie:
"Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)" oder
"Mozilla/5.0 (Windows NT 6.0; WOW64; rv:16.0) Gecko/20100101 Firefox/16.0"
Der erste der beiden Strings kommt jedes mal von Mountain View/CA USA waehrend die Art des zweite Strings aus unterschiedlichen Staedten und Laendern kommen kann, auch mit unterschiedlichen Explorern. Ahnliche strings wie der erste sind:
"Mozilla/5.0 (compatible; bingbot/2.0; http://www.bing.com/bingbot.htm)" aus Redmont/WA USA (Microsoft)
"Mozilla/5.0 (compatible; YandexBot/3.0; http://yandex.com/bots)" aus Moskau/Russische Foederation
"Mozilla/5.0 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)" aus Beijing oder Peking/China,
um nur einige zu nennen.
Meine Frage, gestellt als meine Annahme:
Ist es richtig, dass der Googlebot, der bingbot, der YandexBot und der Baiduspider (auch YahooBot, usw. usw.) nur Anfragen der jeweils dahinter stehenden Suchmaschinen sind, um ihren Index zu aktualisieren und dass keine spezifische Person dahinter steht, die meine Seiten lesen moechte?
Ist es weiterhin richtig, dass die 2. Art der 'HTTP_USER_AGENT' Variable, die einen spezifischen Explorer, wie z. B. den Firefox/16.0 oder den MSIE 9.0 oder andere enthaelt ein Hit einer Person ist, die meine Seiten downloaden und lesen moechte?
Wo kann ich genaueres ueber diese Ereignisse lesen? Die angegebenen links wie z. B. http://www.google.com/bot.html habe ich schon erforscht, aber ohne den Hintergrund oder den Zweck des Aufrufs zu finden.
Was ich eigentlich ausschliesse ist, dass diese Aufrufe durch Suchmaschinenuser hervorgerufen werden. Dann wuerden nicht alle z. B. Google Aufrufe aus Mountain View/California USA kommen, denn Google Suchmaschinen sind weltweit an verschiedenen Orten im Netz. Ich koennte mir aber vorstellen, dass eine zentrale Datenbank in Mountain View vorgehalten wird fuer alle weltweiten Google Suchmaschinen. Seit dem 29.06.2012 bis heute hat Google meine Homepage schon 120 mal angefordert. (Die Internet Explorer brachten es in der gleichen Zeit auf 179 hits.
Die Standorte der aufrufenden Server habe ich uebrigens ueber die aufrufende IP Adresse (Server Variable 'REMOTE_ADDR') ermittelt und ueber APNIC.net (Asia Pacific Network Information Center) ermittelt, von dene ich u. U. umgelenkt werde zu RIPE fuer Europa, ARIN fuer Nordamerika, usw. Die dahinter stehenden Organisationen sind ja diejenigen 'Regional Internet Registries' (RIR), die fuer ihren Teil der Welt die IP Adressen an die ISP vergeben.
MfG
Sigi Saudi

Internet-Software, Browser, FTP, SSH 4.653 Themen, 38.268 Beiträge