Suchmaschine, Crawler, Bot, Spider, etc.

Internet-Software, Browser, FTP, SSH 4.723 Themen, 39.295 Beiträge

Suchmaschine, Crawler, Bot, Spider, etc.

Sigi Saudi am 13.09.2012, 17:32 / 2 Antworten / Baumansicht

Hallo Gemeinde,
Vielen Dank noch einmal an alle, die mir mit Ratschlaegen zur Seite standen, als ich meine alten CDs nicht mehr lesen konnte. Mittlerweile konnte ich, Dank Eurer Hilfe, fast alle Bilder retten. Ich konnte seinerzeit nicht anrworten, weil der Login zu Nickles nicht klappte und einige Tage spaeter die Angelegenheit in Vergessenheit geriet.
Nun zu meiner neuen Frage:
Ich habe mich in PHP eingearbeitet, fuer mich kein grosses Problem, weil ich frueher schon mal in Borland C++ und in anderen Programmiersprachen programmiert habe.
Da ich neugierig bin, habe ich mir ein PHP/Html Programm (oder meinetwegen Makro) geschrieben, mit dem ich fuer jeden Aufruf meiner Homepage u. a. die Server Environment Variable 'HTTP_USER_AGENT' auslesen kann. In der komprimierten Form erhalte ich z. B. Ausdruecke wie:
"Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)" oder
"Mozilla/5.0 (Windows NT 6.0; WOW64; rv:16.0) Gecko/20100101 Firefox/16.0"
Der erste der beiden Strings kommt jedes mal von Mountain View/CA USA waehrend die Art des zweite Strings aus unterschiedlichen Staedten und Laendern kommen kann, auch mit unterschiedlichen Explorern. Ahnliche strings wie der erste sind:
"Mozilla/5.0 (compatible; bingbot/2.0; http://www.bing.com/bingbot.htm)" aus Redmont/WA USA (Microsoft)
"Mozilla/5.0 (compatible; YandexBot/3.0; http://yandex.com/bots)" aus Moskau/Russische Foederation
"Mozilla/5.0 (compatible; Baiduspider/2.0; http://www.baidu.com/search/spider.html)" aus Beijing oder Peking/China,
um nur einige zu nennen.
Meine Frage, gestellt als meine Annahme:
Ist es richtig, dass der Googlebot, der bingbot, der YandexBot und der Baiduspider (auch YahooBot, usw. usw.) nur Anfragen der jeweils dahinter stehenden Suchmaschinen sind, um ihren Index zu aktualisieren und dass keine spezifische Person dahinter steht, die meine Seiten lesen moechte?
Ist es weiterhin richtig, dass die 2. Art der 'HTTP_USER_AGENT' Variable, die einen spezifischen Explorer, wie z. B. den Firefox/16.0 oder den MSIE 9.0 oder andere enthaelt ein Hit einer Person ist, die meine Seiten downloaden und lesen moechte?
Wo kann ich genaueres ueber diese Ereignisse lesen? Die angegebenen links wie z. B. http://www.google.com/bot.html habe ich schon erforscht, aber ohne den Hintergrund oder den Zweck des Aufrufs zu finden.
Was ich eigentlich ausschliesse ist, dass diese Aufrufe durch Suchmaschinenuser hervorgerufen werden. Dann wuerden nicht alle z. B. Google Aufrufe aus Mountain View/California USA kommen, denn Google Suchmaschinen sind weltweit an verschiedenen Orten im Netz. Ich koennte mir aber vorstellen, dass eine zentrale Datenbank in Mountain View vorgehalten wird fuer alle weltweiten Google Suchmaschinen. Seit dem 29.06.2012 bis heute hat Google meine Homepage schon 120 mal angefordert. (Die Internet Explorer brachten es in der gleichen Zeit auf 179 hits.
Die Standorte der aufrufenden Server habe ich uebrigens ueber die aufrufende IP Adresse (Server Variable 'REMOTE_ADDR') ermittelt und ueber APNIC.net (Asia Pacific Network Information Center) ermittelt, von dene ich u. U. umgelenkt werde zu RIPE fuer Europa, ARIN fuer Nordamerika, usw. Die dahinter stehenden Organisationen sind ja diejenigen 'Regional Internet Registries' (RIR), die fuer ihren Teil der Welt die IP Adressen an die ISP vergeben.
MfG
Sigi Saudi

mi~we

Sigi Saudi „Suchmaschine, Crawler, Bot, Spider, etc.“

13.09.2012, 18:07 Optionen

Wo kann ich genaueres ueber diese Ereignisse lesen?

Vielleicht hier:
http://www.useragentstring.com/pages/useragentstring.php

Sigi Saudi

mi~we „Vielleicht...“

14.09.2012, 15:11 Optionen

Hallo mi~we,
Vielen Dank fuer den link, interessante Lektuere!
Ich habe mittlerweile den Link "http://www.google.com/bot.html" noch mal genauer unter die Lupe genommen und da heisst es gleich im ersten Satz (hatte ich bisher wohl ueberlesen):

"Googlebot

Googlebot is Google's web crawling bot (sometimes also called a "spider"). Crawling is the process by which Googlebot discovers new and updated pages to be added to the Google index."

Sinngemaess bedeutet das wohl:
"Googlebot ist Googles Web Crawler (lassen wir das so, denn 'Raupe' oder 'Raupenkette' oder 'Kraulschwimmer' wuerden nicht den Kern des Begriffs, wie hier gebraucht, treffen), (manchmal auch "Spinne" genannt), Crawling ist der Prozess mit dem Google neue und upgedatete Seiten findet und zum Google Index hinzufuegt."

Das heisst also, dass diese hits von Crawlern, Bots, Spider oder wie auch immer von der Suchmaschinenadministration initiiert werden. Hinter solchen Downloads steht also keine Anforderung einer spezifischen Userperson.
Das veraendert meinen Hitcounter dann aber erheblich. Wenn ich diese administrativen Hits meiner Homepage nicht mitzaehle, hatte ich seit dem 29.06.2012 (in 77 Tagen also) nur 393 'Human Hits" die anderen 412 hits (insgesamt 805 hits) waren dann nur Crawler Hits.
Das ist ernuechternd. Aber spinnt man den Gedanken mal zu Ende, dann zaehlen viele Homepage Hit Counter Muell. Ich habe einen untersucht und der zaehlt die Crawler Hits mit und er mach da keinen Unterschied zu 'Human Hits".
Mein eigener PHP counter wird jetzt umgeschrieben, dass er nur 'Human Hits' anzeigt. Die Crawler Hits werde ich auch zaehlen, aber nicht auf der Homepage anzeigen.
MfG
Sigi Saudi
Aus dem monsunnassen Wang Nam Kiaw in Thailand. Es regnet fast taeglich so stark, als ob eine neue Sintflut eingeleitet werden soll. Einige Staedte Thailands melden wieder bis zu 60 cm Hochwasser in den Erdgeschossen.