Hallo zusammen,
die Feststellungen von kilke uns Bayern-Nils haben mich stutzig gemacht. Wenn man nachschaut, wer alles bei uns reinschaut, kann man feststellen, dass auch mehrere Suchmachinen unsere Seiten durchfosten. Gesten war auch eine russische am Werk. Daher könnten doch die "hohen" Zahlen kommen. Google schreibt dazu folgende Erklärung:
"Googlebot
Der Googlebot ist der Webcrawler (auch "Spider" genannt) von Google.
Crawling wird der Prozess genannt, durch den Googlebot neue und
aktualisierte Seiten ermittelt, damit sie dem Google-Index hinzugefügt
werden.
Wir setzen eine gewaltige Anzahl von Computern ein, die täglich
Milliarden von Webseiten durchsuchen ("crawlen"). Der Googlebot
verwendet einen algorithmischen Prozess. Durch Computerprogramme wird
bestimmt, welche Websites wann und wie oft durchsucht werden und wie
viele Seiten von jeder Website abgerufen werden.
Der Crawling-Prozess des Googlebot beginnt mit einer Liste von
Webseiten-URLs, die aus vorhergehenden Crawling-Prozessen generiert und
mit den von den Webmastern bereitgestellten XML-Sitemap-Daten
vervollständigt wurde. Beim Besuch auf diesen Websites erkennt der
Googlebot Links (SRC and HREF) auf jeder Seite und fügt sie der Liste
der zu crawlenden Seiten hinzu. Neue Websites, Änderungen an bestehenden
Websites und veraltete Links werden ermittelt und zur Aktualisierung
des Google-Indexes verwendet.
Für Webmaster: der Googlebot und Ihre Website
So greift der Googlebot auf Ihre Website zu
In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal
alle paar Sekunden auf Ihre Website zu. Aufgrund von
Netzwerkverzögerungen kann die Frequenz über kurze Zeiträume gesehen
jedoch höher erscheinen. Im Allgemeinen sollte der Googlebot jeweils nur
ein Exemplar der einzelnen Seiten herunterladen. Sollten Sie
feststellen, dass der Googlebot eine Seite mehrfach herunterlädt, liegt
dies möglicherweise daran, dass der Crawler gestoppt und neu gestartet
wurde.
Der Googlebot wurde für die Verteilung auf mehrere Computer
konzipiert, um so analog zum Wachstum des Webs die Leistung verbessern
und den Umfang steigern zu können. Außerdem führen wir, um die benötigte
Bandbreite zu reduzieren, zahlreiche Crawler auf Computern aus, die
sich in der Umgebung der indexierten Websites im Netzwerk befinden. Aus
diesem Grund enthalten Ihre Protokolle möglicherweise Besuche von
mehreren Computern von google.com mit dem User-Agent-Googlebot. Dabei
ist es das Ziel, bei jedem Besuch möglichst viele Seiten Ihrer Website
zu crawlen, ohne die Bandbreite Ihres Servers übermäßig zu beanspruchen.
Fordern Sie eine andere Crawling-Frequenz an.
Sperren des Contents Ihrer Website für den Googlebot
Es ist praktisch unmöglich, einen Webserver geheim zu halten, indem
Sie keine Links zu ihm veröffentlichen. Sobald jemand einem Link von
Ihrem "geheimen" Server zu einem anderen Webserver folgt, kann Ihre
"geheime" URL im Verweis-Tag vorkommen und von dem anderen Webserver in
dessen Verweisprotokoll veröffentlicht werden. Außerdem gibt es im Web
zahlreiche veraltete und fehlerhafte Links. Sollte jemand einen falschen
Link zu Ihrer Website veröffentlichen oder die Links nicht
aktualisieren, wenn sich auf Ihrem Server etwas ändert, versucht der
Googlebot einen falschen Link von Ihrer Website herunterzuladen.
Sie haben mehrere Möglichkeiten, zu verhindern, dass der Googlebot Content Ihrer Website crawlt. Sie können beispielsweise mithilfe von robots.txt den Zugriff auf die Dateien und Verzeichnisse auf Ihrem Server sperren.
Nachdem Sie Ihre "robots.txt"-Datei erstellt haben, dauert es
möglicherweise ein wenig, bis der Googlebot Ihre Änderungen erkennt.
Sollte der Googlebot Content, den Sie über "robots.txt" gesperrt haben,
weiterhin crawlen, überprüfen Sie, ob sich die Datei "robots.txt" am
richtigen Speicherort befindet. Hierbei handelt es sich um das oberste
Verzeichnis des Servers, beispielsweise "www.myhost.com/robots.txt".
Wird die Datei in einem Unterverzeichnis gespeichert, ist sie
wirkungslos.
Falls Sie lediglich verhindern möchten, dass Ihr Webserverprotokoll
Fehlermeldungen des Typs "Datei nicht gefunden" aufweist, können Sie
eine leere Datei namens "robots.txt" erstellen. Möchten Sie jegliche
Verfolgung von Links auf einer Seite Ihrer Website durch den Googlebot
unterbinden, können Sie das Meta-Tag"nofollow" verwenden. Falls Sie verhindern möchten, dass der Googlebot einem einzelnen Link folgt, fügen Sie dem Link selbst das Attribut rel="nofollow" hinzu.
Hier einige weitere Tipps:
- Überprüfen Sie, ob Ihre "robots.txt"-Datei erwartungsgemäß funktioniert. Mit dem Tool zum Testen der "robots.txt"-Datei auf dem Tab Blockierte URLs (robots.txt) auf der Seite Crawler-Zugriff
können Sie genau feststellen, wie der Googlebot den Inhalt Ihrer
"robots.txt"-Datei interpretiert. Der Google-User-Agent ist,
sinnvollerweise, Googlebot. - Mit dem Tool Abruf wie durch Google
in den Webmaster-Tools können Sie Ihre Website genau so sehen, wie sie
der Googlebot sieht. Dies kann bei der Behebung von Problemen mit dem
Content Ihrer Website oder bei der Auffindbarkeit in Suchergebnissen
sehr hilfreich sein.
Sicherstellen, dass Ihre Website gecrawlt werden kann
Der Googlebot findet Websites, indem er den Links von einer Seite zur nächsten folgt. Auf der Crawling-Fehler-Seite
in Webmaster-Tools werden alle Probleme aufgelistet, die der Googlebot
beim Crawlen Ihrer Website festgestellt hat. Es wird empfohlen, diese
Crawling-Fehler regelmäßig zu überprüfen. So können Sie feststellen, ob
es Probleme mit Ihrer Website gibt.
Wenn Sie eine AJAX-Anwendung mit Inhalten ausführen, die Sie in den
Suchergebnissen anzeigen möchten, sollten Sie unser Angebot, AJAX-Content crawl- und indexierbar zu machen, überprüfen.
Falls Ihre "robots.txt"-Datei erwartungsgemäß funktioniert, Ihre Website jedoch nicht besucht wird, finden Sie hier einige Gründe, aus denen Ihr Content bei der Suche keine gute Leistung erzielt.
Probleme mit Spammern und anderen User-Agents
Die vom Googlebot verwendeten IP-Adressen ändern sich von Zeit zu
Zeit. Zugriffe durch den Googlebot identifizieren Sie am einfachsten
mithilfe des User-Agents (Googlebot). Sie können überprüfen, ob der auf Ihren Server zugreifende Bot wirklich der Googlebot ist, indem Sie eine umgekehrte DNS-Suche durchführen.
Der Googlebot und alle seriösen Suchmaschinen-Bots berücksichtigen
die Anweisungen von "robots.txt", einige bösartige Nutzer und Spammer
jedoch nicht. Spam an Google melden
Es gibt einige weitere User-Agents von Google, beispielsweise den
Feedfetcher (User-Agent Feedfetcher-Google). Da die Feedfetcher-Anfragen
nicht von automatisierten Crawlern, sondern aus expliziten Aktionen von
menschlichen Nutzern stammen, die die Feeds Ihrer Google-Startseite oder Google Reader
hinzugefügt haben, befolgt der Feedfetcher die Richtlinien von
"robots.txt" nicht. Sie können das Crawlen Ihrer Website durch den
Feedfetcher unterbinden, indem Sie Ihren Server so konfigurieren, dass
er dem User-Agent Feedfetcher-Google eine Fehlermeldung mit dem Code 404
oder 410 zurückgibt. Weitere Informationen über den Feedfetcher"
Das verstehe, wer will. Vielleich wissen unsere "Techniker" mehr.
Grüße aus Frankfurt
von einem erstaunten hasselbert