Googlebot

  • 0

Googlebot

Der Googlebot ist der Googles Crawler oder Spider, ein Programm, mit dem Google permanent das Web auf neue oder aktualisierte Seiten hin crawlt.

Der Googlebot folgt in der Regel allen Links, die er auf einer Website finden kann, es sei denn, das Programm wird über den rel="nofollow" Tag angewiesen, diesem Hyperlink nicht zu folgen. Aber auch auf einer Website mit zahlreichen Unterseiten kann es vorkommen, dass der Googlebot nicht alle Seiten indexieren kann, weil er sie nicht finden kann. Das kann der Fall sein, wenn eine neue Unterseite erstellt wird, die etwa nirgends auf derselben Seite referenziert wird, oder der Tree über die robots.txt blockiert wird oder keine Sitemap vorhanden ist.

Unterseiten per robots.txt blockieren

Es kann Sinn machen, Unterseiten explizit aus dem Google-Index auszuschließen, weil diese keine relevanten Daten enthalten, oder nur Programm-Dateien, die für den Betrieb des CMS wichtig sind, oder aber nicht öffentlich zugänglich sein sollen. Dann würde ein Password Schutz oder ein Extranet zwar die korrektere Lösung sein, aber trotzdem kann es auch SEO-mäßig Sinn machen, solche Unterbereiche einer Website in der robots.txt komplett per disallow zu sperren, um Crawling-Time bei Google zu sparen. Denn obwohl die Suchmaschine Google riesige Rechenzentren unterhält, hat der Googlebot doch jede Menge Seiten zu crawlen, so dass für jede nur eine gewissen Crawltime bleibt. Hat man jetzt einen riesigen Index an irrelevanten Seiten, so kann man hier Googles Crawler direkt auf die einem wichtigen Seiten per Ausschlussverfahren leiten.

XML Sitemap anlegen und bei Search Console einreichen

Auch sollte jede moderne eine automatisch erstellte und dynamisch aktualisierte Sitemap.xml haben, fast alle CMS bieten das von Haus oder per Plugin an. Alternativ gibt es auch Webdienste, die statische XML-Sitemaps generieren können, indem Sie – ganz ähnlich dem Googlebot – allen Links einer Startdomain folgen und die gefundenen Unterseiten in einer Liste zusammenfassen, der XML Sitemap.

Nach dem Sitemaps-XML-Format gibt es hier noch eine Reihe weiterer Möglichkeiten, wie über die (optionalen) XML Tags der Googlebot angewiesen werden kann, sich auf die einem wichtigen Unterseiten zu konzentrieren.

Struktur einer XML Sitemap und Auswirkungen auf das Crawling durch den Googlebot

Die XML Sitemap fasst mit dem Tag <urlset> die Datei zusammen, in der alle gefundenen oder zu indexierenden URLs mit einem Tag <url> eingefasst werden. Innerhalb dieser <url> Tags gibt es weitere, für den Googlebot relevante Tags

<lastmod> gibt an, wann der Inhalt dieser URL zuletzt geändert wurde (in der Regel nur Datum)

<changefreq> Dieses Tag gibt an, wie oft sich der Inhalt dieser URL voraussichtlich ändert. Dieses Tag kann verschiedene Werte haben:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

Wobei es beispielsweise für eine News-Seite mit sich häufig ändernder Startseite Sinn machen kann, dieser den Wert always zuzuweisen. Eine Glossar-Seite wie diese hier wird beispielsweise so gut wie nie geändert werden. Ausserdem handelt es sich quasi um Empfehlungen, der Googlbot muss sich also nicht daran halten und es ist davon auszugehen, dass auch mit never gekennzeichnete URLs ab und zu gecrawlt werden, einfach um den Google Index aktuell zu halten und ggf. einmal eingelesene, aber nicht mehr existente Unterseite auszusortieren.

<priority> weist der URL der Unterseite eine Priorität aus Sicht des Inhabers zu. Diese kann einen beliebigen Wert zwischen 0 (niedrig) und 1 (hoch) haben und soll dem Googlebot klar machen, welche URLs die Ihnen wichtigen sind.

Vor allem mit <changefreq> und <priority> lässt sich die Aufmerksamkeit des Googlebots gut steuern und die knappe Crawl-Zeit gut nutze. Stellen Sie sich ein großes Portal mit zigtausenden URLs vor und der Googlebot würde stur der Reihe nach vorgehen, nach 10% aller Seiten wäre die Crawltime aufgebraucht und die restlichen 90% des Eisbergs würden nie sichtbar und nicht indexiert werden. Deshalb kann es sich aus SEO-Sicht lohnen, bei sehr großen Sites, den Webcrawler so zu steuern, dass gewährleistet ist, dass alle wichtigen Unterseiten eingelesen werden und alles was sich selten bis nie ändert nicht unnötig Rechenleistung frisst.

 


Sie benötigen Hilfe?

Mit * gekennzeichnete Felder sind Pflichtangaben
Durch Absenden des Formulars bestätigen Sie, unsere Datenschutzerklärung zur Kenntnis genommen zu haben

Das könnte Sie auch interessieren

KONTAKT