Googlebot

Googlebots sind Programme, mit denen Google laufend das Internet nach neuen Inhalten absucht. Je leichter du es diesen Bots machst, deine Website nach Content zu durchforsten, desto besser für deine Suchmaschinenoptimierung. Wie Bots oder „Crawler“ genau funktionieren, und wie du deine Website Googlebot-freundlich machen kannst, erfährst du hier.

1. Wie funktioniert der Googlebot?

„Crawler“ sind Programme, die das Internet durchforsten und Informationen beschaffen. Jede Suchmaschine verwendet sie – bei Google nennt man sie „Googlebots“.

 

Die Googlebots navigieren mithilfe von „Links“ durch das Web. Treffen sie dabei das erste Mal auf deine Website, werden sie sie indexieren. Das heißt, sie laden deine Sitemap und deine Inhalte herunter und speichern sie in ihrer Datenbank. Dadurch wissen die Crawler auch, wenn sich Inhalte verändern oder du neue Seiten auf deiner Website hinzufügst. Da man sich dieses Vorgehen auch wie eine Spinne vorstellen kann, die sich von Link zu Link durch das „Web“ bewegt, wird der Bot auch oft „spider“ oder „web spider“ genannt.

googlebot website crawler definition

2. Welche Crawler setzt Google ein?

Jeder Googlebot verfolgt spezielle Inhalte oder Medien, für die er programmiert wurde. Es gibt diese verschiedenen Bots:

Es gibt aber auch noch weitere Bots, z.B. für bezahlte Werbung. Die „AdSense“ und „AdsBot“ Crawler prüfen die Qualität von Paid Ads, während „Mobile Apps Android“ Android-Apps untersucht.

3. So machst du dem Googlebot das Crawling deiner Seite einfach

Damit deine Website in den Google-Suchergebnisse auftaucht, muss sie zuerst vom Googlebot gefunden und analysiert werden.
Je leichter das Crawling-Programm deine Seite lesen kann, desto besser. Wenn alle Inhalte für den Bot gut auffindbar sind, dann steigen deine Chancen auf gute Rankings. Hier sind ein paar Tipps dazu:

Sitemap

Die Sitemap ist das Inhaltsverzeichnis deiner Website. Damit zeigst du dem Googlebot alle relevanten URLs in einer Übersichtsliste. Es gibt Sitemaps für Pages, Bilder und Videos. Stelle sicher, dass alle relevanten Inhalte in diesen Sitemaps enthalten sind. Die Sitemaps selbst solltest du in der robots.txt-Datei hinterlegen. Diese Datei ruft der Googlebot auf, wenn er deine Website besucht. Über die Google Search Console kannst du deine Sitemaps zusätzlich „offiziell“ bei Google einreichen. Das erleichtert es dem Bot ein weiteres Mal, die Sitemaps zu finden. Mit sauber gepflegten Sitemaps steigerst du die Chance darauf, dass Google alle deine Pages findet.

Canonical Tag

Manchmal kommt es vor, dass du gleiche Inhalte auf mehreren Seiten verwendest (z.B. bei für mehrere Länder lokalisiertem Content). Hier besteht die Gefahr, dass Google dies als Duplicate Content (kopierter Inhalt) missversteht. Canonical tags dienen dazu, dem Googlebot mitzuteilen, welche dieser Seiten er präferieren soll.

Interne Verlinkungen

Wenn eine Seite keine einzige interne Verlinkung besitzt, wird es für den Googlebot schwierig, sie zu finden, da er sich ja von Hyperlink zu Hyperlink bewegt. Zusätzlich signalisieren fehlende Links auf eine Seite, dass dir diese Seite nicht wichtig ist. Das würde sich negativ auf die Rankings der Page auswirken. In diesem Fall würde die Seite als „Orphan Page“ (Satelliten-Seite) bezeichnet werden. Stelle also sicher, dass alle Seiten, die in den Suchergebnissen auftauen sollen, auch innerhalb deiner Website gut verlinkt sind.

Prüfe interne Nofollow-Links

Bei jedem Link kann man dem Googlebot mitteilen, ob er dieser Linkspur folgen soll oder nicht. Manchmal möchte man mit Absicht nicht, dass Google dem Link folgt (z.B. bei manchen externen Links). Diese Links werden im Code mit dem „nofollow“-Attribut ausgezeichnet. Das zeigt Google, dass die Zielseite des Links wenig wichtig ist. Prüfe daher deine internen Verlinkungen, ob „dofollow“ oder „nofollow“ gesetzt ist.

Baue hochqualitative Backlinks auf

Backlinks sind Verlinkungen von externen Websites. Der Googlebot wird über diese Links auf deine Website geleitet. Daher ist es hilfreich für deine Seite, wenn du ein gutes Portfolio an hochqualitativen Backlinks aufgebaut hast.

google crawler seo analyse

4. Wie kann ich einzelne Pages für den Googlebot blockieren?

Manche Seiten sollen bewusst nicht indexiert werden. Für diese Seiten kannst du dem Google Bot ausdrücklich signalisieren, dass er sie nicht in seine Datenbank aufnimmt. Aber Achtung: Wenn du diese Signale unbeabsichtigt aussendest, schadest du damit deiner Sichtbarkeit.

 

Diese Signale können sein:

Crawl blocks

Die „robots.txt.“-Datei enthält Anweisungen an alle Crawler. Darin kannst du einzelne Seiten vom Crawling ausschließen.

Noindex-Tags

In den Meta Daten einer jeden Page kannst du mit den „noindex“-tags angeben, dass sie nicht indexiert werden soll.

X-Robots-Tag

Ein weiterer Tag, der im Header platziert wird, der ebenfalls das Indexieren verbietet.
Viele CMS (Content-Management-Systeme) erlauben dir diese Nicht-Indexierung ganz einfach per Häkchen zu definieren. Das macht es erheblich einfacher, deine Seite für Google und Co. zu blockieren.

5. Statusmeldungen zum Crawling in der Google Search Console prüfen

Die kostenlose Google Search Console ist ein sehr hilfreiches Tool, um den Crawling- und Indexierungsstatus bei Google abzufragen.

Dabei hilft dir vor allem der „Index Coverage Report“. In diesem Bericht siehst du alle URLs deiner Website und ihren Indexierungsstatus. Diese können sein:

– Error: Die URL konnte nicht indexiert werden (z.B. wegen eines 404-Fehlers).
– Valid with warnings: Die URL wurde zwar in den Index aufgenommen, beinhaltet aber Fehler, die du dir ansehen solltest.
– Valid: Die URL ist gültig und wurde ohne Probleme indexiert.
– Excluded: Die URL wurde nicht indexiert, weil von deiner Seite ein Signal kam, sie nicht zu indexieren (z.B. noindex-tag).

Das Gute an der Google Search Console: Für die meisten Fehlermeldungen erhältst du gleich Vorschläge und Ansatzpunkte, um das jeweilige Indexierungsproblem zu beheben.

6. Welche Fehler können auftreten?

Server Error (5XX)

Dieser Fehler tritt meist temporär bei einer Serverüberlastung auf. Du solltest aber auf jeden Fall deinem Hosting-Partner oder Serveradministrator Bescheid geben, wenn du einen Server Error findest.

Redirect Error

Fehler bei Weiterleitungen schaden nicht nur dem Crawling, sondern auch dem User auf seinem Weg durch deine Website. Redirect Errors solltest du schnellstmöglich fixen.

Blocked by robots.txt oder marked nofollow

Die Seite wurde (wahrscheinlich irrtümlich) von dir oder deinem Webmaster im CMS ausgeschlossen. Beide dieser Fehler kannst du im Backend deiner Website beheben.

404 und Soft 404

Eine 404-Fehlermeldung bekommst du, wenn die Seite nicht (mehr) existiert und am Server nicht erreichbar ist. Das passiert häufig, wenn URLs umbenannt werden. Ein „Soft 404“ ist eine Seite, die wie eine 404-Seite aussieht, aber keine ist. Der Server liefert dafür noch den Code 200 (=alles ist ok) an den Webbrowser. Google schätzt die Seite aber dennoch als Code 404 ein. Das passiert für Seiten ganz ohne oder mit zu geringem Inhalt. Auch wenn die Seite auf eine andere Seite weiterleitet, kann sie von Google als „Soft 404“ eingestuft werden. In beiden Fällen besteht Handlungsbedarf.

403-Fehler

403-Seiten sind für die Öffentlichkeit gesperrt (z.B. mit einem Login). Das kann Absicht sein. Wenn es nicht der Fall ist, solltest du es ändern.
Wenn du alle Fehler behoben hast, findest du in der Google Search Console auch noch weitere interessante Daten neben dem Index Coverage Report. Z.B. welche Keywords eine Impression deiner Website ausgelöst haben.

Autor

Gründer und Eigentümer, Head of Paid Ads

Thomas ist Gründer und Eigentümer von Webwings. Er optimiert Google Ads und LinkedIn Ads Kampagnen für B2B-Produkte seit 2010. Mehr über Thomas.

b2b google ads agentur 1 1 1

Unterstützung für deine Paid Ads Kampagnen

Wir sind eine auf B2B spezialisierte Google Ads und LinkedIn Ads Agentur. Gerne unterstützen wir dich bei der Optimierung deiner Paid Ads Kampagnen.