Crawling – Was ist Crawling?

Zurück zum Glossar

Crawling bezeichnet den Prozess, bei dem Suchmaschinen-Bots (Crawler) systematisch das Internet durchsuchen und Webseiten erfassen. Es ist der erste Schritt, bevor eine Seite indexiert und in den Suchergebnissen angezeigt werden kann.

Was ist Crawling?

Crawling ist der automatisierte Prozess, bei dem Suchmaschinen-Bots — auch Spider oder Crawler genannt — das Internet systematisch nach Webseiten durchsuchen. Googles Crawler heißt "Googlebot" und besucht täglich Milliarden von Seiten.

Der Crawler folgt Links von Seite zu Seite, ähnlich wie ein Mensch, der von Link zu Link klickt. Dabei erfasst er den Inhalt jeder Seite und sendet ihn zur Verarbeitung an Googles Server. Erst nach dem Crawling kann eine Seite im Google-Index aufgenommen und in den SERPs angezeigt werden.

Was ist das Crawl Budget?

Das Crawl Budget beschreibt, wie viele Seiten einer Website der Googlebot innerhalb eines bestimmten Zeitraums crawlt. Es wird durch zwei Faktoren bestimmt: das Crawl Rate Limit (wie häufig Google crawlen kann, ohne den Server zu überlasten) und den Crawl Demand (wie wichtig Google das Crawling einschätzt).

Für kleinere Websites (unter 10.000 Seiten) ist das Crawl Budget selten ein Problem. Für große Websites, Online-Shops und Portale kann ein begrenztes Crawl Budget dazu führen, dass wichtige Seiten nicht oder nur selten gecrawlt werden — und somit nicht im Index landen.

Crawling für SEO optimieren

Maßnahmen zur Crawling-Optimierung: Erstellen Sie eine aktuelle XML-Sitemap und reichen Sie sie in der Google Search Console ein. Nutzen Sie die robots.txt, um unwichtige Bereiche vom Crawling auszuschließen. Sorgen Sie für schnelle Ladezeiten — je schneller der Server antwortet, desto mehr Seiten kann Google crawlen.

Vermeiden Sie tote Links (404-Fehler), Redirect-Ketten und Duplicate Content, die das Crawl Budget verschwenden. Eine saubere interne Verlinkung hilft dem Crawler, alle wichtigen Seiten zu finden. Setzen Sie Canonical Tags, damit Google keine Ressourcen auf Duplikate verschwendet.

Crawling steuern und optimieren

Die robots.txt-Datei im Root-Verzeichnis Ihrer Website steuert, welche Bereiche Suchmaschinen crawlen dürfen. Sie können damit bestimmte Verzeichnisse, Dateitypen oder einzelne URLs vom Crawling ausschließen. Wichtig: Die robots.txt verhindert das Crawling, nicht die Indexierung. Wenn andere Websites auf eine per robots.txt gesperrte Seite verlinken, kann Google sie trotzdem indexieren — nur ohne den Inhalt zu kennen.

Für die Crawl-Steuerung stehen weitere Werkzeuge zur Verfügung: Die XML-Sitemap zeigt Google alle wichtigen URLs. Das Meta-Robots-Tag steuert die Indexierung einzelner Seiten. Die Google Search Console zeigt Crawl-Statistiken und Fehler.

Bei großen Websites (10.000+ Seiten) ist das Crawl-Budget ein kritischer Faktor. Googlebot hat für jede Website eine begrenzte Crawl-Rate. Verschwendetes Crawl-Budget durch doppelte URLs, Parameter-Seiten oder irrelevante Archivseiten bedeutet, dass wichtige neue Inhalte langsamer entdeckt werden. Nutzen Sie Canonical Tags und noindex-Direktiven, um das Budget auf Ihre wertvollsten Seiten zu konzentrieren.

Professionelle SEO-Beratung

Wir analysieren Ihre Website und entwickeln eine individuelle Strategie für mehr Sichtbarkeit bei Google.

Kostenlose Analyse Jetzt anrufen

Häufige Fragen

Die Crawling-Frequenz variiert stark. Populäre Nachrichtenseiten werden mehrmals täglich gecrawlt, kleine Websites möglicherweise nur wöchentlich. Sie können die Crawling-Statistiken in der Google Search Console unter 'Einstellungen > Crawling-Statistiken' einsehen.

Ja, über die Google Search Console können Sie einzelne URLs zum Crawling einreichen ('URL-Prüfung > Indexierung beantragen'). Für größere Änderungen reichen Sie eine aktualisierte Sitemap ein. Google garantiert aber kein sofortiges Crawling.

Crawling ist das Erfassen einer Seite durch den Bot. Indexierung ist die Aufnahme in Googles Datenbank. Eine gecrawlte Seite wird nicht automatisch indexiert — Google entscheidet basierend auf Qualität und Relevanz, ob eine Seite in den Index aufgenommen wird.

Crawling (Website-Crawling durch Suchmaschinen)