Die robots.txt ist eine der grundlegendsten Dateien im Bereich der technischen Suchmaschinenoptimierung. Sie steuert, welche Bereiche Ihrer Website von Suchmaschinen-Crawlern besucht werden dürfen. Eine fehlerhafte robots.txt kann dazu führen, dass wichtige Seiten nicht indexiert werden — oder dass sensible Bereiche für Crawler offen stehen.
Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis einer Website liegt (also unter beispiel.de/robots.txt). Sie basiert auf dem Robots Exclusion Protocol (REP), einem Standard aus dem Jahr 1994, der regelt, wie Webcrawler mit Websites umgehen sollen.
Wenn ein Suchmaschinen-Crawler wie der Googlebot eine Website besucht, prüft er zuerst die robots.txt. Dort steht, welche Verzeichnisse und Dateien der Crawler besuchen darf und welche nicht. Wichtig: Die robots.txt ist eine Empfehlung, keine Zugriffssperre. Seriöse Crawler wie Google und Bing halten sich daran, bösartige Bots ignorieren sie möglicherweise.
Aufbau und Syntax der robots.txt
Die robots.txt besteht aus einfachen Anweisungen. Die wichtigsten Befehle sind:
| Befehl | Bedeutung | Beispiel |
|---|---|---|
| User-agent | Legt fest, für welchen Crawler die Regel gilt | User-agent: Googlebot |
| Disallow | Sperrt einen Pfad für den Crawler | Disallow: /admin/ |
| Allow | Erlaubt einen Pfad explizit (trotz übergeordnetem Disallow) | Allow: /admin/public/ |
| Sitemap | Verweist auf die XML-Sitemap | Sitemap: /sitemap.xml |
| Crawl-delay | Pause zwischen Anfragen (nicht von Google unterstützt) | Crawl-delay: 10 |
Ein Sternchen (*) als User-agent bedeutet, dass die Regel für alle Crawler gilt. Ein leerer Disallow-Wert (Disallow:) erlaubt das Crawlen aller Seiten.
Praxis-Beispiele für die robots.txt
Hier sind typische Konfigurationen, die in der Praxis häufig verwendet werden:
Beispiel 1: Alles erlauben
User-agent: *
Disallow:
Sitemap: https://beispiel.de/sitemap.xml
Beispiel 2: Admin-Bereich und Suchseiten sperren
User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Disallow: /warenkorb/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://beispiel.de/sitemap.xml
Beispiel 3: Bestimmte Crawler ausschliessen
User-agent: GPTBot
Disallow: /
User-agent: *
Disallow: /intern/
Sitemap: https://beispiel.de/sitemap.xml
SEO-Bedeutung der robots.txt
Die robots.txt spielt eine wichtige Rolle für das Crawl-Budget. Jede Website hat ein begrenztes Crawl-Budget — also eine begrenzte Anzahl von Seiten, die Google pro Besuch crawlt. Durch gezielte Disallow-Regeln können Sie sicherstellen, dass Google seine Zeit nicht mit unwichtigen Seiten verschwendet.
Typische Seiten, die Sie vom Crawling ausschliessen sollten:
- Admin-Bereiche und Backend-Verzeichnisse
- Interne Suchseiten (erzeugen Duplicate Content)
- Warenkörbe und Checkout-Seiten
- Filter- und Sortierungsparameter bei Online-Shops
- Staging- und Testumgebungen
Häufige Fehler bei der robots.txt
Fehler in der robots.txt können gravierende Auswirkungen auf Ihre Sichtbarkeit haben. Die häufigsten Probleme sind:
Gesamte Website blockiert: Ein Disallow: / bei User-agent: * sperrt die komplette Website für alle Crawler. Dies passiert oft versehentlich nach einem Relaunch, wenn die Staging-robots.txt übernommen wird.
CSS und JavaScript blockiert: Wenn Sie CSS- und JS-Dateien blockieren, kann Google Ihre Seite nicht korrekt rendern. Das beeinträchtigt die Bewertung der Core Web Vitals und das mobile Rendering.
robots.txt statt noindex: Die robots.txt verhindert das Crawling, nicht die Indexierung. Für eine echte De-Indexierung benötigen Sie den Meta-Tag noindex.
Praxis-Tipps für die optimale robots.txt
- Verweisen Sie immer auf Ihre Sitemap: Fügen Sie am Ende der robots.txt den Pfad zu Ihrer XML-Sitemap ein.
- Testen Sie Änderungen: Nutzen Sie die Google Search Console, um Ihre robots.txt zu validieren, bevor Sie sie live schalten.
- Halten Sie es einfach: Komplexe Regelwerke sind fehleranfällig. Blockieren Sie nur, was wirklich nötig ist.
- Überwachen Sie regelmässig: Prüfen Sie nach jedem Relaunch oder grösseren Update, ob die robots.txt noch korrekt ist.
Technisches SEO-Audit für Ihre Website
Wir prüfen Ihre robots.txt, Sitemap und alle technischen SEO-Faktoren — kostenlos und unverbindlich.
Häufige Fragen zur robots.txt
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie crawlen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol.
Die robots.txt muss immer im Stammverzeichnis (Root) der Domain liegen, also unter beispiel.de/robots.txt. Nur dort wird sie von Suchmaschinen erkannt und ausgelesen.
Nein, die robots.txt verhindert nur das Crawlen, nicht die Indexierung. Wenn eine Seite bereits indexiert ist oder über externe Links gefunden wird, kann Google sie trotzdem im Index behalten. Für eine De-Indexierung benötigen Sie den Meta-Tag noindex.
Ohne robots.txt crawlen Suchmaschinen alle zugänglichen Bereiche Ihrer Website. Das ist in den meisten Fällen unproblematisch, kann aber dazu führen, dass unnötige Seiten wie Admin-Bereiche oder Duplikate gecrawlt werden.
Sie können Ihre robots.txt direkt in der Google Search Console testen. Das Tool zeigt Ihnen, ob bestimmte URLs blockiert werden und ob es Syntaxfehler gibt.