Technical SEO

robots.txt: Was die Datei macht und wie du sie richtig einrichtest

Die robots.txt steuert welche Seiten Google crawlen darf. Einfache Anleitung zum Erstellen und häufige Fehler vermeiden.

Bastian Lipka·26. Februar 2026·6 Min. Lesezeit

Jede Webseite hat eine Datei, die Suchmaschinen sagt, welche Bereiche sie besuchen dürfen und welche nicht. Diese Datei heißt robots.txt. Sie ist klein, einfach aufgebaut — und trotzdem sorgt sie regelmäßig für Probleme, weil sie falsch konfiguriert wird. In diesem Artikel erfährst du, was die robots.txt macht, wie du sie erstellst und welche Fehler du unbedingt vermeiden musst.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis deiner Webseite liegt. Wenn ein Suchmaschinen-Crawler — zum Beispiel der Googlebot — deine Seite besucht, prüft er zuerst diese Datei. Sie teilt ihm mit, welche Verzeichnisse und Seiten er crawlen darf und welche nicht.

Die Datei ist über folgende URL erreichbar:

https://www.beispiel.de/robots.txt

Jede öffentliche Webseite sollte eine robots.txt haben. Wenn die Datei nicht existiert, geht Google davon aus, dass alle Seiten gecrawlt werden dürfen. Das ist in vielen Fällen in Ordnung — aber du verlierst die Kontrolle darüber, wie Google mit deiner Seite umgeht.

Prüfe jetzt, ob deine Webseite eine robots.txt hat. Gib dazu einfach deine Domain mit dem Zusatz /robots.txt in die Browser-Adressleiste ein. Wenn du eine Textdatei siehst, ist alles in Ordnung. Wenn du eine Fehlerseite bekommst, solltest du eine erstellen.

Wo liegt die robots.txt?

Die robots.txt muss immer im Stammverzeichnis (Root) deiner Domain liegen. Das bedeutet:

  • Richtig: https://www.beispiel.de/robots.txt
  • Falsch: https://www.beispiel.de/verzeichnis/robots.txt
  • Falsch: https://www.beispiel.de/robots.html

Wenn die Datei nicht im Root-Verzeichnis liegt oder ein anderes Format hat, wird sie von Suchmaschinen ignoriert.

Bei Subdomains hat jede Subdomain ihre eigene robots.txt:

  • https://www.beispiel.de/robots.txt gilt für www.beispiel.de
  • https://blog.beispiel.de/robots.txt gilt für blog.beispiel.de

Die Syntax der robots.txt

Die robots.txt verwendet eine einfache Syntax mit wenigen Befehlen. Hier sind die wichtigsten:

User-agent

Der User-agent gibt an, für welchen Crawler die folgenden Regeln gelten. Ein Sternchen (*) steht für alle Crawler.

User-agent: *

Du kannst auch spezifische Crawler ansprechen:

User-agent: Googlebot
User-agent: Bingbot

Disallow

Disallow verbietet einem Crawler den Zugriff auf bestimmte Pfade:

Disallow: /admin/
Disallow: /warenkorb/
Disallow: /checkout/

Ein leeres Disallow bedeutet: Alles ist erlaubt.

Disallow:

Allow

Allow erlaubt den Zugriff auf bestimmte Pfade innerhalb eines verbotenen Bereichs:

Disallow: /intern/
Allow: /intern/oeffentlich/

In diesem Beispiel ist das gesamte Verzeichnis /intern/ blockiert — außer dem Unterordner /intern/oeffentlich/.

Sitemap

Mit dem Sitemap-Befehl verweist du auf deine XML-Sitemap:

Sitemap: https://www.beispiel.de/sitemap.xml

Dieser Eintrag hilft Suchmaschinen, deine Sitemap schnell zu finden. Mehr dazu erfährst du in unserem Artikel über XML-Sitemaps erstellen.

Beispiel einer typischen robots.txt

Hier ist ein praxisnahes Beispiel für eine typische robots.txt:

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
Disallow: /suche?
Disallow: /api/
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Diese Konfiguration erlaubt Crawlern den Zugriff auf alle öffentlichen Seiten, blockiert aber Admin-Bereiche, den Warenkorb, den Checkout, Nutzerkonten, die interne Suche und API-Endpunkte.

Was solltest du blockieren?

Es gibt Bereiche deiner Webseite, die nicht im Google-Index erscheinen müssen und die du über die robots.txt vom Crawling ausschließen kannst.

Sinnvoll zu blockieren:

  • Admin-Bereiche und Dashboards
  • Warenkorb, Checkout und Nutzerkonten
  • Interne Suchseiten (erzeugen oft Duplicate Content)
  • Staging- und Testumgebungen
  • API-Endpunkte
  • Seiten mit sensiblen Parametern

Nicht blockieren:

  • Deine wichtigen Seiten (Startseite, Produktseiten, Blogartikel)
  • CSS- und JavaScript-Dateien (Google braucht sie zum Rendern deiner Seite)
  • Bilder (es sei denn, du willst sie bewusst aus der Bildersuche fernhalten)

Blockiere niemals CSS- und JavaScript-Dateien über die robots.txt. Google muss deine Seite vollständig rendern können, um sie richtig zu bewerten. Wenn du CSS oder JS blockierst, kann Google dein Layout nicht erkennen — und das kann dein Ranking negativ beeinflussen.

Häufige Fehler bei der robots.txt

Die robots.txt ist einfach — aber genau das macht sie gefährlich. Ein falsches Zeichen kann dafür sorgen, dass deine gesamte Webseite aus dem Google-Index verschwindet.

Fehler 1: Gesamte Webseite blockieren

Der häufigste und schlimmste Fehler:

User-agent: *
Disallow: /

Diese zwei Zeilen blockieren den Zugriff auf deine gesamte Webseite. Kein Crawler kann irgendeine Seite besuchen. Das passiert häufig, wenn eine Staging-Umgebung live geschaltet wird und die robots.txt nicht angepasst wird.

Fehler 2: CSS und JavaScript blockieren

Disallow: /wp-content/themes/
Disallow: /wp-includes/

Diese Regeln blockieren typischerweise CSS- und JS-Dateien in WordPress. Google kann die Seite dann nicht korrekt rendern und bewertet sie möglicherweise schlechter.

Fehler 3: Wichtige Seiten versehentlich blockieren

Manchmal werden Regeln zu breit gefasst. Wenn du beispielsweise /blog blockierst, blockierst du auch /blogartikel/ oder /blog-kategorie/. Prüfe immer die Auswirkungen deiner Regeln.

Fehler 4: robots.txt als Sicherheitsmaßnahme verwenden

Die robots.txt ist kein Sicherheitstool. Sie sagt Crawlern höflich, dass sie bestimmte Bereiche nicht besuchen sollen — aber sie verhindert es nicht. Jeder kann deine robots.txt lesen und sieht genau, welche Verzeichnisse du verstecken willst. Für echten Schutz brauchst du Passwortschutz oder eine Firewall.

Fehler 5: Disallow mit noindex verwechseln

Disallow verhindert das Crawling, aber nicht unbedingt die Indexierung. Wenn eine Seite von einer anderen Seite verlinkt wird, kann Google sie trotzdem indexieren — nur ohne ihren Inhalt zu kennen. Für die Deindexierung brauchst du den noindex-Meta-Tag.

Für ein umfassendes Verständnis, wie Google deine Seiten verarbeitet, empfehle ich unseren Artikel Wie funktioniert die Google-Suche.

robots.txt testen

Bevor du Änderungen an deiner robots.txt live schaltest, solltest du sie testen.

Google Search Console

Die Google Search Console bietet einen robots.txt-Tester. Dort kannst du deine robots.txt hochladen und prüfen, ob bestimmte URLs blockiert oder erlaubt sind. Du findest das Tool unter „Einstellungen" > „robots.txt".

URL-Prüfung

Nutze die URL-Prüfung in der Search Console, um zu testen, ob Google eine bestimmte Seite crawlen kann. Wenn die Seite durch die robots.txt blockiert wird, zeigt das Tool eine entsprechende Warnung an.

Manuell prüfen

Du kannst auch manuell prüfen, ob deine robots.txt korrekt funktioniert. Öffne die URL in deinem Browser und überprüfe die Regeln visuell. Achte besonders auf:

  • Steht Disallow: / irgendwo ohne Einschränkung?
  • Sind wichtige Verzeichnisse versehentlich blockiert?
  • Ist die Sitemap-URL korrekt verlinkt?

Nach jeder Änderung an der robots.txt solltest du in der Google Search Console eine erneute Prüfung durchführen. Änderungen wirken sich nicht sofort aus — Google muss die Datei zuerst neu abrufen. Das kann einige Tage dauern.

robots.txt für verschiedene CMS

WordPress

WordPress erstellt automatisch eine virtuelle robots.txt. Du kannst sie über Plugins wie Yoast SEO oder Rank Math anpassen, oder du erstellst eine physische robots.txt-Datei im Root-Verzeichnis deiner Installation.

Shopify

Shopify erlaubt seit 2021 die Bearbeitung der robots.txt über die Datei robots.txt.liquid im Theme. Standardmäßig blockiert Shopify bereits Admin- und Checkout-Bereiche.

Statische Seiten

Bei statischen Seiten erstellst du einfach eine Textdatei namens robots.txt und legst sie im Root-Verzeichnis ab.

Wenn du gerade erst mit SEO anfängst, findest du eine umfassende Übersicht in unserem SEO-Leitfaden für Anfänger.

robots.txt und Crawl-Budget

Die robots.txt hilft dir, dein Crawl-Budget zu optimieren. Google hat für jede Webseite ein begrenztes Budget an Seiten, die es in einem bestimmten Zeitraum crawlt. Wenn du unwichtige Seiten blockierst, kann Google seine Ressourcen auf deine wichtigen Seiten konzentrieren.

Das ist besonders relevant für große Webseiten mit Tausenden von Seiten. Kleine Webseiten mit unter 1.000 Seiten haben in der Regel keine Crawl-Budget-Probleme.

Ein kostenloser SEO-Check zeigt dir, ob deine robots.txt korrekt konfiguriert ist und ob es Probleme mit der Indexierung gibt.

Fazit

Die robots.txt ist eine einfache, aber mächtige Datei. Sie steuert, welche Bereiche deiner Webseite von Suchmaschinen gecrawlt werden dürfen. Die Syntax ist unkompliziert: Mit User-agent, Disallow, Allow und Sitemap deckst du alle wichtigen Anwendungsfälle ab. Achte darauf, Admin-Bereiche und interne Suchseiten zu blockieren, aber niemals wichtige Inhalte oder CSS- und JavaScript-Dateien. Teste jede Änderung in der Google Search Console, bevor sie live geht, und verwechsle die robots.txt nicht mit einem Sicherheitstool oder einem noindex-Ersatz. Richtig eingerichtet, hilft sie Google, deine Webseite effizienter zu crawlen und deine wichtigen Seiten besser zu indexieren.

Hat dir dieser Artikel geholfen?

Finde heraus wie gut deine Webseite abschneidet — kostenlos und in 30 Sekunden.

Jetzt SEO-Score prüfen

Oder starte direkt die vollständige Analyse für 30 €