robots.txt & Sitemap — Anwendungsbeispiele

Praxisnahe Durchläufe mit robots.txt & Sitemap: eine WordPress-robots.txt bauen, KI-Crawler blocken, eine Sitemap erzeugen und eine fremde Datei live prüfen.

Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/

Das Manual erklärt jeden Tab und jede Option im Detail. Diese Seite ergänzt das um konkrete Arbeitsabläufe: typische Aufgaben, Schritt für Schritt durchgespielt. Die Oberfläche des Tools ist auf Englisch — Tab- und Button-Namen stehen deshalb in ihrer englischen Original-Schreibweise, bei Bedarf mit deutscher Erläuterung.

Beispiel 1: Eine robots.txt für WordPress bauen

Der Klassiker — eine saubere robots.txt für eine typische WordPress-Site.

  1. Öffne das Tool, geh in den Examples-Tab und klick bei WordPress auf Load into Generator. Das Formular springt in den robots.txt-Tab und ist mit der WordPress-Vorlage gefüllt.
  2. Schau dir den Block User-agent: * an: Er blockt /wp-admin/, gibt aber gezielt /wp-admin/admin-ajax.php per Allow frei (das braucht WordPress für Funktionen im Frontend) und blockt /wp-includes/, /wp-content/plugins/, /wp-content/cache/ sowie die Suchanfrage-Parameter /?s= und /?p=.
  3. Passe die Sitemap-URL an. Die Vorlage trägt https://example.com/sitemap_index.xml ein (der typische Name bei den großen WordPress-SEO-Plugins). Trag deine echte Domain ein.
  4. Prüf die Vorschau rechts, dann Copy oder Download. Lade die Datei in dein Web-Root, sodass sie unter https://deine-domain.de/robots.txt erreichbar ist.

Wichtig: Blockier nie pauschal /wp-content/ — darin liegen auch deine Bilder und oft CSS/JS, die Google zum Rendern braucht. Die Vorlage blockt bewusst nur plugins/ und cache/.

Beispiel 2: KI-Crawler blocken, Suchmaschinen erlauben

Du willst in klassischen Suchmaschinen sichtbar bleiben, aber nicht, dass KI-Crawler deine Inhalte fürs Training abgreifen.

  1. Im Examples-Tab bei Block AI & Scraper Bots auf Load into Generator klicken.
  2. Die Vorlage legt einen offenen Block User-agent: * mit leerem Disallow: an (alle dürfen) — und darunter je einen eigenen Block mit Disallow: / für die KI-Crawler GPTBot, ChatGPT-User, OAI-SearchBot, CCBot, anthropic-ai, Claude-Web, Bytespider und PerplexityBot.
  3. Ergänze fehlende Bots nach Bedarf. Über Add User-agent Block kannst du weitere KI-Crawler hinzufügen — das Autovervollständigen-Feld schlägt unter anderem ClaudeBot, Google-Extended, Applebot-Extended, meta-externalagent und cohere-ai vor. Setz in jedem neuen Block eine Regel Disallow: /.
  4. Copy/Download, hochladen, fertig.

Zwei ehrliche Hinweise: Erstens respektiert nicht jeder Bot die robots.txt — sie ist eine freiwillige Policy, keine technische Sperre. Zweitens schließt das Blocken von Google-Extended (Gemini-Training) Googles normale Suche nicht aus; die läuft weiter über Googlebot. Welche Bots welchem Zweck dienen, steht in der Reference-Tabelle des Tools.

Beispiel 3: Eine XML-Sitemap von Hand zusammenstellen

Für eine kleinere Site ohne Sitemap-Plugin baust du die Datei direkt im Tool.

  1. Wechsle in den Sitemap-Tab. Trag oben bei Base URL deine Domain ein (z. B. https://deine-domain.de).
  2. Über Add URL fügst du je eine Zeile pro Seite hinzu. Pro Zeile: den Path (z. B. /, /leistungen/, /kontakt/), optional ein Last Modified-Datum, eine Freq. und eine Priority.
  3. Setz die Priority relativ. Üblich: 1.0 für die Startseite, 0.80.9 für wichtige Bereichsseiten, 0.5 für statische Unterseiten. Das ist eine Rangfolge innerhalb deiner Site, kein Ranking-Faktor gegenüber anderen Websites.
  4. lastmod nur setzen, wenn du das Datum wirklich kennst. Ein erfundenes Änderungsdatum schadet mehr, als es nutzt — lass das Feld sonst leer.
  5. Per Drag-and-drop am Griff-Symbol bringst du die Zeilen in die gewünschte Reihenfolge. Dann Copy oder Download und die Datei als sitemap.xml ins Web-Root legen.

Tipp: Reich die Sitemap anschließend in der Google Search Console und den Bing Webmaster Tools ein — der Hinweis dazu steht auch direkt unter dem Editor.

Beispiel 4: Die robots.txt einer fremden Domain prüfen

Du willst wissen, wie eine bestehende Site (deine eigene oder die eines Wettbewerbers) ihre Crawler steuert.

  1. Geh in den Check robots.txt-Tab, gib eine Domain ein (z. B. example.com/robots.txt wird automatisch ergänzt) und klick Check.
  2. Lies zuerst die Per-Bot-Access-Tabelle. Sie zeigt für über 40 bekannte Bots auf einen Blick Allowed oder Blocked. Die Spalte Source verrät, woher die Entscheidung kommt: Specific (eigener Block für genau diesen Bot), Wildcard * (über den User-agent: *-Block) oder Default (keine passende Regel — also erlaubt).
  3. Achte auf die KI-Zeilen (Typ AI): Sperrt die Site GPTBot, ClaudeBot, PerplexityBot & Co. aus? Das ist genau die Information, die du auch für die eigene GEO-Strategie brauchst.
  4. Teste eine konkrete URL. Im Block Test a URL against these rules gibst du einen Pfad (z. B. /blog/mein-artikel) und einen User-agent (z. B. Googlebot) ein — das Tool sagt dir, ob die Datei den Zugriff erlaubt oder blockiert und welche Regel greift.
  5. Unter Sitemaps declared stehen die in der Datei verlinkten Sitemaps. Über den check-Button daneben springst du direkt in die Sitemap-Prüfung (siehe nächstes Beispiel).

Beispiel 5: Eine Sitemap validieren und auf Spec-Grenzen prüfen

Du willst sichergehen, dass deine sitemap.xml sauber und vollständig ist.

  1. Im Check Sitemap-Tab Domain oder volle Sitemap-URL eingeben und Check klicken. (Oder du kommst über den check-Button aus der robots.txt-Prüfung direkt hierher.)
  2. Schau auf die Spec-Warnungen. Das Tool warnt, sobald die Datei über 50.000 URLs oder 50 MB hinausgeht — dann musst du auf mehrere Dateien plus eine Index-Datei aufteilen.
  3. Lies die Metadata-coverage-Tabelle. Sie zeigt mit Fortschrittsbalken, bei wie viel Prozent der URLs lastmod, changefreq und priority gesetzt sind. Niedrige lastmod-Abdeckung ist nicht per se schlecht — aber wenn du Aktualität signalisieren willst, ist hier Luft.
  4. In der URLs-Tabelle siehst du die ersten 100 Einträge. Über Copy all URLs holst du dir die vollständige Liste (auch über 100 hinaus) in die Zwischenablage — praktisch für einen Abgleich mit deinem CMS.

Beispiel 6: Eine Sitemap-Index-Datei aufdröseln

Große Sites verteilen ihre URLs auf mehrere Sitemaps, die eine Index-Datei bündelt.

  1. Gib im Check Sitemap-Tab die URL der Index-Datei ein (oft …/sitemap_index.xml) und klick Check.
  2. Das Tool erkennt automatisch, dass es sich um eine Sitemap-Index-Datei handelt, und listet die Kind-Sitemaps mit ihrem optionalen lastmod auf.
  3. Prüf einzelne Kind-Sitemaps weiter. Neben jeder steht ein Check-Button, der diese Datei lädt und im Detail analysiert (URL-Anzahl, Metadaten-Abdeckung, Spec-Warnungen).

So arbeitest du dich vom Index bis zur einzelnen URL durch — ohne die Dateien selbst öffnen zu müssen. (Zum Bauen einer Sitemap nimmst du übrigens den Generator aus Beispiel 3; der Import-Knopf des Generators verarbeitet bewusst nur einzelne Sitemaps, keine Index-Dateien.)


Noch tiefer: die Übersicht zum großen Bild, das Manual für jede Option im Detail und die Tipps & Tricks für Strategie und Stolperfallen. Ausprobieren kannst du alles direkt im Tool.