robots.txt & Sitemap — Anwendungsbeispiele
Praxisnahe Durchläufe mit robots.txt & Sitemap: eine WordPress-robots.txt bauen, KI-Crawler blocken, eine Sitemap erzeugen und eine fremde Datei live prüfen.
Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/
Das Manual erklärt jeden Tab und jede Option im Detail. Diese Seite ergänzt das um konkrete Arbeitsabläufe: typische Aufgaben, Schritt für Schritt durchgespielt. Die Oberfläche des Tools ist auf Englisch — Tab- und Button-Namen stehen deshalb in ihrer englischen Original-Schreibweise, bei Bedarf mit deutscher Erläuterung.
Beispiel 1: Eine robots.txt für WordPress bauen
Der Klassiker — eine saubere robots.txt für eine typische WordPress-Site.
- Öffne das Tool, geh in den Examples-Tab und klick bei WordPress auf Load into Generator. Das Formular springt in den robots.txt-Tab und ist mit der WordPress-Vorlage gefüllt.
- Schau dir den Block
User-agent: *an: Er blockt/wp-admin/, gibt aber gezielt/wp-admin/admin-ajax.phpperAllowfrei (das braucht WordPress für Funktionen im Frontend) und blockt/wp-includes/,/wp-content/plugins/,/wp-content/cache/sowie die Suchanfrage-Parameter/?s=und/?p=. - Passe die Sitemap-URL an. Die Vorlage trägt
https://example.com/sitemap_index.xmlein (der typische Name bei den großen WordPress-SEO-Plugins). Trag deine echte Domain ein. - Prüf die Vorschau rechts, dann Copy oder Download. Lade die Datei in dein Web-Root, sodass sie unter
https://deine-domain.de/robots.txterreichbar ist.
Wichtig: Blockier nie pauschal /wp-content/ — darin liegen auch deine Bilder und oft CSS/JS, die Google zum Rendern braucht. Die Vorlage blockt bewusst nur plugins/ und cache/.
Beispiel 2: KI-Crawler blocken, Suchmaschinen erlauben
Du willst in klassischen Suchmaschinen sichtbar bleiben, aber nicht, dass KI-Crawler deine Inhalte fürs Training abgreifen.
- Im Examples-Tab bei Block AI & Scraper Bots auf Load into Generator klicken.
- Die Vorlage legt einen offenen Block
User-agent: *mit leeremDisallow:an (alle dürfen) — und darunter je einen eigenen Block mitDisallow: /für die KI-CrawlerGPTBot,ChatGPT-User,OAI-SearchBot,CCBot,anthropic-ai,Claude-Web,BytespiderundPerplexityBot. - Ergänze fehlende Bots nach Bedarf. Über Add User-agent Block kannst du weitere KI-Crawler hinzufügen — das Autovervollständigen-Feld schlägt unter anderem
ClaudeBot,Google-Extended,Applebot-Extended,meta-externalagentundcohere-aivor. Setz in jedem neuen Block eine RegelDisallow: /. - Copy/Download, hochladen, fertig.
Zwei ehrliche Hinweise: Erstens respektiert nicht jeder Bot die robots.txt — sie ist eine freiwillige Policy, keine technische Sperre. Zweitens schließt das Blocken von Google-Extended (Gemini-Training) Googles normale Suche nicht aus; die läuft weiter über Googlebot. Welche Bots welchem Zweck dienen, steht in der Reference-Tabelle des Tools.
Beispiel 3: Eine XML-Sitemap von Hand zusammenstellen
Für eine kleinere Site ohne Sitemap-Plugin baust du die Datei direkt im Tool.
- Wechsle in den Sitemap-Tab. Trag oben bei Base URL deine Domain ein (z. B.
https://deine-domain.de). - Über Add URL fügst du je eine Zeile pro Seite hinzu. Pro Zeile: den Path (z. B.
/,/leistungen/,/kontakt/), optional ein Last Modified-Datum, eine Freq. und eine Priority. - Setz die Priority relativ. Üblich:
1.0für die Startseite,0.8–0.9für wichtige Bereichsseiten,0.5für statische Unterseiten. Das ist eine Rangfolge innerhalb deiner Site, kein Ranking-Faktor gegenüber anderen Websites. lastmodnur setzen, wenn du das Datum wirklich kennst. Ein erfundenes Änderungsdatum schadet mehr, als es nutzt — lass das Feld sonst leer.- Per Drag-and-drop am Griff-Symbol bringst du die Zeilen in die gewünschte Reihenfolge. Dann Copy oder Download und die Datei als
sitemap.xmlins Web-Root legen.
Tipp: Reich die Sitemap anschließend in der Google Search Console und den Bing Webmaster Tools ein — der Hinweis dazu steht auch direkt unter dem Editor.
Beispiel 4: Die robots.txt einer fremden Domain prüfen
Du willst wissen, wie eine bestehende Site (deine eigene oder die eines Wettbewerbers) ihre Crawler steuert.
- Geh in den Check robots.txt-Tab, gib eine Domain ein (z. B.
example.com—/robots.txtwird automatisch ergänzt) und klick Check. - Lies zuerst die Per-Bot-Access-Tabelle. Sie zeigt für über 40 bekannte Bots auf einen Blick
AllowedoderBlocked. Die Spalte Source verrät, woher die Entscheidung kommt:Specific(eigener Block für genau diesen Bot),Wildcard *(über denUser-agent: *-Block) oderDefault(keine passende Regel — also erlaubt). - Achte auf die KI-Zeilen (Typ
AI): Sperrt die SiteGPTBot,ClaudeBot,PerplexityBot& Co. aus? Das ist genau die Information, die du auch für die eigene GEO-Strategie brauchst. - Teste eine konkrete URL. Im Block Test a URL against these rules gibst du einen Pfad (z. B.
/blog/mein-artikel) und einen User-agent (z. B.Googlebot) ein — das Tool sagt dir, ob die Datei den Zugriff erlaubt oder blockiert und welche Regel greift. - Unter Sitemaps declared stehen die in der Datei verlinkten Sitemaps. Über den check-Button daneben springst du direkt in die Sitemap-Prüfung (siehe nächstes Beispiel).
Beispiel 5: Eine Sitemap validieren und auf Spec-Grenzen prüfen
Du willst sichergehen, dass deine sitemap.xml sauber und vollständig ist.
- Im Check Sitemap-Tab Domain oder volle Sitemap-URL eingeben und Check klicken. (Oder du kommst über den check-Button aus der robots.txt-Prüfung direkt hierher.)
- Schau auf die Spec-Warnungen. Das Tool warnt, sobald die Datei über 50.000 URLs oder 50 MB hinausgeht — dann musst du auf mehrere Dateien plus eine Index-Datei aufteilen.
- Lies die Metadata-coverage-Tabelle. Sie zeigt mit Fortschrittsbalken, bei wie viel Prozent der URLs
lastmod,changefrequndprioritygesetzt sind. Niedrigelastmod-Abdeckung ist nicht per se schlecht — aber wenn du Aktualität signalisieren willst, ist hier Luft. - In der URLs-Tabelle siehst du die ersten 100 Einträge. Über Copy all URLs holst du dir die vollständige Liste (auch über 100 hinaus) in die Zwischenablage — praktisch für einen Abgleich mit deinem CMS.
Beispiel 6: Eine Sitemap-Index-Datei aufdröseln
Große Sites verteilen ihre URLs auf mehrere Sitemaps, die eine Index-Datei bündelt.
- Gib im Check Sitemap-Tab die URL der Index-Datei ein (oft
…/sitemap_index.xml) und klick Check. - Das Tool erkennt automatisch, dass es sich um eine Sitemap-Index-Datei handelt, und listet die Kind-Sitemaps mit ihrem optionalen
lastmodauf. - Prüf einzelne Kind-Sitemaps weiter. Neben jeder steht ein Check-Button, der diese Datei lädt und im Detail analysiert (URL-Anzahl, Metadaten-Abdeckung, Spec-Warnungen).
So arbeitest du dich vom Index bis zur einzelnen URL durch — ohne die Dateien selbst öffnen zu müssen. (Zum Bauen einer Sitemap nimmst du übrigens den Generator aus Beispiel 3; der Import-Knopf des Generators verarbeitet bewusst nur einzelne Sitemaps, keine Index-Dateien.)
Noch tiefer: die Übersicht zum großen Bild, das Manual für jede Option im Detail und die Tipps & Tricks für Strategie und Stolperfallen. Ausprobieren kannst du alles direkt im Tool.