# robots.txt & Sitemap — Anwendungsbeispiele

> Praxisnahe Durchläufe mit robots.txt & Sitemap: eine WordPress-robots.txt bauen, KI-Crawler blocken, eine Sitemap erzeugen und eine fremde Datei live prüfen.

Source: https://www.jpkc.com/db/tools/robots-sitemap/examples/

Zurück zur Übersicht: [robots.txt & Sitemap](https://www.jpkc.com/db/tools/robots-sitemap/) · Tool live öffnen: [www.jpkc.com/tools/robots-sitemap/](https://www.jpkc.com/tools/robots-sitemap/)

Das [Manual](https://www.jpkc.com/db/tools/robots-sitemap/manual/) erklärt jeden Tab und jede Option im Detail. Diese Seite ergänzt das um **konkrete Arbeitsabläufe**: typische Aufgaben, Schritt für Schritt durchgespielt. Die Oberfläche des Tools ist auf Englisch — Tab- und Button-Namen stehen deshalb in ihrer englischen Original-Schreibweise, bei Bedarf mit deutscher Erläuterung.

## Beispiel 1: Eine robots.txt für WordPress bauen

Der Klassiker — eine saubere `robots.txt` für eine typische WordPress-Site.

1. Öffne das [Tool](https://www.jpkc.com/tools/robots-sitemap/), geh in den **Examples**-Tab und klick bei *WordPress* auf **Load into Generator**. Das Formular springt in den **robots.txt**-Tab und ist mit der WordPress-Vorlage gefüllt.
2. Schau dir den Block `User-agent: *` an: Er blockt `/wp-admin/`, gibt aber gezielt `/wp-admin/admin-ajax.php` per `Allow` frei (das braucht WordPress für Funktionen im Frontend) und blockt `/wp-includes/`, `/wp-content/plugins/`, `/wp-content/cache/` sowie die Suchanfrage-Parameter `/?s=` und `/?p=`.
3. **Passe die Sitemap-URL an.** Die Vorlage trägt `https://example.com/sitemap_index.xml` ein (der typische Name bei den großen WordPress-SEO-Plugins). Trag deine echte Domain ein.
4. **Prüf die Vorschau rechts**, dann **Copy** oder **Download**. Lade die Datei in dein Web-Root, sodass sie unter `https://deine-domain.de/robots.txt` erreichbar ist.

Wichtig: Blockier nie pauschal `/wp-content/` — darin liegen auch deine Bilder und oft CSS/JS, die Google zum Rendern braucht. Die Vorlage blockt bewusst nur `plugins/` und `cache/`.

## Beispiel 2: KI-Crawler blocken, Suchmaschinen erlauben

Du willst in klassischen Suchmaschinen sichtbar bleiben, aber nicht, dass KI-Crawler deine Inhalte fürs Training abgreifen.

1. Im **Examples**-Tab bei *Block AI & Scraper Bots* auf **Load into Generator** klicken.
2. Die Vorlage legt einen offenen Block `User-agent: *` mit leerem `Disallow:` an (alle dürfen) — und darunter je einen eigenen Block mit `Disallow: /` für die KI-Crawler `GPTBot`, `ChatGPT-User`, `OAI-SearchBot`, `CCBot`, `anthropic-ai`, `Claude-Web`, `Bytespider` und `PerplexityBot`.
3. **Ergänze fehlende Bots nach Bedarf.** Über **Add User-agent Block** kannst du weitere KI-Crawler hinzufügen — das Autovervollständigen-Feld schlägt unter anderem `ClaudeBot`, `Google-Extended`, `Applebot-Extended`, `meta-externalagent` und `cohere-ai` vor. Setz in jedem neuen Block eine Regel `Disallow: /`.
4. **Copy/Download**, hochladen, fertig.

Zwei ehrliche Hinweise: Erstens respektiert nicht jeder Bot die `robots.txt` — sie ist eine freiwillige Policy, keine technische Sperre. Zweitens schließt das Blocken von `Google-Extended` (Gemini-Training) Googles normale Suche **nicht** aus; die läuft weiter über `Googlebot`. Welche Bots welchem Zweck dienen, steht in der **Reference**-Tabelle des Tools.

## Beispiel 3: Eine XML-Sitemap von Hand zusammenstellen

Für eine kleinere Site ohne Sitemap-Plugin baust du die Datei direkt im Tool.

1. Wechsle in den **Sitemap**-Tab. Trag oben bei **Base URL** deine Domain ein (z. B. `https://deine-domain.de`).
2. Über **Add URL** fügst du je eine Zeile pro Seite hinzu. Pro Zeile: den **Path** (z. B. `/`, `/leistungen/`, `/kontakt/`), optional ein **Last Modified**-Datum, eine **Freq.** und eine **Priority**.
3. **Setz die Priority relativ.** Üblich: `1.0` für die Startseite, `0.8`–`0.9` für wichtige Bereichsseiten, `0.5` für statische Unterseiten. Das ist eine Rangfolge *innerhalb* deiner Site, kein Ranking-Faktor gegenüber anderen Websites.
4. **`lastmod` nur setzen, wenn du das Datum wirklich kennst.** Ein erfundenes Änderungsdatum schadet mehr, als es nutzt — lass das Feld sonst leer.
5. Per Drag-and-drop am Griff-Symbol bringst du die Zeilen in die gewünschte Reihenfolge. Dann **Copy** oder **Download** und die Datei als `sitemap.xml` ins Web-Root legen.

Tipp: Reich die Sitemap anschließend in der [Google Search Console](https://search.google.com/search-console) und den [Bing Webmaster Tools](https://www.bing.com/webmasters) ein — der Hinweis dazu steht auch direkt unter dem Editor.

## Beispiel 4: Die robots.txt einer fremden Domain prüfen

Du willst wissen, wie eine bestehende Site (deine eigene oder die eines Wettbewerbers) ihre Crawler steuert.

1. Geh in den **Check robots.txt**-Tab, gib eine Domain ein (z. B. `example.com` — `/robots.txt` wird automatisch ergänzt) und klick **Check**.
2. **Lies zuerst die Per-Bot-Access-Tabelle.** Sie zeigt für über 40 bekannte Bots auf einen Blick `Allowed` oder `Blocked`. Die Spalte **Source** verrät, woher die Entscheidung kommt: `Specific` (eigener Block für genau diesen Bot), `Wildcard *` (über den `User-agent: *`-Block) oder `Default` (keine passende Regel — also erlaubt).
3. **Achte auf die KI-Zeilen** (Typ `AI`): Sperrt die Site `GPTBot`, `ClaudeBot`, `PerplexityBot` & Co. aus? Das ist genau die Information, die du auch für die eigene GEO-Strategie brauchst.
4. **Teste eine konkrete URL.** Im Block *Test a URL against these rules* gibst du einen Pfad (z. B. `/blog/mein-artikel`) und einen User-agent (z. B. `Googlebot`) ein — das Tool sagt dir, ob die Datei den Zugriff erlaubt oder blockiert und welche Regel greift.
5. Unter **Sitemaps declared** stehen die in der Datei verlinkten Sitemaps. Über den **check**-Button daneben springst du direkt in die Sitemap-Prüfung (siehe nächstes Beispiel).

## Beispiel 5: Eine Sitemap validieren und auf Spec-Grenzen prüfen

Du willst sichergehen, dass deine `sitemap.xml` sauber und vollständig ist.

1. Im **Check Sitemap**-Tab Domain oder volle Sitemap-URL eingeben und **Check** klicken. (Oder du kommst über den **check**-Button aus der robots.txt-Prüfung direkt hierher.)
2. **Schau auf die Spec-Warnungen.** Das Tool warnt, sobald die Datei über **50.000 URLs** oder **50 MB** hinausgeht — dann musst du auf mehrere Dateien plus eine Index-Datei aufteilen.
3. **Lies die Metadata-coverage-Tabelle.** Sie zeigt mit Fortschrittsbalken, bei wie viel Prozent der URLs `lastmod`, `changefreq` und `priority` gesetzt sind. Niedrige `lastmod`-Abdeckung ist nicht per se schlecht — aber wenn du Aktualität signalisieren willst, ist hier Luft.
4. In der **URLs**-Tabelle siehst du die ersten 100 Einträge. Über **Copy all URLs** holst du dir die vollständige Liste (auch über 100 hinaus) in die Zwischenablage — praktisch für einen Abgleich mit deinem CMS.

## Beispiel 6: Eine Sitemap-Index-Datei aufdröseln

Große Sites verteilen ihre URLs auf mehrere Sitemaps, die eine Index-Datei bündelt.

1. Gib im **Check Sitemap**-Tab die URL der Index-Datei ein (oft `…/sitemap_index.xml`) und klick **Check**.
2. Das Tool erkennt automatisch, dass es sich um eine **Sitemap-Index-Datei** handelt, und listet die **Kind-Sitemaps** mit ihrem optionalen `lastmod` auf.
3. **Prüf einzelne Kind-Sitemaps weiter.** Neben jeder steht ein **Check**-Button, der diese Datei lädt und im Detail analysiert (URL-Anzahl, Metadaten-Abdeckung, Spec-Warnungen).

So arbeitest du dich vom Index bis zur einzelnen URL durch — ohne die Dateien selbst öffnen zu müssen. (Zum Bauen einer Sitemap nimmst du übrigens den Generator aus [Beispiel 3](https://www.jpkc.com/db/tools/robots-sitemap/examples/#beispiel-3-eine-xml-sitemap-von-hand-zusammenstellen); der Import-Knopf des Generators verarbeitet bewusst nur einzelne Sitemaps, keine Index-Dateien.)

---

Noch tiefer: die [Übersicht](https://www.jpkc.com/db/tools/robots-sitemap/) zum großen Bild, das [Manual](https://www.jpkc.com/db/tools/robots-sitemap/manual/) für jede Option im Detail und die [Tipps & Tricks](https://www.jpkc.com/db/tools/robots-sitemap/tips/) für Strategie und Stolperfallen. Ausprobieren kannst du alles direkt im [Tool](https://www.jpkc.com/tools/robots-sitemap/).

