# robots.txt & Sitemap — Tipps & Tricks

> Kniffe für robots.txt & Sitemap: typische Stolperfallen, KI-Crawler-Strategie, das Zusammenspiel beider Dateien und die Kombination mit dem SEO & GEO Analyzer.

Source: https://www.jpkc.com/db/tools/robots-sitemap/tips/

Zurück zur Übersicht: [robots.txt & Sitemap](https://www.jpkc.com/db/tools/robots-sitemap/) · Tool live öffnen: [www.jpkc.com/tools/robots-sitemap/](https://www.jpkc.com/tools/robots-sitemap/)

Das [Manual](https://www.jpkc.com/db/tools/robots-sitemap/manual/) erklärt jede Funktion, die [Beispiele](https://www.jpkc.com/db/tools/robots-sitemap/examples/) zeigen die Arbeitsabläufe. Hier geht es um das, was beides voraussetzt: wo die typischen Fehler lauern, wie du KI-Crawler strategisch behandelst und wie du das Tool sinnvoll mit anderen kombinierst. Die Oberfläche ist auf Englisch — echte Tab- und Button-Namen stehen deshalb im Original.

## robots.txt: die gefährlichsten Stolperfallen

- **`Disallow: /` blockt deine ganze Website.** Eine einzige Zeile im falschen Block sperrt alle Crawler komplett aus — und damit deine Site aus Google. Bau die Datei im Generator, prüf die Vorschau, und kontrollier nach dem Upload im **Check robots.txt**-Tab, dass `Googlebot` & Co. wirklich `Allowed` sind.
- **robots.txt ist keine Security.** Die Datei ist öffentlich lesbar und wird von Crawlern nur **freiwillig** befolgt. Schreib niemals geheime Pfade in `Disallow`-Regeln — du verrätst sie damit jedem, der `deine-domain.de/robots.txt` aufruft. Was wirklich geschützt sein muss, gehört hinter eine serverseitige Authentifizierung.
- **Blockieren ist nicht dasselbe wie Deindexieren.** Eine in `robots.txt` blockierte Seite kann trotzdem in den Google-Ergebnissen auftauchen (ohne Snippet), wenn andere Seiten auf sie verlinken. Willst du eine Seite aus dem Index halten, nutz ein `noindex`-Meta-Tag oder den `X-Robots-Tag`-HTTP-Header — und blockier sie dann **nicht** per `robots.txt`, sonst sieht Google das `noindex` gar nicht.
- **Blockier nie CSS und JavaScript.** Google rendert deine Seiten, um sie zu verstehen. Sperrst du `/wp-content/` oder einen Asset-Ordner pauschal, wirken deine Seiten kaputt — schlecht fürs Ranking. Sei spezifisch (siehe die WordPress-Vorlage im **Examples**-Tab).
- **`Crawl-delay` ignoriert Google.** Die Direktive wird von den meisten Bots, aber **nicht von Googlebot** unterstützt — die Crawl-Frequenz steuerst du dort über die Search Console. Für andere Bots ist ein moderater Wert (z. B. 5–10 Sekunden) sinnvoll; übertreib es nicht, sonst verlangsamst du die Indexierung unnötig.

## KI-Crawler bewusst steuern

Der eigentliche Mehrwert des Tools gegenüber simplen Generatoren ist die Sicht auf die KI-Crawler — sowohl beim Bauen (über 40 Bot-Vorschläge im Autovervollständigen-Feld) als auch beim Prüfen (die Per-Bot-Access-Tabelle gruppiert nach Typ).

- **Entscheide pro Zweck, nicht pauschal.** Die **Reference**-Tabelle unterscheidet sauber zwischen *AI Training* (z. B. `GPTBot`, `Google-Extended`, `anthropic-ai`, `CCBot`) und *AI Search* (z. B. `OAI-SearchBot`, `PerplexityBot`). Willst du in KI-*Antworten* zitiert werden, aber nicht im *Training* landen, blockst du nur die Training-Crawler und lässt die Search-Crawler durch.
- **`Google-Extended` ≠ Googlebot.** `Google-Extended` blockt nur das Gemini-Training, nicht die klassische Google-Suche. Wer aus Angst vor „KI" pauschal alles Google-artige aussperrt, wirft versehentlich seine normale Sichtbarkeit weg.
- **Prüf nach dem Bearbeiten gegen.** Lad die fertige Datei hoch und prüf sie im **Check robots.txt**-Tab: Die Per-Bot-Access-Tabelle zeigt dir schwarz auf weiß, welcher KI-Crawler jetzt `Allowed` und welcher `Blocked` ist — inklusive der konkret greifenden Regel.
- **Bedenke die GEO-Folgen.** Jeder blockierte KI-Crawler kostet im GEO-Score des [SEO & GEO Analyzers](https://www.jpkc.com/db/tools/seo/) Punkte (dessen Prüfung `AI Crawlers Allowed` testet gegen neun namentliche Bots). Sperren ist eine bewusste Entscheidung gegen KI-Sichtbarkeit — kein Versehen, das nebenbei passieren sollte.

## Sitemap: sauber statt vollständig

- **Nur kanonische URLs, die HTTP 200 liefern.** Keine Duplikate mit `?utm_*`- oder Session-Parametern, keine Weiterleitungen, keine 404er. Jede tote oder doppelte URL verschwendet Crawl-Budget.
- **Keine blockierten oder `noindex`-Seiten in die Sitemap.** Das ist die **goldene Regel**: Eine URL gehört nie gleichzeitig in ein `Disallow` der `robots.txt` **und** in die Sitemap — dieser Widerspruch verwirrt Crawler. Die Sitemap sagt „bitte indexieren", die `robots.txt` sagt „nicht abrufen".
- **`lastmod` nur mit echtem Datum.** Ein gefälschtes oder pauschal auf „heute" gesetztes Änderungsdatum untergräbt das Vertrauen der Crawler in dein Signal. Lass das Feld lieber leer, als zu lügen. Die **Metadata-coverage**-Anzeige im Checker zeigt dir, wie konsequent du es nutzt.
- **`changefreq` und `priority` sind Hinweise, keine Befehle.** Setz nicht jede `changefreq` auf `always` und nicht jede `priority` auf `1.0` — das entwertet das Signal. `priority` ist ohnehin nur eine Rangfolge innerhalb deiner Site.
- **Große Sites splitten.** Ab 50.000 URLs oder 50 MB ist Schluss pro Datei — dann mehrere Sitemaps plus eine Index-Datei. Der **Check Sitemap**-Tab warnt dich, wenn du die Grenze reißt, und kann Index-Dateien Kind für Kind aufdröseln.

## Datenschutz und Betrieb

- **Generatoren bleiben lokal.** Die beiden Generator-Tabs erzeugen alles im Browser; dein Zwischenstand wird nur in deinem LocalStorage gespeichert, nichts wird hochgeladen. Über **Reset** räumst du ihn weg.
- **Die Checker laufen über einen Proxy — das ist gewollt.** Eine fremde Datei kann der Browser wegen CORS nicht direkt laden. Der serverseitige Proxy holt sie; die geprüfte Domain sieht dadurch einen Request vom JPKCom-Server, **nicht deine IP**. Praktisch, wenn du nicht im Crawler-Log einer fremden Seite auftauchen willst.
- **`localhost` und Intranet gehen nicht.** Aus SSRF-Schutz blockiert der Proxy private und interne Adressen. Eine lokale Dev-Instanz prüfst du entweder über eine öffentliche Staging-Domain oder per Expert Mode mit lokalem Proxy.
- **Das Rate-Limit kurz aussitzen.** Im Standard-Modus ist etwa eine Prüfung alle 3 Sekunden möglich. Kommt ein Wartehinweis, einfach kurz warten statt nachfeuern.
- **Sehr große Sitemaps werden eventuell abgeschnitten.** Der Proxy lädt bis 5 MB; darüber meldet der Checker, dass die Statistik unvollständig sein kann. Für unbegrenzte Abrufe gibt es den Expert Mode.

## Mit anderen JPKCom-Tools kombinieren

- **Bauen hier, prüfen im Kontext.** Du baust `robots.txt` und Sitemap in diesem Tool — die Wirkung auf eine konkrete Seite siehst du im [SEO & GEO Analyzer](https://www.jpkc.com/db/tools/seo/): Dessen *Robots Analysis*-Tab und die Prüfungen `Allowed by robots.txt`, `Sitemap in robots.txt` und `AI Crawlers Allowed` greifen genau auf das zu, was du hier erzeugst. Reihenfolge: hier bauen → hochladen → im Analyzer dieselbe URL prüfen → grün ablesen.
- **Den GEO-Teil ergänzen.** Die Sitemap ist die Roadmap für klassische Suchmaschinen; das maschinenlesbare Gegenstück für LLMs erzeugst du mit dem **[llms.txt-Generator](https://www.jpkc.com/db/tools/llms/)**.
- **Die gelisteten Seiten optimieren.** Jede URL in deiner Sitemap sollte saubere Meta-Daten haben — die baust du mit dem **[Meta-Tags-Generator](https://www.jpkc.com/db/tools/meta-tags/)**.

---

Noch mehr Kontext: die [Übersicht](https://www.jpkc.com/db/tools/robots-sitemap/) zum großen Bild, das [Manual](https://www.jpkc.com/db/tools/robots-sitemap/manual/) für jede Option und die [Beispiele](https://www.jpkc.com/db/tools/robots-sitemap/examples/) für die Schritt-für-Schritt-Abläufe. Ausprobieren kannst du alles direkt im [Tool](https://www.jpkc.com/tools/robots-sitemap/).