robots.txt & Sitemap — Tipps & Tricks

Kniffe für robots.txt & Sitemap: typische Stolperfallen, KI-Crawler-Strategie, das Zusammenspiel beider Dateien und die Kombination mit dem SEO & GEO Analyzer.

Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/

Das Manual erklärt jede Funktion, die Beispiele zeigen die Arbeitsabläufe. Hier geht es um das, was beides voraussetzt: wo die typischen Fehler lauern, wie du KI-Crawler strategisch behandelst und wie du das Tool sinnvoll mit anderen kombinierst. Die Oberfläche ist auf Englisch — echte Tab- und Button-Namen stehen deshalb im Original.

robots.txt: die gefährlichsten Stolperfallen

  • Disallow: / blockt deine ganze Website. Eine einzige Zeile im falschen Block sperrt alle Crawler komplett aus — und damit deine Site aus Google. Bau die Datei im Generator, prüf die Vorschau, und kontrollier nach dem Upload im Check robots.txt-Tab, dass Googlebot & Co. wirklich Allowed sind.
  • robots.txt ist keine Security. Die Datei ist öffentlich lesbar und wird von Crawlern nur freiwillig befolgt. Schreib niemals geheime Pfade in Disallow-Regeln — du verrätst sie damit jedem, der deine-domain.de/robots.txt aufruft. Was wirklich geschützt sein muss, gehört hinter eine serverseitige Authentifizierung.
  • Blockieren ist nicht dasselbe wie Deindexieren. Eine in robots.txt blockierte Seite kann trotzdem in den Google-Ergebnissen auftauchen (ohne Snippet), wenn andere Seiten auf sie verlinken. Willst du eine Seite aus dem Index halten, nutz ein noindex-Meta-Tag oder den X-Robots-Tag-HTTP-Header — und blockier sie dann nicht per robots.txt, sonst sieht Google das noindex gar nicht.
  • Blockier nie CSS und JavaScript. Google rendert deine Seiten, um sie zu verstehen. Sperrst du /wp-content/ oder einen Asset-Ordner pauschal, wirken deine Seiten kaputt — schlecht fürs Ranking. Sei spezifisch (siehe die WordPress-Vorlage im Examples-Tab).
  • Crawl-delay ignoriert Google. Die Direktive wird von den meisten Bots, aber nicht von Googlebot unterstützt — die Crawl-Frequenz steuerst du dort über die Search Console. Für andere Bots ist ein moderater Wert (z. B. 5–10 Sekunden) sinnvoll; übertreib es nicht, sonst verlangsamst du die Indexierung unnötig.

KI-Crawler bewusst steuern

Der eigentliche Mehrwert des Tools gegenüber simplen Generatoren ist die Sicht auf die KI-Crawler — sowohl beim Bauen (über 40 Bot-Vorschläge im Autovervollständigen-Feld) als auch beim Prüfen (die Per-Bot-Access-Tabelle gruppiert nach Typ).

  • Entscheide pro Zweck, nicht pauschal. Die Reference-Tabelle unterscheidet sauber zwischen AI Training (z. B. GPTBot, Google-Extended, anthropic-ai, CCBot) und AI Search (z. B. OAI-SearchBot, PerplexityBot). Willst du in KI-Antworten zitiert werden, aber nicht im Training landen, blockst du nur die Training-Crawler und lässt die Search-Crawler durch.
  • Google-Extended ≠ Googlebot. Google-Extended blockt nur das Gemini-Training, nicht die klassische Google-Suche. Wer aus Angst vor „KI" pauschal alles Google-artige aussperrt, wirft versehentlich seine normale Sichtbarkeit weg.
  • Prüf nach dem Bearbeiten gegen. Lad die fertige Datei hoch und prüf sie im Check robots.txt-Tab: Die Per-Bot-Access-Tabelle zeigt dir schwarz auf weiß, welcher KI-Crawler jetzt Allowed und welcher Blocked ist — inklusive der konkret greifenden Regel.
  • Bedenke die GEO-Folgen. Jeder blockierte KI-Crawler kostet im GEO-Score des SEO & GEO Analyzers Punkte (dessen Prüfung AI Crawlers Allowed testet gegen neun namentliche Bots). Sperren ist eine bewusste Entscheidung gegen KI-Sichtbarkeit — kein Versehen, das nebenbei passieren sollte.

Sitemap: sauber statt vollständig

  • Nur kanonische URLs, die HTTP 200 liefern. Keine Duplikate mit ?utm_*- oder Session-Parametern, keine Weiterleitungen, keine 404er. Jede tote oder doppelte URL verschwendet Crawl-Budget.
  • Keine blockierten oder noindex-Seiten in die Sitemap. Das ist die goldene Regel: Eine URL gehört nie gleichzeitig in ein Disallow der robots.txt und in die Sitemap — dieser Widerspruch verwirrt Crawler. Die Sitemap sagt „bitte indexieren", die robots.txt sagt „nicht abrufen".
  • lastmod nur mit echtem Datum. Ein gefälschtes oder pauschal auf „heute" gesetztes Änderungsdatum untergräbt das Vertrauen der Crawler in dein Signal. Lass das Feld lieber leer, als zu lügen. Die Metadata-coverage-Anzeige im Checker zeigt dir, wie konsequent du es nutzt.
  • changefreq und priority sind Hinweise, keine Befehle. Setz nicht jede changefreq auf always und nicht jede priority auf 1.0 — das entwertet das Signal. priority ist ohnehin nur eine Rangfolge innerhalb deiner Site.
  • Große Sites splitten. Ab 50.000 URLs oder 50 MB ist Schluss pro Datei — dann mehrere Sitemaps plus eine Index-Datei. Der Check Sitemap-Tab warnt dich, wenn du die Grenze reißt, und kann Index-Dateien Kind für Kind aufdröseln.

Datenschutz und Betrieb

  • Generatoren bleiben lokal. Die beiden Generator-Tabs erzeugen alles im Browser; dein Zwischenstand wird nur in deinem LocalStorage gespeichert, nichts wird hochgeladen. Über Reset räumst du ihn weg.
  • Die Checker laufen über einen Proxy — das ist gewollt. Eine fremde Datei kann der Browser wegen CORS nicht direkt laden. Der serverseitige Proxy holt sie; die geprüfte Domain sieht dadurch einen Request vom JPKCom-Server, nicht deine IP. Praktisch, wenn du nicht im Crawler-Log einer fremden Seite auftauchen willst.
  • localhost und Intranet gehen nicht. Aus SSRF-Schutz blockiert der Proxy private und interne Adressen. Eine lokale Dev-Instanz prüfst du entweder über eine öffentliche Staging-Domain oder per Expert Mode mit lokalem Proxy.
  • Das Rate-Limit kurz aussitzen. Im Standard-Modus ist etwa eine Prüfung alle 3 Sekunden möglich. Kommt ein Wartehinweis, einfach kurz warten statt nachfeuern.
  • Sehr große Sitemaps werden eventuell abgeschnitten. Der Proxy lädt bis 5 MB; darüber meldet der Checker, dass die Statistik unvollständig sein kann. Für unbegrenzte Abrufe gibt es den Expert Mode.

Mit anderen JPKCom-Tools kombinieren

  • Bauen hier, prüfen im Kontext. Du baust robots.txt und Sitemap in diesem Tool — die Wirkung auf eine konkrete Seite siehst du im SEO & GEO Analyzer: Dessen Robots Analysis-Tab und die Prüfungen Allowed by robots.txt, Sitemap in robots.txt und AI Crawlers Allowed greifen genau auf das zu, was du hier erzeugst. Reihenfolge: hier bauen → hochladen → im Analyzer dieselbe URL prüfen → grün ablesen.
  • Den GEO-Teil ergänzen. Die Sitemap ist die Roadmap für klassische Suchmaschinen; das maschinenlesbare Gegenstück für LLMs erzeugst du mit dem llms.txt-Generator.
  • Die gelisteten Seiten optimieren. Jede URL in deiner Sitemap sollte saubere Meta-Daten haben — die baust du mit dem Meta-Tags-Generator.

Noch mehr Kontext: die Übersicht zum großen Bild, das Manual für jede Option und die Beispiele für die Schritt-für-Schritt-Abläufe. Ausprobieren kannst du alles direkt im Tool.