robots.txt & Sitemap — Tipps & Tricks
Kniffe für robots.txt & Sitemap: typische Stolperfallen, KI-Crawler-Strategie, das Zusammenspiel beider Dateien und die Kombination mit dem SEO & GEO Analyzer.
Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/
Das Manual erklärt jede Funktion, die Beispiele zeigen die Arbeitsabläufe. Hier geht es um das, was beides voraussetzt: wo die typischen Fehler lauern, wie du KI-Crawler strategisch behandelst und wie du das Tool sinnvoll mit anderen kombinierst. Die Oberfläche ist auf Englisch — echte Tab- und Button-Namen stehen deshalb im Original.
robots.txt: die gefährlichsten Stolperfallen
Disallow: /blockt deine ganze Website. Eine einzige Zeile im falschen Block sperrt alle Crawler komplett aus — und damit deine Site aus Google. Bau die Datei im Generator, prüf die Vorschau, und kontrollier nach dem Upload im Check robots.txt-Tab, dassGooglebot& Co. wirklichAllowedsind.- robots.txt ist keine Security. Die Datei ist öffentlich lesbar und wird von Crawlern nur freiwillig befolgt. Schreib niemals geheime Pfade in
Disallow-Regeln — du verrätst sie damit jedem, derdeine-domain.de/robots.txtaufruft. Was wirklich geschützt sein muss, gehört hinter eine serverseitige Authentifizierung. - Blockieren ist nicht dasselbe wie Deindexieren. Eine in
robots.txtblockierte Seite kann trotzdem in den Google-Ergebnissen auftauchen (ohne Snippet), wenn andere Seiten auf sie verlinken. Willst du eine Seite aus dem Index halten, nutz einnoindex-Meta-Tag oder denX-Robots-Tag-HTTP-Header — und blockier sie dann nicht perrobots.txt, sonst sieht Google dasnoindexgar nicht. - Blockier nie CSS und JavaScript. Google rendert deine Seiten, um sie zu verstehen. Sperrst du
/wp-content/oder einen Asset-Ordner pauschal, wirken deine Seiten kaputt — schlecht fürs Ranking. Sei spezifisch (siehe die WordPress-Vorlage im Examples-Tab). Crawl-delayignoriert Google. Die Direktive wird von den meisten Bots, aber nicht von Googlebot unterstützt — die Crawl-Frequenz steuerst du dort über die Search Console. Für andere Bots ist ein moderater Wert (z. B. 5–10 Sekunden) sinnvoll; übertreib es nicht, sonst verlangsamst du die Indexierung unnötig.
KI-Crawler bewusst steuern
Der eigentliche Mehrwert des Tools gegenüber simplen Generatoren ist die Sicht auf die KI-Crawler — sowohl beim Bauen (über 40 Bot-Vorschläge im Autovervollständigen-Feld) als auch beim Prüfen (die Per-Bot-Access-Tabelle gruppiert nach Typ).
- Entscheide pro Zweck, nicht pauschal. Die Reference-Tabelle unterscheidet sauber zwischen AI Training (z. B.
GPTBot,Google-Extended,anthropic-ai,CCBot) und AI Search (z. B.OAI-SearchBot,PerplexityBot). Willst du in KI-Antworten zitiert werden, aber nicht im Training landen, blockst du nur die Training-Crawler und lässt die Search-Crawler durch. Google-Extended≠ Googlebot.Google-Extendedblockt nur das Gemini-Training, nicht die klassische Google-Suche. Wer aus Angst vor „KI" pauschal alles Google-artige aussperrt, wirft versehentlich seine normale Sichtbarkeit weg.- Prüf nach dem Bearbeiten gegen. Lad die fertige Datei hoch und prüf sie im Check robots.txt-Tab: Die Per-Bot-Access-Tabelle zeigt dir schwarz auf weiß, welcher KI-Crawler jetzt
Allowedund welcherBlockedist — inklusive der konkret greifenden Regel. - Bedenke die GEO-Folgen. Jeder blockierte KI-Crawler kostet im GEO-Score des SEO & GEO Analyzers Punkte (dessen Prüfung
AI Crawlers Allowedtestet gegen neun namentliche Bots). Sperren ist eine bewusste Entscheidung gegen KI-Sichtbarkeit — kein Versehen, das nebenbei passieren sollte.
Sitemap: sauber statt vollständig
- Nur kanonische URLs, die HTTP 200 liefern. Keine Duplikate mit
?utm_*- oder Session-Parametern, keine Weiterleitungen, keine 404er. Jede tote oder doppelte URL verschwendet Crawl-Budget. - Keine blockierten oder
noindex-Seiten in die Sitemap. Das ist die goldene Regel: Eine URL gehört nie gleichzeitig in einDisallowderrobots.txtund in die Sitemap — dieser Widerspruch verwirrt Crawler. Die Sitemap sagt „bitte indexieren", dierobots.txtsagt „nicht abrufen". lastmodnur mit echtem Datum. Ein gefälschtes oder pauschal auf „heute" gesetztes Änderungsdatum untergräbt das Vertrauen der Crawler in dein Signal. Lass das Feld lieber leer, als zu lügen. Die Metadata-coverage-Anzeige im Checker zeigt dir, wie konsequent du es nutzt.changefrequndprioritysind Hinweise, keine Befehle. Setz nicht jedechangefreqaufalwaysund nicht jedepriorityauf1.0— das entwertet das Signal.priorityist ohnehin nur eine Rangfolge innerhalb deiner Site.- Große Sites splitten. Ab 50.000 URLs oder 50 MB ist Schluss pro Datei — dann mehrere Sitemaps plus eine Index-Datei. Der Check Sitemap-Tab warnt dich, wenn du die Grenze reißt, und kann Index-Dateien Kind für Kind aufdröseln.
Datenschutz und Betrieb
- Generatoren bleiben lokal. Die beiden Generator-Tabs erzeugen alles im Browser; dein Zwischenstand wird nur in deinem LocalStorage gespeichert, nichts wird hochgeladen. Über Reset räumst du ihn weg.
- Die Checker laufen über einen Proxy — das ist gewollt. Eine fremde Datei kann der Browser wegen CORS nicht direkt laden. Der serverseitige Proxy holt sie; die geprüfte Domain sieht dadurch einen Request vom JPKCom-Server, nicht deine IP. Praktisch, wenn du nicht im Crawler-Log einer fremden Seite auftauchen willst.
localhostund Intranet gehen nicht. Aus SSRF-Schutz blockiert der Proxy private und interne Adressen. Eine lokale Dev-Instanz prüfst du entweder über eine öffentliche Staging-Domain oder per Expert Mode mit lokalem Proxy.- Das Rate-Limit kurz aussitzen. Im Standard-Modus ist etwa eine Prüfung alle 3 Sekunden möglich. Kommt ein Wartehinweis, einfach kurz warten statt nachfeuern.
- Sehr große Sitemaps werden eventuell abgeschnitten. Der Proxy lädt bis 5 MB; darüber meldet der Checker, dass die Statistik unvollständig sein kann. Für unbegrenzte Abrufe gibt es den Expert Mode.
Mit anderen JPKCom-Tools kombinieren
- Bauen hier, prüfen im Kontext. Du baust
robots.txtund Sitemap in diesem Tool — die Wirkung auf eine konkrete Seite siehst du im SEO & GEO Analyzer: Dessen Robots Analysis-Tab und die PrüfungenAllowed by robots.txt,Sitemap in robots.txtundAI Crawlers Allowedgreifen genau auf das zu, was du hier erzeugst. Reihenfolge: hier bauen → hochladen → im Analyzer dieselbe URL prüfen → grün ablesen. - Den GEO-Teil ergänzen. Die Sitemap ist die Roadmap für klassische Suchmaschinen; das maschinenlesbare Gegenstück für LLMs erzeugst du mit dem llms.txt-Generator.
- Die gelisteten Seiten optimieren. Jede URL in deiner Sitemap sollte saubere Meta-Daten haben — die baust du mit dem Meta-Tags-Generator.
Noch mehr Kontext: die Übersicht zum großen Bild, das Manual für jede Option und die Beispiele für die Schritt-für-Schritt-Abläufe. Ausprobieren kannst du alles direkt im Tool.