robots.txt & Sitemap

Crawler-Steuerung bauen und prüfen — in einem Tool

Zwei Dateien entscheiden, wie Suchmaschinen und KI-Systeme deine Website sehen: die robots.txt (was darf ein Crawler abrufen?) und die sitemap.xml (welche Seiten sollen gefunden werden?). robots.txt & Sitemap hilft dir bei beiden — und geht einen Schritt weiter als reine Generatoren: Es baut die Dateien und prüft zusätzlich bestehende Dateien live von jeder beliebigen Domain.

Das Tool bündelt vier Funktionen in sieben Tabs: einen robots.txt-Generator, einen Sitemap-Generator sowie zwei Live-Checker, die eine robots.txt oder eine sitemap.xml von einer fremden URL holen und analysieren. Dazu kommen Tabs mit fertigen Beispielen und einer Format-Referenz. Alles läuft im Browser, ohne Account und ohne Installation.

Gedacht ist es für alle, die an der technischen Auffindbarkeit einer Website arbeiten: Entwicklerinnen und Entwickler, die schnell eine korrekte robots.txt oder Sitemap brauchen; SEO- und Content-Leute, die prüfen wollen, ob Suchmaschinen und KI-Crawler die richtigen Seiten sehen; und Agenturen, die eine bestehende Konfiguration einer fremden Domain in Sekunden auseinandernehmen wollen.

Die vier Funktionen im Überblick

robots.txt-Generator

Ein Formular, das per Live-Vorschau eine vollständige robots.txt zusammensetzt. Du legst beliebig viele User-agent-Blöcke an, fügst pro Block Allow- und Disallow-Regeln hinzu, setzt optional einen Crawl-delay und ergänzt am Ende eine Sitemap:-Zeile sowie optional eine Host:-Direktive (Yandex). Die Blöcke lassen sich per Drag-and-drop umsortieren. Ein Eingabefeld mit Autovervollständigung schlägt über 40 gängige Bot-Namen vor — von Googlebot über Bingbot bis zu KI-Crawlern wie GPTBot, ClaudeBot oder PerplexityBot. Das Ergebnis kopierst du, lädst es als Datei herunter oder liest eine vorhandene robots.txt per Load File zum Bearbeiten ein.

Sitemap-Generator

Hier baust du eine XML-Sitemap nach dem Sitemaps-Protokoll (englisch). Du gibst eine Base-URL vor und fügst URL-Zeilen hinzu, jeweils mit Pfad und optional lastmod (Datum), changefreq (always bis never) und priority (0.0–1.0). Auch hier sortierst du per Drag-and-drop, kopierst oder lädst das Ergebnis herunter — und kannst eine bestehende sitemap.xml einlesen.

Live-Checker: robots.txt

Gib eine Domain (z. B. example.com) oder eine volle URL ein, und das Tool holt die robots.txt und zerlegt sie: eine Per-Bot-Access-Tabelle zeigt für über 40 bekannte Bots, ob sie erlaubt oder blockiert sind und welche Regel greift; dazu alle User-agent-Blöcke, die deklarierten Sitemaps und ein interaktiver Test, ob ein bestimmter Pfad für einen bestimmten Bot zugänglich ist.

Live-Checker: Sitemap

Derselbe Ablauf für die sitemap.xml: Das Tool zählt die URLs, prüft die Abdeckung von lastmod, changefreq und priority, warnt bei Überschreitung der Spec-Grenzen (50.000 URLs / 50 MB pro Datei) und erkennt Sitemap-Index-Dateien, deren Kind-Sitemaps du direkt weiterprüfen kannst.

Generatoren lokal, Checker über einen Proxy

Wichtig fürs Verständnis und für den Datenschutz: Die beiden Generatoren arbeiten rein in deinem Browser — nichts verlässt deinen Rechner, der Zwischenstand wird nur lokal gespeichert. Die beiden Checker dagegen müssen eine fremde Datei abrufen, und das geht aus dem Browser wegen CORS nicht direkt. Deshalb holt ein serverseitiger Proxy auf dem JPKCom-Server die Datei; die Analyse läuft danach wieder lokal im Browser. Die geprüfte Domain sieht also einen Request vom JPKCom-Server, nicht deine IP-Adresse. Interne und private Adressen werden serverseitig blockiert. Wie der Proxy arbeitet und welche Grenzen (Größe, Timeout, Rate-Limit) gelten, steht im Manual.

Jetzt ausprobieren

→ robots.txt & Sitemap öffnen — Datei bauen oder eine fremde Domain prüfen, direkt im Browser, ohne Account. Im Examples-Tab laden fertige Vorlagen (Standard-Website, WordPress, KI-Crawler blocken, Blog, Shop) als Startpunkt in die Generatoren.