# robots.txt & Sitemap

> robots.txt und XML-Sitemaps erzeugen plus zwei Live-Checker, die beide Dateien von jeder URL holen und prüfen — der Einstieg zu Manual, Beispielen und Tipps.

Source: https://www.jpkc.com/db/tools/robots-sitemap/

## Crawler-Steuerung bauen und prüfen — in einem Tool

Zwei Dateien entscheiden, wie Suchmaschinen und KI-Systeme deine Website sehen: die `robots.txt` (was darf ein Crawler abrufen?) und die `sitemap.xml` (welche Seiten sollen gefunden werden?). [robots.txt & Sitemap](https://www.jpkc.com/tools/robots-sitemap/) hilft dir bei beiden — und geht einen Schritt weiter als reine Generatoren: Es **baut** die Dateien und **prüft** zusätzlich bestehende Dateien live von jeder beliebigen Domain.

Das Tool bündelt vier Funktionen in sieben Tabs: einen **robots.txt-Generator**, einen **Sitemap-Generator** sowie zwei **Live-Checker**, die eine `robots.txt` oder eine `sitemap.xml` von einer fremden URL holen und analysieren. Dazu kommen Tabs mit fertigen Beispielen und einer Format-Referenz. Alles läuft im Browser, ohne Account und ohne Installation.

Gedacht ist es für alle, die an der technischen Auffindbarkeit einer Website arbeiten: **Entwicklerinnen und Entwickler**, die schnell eine korrekte `robots.txt` oder Sitemap brauchen; **SEO- und Content-Leute**, die prüfen wollen, ob Suchmaschinen und KI-Crawler die richtigen Seiten sehen; und **Agenturen**, die eine bestehende Konfiguration einer fremden Domain in Sekunden auseinandernehmen wollen.

## Die vier Funktionen im Überblick

### robots.txt-Generator

Ein Formular, das per Live-Vorschau eine vollständige `robots.txt` zusammensetzt. Du legst beliebig viele **User-agent-Blöcke** an, fügst pro Block `Allow`- und `Disallow`-Regeln hinzu, setzt optional einen `Crawl-delay` und ergänzt am Ende eine `Sitemap:`-Zeile sowie optional eine `Host:`-Direktive (Yandex). Die Blöcke lassen sich per Drag-and-drop umsortieren. Ein Eingabefeld mit Autovervollständigung schlägt über 40 gängige Bot-Namen vor — von `Googlebot` über `Bingbot` bis zu KI-Crawlern wie `GPTBot`, `ClaudeBot` oder `PerplexityBot`. Das Ergebnis kopierst du, lädst es als Datei herunter oder liest eine vorhandene `robots.txt` per **Load File** zum Bearbeiten ein.

### Sitemap-Generator

Hier baust du eine XML-Sitemap nach dem [Sitemaps-Protokoll](https://www.sitemaps.org/protocol.html) (englisch). Du gibst eine **Base-URL** vor und fügst URL-Zeilen hinzu, jeweils mit Pfad und optional `lastmod` (Datum), `changefreq` (`always` bis `never`) und `priority` (`0.0`–`1.0`). Auch hier sortierst du per Drag-and-drop, kopierst oder lädst das Ergebnis herunter — und kannst eine bestehende `sitemap.xml` einlesen.

### Live-Checker: robots.txt

Gib eine Domain (z. B. `example.com`) oder eine volle URL ein, und das Tool holt die `robots.txt` und zerlegt sie: eine **Per-Bot-Access-Tabelle** zeigt für über 40 bekannte Bots, ob sie erlaubt oder blockiert sind und welche Regel greift; dazu alle User-agent-Blöcke, die deklarierten Sitemaps und ein interaktiver Test, ob ein bestimmter Pfad für einen bestimmten Bot zugänglich ist.

### Live-Checker: Sitemap

Derselbe Ablauf für die `sitemap.xml`: Das Tool zählt die URLs, prüft die Abdeckung von `lastmod`, `changefreq` und `priority`, warnt bei Überschreitung der Spec-Grenzen (50.000 URLs / 50 MB pro Datei) und erkennt Sitemap-Index-Dateien, deren Kind-Sitemaps du direkt weiterprüfen kannst.

## Generatoren lokal, Checker über einen Proxy

Wichtig fürs Verständnis und für den Datenschutz: Die beiden **Generatoren arbeiten rein in deinem Browser** — nichts verlässt deinen Rechner, der Zwischenstand wird nur lokal gespeichert. Die beiden **Checker** dagegen müssen eine fremde Datei abrufen, und das geht aus dem Browser wegen CORS nicht direkt. Deshalb holt ein **serverseitiger Proxy** auf dem JPKCom-Server die Datei; die Analyse läuft danach wieder lokal im Browser. Die geprüfte Domain sieht also einen Request vom JPKCom-Server, nicht deine IP-Adresse. Interne und private Adressen werden serverseitig blockiert. Wie der Proxy arbeitet und welche Grenzen (Größe, Timeout, Rate-Limit) gelten, steht im Manual.

## Jetzt ausprobieren

**[→ robots.txt & Sitemap öffnen](https://www.jpkc.com/tools/robots-sitemap/)** — Datei bauen oder eine fremde Domain prüfen, direkt im Browser, ohne Account. Im **Examples**-Tab laden fertige Vorlagen (Standard-Website, WordPress, KI-Crawler blocken, Blog, Shop) als Startpunkt in die Generatoren.

## Verwandte JPKCom-Tools

- **[SEO & GEO Analyzer](https://www.jpkc.com/db/tools/seo/)** — prüft eine ganze URL inklusive eines eigenen *Robots Analysis*-Tabs; hier baust du die Regeln, dort siehst du sie im Kontext der gesamten Seite.
- **[Meta-Tags-Generator](https://www.jpkc.com/db/tools/meta-tags/)** — saubere Titel, Descriptions und Open-Graph-/Twitter-Daten für die Seiten, die deine Sitemap auflistet.
- **[llms.txt-Generator](https://www.jpkc.com/db/tools/llms/)** — das KI-Gegenstück zur Sitemap: eine strukturierte Inhaltsübersicht speziell für LLMs.

---

Tiefer geht es auf den Unterseiten: das **[Manual](https://www.jpkc.com/db/tools/robots-sitemap/manual/)** mit jeder Funktion, Option und Grenze im Detail, **[Beispiele](https://www.jpkc.com/db/tools/robots-sitemap/examples/)** aus der Praxis und gesammelte **[Tipps & Tricks](https://www.jpkc.com/db/tools/robots-sitemap/tips/)**.