robots.txt & Sitemap — Manual

Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/

Dieses Manual beschreibt robots.txt & Sitemap vollständig: jeden der sieben Tabs, jede Option der beiden Generatoren, das Verhalten der beiden Live-Checker und die technischen Grenzen darunter. Die Oberfläche des Tools ist auf Englisch — die Tab- und Button-Bezeichnungen stehen hier deshalb in ihrer englischen Original-Schreibweise (mit deutscher Erläuterung), damit du dich im echten Interface zurechtfindest.

Aufbau: sieben Tabs, vier Funktionen

Das Tool gliedert sich in sieben Tabs: robots.txt (Generator), Sitemap (Generator), Check robots.txt (Live-Checker), Check Sitemap (Live-Checker), Examples, Tips und Reference. Die beiden Generatoren erzeugen Dateien, die beiden Checker holen und analysieren bestehende Dateien von einer fremden URL. Examples, Tips und Reference sind statische Nachschlage-Tabs und funktionieren ohne jede Eingabe.

robots.txt-Generator

Der erste Tab baut eine robots.txt mit Live-Vorschau: Jede Änderung im Formular links aktualisiert nach einer kurzen Verzögerung den Ausgabe-Editor rechts.

User-agent-Blöcke

Das Herzstück. Über Add User-agent Block legst du beliebig viele Blöcke an. Jeder Block hat:

ein User-agent-Feld mit Autovervollständigung (Datalist). Vorgeschlagen werden über 40 gängige Bot-Namen — Suchmaschinen (Googlebot, Bingbot, DuckDuckBot, YandexBot …), Social-Bots (Twitterbot, LinkedInBot, facebookexternalhit …), KI-Crawler (GPTBot, ChatGPT-User, OAI-SearchBot, Google-Extended, anthropic-ai, Claude-Web, ClaudeBot, CCBot, Bytespider, PerplexityBot …) und SEO-Tool-Crawler (AhrefsBot, SemrushBot, MJ12bot …). Du kannst auch jeden anderen Namen eintippen; * steht für „alle Bots".
einen Rules-Bereich. Über Add Rule fügst du Regelzeilen hinzu, jede mit einem Typ-Auswahlfeld (Disallow oder Allow) und einem Pfad-Feld (z. B. /admin/). Ein leerer Disallow:-Wert bedeutet „nichts blockiert" — also alles erlaubt.
ein Crawl-delay-Feld (Zahl, 0 bis 3600 Sekunden, optional). Es erzeugt eine Crawl-delay:-Zeile im Block.

Die Blöcke lassen sich am Griff-Symbol per Drag-and-drop umsortieren.

Sitemap-URL und Host

Unter den Blöcken stehen zwei optionale Felder:

Sitemap URL — wird am Ende der Datei als Sitemap: URL angehängt. Du kannst die Adresse direkt aus dem Sitemap-Generator übernehmen.
Host — eine Yandex-spezifische Direktive für die bevorzugte (kanonische) Domain, ausgegeben als Host: domain.

Ausgabe, Kopieren, Download, Import

Rechts steht der Ausgabe-Editor (schreibgeschützt). Jede generierte Datei beginnt mit einem Kommentar-Header (# robots.txt und ein Hinweis, dass sie mit JPKCom Tools erzeugt wurde). Über den Buttons:

Load File — liest eine bestehende robots.txt ein und füllt das Formular daraus. Der Parser erkennt User-agent, Disallow, Allow, Crawl-delay, Sitemap und Host; Kommentarzeilen werden übersprungen, unbekannte Direktiven ignoriert (ein Hinweis nennt sie). Teilen sich mehrere User-agents dieselben Regeln, wird je ein eigener Block angelegt.
Reset — setzt das Formular auf den Standard zurück: ein Block User-agent: * mit einer leeren Disallow:-Regel.
Copy — kopiert die robots.txt in die Zwischenablage.
Download — speichert sie als robots.txt (text/plain).

Der Zwischenstand wird automatisch lokal im Browser (LocalStorage) gespeichert und beim nächsten Besuch wiederhergestellt. Beim allerersten Aufruf siehst du den Standard-Block User-agent: *.

Sitemap-Generator

Der zweite Tab baut eine XML-Sitemap, ebenfalls mit Live-Vorschau.

Base-URL und URL-Zeilen

Base URL (Pflichtfeld) — die Domain, der jeder relative Pfad vorangestellt wird (z. B. https://example.com). Ein abschließender Schrägstrich wird automatisch entfernt.
URLs — über Add URL fügst du Zeilen hinzu. Jede Zeile hat:
- Path — der Pfad relativ zur Base-URL (z. B. /about/); ein fehlender führender / wird ergänzt.
- Last Modified — ein Datumsfeld; erzeugt <lastmod> im Format YYYY-MM-DD.
- Freq. — Auswahl für <changefreq>: always, hourly, daily, weekly, monthly, yearly, never (oder leer).
- Priority — Auswahl für <priority>: 1.0 bis 0.0 in Zehntel-Schritten (oder leer).

Optionale Felder werden nur ausgegeben, wenn sie gesetzt sind. Auch hier lassen sich Zeilen per Drag-and-drop umsortieren.

Ausgabe und Import

Der Editor rechts zeigt die fertige sitemap.xml mit XML-Deklaration und dem korrekten urlset-Namespace. Buttons:

Load File — liest eine bestehende sitemap.xml ein. Der Parser akzeptiert nur ein reguläres <urlset>; Sitemap-Index-Dateien (<sitemapindex>) werden hier abgelehnt — dafür ist der Check Sitemap-Tab zuständig. Ungültiges XML oder ein unbekanntes Format werden gemeldet. Die Base-URL wird aus dem ersten <loc> abgeleitet.
Reset — setzt auf drei Standard-Zeilen zurück (/, /about/, /contact/).
Copy / Download — kopiert bzw. speichert die Datei als sitemap.xml (application/xml).

Beim ersten Aufruf sind drei Beispiel-URLs vorbelegt. Der Zwischenstand wird ebenfalls lokal gespeichert.

Live-Checker: Check robots.txt

Dieser Tab holt eine bestehende robots.txt von einer fremden Domain und zerlegt sie. Du gibst entweder nur eine Domain ein (z. B. example.com; /robots.txt wird automatisch ergänzt) oder eine vollständige URL. Fehlt das Protokoll, wird https:// vorangestellt. Ein Klick auf Check startet den Abruf.

Was du im Ergebnis siehst

Eine Erfolgsmeldung mit HTTP-Status, Dateigröße und der Anzahl gefundener User-agent-Blöcke.
Per-Bot Access — eine Tabelle, die für über 40 bekannte Bots prüft, wie die Datei sie behandelt. Pro Bot: Name, Betreiber, Typ (Search, Social, Archive, AI, SEO Tool), Access (Allowed/Blocked), Source (Specific = eigener Block, Wildcard * = über User-agent: *, Default = keine passende Regel), der Crawl-Delay und die konkret greifende Regel. Das ist der schnellste Weg zu sehen, ob du versehentlich KI-Crawler aussperrst.
User-agent blocks — jeder Block der Datei einzeln, mit seinen Allow-/Disallow-Regeln und einem Crawl-delay-Badge. Ein Block ohne Regeln bedeutet vollen Zugriff.
Sitemaps declared — alle in der Datei deklarierten Sitemap:-Direktiven. Neben jeder steht ein check-Button, der direkt in den Check Sitemap-Tab springt und diese Sitemap prüft.
Test a URL against these rules — ein kleines Formular: Du gibst einen Pfad (oder eine URL) und einen User-agent ein und bekommst zurück, ob die Datei den Zugriff erlaubt oder blockiert, welche Regel greift und aus welchem Block. Voreingestellt sind der Pfad / und der Agent Googlebot.
Raw content — der rohe Inhalt der Datei, ausklappbar und kopierbar.

Sonderfälle

Findet der Checker keine robots.txt (HTTP 404 oder ein anderer Fehlerstatus), meldet er das mit dem Hinweis, dass ohne robots.txt standardmäßig alle Crawler erlaubt sind. Eine vorhandene, aber leere Datei wird ebenso eingeordnet (auch sie erlaubt alle Crawler).

Live-Checker: Check Sitemap

Derselbe Ablauf für die sitemap.xml: Domain oder volle URL eingeben (/sitemap.xml wird automatisch ergänzt), Check klicken.

Reguläre Sitemap (`urlset`)

Eine Erfolgsmeldung mit der URL-Anzahl und der Dateigröße.
Spec-Warnungen: Überschreitet die Datei 50.000 URLs oder 50 MB, weist das Tool darauf hin, dass laut Sitemaps-Protokoll dann auf mehrere Dateien plus eine Index-Datei aufgeteilt werden muss.
Metadata coverage — eine Tabelle mit Fortschrittsbalken: für lastmod, changefreq und priority jeweils, bei wie viel Prozent der URLs das Feld gesetzt ist.
URLs — eine Tabelle der Einträge (die ersten 100 von N) mit URL, lastmod, changefreq und priority. Copy all URLs kopiert die vollständige Liste, nicht nur die angezeigten 100.
Raw XML — der rohe XML-Inhalt, ausklappbar und kopierbar (die Anzeige ist gekappt, der Copy-Button liefert den vollständigen Inhalt).

Sitemap-Index

Erkennt der Checker eine Index-Datei (<sitemapindex>), listet er stattdessen die Kind-Sitemaps mit ihrem optionalen lastmod. Jede Kind-Sitemap hat einen Check-Button, mit dem du sie einzeln weiterprüfst. Auch hier gibt es eine Warnung, falls der Index mehr als 50.000 Sitemaps auflistet.

Sonderfälle

404 oder Fehlerstatus, eine leere Datei oder Inhalt ohne ein einziges <loc>-Element werden jeweils als entsprechende Warnung bzw. Fehler gemeldet. Wurde die Datei wegen des Größenlimits des Proxys abgeschnitten, weist ein Hinweis darauf hin, dass die Statistik unvollständig sein kann.

Examples, Tips, Reference

Examples — fertige Vorlagen. Für die robots.txt: Allow All Bots, Standard Website, WordPress, Block AI & Scraper Bots. Für die Sitemap: Simple Website, Blog, E-Commerce. Ein Button Load into Generator (bzw. Load) übernimmt die Vorlage als Startpunkt in den jeweiligen Generator.
Tips — kompakte Best-Practice-Karten („Do This" / „Avoid This") für beide Dateien plus eine Erklärung, wie robots.txt und Sitemap zusammenspielen.
Reference — die Format-Spezifikation: eine Tabelle aller robots.txt-Direktiven mit Support-Hinweisen, eine Tabelle von über 40 bekannten Bots mit Betreiber und Typ, eine Tabelle der Sitemap-XML-Elemente sowie Links zu den offiziellen Spezifikationen.

robots.txt-Direktiven (Reference)

Direktive	Unterstützung	Bedeutung
`User-agent`	alle	Ziel-Bot. `*` für alle oder ein konkreter Name.
`Disallow`	alle	Blockiert einen Pfad. Leerer Wert = alles erlaubt.
`Allow`	alle	Gibt einen Pfad frei, überschreibt ein breiteres `Disallow`.
`Crawl-delay`	die meisten	Sekunden zwischen Anfragen. Nicht von Googlebot unterstützt (dort die Search Console nutzen).
`Sitemap`	alle	Volle Sitemap-URL. Darf mehrfach vorkommen.
`Host`	Yandex	Bevorzugte Domain (kanonischer Host).

Sitemap-XML-Elemente (Reference)

Element	Pflicht	Werte / Hinweis
`<urlset>`	ja	Wurzelelement mit Namespace `http://www.sitemaps.org/schemas/sitemap/0.9`.
`<url>`	ja	Container je Eintrag.
`<loc>`	ja	Voll-qualifizierte URL, max. 2048 Zeichen, URL-kodiert.
`<lastmod>`	optional	Datum im Format `YYYY-MM-DD` (W3C). Nur setzen, wenn echt — nicht fälschen.
`<changefreq>`	optional	`always`/`hourly`/`daily`/`weekly`/`monthly`/`yearly`/`never` — nur ein Hinweis.
`<priority>`	optional	`0.0`–`1.0`, Standard `0.5`. Relativ innerhalb deiner Site, kein Ranking-Faktor gegenüber anderen Sites.

Architektur, Limits und Datenschutz

Generatoren rein clientseitig. Die beiden Generator-Tabs erzeugen ihre Dateien vollständig im Browser. Es wird nichts hochgeladen; der Zwischenstand liegt nur in deinem LocalStorage.
Checker über einen serverseitigen Proxy. Eine fremde Datei kann der Browser wegen CORS nicht direkt laden. Deshalb holt ein serverseitiger Proxy auf dem JPKCom-Server die Datei per cURL; die Analyse läuft danach wieder lokal im Browser. Die geprüfte Domain sieht einen Request vom JPKCom-Server (mit dessen User-Agent), nicht deine IP-Adresse.
Kein öffentliches API. Die beiden serverseitigen Endpunkte (ein Fetch-Proxy und ein token-basierter Hilfsendpunkt) sind kein öffentlich aufrufbares API — sie werden ausschließlich vom JavaScript des Tools genutzt und sind gegen Missbrauch gehärtet (Token-Authentifizierung, Referer-Prüfung).
SSRF-Schutz: Interne, lokale und private IP-Adressen werden blockiert, und jeder Redirect-Hop wird erneut geprüft.
Abruf-Grenzen: maximal 5 MB Body (größere Dateien werden abgeschnitten — ein Hinweis erscheint), 15 s Timeout pro Abruf.
Rate-Limit: Im Standard-Proxy-Modus ist etwa 1 Prüfung alle 3 Sekunden möglich; darüber kommt ein Hinweis, kurz zu warten.
Expert Mode (optional). Über einen Schalter im Header lässt sich ein lokaler Proxy (http://127.0.0.1:<port>) aktivieren, der die Dateien direkt holt — ohne Rate-Limit und Größen-Cap. Die Einrichtung ist fortgeschritten und für den normalen Betrieb nicht nötig.

Für den Einstieg, die Zielgruppen und das große Bild siehe die Übersichtsseite. Konkrete Durchläufe zeigen die Beispiele. Ausprobieren kannst du alles direkt im Tool.

Aufbau: sieben Tabs, vier Funktionen

robots.txt-Generator

User-agent-Blöcke

Sitemap-URL und Host

Ausgabe, Kopieren, Download, Import

Sitemap-Generator

Base-URL und URL-Zeilen

Ausgabe und Import

Live-Checker: Check robots.txt

Was du im Ergebnis siehst

Sonderfälle

Live-Checker: Check Sitemap

Reguläre Sitemap (urlset)

Sitemap-Index

Sonderfälle

Examples, Tips, Reference

robots.txt-Direktiven (Reference)

Sitemap-XML-Elemente (Reference)

Architektur, Limits und Datenschutz

Reguläre Sitemap (`urlset`)