robots.txt & Sitemap — Manual
Funktionsbeschreibung von robots.txt & Sitemap: beide Generatoren mit allen Optionen, die zwei Live-Checker, Direktiven, Sitemap-Felder, Limits und Architektur.
Zurück zur Übersicht: robots.txt & Sitemap · Tool live öffnen: www.jpkc.com/tools/robots-sitemap/
Dieses Manual beschreibt robots.txt & Sitemap vollständig: jeden der sieben Tabs, jede Option der beiden Generatoren, das Verhalten der beiden Live-Checker und die technischen Grenzen darunter. Die Oberfläche des Tools ist auf Englisch — die Tab- und Button-Bezeichnungen stehen hier deshalb in ihrer englischen Original-Schreibweise (mit deutscher Erläuterung), damit du dich im echten Interface zurechtfindest.
Aufbau: sieben Tabs, vier Funktionen
Das Tool gliedert sich in sieben Tabs: robots.txt (Generator), Sitemap (Generator), Check robots.txt (Live-Checker), Check Sitemap (Live-Checker), Examples, Tips und Reference. Die beiden Generatoren erzeugen Dateien, die beiden Checker holen und analysieren bestehende Dateien von einer fremden URL. Examples, Tips und Reference sind statische Nachschlage-Tabs und funktionieren ohne jede Eingabe.
robots.txt-Generator
Der erste Tab baut eine robots.txt mit Live-Vorschau: Jede Änderung im Formular links aktualisiert nach einer kurzen Verzögerung den Ausgabe-Editor rechts.
User-agent-Blöcke
Das Herzstück. Über Add User-agent Block legst du beliebig viele Blöcke an. Jeder Block hat:
- ein User-agent-Feld mit Autovervollständigung (Datalist). Vorgeschlagen werden über 40 gängige Bot-Namen — Suchmaschinen (
Googlebot,Bingbot,DuckDuckBot,YandexBot…), Social-Bots (Twitterbot,LinkedInBot,facebookexternalhit…), KI-Crawler (GPTBot,ChatGPT-User,OAI-SearchBot,Google-Extended,anthropic-ai,Claude-Web,ClaudeBot,CCBot,Bytespider,PerplexityBot…) und SEO-Tool-Crawler (AhrefsBot,SemrushBot,MJ12bot…). Du kannst auch jeden anderen Namen eintippen;*steht für „alle Bots". - einen Rules-Bereich. Über Add Rule fügst du Regelzeilen hinzu, jede mit einem Typ-Auswahlfeld (
DisallowoderAllow) und einem Pfad-Feld (z. B./admin/). Ein leererDisallow:-Wert bedeutet „nichts blockiert" — also alles erlaubt. - ein Crawl-delay-Feld (Zahl, 0 bis 3600 Sekunden, optional). Es erzeugt eine
Crawl-delay:-Zeile im Block.
Die Blöcke lassen sich am Griff-Symbol per Drag-and-drop umsortieren.
Sitemap-URL und Host
Unter den Blöcken stehen zwei optionale Felder:
- Sitemap URL — wird am Ende der Datei als
Sitemap: URLangehängt. Du kannst die Adresse direkt aus dem Sitemap-Generator übernehmen. - Host — eine Yandex-spezifische Direktive für die bevorzugte (kanonische) Domain, ausgegeben als
Host: domain.
Ausgabe, Kopieren, Download, Import
Rechts steht der Ausgabe-Editor (schreibgeschützt). Jede generierte Datei beginnt mit einem Kommentar-Header (# robots.txt und ein Hinweis, dass sie mit JPKCom Tools erzeugt wurde). Über den Buttons:
- Load File — liest eine bestehende
robots.txtein und füllt das Formular daraus. Der Parser erkenntUser-agent,Disallow,Allow,Crawl-delay,SitemapundHost; Kommentarzeilen werden übersprungen, unbekannte Direktiven ignoriert (ein Hinweis nennt sie). Teilen sich mehrere User-agents dieselben Regeln, wird je ein eigener Block angelegt. - Reset — setzt das Formular auf den Standard zurück: ein Block
User-agent: *mit einer leerenDisallow:-Regel. - Copy — kopiert die
robots.txtin die Zwischenablage. - Download — speichert sie als
robots.txt(text/plain).
Der Zwischenstand wird automatisch lokal im Browser (LocalStorage) gespeichert und beim nächsten Besuch wiederhergestellt. Beim allerersten Aufruf siehst du den Standard-Block User-agent: *.
Sitemap-Generator
Der zweite Tab baut eine XML-Sitemap, ebenfalls mit Live-Vorschau.
Base-URL und URL-Zeilen
- Base URL (Pflichtfeld) — die Domain, der jeder relative Pfad vorangestellt wird (z. B.
https://example.com). Ein abschließender Schrägstrich wird automatisch entfernt. - URLs — über Add URL fügst du Zeilen hinzu. Jede Zeile hat:
- Path — der Pfad relativ zur Base-URL (z. B.
/about/); ein fehlender führender/wird ergänzt. - Last Modified — ein Datumsfeld; erzeugt
<lastmod>im FormatYYYY-MM-DD. - Freq. — Auswahl für
<changefreq>:always,hourly,daily,weekly,monthly,yearly,never(oder leer). - Priority — Auswahl für
<priority>:1.0bis0.0in Zehntel-Schritten (oder leer).
- Path — der Pfad relativ zur Base-URL (z. B.
Optionale Felder werden nur ausgegeben, wenn sie gesetzt sind. Auch hier lassen sich Zeilen per Drag-and-drop umsortieren.
Ausgabe und Import
Der Editor rechts zeigt die fertige sitemap.xml mit XML-Deklaration und dem korrekten urlset-Namespace. Buttons:
- Load File — liest eine bestehende
sitemap.xmlein. Der Parser akzeptiert nur ein reguläres<urlset>; Sitemap-Index-Dateien (<sitemapindex>) werden hier abgelehnt — dafür ist der Check Sitemap-Tab zuständig. Ungültiges XML oder ein unbekanntes Format werden gemeldet. Die Base-URL wird aus dem ersten<loc>abgeleitet. - Reset — setzt auf drei Standard-Zeilen zurück (
/,/about/,/contact/). - Copy / Download — kopiert bzw. speichert die Datei als
sitemap.xml(application/xml).
Beim ersten Aufruf sind drei Beispiel-URLs vorbelegt. Der Zwischenstand wird ebenfalls lokal gespeichert.
Live-Checker: Check robots.txt
Dieser Tab holt eine bestehende robots.txt von einer fremden Domain und zerlegt sie. Du gibst entweder nur eine Domain ein (z. B. example.com; /robots.txt wird automatisch ergänzt) oder eine vollständige URL. Fehlt das Protokoll, wird https:// vorangestellt. Ein Klick auf Check startet den Abruf.
Was du im Ergebnis siehst
- Eine Erfolgsmeldung mit HTTP-Status, Dateigröße und der Anzahl gefundener User-agent-Blöcke.
- Per-Bot Access — eine Tabelle, die für über 40 bekannte Bots prüft, wie die Datei sie behandelt. Pro Bot: Name, Betreiber, Typ (Search, Social, Archive, AI, SEO Tool), Access (
Allowed/Blocked), Source (Specific= eigener Block,Wildcard *= überUser-agent: *,Default= keine passende Regel), derCrawl-Delayund die konkret greifende Regel. Das ist der schnellste Weg zu sehen, ob du versehentlich KI-Crawler aussperrst. - User-agent blocks — jeder Block der Datei einzeln, mit seinen Allow-/Disallow-Regeln und einem Crawl-delay-Badge. Ein Block ohne Regeln bedeutet vollen Zugriff.
- Sitemaps declared — alle in der Datei deklarierten
Sitemap:-Direktiven. Neben jeder steht ein check-Button, der direkt in den Check Sitemap-Tab springt und diese Sitemap prüft. - Test a URL against these rules — ein kleines Formular: Du gibst einen Pfad (oder eine URL) und einen User-agent ein und bekommst zurück, ob die Datei den Zugriff erlaubt oder blockiert, welche Regel greift und aus welchem Block. Voreingestellt sind der Pfad
/und der AgentGooglebot. - Raw content — der rohe Inhalt der Datei, ausklappbar und kopierbar.
Sonderfälle
Findet der Checker keine robots.txt (HTTP 404 oder ein anderer Fehlerstatus), meldet er das mit dem Hinweis, dass ohne robots.txt standardmäßig alle Crawler erlaubt sind. Eine vorhandene, aber leere Datei wird ebenso eingeordnet (auch sie erlaubt alle Crawler).
Live-Checker: Check Sitemap
Derselbe Ablauf für die sitemap.xml: Domain oder volle URL eingeben (/sitemap.xml wird automatisch ergänzt), Check klicken.
Reguläre Sitemap (urlset)
- Eine Erfolgsmeldung mit der URL-Anzahl und der Dateigröße.
- Spec-Warnungen: Überschreitet die Datei 50.000 URLs oder 50 MB, weist das Tool darauf hin, dass laut Sitemaps-Protokoll dann auf mehrere Dateien plus eine Index-Datei aufgeteilt werden muss.
- Metadata coverage — eine Tabelle mit Fortschrittsbalken: für
lastmod,changefrequndpriorityjeweils, bei wie viel Prozent der URLs das Feld gesetzt ist. - URLs — eine Tabelle der Einträge (die ersten 100 von N) mit URL,
lastmod,changefrequndpriority. Copy all URLs kopiert die vollständige Liste, nicht nur die angezeigten 100. - Raw XML — der rohe XML-Inhalt, ausklappbar und kopierbar (die Anzeige ist gekappt, der Copy-Button liefert den vollständigen Inhalt).
Sitemap-Index
Erkennt der Checker eine Index-Datei (<sitemapindex>), listet er stattdessen die Kind-Sitemaps mit ihrem optionalen lastmod. Jede Kind-Sitemap hat einen Check-Button, mit dem du sie einzeln weiterprüfst. Auch hier gibt es eine Warnung, falls der Index mehr als 50.000 Sitemaps auflistet.
Sonderfälle
404 oder Fehlerstatus, eine leere Datei oder Inhalt ohne ein einziges <loc>-Element werden jeweils als entsprechende Warnung bzw. Fehler gemeldet. Wurde die Datei wegen des Größenlimits des Proxys abgeschnitten, weist ein Hinweis darauf hin, dass die Statistik unvollständig sein kann.
Examples, Tips, Reference
- Examples — fertige Vorlagen. Für die
robots.txt: Allow All Bots, Standard Website, WordPress, Block AI & Scraper Bots. Für die Sitemap: Simple Website, Blog, E-Commerce. Ein Button Load into Generator (bzw. Load) übernimmt die Vorlage als Startpunkt in den jeweiligen Generator. - Tips — kompakte Best-Practice-Karten („Do This" / „Avoid This") für beide Dateien plus eine Erklärung, wie
robots.txtund Sitemap zusammenspielen. - Reference — die Format-Spezifikation: eine Tabelle aller
robots.txt-Direktiven mit Support-Hinweisen, eine Tabelle von über 40 bekannten Bots mit Betreiber und Typ, eine Tabelle der Sitemap-XML-Elemente sowie Links zu den offiziellen Spezifikationen.
robots.txt-Direktiven (Reference)
| Direktive | Unterstützung | Bedeutung |
|---|---|---|
User-agent | alle | Ziel-Bot. * für alle oder ein konkreter Name. |
Disallow | alle | Blockiert einen Pfad. Leerer Wert = alles erlaubt. |
Allow | alle | Gibt einen Pfad frei, überschreibt ein breiteres Disallow. |
Crawl-delay | die meisten | Sekunden zwischen Anfragen. Nicht von Googlebot unterstützt (dort die Search Console nutzen). |
Sitemap | alle | Volle Sitemap-URL. Darf mehrfach vorkommen. |
Host | Yandex | Bevorzugte Domain (kanonischer Host). |
Sitemap-XML-Elemente (Reference)
| Element | Pflicht | Werte / Hinweis |
|---|---|---|
<urlset> | ja | Wurzelelement mit Namespace http://www.sitemaps.org/schemas/sitemap/0.9. |
<url> | ja | Container je Eintrag. |
<loc> | ja | Voll-qualifizierte URL, max. 2048 Zeichen, URL-kodiert. |
<lastmod> | optional | Datum im Format YYYY-MM-DD (W3C). Nur setzen, wenn echt — nicht fälschen. |
<changefreq> | optional | always/hourly/daily/weekly/monthly/yearly/never — nur ein Hinweis. |
<priority> | optional | 0.0–1.0, Standard 0.5. Relativ innerhalb deiner Site, kein Ranking-Faktor gegenüber anderen Sites. |
Architektur, Limits und Datenschutz
- Generatoren rein clientseitig. Die beiden Generator-Tabs erzeugen ihre Dateien vollständig im Browser. Es wird nichts hochgeladen; der Zwischenstand liegt nur in deinem LocalStorage.
- Checker über einen serverseitigen Proxy. Eine fremde Datei kann der Browser wegen CORS nicht direkt laden. Deshalb holt ein serverseitiger Proxy auf dem JPKCom-Server die Datei per cURL; die Analyse läuft danach wieder lokal im Browser. Die geprüfte Domain sieht einen Request vom JPKCom-Server (mit dessen User-Agent), nicht deine IP-Adresse.
- Kein öffentliches API. Die beiden serverseitigen Endpunkte (ein Fetch-Proxy und ein token-basierter Hilfsendpunkt) sind kein öffentlich aufrufbares API — sie werden ausschließlich vom JavaScript des Tools genutzt und sind gegen Missbrauch gehärtet (Token-Authentifizierung, Referer-Prüfung).
- SSRF-Schutz: Interne, lokale und private IP-Adressen werden blockiert, und jeder Redirect-Hop wird erneut geprüft.
- Abruf-Grenzen: maximal 5 MB Body (größere Dateien werden abgeschnitten — ein Hinweis erscheint), 15 s Timeout pro Abruf.
- Rate-Limit: Im Standard-Proxy-Modus ist etwa 1 Prüfung alle 3 Sekunden möglich; darüber kommt ein Hinweis, kurz zu warten.
- Expert Mode (optional). Über einen Schalter im Header lässt sich ein lokaler Proxy (
http://127.0.0.1:<port>) aktivieren, der die Dateien direkt holt — ohne Rate-Limit und Größen-Cap. Die Einrichtung ist fortgeschritten und für den normalen Betrieb nicht nötig.
Für den Einstieg, die Zielgruppen und das große Bild siehe die Übersichtsseite. Konkrete Durchläufe zeigen die Beispiele. Ausprobieren kannst du alles direkt im Tool.