# Structured Data & Technical GEO

> Die technische Seite von GEO: JSON-LD-Schemata, llms.txt, AI-Crawler-Management und der Markdown-Mirror — letzteres als gelebtes Experiment dieser Seite.

Source: https://www.jpkc.com/db/blog/structured-data-technical-geo/

Technisches GEO sorgt dafür, dass eine Maschine deinen Inhalt sauber lesen, zuordnen und zitieren kann — bevor es überhaupt um die Formulierung geht. Strukturierte, maschinenlesbare Inhalte werden bevorzugt; unstrukturierte Textblöcke werden zunehmend ignoriert. Ich behandle hier zwei Ebenen: die Daten-Auszeichnung (JSON-LD, Tabellen, `llms.txt`) und das technische Fundament (Crawler-Management, Markdown-Alternate, Server-Side-Rendering). Den Markdown-Teil schreibe ich aus erster Hand — diese Seite hier ist selbst das Experiment. Den Rahmen liefert der GEO-Pillar [Was ist GEO?](https://www.jpkc.com/db/blog/was-ist-geo/).

## Strukturierte Daten: JSON-LD und maschinenlesbare Formate

Strukturierte Daten geben einer Maschine explizit vor, was ein Inhalt bedeutet — statt es aus Fließtext erraten zu müssen. Für GEO sind vor allem diese Bausteine relevant. Wichtig zur Einordnung: Google erklärt Schema für seine eigene KI-Suche als *nicht erforderlich* (siehe [Googles AI-Optimization-Guide](https://www.jpkc.com/db/blog/google-ai-optimization/)), für andere KI-Engines bleibt es aber ein nützliches Signal.

| Baustein | Zweck |
| --- | --- |
| `FAQPage`, `HowTo` | Frage-Antwort- und Schritt-für-Schritt-Inhalte direkt extrahierbar machen |
| `Article` | Artikel mit Autor, Datum und `dateModified` auszeichnen |
| `Review`, `Product` | Bewertungen und Produktdaten mit expliziten Attributen versehen |
| `Organization`, `Person` | sichtbar machen, wer hinter dem Inhalt steht — Basis für E-E-A-T und Zuordnung |
| Tabellen mit `<th>` | korrekt ausgezeichnete HTML-Tabellen sind maschinenlesbar und hoch zitierfähig |
| Definitionslisten | `<dl>`/`<dt>`/`<dd>` für Glossare und Schlüssel-Wert-Erklärungen |
| `llms.txt` | Markdown-Datei im Domain-Root, die Zweck und Struktur der Seite für KI beschreibt |

Das `Organization`- und `Person`-Schema ist der unterschätzte Teil: KI nutzt es, um Erfahrung, Expertise und Autorität (E-E-A-T) zu verifizieren und ein Zitat korrekt zuzuordnen. Wer anonym publiziert, verschenkt genau diese Zuordnung.

## Der Markdown-Mirror: das Experiment dieser Seite

Der wirksamste technische Hebel ist eine saubere Markdown-Version jeder Seite — und genau das setze ich hier um. KI-Agenten extrahieren Inhalt aus Markdown deutlich zuverlässiger als aus gerendertem HTML, weil Navigation, Werbung und Styling-Rauschen fehlen. Es gibt zwei Wege, das anzubieten, und diese Seite nutzt beide:

1. **Statischer `.md`-Mirror plus Link im `<head>`** — jede Seite hier hat ein Markdown-Gegenstück und einen `<link rel="alternate" type="text/markdown" href="…">` im Kopf. Crawler, die nicht verhandeln, finden den Inhalt so trotzdem.
2. **Content-Negotiation über HTTP** — schickt ein Agent `Accept: text/markdown`, antwortet der Server mit `Content-Type: text/markdown` statt HTML.

Ich betreibe das auf dieser Wissensplattform unter `/db/` als bewusstes Experiment: Jeder Artikel — auch dieser hier — liegt zusätzlich nativ als Markdown vor, damit KI-Systeme rauschfrei auf die Daten zugreifen können. Du kannst das selbst ausprobieren, indem du die Markdown-Variante dieser Seite öffnest. Für mich ist das kein theoretischer Tipp, sondern gelebte Praxis — und die Grundlage, auf der ich beurteile, was funktioniert.

## Technisches Fundament: Crawler, Rendering, URLs

Damit KI deinen Inhalt überhaupt erreicht, muss die Technik stimmen. Vier Punkte sind dabei entscheidend.

- **AI-Crawler-Management** — die gängigen KI-Crawler heißen `GPTBot`, `OAI-SearchBot`, `Google-Extended`, `ClaudeBot`, `PerplexityBot`, `CCBot` und `Bytespider`. Du erlaubst oder blockierst sie gezielt in der `robots.txt`. Eine bewusste Entscheidung ist hier wichtiger als pauschales Blocken oder Zulassen.
- **Server-Side-Rendering** — KI-Crawler kommen mit reinen JavaScript-Seiten schlecht zurecht. Der kritische Inhalt muss in der initialen HTML-Antwort stehen.
- **Schnelle Ladezeiten** — KI-Crawler respektieren Crawl-Delays und überspringen langsame Seiten. Optimiere die Time to First Byte, aktiviere Kompression, nutze ein CDN.
- **Saubere URLs und internes Linking** — logische, beschreibende URLs helfen bei der thematischen Einordnung, und eine starke interne Linkstruktur macht deine Themen-Autorität sichtbar.

Das `llms.txt` rundet das ab: eine Markdown-Datei im Domain-Root, die deine Seite, ihre Kern-Inhaltsbereiche und die gewünschte Zitierweise beschreibt. Sie ist noch experimentell, gewinnt aber an Verbreitung. Mehr zur Verbreitung und zum Standard findest du auf llmstxt.org (englisch).

## FAQ

### Brauche ich Schema-Markup für GEO?

Es kommt auf die Engine an. Google erklärt Schema für seine eigene KI-Suche ausdrücklich als nicht erforderlich, weil diese den klassischen Suchindex nutzt. Für Perplexity, ChatGPT, Claude und andere Engines bleibt strukturierte Auszeichnung aber ein nützliches Signal — und sie schadet nie. Meine Empfehlung: `Organization`/`Person` und passende Inhaltstypen wie `Article` oder `FAQPage` dort einsetzen, wo sie ohnehin den Inhalt korrekt beschreiben.

### Was ist ein Markdown-Mirror und brauche ich ihn?

Ein Markdown-Mirror ist eine saubere Markdown-Version deiner Seite ohne Navigation, Werbung und Styling-Rauschen — angeboten per `<link rel="alternate" type="text/markdown">` oder per HTTP-Content-Negotiation. KI-Agenten extrahieren daraus zuverlässiger als aus HTML. Pflicht ist er nicht, aber ein klarer Vorteil. Ich betreibe ihn auf dieser Seite für jeden Artikel und kann den Unterschied bestätigen.

### Soll ich AI-Crawler blockieren oder zulassen?

Das ist eine bewusste Entscheidung, keine Standardvorgabe. Wer in KI-Antworten zitiert werden will, lässt die relevanten Crawler wie `GPTBot`, `OAI-SearchBot`, `Google-Extended`, `ClaudeBot` und `PerplexityBot` zu. Wer Inhalte vor dem Training schützen, aber in der Suche sichtbar bleiben will, differenziert in der `robots.txt` zwischen Trainings- und Such-Bots. Pauschales Blocken kostet Sichtbarkeit.

## Weiterlesen

Der Rahmen ist der GEO-Pillar [Was ist GEO?](https://www.jpkc.com/db/blog/was-ist-geo/). Wie Google Schema und `llms.txt` einordnet, klärt [Googles AI-Optimization-Guide](https://www.jpkc.com/db/blog/google-ai-optimization/). Wie du den Inhalt selbst zitierfähig formulierst, steht in [Schreiben für KI](https://www.jpkc.com/db/blog/schreiben-fuer-ki/); wie KI Fragen in Teilabfragen zerlegt, in [Multi-Turn und Query-Fan-out](https://www.jpkc.com/db/blog/multi-turn-query-fan-out/). Den technischen Zustand deiner Seite prüfst du mit dem [SEO-&-GEO-Analyzer](https://www.jpkc.com/db/tools/seo/).