Content Signals & C2PA: Steuerung der KI-Nutzung
Mit der Content-Signal-Direktive und C2PA steuerst du, wie KI-Systeme deine Inhalte nutzen dürfen — drei Kategorien, vier Policies, EU-Rechtsvorbehalt.
von Jean Pierre Kolb ·
Content Signals geben dir eine standardisierte Möglichkeit, zu erklären, wie automatisierte Systeme deine Inhalte nutzen dürfen — feiner als das simple Allow/Disallow der robots.txt. Während immer mehr KI-Crawler das Web abgrasen, ist das die Antwort auf eine bislang offene Frage: nicht nur ob, sondern wofür ein Bot deine Seite verwenden darf. Content Signals ist Cloudflares Umsetzung einer neuen Content-Signal-Direktive. Dieser Artikel ergänzt die technische GEO-Seite — den passenden Rahmen liefert Structured Data und technisches GEO.
Die drei Content-Signal-Kategorien
Die Content-Signal-Direktive arbeitet mit drei Kategorien, die jeweils auf yes oder no stehen. Sie trennt sauber zwischen klassischer Suche, KI-Training und KI-Nutzung in Echtzeit:
| Signal | Bedeutung |
|---|---|
ai-train | Training oder Fine-Tuning von KI-Modellen mit deinen Inhalten |
search | Aufbau eines Suchindex und Anzeige von Treffern (Links und kurze Auszüge) — ohne KI-generierte Zusammenfassungen |
ai-input | Einspeisung in KI-Modelle in Echtzeit (z. B. RAG, Grounding oder KI-Suchantworten) |
Ein Beispiel in der robots.txt:
User-Agent: *
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /Zwei Liefermethoden: robots.txt oder HTTP-Header
Dieselbe Präferenz lässt sich auf zwei Wegen ausspielen — über die robots.txt oder als HTTP-Antwort-Header mit identischer key=value-Grammatik. Der Header ist dort nützlich, wo eine seitenweite robots.txt-Zeile zu grob ist: für einzelne URLs, für Nicht-HTML-Ressourcen wie PDFs oder Bilder und für Signale, die erst am CDN-Rand injiziert werden.
Content-Signal: ai-train=yes, search=yes, ai-input=yesBeide Methoden sind gleichwertig und dürfen kombiniert werden. Da das Setzen einer Präferenz freiwillig ist, wertet der SEO-&-GEO-Analyzer Content Signals aus beiden Quellen aus und zeigt sie als informatives Signal an, ohne sie in die Bewertung einzurechnen.
Vier Default-Policies
Vier vordefinierte Policies decken die häufigsten Fälle ab — von vollständig gesperrt bis vollständig offen:
- Disallow All — Am restriktivsten. Kein Zugriff für irgendeinen Zweck; kann dazu führen, dass Suchmaschinen deine Seite ausschließen.
- Allow Search Only — Erlaubt Suchindexierung und Treffer, aber kein KI-Training und keine KI-Einspeisung.
- Allow Search & AI Input — Erlaubt Suche und Echtzeit-KI-Nutzung (etwa KI-Suchantworten), aber kein Modell-Training.
- Allow All — Erlaubt Suche, KI-Einspeisung und KI-Training.
Darüber hinaus unterstützen Content Signals pfad-spezifische Regeln (etwa /blog/ nur für die Suche, /about für alles) und User-Agent-Targeting (unterschiedliche Regeln für verschiedene Bots).
Warum das für GEO zählt
Content Signals sind ein strategisches GEO-Werkzeug, weil sie Sichtbarkeit und Schutz entkoppeln. Du kannst ai-input erlauben — also Zitate in KI-Suchantworten — und gleichzeitig ai-train sperren: maximale Sichtbarkeit, ohne deine Inhalte als Trainingsdaten herzugeben. Vier Punkte machen den Hebel aus:
- Strategische Sichtbarkeit — Gezielt zitiert werden, ohne Trainingsdaten preiszugeben.
- Content-Kontrolle — Deine KI-Präferenzen explizit erklären, statt darauf zu hoffen, dass KI-Firmen informelle Wünsche respektieren.
- EU-Rechtsvorbehalt — Content Signals enthalten einen ausdrücklichen Rechtsvorbehalt nach Artikel 4 der EU-Richtlinie 2019/790 (Urheberrecht im digitalen Binnenmarkt).
- Early Adoption — Je mehr KI-Systeme Content Signals beachten, desto wertvoller ist ein früh etablierter, klarer Erlaubnis-Nachweis.
C2PA: Herkunft statt nur Erlaubnis
Wo Content Signals regeln, wie deine Inhalte genutzt werden dürfen, geht C2PA — die Coalition for Content Provenance and Authenticity — die andere Richtung an: Sie weist nach, woher ein Inhalt stammt und ob er verändert wurde. Über kryptografisch signierte Metadaten (Content Credentials) lässt sich die Herkunft eines Bildes oder Dokuments belegen. Für GEO ist das die logische Ergänzung zur Autorität: Wer Herkunft nachweisbar macht, liefert ein Trust-Signal, das KI-Systeme künftig als Echtheitsnachweis werten dürften. Beide Standards sind jung, und ihre Verbreitung wächst noch.
So generierst du deine Content Signals
Den fertigen robots.txt-Block erzeugst du am einfachsten mit dem Content Signals Generator (englisch): eine der vier Default-Policies wählen, pro Kategorie anpassen und die Ausgabe direkt in deine robots.txt kopieren. Die Hintergründe erläutert der Cloudflare-Blog zur Content-Signals-Policy.
FAQ
Zwingt eine Content-Signal-Direktive KI-Crawler zum Gehorsam?
Nein, sie ist eine Erklärung, kein technischer Zwang. Wie bei der robots.txt hängt die Wirkung davon ab, dass ein Crawler die Direktive respektiert. Der Wert liegt in der Klarheit und im rechtlichen Rückhalt: Mit dem EU-Rechtsvorbehalt nach Artikel 4 dokumentierst du eine ausdrückliche Willenserklärung — und schaffst eine Grundlage, auf die du dich berufen kannst.
Schadet es meiner KI-Sichtbarkeit, wenn ich Signale setze?
Das hängt davon ab, was du setzt. Sperrst du pauschal alles, riskierst du, aus Suche und KI-Antworten zu verschwinden. Die GEO-freundliche Variante ist differenziert: search=yes und ai-input=yes erlauben — damit bleibst du zitierfähig — und nur ai-train nach Bedarf sperren. So steuerst du die Nutzung, ohne die Sichtbarkeit zu opfern.
Brauche ich C2PA, wenn ich nur Text veröffentliche?
Aktuell selten zwingend, perspektivisch sinnvoll. C2PA spielt seine Stärke vor allem bei Bildern, Video und Audio aus, wo Echtheit und Manipulation zur Frage werden. Für reinen Text wiegt verifizierbare Autorität — Autor-Seiten, Schema, transparente Quellen — heute schwerer. Beobachten solltest du die Entwicklung trotzdem, denn Herkunftsnachweise werden als Trust-Signal an Bedeutung gewinnen.
Weiterlesen
Die technische GEO-Basis und das Crawler-Management stehen in Structured Data und technisches GEO. Den Rahmen der Serie liefert der GEO-Pillar Was ist GEO?. Warum Autorität und Trust-Signale zählen, zeigt E-E-A-T und Markenautorität. Deine robots.txt und Header prüfst du mit dem SEO-&-GEO-Analyzer.