Neuer HTML Vorschlag: Klare KI Kennzeichnung ab 2026

Tom Brigl  –

Veröffentlicht:

26.01.2026,

Letzte Aktualisierung:

26.01.2026
Inhaltsverzeichnis

In letzter Zeit wird intensiv darüber diskutiert, wie mit KI-generierten Inhalten im Web umzugehen ist – und vor allem, wie man sie klar von menschlich geschriebenem Content unterscheiden kann. Ein neuer Vorschlag aus der Entwickler-Community sorgt nun für Aufsehen: Er sieht vor, bestehende HTML-Strukturen zu nutzen, um maschinell erzeugte Textpassagen direkt im Quellcode einer Webseite als solche zu kennzeichnen. Ziel ist es, rechtlichen Vorgaben, wie sie ab Sommer 2026 in der EU verpflichtend werden, besser entsprechen zu können. Doch nicht alle halten diesen Ansatz für gelungen – und manche bezeichnen ihn sogar als gefährlich kurz gedacht.

Worum es bei dem Vorschlag eigentlich geht

Stell dir vor, du veröffentlichst einen Blogartikel, in dem du einige Absätze selbst geschrieben hast, andere dagegen stammen von einem Chatbot oder einem Zusammenfassungs-Tool. Bislang gibt es im HTML-Standard keine Möglichkeit, klar anzugeben, welche Abschnitte automatisch erstellt wurden. Der neue Vorschlag will genau das ändern.

Dazu soll eine Kombination aus einem Meta-Tag auf Seitenebene und einem neuen Attribut auf Abschnittsebene eingeführt werden. Mit dem Meta-Tag lässt sich angeben, in welchem Umfang der Inhalt einer Seite mit KI-Hilfe entstanden ist. Das Attribut hingegen soll dazu dienen, nur einzelne Textabschnitte explizit zu kennzeichnen.

Seitenweite Kennzeichnung

Über ein einfaches Meta-Tag im Header einer Seite kann angegeben werden, ob die Inhalte ganz oder teilweise von künstlicher Intelligenz stammen. Zur Auswahl stehen verschiedene Werte wie:

  • ai-generated – Inhalte wurden mithilfe von KI erstellt, eventuell mit menschlicher Kontrolle.
  • ai-assisted – Der Text ist hauptsächlich von Menschen, jedoch mit maschineller Unterstützung optimiert worden.
  • autonomous – Vollständig automatisch generierter Inhalt ohne menschliches Zutun.
  • mixed – Unterschiedliche Abschnitte weisen verschiedene Entstehungsarten auf.
  • none – Es wurde keine KI eingesetzt.

Damit könnten Suchmaschinen oder Regulierungsbehörden künftig auf einen Blick erkennen, welcher Grad an Automatisierung in einem Dokument steckt. Entsprechend wäre auch denkbar, dass Browser oder News-Aggregatoren Nutzenden diese Information anzeigen.

Markierungen innerhalb des Textes

Für Stellen, an denen nur Teile einer Seite aus KI-Inhalten bestehen, soll künftig jedes HTML-Element um ein neues Attribut erweitert werden können, etwa:

<aside ai-disclosure=“ai-generated“ ai-model=“gpt-4o“ ai-provider=“OpenAI“>…

In diesem Fall würde ein Seitenabschnitt – beispielsweise eine automatisch erzeugte Zusammenfassung eines Artikels – explizit als „KI-generiert“ gekennzeichnet. Denkbar wäre auch die Verwendung des Attributs auf <section>– oder <div>-Elementen.

Warum dieser Ansatz überhaupt ins Gespräch kam

Der Vorschlag stammt von David E. Weekly, einem Entwickler, der versucht, pragmatische technische Lösungen für künftige Gesetzeslagen zu schaffen. Denn ab August 2026 verlangt die EU-KI-Verordnung in Artikel 50 eine maschinenlesbare Kennzeichnung von KI-generierten Texten. Für internationale Websites bedeutet das eine erhebliche Compliance-Herausforderung – vor allem für Redaktionen, bei denen zunehmend Tools wie ChatGPT oder Claude in die Content-Produktion eingebunden sind.

Weekly argumentiert, dass es derzeit nur allgemeinere Ansätze gebe, zum Beispiel ein serverseitiges Header-Signal oder eine Meta-Information auf Seitenebene. Beide Varianten ließen sich jedoch nicht auf einzelne Textstellen anwenden. Sein Vorschlag schließt genau diese Lücke – und orientiert sich an der bereits existierenden semantischen Struktur von HTML.

Gerade Nachrichtenseiten hätten häufig KI-generierte Zusammenfassungen oder automatisierte Stichpunkte neben von Journalist:innen verfassten Artikeln. Diese Mischform sei die neue Realität – und genau dafür brauche es flexible Lösungen.

Warum der Vorschlag so kontrovers diskutiert wird

Auf dem Papier klingt der Ansatz zunächst vernünftig. Doch bei näherem Hinsehen gibt es konzeptionelle und pragmatische Probleme, die schnell deutlich machen, dass es nicht nur um Technik, sondern auch um die Bedeutung von semantischem HTML geht. Besonders die Verwendung der Elemente <aside> und <section> stößt auf Kritik.

Das Problem mit dem <aside>-Element

Das <aside>-Element wurde ursprünglich dafür geschaffen, Inhalte zu kennzeichnen, die nicht zum Hauptthema einer Seite gehören – zum Beispiel Randnotizen, Werbung oder weiterführende Links. Setzt man es für KI-generierte Textpassagen ein, die den eigentlichen Inhalt zusammenfassen, verändert sich die semantische Bedeutung völlig. Denn eine Zusammenfassung ist direkt mit dem Haupttext verbunden und nicht nur „beiläufig“.

Anders gesagt: Wenn ein KI-Tool eine Zusammenfassung deines Artikels schreibt, kann das Ergebnis zwar technisch in einem <aside>-Block stehen, semantisch wäre das aber falsch. Vorleseprogramme und SEO-Parser könnten dann fälschlicherweise annehmen, der Inhalt sei nebensächlich – was vielleicht ungewollte Folgen hätte.

Warum auch <section> problematisch ist

Ähnlich sieht es beim <section>-Tag aus. Dieses dient laut Spezifikation dazu, themenbezogene Abschnitte einer Seite zu gliedern – also etwa „Einleitung“, „Methodik“, „Ergebnisse“ oder „Fazit“. Wenn dieses Element künftig genutzt wird, um die Autorschaft zu beschreiben (also ob Mensch oder KI dahintersteckt), widerspricht das seiner eigentlichen Funktion. Auch hier entsteht ein Konflikt zwischen struktureller Bedeutung und regulatorischer Zweckmäßigkeit.

Der Zwiespalt zwischen Technik und Gesetzgebung

Hier liegt das eigentliche Dilemma: Der Vorschlag versucht primär, eine rechtliche Anforderung zu erfüllen – nämlich maschinenlesbare Transparenz herzustellen. Doch die HTML-Spezifikation ist kein juristisches, sondern ein technisches und semantisches Regelwerk. Sie strukturiert Informationen auf Basis ihrer Bedeutung, nicht ihres Ursprungs. Sobald man diese Bedeutung verändert, droht Inkonsistenz, die für Barrierefreiheit, SEO und Interpretationssysteme relevant ist.

Ein Teilnehmer der Diskussion im Entwickler-Forum formulierte es treffend: Dieser Vorstoß diene in erster Linie der Erfüllung formaler Normen, ohne dass er den eigentlichen Mehrwert für das Web klar beweise. Kurz gesagt: Man riskiere, den Standard zu überfrachten, um politische Anforderungen zu bedienen.

Ein Beispiel aus der Praxis

Nehmen wir ein Nachrichtenportal. Dort könnte künftig der Haupttext durch Journalist:innen entstehen (also menschlich), während in der Seitenleiste automatisierte Kurzfassungen oder Datenzusammenstellungen laufen. Der neue Attribut-Ansatz würde dann helfen, diese transparent zu markieren – was für Compliance wichtig, für die Nutzungserfahrung aber zweitrangig ist. Browser-Nutzer:innen würden davon vermutlich wenig mitbekommen, es sei denn, Suchmaschinen begännen, solche Kennzeichnungen visuell zu interpretieren.

Die großen Fragen bleiben: Wer kontrolliert die Richtigkeit dieser Angaben? Kann ein CMS- oder KI-Anbieter automatisch richtig markieren, wann menschliche Bearbeitung erfolgt ist? Und wie grenzt man „ai-assisted“ von „ai-generated“ wirklich ab? Selbst innerhalb von Redaktionen sind die Prozesse längst fließend.

Potenzielle Folgen

Wenn der Vorschlag tatsächlich angenommen würde, könnten Websites gezwungen sein, ihre Content-Systeme anzupassen – möglicherweise innerhalb kurzer Zeit, um EU-Vorschriften zu entsprechen. Gleichzeitig würde das bedeuten, dass KI-Plattformen wie OpenAI, Anthropic oder Google ihre Modelle über diese Markierungen informieren könnten, um z. B. trainierte Ausgaben besser zu deklarieren.

Doch auch Missbrauch ist denkbar: Ein Betreiber könnte aus reiner Vorsicht alles als „mixed“ oder „ai-assisted“ markieren, um rechtlich auf der sicheren Seite zu sein. Das würde die Labels entwerten und das eigentliche Ziel – Transparenz – wieder untergraben.

Und was sagen Fachleute?

Die Reaktionen fallen gemischt aus. Einige halten den Vorschlag für eine pragmatische Zwischenlösung, bis es bessere, universelle Protokolle gibt. Andere bezweifeln, dass HTML überhaupt der richtige Ort für solche regulatorischen Angaben ist. Wünschenswert wäre vielleicht eine Integration in HTTP-Header oder strukturierte Metadatenformate, die unabhängig von der HTML-Semantik funktionieren.

Ich persönlich sehe darin vor allem eines: ein Symptom für den Druck, den Gesetze wie die EU-KI-Verordnung auf die technische Landschaft ausüben. Sie fordern Nachweispflichten, deren Umsetzung erst im Nachhinein hineinimprovisiert wird. Und genau das erzeugt diese Reibung zwischen Recht und Technik – ein Spannungsfeld, das sich in den kommenden Jahren wohl noch häufiger zeigen wird.

Mein Fazit

Aus meiner Erfahrung mit Webstandards weiß ich: Sobald man HTML über seine natürliche Funktion hinaus belastet, entstehen unerwartete Nebenwirkungen. In diesem Fall könnte die Idee zwar kurzfristig helfen, mehr Transparenz zu schaffen, sie wirkt aber wie ein Provisorium – ein Versuch, juristische Anforderungen in ein System zu pressen, das dafür nie gedacht war.

Langfristig bräuchte es wahrscheinlich eine klar getrennte, maschinenlesbare Kennzeichnungsebene – beispielsweise ein eigenes Schema, das unabhängig von HTML arbeitet, aber Referenzen auf bestimmte Textsegmente erlaubt. Solange das nicht existiert, werden Kompromisse wie dieser Vorschlag immer wieder auftauchen. Und jeder davon wird den gleichen Streit auslösen: zwischen logischer Reinheit der Standards und regulatorischem Pragmatismus.

Ob sich das Konzept durchsetzt? Schwer zu sagen. Realistisch gesehen wird wohl irgendeine Form der Kennzeichnungspflicht kommen. In welcher technischen Gestalt – das ist noch offen. Was sicher ist: Das Thema Transparenz bei KI-generierten Inhalten wird uns so schnell nicht mehr loslassen. Und es zeigt, wie dringend wir über neue Standards nachdenken müssen, die Maschinen, Menschen und Gesetzgeber gleichermaßen verstehen.

Tom Brigl

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Das könnte Dich ebenfalls interessieren:
/
30.06.2026

Nach nur rund zwei Tagen war das Google Spam Update vom Juni 2026 bereits vollständig ausgerollt. Gestartet ist es am Mittwoch, dem 24....

/
30.06.2026

Der Bericht zur Seitenindexierung in der Google Search Console hängt aktuell deutlich hinterher: Er steht offenbar noch auf dem 11. Juni 2026 und...

/
29.06.2026

Wenn du deine Sichtbarkeit in der Google-Suche über die neuen KI-Funktionen beobachtest, kommt es auf ein ziemlich schlichtes, aber wichtiges Detail an: Eine...

/
29.06.2026

Wenn du eine Website betreibst, Inhalte veröffentlichst oder für SEO verantwortlich bist, kommst du an Googles generativen Suchfunktionen kaum noch vorbei. Gemeint sind...

/
26.06.2026

Wenn du mit dem Google Merchant Center arbeitest, kennst du wahrscheinlich diese etwas unangenehme Situation: Du pflegst deinen Produktfeed sauber, kontrollierst Titel, Preise,...

/
26.06.2026

Google hat das Spam Update vom Juni 2026 ausgerollt, und wenn du im SEO-Bereich arbeitest, solltest du die nächsten Tage nicht völlig entspannt...