In letzter Zeit wird intensiv darüber diskutiert, wie mit KI-generierten Inhalten im Web umzugehen ist – und vor allem, wie man sie klar von menschlich geschriebenem Content unterscheiden kann. Ein neuer Vorschlag aus der Entwickler-Community sorgt nun für Aufsehen: Er sieht vor, bestehende HTML-Strukturen zu nutzen, um maschinell erzeugte Textpassagen direkt im Quellcode einer Webseite als solche zu kennzeichnen. Ziel ist es, rechtlichen Vorgaben, wie sie ab Sommer 2026 in der EU verpflichtend werden, besser entsprechen zu können. Doch nicht alle halten diesen Ansatz für gelungen – und manche bezeichnen ihn sogar als gefährlich kurz gedacht.
Worum es bei dem Vorschlag eigentlich geht
Stell dir vor, du veröffentlichst einen Blogartikel, in dem du einige Absätze selbst geschrieben hast, andere dagegen stammen von einem Chatbot oder einem Zusammenfassungs-Tool. Bislang gibt es im HTML-Standard keine Möglichkeit, klar anzugeben, welche Abschnitte automatisch erstellt wurden. Der neue Vorschlag will genau das ändern.
Dazu soll eine Kombination aus einem Meta-Tag auf Seitenebene und einem neuen Attribut auf Abschnittsebene eingeführt werden. Mit dem Meta-Tag lässt sich angeben, in welchem Umfang der Inhalt einer Seite mit KI-Hilfe entstanden ist. Das Attribut hingegen soll dazu dienen, nur einzelne Textabschnitte explizit zu kennzeichnen.
Seitenweite Kennzeichnung
Über ein einfaches Meta-Tag im Header einer Seite kann angegeben werden, ob die Inhalte ganz oder teilweise von künstlicher Intelligenz stammen. Zur Auswahl stehen verschiedene Werte wie:
- ai-generated – Inhalte wurden mithilfe von KI erstellt, eventuell mit menschlicher Kontrolle.
- ai-assisted – Der Text ist hauptsächlich von Menschen, jedoch mit maschineller Unterstützung optimiert worden.
- autonomous – Vollständig automatisch generierter Inhalt ohne menschliches Zutun.
- mixed – Unterschiedliche Abschnitte weisen verschiedene Entstehungsarten auf.
- none – Es wurde keine KI eingesetzt.
Damit könnten Suchmaschinen oder Regulierungsbehörden künftig auf einen Blick erkennen, welcher Grad an Automatisierung in einem Dokument steckt. Entsprechend wäre auch denkbar, dass Browser oder News-Aggregatoren Nutzenden diese Information anzeigen.
Markierungen innerhalb des Textes
Für Stellen, an denen nur Teile einer Seite aus KI-Inhalten bestehen, soll künftig jedes HTML-Element um ein neues Attribut erweitert werden können, etwa:
<aside ai-disclosure=“ai-generated“ ai-model=“gpt-4o“ ai-provider=“OpenAI“>…
In diesem Fall würde ein Seitenabschnitt – beispielsweise eine automatisch erzeugte Zusammenfassung eines Artikels – explizit als „KI-generiert“ gekennzeichnet. Denkbar wäre auch die Verwendung des Attributs auf <section>– oder <div>-Elementen.
Warum dieser Ansatz überhaupt ins Gespräch kam
Der Vorschlag stammt von David E. Weekly, einem Entwickler, der versucht, pragmatische technische Lösungen für künftige Gesetzeslagen zu schaffen. Denn ab August 2026 verlangt die EU-KI-Verordnung in Artikel 50 eine maschinenlesbare Kennzeichnung von KI-generierten Texten. Für internationale Websites bedeutet das eine erhebliche Compliance-Herausforderung – vor allem für Redaktionen, bei denen zunehmend Tools wie ChatGPT oder Claude in die Content-Produktion eingebunden sind.
Weekly argumentiert, dass es derzeit nur allgemeinere Ansätze gebe, zum Beispiel ein serverseitiges Header-Signal oder eine Meta-Information auf Seitenebene. Beide Varianten ließen sich jedoch nicht auf einzelne Textstellen anwenden. Sein Vorschlag schließt genau diese Lücke – und orientiert sich an der bereits existierenden semantischen Struktur von HTML.
Gerade Nachrichtenseiten hätten häufig KI-generierte Zusammenfassungen oder automatisierte Stichpunkte neben von Journalist:innen verfassten Artikeln. Diese Mischform sei die neue Realität – und genau dafür brauche es flexible Lösungen.
Warum der Vorschlag so kontrovers diskutiert wird
Auf dem Papier klingt der Ansatz zunächst vernünftig. Doch bei näherem Hinsehen gibt es konzeptionelle und pragmatische Probleme, die schnell deutlich machen, dass es nicht nur um Technik, sondern auch um die Bedeutung von semantischem HTML geht. Besonders die Verwendung der Elemente <aside> und <section> stößt auf Kritik.
Das Problem mit dem <aside>-Element
Das <aside>-Element wurde ursprünglich dafür geschaffen, Inhalte zu kennzeichnen, die nicht zum Hauptthema einer Seite gehören – zum Beispiel Randnotizen, Werbung oder weiterführende Links. Setzt man es für KI-generierte Textpassagen ein, die den eigentlichen Inhalt zusammenfassen, verändert sich die semantische Bedeutung völlig. Denn eine Zusammenfassung ist direkt mit dem Haupttext verbunden und nicht nur „beiläufig“.
Anders gesagt: Wenn ein KI-Tool eine Zusammenfassung deines Artikels schreibt, kann das Ergebnis zwar technisch in einem <aside>-Block stehen, semantisch wäre das aber falsch. Vorleseprogramme und SEO-Parser könnten dann fälschlicherweise annehmen, der Inhalt sei nebensächlich – was vielleicht ungewollte Folgen hätte.
Warum auch <section> problematisch ist
Ähnlich sieht es beim <section>-Tag aus. Dieses dient laut Spezifikation dazu, themenbezogene Abschnitte einer Seite zu gliedern – also etwa „Einleitung“, „Methodik“, „Ergebnisse“ oder „Fazit“. Wenn dieses Element künftig genutzt wird, um die Autorschaft zu beschreiben (also ob Mensch oder KI dahintersteckt), widerspricht das seiner eigentlichen Funktion. Auch hier entsteht ein Konflikt zwischen struktureller Bedeutung und regulatorischer Zweckmäßigkeit.
Der Zwiespalt zwischen Technik und Gesetzgebung
Hier liegt das eigentliche Dilemma: Der Vorschlag versucht primär, eine rechtliche Anforderung zu erfüllen – nämlich maschinenlesbare Transparenz herzustellen. Doch die HTML-Spezifikation ist kein juristisches, sondern ein technisches und semantisches Regelwerk. Sie strukturiert Informationen auf Basis ihrer Bedeutung, nicht ihres Ursprungs. Sobald man diese Bedeutung verändert, droht Inkonsistenz, die für Barrierefreiheit, SEO und Interpretationssysteme relevant ist.
Ein Teilnehmer der Diskussion im Entwickler-Forum formulierte es treffend: Dieser Vorstoß diene in erster Linie der Erfüllung formaler Normen, ohne dass er den eigentlichen Mehrwert für das Web klar beweise. Kurz gesagt: Man riskiere, den Standard zu überfrachten, um politische Anforderungen zu bedienen.
Ein Beispiel aus der Praxis
Nehmen wir ein Nachrichtenportal. Dort könnte künftig der Haupttext durch Journalist:innen entstehen (also menschlich), während in der Seitenleiste automatisierte Kurzfassungen oder Datenzusammenstellungen laufen. Der neue Attribut-Ansatz würde dann helfen, diese transparent zu markieren – was für Compliance wichtig, für die Nutzungserfahrung aber zweitrangig ist. Browser-Nutzer:innen würden davon vermutlich wenig mitbekommen, es sei denn, Suchmaschinen begännen, solche Kennzeichnungen visuell zu interpretieren.
Die großen Fragen bleiben: Wer kontrolliert die Richtigkeit dieser Angaben? Kann ein CMS- oder KI-Anbieter automatisch richtig markieren, wann menschliche Bearbeitung erfolgt ist? Und wie grenzt man „ai-assisted“ von „ai-generated“ wirklich ab? Selbst innerhalb von Redaktionen sind die Prozesse längst fließend.
Potenzielle Folgen
Wenn der Vorschlag tatsächlich angenommen würde, könnten Websites gezwungen sein, ihre Content-Systeme anzupassen – möglicherweise innerhalb kurzer Zeit, um EU-Vorschriften zu entsprechen. Gleichzeitig würde das bedeuten, dass KI-Plattformen wie OpenAI, Anthropic oder Google ihre Modelle über diese Markierungen informieren könnten, um z. B. trainierte Ausgaben besser zu deklarieren.
Doch auch Missbrauch ist denkbar: Ein Betreiber könnte aus reiner Vorsicht alles als „mixed“ oder „ai-assisted“ markieren, um rechtlich auf der sicheren Seite zu sein. Das würde die Labels entwerten und das eigentliche Ziel – Transparenz – wieder untergraben.
Und was sagen Fachleute?
Die Reaktionen fallen gemischt aus. Einige halten den Vorschlag für eine pragmatische Zwischenlösung, bis es bessere, universelle Protokolle gibt. Andere bezweifeln, dass HTML überhaupt der richtige Ort für solche regulatorischen Angaben ist. Wünschenswert wäre vielleicht eine Integration in HTTP-Header oder strukturierte Metadatenformate, die unabhängig von der HTML-Semantik funktionieren.
Ich persönlich sehe darin vor allem eines: ein Symptom für den Druck, den Gesetze wie die EU-KI-Verordnung auf die technische Landschaft ausüben. Sie fordern Nachweispflichten, deren Umsetzung erst im Nachhinein hineinimprovisiert wird. Und genau das erzeugt diese Reibung zwischen Recht und Technik – ein Spannungsfeld, das sich in den kommenden Jahren wohl noch häufiger zeigen wird.
Mein Fazit
Aus meiner Erfahrung mit Webstandards weiß ich: Sobald man HTML über seine natürliche Funktion hinaus belastet, entstehen unerwartete Nebenwirkungen. In diesem Fall könnte die Idee zwar kurzfristig helfen, mehr Transparenz zu schaffen, sie wirkt aber wie ein Provisorium – ein Versuch, juristische Anforderungen in ein System zu pressen, das dafür nie gedacht war.
Langfristig bräuchte es wahrscheinlich eine klar getrennte, maschinenlesbare Kennzeichnungsebene – beispielsweise ein eigenes Schema, das unabhängig von HTML arbeitet, aber Referenzen auf bestimmte Textsegmente erlaubt. Solange das nicht existiert, werden Kompromisse wie dieser Vorschlag immer wieder auftauchen. Und jeder davon wird den gleichen Streit auslösen: zwischen logischer Reinheit der Standards und regulatorischem Pragmatismus.
Ob sich das Konzept durchsetzt? Schwer zu sagen. Realistisch gesehen wird wohl irgendeine Form der Kennzeichnungspflicht kommen. In welcher technischen Gestalt – das ist noch offen. Was sicher ist: Das Thema Transparenz bei KI-generierten Inhalten wird uns so schnell nicht mehr loslassen. Und es zeigt, wie dringend wir über neue Standards nachdenken müssen, die Maschinen, Menschen und Gesetzgeber gleichermaßen verstehen.







