Der Claude-Mythos: Constitutional AI im Faktencheck

Q: Ist "Constitutional AI" ein rechtlich verbindliches Regelwerk?

Nein. "Constitutional AI" ist ein Trainingsverfahren, bei dem das Modell seine Antworten anhand einer Liste natürlichsprachlicher Prinzipien selbst kritisiert und überarbeitet. Die "Verfassung" wirkt nicht zur Laufzeit als Filter und ist kein Rechtsdokument. Wer sie als Compliance-Garantie in einen Vertrag schreibt, verwechselt Trainingsmethode mit Zusicherung.

Q: Macht die Public-Benefit-Corporation-Struktur Claude zum sichersten Modell?

Sie belegt eine Mission-Ausrichtung, keine Produktüberlegenheit. Der Vorstand darf die Mission gegenüber reinen Aktionärsinteressen priorisieren — das ist eine gesellschaftsrechtliche Tatsache. Ob ein Modell für Ihren Anwendungsfall „das sicherste“ ist, klärt nur eine eigene Eignungs- und Risikoprüfung.

Kaum ein KI-Anbieter pflegt sein Image so sorgfältig wie Anthropic. „Sicherheit zuerst”, eine „Verfassung” für das Modell, eine Rechtsform, die der Mission verpflichtet ist — das klingt nach genau dem, was ein rechtlich denkendes Unternehmen sucht. Drei dieser vier Versprechen halten einer Prüfung stand; das vierte — „das sicherste Modell” — ist ein Werturteil, das in keiner Zusicherung etwas zu suchen hat. Und selbst bei den drei belegbaren steckt die Tücke im Detail: Die „Verfassung” etwa ist real als Trainingsverfahren, aber eben kein Laufzeit-Regelwerk. Als jemand, der KI-Projekte aus der Doppelperspektive Jurist und Entwickler begleitet, sehe ich genau dort die teure Verwechslung: Wer „sicherheitsorientiert positioniert” mit „rechtlich abgesichert” gleichsetzt, kauft ein Marketing-Gefühl und schreibt es in eine Zusicherung. Dieser Artikel trennt, was sich belegen lässt, von dem, was Selbstdarstellung ist — und zieht jeweils die operative Konsequenz für Vertrag, Architektur und Datenschutz.

Anthropic: Was sich belegen lässt — und was Selbstdarstellung ist

Anthropic wurde 2021 von ehemaligen OpenAI-Mitarbeitern gegründet, darunter die Geschwister Dario und Daniela Amodei. Das Unternehmen ist als Public Benefit Corporation strukturiert: Der Vorstand darf die Mission rechtlich gegenüber reinen Aktionärsinteressen priorisieren. Das ist kein Werbeversprechen, sondern eine gesellschaftsrechtliche Tatsache — und sie ist relevant, weil sie eine reale Bindung an Ziele jenseits der Gewinnmaximierung schafft.

Genau hier beginnt aber die saubere Trennung, auf die es ankommt. Die PBC-Struktur belegt eine Ausrichtung. Sie belegt nicht, dass das Produkt im Einsatz „das sicherste” oder „faktentreueste” ist. Der Schritt von „sicherheitsorientiert positioniert” zu „daher überlegen” ist ein Werturteil, kein Beleg. Wer Anbieter vergleicht, sollte diese Lücke nicht überspringen — schon gar nicht, wenn am Ende eine Haftungsfrage hängt.

Ähnlich verhält es sich mit den Zahlen, die durch die Wirtschaftspresse gehen: Bewertungen im Bereich von fast einer Billion US-Dollar, Berichte über einen bevorstehenden Börsengang. Das sind Marktnarrative über die erwartete Zukunft eines Unternehmens. Über die Eignung eines Modells für Ihren konkreten Anwendungsfall sagen sie nichts. Eine hohe Bewertung beantwortet nicht die Frage, ob ein Modell Ihre Dokumente korrekt zusammenfasst oder Ihre Daten datenschutzkonform verarbeitet.

Behauptung	Belegbar?	Was sie für Sie bedeutet
Public Benefit Corporation	Ja (gesellschaftsrechtliche Tatsache)	Mission-Ausrichtung, keine Produktgarantie
„Constitutional AI”	Ja als Trainingsverfahren	Trainingsmethode, kein Laufzeit-Filter, kein Rechtsrahmen
„Sicherstes Modell”	Nein (Werturteil)	Eigene Eignungsprüfung pro Anwendungsfall nötig
Milliarden-Bewertung / IPO	Ja als Marktnarrativ	Sagt nichts über Faktentreue oder DSGVO-Konformität

„Constitutional AI” ist kein Gesetz — und das ist der wichtigste Punkt

Der Begriff, der bei Juristen die meisten Missverständnisse auslöst, ist „Constitutional AI” (CAI). Das Wort „Verfassung” suggeriert ein verbindliches Regelwerk, an das sich das Modell hält wie an einen Normtext. Das ist es nicht.

CAI wurde 2022 in einem Anthropic-Paper („Constitutional AI: Harmlessness from AI Feedback”, Bai et al.) eingeführt. Es ist ein Trainingsverfahren in zwei Phasen. In der ersten kritisiert und überarbeitet das Modell eigene Antworten anhand einer Liste natürlichsprachlicher Prinzipien. In der zweiten — „RLAIF”, Reinforcement Learning from AI Feedback — bewertet das Modell Antwortpaare selbst, woraus ein Belohnungssignal für das weitere Training entsteht. Der Witz dabei: Statt vieler menschlicher Bewertungen genügt eine geschriebene Prinzipienliste plus KI-generiertes Feedback.

Diese „Verfassung” speist sich nach Anthropics eigener Darstellung aus Quellen wie der UN-Menschenrechtserklärung, Plattform-Nutzungsbedingungen (etwa von Apple) und Sicherheitsregeln aus der Forschung (DeepMinds „Sparrow”). Entscheidend ist, was Anthropic selbst dazu sagt: Verfassungen seien „kein Allheilmittel” und „weder final noch wahrscheinlich das Beste, was möglich ist”. Man versuche ausdrücklich nicht, eine bestimmte Ideologie abzubilden.

Für die Praxis heißt das: Die „Verfassung” ist eine Metapher für ein Trainingsartefakt, kein Laufzeit-Regelwerk. Sie ist keine Garantie, kein hartes Filtersystem, das zur Laufzeit jede Ausgabe an Regeln prüft, und schon gar kein Rechtsdokument. Laufzeit-Schutz existiert bei produktivem Claude durchaus — Safety-Classifier, System-Prompts, Nutzungsrichtlinien —, aber das ist eine separate Schicht und eben nicht „die Verfassung”. Wer einem Auftraggeber oder Mandanten erklärt, das Modell „halte sich an eine Verfassung”, verwechselt Trainingsmethode mit Compliance-Garantie. Diese Präzision ist nicht akademisch — sie entscheidet, welche Zusicherungen man in einem Vertrag oder in einer Datenschutz-Folgenabschätzung überhaupt machen darf. Den verbindlichen Rahmen setzt nicht die „Verfassung”, sondern das Recht: Die EU-KI-Verordnung verbietet bestimmte KI-Praktiken seit dem 2. Februar 2025, und die Pflichten für Anbieter von KI-Modellen mit allgemeinem Verwendungszweck (GPAI) gelten seit dem 2. August 2025 — das ist das Regelwerk mit Rechtsfolgen, nicht ein Trainingsartefakt.

Halluzination ist Bauprinzip, nicht Betriebsstörung

Der hartnäckigste Mythos ist, ein gutes Modell sei im Kern faktentreu und Fehler seien Ausnahmen, die man „wegtrainiert”. Das ist technisch nicht haltbar.

Große Sprachmodelle sind statistische Token-Vorhersagemodelle. Sie berechnen, welches nächste Textstück angesichts der Trainingsmuster wahrscheinlich ist — ohne verkörpertes Weltmodell, ohne ein semantisches Modell der Realität dahinter. Aus dieser Funktionsweise folgen Halluzinationen: flüssige, überzeugend formulierte, aber faktisch falsche oder frei erfundene Ausgaben. Sie entstehen, weil das Modell die Trainingsverteilung nachbildet (und damit auch verbreitete Irrtümer) und weil sein Wissen an einem Stichtag endet.

Das ist keine vorübergehende Schwäche der aktuellen Generation. Mehrere Forschungsarbeiten zeigen, dass Halluzinationen eine statistische Untergrenze haben: Für beliebige Fakten lassen sie sich nicht vollständig beseitigen, unabhängig von Modellgröße oder Datenmenge. Reduzieren lässt sich die Rate — etwa indem ein Modell häufiger „weiß ich nicht” sagt —, aber auf null bringt man sie nicht.

Statistische Untergrenze von KI-Halluzinationen: Fehlerrate sinkt mit besserem Training, erreicht aber nie null

Halluzinationen lassen sich drücken, nicht eliminieren. Genau deshalb ist die Kontrollschicht keine Option, sondern Pflichtbestandteil der Architektur.

Für ein Unternehmen mit Sorgfaltspflichten ist das die zentrale Konsequenz: Ein KI-System ohne menschliche Kontrolle bei rechtlich oder finanziell relevanten Ergebnissen ist ein Haftungsrisiko, keine Effizienzmaßnahme. Die realistische Erwartung lautet nicht „das Modell hat immer recht”, sondern „das Modell liefert einen sehr guten ersten Entwurf, der geprüft werden muss”. Genau diese Prüfschicht — wer kontrolliert was, mit welchem Vier-Augen-Prinzip — gehört in jedes ernsthafte KI-Konzept; sie ist überdies kein bloßes Best-Practice-Element, sondern spiegelt die seit dem 2. August 2025 geltenden GPAI-Pflichten der EU-KI-Verordnung wider, die menschliche Aufsicht ausdrücklich vorsehen. Wie man eine solche Kontrollschicht rechtssicher baut, vertieft der Beitrag zur Absicherung von Halluzinationen und Kontrollschicht-Design.

Modellwahl statt Modellhype

Anthropic bietet sein Lineup in Tiers an — von einem leistungsstarken Frontier-Modell mit großem Kontextfenster bis zu schnellen, günstigen Modellen für hohes Volumen (zum Zeitpunkt dieses Beitrags etwa Claude Fable 5 an der Spitze, darunter die Opus-/Sonnet-/Haiku-Stufen). Welche Modellnamen und -versionen aktuell sind, ändert sich laufend und gehört vor jeder Entscheidung an der offiziellen Anthropic-Referenz geprüft — die eigentliche, stabile Botschaft ist die Staffelung selbst, nicht „nimm das Stärkste”.

Aufgabentyp	Sinnvolle Tier-Wahl	Warum
Massen-Klassifikation, Routing	schnelles Tier (z. B. Haiku)	Hohes Volumen, klare Aufgabe — Frontier wäre Verschwendung
Standard-Entwürfe, Zusammenfassungen	mittleres Tier (z. B. Sonnet)	Gute Qualität bei moderaten Kosten und Latenz
Lange Vertragsanalyse, tiefes Reasoning	Frontier-Tier (z. B. Opus)	Großer Kontext und Argumentationstiefe rechtfertigen den Preis

Die richtige Frage ist nie „Was ist das mächtigste Modell?”, sondern „Welches Modell passt zu dieser Aufgabe?” — gemessen an Latenz, Kosten, Kontextbedarf und Aufgabentyp. Eine einfache Klassifikation von Support-Tickets braucht kein Frontier-Modell; eine tiefe Analyse langer Vertragswerke profitiert von großem Kontext. Das Stärkste ist oft das Teuerste und Langsamste, ohne für die konkrete Aufgabe besser zu sein. Modellwahl ist eine Abwägung, keine Statusfrage. Ob proprietär oder offen das richtige Fundament ist, behandelt der Vergleich Open-Source- vs. proprietäre LLMs.

Ein konkretes Risiko, das viele unterschätzen: Verfügbarkeit

Wie real dieses Risiko ist, lässt sich an einem dokumentierten Fall durchspielen — und das Szenario taugt unabhängig von seinen Details als Lehrstück. Im Juni 2026 berichteten Medien, Anthropic habe nach einer behördlichen Anweisung den Zugang zu zwei seiner Frontier-Modelle binnen Stunden weltweit aussetzen müssen, während die übrigen Modelle verfügbar blieben. Den Ablauf und die rechtlichen Hintergründe — sauber getrennt nach belegt und unbelegt — habe ich gesondert aufgearbeitet: der Fable-5-Bann und was er für Unternehmen bedeutet. Für die operative Lehre kommt es auf die Einzelheiten gar nicht an; es genügt, dass ein solcher Fall möglich ist.

Denn die Mechanik ist verallgemeinerbar: Ein einzelner behördlicher Akt — oder schlicht ein Anbieter, der ein Modell abkündigt — kann ein global genutztes KI-Produkt über Nacht abschalten. Wer seinen Geschäftsprozess fest an genau ein Modell eines einzigen Anbieters kettet, baut ein Klumpenrisiko. Daraus folgt nüchtern: Modell- und Anbieter-Austauschbarkeit (Fallback-Optionen), eine Inventur, wo im Unternehmen welches KI-Modell hängt, und Verträge, die Ausfälle adressieren. Resilienz ist Teil der Architektur, nicht ein nachgelagerter Notfallplan. Wie man das Klumpenrisiko strukturell vermeidet, zeigt der Beitrag zu Vendor-Lock-in bei KI.

Was Unternehmen realistisch erwarten dürfen

Zusammengefasst, ohne Hype und ohne Verriss: Claude ist ein technisch starkes Werkzeug eines Anbieters, der Sicherheit ernster nimmt als manche Konkurrenz — belegbar an Struktur und Forschung, nicht an Werbeversprechen. „Constitutional AI” ist eine kluge Trainingsmethode, kein Rechtsrahmen. Halluzinationen sind systembedingt und verlangen eine menschliche Prüfschicht überall dort, wo Fehler etwas kosten. Und die Modellwahl ist eine ingenieurmäßige Abwägung, kein Griff zum teuersten Produkt.

Wer KI mit dieser Nüchternheit einsetzt — die richtige Aufgabe, das passende Modell, eine saubere Rechtsgrundlage und eine ehrliche Kontrollschicht —, holt den realen Nutzen heraus, ohne dem Marketing aufzusitzen. Genau diese nüchterne Einordnung ist der Kern meiner KI-Beratung. Und warum diese Doppelqualifikation aus Wirtschaftsjurist und Entwickler in KI-Projekten den Unterschied macht, lesen Sie hier.

Dieser Beitrag ordnet allgemeine technische und rechtliche Zusammenhänge ein und ersetzt keine Rechtsberatung im Einzelfall.

FAQ

Ist “Constitutional AI” ein rechtlich verbindliches Regelwerk?

Nein. “Constitutional AI” ist ein Trainingsverfahren, bei dem das Modell seine Antworten anhand einer Liste natürlichsprachlicher Prinzipien selbst kritisiert und überarbeitet. Die „Verfassung” wirkt nicht zur Laufzeit als Filter und ist kein Rechtsdokument. Wer sie als Compliance-Garantie in einen Vertrag schreibt, verwechselt Trainingsmethode mit Zusicherung.

Macht die Public-Benefit-Corporation-Struktur Claude zum sichersten Modell?

Sie belegt eine Mission-Ausrichtung, keine Produktüberlegenheit. Der Vorstand darf die Mission gegenüber reinen Aktionärsinteressen priorisieren — das ist eine gesellschaftsrechtliche Tatsache. Ob ein Modell für Ihren Anwendungsfall „das sicherste” ist, klärt nur eine eigene Eignungs- und Risikoprüfung.

Lassen sich Halluzinationen durch ein stärkeres Modell abstellen?

Nein. Forschungsarbeiten zeigen für Halluzinationen eine statistische Untergrenze: Sie lassen sich durch besseres Training, RAG und Guardrails senken, aber nicht auf null bringen — unabhängig von Modellgröße. Bei rechtlich oder finanziell relevanten Ausgaben ist eine menschliche Kontrollschicht deshalb Pflicht, nicht Kür.

Welches Claude-Modell sollten Unternehmen wählen?

Das hängt von der Aufgabe ab, nicht vom Prestige. Massen-Klassifikation läuft günstig auf einem schnellen Modell wie Haiku, Standard-Entwürfe auf einem mittleren wie Sonnet, tiefe Vertragsanalyse mit großem Kontext auf einem Frontier-Modell. Die richtige Frage lautet „Welches Modell passt zur Aufgabe?”, gemessen an Latenz, Kosten, Kontextbedarf und Aufgabentyp.

Was bedeutet eine staatlich erzwungene Modell-Abschaltung für meine KI-Strategie?

Sie ist ein Lehrstück für Verfügbarkeitsrisiko: Ein einzelner behördlicher Akt kann ein Modell weltweit abschalten. Wer einen Prozess an genau ein Modell eines Anbieters kettet, baut ein Klumpenrisiko. Antwort sind Fallback-Modelle, eine Modell-Inventur und Verträge, die Ausfälle regeln.

Quellen — Stand 18.06.2026

Anthropic, „Claude’s Constitution”: https://www.anthropic.com/news/claudes-constitution
Bai et al., „Constitutional AI: Harmlessness from AI Feedback” (2022): https://arxiv.org/abs/2212.08073
Anthropic, „Company”: https://www.anthropic.com/company
Anthropic, „The Long-Term Benefit Trust”: https://www.anthropic.com/news/the-long-term-benefit-trust
Wikipedia, „Anthropic”: https://en.wikipedia.org/wiki/Anthropic
Britannica Money, „Anthropic PBC”: https://www.britannica.com/money/Anthropic-PBC
Kalai, Nachum, Vempala, Zhang (OpenAI, 2025), „Why Language Models Hallucinate”: https://arxiv.org/pdf/2509.04664
„Calibrated Language Models Must Hallucinate” (2023): https://arxiv.org/pdf/2311.14648
Springer Nature Communities, „10 Common Misconceptions About LLMs”: https://communities.springernature.com/posts/beyond-the-hype-10-common-misconceptions-about-large-language-models-in-research-and-development
Aktuelles Modell-Lineup, Versionen und Preise: jeweils an der offiziellen Anthropic-Referenz unter https://docs.anthropic.com prüfen (laufend aktualisiert) — Namen und Versionen in diesem Beitrag sind Momentaufnahmen.
Europäische Kommission, „AI Act” (Anwendungsdaten: Verbote ab 2.2.2025, GPAI-Pflichten ab 2.8.2025): https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
Zum Verfügbarkeits-Fall (Chronologie und Quellenlage, getrennt nach belegt/unbelegt): siehe der gesonderte Beitrag Der Fable-5-Bann.

Der Claude-Mythos: Was hinter Anthropics Sicherheits-Narrativ wirklich steckt

Anthropic: Was sich belegen lässt — und was Selbstdarstellung ist

„Constitutional AI” ist kein Gesetz — und das ist der wichtigste Punkt

Halluzination ist Bauprinzip, nicht Betriebsstörung

Modellwahl statt Modellhype

Ein konkretes Risiko, das viele unterschätzen: Verfügbarkeit

Was Unternehmen realistisch erwarten dürfen

FAQ

Ist “Constitutional AI” ein rechtlich verbindliches Regelwerk?

Macht die Public-Benefit-Corporation-Struktur Claude zum sichersten Modell?

Lassen sich Halluzinationen durch ein stärkeres Modell abstellen?

Welches Claude-Modell sollten Unternehmen wählen?

Was bedeutet eine staatlich erzwungene Modell-Abschaltung für meine KI-Strategie?

Leon Lotz

Der Claude-Mythos: Was hinter Anthropics Sicherheits-Narrativ wirklich steckt

Anthropic: Was sich belegen lässt — und was Selbstdarstellung ist

„Constitutional AI” ist kein Gesetz — und das ist der wichtigste Punkt

Halluzination ist Bauprinzip, nicht Betriebsstörung

Modellwahl statt Modellhype

Ein konkretes Risiko, das viele unterschätzen: Verfügbarkeit

Was Unternehmen realistisch erwarten dürfen

FAQ

Ist “Constitutional AI” ein rechtlich verbindliches Regelwerk?

Macht die Public-Benefit-Corporation-Struktur Claude zum sichersten Modell?

Lassen sich Halluzinationen durch ein stärkeres Modell abstellen?

Welches Claude-Modell sollten Unternehmen wählen?

Was bedeutet eine staatlich erzwungene Modell-Abschaltung für meine KI-Strategie?

Leon Lotz

Fable 5 & Mythos abgeschaltet: Was die staatliche Modell-Sperre für Unternehmen bedeutet

KI-Agenten im Unternehmen: Nutzen, Governance & Haftung