KI-Pilotprojekt aufsetzen: in 6 Schritten zum messbaren PoC

Stand: März 2026 · Autor: Leon Lotz, Wirtschaftsjurist & Entwickler

Ein KI-Pilotprojekt richtig aufzusetzen heißt: eine klar umrissene Hypothese in wenigen Wochen mit echten Daten und harten Erfolgskriterien zu testen — bevor Sie investieren. Dieser Leitfaden zeigt das Vorgehen in sechs Schritten, inklusive der Datenschutz- und EU-AI-Act-Punkte, die in der Praxis über Erfolg oder Scheitern entscheiden.

Die unbequeme Wahrheit zuerst: Laut der MIT-Studie „The GenAI Divide: State of AI in Business 2025” liefern rund 95 % der unternehmensweiten GenAI-Piloten keinen messbaren Effekt auf die Gewinn-und-Verlust-Rechnung (Yahoo Finance über MIT, 2025). Nicht, weil die Technik nicht funktioniert — sondern weil die Piloten als Spielwiese statt als Experiment mit klarer Messlogik aufgesetzt werden. Genau das ändern wir hier.

PoC, Pilot, MVP oder Produkt? Die Begriffe sauber getrennt

Bevor Sie loslegen, müssen vier Begriffe sitzen. Sie werden ständig vermischt — und genau diese Unschärfe ist der erste Grund, warum Erwartungen und Ergebnis auseinanderdriften.

Was ist ein KI-Proof-of-Concept (PoC)?

Ein Proof of Concept beantwortet eine einzige Frage: Funktioniert die Technik überhaupt für unseren Fall? Er läuft typischerweise zwei bis vier Wochen, nutzt eine repräsentative Datenstichprobe und wird vom Projektteam bewertet — nicht von echten Endnutzern. Ergebnis ist ein Machbarkeits-Entscheid, kein fertiges System.

Was ist ein KI-Pilotprojekt?

Ein Pilotprojekt geht einen Schritt weiter und fragt: Schafft die Lösung unter realen Bedingungen messbaren Wert? Es läuft mit echten Prozessdaten, einer begrenzten echten Nutzergruppe und über vier Wochen bis drei Monate. Ergebnis ist eine fundierte Go/No-Go-Entscheidung für den Rollout.

Abgrenzung zu Prototyp und MVP

Ein Prototyp macht eine Idee greifbar („Wie könnte es aussehen?”), arbeitet mit Dummy-Daten und hat keine echten Nutzer. Ein MVP bzw. das fertige Produkt ist bereits produktiv und beantwortet die Frage „Ist es marktreif?”. Wer einen PoC verspricht, aber ein Produkt erwartet, hat das Projekt schon vor dem Start zum Scheitern verurteilt.

Kriterium	Prototyp	Proof of Concept (PoC)	Pilotprojekt	MVP/Produkt
Frage	„Wie könnte es aussehen?”	„Funktioniert die Technik?”	„Schafft es realen Wert?”	„Ist es marktreif/produktiv?”
Dauer	Tage	2–4 Wochen	4 Wochen–3 Monate	Monate+
Daten	Dummy	repräsentative Stichprobe	echte Prozessdaten	Produktivdaten
Nutzer	keine	Projektteam	begrenzte echte Nutzergruppe	alle
Ergebnis	Idee greifbar	Machbarkeits-Entscheid	Go/No-Go für Rollout	Betrieb/Skalierung

Warum 95 % der KI-Piloten scheitern — und was die 5 % anders machen

Die MIT-Forscher führen das Scheitern nicht auf schlechte Modelle zurück, sondern auf eine Lücke zwischen Demo und Betrieb (MIT-Report-Zusammenfassung, Legal.io 2025). Drei Ursachen dominieren in der Praxis:

Fehlende Workflow-Integration. Die KI läuft in einer Insellösung neben dem Arbeitsalltag, statt in ihn eingebettet zu sein.
Schlechte Datenqualität. Unvollständige Stammdaten, uneinheitliche Bezeichnungen und schlecht gepflegte Dokumente kippen den Piloten — nicht das Modell.
Keine Ownership nach Go-Live. Niemand auf Führungsebene verantwortet das Ergebnis, also versandet der Pilot im „Pilotfegefeuer”.

Die erfolgreichen 5 % machen das Gegenteil: Sie starten mit einem konkreten Geschäftsproblem, definieren Erfolgskriterien vor dem Bau, integrieren die KI in bestehende Workflows und benennen einen verantwortlichen Business Owner. Die Kernthese dieses Leitfadens lautet deshalb: Designen Sie den Piloten von Tag 1 für die Produktion — und für die Compliance.

Trichter-Grafik: von 100 Prozent gestarteten KI-Piloten erreichen nur 5 Prozent messbaren Geschäftswert, blockiert durch fehlende Workflow-Integration, schlechte Datenqualität und fehlende Ownership

Der Engpass liegt selten am Modell: Integration, Datenqualität und klare Verantwortung entscheiden, ob ein Pilot den Sprung vom Demo-Effekt zum messbaren Wert schafft.

In 6 Schritten zum messbaren KI-Pilotprojekt

Verstehen Sie die folgenden Schritte als 30- bis 90-Tage-Sprint, nicht als zwölfmonatiges IT-Projekt. Entscheidend ist: Die Erfolgskriterien stehen, bevor die erste Zeile Code entsteht.

Schritt 1 — Den richtigen Use Case wählen

Wählen Sie nicht den coolsten, sondern den teuersten Prozess: einen, der viel Zeit oder Geld kostet, gut dokumentiert ist und für den ausreichend Daten vorliegen. Faustregel: Wo der Schmerz hoch und der Prozess klar beschrieben ist, ist der ROI am wahrscheinlichsten.

Konkret bewährt sich ein einfaches Scoring: Bewerten Sie jeden Kandidaten auf vier Achsen von 1 bis 5 — Häufigkeit (wie oft läuft der Prozess?), Schmerz (Zeit-/Kostenlast pro Durchlauf), Datenverfügbarkeit (liegen saubere, ausreichende Daten vor?) und Fehlertoleranz (was passiert bei einem falschen KI-Output?). Der erste Pilot sollte hoch bei Häufigkeit, Schmerz und Datenverfügbarkeit liegen, aber fehlertolerant sein — ein Vorschlagssystem mit menschlicher Endkontrolle, kein automatisierter Bescheid. Eine geordnete Liste typischer Kandidaten finden Sie in den 10 KI-Use-Cases für den Mittelstand; wo der Einstieg lohnt, vertieft Prozessautomatisierung mit KI — wo anfangen.

Schritt 2 — Hypothese und Baseline definieren

Formulieren Sie eine testbare Hypothese nach dem Muster: „Wir glauben, dass KI-Lösung X den Prozess Y um Z % verbessert.” Und — der Schritt, den fast alle überspringen — messen Sie den Ist-Zustand vorher. Ohne Baseline können Sie hinterher keinen Erfolg belegen, nur behaupten.

Schritt 3 — Erfolgskriterien und Go/No-Go-Gates festlegen

Definieren Sie eine primäre KPI mit Zielwert (z. B. „Bearbeitungszeit pro Vorgang sinkt von 12 auf unter 8 Minuten”), eine Mindest-Verbesserung als Schwelle und harte Abbruchkriterien. Ein PoC ist dann erfolgreich, wenn er eine belastbare Entscheidung ermöglicht: weiter investieren, anpassen oder bewusst stoppen.

Schritt 4 — Daten vorbereiten — datenschutzkonform

Hier trennt sich der saubere Pilot vom riskanten. Folgen Sie der Datenminimierungs-Hierarchie: Erst synthetische Testdaten, dann anonymisierte, dann pseudonymisierte — und erst, wenn nichts davon trägt, Echtdaten. Der Bundesdatenschutzbeauftragte ist hier deutlich: Tests mit unveränderten Echtdaten sind nur in engen Grenzen zulässig und brauchen dieselben technischen und organisatorischen Maßnahmen wie der Produktivbetrieb (dr-datenschutz.de). Mehr dazu im Detailabschnitt weiter unten.

Schritt 5 — Umsetzen und messen

Setzen Sie ein fixes Enddatum, arbeiten Sie mit einem repräsentativen Datensatz und messen Sie konsequent gegen die Baseline — idealerweise als Vorher-Nachher- oder A/B-Vergleich. Ein offener Zeitrahmen ist der Anfang vom Pilotfegefeuer.

Schritt 6 — Auswerten und entscheiden

Rechnen Sie den ROI sichtbar aus: ROI = (Einsparung − Kosten) / Kosten.

Ein durchgerechnetes Beispiel macht den Unterschied zwischen Bauchgefühl und Entscheidungsgrundlage: Ein Sachbearbeitungs-Team von acht Personen bearbeitet 12.000 Vorgänge pro Jahr, bisher 12 Minuten pro Vorgang. Der Pilot senkt das auf 8 Minuten — vier Minuten gespart, mal 12.000 Vorgänge sind 800 Stunden pro Jahr. Bei einem vollen Stundensatz von 45 € entspricht das 36.000 € Einsparung. Stehen dem 9.000 € Pilot- plus 3.000 € jährliche Betriebskosten (API, Wartung, Monitoring) gegenüber, ergibt sich im ersten Jahr ein ROI von (36.000 − 12.000) / 12.000 = 200 %. Entscheidend ist, dass jede dieser Zahlen aus der in Schritt 2 gemessenen Baseline stammt — nicht aus einer Annahme.

Rechnen Sie zusätzlich den Payback-Zeitraum und ein konservatives Szenario (halbe Zeitersparnis, doppelte Betriebskosten): Trägt der Case auch dann, ist er robust. Dokumentieren Sie die Learnings — auch ein sauberes „No-Go” ist ein wertvolles Ergebnis, das Sie vor einer teuren Fehlinvestition bewahrt.

Was kostet ein KI-Pilotprojekt — und wie lange dauert es?

Seriös lässt sich das nur als Bandbreite angeben, weil Datenlage, Integrationstiefe und Use Case stark streuen. Als grobe Orientierung:

PoC: wenige Tage bis Wochen, entsprechend günstiger — er testet nur die Machbarkeit.
Pilotprojekt: vier Wochen bis drei Monate, mit echten Nutzern und realer Integration.
Haupt-Kostentreiber: Datenaufbereitung, Anbindung an Bestandssysteme, Anzahl der Iterationen und laufende Modell-/API-Kosten.

Hüten Sie sich vor Scheingenauigkeit: Wer Ihnen vor der Use-Case-Analyse eine exakte Festpreis-Zahl nennt, hat das Projekt nicht verstanden. Eine ehrliche Aufwandsschätzung folgt aus Schritt 1 bis 3 — nicht umgekehrt.

Datenschutz und EU AI Act im Pilotprojekt — der oft übersehene Erfolgsfaktor

Dies ist der Block, den die meisten Tech-Leitfäden auslassen — und der in der Praxis am häufigsten zum Stopp-Schild wird. Als Wirtschaftsjurist, der die Lösungen auch selbst baut, übersetze ich die Pflicht direkt in die technische Umsetzung.

Darf ich im PoC mit echten personenbezogenen Daten testen?

Im Grundsatz gilt: so wenig Personenbezug wie möglich. Synthetische oder anonymisierte Daten sind erste Wahl. Wenn echte personenbezogene Daten unvermeidbar sind, müssen sie mindestens pseudonymisiert werden, und die Testumgebung braucht dieselben Schutzmaßnahmen wie das Produktivsystem (dr-datenschutz.de). Ein „Wir testen schnell mal mit dem echten Kundendatensatz auf einem ungesicherten Laptop” ist kein Pilot, sondern ein Datenschutzvorfall in Wartestellung.

Brauche ich einen Auftragsverarbeitungsvertrag (AVV)?

Ja — sobald personenbezogene Daten an einen externen Cloud- oder KI-Anbieter fließen, greift Art. 28 DSGVO: Ohne Auftragsverarbeitungsvertrag kein zulässiger Einsatz. Das gilt schon im PoC, nicht erst in der Produktion. Prüfen Sie zusätzlich, ob Daten in ein Drittland übertragen werden (Kapitel V DSGVO) und ob der Anbieter Ihre Eingaben zum Modelltraining nutzen darf.

Ab wann ist eine DSFA nötig?

Bei voraussichtlich hohem Risiko für die Rechte Betroffener — etwa bei umfangreicher Verarbeitung sensibler Daten oder systematischer Bewertung — verlangt Art. 35 DSGVO eine Datenschutz-Folgenabschätzung (DSFA). Klären Sie diese Frage im PoC, nicht erst beim Rollout, sonst wird sie zum Showstopper kurz vor dem Go-Live. Wann eine DSFA konkret greift und wie sie für KI-Systeme strukturiert wird, behandelt der Beitrag DSFA für KI-Systeme.

KI-Kompetenz nach Art. 4 EU AI Act

Seit dem 2. Februar 2025 verpflichtet Art. 4 der KI-Verordnung Anbieter und Betreiber von KI-Systemen, für ein ausreichendes Maß an KI-Kompetenz ihrer Mitarbeitenden zu sorgen (Fraunhofer Academy, IHK Schleswig-Holstein). Wichtig zur Einordnung: Es gibt keine vorgeschriebene Stundenzahl, kein Zertifikat und keinen Pflicht-KI-Beauftragten — und Art. 4 enthält keine eigene Bußgeldnorm. Das bestätigt auch das Q&A der EU-Kommission zur KI-Kompetenz vom 7. Mai 2025, das einen risikobasierten, auf die jeweiligen Rollen zugeschnittenen Ansatz verlangt statt eines standardisierten Pflichtkurses (Inside Privacy). Wer hier mit „bis zu 15 Mio. €” droht, übertreibt. Die Pflicht ist real, aber pragmatisch erfüllbar; die Durchsetzung durch nationale Behörden beginnt voraussichtlich ab August 2026. Wie Sie die KI-Kompetenz-Pflicht ohne Zertifikats-Theater umsetzen, zeigt KI-Kompetenz-Pflicht nach Art. 4 AI Act umsetzen; den Gesamtüberblick über die Verordnung liefert AI Act — was Unternehmen jetzt tun müssen.

Hinweis: Dieser Beitrag ersetzt keine Rechtsberatung im Einzelfall. Die rechtliche Bewertung hängt vom konkreten Use Case ab.

Vom PoC in die Produktion — den Sprung schaffen

Ein bestandener Pilot ist kein fertiges Produkt. Der Sprung in den Produktivbetrieb gelingt, wenn vier Dinge geklärt sind: Ownership (wer verantwortet das System dauerhaft?), Integration (läuft die KI im echten Workflow, nicht daneben?), Monitoring (Qualität und Drift im Blick) und Kostenkontrolle (API- und Betriebskosten kalkuliert). Genau hier scheitern die 95 % — und genau hier zahlt sich aus, dass der Pilot von Tag 1 produktionsnah und compliant gedacht war.

FAQ

Was ist der Unterschied zwischen einem Proof of Concept und einem Pilotprojekt? Ein PoC prüft die technische Machbarkeit in 2–4 Wochen mit dem Projektteam und einer Datenstichprobe. Ein Pilotprojekt prüft den realen Wert über 4 Wochen bis 3 Monate mit echten Nutzern und echten Prozessdaten und mündet in eine Go/No-Go-Entscheidung.

Wie lange dauert ein KI-Pilotprojekt? Ein PoC dauert meist wenige Tage bis Wochen, ein Pilotprojekt vier Wochen bis drei Monate. Entscheidend ist ein fixes Enddatum — ein offener Zeitrahmen ist die häufigste Ursache für versandende Piloten.

Wie definiert man Erfolgskriterien für ein KI-Projekt? Vor dem Bau: eine testbare Hypothese, eine gemessene Baseline, eine primäre KPI mit Zielwert und eine Mindest-Verbesserung als Go/No-Go-Schwelle. Ohne diese vier Punkte lässt sich Erfolg hinterher nicht belegen.

Darf ich im KI-PoC mit echten personenbezogenen Daten testen? Nur nachrangig. Bevorzugen Sie synthetische oder anonymisierte Daten; sind Echtdaten unvermeidbar, müssen sie mindestens pseudonymisiert werden, und die Testumgebung braucht dieselben Schutzmaßnahmen wie der Produktivbetrieb.

Brauche ich für ein KI-Pilotprojekt einen AVV? Ja, sobald personenbezogene Daten an einen externen Cloud- oder KI-Anbieter fließen — Art. 28 DSGVO verlangt dann einen Auftragsverarbeitungsvertrag, bereits im PoC.

Sie planen einen KI-Piloten und wollen ihn von Anfang an messbar und rechtssicher aufsetzen? Lassen Sie uns in einem Erstgespräch den richtigen Use Case, die Erfolgskriterien und die Datenschutz-Fragen klären — bevor Sie investieren. → Zur KI-Beratung

Quellen — Stand 25.03.2026