Artikel 10 EU AI Act: Daten und Datenverwaltung für Hochrisiko-KI

Artikel 10 EU AI Act stellt strenge Anforderungen an die Daten, die für das Training, die Validierung und das Testen von Hochrisiko-KI-Systemen verwendet werden. Schlechte Trainingsdaten sind eine Hauptursache für diskriminierende oder fehlerhafte KI-Outputs – der Gesetzgeber trägt dem durch explizite Datenanforderungen Rechnung.

Anforderungen an Trainings-, Validierungs- und Testdaten

Art. 10 Abs. 2 EU AI Act definiert Mindestanforderungen: Daten müssen relevante Designentscheidungen widerspiegeln, geeignete Datenerhebungspraktiken angewandt worden sein, repräsentativ für den vorgesehenen Verwendungszweck sein, frei von bekannten Fehlern sein, die zu Diskriminierung führen könnten, statistisch relevant für alle Untergruppen sein, die das System betreffen wird. Praktisch bedeutet dies: Sie müssen die Herkunft, Qualität und Repräsentativität Ihrer Datensätze vollständig dokumentieren und nachweisen können.

Datenverwaltungspraktiken (Data Governance)

Art. 10 Abs. 2 lit. a–f fordert Data Governance Practices: Entscheidungen über Datenerhebung und -erhebungsquellen müssen dokumentiert sein, relevante Vorverarbeitungsschritte (Bereinigung, Filterung, Augmentation) sind zu dokumentieren, Vorannahmen über Daten müssen transparent gemacht werden, Verfügbarkeit, Menge und Eignung der Daten ist zu prüfen, Untersuchung auf mögliche Bias ist durchzuführen, Identifizierung von Datenlücken und deren Auswirkungen auf Hochrisikobereiche. Diese Data Governance ist Teil der technischen Dokumentation.

Bias-Erkennung und Diskriminierungsschutz

Ein zentrales Element von Art. 10 ist die Pflicht zur Bias-Erkennung. Führen Sie aus: Analyse der Trainingsdaten auf systematische Verzerrungen (Geschlecht, Alter, Ethnie, Behinderung, Religion, etc.), statistische Tests auf Repräsentativität aller relevanten Untergruppen, Disparate Impact Analysis – werden bestimmte Gruppen systematisch schlechter behandelt? Wenn Bias identifiziert wird: Maßnahmen zur Behebung (Re-Sampling, Re-Weighting, Fairness-Constraints) und Dokumentation. Art. 10 Abs. 5 erlaubt die Verarbeitung besonderer Datenkategorien nach DSGVO, wenn dies für Bias-Monitoring zwingend erforderlich ist.

Umgang mit synthetischen und augmentierten Daten

Synthetische Daten (KI-generierte Trainingsdaten) und Dataugmentation (Erweiterung realer Daten) sind erlaubt, aber mit besonderen Anforderungen: Dokumentieren Sie klar, welche Anteile Ihrer Trainingsdaten synthetisch sind, begründen Sie den Einsatz synthetischer Daten (z.B. Mangel an realen Daten für seltene Szenarien), stellen Sie sicher, dass synthetische Daten die statistische Verteilung der realen Welt widerspiegeln, validieren Sie das Modell zusätzlich auf rein realen Testdaten. Beachten Sie: Wenn synthetische Daten ihrerseits mit einem KI-System generiert wurden, können zusätzliche Dokumentationspflichten entstehen.

Datendokumentation: Datasheets und Model Cards

Für eine praxistaugliche Umsetzung von Art. 10 empfehlen sich: Datasheet for Datasets (nach Gebru et al.): Standardisiertes Format für die Dokumentation von Datensätzen. Model Card: Dokumentation des Modells einschließlich der Datenbasis. Beide Formate sind in der KI-Community etabliert und decken die wesentlichen Anforderungen von Art. 10 ab. Inhalte eines Datasheets: Motivation für den Datensatz, Komposition, Erhebungsprozess, Vorverarbeitung, Verteilung, Wartung, Bekannte Einschränkungen und Bias-Risiken. Diese Dokumentation muss 10 Jahre aufbewahrt werden.

Ist Ihr KI-System EU AI Act-konform?

Kostenlos prüfen in 10 Minuten — spezifisch für Ihr Unternehmen und Ihre Branche.

Jetzt Risiko prüfen →