Anforderungen an Trainings-, Validierungs- und Testdaten
Art. 10 Abs. 2 EU AI Act definiert Mindestanforderungen: Daten müssen relevante Designentscheidungen widerspiegeln, geeignete Datenerhebungspraktiken angewandt worden sein, repräsentativ für den vorgesehenen Verwendungszweck sein, frei von bekannten Fehlern sein, die zu Diskriminierung führen könnten, statistisch relevant für alle Untergruppen sein, die das System betreffen wird. Praktisch bedeutet dies: Sie müssen die Herkunft, Qualität und Repräsentativität Ihrer Datensätze vollständig dokumentieren und nachweisen können.
Datenverwaltungspraktiken (Data Governance)
Art. 10 Abs. 2 lit. a–f fordert Data Governance Practices: Entscheidungen über Datenerhebung und -erhebungsquellen müssen dokumentiert sein, relevante Vorverarbeitungsschritte (Bereinigung, Filterung, Augmentation) sind zu dokumentieren, Vorannahmen über Daten müssen transparent gemacht werden, Verfügbarkeit, Menge und Eignung der Daten ist zu prüfen, Untersuchung auf mögliche Bias ist durchzuführen, Identifizierung von Datenlücken und deren Auswirkungen auf Hochrisikobereiche. Diese Data Governance ist Teil der technischen Dokumentation.
Bias-Erkennung und Diskriminierungsschutz
Ein zentrales Element von Art. 10 ist die Pflicht zur Bias-Erkennung. Führen Sie aus: Analyse der Trainingsdaten auf systematische Verzerrungen (Geschlecht, Alter, Ethnie, Behinderung, Religion, etc.), statistische Tests auf Repräsentativität aller relevanten Untergruppen, Disparate Impact Analysis – werden bestimmte Gruppen systematisch schlechter behandelt? Wenn Bias identifiziert wird: Maßnahmen zur Behebung (Re-Sampling, Re-Weighting, Fairness-Constraints) und Dokumentation. Art. 10 Abs. 5 erlaubt die Verarbeitung besonderer Datenkategorien nach DSGVO, wenn dies für Bias-Monitoring zwingend erforderlich ist.
Umgang mit synthetischen und augmentierten Daten
Synthetische Daten (KI-generierte Trainingsdaten) und Dataugmentation (Erweiterung realer Daten) sind erlaubt, aber mit besonderen Anforderungen: Dokumentieren Sie klar, welche Anteile Ihrer Trainingsdaten synthetisch sind, begründen Sie den Einsatz synthetischer Daten (z.B. Mangel an realen Daten für seltene Szenarien), stellen Sie sicher, dass synthetische Daten die statistische Verteilung der realen Welt widerspiegeln, validieren Sie das Modell zusätzlich auf rein realen Testdaten. Beachten Sie: Wenn synthetische Daten ihrerseits mit einem KI-System generiert wurden, können zusätzliche Dokumentationspflichten entstehen.
Datendokumentation: Datasheets und Model Cards
Für eine praxistaugliche Umsetzung von Art. 10 empfehlen sich: Datasheet for Datasets (nach Gebru et al.): Standardisiertes Format für die Dokumentation von Datensätzen. Model Card: Dokumentation des Modells einschließlich der Datenbasis. Beide Formate sind in der KI-Community etabliert und decken die wesentlichen Anforderungen von Art. 10 ab. Inhalte eines Datasheets: Motivation für den Datensatz, Komposition, Erhebungsprozess, Vorverarbeitung, Verteilung, Wartung, Bekannte Einschränkungen und Bias-Risiken. Diese Dokumentation muss 10 Jahre aufbewahrt werden.
AI Act Compliance Tool
Ist Ihr KI-System EU AI Act-konform?
Kostenlos prüfen in 10 Minuten — spezifisch für Ihr Unternehmen und Ihre Branche.
Jetzt Risiko prüfen →