Valide KI-Modelle brauchen korrekte und konsistente Trainings- und Testdaten. Insbesondere bei Bilddatensätzen treten jedoch häufig unvollständige Annotationen, Dubletten oder widersprüchliche Labels auf. Das Data Quality Evaluation Tool von Fraunhofer FOKUS analysiert deshalb Bilddaten vollautomatisch und bewertet sie anhand des internationalen Standards ISO 25012/24.
Die Anwendung nutzt die FiftyOne-API um gängige Metriken wie Intersection over Union zur Überlappungsprüfung, Bild-Hashes zur Dublettenerkennung oder semantische Checks auf fehlerhafte Annotationen zu berechnen. Auf Basis dieser Ergebnisse ermittelt das Werkzeug anschließend die im ISO-Standard definierten Qualitätsmaße für Attribute wie Genauigkeit, Konsistenz und Vollständigkeit.
Das Werkzeug lässt sich entweder direkt als Python-Skript mit einer YAML-Konfiguration oder als Subprozess innerhalb externer Workflows – zum Beispiel im Rahmen von kontinuierlichen und automatisierten MLOps-Pipelines – aufrufen. Sämtliche Ergebnisse werden in einer JSON-Datei ausgegeben, ergänzt um ausführliche Logs, mit denen sich problematische Daten visuell nachvollziehen lassen.
Durch die frühzeitige, standardkonforme Erkennung von Datenproblemen reduziert das Data Quality Evaluation Tool Trainingskosten, steigert die Modellgüte und liefert maschinenlesbare Reports für eine automatisierte Qualitätsbewertung.