Geprüfte Datenqualität durch Validierung
Nach der gelungenen Umwandlung kann die inhaltliche Validierung anhand Ihres Regelwerks erfolgen.
Zur Sicherstellung der gewünschten Datenqualität erweitert ETL-inside das klassische ETL-Prinzip,
um Daten semantisch zu prüfen.
Inhaltsprüfungen: Prüfungen, in denen der Spalteninhalt als solcher betrachtet wird:
- ist ein Feld tatsächlich gefüllt?
- entspricht eine Seriennummer einem bestimmten Muster?
- liegt der Inhalt innerhalb definierter Grenzen (z.B. Alter mindestens 18 Jahre und höchstens 120)?
- liegt das Bestelldatum in der Vergangenheit?
- enthält der Nachname mindestens 5 Zeichen?
- sind alle Längenangaben positiv?
Vergleichsprüfungen: Abhängigkeiten zwischen Informationen in unterschiedlichen Spalten können validiert werden:
- ist das Lieferdatum >= dem Bestelldatum?
- entspricht der Verkaufspreis mindestens dem Einkaufspreis?
Datenbank lookup: Darüber hinaus ist als Prüfkriterium der Abgleich mit Datenbankinhalten möglich:
- existiert eine Seriennummer bereits im System?
- ist das Produkt schon bestellt?
Komplexe Prüfungen: Umfangreiche Tests lassen sich mit Hilfe von Skriptsprachen (Java, JavaScript, Python)
und regulären Ausdrücken realisieren:
- von einfachen mathematischen Funktionen wie "max(spalte_a, spalte_b)"
bis hin zu komplexen Programmen ist alles möglich
- Prüfsummen validieren
- Enthält der Vorname nur Buchstaben und Bindestrich
Mit diesen Prüfschritten wird die Datenqualität im Zielsystem sichergestellt, da
nicht konforme Datensätze herausgefiltert wurden.