Design einer skalierbaren und modularen Lösung für Datenqualität und Datenvalidierung

Categories: Big Data & AnalyticsTechnology

In den letzten Jahrzehnten wurden riesige Datenmengen aus verschiedenen Quellen generiert. Unternehmen wollen zunehmend neue Datenparadigmen nutzen, um bessere Entscheidungen zu treffen und Maßnahmen zu ergreifen. So können sie ihre Effizienz steigern, neue Wege der Geschäftsabwicklung beschreiten und Ausgaben optimieren.

Viele Unternehmen haben jedoch mit Datenproblemen zu kämpfen, die auf die komplexen Technologiepakete und Datenpipelines zurückzuführen sind, die sich aufgrund neuer Geschäftsziele ständig ändern. Es ist unerlässlich geworden, Best Practices für die Implementierung von Datenqualitäts- und Validierungstechniken zu nutzen, um sicherzustellen, dass die Daten für weitere Analysen zur Gewinnung von Erkenntnissen nutzbar bleiben.

In diesem Blog befassen wir uns mit den Anforderungen an die Datenqualität und dem Kerndesign einer Lösung, mit der Unternehmen Datenqualität und -validierung auf flexible, modulare und skalierbare Weise durchführen können.

Anforderungen an die Datenqualität

Eine Datenplattform integriert Daten aus einer Vielzahl von Quellen, um verarbeitete und bereinigte Datensätze, die den Qualitäts- und Regulierungsanforderungen entsprechen, für Analysesysteme bereitzustellen, damit daraus Erkenntnisse gewonnen werden können. Die Daten, die von den Datenquellen in die Speicherebenen übertragen werden, müssen validiert werden, entweder als Teil der Datenintegrationspipeline selbst oder durch einen unabhängigen Vergleich zwischen der Quelle und der Senke.

Im Folgenden sind einige der Anforderungen aufgeführt, die eine Datenqualitäts- und Validierungslösung erfüllen muss:

  • Datenvollständigkeit prüfen: Validierung der Ergebnisse zwischen den Quell- und Zieldatenquellen, z. B.:
    • Vergleich der Zeilenzahl über Spalten hinweg
    • Vergleich der Ausgabe von Spaltenwertaggregationen
    • Vergleich einer Teilmenge von Daten ohne Hashing oder eines vollständigen Datensatzes mit SHA256-Hashing aller Spalten
    • Vergleich von Profiling-Statistiken wie Minimum, Maximum, Mittelwert, Quantile
  • Schema/Metadaten prüfen: Validierung der Ergebnisse zwischen Quelle und Ziel oder zwischen der Quelle und einem erwarteten Wert.
    • Überprüfung von Spaltennamen, Datentyp, Reihenfolge oder Position der Spalten, Datenlänge
  • Datenumwandlungen prüfen: Validieren Sie den Zwischenschritt der tatsächlichen Werte mit den erwarteten Werten.
    • Benutzerdefinierte Datentransformationsregeln prüfen
    • Überprüfung der Datenqualität, z. B. ob die Daten im Bereich liegen, in einer Referenzsuche, einem Domänenwertvergleich oder ob die Zeilenzahl mit einem bestimmten Wert übereinstimmt
    • Prüfung von Datenintegritätsbeschränkungen wie nicht null, Eindeutigkeit, kein negativer Wert
  • Validierung der Datensicherheit: Überprüfen Sie verschiedene Sicherheitsaspekte, wie z. B.:
    • Überprüfen, ob die Daten mit den geltenden Vorschriften und Richtlinien konform sind
    • Identifizierung von Sicherheitsschwachstellen in der zugrunde liegenden Infrastruktur, den verwendeten Tools oder dem Code, die sich auf die Daten auswirken können
    • Identifizierung von Problemen auf der Ebene des Zugriffs, der Autorisierung und der Authentifizierung
      Durchführen von Bedrohungsmodellen und Testen von Daten im Ruhezustand und bei der Übertragung
  • Validierung der Datenpipeline: Überprüfen von Pipeline-bezogenen Aspekten, wie z. B. ob:
    • die erwarteten Quelldaten ausgewählt werden
    • die erforderlichen Operationen in der Pipeline den Anforderungen entsprechen (z. B. Aggregation, Transformationen, Bereinigung)
    • Die Daten werden an das Ziel geliefert.
  • Validierung der Code- und Pipeline-Bereitstellung: Validierung, ob die Pipelines mit dem Code korrekt in der erforderlichen Umgebung bereitgestellt wurden
    • Nahtlose Skalierung für große Datenmengen
    • Unterstützung der Orchestrierung und Planung von Validierungsaufträgen
    • Bereitstellung eines Low-Code-Ansatzes zur Definition von Datenquellen und Konfiguration von Validierungsregeln
    • Generierung eines Berichts, der Details zu den Validierungsergebnissen der konfigurierten Regeln für alle Datensätze enthält

Überblick über die Lösung

Nachfolgend finden Sie einen allgemeinen Entwurf für eine Datenqualitäts- und -validierungslösung, die die oben genannten Anforderungen erfüllt.

  • Komponenten-Bibliothek (Component Library): Verallgemeinern Sie die üblicherweise verwendeten Validierungsregeln als eigenständige Komponente, die über eine vordefinierte Komponentenbibliothek out-of-box bereitgestellt werden kann.
  • Komponenten (Components): Für fortgeschrittene Benutzer oder für bestimmte Szenarien können benutzerdefinierte Validierungsregeln erforderlich sein. Diese können durch ein erweiterbares Framework unterstützt werden, das die Hinzufügung neuer Komponenten zur bestehenden Bibliothek unterstützt.
  • Auftragskonfiguration (Job Configuration): Ein typischer QA-Tester bevorzugt eine Low-Code-Methode zur Konfiguration der Validierungsaufträge, ohne selbst Code schreiben zu müssen. Eine JSON- oder YAML-basierte Konfiguration kann verwendet werden, um die Datenquellen zu definieren und die verschiedenen Validierungsregeln zu konfigurieren.
  • Datenverarbeitungs-Engine (Data Processing Engine): Die Lösung muss in der Lage sein, große Datenmengen zu verarbeiten. Ein Big-Data-Verarbeitungsframework wie Apache Spark kann zum Aufbau des Grundgerüsts verwendet werden. Dadurch kann der Auftrag in jeder Datenverarbeitungsumgebung, die Spark unterstützt, bereitgestellt und ausgeführt werden.
  • Auftragsvorlagen (Job Templates): Vordefinierte Auftragsvorlagen und anpassbare Auftragsvorlagen bieten eine standardisierte Möglichkeit zur Definition von Validierungsaufträgen.
  • Validierungsausgabe (Validation Output): Die Ausgabe des Auftrags sollte ein konsistenter Validierungsbericht sein, der eine Zusammenfassung der ausgegebenen Validierungsregeln über die konfigurierten Datenquellen hinweg liefert.

Beschleunigen Sie Ihre eigene Reise in Sachen Datenqualität

Bei GlobalLogic arbeiten wir an einem ähnlichen Ansatz als Teil unserer GlobalLogic Data Platform. Die Plattform umfasst einen Data Quality and Validation Accelerator, der ein modulares und skalierbares Framework bietet, das in serverlosen Spark-Umgebungen in der Cloud eingesetzt werden kann, um eine Vielzahl von Quellen zu validieren.

Wir arbeiten regelmäßig mit unseren Kunden zusammen, um sie bei ihrer Data Journey zu unterstützen. Teilen Sie uns Ihre Anforderungen mit, und wir würden uns freuen, mit Ihnen über die nächsten Schritte zu sprechen.

Top Insights

Homeoffice Whitepaper

Homeoffice Whitepaper

AtlassianCloudSecurityAutomotiveCommunicationsConsumer and RetailFinancial ServicesHealthcareManufacturing and IndustrialMediaTechnology

Top Authors

Axel Salmeron

Axel Salmeron

Sr Developer

Manuel Asenzo

Manuel Asenzo

Senior Manager

Ravikrishna Yallapragada

Ravikrishna Yallapragada

AVP, Engineering

Amit Handoo

Amit Handoo

Vice President, Client Engagement

Sameer Tikoo

Sameer Tikoo

Senior Vice President & GM, Communication Services BU

Blog Categories

  • URL copied!