Expertentipp:
Wussten Sie schon, wie Sie mit DataFlux DataManagement Studio tabellarisches Profiling durchführen können?
Und so geht's:
Mit dem Profiling von Daten wird nicht die Bereinigung der Dateninhalte durchgeführt, sondern Sie haben damit ein Werkzeug zur Verfügung, mit dem Sie die Daten untersuchen können und eventuelle Inkonsistenzen innerhalb der Daten entdecken können. Was können Inkonsistenzen sein?
Es sind zum Beispiel zwei statt drei Werte für die Variable Geschlecht vorhanden oder in der Variablen Stadt stehen nicht eindeutige Namen wie Hamburg, Hansestadt Hamburg als Langtext und HH als Kurztext. Mit diesen Daten können nicht ohne weiteres Auswertungen durchgeführt werden.
Die Inkonsistenzen können tabellarisch oder grafisch dargestellt werden.
Zunächst wählen Sie das entsprechende Repository und erzeugen ein neues Profil mit dem Namen dfConglomerate Profile.
Zunächst werden die Einstellungen durchgeführt:
Das Options-Fenster zeigt die Auswahlmöglichkeiten für die allgemeinen Optionen sowie die Einstellungen für die grafische Darstellung und auch die Parameter für die Quality Knowledge Base.
In dem Metrics-Fenster gibt es vier verschiedene Einstellungen für das Profiling. Es kann ausgewählt werden, welche Metriken wie Häufigkeiten oder Ausreißerwerte berechnet werden sollen.
Im nächsten Schritt werden die Tabellen für das Profiling ausgewählt. Im Metrics-Fenster sind einige Metriken ausgeschaltet für die Variable ID und Notes (blauer Pfeil). Es handelt sich um die Perzentile und Ausreißerwerte (Outliers):
Vor der Ausführung wird abgespeichert und das Profile ausgeführt.
Die Auswertung der Spalte Country/Region aus der Datei Customers kann beginnen.
Die Einzelauswertung der Spalte Country/Region zeigt die Vorteile des Column Profiling. Die Anzahl der Datensätze wird angezeigt und bei den Metriken Minimum Value und Maximum Value sieht man sofort, dass unterschiedliche Werte in der Spalte Country/Region vorhanden sind.
Mit der Benutzung des Registers Frequency Distribution sieht man den Vorteil: Es gibt offensichtlich nicht eindeutige Werte für das Feld Country/Region.
Beim Klicken auf den Wert U.S. sieht man die vier Datensätze, in denen der Wert U.S. vorkommt.
Diese und weitere Tipps zum Arbeiten mit SAS DataFlux Data Management Studio erhalten Sie im Kurs im Kompaktkurs: DataFlux® Data Management Studio.