Datakwaliteitsbeheer: wat u moet weten
Door: John Bauman, SAS Insights Editor
Naarmate organisaties meer data verzamelen, wordt het beheren van de kwaliteit van die data elke dag belangrijker. Data is tenslotte de levensader van uw organisatie. Datakwaliteitsbeheer helpt door uw organisatiecultuur, technologie en data te combineren en zo resultaten te leveren die nauwkeurig en nuttig zijn.
Datakwaliteit is niet goed of slecht, hoog of laag. Het is een bereik, of maatstaf, van de gezondheid van de data die door uw organisatie stromen. Voor sommige processen kan een marketinglijst met 5 procent dubbele namen en 3 procent slechte adressen acceptabel zijn. Maar als u aan de wettelijke vereisten wilt voldoen en het risico op boetes wilt vermijden, moet de datakwaliteit hoger zijn.
Datakwaliteitsbeheer biedt een contextspecifiek proces voor het verbeteren van de geschiktheid van data die worden gebruikt voor analyse en besluitvorming. Het doel is om met verschillende processen en technologieën op steeds grotere en complexere datasets inzicht te krijgen in de gezondheid van die data.
Waarom hebben we datakwaliteitsbeheer nodig?
Datakwaliteitsbeheer is een essentieel proces om uw data te begrijpen, wat uiteindelijk uw bedrijfsresultaten vooruit zal helpen.
Ten eerste vormt een goed datakwaliteitsbeheer een basis voor alle zakelijke initiatieven. Verouderde of onbetrouwbare data kunnen tot fouten en misstappen leiden. Een programma voor datakwaliteitsbeheer stelt voor alle afdelingen in de organisatie een raamwerk vast dat regels voor datakwaliteit vastlegt en handhaaft.
Ten tweede geven nauwkeurige en up-to-date data een duidelijk beeld van de dagelijkse activiteiten van uw bedrijf, zodat u vertrouwen kunt hebben in de upstream- en downstreamtoepassingen die gebruikmaken van al deze data. Datakwaliteitsbeheer verlaagt ook onnodige kosten. Slechte kwaliteit kan leiden tot kostbare fouten en vergissingen, zoals het uit het oog verliezen van bestellingen of uitgaven. Datakwaliteitsbeheer bouwt een informatiebasis op die u in staat stelt uw organisatie en uitgaven te begrijpen aan de hand van een goede controle over uw data.
Ten slotte hebt u datakwaliteitsbeheer nodig om te voldoen aan nalevings- en risicodoelstellingen. Een goed databeheer vereist duidelijke procedures en communicatie, evenals goede onderliggende data. Een commissie voor databeheer kan bijvoorbeeld bepalen wat als "aanvaardbaar" moet worden beschouwd voor de gezondheid van de data. Maar hoe definieert u het in de database? Hoe controleert en handhaaft u het beleid? Datakwaliteit is een implementatie van het beleid op databaseniveau.
Datakwaliteit is een belangrijk onderdeel van het implementeren van een kader voor databeheer. En een goed datakwaliteitsbeheer ondersteunt datastewards bij het uitvoeren van hun werk.
Wilt u databeheer in de echte wereld aan het werk zien?
Ontdek hoe een solide basis voor databeheer u gegevens geeft waarop u kunt vertrouwen en waarmee u alledaagse zakelijke problemen kunt oplossen.
Download een gratis whitepaper
De dimensies van datakwaliteitsbeheer
Er zijn verschillende dimensies van datakwaliteitsbeheer in gebruik. Deze lijst blijft groeien naarmate de data toenemen in omvang en diversiteit. Enkele kerndimensies blijven echter constant in alle databronnen.
- Nauwkeurigheid meet de mate waarin de datawaarden correct zijn – en is van het grootste belang om nauwkeurige conclusies uit uw data te kunnen trekken.
- Compleetheid betekent dat alle data-elementen tastbare waarden hebben.
- Consistentie richt zich op uniforme data-elementen over verschillende data-instanties, met waarden uit een bekend referentiedatadomein.
- Leeftijd behandelt het feit dat data nieuw en actueel moeten zijn, met waarden die over de hele lijn up-to-date zijn.
- Uniciteit toont aan dat elk record of element één keer in een dataset wordt weergegeven, waardoor duplicaten worden voorkomen.
Belangrijkste kenmerken van datakwaliteitsbeheer
Een goed datakwaliteitsprogramma gebruikt een systeem met een verscheidenheid aan functies die de betrouwbaarheid van uw data helpen verbeteren.
Ten eerste helpt het opschonen van data om dubbele records, niet-standaard dataweergaven en onbekende datatypen te corrigeren. Het opschonen gebeurt volgens de regels voor datastandaardisatie die nodig zijn om inzichten uit uw datasets te halen. Dit stelt ook datahiërarchieën en definities voor referentiedata vast om data aan te passen aan uw unieke behoeften.
Dataprofilering en het controleren en opschonen van gegevens worden uitgevoerd om gegevens te valideren aan de hand van statistische standaardmetingen, verbanden te achterhalen en data te verifiëren aan de hand van overeenkomende beschrijvingen. Stappen voor dataprofilering stellen trends vast om u te helpen inconsistenties in uw gegevens te ontdekken, te begrijpen en mogelijk bloot te leggen.
Door bedrijfsregels te valideren en een zakelijke woordenlijst en afstamming op te stellen, kunt u data van slechte kwaliteit behandelen voordat deze schade toebrengen aan uw organisatie. Dit houdt in dat er beschrijvingen en vereisten moeten worden opgesteld voor systeem-naar-systeemvertalingen van zakelijke termen. Data kunnen ook worden gevalideerd aan de hand van statistische standaardmetingen of aangepaste regels.
Naast deze hoofdfuncties is een gecentraliseerd overzicht van de bedrijfsactiviteiten via een databeheerconsole een belangrijke manier om het proces te vereenvoudigen.
Nauwkeurige en up-to-date data geven een duidelijk beeld van de dagelijkse activiteiten van uw bedrijf, zodat u zeker kunt zijn van upstream- en downstreamtoepassingen die gebruikmaken van al deze data.
Hoe belangrijk is datakwaliteitsbeheer voor big data?
Big data heeft een verstorende invloed op bedrijven en dat zal zo blijven. Denk maar aan de enorme hoeveelheden streamingdata van verbonden apparaten in het internet der dingen. Of talloze trackingpunten voor zendingen die de bedrijfsservers overspoelen en voor analyse moeten worden uitgekamd. Al die big data brengen grote problemen met zich mee voor het beheer van de datakwaliteit. Deze kunnen in drie hoofdpunten worden samengevat.
Herbestemming
Tegenwoordig bestaat er een ongebreidelde herbestemming van dezelfde datasets in verschillende contexten. Dit heeft het negatieve effect dat dezelfde data verschillende betekenissen krijgen in verschillende omgevingen. Dit doet vragen rijzen over de validiteit en consistentie van data. U heeft een goede datakwaliteit nodig om deze gestructureerde en ongestructureerde big data-sets te begrijpen.
Validatie
Bij het gebruik van extern opgestelde datasets die gebruikelijk zijn in big data, kan het moeilijk zijn om validatiecontroles in te bedden. Door de fouten te corrigeren, worden de data inconsistent met de oorspronkelijke bron, maar het behouden van de consistentie kan ertoe leiden dat u concessies moet doen aan de kwaliteit. Er zijn dus functies voor datakwaliteitsbeheer nodig die een oplossing kunnen bieden voor het balanceren van toezicht op big data-sets.
Verjonging
Dataverjonging verlengt de levensduur van historische informatie die voorheen mogelijk in de opslag was achtergelaten, maar vergroot ook de behoefte aan validatie en beheer. Uit oude data kunnen nieuwe inzichten worden gehaald – maar eerst moeten die data correct worden geïntegreerd in nieuwere datasets.
Waar en wanneer moet datakwaliteit gebeuren?
U kunt datakwaliteitsbeheer het beste in actie zien aan de hand van een modern dataprobleem. In real-life applicaties vereisen verschillende dataproblemen verschillende latenties.
Er is bijvoorbeeld realtime behoefte aan datakwaliteit wanneer u een creditcardtransactie verwerkt. Dit kan frauduleuze aankopen markeren, wat zowel klanten als bedrijven ten goede komt. Maar als u loyaliteitskaarten en beloningspunten voor diezelfde klant bijwerkt, kunt u deze minder dringende taak 's nachts verwerken. In beide gevallen past u de principes van datakwaliteitsbeheer toe in de echte wereld. Tegelijkertijd herkent u de behoeften van uw klanten en benadert u de taak op de meest efficiënte en behulpzame manier.
Recommended reading
- Article General Data Protection Regulation: From burden to opportunityThe General Data Protection Regulation stirs up mixed emotions, but Kalliopi Spyridaki shows how to use the new legislation for business advantage.
- Article Data integration: It ain't what it used to beOnce limited in scope, data integration now supports analytics and data-driven operational processes like real-time insurance claims processing and IoT apps.
- Article Three C’s of the connected customer in the IoTTo optimize the connected customer experience, Blue Hill Research says organizations should build an IoT model based on three key features.
- Article How openness can supercharge event stream analyticsWhat does openness do for event stream analytics? David Loshin shows how it helps you speed and govern the full streaming analytics life cycle.