Datawarehouse

Wat is het en waarom is het belangrijk

Een datawarehouse is een opslagplaats voor grote hoeveelheden gegevens die verzameld en geïntegreerd zijn uit verschillende bronnen. Organisaties zijn afhankelijk van deze data voor analyses en rapportages, waardoor het essentieel is dat de data consistent geformatteerd en toegankelijk zijn – twee eigenschappen die datawarehousing kenmerken en het onmisbaar maken voor moderne bedrijven.

Geschiedenis van het datawarehouse

In de jaren '70 en '80 begon de hoeveelheid data snel te groeien, waardoor organisaties een oplossing nodig hadden om al hun informatie op te slaan en er toegang toe te krijgen. Computerwetenschapper Bill Inmon, de grondlegger van datawarehousing, begon het concept in de jaren '70 te ontwikkelen en introduceerde de term "datawarehouse". Hij publiceerde Building the Data Warehouse, dat in 1992 werd geprezen als een essentiële bron over datawarehousing-technologie. Inmon's definitie van het datawarehouse volgt een “top-down” benadering, waarbij eerst een centrale opslagplaats wordt opgezet, waarna binnen deze opslagplaats datamarts worden gecreëerd die specifieke subsets van data bevatten.

Ralph Kimball, een andere technologie-expert die halverwege de jaren '90 The Data Warehouse Toolkit publiceerde, had een iets andere visie op het concept van datawarehousing. In zijn “bottom-up” benadering worden eerst individuele datamarts ontwikkeld, die vervolgens later worden samengevoegd tot een datawarehouse.

Datawarehousing blijft vandaag de dag relevant, maar blijft zich ontwikkelen naarmate industrieën zich aanpassen om meer ruimte te bieden aan cloud computing en real-time data-analyse. Eén gegevensopslagplaats die vergelijkbaar is met een datawarehouse, is een data lake. Data lakes begonnen met baanbrekende, kosteneffectieve technologieën zoals Apache Hadoop. Tegenwoordig worden data lakes vaak ingezet voor de onbeperkte stroom van big data, die wordt opgeslagen zonder dat er verwerking of het opstellen van schema's nodig is.

E-commerce retailer versterkt klantbetrokkenheid door het gebruik van cloudgebaseerde analytics en AI.

Door de snelle groei van de organisatie en een personeelsbestand dat steeds meer geografisch verspreid raakt, besloot 1-800-FLOWERS.COM gebruik te maken van SAS® Viya®, gehost op Azure, om een flexibelere en schaalbaardere infrastructuur te creëren. Om data gereed te maken voor analyse, combineert het bedrijf eerst zijn databases en importeert ze vervolgens in Snowflake, een cloudgebaseerd datawarehouse.

Datawarehousing in de wereld van vandaag

Een datawarehouse maakt vaak het verschil tussen goed onderbouwde beslissingen en datawanorde. Ontdek hoe en waarom datawarehouses en bijbehorende technologieën in de moderne wereld worden ingezet.

Snellere data, snellere inzichten

Voor bepaalde taken zijn een datawarehouse en ETL-proces de meest geschikte aanpak om inzichten uit data te verkrijgen. Tegenwoordig maken veel bedrijven gebruik van deze methode, vaak in combinatie met moderne technologieën zoals streaming data, virtualisatie en datacatalogi.

Wat is een platform voor klantdata?

Customer data platforms (CDP's) zijn verwant aan datawarehouses. Ze verzamelen first-party klantgegevens uit diverse bronnen, waaronder transactionele databases, callcenters en andere kanalen. Ontdek hoe ze werken en waarom ze van belang zijn.

Data lake:
Wat, waarom en hoe

Een data lake neemt gegevens snel op en geeft beslissingnemers onafhankelijke toegang, verkenning en visualisatie. Data lakes, die perfect geschikt zijn voor het opslaan van ongestructureerde big data zoals tweets, afbeeldingen, spraak en streamingdata, vormen een veelgebruikte databron voor machine learning-toepassingen.

Wat is een datacatalogus?

Het zoeken naar big data binnen het hele bedrijf kan veel tijd kosten. Een datacatalogus maakt gebruik van metadata om gebruikers te ondersteunen bij het snel doorzoeken van het gehele datalandschap binnen een organisatie.

Wie maakt gebruik van datawarehouses?

Banken

Banken maken gebruik van datawarehouses voor het beheer en om te voldoen aan regelgeving. Bij banken zijn verschillende bedrijfsonderdelen verantwoordelijk voor uiteenlopende operationele systemen, wat resulteert in verspreide en inconsistente gegevens. Fusies en overnames zorgen voor nog meer complexiteit. Met datawarehouses beschikken banken over betrouwbare data die ze kunnen gebruiken voor rapportages en analyses.

Manufacturing

Fabrikanten maken gebruik van datawarehouses om gegevens uit diverse bronnen op te halen en samen te voegen. In een datawarehouse worden bijvoorbeeld vaak gegevens over de productkwaliteit opgeslagen, die zijn verzameld uit verschillende bronnen, zoals callcenters, nieuwssites, sociale mediaforums of servicegesprekken.

Gezondheidszorg

Gezondheidszorginstellingen hebben veilige toegang nodig tot gestandaardiseerde gegevens uit verschillende systemen, zoals klinische gegevens, personeelsinformatie, patiëntinformatie en financiële operaties. Na het analyseren van deze betrouwbare gegevens kunnen ze hun activiteiten en middelen optimaliseren, gecoördineerde zorg bieden en goede gezondheidsresultaten voor iedereen waarborgen.

Publieke sector

Overheden beheren en bewaren diverse soorten belangrijke en vaak gevoelige gegevens uit de publieke sector. Deze enorme hoeveelheid data wordt aangeleverd door individuele burgers, gemeenschappen, lokale, regionale en nationale instanties, overheidsaannemers en andere partijen. Een datawarehouse slaat al deze informatie op een veilige manier op, zodat het gebruikt kan worden voor beleidsvorming en andere belangrijke beslissingen.

We beschikken nu over duizenden data-elementen in het SAS-datawarehouse en kunnen de onderlinge relaties analyseren om te bepalen of een specifiek zorgtraject heeft bijgedragen aan de vermindering van het aantal bezoeken aan de spoedeisende hulp of het aantal heropnames. Judi Nightingale Director of Population Health Riverside County

Hoe werkt een datawarehouse?

Een datawarehouse begint met het verzamelen en integreren van gegevens uit zowel interne als externe bronnen. Bedrijfsgebruikers krijgen toegang tot de gestandaardiseerde gegevens in een datawarehouse, zodat ze deze kunnen gebruiken voor analyses en rapportages. Business intelligence-tools helpen hen de data te analyseren, zodat ze beter geïnformeerde zakelijke beslissingen kunnen nemen.

Data wordt meestal opgeslagen in een datawarehouse via het proces van extraheren, transformeren en laden (ETL). De informatie wordt uit de bron gehaald, omgezet in hoogwaardige data en vervolgens opgeslagen in het datawarehouse. Bedrijven voeren dit proces regelmatig uit om de data actueel te houden en voor te bereiden op de volgende stap.

Wanneer een organisatie klaar is om data te gebruiken voor analytics , verschuift de focus van datawarehousing naar tools voor business intelligence (BI). Door gebruik te maken van BI-technologieën zoals visuele analyse en gegevensonderzoek kunnen organisaties waardevolle inzichten uit hun bedrijfsdata verkrijgen. Het is belangrijk om aan de back-end te begrijpen hoe de architectuur van het datawarehouse de data organiseert en hoe het uitvoeringsmodel van de database query's optimaliseert, zodat ontwikkelaars efficiënte, high-performance data-applicaties kunnen ontwikkelen.

Veel organisaties maken, naast een traditioneel datawarehouse en ETL-proces, gebruik van diverse andere methoden, tools en technieken voor hun activiteiten. Bijvoorbeeld:

  • Data pipelines kunnen worden gebruikt om cloud-datawarehouses te vullen, die volledig beheerd kunnen worden door de organisatie zelf of door de cloudaanbieder.
  • De continue streaming data kan worden opgeslagen in een datawarehouse in de cloud.
  • Een gecentraliseerde datacatalogus is een waardevol hulpmiddel voor het verzamelen van metadata, waardoor het eenvoudiger wordt om data te vinden en de afkomst ervan te traceren.
  • Automatiseringstools voor datawarehouses zorgen ervoor dat nieuwe data sneller in warehouses kan worden geplaatst.
  • Oplossingen voor datavirtualisatie creëren een logisch datawarehouse waardoor gebruikers de data kunnen inzien via de tools van hun keuze.
  • Online analytische verwerking (OLAP) is een techniek voor het presenteren van gegevens die zijn samengevat in multidimensionale weergaven en hiërarchieën. Wanneer het samen met een geïntegreerd ETL-proces wordt gebruikt, kunnen bedrijfsgebruikers rapporten genereren zonder de hulp van IT.
  • Een operationele data-opslag (ODS) bevat een subset van gegevens die vrijwel in realtime worden bijgewerkt en gebruikt voor operationele rapportages of meldingen.

Waarom zijn datawarehouses belangrijk?

Datawarehouses zijn essentieel voor bedrijven omdat ze alle waardevolle gegevens die organisaties gebruiken voor bedrijfsbeslissingen verzamelen en opslaan in een centrale database in een gestandaardiseerd formaat. Organisaties kunnen zo de onvoorspelbare uitkomsten van een ad-hoc-benadering van gegevenstoegang en -integratie voorkomen. Datawarehouses:

  • Houden historische datasets bij: slaan maanden of zelfs jaren aan informatie op.
  • Beveiligen data door ze op één plek op te slaan en alleen de mensen toegang te geven die specifieke gegevens nodig hebben.
  • Zorgen voor gemakkelijke toegang tot hoogwaardige data, zodat je snellere en beter onderbouwde zakelijke beslissingen kunt nemen.
  • Zorgen ervoor dat big data toegankelijk is voor zowel basisrapportages als geavanceerde analyses, zoals machine learning en natuurlijke taalverwerking.

Vergelijking: datawarehouse, data mart en data lake

Datawarehouse

  • Doel: Het opslaan van aanzienlijke hoeveelheden bedrijfsgegevens die verschillende onderwerpen binnen het bedrijf bestrijken.
  • Voordelen: Het is bijzonder groot en bevat een enorme hoeveelheid data.
  • Nadelen: Kan moeilijk zijn om te ontwikkelen.
  • Resultaat: De data is gestructureerd en gereed voor gebruik bij analyses of rapportages.

Datamart

  • Doel: Bewaart een beperkte hoeveelheid gegevens, meestal met betrekking tot één specifiek onderwerp dat door één afdeling wordt gebruikt, zoals marketing of verkoop.
  • Voordelen: Het is sneller en eenvoudiger op te zetten dan een datawarehouse.
  • Nadelen: Het geheugen is beperkt, wat betekent dat je niet zoveel informatie kunt opslaan als in een datawarehouse.
  • Resultaat: De data is gestructureerd en kan worden geëxtraheerd voor analyses of rapportages.

Data lake

  • Doel: Het opslaan van een grote hoeveelheid onbewerkte data in het originele formaat – ideaal voor ongestructureerde big data, zoals tweets, afbeeldingen, spraak en streaming data.
  • Voordelen: Maakt het mogelijk om snel data op te nemen en biedt bedrijfsgebruikers snelle opties voor onafhankelijke toegang, verkenning en visualisatie.
  • Nadelen: Biedt geen gegevens die gestandaardiseerd, ongedupliceerd, op kwaliteit gecontroleerd of getransformeerd zijn.
  • Resultaat: De gegevens blijven in hun oorspronkelijke formaat behouden en kunnen opnieuw worden gebruikt. Zo kunnen meerdere metadata-tags aan dezelfde gegevens worden gekoppeld.

SAS® Data Management

De data in een datawarehouse biedt alleen waarde wanneer het op de juiste manier wordt beheerd. Met de datamanagementtechnologie van SAS kun je big data omzetten in mooie kansen met data-integratie, data governance, event stream processing en datakwaliteitstechnologieën.

Connect with SAS and see what we can do for you.