Un data warehouse (o enterprise data warehouse) archivia grandi quantità di dati raccolti e integrati da molteplici fonti. Le aziende si affidano a questi dati per le operazioni di analisi e reporting. Per questo, è necessario che i dati siano formattati in modo omogeneo e siano di facile accesso: due aspetti che contraddistinguono il data warehousing e lo rendono essenziale per il business.
Storia dei data warehouse
A partire dagli anni '70 e '80 i dati iniziarono a moltiplicarsi e le aziende avevano bisogno di uno strumento per archiviare e accedere a tutte le informazioni. L'informatico Bill Inmon, che è il padre del sistema di archiviazione dati, ha definito il concetto negli anni '70 e gli si attribuisce anche il merito di aver coniato il termine “data warehouse”. Nel 1992 ha pubblicato Building the Data Warehouse, considerato un testo fondamentale sulla tecnologia dell'archiviazione dati. Secondo la concezione di Inmon, il data warehouse adotta un approccio “top-down, in cui viene creato dapprima un repository centralizzato e poi i data mart, che contengono sottoinsiemi specifici di dati, all'interno di tale repository.
Ralph Kimball, un altro esperto di tecnologia che ha pubblicato The Data Warehouse Toolkit a metà degli anni '90, aveva una visione leggermente diversa del concetto di archiviazione dati. Nel suo approccio “bottom-up”, la creazione di un data warehouse prevede che i singoli data mart vengano prima sviluppati e poi integrati.
Oggi l'archiviazione dati è ancora importante, ma continua a evolversi man mano che i settori di attività cambiano per adattarsi al cloud computing e all'analisi dei dati in tempo reale. Un archivio dati simile a un data warehouse è il data lake. I data lake sono nati grazie a tecnologie rivoluzionarie e a basso costo come Apache Hadoop. Oggi i data lake vengono spesso utilizzati per riversare in massa i big data e archiviarli senza alcuna elaborazione o creazione di schemi.
Retailer dell'e-commerce migliora il coinvolgimento dei clienti grazie ad analytics e AI basati su cloud
1-800-FLOWERS.COM aveva già un'attività in rapida crescita e una forza lavoro sempre più dispersa, e per questo si è rivolta a SAS® Viya® su Azure per avere un'infrastruttura più flessibile e scalabile. Per preparare i dati per l'analisi, l'azienda consolida anzitutto i suoi database e poi li immette in Snowflake, un data warehouse basato sul cloud.
Il data warehousing al giorno d'oggi
Decisioni ponderate o caos dei dati? Con un data warehouse scegliere è più facile. Scopri come e perché i data warehouse e le tecnologie correlate vengono ancora utilizzati nelle varie attività.
Che cos'è un catalogo dati?
La ricerca di big data in un'azienda può comportare un enorme dispendio di tempo. Un catalogo dati utilizza i metadati per aiutare gli utenti a trovare rapidamente i dati più appropriati all'interno dell'organizzazione.
Chi utilizza i data warehouse?
Ora nel data warehouse SAS disponiamo di migliaia di dati e possiamo analizzare le loro relazioni interne per stabilire se un particolare percorso di cura abbia avuto un impatto positivo, come la riduzione delle visite al pronto soccorso o le ospedalizzazioni. Judi Nightingale Director of Population Health Riverside County
Come funziona un data warehouse
Per creare un data warehouse si inizia con i dati stessi, che vengono raccolti e integrati da fonti interne ed esterne. Gli utenti di business accedono ai dati standardizzati contenuti in un warehouse in modo da poterli utilizzare per l'analisi e il reporting. Grazie agli strumenti di business intelligence possono esplorare i dati per prendere decisioni aziendali in modo più consapevole.
In genere i dati vengono archiviati in un data warehouse attraverso un processo di estrazione, trasformazione e caricamento (ETL). Le informazioni vengono estratte dalla fonte, trasformate in dati di alta qualità e poi caricate nell'archivio. Le aziende eseguono questa procedura con regolarità per mantenere i dati aggiornati e pronti per la fase successiva.
Quando un'azienda è pronta a utilizzare i propri dati per analytics o reporting, si passa dal data warehousing agli strumenti di business intelligence (BI). Le tecnologie di BI, come visual analytics e data exploration, aiutano le aziende a ricavare importanti informazioni dai dati aziendali. Per quanto riguarda il back end, è fondamentale capire come l'architettura del data warehouse organizzi i dati e come il modello di esecuzione del database ottimizzi le query, in modo che gli sviluppatori possano scrivere applicazioni di dati e garantire performance sufficientemente elevate.
Oltre al tradizionale data warehouse e al processo ETL, molte organizzazioni utilizzano una serie di metodi, strumenti e tecniche diverse per gestire i rispettivi carichi di lavoro. Ad esempio:
- Con le pipeline di dati è possibile popolare i data warehouse nel cloud, la cui gestione può essere lasciata completamente all'organizzazione o al fornitore del cloud.
- I data warehouse nel cloud sono in grado di archiviare in modo continuo gli streaming data.
- Un catalogo dati centralizzato è utile per unificare i metadati, facilitando l'individuazione dei dati e il tracciamento del loro lineage.
- Gli strumenti di automazione del data warehouse consentono di inserire più velocemente i nuovi dati negli archivi.
- Le soluzioni di virtualizzazione dei dati creano un data warehouse logico affinché gli utenti possano visualizzare i dati a partire dagli strumenti di loro scelta.
- L'elaborazione analitica online (OLAP) è un modo di rappresentare i dati sintetizzati in viste multi-dimensionali e gerarchiche. Se utilizzato con un processo ETL integrato, consente agli utenti di business di generare report senza richiedere l'assistenza dell'IT.
- Un archivio di dati operazionali (ODS) contiene un sottoinsieme di dati near-real-time che vengono utilizzati per la generazione di report operativi o notifiche.
Perché i data warehouse sono importanti?
I data warehouse aziendali sono fondamentali perché integrano e archiviano – all'interno di un database centrale e in un formato standard – tutti i dati preziosi che le aziende utilizzano per prendere decisioni aziendali. Inoltre, con un data warehouse è possibile evitare gli esiti imprevedibili di un approccio "ad hoc" all'accesso e all'integrazione dei dati. I data warehouse:
- Mantengono i registri dei dati storici, archiviando le informazioni per mesi o addirittura anni.
- Garantiscono la sicurezza dei dati archiviandoli in un unico luogo a cui può accedere solo chi ne ha bisogno per scopi specifici.
- Forniscono un facile accesso a dati di alta qualità che consentono di prendere decisioni aziendali più rapide e consapevoli.
- Rendono disponibili i big data per la reportistica di base e per gli advanced analytics, come il machine learning e l'elaborazione del linguaggio naturale.
Raffronto: data warehouse, data mart e data lake
Data warehouse
- Obiettivo: archivia una grande quantità di dati aziendali che abbracciano diverse aree dell'azienda.
- Vantaggi: è molto esteso e contiene enormi quantità di dati.
- Svantaggi: può essere difficile da creare.
- Risultato: i dati sono strutturati e pronti all'uso per l'analisi o la reportistica.
Data mart
- Obiettivo: archivia una quantità minore di dati, in genere relativi a una singola area tematica utilizzata da un unico reparto (come il marketing o le vendite).
- Vantaggi: è più veloce e più facile da costruire di un data warehouse.
- Svantaggi: avendo una memoria limitata, non può archiviare la stessa quantità di informazioni di un data warehouse.
- Risultato: i dati sono strutturati e pronti per essere estratti per l'analisi o il reporting.
Data lake
- Obiettivo: archivia una grande quantità di dati grezzi nel loro formato nativo; è la soluzione perfetta per big data non strutturati come tweet, immagini, file audio e streaming data.
- Vantaggi: ingloba velocemente i dati e offre agli utenti aziendali un accesso self-service rapido, oltre a funzionalità di esplorazione e visualizzazione.
- Svantaggi: non fornisce dati standardizzati, privi di duplicazioni, sottoposti a controlli di qualità o trasformati.
- Risultato: i dati rimangono nel loro formato grezzo ed è possibile riutilizzarli assegnando loro più tag di metadati.
SAS® Data Management
I dati archiviati in un data warehouse per produrre informazioni di rilievo devono essere gestiti bene. Grazie alla tecnologia SAS di data management, puoi trasformare i big data in grandi opportunità sfruttando data integration, data governance, event stream processing e le tecnologie di data quality.