Data Warehouse

Che cos'è e quali vantaggi offre al tuo Business

Un data warehouse (o enterprise data warehouse) archivia grandi quantità di dati raccolti e integrati da molteplici fonti. Le aziende si affidano a questi dati per le operazioni di analisi e reporting. Per questo, è necessario che i dati siano formattati in modo omogeneo e siano di facile accesso: due aspetti che contraddistinguono il data warehousing e lo rendono essenziale per il business.

Storia dei data warehouse


A partire dagli anni '70 e '80 i dati iniziarono a moltiplicarsi e le aziende avevano bisogno di uno strumento per archiviare e accedere a tutte le informazioni. L'informatico Bill Inmon, che è il padre del sistema di archiviazione dati, ha definito il concetto negli anni '70 e gli si attribuisce anche il merito di aver coniato il termine “data warehouse”. Nel 1992 ha pubblicato Building the Data Warehouse, considerato un testo fondamentale sulla tecnologia dell'archiviazione dati. Secondo la concezione di Inmon, il data warehouse adotta un approccio “top-down, in cui viene creato dapprima un repository centralizzato e poi i data mart, che contengono sottoinsiemi specifici di dati, all'interno di tale repository.

Ralph Kimball, un altro esperto di tecnologia che ha pubblicato The Data Warehouse Toolkit a metà degli anni '90, aveva una visione leggermente diversa del concetto di archiviazione dati. Nel suo approccio “bottom-up”, la creazione di un data warehouse prevede che i singoli data mart vengano prima sviluppati e poi integrati.

Oggi l'archiviazione dati è ancora importante, ma continua a evolversi man mano che i settori di attività cambiano per adattarsi al cloud computing e all'analisi dei dati in tempo reale. Un archivio dati simile a un data warehouse è il data lake. I data lake sono nati grazie a tecnologie rivoluzionarie e a basso costo come Apache Hadoop. Oggi i data lake vengono spesso utilizzati per riversare in massa i big data e archiviarli senza alcuna elaborazione o creazione di schemi.

Retailer dell'e-commerce migliora il coinvolgimento dei clienti grazie ad analytics e AI basati su cloud

1-800-FLOWERS.COM aveva già un'attività in rapida crescita e una forza lavoro sempre più dispersa, e per questo si è rivolta a SAS® Viya® su Azure per avere un'infrastruttura più flessibile e scalabile. Per preparare i dati per l'analisi, l'azienda consolida anzitutto i suoi database e poi li immette in Snowflake, un data warehouse basato sul cloud.

Il data warehousing al giorno d'oggi

Decisioni ponderate o caos dei dati? Con un data warehouse scegliere è più facile. Scopri come e perché i data warehouse e le tecnologie correlate vengono ancora utilizzati nelle varie attività.

Dati più veloci per un'analisi più tempestiva

Per alcuni lavori, disporre di un data warehouse e di un processo ETL (dall'inglese Extract, Transform and Load) è l'approccio migliore per ricavare preziose informazioni dai dati. Sono molte le aziende che oggi utilizzano questo metodo, spesso associandolo a tecnologie più recenti, come lo streaming data, la virtualizzazione e i cataloghi dati.

Che cos'è una customer data platform?

Le customer data platform (CDP) sono collegate ai data warehouse. Contengono i dati dei clienti di prima mano provenienti da diverse fonti, come database transazionali, call center e altro ancora. Scopri come funzionano e perché sono importanti.

Data lake:
cosa, come e perché

Un data lake incamera rapidamente i dati e offre a chi deve prendere decisioni la possibilità di accedervi, esplorarli e visualizzarli in modalità self-service. Perfetti per archiviare big data non strutturati come tweet, immagini, file audio e dati in streaming, i data lake sono comunemente utilizzati come fonte di dati per le applicazioni di machine learning.

Che cos'è un catalogo dati?

La ricerca di big data in un'azienda può comportare un enorme dispendio di tempo. Un catalogo dati utilizza i metadati per aiutare gli utenti a trovare rapidamente i dati più appropriati all'interno dell'organizzazione.

Chi utilizza i data warehouse?

Banche

Il settore bancario utilizza i data warehouse per garantire la governance e il rispetto delle normative. Solitamente, le diverse linee di business creano molteplici sistemi operativi che portano a dati sparsi e incoerenti. A complicare le cose ci sono le fusioni e le acquisizioni. Grazie ai data warehouse, le banche possono accedere a dati attendibili e utilizzarli per la creazione di report e analisi.

Manifatturiero

Le aziende del settore manifatturiero utilizzano i data warehouse per accedere e integrare i dati provenienti da diverse fonti. A titolo di esempio, il data warehouse spesso archivia i dati di produzione relativi alla qualità dei prodotti che vengono raccolti da varie fonti, come call center, siti di notizie, forum sui social media o chiamate al servizio di assistenza.

Health Care

Le aziende sanitarie hanno bisogno di un accesso sicuro ai dati in forma standardizzata che vengono aggregati da diversi sistemi, come quelli clinici, dei dipendenti, dei pazienti e delle operazioni finanziarie. Dopo aver analizzato i dati certi in loro possesso, tali aziende sono in una posizione migliore per ottimizzare le loro attività e le loro risorse, fornire una cura coordinata e garantire a tutti buoni risultati in termini di salute.

Settore pubblico

Le autorità governative gestiscono e conservano molteplici tipologie di dati cruciali, spesso sensibili, del settore pubblico. Si tratta di vaste raccolte di dati che provengono dai singoli cittadini, dalle comunità, dalle agenzie locali, regionali e nazionali, dalle ditte appaltatrici e da altri soggetti. Un data warehouse archivia in modo sicuro tutte queste informazioni affinché siano pronte all'uso in occasione di iniziative legislative o di altre decisioni importanti.

Ora nel data warehouse SAS disponiamo di migliaia di dati e possiamo analizzare le loro relazioni interne per stabilire se un particolare percorso di cura abbia avuto un impatto positivo, come la riduzione delle visite al pronto soccorso o le ospedalizzazioni. Judi Nightingale Director of Population Health Riverside County

Come funziona un data warehouse

Per creare un data warehouse si inizia con i dati stessi, che vengono raccolti e integrati da fonti interne ed esterne. Gli utenti di business accedono ai dati standardizzati contenuti in un warehouse in modo da poterli utilizzare per l'analisi e il reporting. Grazie agli strumenti di business intelligence possono esplorare i dati per prendere decisioni aziendali in modo più consapevole.

In genere i dati vengono archiviati in un data warehouse attraverso un processo di estrazione, trasformazione e caricamento (ETL). Le informazioni vengono estratte dalla fonte, trasformate in dati di alta qualità e poi caricate nell'archivio. Le aziende eseguono questa procedura con regolarità per mantenere i dati aggiornati e pronti per la fase successiva.

Quando un'azienda è pronta a utilizzare i propri dati per analytics o reporting, si passa dal data warehousing agli strumenti di business intelligence (BI). Le tecnologie di BI, come visual analytics e data exploration, aiutano le aziende a ricavare importanti informazioni dai dati aziendali. Per quanto riguarda il back end, è fondamentale capire come l'architettura del data warehouse organizzi i dati e come il modello di esecuzione del database ottimizzi le query, in modo che gli sviluppatori possano scrivere applicazioni di dati e garantire performance sufficientemente elevate.

Oltre al tradizionale data warehouse e al processo ETL, molte organizzazioni utilizzano una serie di metodi, strumenti e tecniche diverse per gestire i rispettivi carichi di lavoro. Ad esempio:

  • Con le pipeline di dati è possibile popolare i data warehouse nel cloud, la cui gestione può essere lasciata completamente all'organizzazione o al fornitore del cloud.
  • I data warehouse nel cloud sono in grado di archiviare in modo continuo gli streaming data.
  • Un catalogo dati centralizzato è utile per unificare i metadati, facilitando l'individuazione dei dati e il tracciamento del loro lineage.
  • Gli strumenti di automazione del data warehouse consentono di inserire più velocemente i nuovi dati negli archivi.
  • Le soluzioni di virtualizzazione dei dati creano un data warehouse logico affinché gli utenti possano visualizzare i dati a partire dagli strumenti di loro scelta.
  • L'elaborazione analitica online (OLAP) è un modo di rappresentare i dati sintetizzati in viste multi-dimensionali e gerarchiche. Se utilizzato con un processo ETL integrato, consente agli utenti di business di generare report senza richiedere l'assistenza dell'IT.
  • Un archivio di dati operazionali (ODS) contiene un sottoinsieme di dati near-real-time che vengono utilizzati per la generazione di report operativi o notifiche.

Perché i data warehouse sono importanti?

I data warehouse aziendali sono fondamentali perché integrano e archiviano – all'interno di un database centrale e in un formato standard – tutti i dati preziosi che le aziende utilizzano per prendere decisioni aziendali. Inoltre, con un data warehouse è possibile evitare gli esiti imprevedibili di un approccio "ad hoc" all'accesso e all'integrazione dei dati. I data warehouse:

  • Mantengono i registri dei dati storici, archiviando le informazioni per mesi o addirittura anni.
  • Garantiscono la sicurezza dei dati archiviandoli in un unico luogo a cui può accedere solo chi ne ha bisogno per scopi specifici.
  • Forniscono un facile accesso a dati di alta qualità che consentono di prendere decisioni aziendali più rapide e consapevoli.
  • Rendono disponibili i big data per la reportistica di base e per gli advanced analytics, come il machine learning e l'elaborazione del linguaggio naturale.

Raffronto: data warehouse, data mart e data lake

Data warehouse

  • Obiettivo: archivia una grande quantità di dati aziendali che abbracciano diverse aree dell'azienda.
  • Vantaggi: è molto esteso e contiene enormi quantità di dati.
  • Svantaggi: può essere difficile da creare.
  • Risultato: i dati sono strutturati e pronti all'uso per l'analisi o la reportistica.

Data mart

  • Obiettivo: archivia una quantità minore di dati, in genere relativi a una singola area tematica utilizzata da un unico reparto (come il marketing o le vendite).
  • Vantaggi: è più veloce e più facile da costruire di un data warehouse.
  • Svantaggi: avendo una memoria limitata, non può archiviare la stessa quantità di informazioni di un data warehouse.
  • Risultato: i dati sono strutturati e pronti per essere estratti per l'analisi o il reporting.

Data lake

  • Obiettivo: archivia una grande quantità di dati grezzi nel loro formato nativo; è la soluzione perfetta per big data non strutturati come tweet, immagini, file audio e streaming data.
  • Vantaggi: ingloba velocemente i dati e offre agli utenti aziendali un accesso self-service rapido, oltre a funzionalità di esplorazione e visualizzazione.
  • Svantaggi: non fornisce dati standardizzati, privi di duplicazioni, sottoposti a controlli di qualità o trasformati.
  • Risultato: i dati rimangono nel loro formato grezzo ed è possibile riutilizzarli assegnando loro più tag di metadati.

SAS® Data Management

I dati archiviati in un data warehouse per produrre informazioni di rilievo devono essere gestiti bene. Grazie alla tecnologia SAS di data management, puoi trasformare i big data in grandi opportunità sfruttando data integration, data governance, event stream processing e le tecnologie di data quality.