Un data warehouse (ou data warehouse d'entreprise) stocke de grandes quantités de données qui ont été collectées et intégrées à partir de diverses sources. Les organisations dépendant de ces données pour l'analytique et le reporting, les données doivent être formatées de manière cohérente et facilement accessibles – deux caractéristiques qui définissent l'entreposage de données et le rendent essentiel aux entreprises d'aujourd'hui.
Histoire du data warehouse
Alors que les données commençaient à proliférer dans les années 1970 et 1980, les entreprises ont ressenti le besoin d'un moyen de stocker toutes leurs informations et d'y accéder. L'informaticien Bill Inmon, le père des data warehouses, a commencé à définir le concept dans les années 1970 et c'est à lui que l'on doit le terme "data warehouse". En 1992, il a publié Building the Data Warehouse, un ouvrage considéré comme une source fondamentale sur la technologie des data warehouses. Inmon définit le data warehouse en adoptant une approche "descendante" selon laquelle un référentiel centralisé est d'abord établi. Ensuite, des magasins de données – qui contiennent des sous-ensembles spécifiques de données – sont créées dans ce référentiel.
Ralph Kimball, un autre expert en technologie qui a publié The Data Warehouse Toolkit au milieu des années 90, voyait le concept du data warehouse de façon légèrement différente. Dans son approche "ascendante", les magasins de données individuels sont d'abord développés, puis intégrés ensemble pour créer un data warehouse.
Les data warehouses restent pertinents aujourd'hui – mais ils continuent d'évoluer à mesure que les industries changent pour mieux s'adapter au cloud computing et à l'analyse des données en temps réel. Le data lake est un référentiel de stockage de données similaire à un data warehouse. Les data lakes ont vu le jour avec des technologies innovantes et peu coûteuses comme Apache Hadoop. Aujourd'hui, les data lakes sont souvent utilisés pour les big data qui prolifèrent et sont stockées sans traitement ni élaboration de schémas.
Un détaillant e-commerce améliore l'engagement de ses clients grâce à l'analytique et à l'IA basées sur le cloud.
Avec une activité en pleine croissance et un personnel de plus en plus dispersé, 1-800-FLOWERS.COM s'est tourné vers SAS® Viya® hébergé sur Azure pour obtenir une infrastructure plus souple et plus évolutive. Pour que les données soient prêtes pour l'analytique, l'entreprise consolide d'abord ses bases de données et les alimente dans Snowflake, un data warehouse basé sur le cloud.
Les Data Warehouses dans le monde d’aujourd’hui
Un data warehouse, c'est souvent ce qui fait la différence entre des décisions éclairées et le chaos des données. Découvrez comment et pourquoi les data warehouses et les technologies connexes sont utilisés dans le monde aujourd'hui.
Qu'est-ce qu'un catalogue de données ?
La recherche de big data dans l'ensemble de l'entreprise peut faire perdre un temps précieux. Un catalogue de données utilise des métadonnées pour aider les utilisateurs à faire rapidement une recherche dans l'ensemble des données d'une entreprise.
Qui utilise les data warehouses ?
Nous avons maintenant des milliers d'éléments de données dans le data warehouse SAS. Nous pouvons analyser les liens entre eux pour déterminer si un certain parcours de soins a pu réduire les visites aux urgences ou la réincarcération. Judi Nightingale Director of Population Health Riverside County
Comment fonctionne un data warehouse
Un data warehouse commence par les données elles-mêmes qui sont collectées et intégrées à partir de sources internes et externes. Les utilisateurs métier accèdent à ces données standardisées dans un entrepôt. Ils peuvent ainsi les utiliser pour l'analyse et la création de rapports. Les outils de Business Intelligence les aident à explorer les données pour prendre des décisions métier plus éclairées.
Les données sont généralement stockées dans un data warehouse via un processus d'extraction, de transformation et de chargement (ETL). Les informations sont extraites de la source, transformées en données de haute qualité puis chargées dans l'entrepôt. Les entreprises effectuent ce processus régulièrement pour maintenir les données à jour et se préparer pour l'étape suivante.
Lorsqu'une organisation est prête à utiliser ses données pour l'analytique ou la création de rapports, l'attention se déplace du data warehouse vers les outils de Business Intelligence (BI). Les technologies de BI telles que la Data Visualisation et l'exploration de données aident les organisations à tirer des informations importantes de leurs données commerciales. En back-end, il est important de comprendre comment l'architecture du data warehouse organise les données et comment le modèle de la base de données optimise les requêtes – afin que les développeurs puissent écrire des applications aux performances raisonnablement élevées.
En plus du data warehouse traditionnel et du processus ETL, de nombreuses organisations utilisent divers autres outils, méthodes et techniques pour leurs charges de travail. Par exemple :
- Les pipelines de données peuvent être utilisés pour remplir des data warehouses sur le cloud, qui peuvent être entièrement gérés par l'organisation ou par le fournisseur de cloud.
- Les flux de données en continu peuvent être stockés dans un data warehouse sur le cloud.
- Un catalogue de données centralisé est utile pour unifier les métadonnées, ce qui facilite la recherche de données et le suivi de leur lignage.
- Les outils d'automatisation des data warehouses permettent d'intégrer plus rapidement les nouvelles données dans les data warehouses.
- Les solutions de virtualisation des données créent un data warehouse logique pour que les utilisateurs puissent visualiser les données à partir de leurs outils préférés.
- Le traitement analytique en ligne (OLAP) est un moyen de représenter des données qui se résume en des vues et des hiérarchies multidimensionnelles. Lorsqu'il est utilisé avec un processus ETL intégré, il permet aux utilisateurs métier d'obtenir des rapports sans assistance informatique.
- Un magasin de données opérationnelles (ODS) contient un sous-ensemble de données en temps quasi réel utilisées pour les rapports opérationnels ou les notifications.
Pourquoi les data warehouses sont-ils importants ?
Les data warehouses d'entreprise sont essentiels car ils intègrent et stockent – dans une base de données centrale et un format standard – toutes les données que les organisations utilisent pour prendre leurs décisions. En retour, les organisations peuvent s'éviter les résultats imprévisibles d'une approche ad hoc de l'accès et de l'intégration des données. Un data warehouse :
- Conserve des enregistrements de données historiques – en stockant des mois, voire des années d'informations.
- Assure la sécurité des données en les stockant dans un endroit unique où seules les personnes ayant besoin de données spécifiques peuvent accéder.
- Fournit un accès facile à des données de haute qualité, ce qui permet de prendre des décisions commerciales plus rapides et plus éclairées.
- Met les big data à disposition pour les rapports de base ainsi que pour les analytses avancées, comme le machine learning et le traitement automatique du langage naturel.
Comparaison : Data warehouse, magasin de données et data lake
Data Warehouse
- Objectif : Stocke une grande quantité de données d'entreprise englobant plusieurs domaines de l'entreprise.
- Avantages : Grande capacité ; contient de grandes quantités de données.
- Inconvénients : Peut être difficile à construire.
- Résultat : Les données sont structurées et prêtes à être utilisées pour des analyses ou des rapports.
Data mart
- Objectif : Stocke une plus petite quantité de données, couvrant généralement un seul domaine utilisé par un seul département (comme le marketing ou les ventes).
- Avantages : Plus rapide et plus facile à construire qu'un data warehouse.
- Inconvénients : Sa mémoire est limitée – il ne peut donc pas stocker autant d'informations qu'un data warehouse.
- Résultat : Les données sont structurées et prêtes à être extraites pour des analyses ou des rapports.
Data lake
- Objectif : Stocke une grande quantité de données brutes dans leur format natif – idéal pour les big data non structurées comme les tweets, les images, la voix et les flux de données.
- Avantages : Ingère rapidement des données et offre aux utilisateurs métier un accès rapide et en libre-service, ainsi que des capacités d'exploration et de visualisation.
- Inconvénients : Fournit des données qui ne sont ni normalisées, ni non dupliquées, ni contrôlées en termes de qualité, ni transformées.
- Résultat : Les données restent dans leur format brut et peuvent être réutilisées – plusieurs métadonnées peuvent être attribuées aux mêmes données.
SAS® Data Management
Les données stockées dans un data warehouse n'ont de valeur que si elles sont bien gérées. Avec la technologie de gestion des données de SAS, vous pouvez transformer les big data en véritables opportunités grâce aux technologies d'intégration, de gouvernance, de traitement des flux et de qualité des données.