Um armazém de dados (ou armazém de dados empresarial) guarda grandes quantidades de dados que tenham sido recolhidos e integrados a partir de várias fontes. Como as empresas dependem destes dados para análise e relatórios, os dados precisam de estar formatados com consistência, e também facilmente acessíveis – estas são as 2 qualidades que definem o armazenamento de dados e o tornam fundamental para os negócios da atualidade.
História dos armazéns de dados
À medida que os dados começaram a proliferar na década de 70 e 80 do século XX, as organizações precisaram de encontrar uma forma de guardar e aceder a todas as suas informações. O cientista de computação Bill Inmon, pai do armazenamento de dados, começou por definir o conceito nos anos 70, sendo assim creditado por cunhar o termo "armazém de dados". Publicou A Construção de um armazém de dados, em 1992, que é vista como sendo uma fonte de informação fundamental sobre tecnologia do armazenamento de dados. A definição de armazém de dados de Inmon faz uma abordagem vertical - de cima para baixo, onde é primeiramente estabelecido um repositório centralizado para então, depois, serem criados os "data mart" – que contêm subconjuntos específicos de dados – dentro desse repositório.
Por outro lado, Ralph Kimball, outro especialista em tecnologia que publicou O kit de ferramentas do armazém de dados a meio da década de 90, tem um ponto de vista ligeiramente diferente do conceito de armazém de dados. Na sua abordagem base-topo, os data mart individuais são desenvolvidos primeiro, para serem integrados mais tarde, a fim de criar um armazém de dados.
Os armazéns de dados continuam a ser relevantes nos dias de hoje – mas continuam a evoluir e acompanham o ritmo das indústrias para acomodar mais informática na cloud e análise em tempo real. Um repositório de armazenamento de dados semelhante a um armazém de dados é um data lake. Os data lakes começaram com tecnologias disruptivas e de baixo custo, como a Apache Hadoop. Presentemente, os data lakes costumam ser utilizados para big data ilimitados que se transmitem e são armazenados sem processamento ou criação de esquemas.
Um retalhista de E-commerce melhora a interação com o cliente através de análise na cloud e AI
Com um negócio em rápido crescimento e uma força de trabalho incrivelmente dispersa, a 1-800-FLOWERS.COM recorreu à SAS® Viya®, alojada no Azure, para obter maior flexibilidade, e uma infraestrutura escalável. Para preparar os dados para análise a empresa começou por consolidar as suas bases de dados e alimentou-as através de um esquema de floco de neve (um armazém de dados sediado na cloud).
Os armazéns de dados no mundo atual
Ter um armazém de dados, por norma, é a diferença entre decisões informadas ou caos de dados. Aprenda como e porque é que os armazéns de dados, e tecnologias relacionadas, são utilizados atualmente.
O que é um catálogo de dados?
Procurar big data, num negócio, pode fazer com que desperdice o seu recurso mais valioso: tempo. Um catálogo de dados utiliza metadados e agiliza a pesquisa dos utilizadores na consulta da totalidade dos dados de uma organização.
Quem está a utilizar os armazéns de dados?
Com tantos programas, chegámos rapidamente à conclusão de estarmos na situação de os dados estarem presos em silos. Para compreender melhor o que estávamos a fazer, enquanto instituição, precisávamos de encontrar uma forma mais eficiente de integrar e gerir múltiplas origens de dados em toda a empresa. Bonnie Chapman-Beers Director of Evaluation and Innovation Institute for Veterans & Military Families
Como funciona um armazém de dados?
Um armazém de dados começa nos dados em si, os quais são recolhidos e integrados, tanto de fontes externas como internas. Os utilizadores de negócios acedem a estes dados padronizados, que se encontram num armazém, para depois os utilizarem em relatórios e análises. As ferramentas de inteligência para negócios ajudam estas pessoas a explorar os dados, por forma a tomarem decisões de negócios bem informadas.
Habitualmente, os dados estão guardados num armazém de dados através de um processo de extrair, transformar e carregar (ETL). A informação é extraída da fonte, transformada em dados de alta qualidade e depois é carregada para o armazém. As empresas realizam este processo com regularidade para manterem os dados atualizados e preparados para o próximo passo.
Quando uma organização está pronta para utilizar os seus dados para análise, ou relatórios, o foco passa dos armazéns de dados para as ferramentas de business intelligence (BI). As tecnologias de BI, como a visual analytics e exploração de dados, ajudam as organizações a compilar recomendações personalizadas dos seus dados de negócio. Para além disso, por outro lado, é importante compreender como a arquitetura dos armazéns de dados organiza os dados e como o modelo de execução de bases de dados otimiza as consultas – para que os programadores possam escrever aplicações de dados com um desempenho razoavelmente elevado.
Acrescentando a um armazém de dados tradicional e processo de ETL, várias organizações utilizam muitos outros métodos, ferramentas e técnicas para os seus volumes de trabalho. Por exemplo:
- O pipeline de dados pode ser utilizado para preencher armazéns de dados na cloud, os quais podem ser totalmente geridos pela organização ou fornecedor da cloud.
- Uma transmissão em fluxo de dados contínua pode ser guardada num armazém de dados na cloud.
- Um catálogo de dados centralizado ajuda a entrelaçar os metadados, facilitando a tarefa de encontrar dados e rastrear a sua linhagem.
- As ferramentas de automatização de armazéns de dados obtêm dados novos, com maior rapidez, para os armazéns.
- As soluções de virtualização de dados criam armazéns de dados lógicos, para os utilizadores visualizarem os dados através das suas ferramentas de eleição.
- O processamento analítico online (OLAP) é uma forma de representar dados que foram sumariados em visualizações multidimensionais e hierarquias. Quando utilizado a par de um processo ETL, permite aos utilizadores da empresa obter relatórios sem assistência por parte dos serviços de IT.
- Um arquivo de dados operacionais (ODL) possui um subconjunto de dados quase em tempo real que são utilizados para relatórios operacionais ou notificações.
Porque é que os armazéns de dados são importantes?
As empresas de armazéns de dados são vitais, pois integram e guardam – numa base central e formato padronizado – todos os dados valiosos que as organizações utilizam para a tomada de decisões empresariais. Ao utilizá-los, as organizações evitam a imprevisibilidade da adoção de uma abordagem ad hoc, no que toca ao acesso e integração dos dados. Os armazéns de dados:
- Mantêm o registo de dados históricos – podem guardar o equivalente a meses ou até anos de informações.
- Mantêm os dados seguros ao armazená-los num único local onde só as pessoas que necessitam de dados específicos têm acesso aos mesmos.
- Agilizam o acesso a dados de alta qualidade, que permitem tomadas de decisão de negócios mais rápidas e bem informadas.
- Disponibilizam os big data para os relatórios básicos, e decisões de análise avançadas, como a aprendizagem automática e processamento de linguagem natural.
Fazendo a comparação: armazéns de dados, data mart e data lake
Armazém de dados
- Propósito: armazenar grandes dados da empresa, onde são englobados vários assuntos e áreas do negócio.
- Vantagens: é enorme; guarda vastas quantidades de dados.
- Desvantagens: pode ser difícil de criar.
- Resultado: os dados ficam estruturados e prontos a utilizar para análise ou relatórios.
Data mart
- Propósito: guardam uma pequena quantidade de dados, por norma, abrange um único assunto que é trabalhado apenas por um departamento (como marketing ou vendas).
- Vantagens: é mais rápido e fácil de criar do que um armazém de dados.
- Desvantagens: tem uma memória limitada – por isso, não consegue guardar tanta informação quanto um armazém de dados.
- Resultado: os dados ficam estruturados e prontos a extrair para análise ou relatórios.
Data lake
- Propósito: guarda uma grande quantidade de dados não processados no seu formato de origem – é ideal para dados não estruturados como publicações do X, imagens, vozes, e dados de transmissão em fluxo.
- Vantagens: ingere dados a uma grande velocidade e dá aos utilizadores de negócios capacidades de acesso, exploração e visualização autónomas.
- Desvantagens: não oferece dados padronizados, sem duplicados, com verificação de qualidade, ou transformados.
- Resultado: os dados ficam no seu formato de origem e podem ser utilizados de outra forma – múltiplas tags de metadados podem ser atribuídas aos mesmos dados.
SAS® Data Management
Os dados guardados num arquivo de dados não trazem valor a não ser que sejam bem geridos. Com a tecnologia de gestão de dados SAS, pode transformar big data em oportunidades, através da integração de dados, governança de dados, event stream processing e tecnologias de qualidade de dados.