Armazém de dados

O que é e porque é importante?

Um armazém de dados (ou armazém de dados empresarial) guarda grandes quantidades de dados que tenham sido recolhidos e integrados a partir de várias fontes. Como as empresas dependem destes dados para análise e relatórios, os dados precisam de estar formatados com consistência, e também facilmente acessíveis – estas são as 2 qualidades que definem o armazenamento de dados e o tornam fundamental para os negócios da atualidade.

História dos armazéns de dados


À medida que os dados começaram a proliferar na década de 70 e 80 do século XX, as organizações precisaram de encontrar uma forma de guardar e aceder a todas as suas informações. O cientista de computação Bill Inmon, pai do armazenamento de dados, começou por definir o conceito nos anos 70, sendo assim creditado por cunhar o termo "armazém de dados". Publicou A Construção de um armazém de dados, em 1992, que é vista como sendo uma fonte de informação fundamental sobre tecnologia do armazenamento de dados. A definição de armazém de dados de Inmon faz uma abordagem vertical - de cima para baixo, onde é primeiramente estabelecido um repositório centralizado para então, depois, serem criados os "data mart" – que contêm subconjuntos específicos de dados – dentro desse repositório.

Por outro lado, Ralph Kimball, outro especialista em tecnologia que publicou O kit de ferramentas do armazém de dados  a meio da década de 90, tem um ponto de vista ligeiramente diferente do conceito de armazém de dados. Na sua abordagem base-topo, os data mart individuais são desenvolvidos primeiro, para serem integrados mais tarde, a fim de criar um armazém de dados.

Os armazéns de dados continuam a ser relevantes nos dias de hoje – mas continuam a evoluir e acompanham o ritmo das indústrias para acomodar mais informática na cloud e análise em tempo real. Um repositório de armazenamento de dados semelhante a um armazém de dados é um data lake. Os data lakes começaram com tecnologias disruptivas e de baixo custo, como a Apache Hadoop. Presentemente, os data lakes costumam ser utilizados para big data ilimitados que se transmitem e são armazenados sem processamento ou criação de esquemas.

Um retalhista de E-commerce melhora a interação com o cliente através de análise na cloud e AI

Com um negócio em rápido crescimento e uma força de trabalho incrivelmente dispersa, a 1-800-FLOWERS.COM recorreu à SAS® Viya®, alojada no Azure, para obter maior flexibilidade, e uma infraestrutura escalável. Para preparar os dados para análise a empresa começou por consolidar as suas bases de dados e alimentou-as através de um esquema de floco de neve (um armazém de dados sediado na cloud).

Os armazéns de dados no mundo atual

Ter um armazém de dados, por norma, é a diferença entre decisões informadas ou caos de dados. Aprenda como e porque é que os armazéns de dados, e tecnologias relacionadas, são utilizados atualmente.

Dados mais rápidos, recomendações personalizadas aceleradas

Para alguns volumes de trabalho, um armazém de dados e processos ETL são a melhor abordagem para obter recomendações personalizadas retiradas dos dados. Muitos negócios da atualidade utilizam este método, habitualmente a par de outras tecnologias – como a transmissão em fluxo, virtualização e catálogos de dados.

O que é uma plataforma de dados do cliente?

As plataformas de dados dos clientes (CDPs) estão relacionadas com os armazéns de dados. Recolhem dados dos próprios clientes de várias fontes, por exemplo, bases de dados transacionais, call centers e muito mais. Veja como funcionam e porque são importantes.

Data lake:
O que é? Qual a importância? Como funciona?

Um data lake consome dados rapidamente e proporciona aos tomadores de decisões acesso, exploração e visualização autónomos. É ideal para guardar dados não estruturados de big data, como publicações no X, imagens, vozes e transmissões em fluxo. Os data lakes são, corriqueiramente, uma fonte de dados para aplicações de aprendizagem automática.

O que é um catálogo de dados?

Procurar big data, num negócio, pode fazer com que desperdice o seu recurso mais valioso: tempo. Um catálogo de dados utiliza metadados e agiliza a pesquisa dos utilizadores na consulta da totalidade dos dados de uma organização.

Quem está a utilizar os armazéns de dados?

Banca

Os bancos utilizam armazéns de dados para a governança e para ajudar a garantir o cumprimento dos regulamentos. Na banca, há linhas de negócios diferentes, as quais criam múltiplos sistemas operativos que levam à dispersão e inconsistência dos dados. Além disso, as fusões e aquisições complicam este problema. Através de armazéns de dados os bancos podem aceder a dados de confiança e utilizá-los para relatórios e análises.

Indústria transformadora

Os fabricantes utilizam os armazéns de dados para aceder e integrar dados de várias fontes. Por exemplo, um armazém de dados, por norma, guarda dados de fabrico sobre a qualidade do produto, sendo estes recolhidos de várias fontes – tais como, call centers, sites de notícias, fóruns das redes sociais, ou pedidos de serviço.

Cuidados de saúde

As organizações de saúde precisam de um acesso seguro e padronizado aos dados, os quais são agregados de vários sistemas, tais como: clínicas, funcionários, pacientes e operações financeiras. Após analisarem estes dados de confiança podem ter um melhor posicionamento para otimizar operações e recursos, facultar cuidados coordenados e assegurar resultados de saúde excelentes para todos.

Sector público

Os governos gerem e armazenam todos os tipos de dados – quase sempre sensíveis – cruciais no sector público. Esta imensidão de dados é proveniente de cidadãos, comunidades, locais, agências regionais e nacionais, empresas que prestam serviços ao governo, entre outros. Um armazém de dados guarda todas estas informações em segurança, para as utilizar na elaboração de políticas e outras tomadas de decisão críticas.

Com tantos programas, chegámos rapidamente à conclusão de estarmos na situação de os dados estarem presos em silos. Para compreender melhor o que estávamos a fazer, enquanto instituição, precisávamos de encontrar uma forma mais eficiente de integrar e gerir múltiplas origens de dados em toda a empresa. Bonnie Chapman-Beers Director of Evaluation and Innovation Institute for Veterans & Military Families

Como funciona um armazém de dados?

Um armazém de dados começa nos dados em si, os quais são recolhidos e integrados, tanto de fontes externas como internas. Os utilizadores de negócios acedem a estes dados padronizados, que se encontram num armazém, para depois os utilizarem em relatórios e análises. As ferramentas de inteligência para negócios ajudam estas pessoas a explorar os dados, por forma a tomarem decisões de negócios bem informadas.

Habitualmente, os dados estão guardados num armazém de dados através de um processo de extrair, transformar e carregar (ETL). A informação é extraída da fonte, transformada em dados de alta qualidade e depois é carregada para o armazém. As empresas realizam este processo com regularidade para manterem os dados atualizados e preparados para o próximo passo.

Quando uma organização está pronta para utilizar os seus dados para  análise, ou relatórios, o foco passa dos armazéns de dados para as ferramentas de business intelligence (BI). As tecnologias de BI, como a visual analytics e exploração de dados, ajudam as organizações a compilar recomendações personalizadas dos seus dados de negócio. Para além disso, por outro lado, é importante compreender como a arquitetura dos armazéns de dados organiza os dados e como o modelo de execução de bases de dados otimiza as consultas – para que os programadores possam escrever aplicações de dados com um desempenho razoavelmente elevado.

Acrescentando a um armazém de dados tradicional e processo de ETL, várias organizações utilizam muitos outros métodos, ferramentas e técnicas para os seus volumes de trabalho. Por exemplo:

  • O pipeline de dados pode ser utilizado para preencher armazéns de dados na cloud, os quais podem ser totalmente geridos pela organização ou fornecedor da cloud.
  • Uma transmissão em fluxo de dados contínua pode ser guardada num armazém de dados na cloud.
  • Um catálogo de dados centralizado ajuda a entrelaçar os metadados, facilitando a tarefa de encontrar dados e rastrear a sua linhagem.
  • As ferramentas de automatização de armazéns de dados obtêm dados novos, com maior rapidez, para os armazéns.
  • As soluções de virtualização de dados criam armazéns de dados lógicos, para os utilizadores visualizarem os dados através das suas ferramentas de eleição.
  • O processamento analítico online (OLAP) é uma forma de representar dados que foram sumariados em visualizações multidimensionais e hierarquias. Quando utilizado a par de um processo ETL, permite aos utilizadores da empresa obter relatórios sem assistência por parte dos serviços de IT.
  • Um arquivo de dados operacionais (ODL) possui um subconjunto de dados quase em tempo real que são utilizados para relatórios operacionais ou notificações.

Porque é que os armazéns de dados são importantes?

As empresas de armazéns de dados são vitais, pois integram e guardam – numa base central e formato padronizado – todos os dados valiosos que as organizações utilizam para a tomada de decisões empresariais. Ao utilizá-los, as organizações evitam a imprevisibilidade da adoção de uma abordagem ad hoc, no que toca ao acesso e integração dos dados. Os armazéns de dados:

  • Mantêm o registo de dados históricos – podem guardar o equivalente a meses ou até anos de informações.
  • Mantêm os dados seguros ao armazená-los num único local onde só as pessoas que necessitam de dados específicos têm acesso aos mesmos.
  • Agilizam o acesso a dados de alta qualidade, que permitem tomadas de decisão de negócios mais rápidas e bem informadas.
  • Disponibilizam os big data para os relatórios básicos, e decisões de análise avançadas, como a aprendizagem automática e processamento de linguagem natural.

Fazendo a comparação: armazéns de dados, data mart e data lake

Armazém de dados

  • Propósito: armazenar grandes dados da empresa, onde são englobados vários assuntos e áreas do negócio.
  • Vantagens: é enorme; guarda vastas quantidades de dados.
  • Desvantagens: pode ser difícil de criar.
  • Resultado: os dados ficam estruturados e prontos a utilizar para análise ou relatórios.

Data mart

  • Propósito: guardam uma pequena quantidade de dados, por norma, abrange um único assunto que é trabalhado apenas por um departamento (como marketing ou vendas).
  • Vantagens: é mais rápido e fácil de criar do que um armazém de dados.
  • Desvantagens: tem uma memória limitada – por isso, não consegue guardar tanta informação quanto um armazém de dados.
  • Resultado: os dados ficam estruturados e prontos a extrair para análise ou relatórios.

Data lake

  • Propósito: guarda uma grande quantidade de dados não processados no seu formato de origem – é ideal para dados não estruturados como publicações do X, imagens, vozes, e dados de transmissão em fluxo.
  • Vantagens: ingere dados a uma grande velocidade e dá aos utilizadores de negócios capacidades de acesso, exploração e visualização autónomas.
  • Desvantagens: não oferece dados padronizados, sem duplicados, com verificação de qualidade, ou transformados.
  • Resultado: os dados ficam no seu formato de origem e podem ser utilizados de outra forma – múltiplas tags de metadados podem ser atribuídas aos mesmos dados.

SAS® Data Management

Os dados guardados num arquivo de dados não trazem valor a não ser que sejam bem geridos. Com a tecnologia de gestão de dados SAS, pode transformar big data em oportunidades, através da integração de dados, governança de dados, event stream processing e tecnologias de qualidade de dados.

Connect with SAS and see what we can do for you.