Wykresy na ekranie komputera

Zarządzanie danymi

Teoria i praktyka

Zarządzanie danymi polega na zarządzaniu nimi jako cennym zasobem w celu wykorzystania ich potencjału w organizacji. Aby zarządzać danymi w skuteczny sposób, trzeba dysponować strategią w zakresie danych oraz niezawodnymi metodami dostępu, integracji, czyszczenia, nadzoru, przechowywania i przygotowywania danych do celów AI i analizy.

Zarządzanie danymi w erze AI

Od kiedy firmy gromadzą dane, muszą nimi zarządzać – w przeciwnym razie zaczęłyby mieć do czynienia ze zjawiskiem typu „garbage in, garbage out” (śmieci na wejściu, śmieci na wyjściu). Bez właściwego zarządzania danymi nie ma szans na uzyskanie godnych zaufania, zgodnych z zasadami etyki i bezstronnych wyników. Jest to szczególnie ważne w przypadku sztucznej inteligencji i uczenia maszynowego oraz dużych modeli językowych (LLM), które trenowane są na ogromnych zbiorach danych umożliwiających później rozumienie i generowanie języka naturalnego.

Na czym polega nowoczesne zarządzanie danymi?

Nowoczesne zarządzanie danymi odbywa się w powiązaniu z AI i uczeniem maszynowym. W miarę rozwoju tego typu technologii zwiększa się zapotrzebowanie na dostęp do danych, ich wysoką jakość i nadzór nad nimi. Obejrzyj film, aby dowiedzieć się, jak nowoczesne metody zarządzania danymi wykorzystują nowe technologie i koncepcje takie jak DataOps czy AIOps. Wyjaśnimy, dlaczego technologie AI i uczenia maszynowego wymagają rzetelnych danych, by móc chronić organizacje przed ryzykiem, kosztami i utratą produktywności, szczególnie w przypadku silnie regulowanych branż, w których konieczne jest zachowanie zgodności z surowymi wymogami.

Historia zarządzania danymi

Niektórzy twierdzą, że potrzeba zarządzania danymi zaistniała po raz pierwszy w latach 90. XIX w., gdy zaczęto korzystać z mechanicznych kart dziurkowanych, na których zapisywano informacje (dane). Sama koncepcja zarządzania danymi nie była jednak szeroko omawiana aż do roku 1960, kiedy to Association of Data Processing Service Organizations (ADPSO), stowarzyszenie zrzeszające organizacje świadczące usługi w zakresie przetwarzania danych, zaczęło udzielać porad dotyczących zarządzania danymi profesjonalistom.

Systemy zarządzania danymi, z jakimi mamy do czynienia obecnie, zaczęły być powszechnie stosowane dopiero w 1970 r. Były to systemy ściśle operacyjne, które w określonym momencie dostarczały rekordów (raportów) dotyczących operacji biznesowych – rekordy te pochodziły z relacyjnej bazy danych, przechowującej informacje w wierszach i kolumnach (zwykle była to hurtownia danych). Do typowych procesów i technologii związanych z zarządzaniem danymi zaliczają się na przykład:

  • przetwarzanie wsadowe i narzędzia ETL (extract, transform, load)
  • strukturalny język zapytań (SQL) i systemy zarządzania relacyjnymi bazami danych (RDBMS)
  • bazy danych NoSQL i nierelacyjne bazy danych
  • korporacyjne hurtownie danych, jeziora danych i tkaniny danych
  • federacja i wirtualizacja danych
  • katalogi danych, zarządzanie metadanymi i pochodzenie danych
  • przetwarzanie w chmurze i przetwarzanie strumienia zdarzeń (strumieniowe przesyłanie danych).

Obecnie piony biznesowe i IT mogą ze sobą współpracować w celu optymalizacji sposobu zarządzania danymi przed ich wykorzystaniem przez AI czy generatywną AI (GenAI). Przykładem takiego podejścia jest współpraca pomiędzy inżynierami danych i analitykami a specjalistami data science w zakresie zarządzania danymi i wydobywania z nich wartości.

Silny nacisk na dane podstawą sukcesu – zarówno studentów, jak i uczelni

Podobnie jak wiele innych uczelni, University of North Texas (UNT) dysponował dużą ilością danych, ale czerpał z nich niewiele wiedzy. Przyczyną takiego stanu rzeczy były zasadnicze problemy dotyczące spójności danych i nadzoru nad nimi, a ponadto dane przechowywane były w silosach, co utrudniało ich globalną analizę. Dowiedz się, jak wdrożenie oprogramowania SAS do zarządzania danymi zrewolucjonizowało kwestię możliwości analitycznych UNT, skutkując lepszymi wynikami nauczania i przynosząc ogromne oszczędności.

Zarządzanie danymi w dzisiejszym świecie

Przejęcie kontroli nad danymi wymaga opanowania szeregu koncepcji, technologii i procesów z zakresu zarządzania danymi. Od ekspertów w dziedzinie danych dowiesz się, jak osiągnąć biegłość w tym względzie.

Przyszłość danych i AI

Dynamiczne innowacje takie jak AI wymagają wdrożenia solidnej strategii zarządzania jakością danych. Dowiedz się, jakie znaczenie w kontekście osiągnięć organizacji w zakresie AI ma jakość danych.

Od zarządzania danymi do AI

Za sprawą nowoczesnego podejścia do zarządzania danymi możesz zmaksymalizować wartość biznesową rozwiązań AI. Dowiedz się, jak pomóc organizacji ruszyć do przodu i przestać tracić czas na zadawanie pytań na temat danych.

Wartość danych syntetycznych

Dostęp do dużych, zróżnicowanych i autentycznych danych ma kluczowe znaczenie dla szkolenia solidnych modeli AI. Jednak uzyskanie tego rodzaju rzeczywistych danych może być trudne, biorąc pod uwagę rosnące obawy o prywatność, ograniczenia prawne oraz wysokie koszty ich pozyskiwania. Jak dane syntetyczne wypełniają tę lukę?

Generatywna AI a zarządzanie danymi

Narzędzia do zarządzania danymi stanowią niezbędny element procesu zasilania LLM danymi i podpowiedziami wysokiej jakości – mowa tu o danych, które można zaudytować i prześledzić. Dzięki zastosowaniu takich skutecznych środków ochrony danych jak minimalizacja, anonimizacja i szyfrowanie danych narzędzia te chronią prywatność użytkowników i zwiększają ich bezpieczeństwo.

Kto zarządza danymi?

Zarządzanie danymi umożliwia realizację szeregu procesów w odnoszących sukcesy organizacjach z przeróżnych branż. Większa ilość danych i łatwiejszy dostęp do narzędzi analitycznych pozwalają lepiej wykorzystać dostępne możliwości, zadać więcej pytań i rozwiązać więcej problemów. Dowiedz się, jak zarządzanie danymi pomaga globalnym branżom realizować cele.

Bankowość

Kwestie dotyczące prywatności danych, zgodności z przepisami oraz cyfryzacji sprawiają, że banki potrzebują godnych zaufania fundamentów obsługi danych bardziej niż kiedykolwiek wcześniej. Muszą one dysponować kompletnym i zintegrowanym obrazem posiadanych danych, a także solidnymi technikami w zakresie jakości, nadzoru i ochrony danych osobowych – tylko wówczas będą w stanie zdobyć zaufanie klientów i realizować przyszłościowe działania w zakresie transformacji cyfrowej.

Opieka zdrowotna

Korporacyjne zarządzanie danymi jest nieodzowne w opiece zdrowotnej. Branża ta korzysta z możliwości łączenia danych dostępnych w różnych formatach i pochodzących z różnych źródeł – w tym również danych zewnętrznych – przy jednoczesnym wychwytywaniu danych zduplikowanych, rozwiązywaniu problemów dotyczących jakości danych oraz przestrzeganiu surowych wymogów regulacyjnych i dotyczących zgodności w kwestii ochrony danych osobowych i prywatności.

Ubezpieczenia

Firmy ubezpieczeniowe operują ogromną ilością danych każdego dnia – mowa tu o danych pochodzących z wycen, polis, roszczeń i połączonych urządzeń IoT, a także otrzymanych od klientów. Tworzenie prawidłowych modeli aktuarialnych i podejmowanie uzasadnionych decyzji dotyczących cen, rezerw, wypłat i innych kwestii wymaga dysponowania odpowiednim potencjałem w zakresie zarządzania danymi, umożliwiającym ich właściwą integrację, czyszczenie i nadzór nad nimi.

Przemysł

Jeśli chodzi o branżę produkcyjną, nic nie decyduje o sukcesie bardziej niż jakość. Dzięki solidnym technologiom zarządzania danymi i zapewniania ich jakości firmy produkcyjne mogą skutecznie zarządzać zapasami produktów oraz dokonywać integracji danych ustrukturyzowanych i nieustrukturyzowanych pochodzących ze wszystkich możliwych źródeł, by na tej podstawie uzyskiwać całościowy obraz wydajności, stymulować lepsze wyniki i podejmować świadome decyzje biznesowe.

SEKTOR PUBLICZNY

Samorządy i władze centralne odpowiadają za szereg różnych usług i programów. Solidne technologie zarządzania danymi są tu bardzo pomocne, ponieważ zwalczają oszustwa i eliminują przypadki wypłat nienależnych świadczeń, dbają o bezpieczeństwo obywateli i o zdrowie całej populacji oraz wspierają rozwój gospodarczy i realizację inicjatyw w zakresie tworzenia inteligentnych miast.

Handel detaliczny

Umiejętność przyjęcia perspektywy klienta i odpowiednie reagowanie na jego oczekiwania wymaga dokładnego i aktualnego obrazu wszystkich danych, niezależnie od tego, czy mowa o przesyłaniu strumieniowym, czy też o przechowywaniu w chmurze, jeziorze danych lub hurtowni danych. Rzetelne zarządzanie danymi to element konieczny, jeśli chce się przejąć kontrolę nad danymi dotyczącymi handlu detalicznego – dotyczy to i marketingu, i merchandisingu, i sprzedaży.

Zarządzanie danymi potrzebuje AI i uczenia maszynowego tak samo jak AI i uczenie maszynowe potrzebują zarządzania danymi. Obecnie obie te sfery łączą się ze sobą, a dążenia ku skutecznym technologiom AI są nierozerwalnie związane z nowoczesnymi praktykami zarządzania danymi. Dan Soceanu Dan Soceanu Senior Product Manager for AI and Data Management, SAS

Na czym polega zarządzanie danymi

W miarę jak mnożą się ilości, rodzaje i źródła danych, zwiększa się potrzeba ich przetwarzania w czasie rzeczywistym. Co więcej, zarządzanie nimi w skuteczny sposób niezmiennie stanowi kluczowy element równania, którego wynikiem jest sukces biznesowy. Poznaj bliżej kilka najważniejszych technologii zarządzania danymi.


Rozszerzone zarządzanie danymi

To podejście wykorzystuje techniki sztucznej inteligencji lub uczenia maszynowego w celu realizacji takich procesów jak zapewnianie jakości danych, zarządzanie metadanymi czy samokonfiguracja i samodostrojenie integracji danych.

Poznaj przykładowe możliwości, jakie oferuje rozszerzone zarządzanie danymi:

Generowanie listy sugerowanych sposobów poprawy jakości danych – działania podejmowane na przestrzeni czasu będą w sposób ciągły przekładać się na poprawę wyników.

Profilowanie danych i automatyczne wyszukiwanie informacji osobistych, które można odpowiednio oznaczyć w celu wywarcia określonego wpływu na zachowania, np. udzielić dostępu do danych osobowych zawartych w tabeli wyłącznie wskazanym użytkownikom.

Sugerowanie przekształceń danych, a następnie sugerowanie udoskonaleń wprowadzanych z upływem czasu z wykorzystaniem uczenia maszynowego – można to zrobić przy użyciu silnika wykrywania (discovery engine), który analizuje dane i metadane.

Przedstawianie użytkownikom najbardziej zalecanych i alternatywnych działań w zakresie procesu przygotowania danych.

Więcej informacji na temat zarządzania danymi

Zarządzanie danymi na potrzeby AI i uczenia maszynowego (ML)

Wiele procesów opiera się na AI, czyli na nauce poświęconej trenowaniu systemów w taki sposób, by dzięki uczeniu się i automatyzacji potrafiły naśladować działania wykonywane przez ludzi. Techniki AI i ML są na przykład często wykorzystywane w procesach podejmowania decyzji kredytowych, w diagnostyce medycznej i na potrzeby tworzenia ofert handlowych. W świecie, w którym korzystamy z AI i ML, bardziej niż wcześniej potrzebne są właściwie zarządzane dane, które rozumiemy i którym ufamy. Dlaczego? Ponieważ jeśli algorytmy adaptujące się na podstawie tego, czego się nauczą, zasilimy danymi złej jakości, szybko może dojść do mnożenia się błędów.

Zarządzanie danymi na potrzeby IoT

Dane pochodzące z czujników umieszczonych w urządzeniach IoT nazywamy często danymi strumieniowymi. Strumieniowe przesyłanie danych, inaczej przetwarzanie strumienia zdarzeń, polega na dynamicznej analizie danych w czasie rzeczywistym. Analiza ta obejmuje logiczne uporządkowanie danych, rozpoznanie występujących w nich wzorców i przefiltrowanie ich pod kątem różnych zastosowań w miarę ich napływu do organizacji. Wśród popularnych przykładów użycia tego typu technik można wymienić wykrywanie oszustw, monitorowanie sieci, e-commerce czy zarządzanie ryzykiem.

Dwukierunkowe zarządzanie metadanymi

Dwukierunkowe zarządzanie metadanymi polega na przesyłaniu danych pomiędzy różnymi systemami i łączeniu ich. Warto w tym miejscu wspomnieć, że SAS jest częścią społeczności OpenMetadata i uczestniczy w realizacji projektu OPDi Egeria, który uwypukla potrzebę promowania w standardach postępowania z metadanymi odpowiedzialnej wymiany danych pomiędzy różnorodnymi środowiskami technologicznymi.

Data fabric i warstwa semantyczna

Terminem data fabric określamy zróżnicowane środowisko danych organizacji, w których przy użyciu szeregu metod zarządzane, przetwarzane, przechowywane i analizowane są ogromne ilości danych różnego rodzaju. Istotną rolę w data fabric pełni warstwa semantyczna. Podobnie jak glosariusz biznesowy, warstwa semantyczna pozwala łączyć dane z powszechnie zdefiniowanymi terminami biznesowymi stosowanymi w obrębie organizacji.

Zarządzanie danymi a rozwiązania open source

O open source mówimy w przypadku programu komputerowego lub infrastruktury, których kod źródłowy jest publicznie dostępny i może być modyfikowany przez użytkowników. Korzystanie z rozwiązań open source może przyspieszyć proces programowania i obniżyć koszty, a dla specjalistów ds. danych wiązać się z wygodą pracy w preferowanym przez nich języku i środowisku programowania.

Federacja/Wirtualizacja danych

Federacja danych stanowi szczególny rodzaj wirtualnej integracji danych, w ramach której dane pochodzące z różnych źródeł są prezentowane łącznie bez konieczności przenoszenia i przechowywania takiego połączonego widoku w innym miejscu, a to z kolei daje Ci dostęp do połączonych danych w dowolnym momencie. W odróżnieniu od narzędzi ETL i ELT, które prezentują określony wycinek pochodzący ze wskazanego miejsca w czasie, federacja danych generuje wyniki na podstawie tego, jak źródła danych wyglądają w chwili przesłania żądania, dzięki czemu uzyskane informacje są bardziej aktualne i dokładniejsze.


Kierunki rozwoju

Rozwiązania z zakresu zarządzania danymi

Korzystanie z danych godnych zaufania sprawia, że godne zaufania stają się również AI i narzędzia analityczne, co w efekcie przekłada się na pozytywne efekty niezależnie od tego, o jakiej firmie mowa. Nasze rozwiązania służące do zarządzania danymi obejmują wszystkie potrzebne funkcje umożliwiające dostęp do danych, ich integrację, czyszczenie, sprawowanie nadzoru nad nimi oraz ich przygotowanie do celów analizy – w tym również zaawansowane technologie analityczne takie jak sztuczna inteligencja czy uczenie maszynowe.

SAS® Viya®: wydajność, produktywność i zaufanie

SAS Viya – platforma do obsługi danych i AI w całej firmie – pomaga uzyskać dostęp do danych, zarządzać nimi i sprawować nad nimi nadzór w celu zapewnienia ich poprawności i wysokiej jakości oraz przygotowania do analizy.