Big data
Teoria i praktyka
Big data to duże ilości danych – zarówno ustrukturyzowanych, jak i nieustrukturyzowanych – którymi trudno się zarządza i które zalewają firmy każdego dnia. Ważne jest tu jednak nie tylko to, o jakim rodzaju i jakiej ilości danych mowa, ale i to, co organizacje z takimi danymi robią. Big data można poddawać analizie w celu zdobycia wiedzy służącej podejmowaniu lepszych decyzji i zyskania pewności co do trafności strategicznych posunięć biznesowych.
Historia big data
Big data to dane, których jest tak dużo, zmieniają się w tak szybkim tempie i cechują się tak ogromnym stopniem złożoności, że trudno je przetwarzać przy użyciu tradycyjnych metod (a nawet może to być niemożliwe). Czynność polegająca na uzyskiwaniu dostępu do dużych ilości informacji służących do celów analitycznych i na przechowywaniu ich jest nam znana nie od dziś, niemniej sama koncepcja big data zyskała na znaczeniu na początku XXI w., gdy analityk Doug Laney ukuł popularną obecnie definicję big data, opierając ją na trzech V:
Ilość (Volume). Organizacje mogą gromadzić dane z różnych źródeł, np. z transakcji, urządzeń (IoT), sprzętu przemysłowego, filmów, obrazów, dźwięku, mediów społecznościowych i nie tylko. W przeszłości przechowywanie wszystkich tych danych byłoby zbyt kosztowne – na szczęście pojawiły się tańsze rozwiązania, takie jak jeziora danych, platforma Hadoop czy chmura.
Prędkość (Velocity). Wraz z rozwojem internetu rzeczy (IoT) dane napływają do firm w niespotykanym dotąd tempie i muszą być odpowiednio szybko przetwarzane. Znaczniki RFID, czujniki i inteligentne mierniki to jedne z głównych czynników motywujących do tego, by ów potok danych przetwarzać w czasie zbliżonym do rzeczywistego.
Różnorodność (Variety). Dane mogą przyjmować przeróżne formy – od ustrukturyzowanych danych liczbowych przechowywanych w tradycyjnych bazach danych po nieustrukturyzowane dokumenty tekstowe, e-maile, filmy, nagrania audio, dane giełdowe i transakcje finansowe.
W SAS wyróżniamy dwa dodatkowe wymiary postrzegania big data. Są to:
Zmienność (Variability)
Oprócz tego, że dane są coraz bardziej zróżnicowane i że przetwarzamy je w coraz szybszym tempie, ich przepływy są nieprzewidywalne – często się zmieniają i w ogromnym stopniu różnią. Choć nie jest to łatwe, firmy muszą wiedzieć, kiedy dany trend zyskuje na popularności w mediach społecznościowych i jak zarządzać szczytowymi obciążeniami danymi występującymi na co dzień, sezonowo i w związku z określonymi wydarzeniami.
Prawdziwość (Veracity)
Prawdziwość dotyczy jakości danych. Ponieważ dane pochodzą z różnych źródeł, trudno je łączyć, dopasowywać, czyścić i przekształcać w obrębie oddzielnych systemów. Firmy muszą być w stanie łączyć i zestawiać zależności, hierarchie i liczne powiązania danych – w przeciwnym razie mogą szybko stracić kontrolę nad danymi, którymi dysponują.
Big data i analityka umożliwiają świadczenie kompleksowych usług dla ludności
Hrabstwo Riverside korzysta z oferowanych przez SAS rozwiązań w zakresie zarządzania danymi i analityki w celu integracji danych medycznych i niemedycznych pochodzących ze szpitala publicznego, systemu ochrony zdrowia behawioralnego, więzienia okręgowego, systemów opieki społecznej i systemów wsparcia w kryzysie bezdomności. Dzięki zrozumieniu sposobu, w jaki ludzie wchodzą w interakcje z różnymi usługami, możemy prześledzić przełożenie ścieżek korzystania z opieki na wyniki leczenia i w efekcie stworzyć skoordynowany system kompleksowych usług dla ludności.
Dlaczego dane big data są ważne?
Znaczenie big data nie dotyczy wyłącznie ilości posiadanych danych – ich wartość zależy od sposobu, w jaki są wykorzystywane. Analiza danych pochodzących z dowolnego źródła może przynieść odpowiedzi, które pozwolą: 1) usprawnić zarządzanie zasobami, 2) zwiększyć wydajność operacyjną, 3) zoptymalizować proces opracowywania produktów, 4) znaleźć nowe źródła przychodów i nowe możliwości rozwoju oraz 5) podejmować inteligentne decyzje. Połączenie big data z wysoko wydajną analityką umożliwia realizację zadań biznesowych takich jak:
- określanie przyczyn awarii, problemów i wad w czasie zbliżonym do rzeczywistego
- wykrywanie anomalii skuteczniej i szybciej niż potrafiłby to zrobić człowiek
- poprawa wyników leczenia dzięki szybkiemu przekształceniu medycznych danych obrazowych w szczegółowe informacje
- rekalkulacja całych portfeli ryzyka w ciągu kilku minut
- zwiększanie skuteczności działania modeli głębokiego uczenia w zakresie trafnej klasyfikacji i reagowania na zmieniające się czynniki
- wykrywanie oszukańczych zachowań, zanim negatywnie wpłyną na Twoją organizację.
Dane big data w dzisiejszym świecie
Big data – a także sposób, w jaki organizacje zarządzają nimi i czerpią z nich wiedzę – wpływają na to, jak świat wykorzystuje informacje biznesowe. Dowiedz się więcej na temat wpływu wywieranego przez big data.
Czym zajmują się specjaliści ds. danych?
Kim są specjaliści ds. danych? Data scientists analizują dane i szukają zawartych w nich informacji, inżynierowie ds. danych tworzą potoki skupiające się na DataOps, a inspektorzy ds. danych dbają o to, by były one rzetelne i by zarządzano nimi w odpowiedzialny sposób. Osoby pełniące poszczególne role powinny działać w synergii, ponieważ takie podejście wpływa korzystnie na proces analityczny.
Czym jest jezioro danych i jaką pełni rolę?
W przeciwieństwie do swojej starszej kuzynki – hurtowni danych – jezioro danych idealnie nadaje się do przechowywania nieustrukturyzowanych zbiorów big data, takich jak tweety, obrazy, głos czy dane strumieniowe. Powyższe to jedynie przykłady, bo tak naprawdę w jeziorze danych można przechowywać dane dowolnego rodzaju, bez względu na ich źródło, rozmiar, prędkość czy strukturę.
Big data i chmura
Projekty, w ramach których wykorzystuje się big data, wymagają bardzo dużych zasobów, jeśli chodzi o przetwarzanie danych i ich przechowywanie. Jednoczesne stosowanie technologii big data i przetwarzania w chmurze stanowi opłacalną metodę postępowania ze wszystkimi rodzajami danych oraz skuteczne połączenie zwinności i elastyczności.
Who's focusing on big data?
Big data is a big deal for industries. The onslaught of IoT and other connected devices has created a massive uptick in the amount of information organizations collect, manage and analyze. Along with big data comes the potential to unlock big insights – for every industry, large to small.
- Select an industry
- Retail
- Manufacturing
- Banking
- Health Care
- Education
- Small and Midsize Businesses
- Government
- Insurance
Retail
Customer relationship building is critical to the retail industry – and the best way to manage that is to manage big data. Retailers need to know the best way to market to customers, the most effective way to handle transactions, and the most strategic way to bring back lapsed business. Big data remains at the heart of all those things.
Manufacturing
Armed with insight that big data can provide, manufacturers can boost quality and output while minimizing waste – processes that are key in today’s highly competitive market. More and more manufacturers are working in an analytics-based culture, which means they can solve problems faster and make more agile business decisions.
Banking
With large amounts of information streaming in from countless sources, banks are faced with finding new and innovative ways to manage big data. While it’s important to understand customers and boost their satisfaction, it’s equally important to minimize risk and fraud while maintaining regulatory compliance. Big data brings big insights, but it also requires financial institutions to stay one step ahead of the game with advanced analytics.
Health Care
Patient records. Treatment plans. Prescription information. When it comes to health care, everything needs to be done quickly, accurately – and, in some cases, with enough transparency to satisfy stringent industry regulations. When big data is managed effectively, health care providers can uncover hidden insights that improve patient care.
Education
Educators armed with data-driven insight can make a significant impact on school systems, students and curriculums. By analyzing big data, they can identify at-risk students, make sure students are making adequate progress, and can implement a better system for evaluation and support of teachers and principals.
Small and Midsize Businesses
Between the ease of collecting big data and the increasingly affordable options for managing, storing and analyzing data, SMBs have a better chance than ever of competing with their bigger counterparts. SMBs can use big data with analytics to lower costs, boost productivity, build stronger customer relationships, and minimize risk and fraud.
Government
When government agencies are able to harness and apply analytics to their big data, they gain significant ground when it comes to managing utilities, running agencies, dealing with traffic congestion or preventing crime. But while there are many advantages to big data, governments must also address issues of transparency and privacy.
Insurance
Telematics, sensor data, weather data, drone and aerial image data – insurers are swamped with an influx of big data. Combining big data with analytics provides new insights that can drive digital transformation. For example, big data helps insurers better assess risk, create new pricing policies, make highly personalized offers and be more proactive about loss prevention.
Uczenie głębokie potrzebuje big data, ponieważ dane tego typu pozwalają wyodrębnić ukryte wzorce i znaleźć odpowiedzi bez nadmiernego dopasowywania danych. Im wyższa jakość posiadanych danych, tym lepsze rezultaty głębokiego uczenia.
Innowacje oparte na danych
Eksabajty big data stanowią dziś źródło niezliczonych możliwości zdobywania wiedzy stymulującej wprowadzanie innowacji. Od dokładniejszego prognozowania po zwiększoną wydajność operacyjną i lepsze doświadczenie klienta – zaawansowane metody korzystania z big data i analityki napędzają postęp i w efekcie zmieniają nasz świat, np. poprawiając jakość życia, lecząc choroby, otaczając opieką słabszych i chroniąc zasoby.
Jak działają dane big data
Zanim firma zacznie czerpać korzyści z big data, powinna przyjrzeć się temu, jak wygląda ich przepływ między różnymi lokalizacjami, źródłami, systemami, właścicielami i użytkownikami. Wyróżniamy pięć głównych kroków, które trzeba wykonać, aby móc kontrolować tę „tkaninę big data”, stworzoną z połączenia ustrukturyzowanych danych tradycyjnych, danych nieustrukturyzowanych i częściowo ustrukturyzowanych.
- Opracowanie strategii w zakresie big data.
- Określenie źródeł big data.
- Uzyskanie dostępu do danych, zarządzanie nimi i ich przechowywanie.
- Analiza danych.
- Podejmowanie inteligentnych decyzji opartych na danych.
1) Opracowanie strategii w zakresie big data
Strategia w zakresie big data to w ogólnym ujęciu plan, który ma na celu pomóc Ci nadzorować i udoskonalać sposób, w jaki uzyskujesz dane, przechowujesz je, zarządzasz nimi, udostępniasz je i z nich korzystasz zarówno w obrębie organizacji, jak i poza nią. Taka strategia tworzy fundament, na którym w środowisku pełnym danych można budować sukces biznesowy. Tworząc strategię, należy wziąć pod uwagę zarówno istniejące, jak i przyszłe cele i inicjatywy biznesowe oraz technologiczne. To oznacza, że dane big data powinno się traktować tak samo jak inne cenne zasoby biznesowe, a nie jako produkt uboczny aplikacji.
2) Określenie źródeł big data
- Dane strumieniowe pochodzą z internetu rzeczy (IoT) i innych urządzeń połączonych. Są to dane, które napływają do systemów IT z urządzeń ubieralnych, samochodów inteligentnych, urządzeń medycznych, sprzętu przemysłowego i innych źródeł. Te dane big data możesz poddawać analizie w miarę jak się pojawiają i decydować, które z nich zachować, a które nie, oraz które wymagają dalszej analizy.
- Dane pochodzące z mediów społecznościowych są generowane w ramach interakcji na Facebooku, w serwisie YouTube, na Instagramie itp. W ten sposób powstają ogromne ilości big data w formie obrazów, filmów, głosu, tekstu i dźwięku, wykorzystywane przez zespoły zajmujące się marketingiem, sprzedażą i zapewnianiem wsparcia. Dane te często są nieustrukturyzowane lub częściowo ustrukturyzowane, przez co stanowią szczególnego rodzaju wyzwanie w kontekście użytkowania i analizy.
- Dane publicznie dostępne pochodzą z ogromnej liczby otwartych źródeł danych, takich jak amerykański rządowy portal data.gov, publikacja The World Factbook przygotowywana przez CIA czy Portal Otwartych Danych UE.
- Inne rodzaje big data mogą pochodzić z jezior danych (data lakes) bądź chmurowych źródeł danych lub od dostawców i klientów.
3) Uzyskanie dostępu do danych big data, zarządzanie nimi i ich przechowywanie.
Nowoczesne systemy informatyczne cechują się prędkością, mocą i elastycznością niezbędnymi, by w krótkim czasie uzyskać dostęp do ogromnych ilości i rodzajów big data. Oprócz niezawodnego dostępu firmy potrzebują również metod integracji danych, tworzenia potoków danych, zapewniania jakości danych, sprawowania nadzoru nad danymi, ich przechowywania i przygotowywania do analizy. Niektóre rodzaje big data mogą być przechowywane w tradycyjnej hurtowni danych znajdującej się w siedzibie firmy, ale istnieją również elastyczne i tanie opcje ich przechowywania i przetwarzania z wykorzystaniem rozwiązań chmurowych, jezior danych, potoków danych czy platformy Hadoop.
4) Analiza danych
Dzięki wysoko wydajnym technologiom, takim jak przetwarzanie sieciowe czy analiza danych w pamięci, organizacje mogą decydować się na objęcie analizą całości posiadanych big data. Mogą też określić z góry, przed przystąpieniem do analizy, które dane są istotne. Bez względu na przyjęte podejście analiza big data pozwala firmom uzyskać wartość i wiedzę z danych. Dane big data są coraz częściej wykorzystywane na potrzeby realizowanych obecnie zaawansowanych przedsięwzięć analitycznych, takich jak sztuczna inteligencja (AI) czy uczenie maszynowe.
5) Podejmowanie inteligentnych decyzji opartych na danych.
Odpowiednio zarządzane, rzetelne dane umożliwiają prowadzenie solidnych analiz i pozwalają podejmować trafne decyzje. Aby zachować konkurencyjność, firmy muszą w pełni wykorzystywać możliwości oferowane przez big data oraz działać w oparciu o dane, czyli nie kierować się instynktem, lecz podejmować decyzje na podstawie informacji zawartych w big data. Korzyści płynące z takiego podejścia są bezdyskusyjne – organizacje działające w oparciu o dane osiągają lepsze wyniki i są bardziej przewidywalne pod względem operacyjnym, a ich rentowność jest wyższa.
Kierunki rozwoju
Aby wysiłki analityczne i programy AI mogły przełożyć się na znaczące szanse, big data wymaga stosowania zaawansowanych technologii zarządzania danymi. I właśnie tu z pomocą przychodzi SAS.
SAS® Information Governance
Bez względu na źródło danych, miejsce ich przechowywania oraz to, jak liczne lub złożone są, SAS Information Governance pozwala użytkownikom szybciej i łatwiej znajdować, katalogować i chronić te dane big data, które są najbardziej cenne z punktu widzenia analizy. Wyniki wyszukiwania zorientowane na metadane zawierają szczegółowe informacje na temat poszczególnych zasobów danych. Dzięki temu użytkownicy mogą ocenić przydatność danych do określonego celu przy mniejszej potrzebie wsparcia ze strony IT, unikając jednocześnie konieczności podejmowania ponownych działań i dokonując bardziej świadomych wyborów.
Dowiedz się więcej na temat oprogramowania SAS Information Governance
Zalecane lektury
- Artykuł Modern manufacturing's triple play: Digital twins, analytics & IoT IoT-powered digital twins revolutionize manufacturing with real-time data analysis, predictive maintenance and optimized production. Discover their transformational impact.
- Artykuł IT/OT convergence: The dilemma of the IoT perception gapTom Bradicich explains why IT/OT convergence is essential for successful IoT projects.
- Artykuł Hadoop survey results reveal use cases, needs and trendsHow are companies using Hadoop? Why are adoption rates still low? And why is it so important? Data professionals’ candid answers may surprise you.