Data science

Teoria i praktyka

Data science to multidyscyplinarna dziedzina polegająca zasadniczo na wyciąganiu wniosków z danych. W przeciwieństwie do bardziej wyspecjalizowanych dziedzin związanych z danymi, takich jak eksploracja danych czy inżynieria danych, data science obejmuje cały cykl życia przekształcania nieprzetworzonych danych w użyteczne informacje i stosowania ich do celów praktycznych w szeregu różnych dziedzin.

Ewolucja data science

Aby prześledzić początki data science, wielu cofa się do 1962 roku, kiedy to matematyk John Tukey zarysował tę dyscyplinę w swoim przełomowym artykule pt. „The Future of Data Analysis” (Przyszłość analizy danych). Opisał w nim istnienie „nierozpoznanej nauki”, która obejmowała uczenie się z danych.

Warto jednak przyjrzeć się data science we współczesnym kontekście. Pojawienie się danych big data – możliwe za sprawą skokowego wzrostu możliwości przetwarzania i przechowywania danych – przyniosło organizacjom bezprecedensowe możliwości w zakresie wyszukiwania ukrytych wzorców w danych i wykorzystywania tych informacji do usprawniania procesu podejmowania decyzji. Jednak aby czerpanie tego typu korzyści było możliwe, należy najpierw takie dane zebrać, przetworzyć, przeanalizować i udostępnić. Zarządzanie cyklem życia danych ma kluczowe znaczenie w kontekście data science.

Data science jest dziś wszechobecne w świecie biznesu i nie tylko. Do tego stopnia, że Harvard Business Review okrzyknął tę dziedzinę „najseksowniejszą” ścieżką kariery w XXI wieku. Osobę zajmującą się tą dziedziną w praktyce nazywamy data scientist, natomiast data science obejmuje techniki i technologie.

Przemysł

Wdrażanie najlepszego modelu do produkcji

Jako globalny producent materiałów budowlanych USG musi wytwarzać produkty wysokiej jakości w przystępnych cenach. Aby osiągnąć powyższy cel, ten producent płyt gipsowo-kartonowych może wybierać optymalne receptury surowców i dostosowywać swój proces produkcyjny niemalże w czasie rzeczywistym – wszystko to jest możliwe dzięki wdrożeniu SAS® Model Manager.

Data science w dzisiejszym świecie

Poznaj współczesny świat data science

Doświadcz data science

Poznaj rzeczywiste przykłady zastosowania data science dzięki filmom, artykułom i webinariom prowadzonym przez ekspertów data science.

Wprowadzaj innowacje analityczne za sprawą integracji SAS® z rozwiązaniami open source

Ten e-book zawiera wskazówki dotyczące wprowadzania innowacji w nowoczesnej organizacji poprzez integrację oprogramowania open source z SAS w kontekście data science.

Data science a sztuka perswazji

To podsumowanie webinarium Harvard Business Review opisuje, co zespoły data science muszą zrobić, aby osiągać większe sukcesy i doskonalić umiejętności, którymi data scientists powinni dysponować w celu poprawy swojej ogólnej skuteczności.

Centrum zasobów dotyczących data science

To centrum zasobów zawiera wszystko, czego potrzebujesz, aby ułatwić sobie poszerzanie wiedzy z zakresu data science. Znajdziesz tu filmy, artykuły, webinaria i inne materiały edukacyjne. Poruszone praktyczne tematy obejmują historie o danych, badania naukowe i porady pomocne podczas rozmowy kwalifikacyjnej dotyczącej stanowiska związanego z data science.

Magiczny kwadrant firmy Gartner dotyczący data science

Ciekawi Cię, jak wypadają różne platformy poświęcone data science? Zapoznaj się z raportem firmy Gartner pt. „Magic Quadrant for Data Science and Machine Learning Platforms”, aby porównać 20 najlepszych ofert.

Kto korzysta z data science?

Trudno byłoby znaleźć branżę, która nie wykorzystuje data science w swoich kluczowych działach biznesowych. Oto kilka najbardziej interesujących przykładów zastosowania tej dziedziny.

Opieka zdrowotna

Rosnące zapotrzebowanie na leczenie oparte na wartości i szybsze cykle odkrywania leków przyspieszyły wprowadzenie data science w opiece zdrowotnej. W samej tylko dziedzinie obrazowania medycznego AI i analityka pomagają obecnie zwiększyć dokładność diagnoz, wspomagają lekarzy i radiologów oraz usprawniają opiekę nad pacjentami.

Handel detaliczny

Aby konkurować z gigantami pokroju Amazona, sprzedawcy detaliczni muszą być w stanie szybko zaspokajać potrzeby klientów przy użyciu rozwiązań technicznych z zakresu data science, takich jak analityka predykcyjna. Może to pomóc w prognozowaniu zapotrzebowania, zarządzaniu zmiennym popytem i tworzeniu korelacji między trendami i relacjami w całym łańcuchu dostaw.

SEKTOR PUBLICZNY

Wraz ze wzrostem ilości i złożoności decyzji podejmowanych przez rządy agencje zaczynają korzystać z data science, aby zwiększyć dokładność, sprawiedliwość i szybkość procesu decyzyjnego. Przeczytaj, w jaki sposób rządy na całym świecie wykorzystują analitykę do podejmowania milionów ważnych decyzji każdego dnia.

Bankowość

Dla banków data science to coś więcej niż trend – to sposób prowadzenia działalności. Dzięki licznym rodzajom zastosowań, od wykrywania oszustw po customer intelligence i zarządzanie ryzykiem, data science jest obecnie siłą napędową krytycznych decyzji biznesowych oraz czynnikiem pozwalającym się wyróżnić w zatłoczonym świecie finansów.

Rezultaty uzyskiwane dzięki data science

Aby zrozumieć wiele sposobów, w jakie data science może wpływać na organizacje, warto przeanalizować niektóre z typowych celów i rezultatów stosowania rozwiązań z tej dziedziny. 

  • Przewidywanie (kiedy zasób ulegnie awarii).
  • Klasyfikacja (nowy czy obecny klient).
  • Zalecenia (jeśli to Ci się podoba, spróbuj też tego).
  • Wykrywanie anomalii (próby oszustw podczas zakupów).
  • Rozpoznawanie (obraz, tekst, audio, wideo itp.).
  • Praktyczne informacje (pulpity nawigacyjne, raporty, wizualizacje).
  • Zautomatyzowane procesy i podejmowanie decyzji (zatwierdzanie wniosków o karty kredytowe).
  • Ocena punktowa i ranking (punktowa ocena kredytowa).
  • Segmentacja (marketing targetowany).
  • Optymalizacja (usprawnienia produkcyjne).
  • Prognozy (przewidywanie sprzedaży i przychodów).

Jeśli chcesz wzbogacić swoją wiedzę z zakresu data science, aby lepiej rozumieć proces wyboru i wdrażania modeli oraz zarządzania nimi, to najlepiej skorzystać z większej liczby szkoleń z zakresu AI i uczenia maszynowego. Ronald van Loon Principal Analyst CEO of Intelligent World

Złożona AI

Większość dzisiejszych projektów z zakresu AI opiera się na wielu technologiach z dziedziny data science. Według firmy Gartner stosowanie kombinacji różnych technik AI w celu osiągnięcia najlepszego wyniku nazywane jest złożoną AI.

Dzięki złożonej AI zaczynasz od problemu, a następnie stosujesz odpowiednie dane i narzędzia, aby go rozwiązać. Często obejmuje to wykorzystanie kombinacji technik data science, w tym uczenia maszynowego, statystyki, zaawansowanej analityki, eksploracji danych, prognozowania, optymalizacji, przetwarzania języka naturalnego, rozpoznawania obrazów itp. 

Złożona AI jest coraz częściej utożsamiana z data science. Wynika to z faktu, że wybór odpowiedniej technologii AI nie zawsze jest prosty, ponieważ wymaga dogłębnego zrozumienia rozwiązywanego problemu biznesowego oraz dostępnych danych umożliwiających jego rozwiązanie. Takie połączenie wiedzy biznesowej i technologicznej jest istotą data science. 

Na czym polega data science

Data science obejmuje wykorzystanie wielu narzędzi i technologii w celu uzyskania przydatnych informacji na podstawie ustrukturyzowanych i nieustrukturyzowanych danych. Oto niektóre z powszechnych praktyk stosowanych przez specjalistów data science z myślą o przekształcaniu nieprzetworzonych informacji w cenne biznesowo wnioski.

Zarządzanie danymi  polega na zarządzaniu nimi w celu wykorzystania ich potencjału w organizacji. Skuteczne zarządzanie danymi wymaga posiadania strategii danych i niezawodnych metod dostępu, integracji, czyszczenia, administrowania, przechowywania i przygotowywania danych do analizy. 

Uczenie maszynowe automatyzuje tworzenie modeli analitycznych. W przypadku nienadzorowanego uczenia maszynowego stosowane są metody z zakresu sieci neuronowych, statystyki, badań operacyjnych i fizyki, aby dokonywać ustaleń na podstawie danych pomimo braku kodu określającego, gdzie szukać lub jakie wnioski wyciągać.

Sieć neuronowa to rodzaj uczenia maszynowego inspirowanego działaniem ludzkiego mózgu. Jest to system obliczeniowy składający się z połączonych ze sobą jednostek (takich jak neurony), który przetwarza informacje, reagując na zewnętrzne dane wejściowe i przekazując informacje między poszczególnymi jednostkami.

Uczenie głębokie wykorzystuje ogromne sieci neuronowe złożone z wielu warstw jednostek przetwarzających, czerpiąc tym samym korzyści z postępów poczynionych w zakresie mocy obliczeniowej i ulepszonych technik szkoleniowych, aby uczyć się złożonych wzorców w obrębie dużych ilości danych. Typowe zastosowania obejmują rozpoznawanie obrazów i mowy.

Rozpoznawanie obrazów polega na identyfikowaniu obiektów na zdjęciach lub filmach poprzez wykorzystanie rozpoznawania wzorców i uczenia głębokiego. Gdy maszyny są w stanie przetwarzać, analizować i rozumieć obrazy, mogą je w czasie rzeczywistym przechwytywać i interpretować swoje otoczenie.

Przetwarzanie języka naturalnego to zdolność komputerów do analizowania, rozumienia i generowania ludzkiego języka, w tym mowy. Kolejnym etapem przetwarzania języka naturalnego są interakcje w języku naturalnym pozwalające ludziom komunikować się z komputerami za pomocą codziennego języka w celu wykonywania zadań.

Wizualizacja danych to ich prezentacja w formacie graficznym w celu ułatwienia analizy. Jest to szczególnie ważne dla organizacji, ponieważ umożliwia im podejmowanie decyzji biznesowych na podstawie wyników uzyskanych dzięki data science. 

Popularne języki programowania stosowane w data science

Data scientists podobnie jak ludzie używają wielu różnych języków. Przy setkach dostępnych obecnie języków programowania wybór tego właściwego sprowadza się do ustalenia oczekiwanych rezultatów. Oto kilka najpopularniejszych języków programowania wykorzystywanych w data science. 

Python jest interpretowanym, obiektowym językiem programowania wysokiego poziomu z dynamiczną semantyką. Wbudowane struktury danych wysokiego poziomu w połączeniu z dynamicznym typowaniem i dynamicznym wiązaniem czynią z niego bardzo atrakcyjne rozwiązanie do szybkiego tworzenia aplikacji, a także język skryptowy bądź swoiste spoiwo do łączenia istniejących komponentów.

R to otwarte środowisko programistyczne do obliczeń statystycznych i grafiki, wspierane przez R Foundation for Statistical Computing. Język R jest szeroko stosowany przez statystyków i eksploratorów danych do tworzenia oprogramowania statystycznego i analizy danych.

SQL jest językiem o wąskim zastosowaniu, tj. służącym do zarządzania danymi przechowywanymi w systemie zarządzania relacyjną bazą danych (RDBMS) lub do przetwarzania strumieniowego w systemie zarządzania relacyjnym strumieniem danych (RDSMS). Jest on szczególnie przydatny do obsługi danych strukturalnych, tj. danych obejmujących relacje między jednostkami i zmiennymi.

SAS to język programowania, któremu zaufały setki tysięcy data scientists na całym świecie. Platforma SAS Viya pozwala łączyć zalety każdego systemu technicznego i języka programowania w Twojej organizacji w celu opracowywania i wdrażania lepszych modeli analitycznych. Dowiedz się, jak SAS Viya może pomóc zastąpić chaotyczne modelowanie mądrzejszymi decyzjami biznesowymi.

Kierunki rozwoju

Jeśli chcesz poszerzyć swoją wiedzę z zakresu data science, SAS to właściwy adres.

Rozwiązania z zakresu data science

Produkty i usługi SAS Viya obejmują skuteczne zarządzanie danymi, wizualizację, zaawansowaną analizę i zarządzanie modelami – wszystko po to, by ułatwić realizację zadań z zakresu data science w każdej organizacji.

SAS Visual Data Mining and Machine Learning umożliwia rozwiązywanie najbardziej złożonych problemów analitycznych za pomocą pojedynczego, zintegrowanego, umożliwiającego współpracę rozwiązania – teraz z własnym zautomatyzowanym API do modelowania.

SAS Visual Analytics umożliwia szybkie przygotowywanie raportów w sposób interaktywny, eksplorowanie danych za pomocą wizualnych widoków i samoobsługowe przeprowadzanie analiz.

Te i inne rozwiązania są wspierane przez SAS Viya, wiodącą na rynku platformę data science oferowaną przez SAS, działającą w nowoczesnej, skalowalnej architekturze chmurowej.