Data science
Teoria i praktyka
Data science to multidyscyplinarna dziedzina polegająca zasadniczo na wyciąganiu wniosków z danych. W przeciwieństwie do bardziej wyspecjalizowanych dziedzin związanych z danymi, takich jak eksploracja danych czy inżynieria danych, data science obejmuje cały cykl życia przekształcania nieprzetworzonych danych w użyteczne informacje i stosowania ich do celów praktycznych w szeregu różnych dziedzin.
Ewolucja data science
Aby prześledzić początki data science, wielu cofa się do 1962 roku, kiedy to matematyk John Tukey zarysował tę dyscyplinę w swoim przełomowym artykule pt. „The Future of Data Analysis” (Przyszłość analizy danych). Opisał w nim istnienie „nierozpoznanej nauki”, która obejmowała uczenie się z danych.
Warto jednak przyjrzeć się data science we współczesnym kontekście. Pojawienie się danych big data – możliwe za sprawą skokowego wzrostu możliwości przetwarzania i przechowywania danych – przyniosło organizacjom bezprecedensowe możliwości w zakresie wyszukiwania ukrytych wzorców w danych i wykorzystywania tych informacji do usprawniania procesu podejmowania decyzji. Jednak aby czerpanie tego typu korzyści było możliwe, należy najpierw takie dane zebrać, przetworzyć, przeanalizować i udostępnić. Zarządzanie cyklem życia danych ma kluczowe znaczenie w kontekście data science.
Data science jest dziś wszechobecne w świecie biznesu i nie tylko. Do tego stopnia, że Harvard Business Review okrzyknął tę dziedzinę „najseksowniejszą” ścieżką kariery w XXI wieku. Osobę zajmującą się tą dziedziną w praktyce nazywamy data scientist, natomiast data science obejmuje techniki i technologie.
Wdrażanie najlepszego modelu do produkcji
Jako globalny producent materiałów budowlanych USG musi wytwarzać produkty wysokiej jakości w przystępnych cenach. Aby osiągnąć powyższy cel, ten producent płyt gipsowo-kartonowych może wybierać optymalne receptury surowców i dostosowywać swój proces produkcyjny niemalże w czasie rzeczywistym – wszystko to jest możliwe dzięki wdrożeniu SAS® Model Manager.
Data science w dzisiejszym świecie
Poznaj współczesny świat data science
Magiczny kwadrant firmy Gartner dotyczący data science
Ciekawi Cię, jak wypadają różne platformy poświęcone data science? Zapoznaj się z raportem firmy Gartner pt. „Magic Quadrant for Data Science and Machine Learning Platforms”, aby porównać 20 najlepszych ofert.
Kto korzysta z data science?
Trudno byłoby znaleźć branżę, która nie wykorzystuje data science w swoich kluczowych działach biznesowych. Oto kilka najbardziej interesujących przykładów zastosowania tej dziedziny.
Rezultaty uzyskiwane dzięki data science
Aby zrozumieć wiele sposobów, w jakie data science może wpływać na organizacje, warto przeanalizować niektóre z typowych celów i rezultatów stosowania rozwiązań z tej dziedziny.
- Przewidywanie (kiedy zasób ulegnie awarii).
- Klasyfikacja (nowy czy obecny klient).
- Zalecenia (jeśli to Ci się podoba, spróbuj też tego).
- Wykrywanie anomalii (próby oszustw podczas zakupów).
- Rozpoznawanie (obraz, tekst, audio, wideo itp.).
- Praktyczne informacje (pulpity nawigacyjne, raporty, wizualizacje).
- Zautomatyzowane procesy i podejmowanie decyzji (zatwierdzanie wniosków o karty kredytowe).
- Ocena punktowa i ranking (punktowa ocena kredytowa).
- Segmentacja (marketing targetowany).
- Optymalizacja (usprawnienia produkcyjne).
- Prognozy (przewidywanie sprzedaży i przychodów).
Jeśli chcesz wzbogacić swoją wiedzę z zakresu data science, aby lepiej rozumieć proces wyboru i wdrażania modeli oraz zarządzania nimi, to najlepiej skorzystać z większej liczby szkoleń z zakresu AI i uczenia maszynowego. Ronald van Loon Principal Analyst CEO of Intelligent World
Złożona AI
Większość dzisiejszych projektów z zakresu AI opiera się na wielu technologiach z dziedziny data science. Według firmy Gartner stosowanie kombinacji różnych technik AI w celu osiągnięcia najlepszego wyniku nazywane jest złożoną AI.
Dzięki złożonej AI zaczynasz od problemu, a następnie stosujesz odpowiednie dane i narzędzia, aby go rozwiązać. Często obejmuje to wykorzystanie kombinacji technik data science, w tym uczenia maszynowego, statystyki, zaawansowanej analityki, eksploracji danych, prognozowania, optymalizacji, przetwarzania języka naturalnego, rozpoznawania obrazów itp.
Złożona AI jest coraz częściej utożsamiana z data science. Wynika to z faktu, że wybór odpowiedniej technologii AI nie zawsze jest prosty, ponieważ wymaga dogłębnego zrozumienia rozwiązywanego problemu biznesowego oraz dostępnych danych umożliwiających jego rozwiązanie. Takie połączenie wiedzy biznesowej i technologicznej jest istotą data science.
Na czym polega data science
Data science obejmuje wykorzystanie wielu narzędzi i technologii w celu uzyskania przydatnych informacji na podstawie ustrukturyzowanych i nieustrukturyzowanych danych. Oto niektóre z powszechnych praktyk stosowanych przez specjalistów data science z myślą o przekształcaniu nieprzetworzonych informacji w cenne biznesowo wnioski.
Zarządzanie danymi polega na zarządzaniu nimi w celu wykorzystania ich potencjału w organizacji. Skuteczne zarządzanie danymi wymaga posiadania strategii danych i niezawodnych metod dostępu, integracji, czyszczenia, administrowania, przechowywania i przygotowywania danych do analizy.
Uczenie maszynowe automatyzuje tworzenie modeli analitycznych. W przypadku nienadzorowanego uczenia maszynowego stosowane są metody z zakresu sieci neuronowych, statystyki, badań operacyjnych i fizyki, aby dokonywać ustaleń na podstawie danych pomimo braku kodu określającego, gdzie szukać lub jakie wnioski wyciągać.
Sieć neuronowa to rodzaj uczenia maszynowego inspirowanego działaniem ludzkiego mózgu. Jest to system obliczeniowy składający się z połączonych ze sobą jednostek (takich jak neurony), który przetwarza informacje, reagując na zewnętrzne dane wejściowe i przekazując informacje między poszczególnymi jednostkami.
Uczenie głębokie wykorzystuje ogromne sieci neuronowe złożone z wielu warstw jednostek przetwarzających, czerpiąc tym samym korzyści z postępów poczynionych w zakresie mocy obliczeniowej i ulepszonych technik szkoleniowych, aby uczyć się złożonych wzorców w obrębie dużych ilości danych. Typowe zastosowania obejmują rozpoznawanie obrazów i mowy.
Rozpoznawanie obrazów polega na identyfikowaniu obiektów na zdjęciach lub filmach poprzez wykorzystanie rozpoznawania wzorców i uczenia głębokiego. Gdy maszyny są w stanie przetwarzać, analizować i rozumieć obrazy, mogą je w czasie rzeczywistym przechwytywać i interpretować swoje otoczenie.
Przetwarzanie języka naturalnego to zdolność komputerów do analizowania, rozumienia i generowania ludzkiego języka, w tym mowy. Kolejnym etapem przetwarzania języka naturalnego są interakcje w języku naturalnym pozwalające ludziom komunikować się z komputerami za pomocą codziennego języka w celu wykonywania zadań.
Wizualizacja danych to ich prezentacja w formacie graficznym w celu ułatwienia analizy. Jest to szczególnie ważne dla organizacji, ponieważ umożliwia im podejmowanie decyzji biznesowych na podstawie wyników uzyskanych dzięki data science.
Popularne języki programowania stosowane w data science
Data scientists podobnie jak ludzie używają wielu różnych języków. Przy setkach dostępnych obecnie języków programowania wybór tego właściwego sprowadza się do ustalenia oczekiwanych rezultatów. Oto kilka najpopularniejszych języków programowania wykorzystywanych w data science.
Python jest interpretowanym, obiektowym językiem programowania wysokiego poziomu z dynamiczną semantyką. Wbudowane struktury danych wysokiego poziomu w połączeniu z dynamicznym typowaniem i dynamicznym wiązaniem czynią z niego bardzo atrakcyjne rozwiązanie do szybkiego tworzenia aplikacji, a także język skryptowy bądź swoiste spoiwo do łączenia istniejących komponentów.
R to otwarte środowisko programistyczne do obliczeń statystycznych i grafiki, wspierane przez R Foundation for Statistical Computing. Język R jest szeroko stosowany przez statystyków i eksploratorów danych do tworzenia oprogramowania statystycznego i analizy danych.
SQL jest językiem o wąskim zastosowaniu, tj. służącym do zarządzania danymi przechowywanymi w systemie zarządzania relacyjną bazą danych (RDBMS) lub do przetwarzania strumieniowego w systemie zarządzania relacyjnym strumieniem danych (RDSMS). Jest on szczególnie przydatny do obsługi danych strukturalnych, tj. danych obejmujących relacje między jednostkami i zmiennymi.
SAS to język programowania, któremu zaufały setki tysięcy data scientists na całym świecie. Platforma SAS Viya pozwala łączyć zalety każdego systemu technicznego i języka programowania w Twojej organizacji w celu opracowywania i wdrażania lepszych modeli analitycznych. Dowiedz się, jak SAS Viya może pomóc zastąpić chaotyczne modelowanie mądrzejszymi decyzjami biznesowymi.
Kierunki rozwoju
Jeśli chcesz poszerzyć swoją wiedzę z zakresu data science, SAS to właściwy adres.
Rozwiązania z zakresu data science
Produkty i usługi SAS Viya obejmują skuteczne zarządzanie danymi, wizualizację, zaawansowaną analizę i zarządzanie modelami – wszystko po to, by ułatwić realizację zadań z zakresu data science w każdej organizacji.
SAS Visual Data Mining and Machine Learning umożliwia rozwiązywanie najbardziej złożonych problemów analitycznych za pomocą pojedynczego, zintegrowanego, umożliwiającego współpracę rozwiązania – teraz z własnym zautomatyzowanym API do modelowania.
SAS Visual Analytics umożliwia szybkie przygotowywanie raportów w sposób interaktywny, eksplorowanie danych za pomocą wizualnych widoków i samoobsługowe przeprowadzanie analiz.
Te i inne rozwiązania są wspierane przez SAS Viya, wiodącą na rynku platformę data science oferowaną przez SAS, działającą w nowoczesnej, skalowalnej architekturze chmurowej.