Data science
Wat is het en waarom is het belangrijk
Data science is een multidisciplinair vakgebied dat in grote lijnen gaat over het gebruik van gegevens om inzicht te genereren. In tegenstelling tot meer gespecialiseerde datagerelateerde vakgebieden, zoals datamining of data-engineering, omvat data science de volledige levenscyclus van het vertalen van ruwe data naar bruikbare informatie en het toepassen ervan voor productieve doeleinden in een breed scala aan toepassingen.
De evolutie van data science
Velen beschouwen 1962 als het startpunt van data science. In dat jaar schreef wiskundige John Tukey de baanbrekende paper The Future of Data Analysis, waarin de basis werd gelegd voor de discipline van data science. Hij beschreef het bestaan van een 'niet-erkende wetenschap' die zich bezighield met het leren van gegevens.
Maar wij kijken naar het heden en onderzoeken hoe data science werkt in de moderne wereld. Met de opkomst van 'big data', mogelijk gemaakt door sprongen in verwerkings- en opslagmogelijkheden, kregen organisaties ongekende mogelijkheden om verborgen patronen in gegevens bloot te leggen. Het verkregen inzicht gebruikten ze weer om besluitvorming te verbeteren. Maar daarvoor moest men die gegevens eerst verzamelen, verwerken, analyseren en delen. En daarin ligt de essentie van data science: het managen van deze levenscyclus van gegevens.
Vandaag de dag is data science alomtegenwoordig in de zakelijke wereld, en daarbuiten. Het is zelfs zo dat Harvard Business Review de functie van data scientist de meest sexy job van de 21e eeuw noemde. Als data scientists de uitvoerders zijn, dan is data science de techniek en technologie.
Het beste model in productie nemen
Als wereldwijde producent van bouwmateriaal moet USG producten van hoge kwaliteit produceren tegen betaalbare prijzen. Door SAS® Model Manager in te zetten, kan de producent van gipskartonplaten de optimale samenstelling van grondstoffen uitzoeken en het productieproces in bijna-realtime aanpassen om dat doel te bereiken.
Data science in de wereld van vandaag
Welkom in de moderne wereld van data science.
Gartner's Magic Quadrant voor data science
Benieuwd hoe de verschillende data science-platforms zich tot elkaar verhouden? Op Gartner's Magic Quadrant-platforms voor data science en machine learning kun je de top 20 met elkaar vergelijken.
Wie gebruikt data science?
Het is lastig om een industrie te vinden waarin geen gebruik wordt gemaakt van data science in kritieke bedrijfsfuncties. Hier zijn enkele van de meest interessante use cases.
Data science resultaten
Om de vele manieren te begrijpen waarop data science van invloed kan zijn op een organisatie, is het handig om een aantal veelvoorkomende doelen en deliverables van data science onder de loep te nemen.
- Voorspelling (wanneer activa zal falen).
- Classificatie (nieuwe of bestaande klant).
- Aanbevelingen (als je dat leuk vindt, probeer dan dit).
- Anomaliedetectie (frauduleuze aankopen).
- Herkenning (afbeelding, tekst, audio, video, enz.).
- Bruikbare inzichten (dashboards, rapporten, visualisaties).
- Geautomatiseerde processen en besluitvorming (goedkeuring creditcard).
- Score geven en rangorde bepalen (kredietscore).
- Segmentatie (doelgerichte marketing).
- Optimalisatie (productieverbeteringen).
- Prognose (voorspellen van verkoop en omzet).
Wil je je data science-activiteiten versterken met een groter inzicht in het kiezen, inzetten en beheren van modellen? Verdiep je dan in AI- en ML-trainingen. Ronald van Loon Principal Analyst CEO of Intelligent World
Composite AI
Vandaag de dag vertrouwen de meeste AI-projecten op meerdere data science-technologieën. Composite AI wordt door Gartner gedefinieerd als een combinatie van verschillende AI-technieken om het beste resultaat te bereiken.
Met composite AI begin je met het probleem en vervolgens pas je de juiste gegevens en tools toe om het probleem op te lossen. Hiervoor is vaak een combinatie van data science-technieken nodig, waaronder ML, statistiek, geavanceerde analyse, datamining, voorspelling, optimalisatie, natuurlijke-taalverwerking, computer vision en andere technieken.
Composite AI kan alsmaar meer worden aanzien als synoniem voor data science, omdat het kiezen van de juiste AI-technologie niet altijd zo eenvoudig is. Het vereist een diep inzicht in het zakelijke probleem dat je probeert op te lossen en de beschikbare data om het op te lossen. Deze combinatie van zakelijke en technologische expertise is de essentie van data science.
Hoe data science werkt
Data science gebruikt verschillende tools en technologieën om betekenisvolle informatie af te leiden uit gestructureerde en ongestructureerde data. Hier zijn een paar van de meest voorkomende praktijken die door data scientists worden gebruikt om ruwe informatie te transformeren tot bedrijfsveranderende inzichten.
Data management is het beheren van gegevens om het potentieel ervan voor een organisatie te ontsluiten. Effectief gegevensbeheer vereist een datastrategie en betrouwbare methoden om toegang te krijgen tot gegevens en deze te integreren, op te schonen, te beheren, op te slaan en voor te bereiden voor analyse.
Machine learning automatiseert het bouwen van analysemodellen. Hiervoor worden methodes gebruikt van neurale netwerken, statistiek, operationeel onderzoek en natuurkunde om verborgen inzichten in data te herkennen, zonder expliciet te programmeren waar naar gezocht moet worden.
Een neuraal netwerk is een soort machine learning geïnspireerd op hoe het menselijk brein werkt. Het bestaat uit verschillende onderling verbonden units (zoals neuronen) die informatie verwerken door te reageren op externe input en informatie door te sturen naar elke andere unit.
Deep learning gebruikt enorme neurale netwerken met verschillende lagen van verwerkingsunits waarbij gebruik wordt gemaakt van geavanceerde rekenkracht en verbeterde technieken om complexe patronen in grote hoeveelheden data te leren herkennen. De meest bekende toepassingen zijn beeld- en spraakherkenning.
Computer vision is gebaseerd op patroonherkenning en deep learning om te herkennen wat er zich allemaal in afbeeldingen en video’s bevindt. Als machines afbeeldingen kunnen verwerken, analyseren en begrijpen, kunnen ze ook in real-time beeld- of videomateriaal vastleggen en de omgeving interpreteren.
Natural language processing (NLP) houdt in dat computers menselijke taal, inclusief spraak, kunnen analyseren, begrijpen en genereren. De volgende stap van NLP is natuurlijke taalinteractie. Hierbij kunnen mensen met computers communiceren met gebruik van alledaagse, normale taal om hen taken te laten uitvoeren.
Gegevensvisualisatie is de presentatie van gegevens in een picturaal of grafisch formaat zodat ze gemakkelijk kunnen worden geanalyseerd. Dit is vooral belangrijk om organisaties zakelijke beslissingen te laten nemen op basis van de output van data science-activiteiten.
Populaire programmeertalen voor data science
Net zoals mensen veel verschillende talen gebruiken, zo doen data scientists dat ook. En met de honderden programmeertalen die vandaag de dag beschikbaar zijn, kies je een geschikte taal op basis van wat je probeert te bereiken. Dit zijn enkele van de populairste data science-programmeertalen.
Python is een geïnterpreteerde, objectgeoriënteerde high-level programmeertaal met dynamische semantiek. De ingebouwde high-level gegevensstructuren, gecombineerd met dynamisch typing en dynamisch binding, maken het erg aantrekkelijk voor snelle applicatieontwikkeling, maar ook als script- of lijmtaal om bestaande componenten aan elkaar te koppelen.
R is een gratis softwarepakket en programmeertaal voor statistische berekeningen en afbeeldingen. Het wordt ondersteund door de R Foundation for Statistical Computing. De R-taal wordt veel gebruikt door statistici en dataminers voor het ontwikkelen van statistische software en gegevensanalyse.
SQL is een domeinspecifieke taal die wordt gebruikt bij het programmeren. Hij is ontworpen voor het beheren van gegevens in een relationeel databasebeheersysteem (RDBMS) of voor het verwerken van stromen in een relationeel datastreambeheersysteem (RDSMS). SQL is vooral handig bij het verwerken van gestructureerde gegevens waarin relaties tussen entiteiten en variabelen zijn opgenomen.
SAS is een programmeertaal die wordt vertrouwd door honderdduizenden data scientists wereldwijd. Met het SAS Viya-platform kun je de voordelen van elk technologiesysteem en elke programmeertaal in je organisatie combineren voor een betere ontwikkeling en implementatie van analytische modellen. Lees hoe SAS Viya kan bijdragen aan het omzetten van diverse modelleringen in intelligentere zakelijke beslissingen.
Oplossingen voor data science
Het aanbod en de capaciteiten van SAS Viya bestaan uit robuuste mogelijkheden voor gegevensbeheer, visualisatie, geavanceerde analyses en modelbeheer om data science in elke organisatie te versnellen.
Met SAS Visual Data Mining and Machine Learning kun je de meest complexe analytische problemen oplossen met een enkele geïntegreerde samenwerkingsoplossing die nu ook over een eigen geautomatiseerde modeling-API beschikt.
SAS Visual Analytics biedt je de middelen om rapporten snel en interactief op te stellen, je gegevens te verkennen via visuele weergaven en je analyses zelf uit te voeren.
Deze oplossingen en nog veel meer worden aangedreven door SAS Viya, het toonaangevende data science-platform van SAS dat draait op moderne, schaalbare, cloudgebaseerde architectuur.