Data Science
Hvad det er, og hvorfor det er vigtigt
Data science er et tværfagligt felt, der bredt beskriver brugen af data til at generere indsigt. I modsætning til mere specialiserede datarelaterede områder, såsom datamining eller datateknik, omfatter data science hele livscyklussen med at omsætte rådata til brugbar information og anvende den til produktive formål i en lang række applikationer.
Udviklingen af data science
Når man skal spore datavidenskabens oprindelse, tænker mange tilbage til 1962, hvor matematikeren John Tukey antydede disciplinen i sin skelsættende artikel The Future of Data Analysis. Her beskrev han eksistensen af en "ikke-anerkendt videnskab", som handlede om at drage lære af data.
Det er dog mere nyttigt at undersøge datavidenskab i den moderne verden. Fremkomsten af big data - muliggjort af fremskridt i behandlings- og lagringskapacitet - har givet organisationer hidtil usete muligheder for at afsløre skjulte mønstre i data og bruge denne indsigt til at forbedre beslutningstagningen. Men for at gøre det skal de først indsamle, behandle, analysere og dele deres datasæt. Håndtering af denne datalivscyklus er essensen af datavidenskab.
I dag er datavidenskab allestedsnærværende i erhvervslivet - og mere til. Så meget, at Harvard Business Review kaldte 'data scientist' for det mest sexede job i det 21. århundrede. Hvis data scientists er udøverne, er data science teknikkerne og teknologierne bag.
Data science i dag
Få et indblik i den moderne verden af data science.
Hvem anvender data science?
Det er svært at finde en branche, der ikke bruger data science i kritiske forretningsfunktioner. Her er et par af de mest interessante brugsscenarier.
At bygge bro over kompetencekløften inden for data science
Efterspørgslen efter avancerede analytiske færdigheder er skudt i vejret, og landene kæmper for at bygge bro over talentkløften. Ved at bruge SAS® Education Analytical Suite og SAS® Viya® tilbyder North-West University en innovativ uddannelse i data science. Det forandrer Sydafrikas arbejdsstyrke ved at hjælpe de studerende med at få vigtig førstehåndserfaring med problemformulering, forretningsetikette og -skrivning samt værdilevering.
Resultater af data science
For at forstå de mange måder, data science kan påvirke en organisation på, er det nyttigt at undersøge nogle af de almindelige data science-mål og -resultater.
- Forudsigelse (hvornår et aktiv vil svigte).
- Klassificering (ny eller eksisterende kunde).
- Anbefalinger (hvis du kan lide det, så prøv det her).
- Registrering af anomalier (svigagtige køb).
- Genkendelse (billede, tekst, lyd, video osv.).
- Praktisk indsigt (dashboards, rapporter, visualiseringer).
- Automatiserede processer og beslutningstagning (godkendelse af kreditkort).
- Scoring og rangering (kreditscore).
- Segmentering (målrettet markedsføring).
- Optimering (forbedringer i produktionen).
- Prognoser (forudsigelse af salg og indtægter).
Hvis du ønsker at udvide dit arbejde med data science og få en bedre forståelse for valg, implementering og styring af modeller, er det ideelt at gå på opdagelse i mere uddannelse inden for AI og ML. Ronald van Loon Chefanalytiker, CEO for Intelligent World
Composite AI
De fleste AI-projekter i dag er afhængige af forskellige data science-teknologier. Ifølge Gartner kaldes det at bruge en kombination af forskellige AI-teknikker for at opnå det bedste resultat for "composite AI".
Med composite AI starter man med problemet og anvender derefter de rigtige data og værktøjer til at løse problemet. Dette omfatter ofte en kombination af data science-teknikker, herunder ML, statistik, avanceret analyse, datamining, forecasting, optimering, naturlig sprogbehandling, computersyn og andre.
Composite AI er i stigende grad synonymt med data science. Det skyldes, at det ikke altid er ligetil at vælge den rigtige AI-teknologi. Det kræver en dyb forståelse af det forretningsproblem, du forsøger at løse, og de data, der er til rådighed for at løse det. Denne kombination af forretnings- og teknologiekspertise er essensen af data science.
Hvordan data science fungerer - og data science-værktøjer
Data science-projekter involverer brug af flere værktøjer og teknologier til at udlede meningsfuld information fra strukturerede og ustrukturerede data. Her er nogle af de almindelige fremgangsmåder, som data scientists bruger som en del af processen med data science for at omdanne rå information til forretningsændrende indsigt.
Computersyn bygger på mønstergenkendelse og deep learning til at genkende, hvad der er på et billede eller i en video. Når maskiner kan behandle, analysere og forstå billeder, kan de optage billeder eller videoer i realtid og fortolke deres omgivelser.
Datastyring er praksis med at styre data for at frigøre deres potentiale for en organisation. Effektiv datahåndtering kræver en datastrategi og pålidelige metoder til at få adgang til, integrere, rense, styre, lagre og forberede data til analyse.
Datavisualisering er præsentationen af data i et billedligt eller grafisk format, så de let kan forstås af forretningsanalytikere og andre. Datavisualiseringer er især vigtige for at hjælpe organisationer med at analysere store mængder data og træffe forretningsbeslutninger baseret på resultaterne.
Deep learning bruger store neurale netværk med mange lag af behandlingsenheder, der udnytter fremskridt inden for computerkraft og forbedrede træningsteknikker til at lære komplekse mønstre i store datamængder. Almindelige anvendelser omfatter billed- og talegenkendelse.
Maskinlæring - en gren af kunstig intelligens - automatiserer opbygningen af analytiske modeller. Med uovervågede maskinlæringsmodeller bruger teknologien metoder fra neurale netværk, statistik, operationsforskning og fysik til at finde skjulte indsigter i data uden at være eksplicit programmeret til, hvor man skal lede, eller hvad man skal konkludere.
Naturlig sprogbehandling er computeres evne til at analysere, forstå og generere menneskeligt sprog, herunder tale. Den næste fase af NLP er naturlig sproginteraktion, som gør det muligt for mennesker at kommunikere med computere ved hjælp af hverdagssprog for at udføre opgaver.
Et neuralt netværk er en form for maskinlæring, der er inspireret af, hvordan den menneskelige hjerne fungerer. Det er et computersystem, der består af sammenkoblede enheder (som neuroner), der behandler information ved at reagere på eksterne input og videresende information mellem hver enhed.
Populære programmeringssprog til data science
Ligesom mennesker bruger en bred vifte af sprog, gælder det samme for data scientists. Der findes hundredvis af programmeringssprog i dag, og valget af det rigtige kommer an på, hvad du vil opnå. Her er et kig på nogle af de bedste programmeringssprog til data science.
Data science-løsninger
SAS Viyas funktioner omfatter solid datahåndtering, visualisering, avanceret analyse og modelstyring for at fremskynde data science i enhver organisation.
SAS for machine learning og deep learning giver dig mulighed for at løse de mest komplekse analytiske problemer med en enkelt, integreret samarbejdsløsning - nu med sin egen automatiserede modellerings-API.
SAS Visual Analytics giver dig mulighed for hurtigt at udarbejde rapporter interaktivt, udforske dine data gennem visuelle visninger og udføre dine analyser på selvbetjeningsbasis.
Disse løsninger og mange flere er drevet af SAS Viya, SAS' markedsledende platform for data science, der kører på en moderne, skalerbar, cloud-aktiveret arkitektur.