Data Science
Vad det är och därför är det viktigt
Data science är ett tvärvetenskapligt område som i vid mening beskriver användningen av data för att skapa insikter. Till skillnad från mer specialiserade datarelaterade områden, till exempel datautvinning eller datateknik, omfattar datavetenskap hela livscykeln för att översätta rådata till användbar information och tillämpa den för produktiva ändamål i en mängd olika applikationer.
Utvecklingen av data science
Om man vill spåra datavetenskapens ursprung pekar det tillbaka till 1962, då matematikern John Tukey beskrev området i sin viktiga uppsats “The Future of Data Analysis”. I uppsatsen talade han om förekomsten av en "okänd vetenskap", en som involverade att lära sig av data.
Det är dock mer meningsfullt att titta på data science i den moderna världen. Framväxten av nya fenomen som “big data” – drivna av tekniksprång för processorkraft och lagring – har medfört oöverträffade möjligheter för organisationer att identifiera dolda mönster i data och använda dessa insikter insikt för att förbättra beslutsfattande. Men för att göra det måste de först samla in, bearbeta, analysera och dela data. Att hantera denna datalivscykel är kärnan i datavetenskap. Idag förekommer datavetenskap överallt inom affärsvärlden – och utanför. Så mycket att Harvard Business Review kallade datavetare för 2000-talets häftigaste jobb. Om datavetare är praktiker är datavetenskapen tekniken och metoderna.
Distribuera den bästa modellen i produktion
Som global tillverkare av byggmaterial måste USG producera högkvalitativa produkter till överkomliga priser. Genom att använda SAS® Model Manager kan Sheetrock-tillverkaren peka ut den optimala mixen av råvaror och justera sin produktionsprocess i nära realtid för att uppnå det målet.
Data science i dag
Få en inblick i modern datavetenskap.
Gartners magiska kvadrant för datavetenskap
Nyfiken på hur de olika datavetenskapliga plattformarna rankas? Utforska “Magic Quadrant for Data Science och Machine Learning Platforms” för att jämföra de 20 bästa leverantörerna.
Vilka använder sig av data science?
Det är nog svårt att hitta en bransch som idag inte tillämpar datavetenskap för sina kritiska affärsfunktioner. Här är några av de mest intressanta användningsområdena.
Vad datavetenskap kan leverera
För att förstå alla sätt som datavetenskap kan skapa värde för en organisation kan det vara bra att undersöka några vanliga mål och effekter som den bidrar till.
- Prediktion (när en maskin kommer att gå sönder).
- Klassificering (av nya eller befintliga kunder).
- Rekommendationer (om du gillar det ska du prova).
- Hitta avvikelser (ex bedrägeriförsök)
- Igenkänning (bild, text, ljud, video osv.).
- Användbara insikter (översiktsbilder, rapporter, visualiseringar).
- Automatiserade processer och beslutsfattande (godkännande av kreditkort).
- Bedömning och ranking av kunder (kreditpoäng).
- Segmentering (riktad marknadsföring).
- Optimering (processförbättringar).
- Prognoser (för försäljning och intäkter).
Om du vill bli bättre på att utnyttja data science och få kunskap om att välja, distribuera och hantera modeller bör du lära dig mer om AI samt maskininlärning. Ronald van Loon Principal Analyst CEO of Intelligent World
Sammansatt AI
De flesta AI-projekt förlitar sig idag på flera datavetenskapliga tekniker. Enligt Gartner kallas en kombination av olika AI-tekniker för "Sammansatt AI".
Med sammansatt AI börjar du med problemet och använder sedan rätt data och verktyg för att lösa det. Detta inkluderar ofta att använda en kombination av tekniker inom datavetenskapen som ML, statistik, avancerad analys, datautvinning, prognoser, optimering, bearbetning av naturligt språk, datorseende och fler.
Sammansatt AI blir alltmer synonymt med datavetenskap. Det beror på att det inte alltid är enkelt att välja rätt AI-teknik. Det kräver en djup förståelse för vilket affärsproblem du försöker lösa och vilken data som finns tillgänglig för att lösa det. Denna kombination av affärs- och teknikexpertis är kärnan i datavetenskap.
Så fungerar data science
Data science innebär användning av flera verktyg och tekniker för att skaffa sig meningsfull information från strukturerad och ostrukturerad data. Här är några vanliga metoder som används av datavetare för att omvandla rådata till affärsdrivande insikter.
Datahantering handlar om att behandla data på ett sådant sätt att den tillför värde till en organisation. Effektiv datahantering kräver en datastrategi och tillförlitliga metoder för att samla in, integrera, rensa, hantera, lagra och förbereda data för analys.
Maskininlärning automatiserar analytisk modellbyggnad. Med oövervakad maskininlärning använder tekniken metoder från neurala nätverk, statistik, forskning och fysik för att hitta gömda insikter i data utan att uttryckligen ha programmerats till att leta efter något speciellt eller på förhand veta vilka slutsatser som analysen ska leda till.
Ettneuralt nätverk är som maskininlärning inspirerad av den mänskliga hjärnans funktioner. Det är ett datorsystem som består av sammankopplade enheter (som neuroner) vilka bearbetar information genom att svara på externa indata och vidarebefordra information mellan enheter.
Djupinlärning använder enorma neurala nätverk med många lager av bearbetningsenheter. Metoden drar nytta av framstegen inom datorkraft och förbättrade inlärningstekniker för att lära sig komplexa mönster i stora mängder data. Vanliga användningsområden är bild- och taligenkänning.
Datorseende använder mönsterigenkänning och djupinlärning för att tolka vad som finns i en bild eller video. Maskiner med förmåga att bearbeta, analysera och förstå bilder kan användas för att i realtid ta bilder eller videor för att tolka sin omgivning.
Natural Language Processing (NLP) handlar om datorns förmåga att analysera, förstå och generera mänskligt språk, inklusive tal. Nästa steg i NLP är naturlig språkinteraktion, som gör det möjligt för människor att kommunicera med sina datorer med sitt vanliga talspråk.
Datavisualisering är när data presenteras som bilder, eller i ett grafiskt format, så att data enkelt kan analyseras. Företag kan använda detta för att fatta affärsbeslut baserat på insikter från den här datavetenskapen.
Populära programmeringsspråk för data science
Precis så som människor använder en mängd olika språk gäller detsamma för datavetare. Valet mellan de hundratals programmeringsspråk som finns tillgängliga idag handlar om vad du försöker uppnå. Här är några av de mest använda programmeringsspråken som används inom data science.
Python är ett interpreterat, objektorienterat programmeringsspråk på övergripande nivå med dynamisk typning. Dess inbyggda datastrukturer, i kombination med dynamisk typning och dynamiska kopplingar, gör det mycket attraktivt för snabb applikationsutveckling. Det är ett skript språk som kan användas som “klister” mellan befintliga program och komponenter.
R är baserat på öppen kod och används för statistisk databehandling samt grafik. Språket förvaltas av “the R Foundation for Statistical Computing”. Språket R används ofta av statistiker och datautvinnare för att utveckla statistisk programvara och göra dataanalyser.
SQL är ett domänspecifikt språk som används i programmering och har utformats för att hantera data som finns i ett relationsdatabashanteringssystem (RDBMS) eller för dataströmmar i ett relationsbaserat dataflödeshanteringssystem (RDSMS). Det är särskilt användbart vid hantering av strukturerade data som innehåller relationer mellan enheter och variabler.
SAS är ett programmeringsspråk som används av hundratusentals datavetare över hela världen. Med SAS Viya-plattform använder du fördelar från alla tekniksystem och programmeringsspråk som finns i din organisation så du enklare kan förbättra och distribuera analytiska modeller. Läs om hur SAS Viya förvandlar olika modeller i din organisation till bättre affärsbeslut. .
Lösningar för data science
SAS Viyas erbjudanden inom data science inkluderar robusta och avancerade modeller samt funktioner för datahantering och visualisering. Denna vinnande kombination gör att användningen av datavetenskap får en rejäl skjuts i alla organisationer.
SAS Visual Data Mining and Machine Learning gör att du kan lösa de mest komplexa analytiska problemen med en enda, integrerad samarbetslösning – nu med ett API för automatiserad modellering.
SAS Visual Analytics ger dig möjlighet att snabbt förbereda interaktiva rapporter, utforska data genom visuella bilder och att erbjuda företag analyser genom självbetjäning.
Dessa och flera lösningar levereras av SAS Viya, som är SAS marknadsledande plattform för data science, vilket körs på en modern, skalbar och molnbaserad arkitektur.