Maskinlæring

Hvad det er, og hvorfor det betyder noget

Machine learning er en metode til dataanalyse, der automatiserer opbygningen af analytiske modeller. Det er en gren af kunstig intelligens baseret på ideen om, at systemer kan lære af data, identificere mønstre og træffe beslutninger med minimal menneskelig indgriben.

Udviklingen inden for maskinlæring

På grund af nye computerteknologier er maskinlæring i dag ikke som maskinlæring før i tiden. Det udsprang af mønstergenkendelse og teorien om, at computere kan lære uden at være programmeret til at udføre specifikke opgaver; forskere, der var interesserede i kunstig intelligens, ville se, om computere kunne lære af data. Det iterative aspekt af maskinlæring er vigtigt, for når modeller udsættes for nye data, er de i stand til at tilpasse sig uafhængigt. De lærer af tidligere beregninger for at producere pålidelige, gentagelige beslutninger og resultater. Det er en videnskab, der ikke er ny - men som har fået nyt momentum.

Mens mange maskinlæringsalgoritmer har eksisteret i årevis, er evnen til automatisk at anvende komplekse matematiske beregninger på big data - igen og igen, hurtigere og hurtigere - en nyere udvikling. Her er et par meget omtalte eksempler på maskinlæringsapplikationer, som du måske kender:

  • Den voldsomt hypede, selvkørende Google-bil? Essensen af maskinlæring.
  • Online-anbefalinger som dem fra Amazon og Netflix? Anvendelser af maskinlæring i hverdagen.
  • At vide, hvad kunderne siger om dig på Twitter? Machine learning kombineret med lingvistisk regeldannelse.
  • Opsporing af svindel? En af de mere indlysende og vigtige anvendelser i vores verden i dag.

 

Maskinlæring og kunstig intelligens

Mens kunstig intelligens (AI) er den brede videnskab, der efterligner menneskelige evner, er maskinlæring en specifik undergruppe af AI, der træner en maskine i at lære. Se denne video for bedre at forstå forholdet mellem AI og machine learning. Du vil se, hvordan disse to teknologier fungerer, med nyttige eksempler og et par sjove sidebemærkninger.

Hvorfor er machine learning vigtigt?

Den stigende interesse for machine learning skyldes de samme faktorer, som har gjort datamining og bayesiansk analyse mere populære end nogensinde. Ting som voksende mængder og variationer af tilgængelige data, databehandling, der er billigere og mere effektiv, og datalagring, der er til at betale.

Alle disse ting betyder, at det er muligt hurtigt og automatisk at producere modeller, der kan analysere større og mere komplekse data og levere hurtigere og mere præcise resultater - selv i meget stor skala. Og ved at opbygge præcise modeller har en organisation en bedre chance for at identificere rentable muligheder - eller undgå ukendte risici.

 

Hvad skal der til for at skabe gode machine learning-systemer?

  • Muligheder for databehandling.
  • Algoritmer - grundlæggende og avancerede.
  • Automatisering og iterative processer.
  • Skalerbarhed.
  • Ensemble-modellering.
Machine learning infographic

Vidste du det?

  • I maskinlæring kaldes en target for en label.
  • I statistik kaldes en target for en afhængig variabel.
  • En variabel i statistik kaldes en feature i machine learning.
  • En transformation i statistik kaldes feature creation i machine learning.

Maskinlæring i nutidens verden

Ved at bruge algoritmer til at opbygge modeller, der afdækker sammenhænge, kan organisationer træffe bedre beslutninger uden menneskelig indblanding. Lær mere om de teknologier, der former den verden, vi lever i.

Blogs

Alt om algoritmer til maskinlæring

Der findes fire typer algoritmer til maskinlæring: superviseret, semi-overvåget, uovervåget og forstærkning. Lær, hvordan de fungerer, og hvilken der er bedst til at imødekomme din virksomheds behov.

Læs artiklen

Boost dine SAS-kompetencer

Få dybdegående undervisning og gratis adgang til SAS-software for at opbygge dine kompetencer inden for maskinlæring. Kurserne inkluderer: 14 timers kursustid, 90 dages gratis softwareadgang i skyen og et fleksibelt e-learning-format, der ikke kræver programmeringsfærdigheder.

Kurser i maskinlæring

Adoptér troværdig Al

Forbrugerne har større tillid til organisationer, der udviser ansvarlig og etisk brug af AI, såsom maskinlæring og generativ AI. Lær, hvorfor det er vigtigt at omfavne AI-systemer, der er designet med mennesket i centrum, inklusivitet og ansvarlighed.

Se, hvordan SAS gør det

6 faldgruber inden for maskinlæring

Grundlæggende fejlagtige antagelser kan føre til dårlige valg og fejl, især med avancerede metoder som maskinlæring. Undgå andres fejl med dette råd fra en ekspert i maskinlæring.

Læs blogindlægget

Hvem bruger det?

De fleste brancher, der arbejder med store mængder data, har erkendt værdien af machine learning-teknologi. Ved at få indsigt i disse data - ofte i realtid - kan organisationer arbejde mere effektivt eller få en fordel i forhold til konkurrenterne.

Finansielle tjenester

Banker og andre virksomheder i finansbranchen bruger machine learning-teknologi til to hovedformål: at identificere vigtige indsigter i data og forhindre svindel. Indsigten kan identificere investeringsmuligheder eller hjælpe investorer med at vide, hvornår de skal handle. Dataudvinding kan også identificere kunder med højrisikoprofiler eller bruge cyberovervågning til at finde advarselstegn på svindel.

Myndigheder

Offentlige instanser som f.eks. offentlige sikkerhedsmyndigheder og forsyningsvirksomheder har et særligt behov for machine learning, da de har flere datakilder, der kan udnyttes til at opnå indsigt. Ved at analysere sensordata kan man f.eks. identificere måder at øge effektiviteten og spare penge på. Machine learning kan også hjælpe med at opdage svindel og minimere identitetstyveri.

Sundhedssektoren

Machine learning er en hurtigt voksende tendens i sundhedssektoren, takket være fremkomsten af bærbare enheder og sensorer, der kan bruge data til at vurdere en patients helbred i realtid. Teknologien kan også hjælpe medicinske eksperter med at analysere data for at identificere tendenser eller røde flag, der kan føre til forbedrede diagnoser og behandling.

Detailhandel

Hjemmesider, der anbefaler varer, du måske kan lide, baseret på tidligere køb, bruger maskinlæring til at analysere din købshistorik.  Detailhandlere er afhængige af maskinlæring til at indsamle data, analysere dem og bruge dem til at personliggøre en shoppingoplevelse, implementere en marketingkampagne, prisoptimering, vareplanlægning og til kundeindsigt.

Olie og gas

At finde nye energikilder. Analyse af mineraler i jorden. Forudsige sensorfejl i raffinaderier. Strømlining af oliedistribution for at gøre det mere effektivt og omkostningseffektivt. Antallet af anvendelsesmuligheder for maskinlæring i denne branche er enormt - og vokser stadig.

Transport

Analyse af data for at identificere mønstre og tendenser er nøglen til transportbranchen, som er afhængig af at gøre ruterne mere effektive og forudsige potentielle problemer for at øge rentabiliteten. Dataanalyse- og modelleringsaspekterne ved maskinlæring er vigtige værktøjer for transportfirmaer, offentlig transport og andre transportorganisationer.

Sådan fungerer det

For at få mest mulig værdi ud af machine learning skal du vide, hvordan du parrer de bedste algoritmer med de rigtige værktøjer og processer. SAS kombinerer en rig, sofistikeret arv inden for statistik og datamining med nye arkitektoniske fremskridt for at sikre, at dine modeller kører så hurtigt som muligt - selv i store virksomhedsmiljøer.

Algoritmer: SAS' grafiske brugergrænseflader hjælper dig med at bygge machine learning-modeller og implementere en iterativ machine learning-proces. Du behøver ikke at være en avanceret statistiker. Vores omfattende udvalg af machine learning-algoritmer kan hjælpe dig med hurtigt at få værdi ud af dine big data og er inkluderet i mange SAS-produkter. SAS' maskinlæringsalgoritmer omfatter:

Neurale netværk
 
Beslutningstræer
 
Tilfældige skove
 
Associationer og opdagelse af sekvenser
 
Gradient boosting og bagging
 
Support vektormaskiner
 
Kortlægning af nærmeste nabo
 
k-means klyngedannelse
 
Selvorganiserende kort
 
Optimeringsteknikker med lokal søgning (f.eks. genetiske algoritmer)
 
Forventningsmaksimering
 
Flerdimensionelle adaptive regler for regression
 
Bayesianske netværk
 
Estimering af kerneltæthed
 
Analyse af hovedkomponenter
 
Nedbrydning af singulær værdi
 
Gaussiske blandingsmodeller
 
Opbygning af sekventielle dækningsregler
 

 

Værktøjer og processer: Som vi ved nu, er det ikke kun algoritmerne, det handler om. I sidste ende ligger hemmeligheden bag at få mest mulig værdi ud af dine big data i at parre de bedste algoritmer til den aktuelle opgave:

Omfattende datakvalitet og -styring
 
GUI'er til opbygning af modeller og procesflow
 
Interaktiv dataudforskning og visualisering af modelresultater
 
Sammenligning af forskellige machine learning-modeller for hurtigt at identificere den bedste     
 
Automatiseret ensemble-modelevaluering til at identificere de bedste resultater
 
Nem modelimplementering, så du hurtigt kan få gentagelige, pålidelige resultater
 
En integreret end-to-end-platform til automatisering af data-til-beslutning-processen
 

Hvad er nogle af de mest populære metoder til machine learning?

To af de mest udbredte machine learning-metoder er overvåget læring og ikke-overvåget læring - men der findes også andre metoder til machine learning. Her er en oversigt over de mest populære typer.

Overvågede læringsalgoritmer trænes ved hjælp af mærkede eksempler, f.eks. et input, hvor det ønskede output er kendt. For eksempel kan et stykke udstyr have datapunkter mærket enten "F" (mislykket) eller "R" (kører). Læringsalgoritmen modtager et sæt input sammen med de tilsvarende korrekte output, og algoritmen lærer ved at sammenligne sit faktiske output med de korrekte output for at finde fejl. Derefter ændrer den modellen i overensstemmelse hermed. Gennem metoder som klassificering, regression, forudsigelse og gradueret boosting bruger overvåget læring forskellige mønstre til at forudsige værdier af labels på yderligere umærkede data. Overvåget læring bruges ofte i applikationer, hvor historiske data forudsiger sandsynlige fremtidige begivenheder. For eksempel kan det forudse, hvornår kreditkorttransaktioner sandsynligvis vil være bedrageriske, eller hvilken forsikringskunde der sandsynligvis vil indgive et krav.

Ikke-overvåget læring bruges i forhold til data, der ikke har nogen historiske etiketter. Systemet får ikke det "rigtige svar" at vide. Algoritmen skal finde ud af, hvad der bliver vist. Målet er at udforske dataene og finde en vis struktur i dem. Ikke-overvåget læring fungerer godt på transaktionsdata. Det kan f.eks. identificere segmenter af kunder med lignende karakteristika, som så kan behandles på samme måde i marketingkampagner. Eller det kan finde de vigtigste attributter, der adskiller kundesegmenter fra hinanden. Populære teknikker omfatter selvorganiserende kort, nærmeste nabos kortlægning, k-means gruppering og singulær værdisammensætning. Disse algoritmer bruges også til at segmentere tekstemner, anbefale varer og identificere afvigende data.

Semi-overvåget læring bruges til de samme formål som overvåget læring. Men den bruger både mærkede og umærkede data til træning - typisk en lille mængde mærkede data med en stor mængde umærkede data (fordi umærkede data er billigere og kræver mindre indsats at skaffe). Denne type læring kan bruges med metoder som klassificering, regression og forudsigelse. Semi-overvåget læring er nyttig, når omkostningerne forbundet med mærkning er for høje til at tillade en fuldt mærket træningsproces. Tidlige eksempler på dette omfatter identifikation af en persons ansigt på et webkamera.

Forstærkningslæring bruges ofte til robotteknologi, spil og navigation. Med forstærkningslæring opdager algoritmen gennem forsøg og fejl, hvilke handlinger der giver den største belønning. Denne form for læring har tre primære komponenter: agenten (den lærende eller beslutningstageren), miljøet (alt, hvad agenten interagerer med) og handlinger (hvad agenten kan gøre). Målet er, at agenten skal vælge handlinger, der maksimerer den forventede belønning over en given tidsperiode. Agenten vil nå målet meget hurtigere ved at følge en god strategi. Så målet med forstærkningslæring er at indlære den bedste strategi.

Mennesker kan typisk skabe en eller to gode modeller om ugen; maskinlæring kan skabe tusindvis af modeller om ugen.

Thomas H. Davenport, analytisk tankeleder
uddrag fra The Wall Street Journal

Hvad er forskellen på dataudvinding, machine learning og deep learning?

Selvom alle disse metoder har det samme mål - at udvinde indsigt, mønstre og relationer, der kan bruges til at træffe beslutninger - har de forskellige tilgange og færdigheder.

Dataudvinding

Dataudvinding kan betragtes som et supersæt af mange forskellige metoder til at udvinde indsigt fra data. Det kan involvere traditionelle statistiske metoder og maskinlæring. Dataudvinding anvender metoder fra mange forskellige områder til at identificere hidtil ukendte mønstre i data. Det kan omfatte statistiske algoritmer, machine learning, tekstanalyse, tidsserieanalyse og andre analyseområder. Dataudvinding omfatter også studier og praksis inden for datalagring og datamanipulation.

 


Machine Learning

Den største forskel med machine learning er, at ligesom med statistiske modeller er målet at forstå strukturen i data - at tilpasse teoretiske fordelinger til data, som er velkendte. Så med statistiske modeller er der en teori bag modellen, som er matematisk bevist, men det kræver også, at data opfylder visse stærke antagelser. Machine learning har udviklet sig på baggrund af evnen til at bruge computere til at undersøge data for struktur, selv om vi ikke har en teori om, hvordan denne struktur ser ud. Testen af en machine learning-model er en valideringsfejl på nye data, ikke en teoretisk test, der beviser en nulhypotese. Fordi maskinlæring ofte bruger en iterativ tilgang til at lære af data, kan læringen nemt automatiseres. Dataene gennemgås, indtil der er fundet et robust mønster.


Deep learning

Deep learning kombinerer fremskridt inden for computerkraft og særlige typer neurale netværk for at lære komplicerede mønstre i store mængder data. Deep learning-teknikker er i øjeblikket state of the art til at identificere objekter i billeder og ord i lyde. Forskere forsøger nu at anvende disse succeser inden for mønstergenkendelse til mere komplekse opgaver som automatisk sprogoversættelse, medicinske diagnoser og mange andre vigtige sociale og forretningsmæssige problemer.