Machine Learning

Wat is het en waarom is het belangrijk

Machine learning is een vorm van data-analyse waarbij het bouwen van analysemodellen geautomatiseerd wordt. Machine learning is een tak van kunstmatige intelligentie en is gebaseerd op het idee dat systemen kunnen leren van data, dat ze patronen kunnen herkennen en dat ze beslissingen kunnen maken zonder tussenkomst van mensen.

De evolutie van machine learning

Vanwege nieuwe computertechnologieën is machine learning tegenwoordig niet zoals machine learning uit het verleden. Vanwege nieuwe computertechnologieën is machine learning tegenwoordig niet zoals machine learning ui. Machine learning is ontstaan uit patroonherkenning en de theorie dat computers kunnen leren, zonder te zijn geprogrammeerd om specifieke taken uit te voeren. Onderzoekers met interesse in kunstmatige intelligentie, wilden onderzoeken of computers konden leren van data. Het iteratieve aspect van machine learning is belangrijk omdat modellen zich onafhankelijk kunnen aanpassen wanneer ze worden blootgesteld aan nieuwe gegevens. Ze leren van eerdere berekeningen en kunnen op die manier betrouwbare beslissingen en resultaten leveren. Het is dan misschien geen nieuwe wetenschap, maar het is wel wetenschap in een nieuw jasje.

Machine learning algoritmen zijn er al langmaar de mogelijkheid om automatisch complexe rekenkundige berekeningen los te laten op big data – en dat niet één keer, maar meerdere keren en steeds sneller – is een recente ontwikkeling. Hier vind je enkele bekende voorbeelden van machine learning waar je vast wel eens van gehoord hebt:

  • De enorm gehypte zelfrijdende Google-auto. Dat is machine learning pur sang.
  • Online aanbevelingen, zoals van Amazon of Netflix. Machine learning toepassingen voor je dagelijks leven.
  • Wil je weten wat klanten over jou zeggen op Twitter? Dan combineer je machine learning met linguistic rule creation.
  • Fraudedetectie? Eén van de meest bekende en belangrijke toepassingen van deze tijd.

 

Machine learning en kunstmatige intelligentie

Terwijl Kunstmatige intelligentie (in het Engels: Artificial Intelligence of AI) de brede wetenschap is van het nabootsen van menselijke vaardigheden, is Machine learning een specifieke subset van kunstmatige intelligentie, die een machine traint hoe te leren. Bekijk deze video om de relatie tussen AI en machine learning beter te begrijpen. Ontdek hoe deze twee technologieën werken met behulp van nuttige voorbeelden en een paar grappige extra’s.

Waarom is machine learning belangrijk?

De hernieuwde belangstelling voor machine learning heeft dezelfde reden als het feit dat data mining en Bayesiaanse analyses weer populairder dan ooit zijn: de volumes nemen toe, de beschikbare data varieert meer dan ooit, rekenkracht is goedkoper en krachtiger en dataopslag is betaalbaar.

Al deze dingen maken het mogelijk om snel en automatisch modellen te produceren die grotere en meer complexe data kunnen analyseren en die bovendien sneller en nauwkeuriger werken – zelfs op grote schaal. Door nauwkeurige modellen te bouwen, hebben organisaties een grotere kans om winstgevende kansen te identificeren, of om onbekende risico’s te vermijden.

 

Wat heb je nodig om goede machine learning systemen te bouwen?

  • Mogelijkheden om data voor te bereiden.
  • Algoritmen – basis en geavanceerd.
  • Automatisering en repetitieve processen.
  • Schaalbaarheid.
  • Ensemble modelling.
Machine learning infographic

Wist je dat?

  • Een target in machine learning een ‘label’ wordt genoemd?
  • Een target in de statistiek een ‘afhankelijke variabele’ wordt genoemd?
  • Een variabele in de statistiek hetzelfde is als een ‘feature’ in machine learning?
  • Een transformatie in de statistiek ‘feature creation’ wordt genoemd in machine learning?

Machine learning in de wereld van vandaag

Organisaties die algoritmen gebruiken om modellen te bouwen waarmee relaties kunnen worden ontdekt, kunnen betere beslissingen maken zonder menselijk tussenkomen. Ontdek meer over de technologieën die de wereld waarin we leven beïnvloeden.

White Paper

Kansen en uitdagingen in machine learning voor bedrijven

In dit whitepaper van O’Reailly ontdek je hoe je machine learning toepassingen praktisch kunt implementeren binnen jouw organisatie.

Lees whitepaper

Breid je skills uit

Ga aan de slag met je machine learning skills met uitgebreide instructies en gratis toegang tot SAS Software. De cursus bevat: 14 uur cursustijd, 90 dagen gratis toegang tot de software in de cloud, een flexibel e-learning format. Het is geen vereiste dat je kunt programmeren.  

Machine learning cursussen

Verandert machine learning jouw organisatie?

In dit Harvard Business Review Insight Center rapport wordt gekeken naar manieren waarop machine learning bedrijven gaat veranderen en hoe wij hier mee omgaan.    

 Download rapport

Machine learning toepassen op IoT (Ivd)

Machine learning kan gebruikt worden om efficiënter te werken, zeker wanneer het wordt toegepast in the Internet of Things (lvd). Dit artikel gaat dieper in op dit onderwerp.

Lees het IoT-artikel

Wie gebruikt het?

De meeste industrieën die werken met grote hoeveelheden data zijn er al achter wat de waarde is van machine learning. Doordat bedrijven inzichten opdoen uit de data, vaak in real-time, kunnen deze organisaties efficiënter werken en staan ze sterker in de markt.

Financiële dienstverlening

Banken en andere bedrijven binnen de financiële wereld gebruiken machine learning voor twee doeleinden: om belangrijke inzichten in data te identificeren én om fraude te voorkomen. De inzichten die geïdentificeerd worden kunnen bijvoorbeeld investeringsmogelijkheiden zijn, of kunnen investeerders helpen te weten wanneer het een goede tijd is om te handelen. Data mining kan bovendien klanten met een hoog risicoprofiel identificeren, maar kan ook cybersurveillance inzetten om waarschuwingstekens van fraude te herkennen.

Overheid

Overheidsinstanties, zoals openbare veiligheid en nutsbedrijven , hebben machine learning heel hard nodig, omdat ze verschillende databronnen hebben die inzichten kunnen opleveren. Door sensordata te analyseren kunnen er bijvoorbeeld inzichten geïdentificeerd worden waardoor men efficiënter kan werken en geld kan besparen. Machine learning kan bovendien helpen om fraude te detecteren en identiteitsdiefstal te minimaliseren.

Gezondheidszorg

Machine learning is een snelgroeiende trend in de gezondheidszorg. Dit komt vooral door de opkomst van draagbare apparaten en sensoren die gebruikmaken van data om de gezondheid van een patiënt op dat moment te beoordelen. De technologie kan medische experts bovendien helpen om data te analyseren en trends en waarschuwingssignalen te identificeren, waardoor diagnoses en behandelingen kunnen verbeteren. 

Retail

Websites die items aanbevelen op basis van eerdere aankopen, zijn gebaseerd op machine learning. Veel retailers maken gebruik van machine learning om data te verzamelen, die data te analyseren en te gebruiken om het online shoppen een persoonlijke ervaring te laten zijn. Bovendien kan machine learning helpen bij het opzetten van marketingcampagnes, bij prijsoptimalisaties, de leveringsplanning van merchandise en klantinzicht.   

Olie en gas

Op zoek naar nieuwe energiebronnen. Mineralen in de grond analyseren. Het voorspellen van een sensorstoring in een raffinaderij. Het stroomlijnen van de oliedistributie, zodat dit efficiënter en kosteneffectiever is. Het aantal toepassingen van machine learning in deze industrie is enorm en neemt elke dag toe.

Transport

Het analyseren van data om patronen en trends te identificeren is van groot belang voor de transportindustrie. Voor deze industrie is het vooral belangrijk om routes efficiënter te maken en potentiële problemen te kunnen voorspellen om de winstmarge te vergroten. Voor leveringsbedrijven, het openbaar vervoer en andere transportbedrijven zijn data-analyse en het bouwen van modellen belangrijke aspecten van machine learning.

Hoe werkt het

Om het meeste uit machine learning te halen, moet je weten hoe je de beste algoritmen kunt combineren met de juiste tools en processen. SAS combineert een rijke, gesofisticeerde geschiedenis in statistiek en data mining met nieuwe architecturale ontwikkelingen, om te verzekeren dat uw modellen heel snel hun werk doen, zelfs in grote bedrijfsomgevingen.

Algoritmen: De GUI’s (Graphical User Interfaces) van SAS kunnen je ondersteunen in het bouwen van machine learning modellen en implementeren van een iteratief machine learning proces. Je hoeft geen diepgaande kennis van statistiek te hebben, want de duidelijke selectie van machine learning algoritmen helpt je om snel waarde te halen uit je big data. Deze algoritmen zitten inbegrepen bij heel veel SAS-producten. SAS machine learning algoritmen bevatten bovendien:

Neutrale netwerken
 
Beslisbomen
 
Random forests
 
Associations and sequence discovery
 
Gradient boosting en bagging
 
Support vector machines
 
Nearest-neighbor mapping
 
k-means clustering
 
Self-organizing maps
 
Local search optimization techniques (bijvoorbeeld een genetisch algoritme)
 
Expectation maximization
 
Multivariate adaptive regression splines
 
Bayesiaanse netwerken
 
Kernel density estimation
 
Principal component analysis
 
Singular value decomposition
 
Gaussian mixture modellen
 
Sequential covering rule building
 

 

Tools en processen: We weten tegenwoordig dat het niet alleen om algoritmen draait. Uiteindelijk haal je de meeste waarde uit je big data als je de beste algoritmen combineert met:

Begrijpelijke datakwaliteit en -management
 
GUI’s voor het bouwen van modellen en voor procesflows
 
Interactieve data-exploratie en -visualisatie van de modelresultaten
 
Vergelijkingen van verschillende machine learning modellen om snel het beste model te kunnen identificeren   
 
Geautomatiseerde ensemble modelevaluatie om de beste prestaties te kunnen identificeren
 
Easy model deployment zodat je snel herhaalde en betrouwbare resultaten krijgt
 
Een geïntegreerd end-to-end platform voor de automatisering van het data-to-decision proces
 

Wil je meer uitleg over welk machine learning algoritme je waarvoor kunt gebruiken? In dit blog, geschreven door Hui Li, een datawetenschapper bij SAS, vind je een handige cheat sheet.

Wat zijn de populairste vormen van machine learning?

De twee meest toegepaste vormen van machine learning zijn supervised learning en unsupervised learning, maar er zijn ook andere vormen van machine learning. Hier vind je een overzicht van de meest populaire methodes:

Supervised learning algoritmen zijn getraind met gelabelde voorbeelden, zoals input waarvan de gewenste output al bekend is. Een voorbeeld hiervan is dat een stuk gereedschap gelabeld kan zijn met datapunt F (failed) en R (runs). Het lerende algoritme ontvangt een set inputs en de corresponderende, juiste outputs. Het algoritme leert fouten herkennen door de eigenlijke output met de correcte output te vergelijken. Op basis hiervan wordt het model vervolgens aangepast. Door middel van methodes als classificatie, regressie, voorspelling en gradient boosting, maakt supervised learning gebruik van patronen om de waarde van een label op de aanvullende ongelabelde data te bepalen. Supervised learning wordt veel gebruikt in toepassingen waar historische data toekomstige gebeurtenissen kan voorspellen. Het kan bijvoorbeeld bepalen wanneer creditcardtransacties waarschijnlijk frauduleus zijn of welke verzekeringsklant waarschijnlijk een claim gaat indienen.

Unsupervised learning wordt gebruikt voor data zonder historische labels. Het systeem wordt niet verteld wat “het juiste antwoord” is. Het algoritme moet het doen met wat het te zien krijgt. Het doel is om de data te verkennen en structuur in de data te ontdekken. Unsupervised learning werkt goed voor transactiedata. Het kan bijvoorbeeld een goede methode zijn om klantsegmenten met gelijkwaardige attributen te herkennen die vervolgens in marketingcampagnes op dezelfde manier kunnen worden benaderd. Het kan ook ontdekken op basis van welke belangrijke attributen de klantsegmenten van elkaar verschillen. Populaire technieken zijn bijvoorbeeld self-organizing maps, nearest-neighbor mapping, k-means clustering en singular value decomposition. Deze algoritmen worden ook gebruikt om tekstonderwerpen en aanbevolen items te segmenteren en om extreme waarden te identificeren.

Semisupervised learning wordt gebruikt voor dezelfde toepassingen als supervised learning. Deze methode maakt voor het trainen echter gebruik van zowel gelabelde als ongelabelde data, waarbij een klein deel gelabeld is en een groot deel ongelabeld (omdat ongelabelde data minder duur is en het makkelijker is om dit tot je beschikking te krijgen). Dit type ‘learning’ wordt vaak gecombineerd met methodes als classificatie, regressie en voorspelling. Semisupervised learning is een handige methode wanneer de kosten die bij het labelen komen kijken te hoog zijn voor een compleet gelabeld trainingsproces. Vroege voorbeelden hiervan zijn bijvoorbeeld het identificeren van iemands gezicht op een webcam.

Reinforcement learning wordt vaak gebruikt voor robotica, games en navigatie. Met reinforcement learning ontdekt het algoritme door middel van trial and error welke acties de beste resultaten opleveren. Dit type leren bestaat uit drie hoofdcomponenten: de actor (degene die leert of degene die beslissingen maakt), de omgeving (alles wat interactie heeft met de actor) en acties (wat kan de actor doen?). Het doel voor de actor is om acties te kiezen die binnen een bepaalde tijd de kans op het verwachte resultaat maximaliseren. De actor bereikt zijn of haar doel sneller door een goed beleid te volgen. Het doel in reinforcement learning is dus in feite om het beste beleid aan te leren.

“Mensen kunnen doorgaans één of twee goede modellen in een week maken. Machine learning kan duizenden modellen per week creëren.”

Thomas H. Davenport, Analytics thought leader
excerpt from The Wall Street Journal

Wat zijn de verschillen tussen data mining, machine learning en deep learning?

Hoewel deze methodes allemaal hetzelfde doel hebben – het extraheren van inzichten en het ontdekken van patronen en relaties die gebruikt kunnen worden om beslissingen te maken -, vraagt elke methode om een andere aanpak en heb je met elke methode andere mogelijkheden.

Data Mining

Data mining kan gezien worden als een superset van veel verschillende methodes om inzicht op te doen op basis van data. Hierbij kan gebruikgemaakt worden van traditionele statistische methodes en machine learning. Data mining past methodes toe vanuit veel verschillende disciplines om eerder onbekende patronen in data te ontdekken. Dit kan betekenen dat er gewerkt wordt met statistische algoritmen, machine learning, text analytics, time series analysis en andere vormen van analyse. Bij data mining wordt ook gebruikgemaakt van dataopslag en datamanipulatie.

 


Machine Learning

Het grote verschil met machine learning is dat het doel is om, net zoals bij statistische modellen, de structuur van de data te begrijpen - theoretische verdelingen aan te passen aan de gegevens die goed worden begrepen. Net als bij statistische modellen zit er een theorie achter het model dat wiskundig bewezen is, maar een vereiste is hierbij dat de data ook aan bepaalde eisen moet voldoen. Er zijn verdere ontwikkelingen geweest in machine learning op basis van het feit dat computers kunnen worden ingezet om structuur in data aan te brengen, al hebben we geen idee wat voor structuur dat is. Wanneer je een machine learning model wil testen, zoek je naar een validatie-error in nieuwe data. Je voert geen theoretische test uit om een nulhypothese te bewijzen. Omdat machine learning in veel gevallen gebruikmaakt van een repetitieve aanpak, kan het leren makkelijk geautomatiseerd worden. Het model loopt simpelweg door de data heen tot er een patroon wordt opgemerkt.


Deep learning

Deep learning combineert de vooruitgang in rekenkracht en speciale soorten neurale netwerken om gecompliceerde patronen in grote hoeveelheden data te leren herkennen. Deep learning technieken zijn op dit moment de allernieuwste manier om objecten in afbeeldingen en woorden in geluiden te kunnen herkennen. Onderzoekers proberen nu te achterhalen hoe ze deze successen in patroonherkenning kunnen verwerken zodat er nog complexere taken kunnen worden uitgevoerd, zoals automatische vertaling, medische diagnoses en verschillende andere belangrijke social en zakelijke problemen.