Predictive Analytics Software
Wat is het en waarom is het belangrijk
Voorspellende analyse is het gebruik van gegevens, statistische algoritmen en technieken voor Machine Learning om de waarschijnlijkheid van toekomstige uitkomsten te bepalen op basis van historische gegevens. Het doel is niet alleen te weten wat er is gebeurd, maar en een zo goed mogelijke inschatting te maken van wat er in de toekomst zal gebeuren.
Voorspellende analyse. Geschiedenis en huidige evolutie
Hoewel voorspellende analyse al tientallen jaren bestaat, is het een technologie waarvoor de tijd nu rijp is. Steeds meer organisaties maken gebruik van voorspellende analyses om hun bedrijfsresultaten en concurrentievoordeel te vergroten. Waarom nu?
- Groeiende hoeveelheden en soorten gegevens, en meer belangstelling voor het gebruik van gegevens om waardevolle inzichten te verkrijgen.
- Snellere, goedkopere computers.
- Software die eenvoudiger te gebruiken is.
- Moeilijkere economische omstandigheden en behoefte aan concurrentiële differentiatie.
Nu interactieve en gebruiksvriendelijke software steeds gangbaarder wordt, is voorspellende analyse niet langer alleen het domein van wiskundigen en statistici. Ook bedrijfsanalisten en line-of-business experts maken gebruik van deze technologieën.
Waarom is voorspellende analyse belangrijk?
Bedrijven gebruiken voorspellende analyse om te helpen met het oplossen van complexe problemen en het ontdekken van nieuwe mogelijkheden. Veel voorkomende toepassingen:
Fraudedetectie.Het combineren van meerdere analysemethoden kan de patroonherkenning verbeteren en crimineel gedrag voorkomen. Nu cybersecurity een steeds grotere bezorgdheid wordt, onderzoeken high-performance gedragsanalyses alle acties op een netwerk in realtime om afwijkingen op te sporen die kunnen duiden op fraude, zero-day-kwetsbaarheden en geavanceerde aanhoudende bedreigingen.
Optimaliseren van marketingcampagnes. Voorspellende analyse wordt gebruikt om reacties of aankopen van klanten te bepalen, en om mogelijkheden voor cross-selling te bevorderen. Met predictieve modellen kunnen bedrijven hun meest winstgevende klanten aantrekken, behouden en laten groeien.
Verbeteren van bedrijfsvoering. Veel bedrijven gebruiken predictieve modellen om de voorraad te voorspellen en resources te beheren. Luchtvaartmaatschappijen gebruiken voorspellende analyse om de prijzen van tickets te bepalen. Hotels proberen het aantal gasten te voorspellen om de bezetting te maximaliseren en de omzet te verhogen. Voorspellende analyse maakt het voor bedrijven mogelijk om efficiënter te functioneren.
Verminderen van risico. Kredietscores worden gebruikt om te beoordelen hoe groot de kans is dat een koper bij een aankoop in gebreke blijft en zijn een bekend voorbeeld van voorspellende analyse. Een kredietscore is een cijfer dat wordt gegenereerd door een voorspellingsmodel waarin alle gegevens zijn verwerkt die relevant zijn voor iemands kredietwaardigheid. Andere risicogerelateerde toepassingen zijn onder meer verzekeringsclaims en incasso's.
Voorspellende analyse in de hedendaagse wereld
Met voorspellende analyses kunt u verder gaan dan alleen leren wat er is gebeurd en waarom, om inzichten te krijgen over de toekomst. Leer hoe voorspellende analyse de wereld waarin we leven vormgeeft.
Een tekort aan predictive analytics skills?
Dit e-book van SAS bevat praktisch advies van werkgevers en trainers over het vinden, behouden en motiveren van top analytics-talent.
Best practices voor betere Predictive Modeling resultaten
Het beheer en de coördinatie van alle stappen in het analytische proces kunnen complex zijn. Leer hoe u stap voor stap te werk gaat en betere, betrouwbaardere resultaten behaalt.
Voorspellende analyse
De data mining-software van SAS® maakt gebruik van cutting-edge algoritmes die zo ontworpen zijn dat ze u helpen om de grootste uitdagingen aan te kunnen.
Wie gebruikt het?
Elke sector kan voorspellende analyse gebruiken om risico's te verminderen, activiteiten te optimaliseren en inkomsten te verhogen. Hier zijn enkele voorbeelden.
Banken en financiële dienstverlening
De financiële sector, waar enorme hoeveelheden gegevens en geld op het spel staan, gebruikt al heel lang voorspellende analyses om fraude op te sporen en terug te dringen, kredietrisico's te meten, cross-sell/up-sell-mogelijkheden te maximaliseren en waardevolle klanten te behouden. De Australische Commonwealth Bank gebruikt analyses om de waarschijnlijkheid van fraude-activiteit voor elke transactie te voorspellen voordat deze wordt geautoriseerd - binnen 40 milliseconden na het starten van de transactie.
Detailhandel
Sinds het inmiddels beruchte onderzoek dat aantoonde dat mannen die luiers kopen vaak tegelijkertijd bier kopen, gebruiken retailers overal ter wereld voorspellende analyse voor merchandiseplanning en prijsoptimalisatie, om de doeltreffendheid van promotieacties te analyseren en om te bepalen welke aanbiedingen het meest geschikt zijn voor de consument. Staples verkreeg klantinzicht door het uitvoeren van gedragsanalyses, waardoor het bedrijf een volledig beeld kreeg van zijn klanten en een ROI behaalde van 137%.
Olie-, gas- en nutsbedrijven
Of het nu gaat om het voorspellen van apparatuurstoringen en toekomstige resourcebehoeften, het verminderen van veiligheids- en betrouwbaarheidsrisico's of het verbeteren van de algehele prestaties, de energiesector heeft voorspellende analyses met overtuiging omarmd. Salt River Project is het op een na grootste openbare elektriciteitsbedrijf in de VS en een van de grootste waterleveranciers van de Amerikaanse staat Arizona. De analyse van machine sensordata voorspelt wanneer energieturbines onderhoud nodig hebben.
Overheden en de publieke sector
Overheden hebben een sleutelrol gespeeld bij de vooruitgang van de computertechnologie. Het United States Census Bureau analyseert al tientallen jaren gegevens om inzicht te krijgen in bevolkingstrends. Net als veel andere industrieën, gebruiken overheden nu voorspellende analyses om hun dienstverlening en prestaties te verbeteren, fraude op te sporen en te voorkomen, en inzicht te krijgen in consumentengedrag. Ze gebruiken voorspellende analyses ook om cybersecurity te verbeteren.
Ziektekostenverzekering
Naast het opsporen van verzekeringsfraude neemt de zorgverzekeringssector maatregelen om te bepalen welke patiënten het meeste risico lopen op een chronische ziekte en welke interventies het beste zijn. Express Scripts, een Amerikaans farmaceutisch bedrijf dat apotheekvergoedingen beheert, gebruikt analyses om te bepalen wie zich niet aan de voorgeschreven behandelingen houdt. Dit resulteerde in een besparing van $ 1500 tot $ 9000 per patiënt.
Manufacturing
Voor fabrikanten is het belangrijk om factoren te identificeren die leiden tot verminderde kwaliteit en productiefouten, en om onderdelen, servicebronnen en distributie te optimaliseren. Lenovo is slechts één fabrikant die voorspellende analyses heeft gebruikt om garantieclaims beter te begrijpen. Dit initiatief leidde tot een verlaging van 10 tot 15 procent op de garantiekosten.
Ontdek meer over de industrieën die gebruikmaken van deze technologie
De magie in The Magic
Sportanalyse is een hot topic, mede dankzij de Amerikaan Nate Silver, specialist in statistische berekeningen van de resultaten van onder andere de Major League Baseball. NBA basketbalteam Orlando Magic gebruikt SAS predictive analytics om de omzet te verbeteren en de startopstellingen te bepalen. Zakelijke gebruikers in de hele Orlando Magic organisatie hebben onmiddellijk toegang tot informatie. Orlando Magic kan nu de meest recente gegevens visueel verkennen, van het spel tot de zitplaatsen.
Voorspellende tekstanalyse
Ongeveer 90% van alle gegevens is ongestructureerd. Maakt u gebruik van voorspellende analyses om inzichten te vinden in al die gegevens?
Hoe werkt het
Predictieve modellen gebruiken gekende resultaten om een model te ontwikkelen (of te trainen) dat kan gebruikt worden om waarden te voorspellen voor andere of nieuwe gegevens. Modellering levert resultaten op in de vorm van voorspellingen die een waarschijnlijkheid weergeven van de doelvariabele (bijvoorbeeld opbrengst) op basis van geschatte significantie van een reeks inputvariabelen.
Dit verschilt van beschrijvende modellen die u helpen te begrijpen wat er is gebeurd, of diagnostische modellen die u helpen de belangrijkste relaties te begrijpen en te bepalen waarom iets is gebeurd. Er zijn hele boeken gewijd aan analytische methoden en technieken. Volledige studieprogramma's van universiteiten gaan op dit onderwerp in. Maar om te beginnen, zijn hier enkele basics.
Er zijn twee typen voorspellingsmodellen. Classificatiemodellen voorspellen klasselidmaatschappen. U probeert bijvoorbeeld te classificeren of iemand waarschijnlijk zal vertrekken, of hij zal reageren op een verzoek, of hij een goed of slecht kredietrisico vormt, enz. Gewoonlijk worden de modelresultaten weergegeven als 0 of 1, waarbij 1 de gebeurtenis is waarop u zich richt. Regressiemodellen voorspellen een getal – bijvoorbeeld, hoeveel omzet een klant het komende jaar zal genereren of het aantal maanden voordat een onderdeel van een machine defect zal raken.
Drie van de meest gebruikte voorspellende modelleringstechnieken zijn beslissingsbomen, regressie en neurale netwerken.
Regressie (lineair en logistisch) is een van de meest populaire methoden in de statistiek. Regressieanalyse schat relaties tussen variabelen. Het is bedoeld voor continue data waarvan kan worden aangenomen dat ze een normale distributie volgen, het vindt belangrijke patronen in grote gegevenssets en wordt vaak gebruikt om te bepalen hoeveel specifieke factoren, zoals prijs, de beweging van een asset beïnvloeden. Met regressieanalyse willen we een getal voorspellen, ook wel de antwoord of Y-variabele genoemd.Bij lineaire regressie wordt één onafhankelijke variabele gebruikt om de uitkomst van Y te verklaren en/of te voorspellen. Meervoudige regressie gebruikt twee of meer onafhankelijke variabelen om de uitkomst te voorspellen. Met logistische regressie worden onbekende variabelen van een discrete variabele voorspeld op basis van bekende waarde van andere variabelen. De variabele voor antwoord is categorisch, wat betekent dat deze slechts een beperkt aantal waarden kan aannemen. Bij binaire logistische regressie heeft een responsvariabele slechts twee waarden, zoals 0 of 1. Bij meervoudige logistische regressie kan een responsvariabele verschillende niveaus hebben, zoals laag, gemiddeld en hoog, of 1, 2 en 3.
Beslissingsbomen zijn classificatiemodellen die gegevens verdelen in subsets op basis van categorieën van inputvariabelen Dit helpt om inzicht te krijgen in iemands pad van beslissingen. Een beslissingsboom ziet eruit als een boom waarvan elke tak een keuze tussen een aantal alternatieven voorstelt, en elk blad een classificatie of beslissing. Dit model bekijkt de gegevens en probeert die ene variabele te vinden die de gegevens in logische groepen verdeelt die het meest verschillend zijn. Beslissingsbomen zijn populair omdat ze gemakkelijk te begrijpen en interpreteren zijn. Ze gaan ook goed om met ontbrekende waarden en zijn handig voor voorlopige selectie van variabelen. Dus, als u veel ontbrekende waarden hebt of een snel en gemakkelijk te interpreteren antwoord wilt, kunt u met een boom beginnen.
Neurale netwerken zijn gesofisticeerde technieken waarmee uiterst complexe relaties kunnen worden gemodelleerd. Ze zijn populair omdat ze krachtig en flexibel zijn. De kracht zit hem in hun vermogen om niet-lineaire verbanden in gegevens te verwerken, wat steeds vaker voorkomt naarmate we meer gegevens verzamelen. Ze worden vaak gebruikt om bevindingen van eenvoudige technieken zoals regressie en beslissingsbomen te bevestigen. Neurale netwerken zijn gebaseerd op patroonherkenning en sommige AI-processen die parameters grafisch 'modelleren'. Ze werken goed wanneer er geen wiskundige formule bekend is die inputs met outputs in verband brengt, wanneer voorspellen belangrijker is dan verklaren, of wanneer er veel trainingsgegevens zijn. Artificiële neurale netwerken werden oorspronkelijk ontwikkeld door onderzoekers die de neurofysiologie van het menselijk brein trachtten na te bootsen.
Andere populaire technieken
Bayesiaanse analyse. Bayesiaanse methoden behandelen parameters als willekeurige variabelen en definiëren waarschijnlijkheid als 'mate van geloof of overtuiging' (dat wil zeggen, de waarschijnlijkheid van een gebeurtenis is de mate waarin u gelooft dat de gebeurtenis waar is). Wanneer u een Bayesiaanse analyse uitvoert, begint u met een veronderstelling betreffende de kansverdeling van een onbekende parameter. Nadat u informatie hebt verkregen uit de gegevens waarover u beschikt, wijzigt of actualiseert u uw overtuiging over de onbekende parameter.
Ensemble-modellen. Ensemble-modellen worden verkregen door verschillende soortgelijke modellen te trainen en hun resultaten te combineren om de nauwkeurigheid te verbeteren, bias te verminderen, de variantie te verkleinen en het beste model te bepalen voor gebruik met nieuwe gegevens.
Gradient boosting. Dit is een 'boosting'-aanpak waarbij uw gegevensset verscheidene malen wordt geresampled om resultaten te genereren die een gewogen gemiddelde vormen van de geresamplede gegevensset. Net als beslissingsbomen maakt boosting geen aannames over de verdeling van de gegevens. Boosting is minder vatbaar voor overfitting van de gegevens dan één enkele beslissingsboom, en als een beslissingsboom redelijk goed bij de gegevens past, verbetert boosten vaak de fit. (Overfitting van gegevens betekent dat u te veel variabelen gebruikt en het model te complex is. Underfitting betekent het tegenovergestelde – niet voldoende variabelen en het model is te eenvoudig. Beide verminderen de nauwkeurigheid van de voorspelling.)
Incrementele respons (ook wel netlift- of uplift-modellen genoemd). Deze modelleren de verandering in waarschijnlijkheid veroorzaakt door een actie. Zij worden veel gebruikt om churn te verminderen en te ontdekken wat de effecten zijn van verschillende marketingprogramma's.
K-nearest neighbor (KNN). Dit is een niet-parametrische methode voor classificatie en regressie die de waarden of klasselidmaatschappen van een object voorspelt op basis van de k-dichtstbijzijnde trainingsvoorbeelden.
Memory-based reasoning (op geheugen gebaseerd redeneren). Memory-based reasoning is een k-Nearest Neighbor techniek voor het categoriseren of voorspellen van waarnemingen.
PLS (Partial Least Squares). Deze flexibele statistische techniek kan worden toegepast op elke vorm van gegevens. Het modelleert relaties tussen inputs en outputs, zelfs wanneer de inputs gecorreleerd en onduidelijk zijn, er meerdere outputs zijn of er meer inputs zijn dan waarnemingen. De methode van Partial Least Squares zoekt naar factoren die zowel respons- als predictorvariaties verklaren.
Principale-componentenanalyse. Het doel van principale-componentenanalyse is een klein aantal onafhankelijke lineaire combinaties (principale componenten) van een reeks variabelen af te leiden die zoveel mogelijk van de informatie in de oorspronkelijke variabelen behouden.
SVM - support vector machine Deze Supervised Machine Learning techniek maakt gebruik van geassocieerde leeralgoritmen om gegevens te analyseren en patronen te herkennen. Ze kan zowel voor classificatie als voor regressie worden gebruikt.
Tijdreeksen datamining. Tijdreeksten of time series data zijn gegevens met een tijdstempel en met een bepaald interval in de tijd verzameld (verkoop in een maand, telefoongesprekken per dag, webbezoeken per uur, enz.). Bij datamining op basis van tijdreeksen worden traditionele datamining- en prognosetechnieken gecombineerd. Dataminingtechnieken zoals steekproeven, clustering en beslissingsbomen worden toegepast op gegevens die in de loop van de tijd zijn verzameld, met als doel de voorspellingen te verbeteren.
Wat hebt u nodig om aan de slag te gaan met voorspellende analyse?
Ontdek hoe u de analytische levenscyclus succesvol kunt inzetten
Het eerste wat u nodig hebt om aan de slag te gaan met voorspellende analyses, is een probleem dat moet worden opgelost. Wat wilt u weten over de toekomst op basis van het verleden? Wat wilt u begrijpen en voorspellen? U wilt ook overwegen wat er met de voorspellingen zal worden gedaan. Welke beslissingen zullen worden gestuurd door de inzichten? Welke acties worden genomen?
Ten tweede heeft u gegevens nodig. In de huidige situatie betekent dat gegevens van veel verschillende plekken. Transactiesystemen, data verzameld door sensoren, informatie van derden, notities van callcenters, weblogs, enz. U hebt een "data wrangler" nodig, of iemand met ervaring in datamanagement, om u te helpen de gegevens op te schonen en ze klaar te maken voor analyse. Om de gegevens voor te bereiden voor een predictive modeling oefening, is ook iemand nodig die zowel de gegevens als het businessprobleem begrijpt. Hoe u uw doelstelling definieert, is essentieel voor de manier waarop u de uitkomst kunt interpreteren. (Gegevensvoorbereiding wordt beschouwd als een van de meest tijdrovende aspecten van het analyseproces. Wees dus voorbereid.)
Daarna begint het bouwen van het voorspellende model. Doordat software steeds gebruiksvriendelijker wordt, kunnen meer mensen analytische modellen bouwen. Maar u zult waarschijnlijk nog steeds een soort data-analist nodig hebben die u kan helpen uw modellen te verfijnen het model te vinden dat het best presteert. En dan hebt u misschien nog iemand in IT nodig die u kan helpen uw modellen in te zetten. Dat betekent dat u de modellen aan het werk zet op de door u gekozen gegevens - en dat is waar u uw resultaten krijgt.
Voorspellende modellen vereisen een teambenadering. U heeft mensen nodig die het op te lossen probleem begrijpen. Iemand die weet hoe je gegevens voorbereidt voor analyse. Iemand die modellen kan bouwen en verfijnen. Iemand in IT om ervoor te zorgen dat u beschikt over de juiste analytics infrastructuur voor het bouwen en implementeren van modellen. En een executive sponsor kan u helpen uw analytics verwachtingen realiteit te maken.
Lees meer over dit onderwerp
- Are you covering who you think you’re covering? Payers often don't focus enough on healthcare beneficiary fraud in public and private healthcare plans. Before paying a claim, payers need to ensure beneficiaries are eligible. Advanced analytics applied to a broad range of data can help them accurately detect and prevent beneficiary fraud.
- A guide to machine learning algorithms and their applicationsDo you know the difference between supervised and unsupervised learning? How about the difference between decision trees and forests? Or when to use a support vector algorithm? Get all the answers here.
- Medicaid and benefit fraud in 2018 and beyondTo curb the growing amount of Medicaid and benefit fraud and improper payments, agencies and their commercial counterparts need fraud and abuse detection systems with data management and analysis that can keep up and even stay one step ahead.
- When it matters: Safeguarding your organization from the insideWith evolving threats, fraud detection technologies have to be flexible and nimble, and automated risk detection is a crucial component of decision advantage.