Natural Language Processing (NLP)
Wat is het en waarom is het belangrijk
Natural language processing (NLP) is onderdeel van Artificial intelligence dat computers helpt menselijke taal te begrijpen, te interpreteren en te bewerken. In zijn streven om de kloof tussen menselijke communicatie en computerbegrip te dichten, put NLP uit vele disciplines, waaronder computerwetenschappen en computationele linguïstiek.
De evolutie van natural language processing
Hoewel natuurlijke taalverwerking geen nieuwe wetenschap is, gaat deze technologie snel vooruit dankzij een toegenomen belangstelling voor menselijke communicatie, plus de beschikbaarheid van big data, krachtige computers en verbeterde algoritmen.
Een mens spreekt of schrijft in het Engels, Spaans of Chinees. Maar de moedertaal van een computer - computercode of computertaal - is voor de meeste mensen grotendeels onbegrijpelijk. Op de laagste niveaus van uw toestel vindt communicatie niet plaats met woorden, maar met miljoenen nullen en enen die logische acties voortbrengen.
Zo'n 70 jaar geleden gebruikten programmeurs ponskaarten om te communiceren met de eerste computers. Dit was een handmatig en en moeizaam proces dat door slechts een heel klein aantal mensen werd begrepen. Nu kunt u zeggen: "Alexa, ik vind dit nummer leuk", en een apparaat dat muziek afspeelt in uw huis zal het volume verlagen en antwoorden: "OK. Beoordeling opgeslagen", in een menselijke stem. Vervolgens past het zijn algoritme aan om dat nummer - en soortgelijke nummers - af te spelen wanneer u de volgende keer naar dat muziekstation luistert.
Laten we eens wat dieper ingaan op die interactie. Uw apparaat werd geactiveerd toen het u hoorde spreken. Het begreep de onuitgesproken intentie in de opmerking, voerde een actie uit en gaf feedback in een goedgevormde Nederlandse zin - en dat alles in een tijdsbestek van ongeveer vijf seconden. Deze volledige interactie is mogelijk door NLP, in combinatie met andere AI-elementen zoals Machine Learning en Deep Learning.
Waarom is NLP belangrijk?
Grote hoeveelheden tekstdata
Natural language processing helpt computers te communiceren met mensen in hun eigen taal en schaalt andere taalgerelateerde taken. NLP maakt het bijvoorbeeld mogelijk voor computers om tekst te lezen, spraak te horen en te interpreteren, sentiment te meten en te bepalen welke delen belangrijk zijn.
De hedendaagse machines kunnen meer taalgegevens analyseren dan mensen, en dat zonder vermoeid te raken én op een consistente, onbevooroordeelde manier. Gezien de duizelingwekkende hoeveelheid ongestructureerde gegevens die elke dag wordt gegenereerd, van medische dossiers tot social media, is automatisering van cruciaal belang om tekst- en spraakgegevens volledig en efficiënt te analyseren.
Structureren van een zeer ongestructureerde gegevensbron
De menselijke taal is verbazingwekkend complex en divers. We drukken ons op oneindig veel manieren uit, zowel mondeling als schriftelijk. Er bestaan niet alleen honderden talen en dialecten, binnen elke taal bestaat er een unieke reeks grammatica- en syntaxregels, termen en jargon. Als we schrijven, spellen we woorden vaak verkeerd, korten we ze af of ontbreekt er interpunctie. Als we spreken, hebben we regionale accenten, en we mompelen, stotteren en lenen termen uit andere talen.
Hoewel leren onder en zonder toezicht, en met name deep learning, momenteel op grote schaal worden gebruikt voor het modelleren van menselijke taal, is er ook behoefte aan syntactisch en semantisch begrip en domeinexpertise die niet noodzakelijk aanwezig zijn in deze Machine Learning benaderingen. NLP is belangrijk omdat het ambiguïteit in taal helpt oplossen en nuttige numerieke structuur toevoegt aan de gegevens voor vele downstream toepassingen, zoals spraakherkenning of tekstanalyse.
NLP in de wereld van vandaag
Leer meer over natural language processing in diverse industrieën
Plannen voor NLP
Hoe gebruiken organisaties wereldwijd kunstmatige intelligentie en NLP? Wat zijn de toepassingspercentages en toekomstplannen voor deze technologieën? Wat zijn de budgetten en in welke domeinen gaat u dit inzetten? En welke business uitdagingen worden opgelost met NLP-algoritmen? Dat leest u in dit rapport van TDWI.
Het onbenutte potentieel in ongestructureerde tekst
Gedachten, onderzoek, meningen, feiten en feedback van mensen komen terecht in de digitale wereld via sociale media posts, dossiers van rechtszaken, elektronische gezondheidsdossiers, logboeken van contactcentra, garantieclaims en nog veel meer. Natural language processing brengt de inzichten aan het licht die verborgen zitten in de woordstromen.
Wat kan tekstanalyse doen voor uw organisatie?
Tekstanalyse is een vorm van natuurlijke taalverwerking waarbij tekst wordt omgezet in data voor analyse. Ontdek hoe organisaties in het bankwezen, de gezondheidszorg en biowetenschappen, de verwerkende industrie en de overheid gebruik maken van tekstanalyse om de klantervaring te verbeteren, fraude te verminderen en de samenleving te verbeteren.
Hoe werkt NLP?
Het uitsplitsen van de elementaire delen van taal
Natural language processing omvat veel verschillende technieken voor het interpreteren van menselijke taal, variërend van statistische en machine learning-methoden tot op regels gebaseerde en algoritmische benaderingen. Wij hebben een breed scala aan benaderingen nodig omdat de op tekst en spraak gebaseerde gegevens sterk uiteenlopen, evenals de praktische toepassingen.
Tot de fundamentele NLP-taken behoren tokeniseren en parsing, lemmatiseren/stamgebruik, woordsoort codering, taaldetectie en identificatie van semantische relaties. Als u op school ooit zinsontleding hebt gedaan, dan heeft u deze taken al eens handmatig uitgevoerd.
In het algemeen splitsen NLP-taken taal op in kortere, elementaire delen, proberen ze de relaties tussen de delen te begrijpen en onderzoeken ze hoe de delen samenwerken om betekenis te creëren.
Deze onderliggende taken worden vaak gebruikt in higher-level NLP-capaciteiten zoals:
- Content-categorisatie. Een op taal gebaseerde samenvatting van documenten, inclusief zoeken en indexeren, content alerts en duplicaten detectie.
- Topic discovery en modelleren. Het nauwkeurig vastleggen van de betekenis en thema's in tekstverzamelingen nauwkeurig, en het toepassen van geavanceerde analyses op tekst, zoals optimalisatie en voorspelling.
- Corpusanalyse. Begrip van corpus- en documentstructuur aan de hand van uitvoerstatistieken voor taken als het doeltreffend nemen van steekproeven, het voorbereiden van gegevens als input voor verdere modellen en het uitstippelen van modelbenaderingen.
- Contextuele extractie. Automatisch gestructureerde informatie halen uit tekstgebaseerde bronnen.
- Sentimentanalyse. Identificeren van de stemming of subjectieve meningen in grote hoeveelheden tekst, met inbegrip van gemiddelde sentimenten en opinie analyse.
- Spraak-naar-tekst en tekst-naar-spraak conversie. Spraakcommando's omzetten in geschreven tekst, en vice versa.
- Documentsamenvatting. Automatisch genereren van samenvattingen van grote hoeveelheden tekst en detecteren van vertegenwoordigde talen in meertalige corpora (documenten).
- Machinevertalen. Automatisch vertalen van tekst of spraak van de ene naar de andere taal.
In al deze gevallen is het overkoepelende doel om onbewerkte taalinput te nemen en met gebruik van linguïstiek en algoritmen de tekst zodanig te transformeren of te verrijken dat het een meerwaarde oplevert.
NLP-methoden en -toepassingen
Hoe begrijpen computers tekstuele gegevens
NLP en tekstanalyse
Natuurlijke taalverwerking gaat hand in hand met tekstanalyse, waarbij woorden worden geteld, gegroepeerd en gecategoriseerd om structuur en betekenis te halen uit grote hoeveelheden inhoud. Tekstanalyse wordt gebruikt om tekstuele inhoud te verkennen en uit ruwe tekst nieuwe variabelen af te leiden die kunnen worden gevisualiseerd, gefilterd of gebruikt als input voor voorspellende modellen of andere statistische methoden.
NLP en tekstanalyse worden samen gebruikt voor tal van toepassingen, waaronder:
- Opsporingswerk. Patronen en aanwijzingen in e-mails of schriftelijke verslagen herkennen om misdrijven te helpen opsporen en oplossen.
- Vak-specifieke expertise. Classificeren van content in zinvolle onderwerpen, zodat u actie kunt ondernemen en trends kunt ontdekken.
- Social media-analyse. Het bewustzijn en sentiment omtrent specifieke onderwerpen tracken en de belangrijkste beïnvloeders identificeren.
Voorbeelden van NLP in het dagelijks leven
Er zijn veel voorkomende en praktische toepassingen van NLP in ons dagelijkse leven. Naast de conversaties met virtuele assistenten zoals Alexa of Siri, zijn hier nog enkele voorbeelden:
- Heeft u wel eens gekeken naar de e-mails in uw spam-map en de overeenkomsten in de onderwerpregels opgemerkt? Dat is Bayesiaanse spamfiltering, een statistische NLP-techniek die de woorden in spam vergelijkt met geldige e-mails om junkmail te identificeren.
- Heeft u wel eens een telefoontje gemist en de automatische transcriptie van de voicemail in uw e-mailinbox of smartphone-app gelezen? Dat is spraak-naar-tekst conversie, een NLP-functie.
- Heeft u ooit op een website genavigeerd door de ingebouwde zoekbalk te gebruiken, of door voorgestelde onderwerpen, entiteiten of categorie tags te selecteren? Dan heeft u NLP-methoden gebruikt voor zoeken, onderwerpmodellering, entiteitextractie en inhoud categorisatie.
Een subgebied van NLP is Natural Language Understanding (NLU). Het begint aan populariteit te winnen vanwege het potentieel ervan voor cognitieve en AI-toepassingen. NLU gaat verder dan het structureel begrijpen van taal om de bedoeling te interpreteren, context en woord-ambiguïteit op te lossen, en zelfs zelf goedgevormde menselijke taal te genereren. NLU-algoritmen moeten het uiterst complexe probleem van de semantische interpretatie aanpakken. Dat betekent: het begrijpen van de bedoelde betekenis van gesproken of geschreven taal, met alle subtiliteiten, context en gevolgtrekkingen die wij mensen kunnen begrijpen.
De evolutie van NLP naar NLU heeft heel wat belangrijke implicaties voor zowel bedrijven als consumenten. Stelt u zich de kracht voor van een algoritme dat de betekenis en nuance van menselijke taal in vele contexten kan begrijpen, van geneeskunde tot rechtspraak tot het klaslokaal. Naarmate de hoeveelheid ongestructureerde informatie exponentieel blijft toenemen, zullen wij baat hebben bij het onvermoeibare vermogen van computers om ons te helpen dit alles te begrijpen.
Meer lezen
- 10 ways analytics can make your city smarter From child welfare to transportation, read 10 examples of analytics being used to solve problems or simplify tasks for government organizations.
- 5 ways to measure beehive health with analytics and hive-streaming dataThis analytical approach to understanding bee hive health can automatically alert beekeepers to changes in hive weights, temperatures, flight activity and more.
- IoT in health care: Unlocking true, value-based careGiven the potential of IoT – and the challenges of already overburdened health care systems around the world – we can’t afford not to integrate IoT in health care.
- Big data in government: How data and analytics power public programsBig data generated by government and private sources coupled with analytics has become a crucial component for a lot of public-sector work. Why? Because using analytics can improve outcomes of public programs.
- Artificial intelligence, machine learning, deep learning and moreArtificial intelligence, machine learning and deep learning are set to change the way we live and work. How do they relate and how are they changing our world?
- 5 machine learning mistakes and how to avoid themMachine learning is not magic. It presents many of the same challenges as other analytics methods. Learn how to overcome those challenges and incorporate new techniques into your analytics strategy.
- Can data sharing lead to cancer discoveries?Clinical trials can bring new drugs – and new hope – to the market for cancer patients. Now, a new data sharing platform for clinical trial data brings even more hope.
- Analytic simulations: Using big data to protect the tiniest patientsAnalytic models help researchers discover the best way to care for babies in the NICU, saving lives (and millions of dollars) in the process.