Natural Language Processing (NLP)

Wat is het en waarom is het belangrijk

Natural language processing (NLP) is onderdeel van Artificial intelligence dat computers helpt menselijke taal te begrijpen, te interpreteren en te bewerken. In zijn streven om de kloof tussen menselijke communicatie en computerbegrip te dichten, put NLP uit vele disciplines, waaronder computerwetenschappen en computationele linguïstiek.

 

De evolutie van natural language processing

Hoewel natuurlijke taalverwerking geen nieuwe wetenschap is, gaat deze technologie snel vooruit dankzij een toegenomen belangstelling voor menselijke communicatie, plus de beschikbaarheid van big data, krachtige computers en verbeterde algoritmen

Een mens spreekt of schrijft in het Engels, Spaans of Chinees. Maar de moedertaal van een computer - computercode of computertaal - is voor de meeste mensen grotendeels onbegrijpelijk. Op de laagste niveaus van uw toestel vindt communicatie niet plaats met woorden, maar met miljoenen nullen en enen die logische acties voortbrengen. 

Zo'n 70 jaar geleden gebruikten programmeurs ponskaarten om te communiceren met de eerste computers. Dit was een handmatig en en moeizaam proces dat door slechts een heel klein aantal mensen werd begrepen. Nu kunt u zeggen: "Alexa, ik vind dit nummer leuk", en een apparaat dat muziek afspeelt in uw huis zal het volume verlagen en antwoorden: "OK. Beoordeling opgeslagen", in een menselijke stem. Vervolgens past het zijn algoritme aan om dat nummer - en soortgelijke nummers - af te spelen wanneer u de volgende keer naar dat muziekstation luistert. 

Laten we eens wat dieper ingaan op die interactie. Uw apparaat werd geactiveerd toen het u hoorde spreken. Het begreep de onuitgesproken intentie in de opmerking, voerde een actie uit en gaf feedback in een goedgevormde Nederlandse zin - en dat alles in een tijdsbestek van ongeveer vijf seconden. Deze volledige interactie is mogelijk door NLP, in combinatie met andere AI-elementen zoals Machine Learning en Deep Learning. 

 

Waarom is NLP belangrijk?

Grote hoeveelheden tekstdata

Natural language processing helpt computers te communiceren met mensen in hun eigen taal en schaalt andere taalgerelateerde taken. NLP maakt het bijvoorbeeld mogelijk voor computers om tekst te lezen, spraak te horen en te interpreteren, sentiment te meten en te bepalen welke delen belangrijk zijn. 

De hedendaagse machines kunnen meer taalgegevens analyseren dan mensen, en dat zonder vermoeid te raken én op een consistente, onbevooroordeelde manier. Gezien de duizelingwekkende hoeveelheid ongestructureerde gegevens die elke dag wordt gegenereerd, van medische dossiers tot social media, is automatisering van cruciaal belang om tekst- en spraakgegevens volledig en efficiënt te analyseren.

Structureren van een zeer ongestructureerde gegevensbron

De menselijke taal is verbazingwekkend complex en divers. We drukken ons op oneindig veel manieren uit, zowel mondeling als schriftelijk. Er bestaan niet alleen honderden talen en dialecten, binnen elke taal bestaat er een unieke reeks grammatica- en syntaxregels, termen en jargon. Als we schrijven, spellen we woorden vaak verkeerd, korten we ze af of ontbreekt er interpunctie. Als we spreken, hebben we regionale accenten, en we mompelen, stotteren en lenen termen uit andere talen. 

Hoewel leren onder en zonder toezicht, en met name deep learning, momenteel op grote schaal worden gebruikt voor het modelleren van menselijke taal, is er ook behoefte aan syntactisch en semantisch begrip en domeinexpertise die niet noodzakelijk aanwezig zijn in deze Machine Learning benaderingen. NLP is belangrijk omdat het ambiguïteit in taal helpt oplossen en nuttige numerieke structuur toevoegt aan de gegevens voor vele downstream toepassingen, zoals  spraakherkenning of tekstanalyse. 

NLP in de wereld van vandaag

Leer meer over natural language processing in diverse industrieën

Plannen voor NLP

Hoe gebruiken organisaties wereldwijd kunstmatige intelligentie en NLP? Wat zijn de toepassingspercentages en toekomstplannen voor deze technologieën? Wat zijn de budgetten en in welke domeinen gaat u dit inzetten? En welke business uitdagingen worden opgelost met NLP-algoritmen? Dat leest u in dit rapport van TDWI.

Het onbenutte potentieel in ongestructureerde tekst

Gedachten, onderzoek, meningen, feiten en feedback van mensen komen terecht in de digitale wereld via sociale media posts, dossiers van rechtszaken, elektronische gezondheidsdossiers, logboeken van contactcentra, garantieclaims en nog veel meer. Natural language processing brengt de inzichten aan het licht die verborgen zitten in de woordstromen.

Wat kan tekstanalyse doen voor uw organisatie?

Tekstanalyse is een vorm van natuurlijke taalverwerking waarbij tekst wordt omgezet in data voor analyse. Ontdek hoe organisaties in het bankwezen, de gezondheidszorg en biowetenschappen, de verwerkende industrie en de overheid gebruik maken van tekstanalyse om de klantervaring te verbeteren, fraude te verminderen en de samenleving te verbeteren.

Hoe werkt NLP?

Het uitsplitsen van de elementaire delen van taal

Natural language processing omvat veel verschillende technieken voor het interpreteren van menselijke taal, variërend van statistische en machine learning-methoden tot op regels gebaseerde en algoritmische benaderingen. Wij hebben een breed scala aan benaderingen nodig omdat de op tekst en spraak gebaseerde gegevens sterk uiteenlopen, evenals de praktische toepassingen. 

Tot de fundamentele NLP-taken behoren tokeniseren en parsing, lemmatiseren/stamgebruik, woordsoort codering, taaldetectie en identificatie van semantische relaties. Als u op school ooit zinsontleding hebt gedaan, dan heeft u deze taken al eens handmatig uitgevoerd. 

In het algemeen splitsen NLP-taken taal op in kortere, elementaire delen, proberen ze de relaties tussen de delen te begrijpen en onderzoeken ze hoe de delen samenwerken om betekenis te creëren.

Deze onderliggende taken worden vaak gebruikt in higher-level NLP-capaciteiten zoals:

  • Content-categorisatie. Een op taal gebaseerde samenvatting van documenten, inclusief zoeken en indexeren, content alerts en duplicaten detectie.
  • Topic discovery en modelleren. Het nauwkeurig vastleggen van de betekenis en thema's in tekstverzamelingen nauwkeurig, en het toepassen van geavanceerde analyses op tekst, zoals optimalisatie en voorspelling.
  • Corpusanalyse. Begrip van corpus- en documentstructuur aan de hand van uitvoerstatistieken voor taken als het doeltreffend nemen van steekproeven, het voorbereiden van gegevens als input voor verdere modellen en het uitstippelen van modelbenaderingen.
  • Contextuele extractie. Automatisch gestructureerde informatie halen uit tekstgebaseerde bronnen.
  • Sentimentanalyse. Identificeren van de stemming of subjectieve meningen in grote hoeveelheden tekst, met inbegrip van gemiddelde sentimenten en opinie analyse. 
  • Spraak-naar-tekst en tekst-naar-spraak conversie. Spraakcommando's omzetten in geschreven tekst, en vice versa. 
  • Documentsamenvatting. Automatisch genereren van samenvattingen van grote hoeveelheden tekst en detecteren van vertegenwoordigde talen in meertalige corpora (documenten).
  • Machinevertalen. Automatisch vertalen van tekst of spraak van de ene naar de andere taal.


In al deze gevallen is het overkoepelende doel om onbewerkte taalinput te nemen en met gebruik van linguïstiek en algoritmen de tekst zodanig te transformeren of te verrijken dat het een meerwaarde oplevert. 

NLP-methoden en -toepassingen

Hoe begrijpen computers tekstuele gegevens

NLP en tekstanalyse

Natuurlijke taalverwerking gaat hand in hand met tekstanalyse, waarbij woorden worden geteld, gegroepeerd en gecategoriseerd om structuur en betekenis te halen uit grote hoeveelheden inhoud. Tekstanalyse wordt gebruikt om tekstuele inhoud te verkennen en uit ruwe tekst nieuwe variabelen af te leiden die kunnen worden gevisualiseerd, gefilterd of gebruikt als input voor voorspellende modellen of andere statistische methoden.

NLP en tekstanalyse worden samen gebruikt voor tal van toepassingen, waaronder:

  • Opsporingswerk. Patronen en aanwijzingen in e-mails of schriftelijke verslagen herkennen om misdrijven te helpen opsporen en oplossen.
  • Vak-specifieke expertise. Classificeren van content in zinvolle onderwerpen, zodat u actie kunt ondernemen en trends kunt ontdekken.
  • Social media-analyse. Het bewustzijn en sentiment omtrent specifieke onderwerpen tracken en de belangrijkste beïnvloeders identificeren. 

Voorbeelden van NLP in het dagelijks leven 

Er zijn veel voorkomende en praktische toepassingen van NLP in ons dagelijkse leven. Naast de conversaties met virtuele assistenten zoals Alexa of Siri, zijn hier nog enkele voorbeelden: 

  • Heeft u wel eens gekeken naar de e-mails in uw spam-map en de overeenkomsten in de onderwerpregels opgemerkt? Dat is Bayesiaanse spamfiltering, een statistische NLP-techniek die de woorden in spam vergelijkt met geldige e-mails om junkmail te identificeren.
  • Heeft u wel eens een telefoontje gemist en de automatische transcriptie van de voicemail in uw e-mailinbox of smartphone-app gelezen? Dat is spraak-naar-tekst conversie, een NLP-functie.
  • Heeft u ooit op een website genavigeerd door de ingebouwde zoekbalk te gebruiken, of door voorgestelde onderwerpen, entiteiten of categorie tags te selecteren? Dan heeft u NLP-methoden gebruikt voor zoeken, onderwerpmodellering, entiteitextractie en inhoud categorisatie.

Een subgebied van NLP is Natural Language Understanding (NLU). Het begint aan populariteit te winnen vanwege het potentieel ervan voor cognitieve en AI-toepassingen. NLU gaat verder dan het structureel begrijpen van taal om de bedoeling te interpreteren, context en woord-ambiguïteit op te lossen, en zelfs zelf goedgevormde menselijke taal te genereren. NLU-algoritmen moeten het uiterst complexe probleem van de semantische interpretatie aanpakken. Dat betekent: het begrijpen van de bedoelde betekenis van gesproken of geschreven taal, met alle subtiliteiten, context en gevolgtrekkingen die wij mensen kunnen begrijpen.

De evolutie van NLP naar NLU heeft heel wat belangrijke implicaties voor zowel bedrijven als consumenten. Stelt u zich de kracht voor van een algoritme dat de betekenis en nuance van menselijke taal in vele contexten kan begrijpen, van geneeskunde tot rechtspraak tot het klaslokaal. Naarmate de hoeveelheid ongestructureerde informatie exponentieel blijft toenemen, zullen wij baat hebben bij het onvermoeibare vermogen van computers om ons te helpen dit alles te begrijpen. 

Meer lezen