Przetwarzanie języka naturalnego (NLP)

Teoria i praktyka

Przetwarzanie języka naturalnego (NLP) to gałąź sztucznej inteligencji, która pomaga komputerom rozumieć ludzki język, interpretować go oraz nim operować. NLP czerpie z wielu dyscyplin, w tym z informatyki i lingwistyki obliczeniowej, aby z ich pomocą wypełnić lukę między komunikacją międzyludzką a interpretacją języka przez komputer.

Rozwój przetwarzania języka naturalnego

Przetwarzanie języka naturalnego nie jest co prawda nową dziedziną nauki, ale rozwój tej technologii nabrał szybkiego tempa ze względu na wzrost zainteresowania kwestią komunikacji między człowiekiem a maszyną oraz dzięki dostępności danych big data, potężnym mocom obliczeniowym i zaawansowanym algorytmom.

Człowiek może posługiwać się różnymi językami – angielskim, hiszpańskim czy chińskim – natomiast rodzimy język komputerów, zwany kodem lub językiem maszynowym, jest dla większości ludzi w dużej mierze niezrozumiały. Na najgłębszych poziomach operowania każdego z urządzeń komunikacja odbywa się nie przy użyciu słów, lecz milionów zer i jedynek, które tworzą logiczne ciągi działań.

70 lat temu programiści rzeczywiście komunikowali się z pierwszymi komputerami przy użyciu kart dziurkowanych – ten żmudny, ręczny proces rozumiało stosunkowo niewielu ludzi. Teraz wystarczy powiedzieć: „Alexa, I like this song”, a Twój odtwarzacz muzyki obniży głośność i głosem przypominającym ludzki odpowie: „OK, rating saved”, po czym zmieni swój algorytm w taki sposób, by włączyć tę konkretną piosenkę i piosenki do niej podobne, gdy kolejnym razem wybierzesz daną stację.

Przyjrzyjmy się tej interakcji z bliska. Urządzenie uruchomiło się na dźwięk Twojego głosu, zrozumiało niewypowiedziany sens usłyszanej uwagi, wykonało działanie i udzieliło informacji zwrotnej w formie poprawnie skonstruowanego zdania w języku angielskim, a wszystko to zajęło około pięciu sekund. Tę kompletną interakcję umożliwiło właśnie NLP w połączeniu z innymi elementami AI, takimi jak uczenie maszynowe czy uczenie głębokie.

Dzięki przetwarzaniu języka naturalnego usłyszysz każdy głos

Sprawdź, jak maszyny uczą się rozumieć i interpretować niuanse ludzkiego języka, w jaki sposób AI, przetwarzanie języka naturalnego i ludzka wiedza łączą siły, aby pomóc ludziom i maszynom porozumieć się ze sobą i poznać znaczenie danych, oraz jakie zastosowania NLP znajduje w różnych branżach.

Pobierz raport

Kia wykorzystuje AI i zaawansowane technologie analityczne, aby poznać opinie klientów

Kia Motors America regularnie gromadzi opinie klientów pochodzące z ankiet wypełnianych przez właścicieli aut – to pozwala firmie dowiadywać się o ewentualnych problemach dotyczących jakości oraz doskonalić oferowane produkty. Zrozumienie i klasyfikacja odpowiedzi zawartych w otrzymanych ankietach to jednak trudne zadania. Dzięki dostarczanym przez SAS narzędziom do przetwarzania języka naturalnego KIA może lepiej zrozumieć, co klienci chcą przekazać. Model NLP automatycznie kategoryzuje i wyodrębnia z każdej odpowiedzi typ uwagi, dzięki czemu wszelkie problemy związane z jakością można wyeliminować na etapie projektowania i produkcji istniejących i przyszłych pojazdów.

Przeczytaj opis

Dlaczego NLP jest ważne?

Duże ilości danych tekstowych

Przetwarzanie języka naturalnego pomaga komputerom porozumiewać się z ludźmi w ich własnym języku i pozwala realizować inne zadania językowe na większą skalę. Dzięki NLP komputery mogą na przykład czytać tekst, słyszeć mowę, interpretować treści, rozpoznawać wydźwięk i określać, które elementy są istotne.

Dzisiejsze maszyny potrafią analizować większe ilości danych językowych niż ludzie, a w dodatku robią to w spójny, bezstronny sposób, nie męcząc się przy tym. Biorąc pod uwagę, jak ogromne ilości nieustrukturyzowanych danych – od dokumentacji medycznej po treści społecznościowe – generowane są każdego dnia, bez automatyzacji pełna i efektywna analiza tekstu i mowy byłaby niemożliwa.

Strukturyzowanie wysoce nieustrukturyzowanych danych

Ludzki język jest niezwykle złożony i różnorodny. Wyrażamy się na nieskończenie wiele sposobów, zarówno ustnie, jak i pisemnie. Na świecie istnieją setki języków i dialektów, a każdy język cechuje się niepowtarzalnym zbiorem zasad gramatycznych i składniowych, mnogością terminów i własnym slangiem. Pisząc, często popełniamy błędy ortograficzne, skracamy słowa lub pomijamy interpunkcję. Mówiąc, posługujemy się regionalnym akcentem, mamroczemy, jąkamy się i zapożyczamy słowa z innych języków.

Podczas gdy uczenie nadzorowane i nienadzorowane, a w szczególności uczenie głębokie, są w dzisiejszych czasach szeroko stosowane na potrzeby modelowania ludzkiego języka, ważne są również takie obszary jak zrozumienie kwestii syntaktycznych i semantycznych oraz wiedza z danej dziedziny – obecnie elementy te nie są raczej uwzględniane w stosowanych podejściach do uczenia maszynowego. NLP jest ważne, ponieważ pomaga wyeliminować dwuznaczność typową dla języka oraz nadaje danym przydatną strukturę liczbową, wykorzystywaną do szeregu zastosowań niższego szczebla, takich jak rozpoznawanie mowy czy analiza tekstu.

NLP w dzisiejszym świecie

Dowiedz się, jak różne branże wykorzystują przetwarzanie języka naturalnego

Co dzięki analizie tekstu może zyskać twoja organizacja?

Analiza tekstu to rodzaj przetwarzania języka naturalnego, w ramach którego tekst zamieniany jest na dane na potrzeby analizy. Dowiedz się, jak organizacje działające w obszarze bankowości, ochrony zdrowia i nauk przyrodniczych, produkcji i administracji publicznej korzystają z analizy tekstu w celu poprawy doświadczeń klientów, ograniczenia liczby oszustw i poprawy jakości życia społecznego.

Pobierz raport

Przetwarzanie języka naturalnego zwiększa efektywność działań

Agencje rządowe są stale bombardowane danymi tekstowymi, w tym dokumentami elektronicznymi i papierowymi. Dzięki takim technologiom jak NLP, analiza tekstu czy uczenie maszynowe agencje mogą ograniczyć ilość uciążliwych procesów wykonywanych ręcznie, spełniając jednocześnie oczekiwania obywateli w zakresie przejrzystości i czasu reakcji, eliminując wyzwania dotyczące rynku pracy i umożliwiając dostęp do nowych informacji zawartych w danych.

Dowiedz się więcej

Jak działa NLP?

Rozkładanie języka na czynniki pierwsze

Przetwarzanie języka naturalnego obejmuje wiele różnych technik interpretowania ludzkiego języka, począwszy od metod statystycznych i uczenia maszynowego, a skończywszy na podejściu opartym na regułach i wykorzystującym algorytmy. Ważne jest, by stosować wiele różnych podejść, ponieważ dane tekstowe i głosowe potrafią ogromnie się różnić, podobnie jak ich praktyczne zastosowania.

Podstawowe zadania wykorzystujące technologię NLP obejmują tokenizację i analizę składniową, lematyzację lub analizę fleksyjną, oznaczanie części mowy i rozpoznawanie związków semantycznych. Pamiętasz szkołę podstawową i tworzenie wykresów zdań? W takim razie wiesz, o czym mowa.

Mówiąc ogólnie, zadania NLP polegają na rozbijaniu języka na krótsze, bardziej podstawowe elementy, podejmowaniu prób zrozumienia zależności pomiędzy poszczególnymi częściami składowymi oraz badaniu sposobu, w jaki łączą się one ze sobą, tworząc sens.

Zadania, o których mowa, często wykorzystuje się w ramach funkcji NLP wyższego szczebla. Są to:

Kategoryzacja treści. Streszczenie dokumentu na podstawie jego warstwy językowej, w tym wyszukiwanie i indeksowanie, alarmy dotyczące treści oraz wykrywanie powieleń.
Klasyfikacja na podstawie dużych modeli językowych (LLM). Klasyfikacja z wykorzystaniem modelu BERT służy rozpoznaniu kontekstu i znaczenia słów zawartych w tekście w celu osiągnięcia dokładności przewyższającej tę, z którą mamy do czynienia w przypadku modeli tradycyjnych.
Analiza korpusowa. Zrozumienie struktury korpusu i dokumentu poprzez wykorzystanie statystyki wartości wyjściowych w odniesieniu do zadań takich jak efektywne próbkowanie, przygotowywanie danych jako danych wejściowych dla dalszych modeli i opracowywanie strategii w zakresie podejścia do modelowania.
Wydobywanie kontekstowe. Automatyczne pozyskiwanie ustrukturyzowanych informacji ze źródeł tekstowych.
Analiza wydźwięku. Rozpoznanie nastroju lub subiektywnych opinii w obrębie dużych ilości tekstu, w tym określanie przeciętnego nastawienia i wyszukiwanie opinii.
Zamiana mowy na tekst i tekstu na mowę. Przekształcanie poleceń głosowych w tekst pisany i na odwrót.
Podsumowanie dokumentu. Automatyczne generowanie streszczeń dużych fragmentów tekstu i wykrywanie określonych języków w wielojęzycznych korpusach (dokumentach).
Tłumaczenie maszynowe. Automatyczne tłumaczenie tekstu lub mowy z jednego języka na drugi.

We wszystkich powyższych przypadkach celem nadrzędnym jest poddanie surowych językowych danych wejściowych obróbce lingwistycznej i działaniu algorytmów w celu przekształcenia i wzbogacenia tekstów w taki sposób, by stanowiły większą wartość.

SAS^® Visual Text Analytics

Jak znaleźć odpowiedzi w dużych ilościach danych tekstowych? Łącząc uczenie maszynowe z przetwarzaniem języka naturalnego i analizą tekstu. Dowiedz się, jak analizować nieustrukturyzowane dane w celu rozpoznania problemów, dokonania oceny wydźwięku, wykrycia pojawiających się trendów i dostrzeżenia ukrytych szans.

Metody i zastosowania przetwarzania języka naturalnego

Jak komputery rozumieją dane tekstowe

NLP i analiza tekstu

Przetwarzanie języka naturalnego idzie w parze z analizą tekstu, która polega na liczeniu, grupowaniu i kategoryzowaniu słów w celu nadania struktury dużym ilościom treści i wydobycia ich znaczenia. Analiza tekstu służy poznaniu jego treści i uzyskaniu nowych zmiennych z surowego tekstu z zamiarem ich wizualizacji, przefiltrowania lub użycia jako danych wejściowych zasilających modele predykcyjne lub inne metody statystyczne.

NLP i analiza tekstu są wykorzystywane łącznie do wielu zastosowań, w tym do wymienionych poniżej:

Zbieranie materiałów dowodowych do celów dochodzeniowych. Rozpoznawanie wzorców i odnajdywanie wskazówek w e-mailach i pisemnych raportach na potrzeby wsparcia w zakresie wykrywania i wyjaśniania przestępstw.
Specjalistyczna wiedza z danej dziedziny. Podział treści na odpowiednie tematy w celu późniejszego podjęcia działań i rozpoznania trendów.
Analiza mediów społecznościowych. Monitorowanie świadomości określonych tematów i opinii na ich temat oraz wskazywanie najważniejszych osób wyznaczających trendy.

Przykłady zastosowania NLP w codziennym życiu

Istnieje wiele popularnych i praktycznych zastosowań NLP w naszym codziennym życiu. I nie mamy tu na myśli jedynie rozmowy z wirtualnymi asystentami, np. z Alexą lub Siri, lecz także inne przykłady:

Zwracasz czasem uwagę na e-maile znajdujące się w Twoim folderze ze spamem i zauważasz, że ich tematy są do siebie podobne. Tak działa bayesowski filtr spamu – statystyczna technika NLP, która porównuje treść niechcianych wiadomości z treścią tych chcianych i na tej podstawie rozpoznaje spam.
Zdarzyło Ci się nie odebrać telefonu, a potem przeczytać umieszczoną w Twojej skrzynce odbiorczej lub w aplikacji na smartfonie automatyczną transkrypcję wiadomości nagranej na pocztę głosową. To za sprawą jednej z funkcji NLP, a konkretnie zamianie mowy na tekst.
Czy na stronie, którą przeglądasz, korzystasz czasem z paska wyszukiwania lub wybierasz sugerowane tagi przypisane do określonych tematów, obiektów bądź kategorii? Taką opcję zawdzięczasz metodom NLP umożliwiającym wyszukiwanie, modelowanie tematyczne, wyodrębnianie encji i kategoryzację treści.

W ostatnim czasie wzrosło zainteresowanie poddziedziną NLP, jaką jest rozumienie języka naturalnego (NLU). Swoją popularność obszar ten zawdzięcza potencjałowi w zakresie zastosowań kognitywnych i AI. NLU wykracza poza strukturalne rozumienie języka i potrafi interpretować intencje, radzi sobie z wieloznacznością kontekstu i pojedynczych słów, a nawet samodzielnie generuje poprawne wypowiedzi w ludzkim języku. Algorytmy NLU muszą mierzyć się z niezwykle złożonym problemem interpretacji semantycznej, czyli zrozumieć zamierzone znaczenie języka mówionego lub pisanego, ze wszystkimi jego subtelnościami, kontekstowością i sugestiami, które dla nas, ludzi, nie stanowią szczególnego problemu.

Rozwój NLP w kierunku NLU oznacza szereg ważnych konsekwencji zarówno dla firm, jak i dla konsumentów. Wyobraź sobie, jaką moc miałby algorytm umiejący zrozumieć znaczenie i niuanse ludzkiego języka w wielu różnych kontekstach, od medycznego przez prawny po edukacyjny. W obliczu gwałtownego wzrostu ilości nieustrukturyzowanych informacji, z jakimi mamy do czynienia, bez wątpienia zyskamy dzięki wsparciu komputerów, które wytrwale starają się nam pomóc odnaleźć w tym wszystkim sens.