Processamento de Linguagem Natural

O que é e qual sua importância?

 

Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial que ajuda computadores a entender, interpretar e manipular a linguagem humana. O PLN resulta de diversas disciplinas, incluindo ciência da computação e linguística computacional, que buscam preencher a lacuna entre a comunicação humana e o entendimento dos computadores.

 

Evolução do processamento de linguagem natural

Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está avançando rapidamente graças ao interesse cada vez maior na comunicação homem-máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.

Enquanto humano, você pode falar e escrever em inglês, espanhol ou chinês. Mas o idioma nativo de um computador – conhecido como código de máquina ou linguagem de máquina – é altamente incompreensível para a maioria das pessoas. Nos níveis mais profundos dos seus dispositivos, a comunicação acontece não com palavras, mas através de milhões de 0s e 1s que produzem ações lógicas.

Há 70 anos, programadores usavam cartões furados para se comunicar com os primeiros computadores. Esse processo manual e penoso era compreendido por um número relativamente pequeno de pessoas. Hoje você pode dizer “Alexa, eu gosto desta música”, e um dispositivo em sua casa irá abaixar o volume e responder “Ok, classificação salva” numa voz que simula a de um ser humano. Na sequência, ele adapta seu algoritmo para tocar essa música – e outras parecidas – na próxima vez que você ouvir aquela estação.

Vejamos essa interação em detalhe. Seu dispositivo foi ativado quando ouviu você falar, entendeu a intenção nas entrelinhas do comentário, executou uma ação e deu um feedback numa frase bem construída, tudo isso em cerca de cinco segundos. A interação completa só é possível graças ao PLN em conjunto com outras tecnologias de inteligência artificial como machine learningdeep learning.

 

Reduzindo o número de reclamações com PLN

O Royal Bank of Scotland usa análise de texto, uma técnica de PLN, para extrair tendências importantes do feedback dos clientes. A empresa analisa dados de e-mails, pesquisas e conversas no call center para identificar a causa da insatisfação dos clientes e implementar melhorias. Assista ao vídeo para saber mais sobre como o analytics pode transformar o relacionamento com os clientes.

 

Qual a importância do PLN?

Grandes volumes de dados textuais

O processamento de linguagem natural ajuda computadores a se comunicar com seres humanos em sua própria linguagem e escala outras tarefas relacionadas à linguagem. Por exemplo, o PLN possibilita que computadores leiam textos, ouçam e interpretem falas, identifiquem sentimentos e determinem quais trechos são importantes.

As máquinas de hoje podem analisar mais dados baseados em linguagem do que seres humanos, sem fadiga, de maneira consistente e imparcial. Considerando a quantidade gigantesca de dados não-estruturados que é gerada todos os dias, de registros médicos a mídias sociais, a automação será imprescindível para uma análise de texto e fala completa e eficiente.

Estruturando uma fonte de dados altamente não-estruturada

A linguagem humana é surpreendentemente complexa e diversa. Nós nos expressamos de infinitas maneiras, tanto verbalmente quanto por escrito. Não apenas existem centenas de idiomas e dialetos, como há também um conjunto único de regras gramaticais e de sintaxe, expressões e gírias dentro de cada um deles. Quando escrevemos, costumamos cometer erros ou abreviar palavras, ou omitimos pontuações; quando falamos, carregamos sotaques regionais, tendemos a murmurar e emprestamos termos de outros idiomas.

Embora o aprendizado supervisionado, o aprendizado não-supervisionado e, especificamente, o deep learning sejam hoje amplamente utilizados para modelar a linguagem humana, há também a necessidade de compreensão sintática e semântica, além de domínio, que não estão necessariamente presentes nessas abordagens de machine learning. O PLN é importante porque ajuda a resolver a ambiguidade na linguagem e adiciona uma estrutura numérica útil aos dados para muitas aplicações downstream, como reconhecimento de fala ou análise de texto. 

PLN no mundo de hoje

Saiba como as indústrias estão usando o processamento de linguagem natural.

Se planejando para o PLN

Como as organizações do mundo inteiro estão usando inteligência artificial e PLN? Quais são as taxas de adoção e planos futuros para essas tecnologias? Quais são os orçamentos e planos de implantação? E quais problemas de negócios estão sendo resolvidos com algoritmos de PLN? Descubra neste relatório da TDWI.

Deep learning para processamento de linguagem natural 

Descubra como as técnicas de deep learning estão sendo aplicadas ao PLN para entender textos, avaliar sentimento e mais. James C. Lester, um renomado professor de ciência da computação na NC State University, aborda a normalização de texto e outros tópicos com James A. Cox, Diretor de Text Analytics do SAS.

Como o PLN funciona?

Separando as partes elementais da linguagem.

O processamento de linguagem natural incorpora técnicas diversas para interpretar a linguagem humana, desde métodos estatísticos e de machine learning a abordagens algorítmicas e baseadas em regras. Nós precisamos de uma boa variedade de abordagens, porque dados baseados em texto ou voz divergem muito, assim como suas aplicações práticas.

Tarefas básicas de PLN incluem tokenização e análise sintática (parsing), lematização/stemização, rotulagem dos componentes do discurso, detecção de idioma e identificação de relações semânticas. Se alguma vez você estruturou orações na escola, então você já realizou todas essas tarefas manualmente.

Em termos gerais, as tarefas do PLN segmentam a linguagem em partes menores e essenciais, tenta entender as relações entre elas e explora como esses pedaços funcionam juntos para criar significado.

Essas tarefas subjacentes são frequentemente utilizadas em níveis mais complexos de PLN, tais como:

  • Categorização de conteúdo. Um resumo do documento baseado em linguística, que inclui pesquisa e indexação, alertas de conteúdo e detecção de duplicações;
  • Descoberta e modelagem de tópicos. Captura com precisão o significado e os temas em coleções de texto, e aplica advanced analytics como otimização e forecasting;
  • Extração contextual. Extrai automaticamente informações estruturadas de fontes textuais;
  • Análise de sentimento. Identifica o estado de espírito ou opiniões subjetivas em grandes quantidades de texto, incluindo o sentimento médio e a mineração de opinião;
  • Conversão fala-texto e texto-fala. Transforma comandos de voz em texto escrito e vice-versa;
  • Sumarização. Gera sinopses de grandes corpos de texto automaticamente;
  • Tradução de máquina. Traduz texto ou fala de um idioma para outro, automaticamente.

Em todos esses casos, o objetivo almejado é pegar as entradas brutas e usar linguística e algoritmos para transformar ou enriquecer o texto de modo a obter resultados melhores.

Métodos e aplicações de PLN

Como computadores entendem dados textuais

PLN e análise de texto

O processamento de linguagem natural anda de mãos dadas com a análise de texto, que conta, agrupa e categoriza palavras para extrair estruturas e significados de grandes volumes de conteúdo. A análise de texto é utilizada para explorar conteúdos textuais e encontrar novas variáveis de texto bruto, que podem ser visualizadas, filtradas ou usadas como entradas para modelos preditivos ou outros métodos estatísticos.

O PLN e as análises de texto são utilizadas em conjunto para muitas aplicações, incluindo:

  • Descoberta investigativa. Identifica padrões e pistas em e-mails ou relatórios escritos para ajudar na detecção e resolução de crimes;
  • Conhecimentos especializados. Classifica conteúdos em tópicos significativos para que você possa tomar ações e descobrir tendências;
  • Análise de mídias sociais. Rastreia a relevância e o sentimento sobre tópicos específicos, e identifica influencers.

Exemplos de PLN no dia-a-dia 

Existem muitas aplicações práticas e comuns para o PLN em nossas vidas cotidianas. Além de conversar com assistentes virtuais como Alexa ou Siri, eis alguns outros exemplos: 

  • Você já olhou para os e-mails na sua caixa de spam e notou similaridades nos assuntos? Você está vendo um filtro de spam Bayesiano, uma técnica estatística de PLN que compara as palavras mais comuns em mensagens de spam para validar e-mails e identificar lixo eletrônico;
  • Você já perdeu uma ligação e leu sua transcrição automática por e-mail ou em um aplicativo? Isso é a conversão fala-texto, uma capacidade de PLN;
  • Você já navegou em um site utilizando sua ferramenta de busca embutida ou ao selecionar um tópico sugerido, entidade ou tags? Então você já usou métodos de PLN para pesquisa, modelagem de tópicos, extração de entidades e categorização de conteúdo.

Um subcampo do PLN chamado entendimento de linguagem natural (ELN) começou a ganhar popularidade graças ao seu potencial em aplicações cognitivas e de IA. O ELN ultrapassa os limites do entendimento estrutural da linguagem para interpretar intenções, resolver ambiguidades contextuais e de palavras, e até mesmo criar linguagens humanas bem-formadas por si só. Algoritmos de ELN devem resolver o problema extremamente complexo de interpretação semântica – ou seja, compreender o significado pretendido da linguagem falada ou escrita, com todas as suas sutilezas, contextos e inferências que nós, humanos, somos capazes de compreender.

A evolução do PLN para o ELN tem implicações muito importantes para empresas e consumidores. Imagine o poder de um algoritmo que possa entender o significado e a nuance da linguagem humana em contextos variados, da medicina ao direito ou à sala de aula. Conforme os volumes de informações não-estruturadas continuam a crescer exponencialmente, nós iremos nos beneficiar da capacidade incansável dos computadores de entender tudo.

Leia também