자연어 처리 (NLP)
자연어 처리의 정의 및 중요성
자연어 처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 해석하며 조작하도록 돕는 인공지능( artificial intelligence)의 한 분야입니다. NLP에는 인간의 의사 소통 방식과 컴퓨터의.이해력의 간극을 메우기 위해 컴퓨터 과학이나 전산 언어학 등 많은 분야가 동원됩니다.
자연어 처리의 진화
자연어 처리는 새로운 과학이 아니지만, 인간과 기계 간의소통에 대한 관심이 증가하고 big data와 강력한 컴퓨팅, 그리고 향상된 알고리즘의 등장에 힘입어 빠르게 발전하고 있습니다.
인간은 영어, 스페인어 또는 중국어를 구사하고 쓸 수 있습니다. 그러나 컴퓨터 코드 또는 기계어라고 하는 컴퓨터의 고유 언어는 대다수의 사람이 이해하지 못합니다. 기계의 가장 기초적인 소통 방식은 단어가 아니라 논리적 반응을 야기하는 수백만 개의 0 과 1을 통해 이뤄집니다.
실제로 70년 전 컴퓨터가 처음 개발되었을 때, 프로그래머들은 펀치 카드를 사용하여 컴퓨터와 소통했었습니다. 이 고된 수동 프로세스는 비교적 소수의 사람들만이 이해할 수 있었습니다. 그런데 이제는 가정에서 음악을 재생하는 기기에게 "Alexa, 이 노래가 마음에 들어"라고 말하면 기기가 볼륨을 낮추면서 인간의 목소리로 "알겠습니다. 평가를 저장합니다"라고 답합니다. 그리고 나중에 음악을 들을 때 기기가 알고리즘을 조정하여 그러한 방식으로 저장된 노래들을 재생합니다.
이러한 소통 방식을 좀 더 자세히 살펴보겠습니다. 사용자의 음성이 들리면 기기가 활성화되고, 말 속에서 무언의 의도를 간파한 후 행동을 취하고, 문법에 맞는 문장으로 결과를 알려줍니다. 이 모든 일이 약 5초 만에 이뤄집니다. machine learning 이나 deep learning 같은 다른 AI 요소와 더불어 NLP가 등장하면서 완전한 소통이 가능해졌습니다.
Make every voice heard with natural language processing
Discover how machines can learn to understand and interpret the nuances of human language; how AI, natural language processing and human expertise work together to help humans and machines communicate and find meaning in data; and how NLP is being used in multiple industries.
NLP를 통한 고객 불만 최소화
Royal Bank of Scotland(스코틀랜드 왕립은행)는 NLP 기법의 일종인 텍스트 분석 (text analytics)을 이용해 다양한 형식의 고객 피드백에서 주요 트렌드를 도출합니다. 이 회사는 이메일, 설문조사, 그리고 콜센터 대화의 데이터를 분석하여 고객 불만의 근본 원인을 파악하고 이를 개선합니다. 아래 동영상에서 고객 관계를 쇄신할 수 있는 분석(analytics)에 대해 자세히 알아보십시오
NLP는 왜 중요할까요?
많은 양의 텍스트 데이터
컴퓨터가 고유의 언어로 인간과 소통하는 데 사용되는 자연어 처리는 다른 언어 관련 작업에도 활용되고 있습니다. 예를 들어 NLP가 적용된 컴퓨터는 텍스트를 읽거나 말을 듣고, 이를 해석하고 감정을 판단하여 중요한 부분을 알아낼 수 있습니다.
오늘날 기계는 일관적이고 중립적인 방식으로 언어 기반의 데이터를 사람보다 더 많이, 지치지 않고 분석해냅니다. 의료 기록부터 소셜 미디어에 이르기까지 엄청난 양의 비정형 데이터가 매일 쏟아지는 현실을 감안할 때, 텍스트 및 음성 데이터를 효율적으로 완전히 분석하려면 자동화가 필수적입니다
고도의 비정형 데이터 소스 구성하기
인간의 언어는 놀랄 만큼 복잡하고 다양합니다. 인간은 말과 글을 사용해 무한한 방식으로 자신을 표현합니다. 언어에는 수백 가지의 종류와 방언이 존재하는 데다, 문법과 구문 규칙, 용어, 속어도 저마다 다릅니다. 우리는 글을 쓸 때 단어의 철자를 틀리거나, 약어를 사용하거나, 혹은 구두점을 생략하기도 합니다. 말을 할 때는 지방마다 특유의 억양이 드러나며, 웅얼거리거나, 말을 더듬거나 또는 다른 언어의 용어를 차용하기도 합니다.
지도(supervised) 및 비지도(unsupervised) 학습을 비롯해 특히 딥 러닝이 인간의 언어를 모델링하는 데 널리 사용되고 있지만, 머신 러닝 기술이 갖추지 않은 구문론적/의미론적 이해와 해당 분야의 전문 지식도 필요한 상황입니다. NLP가 중요한 이유는 이것이 언어의 모호성을 완화하고, 음성 인식이나 텍스트 분석 같은 다수의 다운스트림(downstream) 애플리케이션용 데이터에 유용한 숫자 구조를 추가하기 때문입니다.
NLP 이용 현황
업계 전반의 NLP 이용 현황에 대한 자세한 정보
NLP 계획하기
전 세계 기업들은 인공 지능과 NLP를 어떻게 이용하고 있을까요? 이러한 기술의 도입율과 향후 전망을 비롯해 예산 및 배포 계획, 그리고 NLP 알고리즘으로 해결할 수 있는 비즈니스 문제가 궁금하시다면 이 TDWI 보고서를 살펴보세요.
비정형 텍스트가 지닌 미지의 가능성
사람들의 생각, 조사, 의견, 사실, 피드백이 소셜 미디어 피드, 법률 사건 파일, 전자 의료 기록, 고객 센터 기록, 보증 서비스 신청 등을 통해 디지털 세계로 유입됩니다. 자연어 처리는 단어의 흐름 속에 숨어 있는 인사이트를 찾아냅니다.
기업에서 텍스트 분석을 활용하는 방법
텍스트 분석은 분석하기 적합하도록 텍스트를 데이터로 변환하는 일종의 자연어 처리입니다. 은행, 의료 및 생명 과학, 제조, 정부 분야에 종사하는 기업들이 텍스트 분석을 이용해 고객 경험을 어떻게 개선하고, 사기를 방지하며, 사회를 발전시키는지 알아보세요.
NLP의 작동 원리
언어의 기본 요소 분석
인간의 언어를 해석하는 자연어 처리에는 통계 및 머신 러닝 기술부터 규칙 기반 및 알고리즘 방식에 이르기까지 다양한 기법이 있습니다. 실제 애플리케이션과 마찬가지로 텍스트 및 음성 기반의 데이터가 매우 다양하기 때문에 광범위한 기법이 필요합니다.
기초적인 NLP 작업으로는 토큰화 및 구문 분석, 표제어 추출/어간 추출, 품사 표시, 언어 감지, 의미론적 관계 식별 등이 있습니다. 초등학교 때 문장을 도식화해본 경험이 있다면 이러한 작업을 직접 해본 것입니다.
일반적으로 NLP 작업은 언어를 더 짧은 기본 요소로 분해하고,각 요소 간의 관계를 이해하며, 요소들이 서로 어떻게 작용하여 의미를 이루는지 탐구합니다.
이러한 기본 작업은 다음과 같은 고급 NLP 기능에 주로 사용됩니다.:
- 콘텐츠 분류(Content categorization). 언어 기반의 문서 요약 기술로, 검색과 색인, 콘텐츠 알림 복사 감지 등에 사용됩니다..
- 주제 발견 및 모델링(Topic discovery and modeling). 텍스트 집합에서 의미와 주제를 정확히 포착하고, 최적화나 예측과 같은 고급 분석을 텍스트에 적용합니다.
- 맥락 추출(Contextual extraction). 텍스트 기반 소스에서 정형 정보를 자동으로 추출합니다.
- 감정 분석(Sentiment analysis). 대량의 텍스트에서 분위기나 주관적인 의견을 파악합니다.일반적인 감정 및 감성 분석이 이에 해당합니다. .
- 음성-텍스트(STT) 변환 및 텍스트-음성(TTS) 변환(Speech-to-text and text-to-speech conversion). Trans음성 명령을 문자 텍스트로 변환하거나 문자 텍스트를 음성 명령으로 변환합니다..
- 문서 요약(Document summarization). 많은 양의 본문을 자동으로 요약합니다.
- 머신 분석(Machine translation). 텍스트나 음성을 한 언어에서 다른 언어로 자동 번역합니다.
이러한 모든 작업에서 가장 중요한 목표는 가공되지 않은 언어 그대로를 입력하는 방식을 통해 언어학 및 알고리즘을 사용하여, 텍스트를 보다 분석에 가치 있는 형식으로 변환하거나 보강하는 것입니다.
NLP의 방식 및 응용 분야
컴퓨터가 텍스트 데이터를 인식하는 방법
NLP및 텍스트 분석
자연어 처리는 단어를 계산, 그룹화, 분류하여 대량의 콘텐츠에서 구조와 의미를 추출하는텍스트 분석 (text analytics)과 관련이 있습니다. 텍스트 분석은 텍스트 콘텐츠를 탐색하고 원시(raw) 텍스트에서 새로운 변수를 도출하는 데 사용됩니다. 원시 텍스트는 예측 모델 또는 기타 통계 방식에 입력 정보로 사용하거나 시각화 또는 필터링할 수 있습니다.
NLP와 텍스트 분석 기술은 다음과 같은 여러 응용 분야에 함께 사용됩니다.
- 조사 발견(Investigative discovery). 이메일이나 서면 보고서에서 패턴과 단서를 찾아내 범죄를 감지하고 해결합니다.
- 주제 전문성(Subject-matter expertise). 콘텐츠를 의미 있는 주제로 분류하여 조치를 취하고 트렌드를 파악합니다.
- 소셜 미디어 분석(Social media analytics). 특정 주제에 대한 사람들의 인식과 정서를 추적하고 영향력 있는 인물(influencer)을 식별합니다.
일상적인 NLP 사용 예시
NLP는 우리의 실생활에서 흔히 사용되고 있습니다. Alexa나 Siri 같은 가상 비서와의 대화 외에도, 몇 가지 예시를 더 소개하겠습니다.
- 스팸 폴더의 이메일을 보다가 제목줄에서 비슷한 점을 발견한 적 있으신가요? 그게 바로 베이지안(Bayesian) 스팸 필터링입니다. 이것은 스팸 메일의 단어를 정상적인 이메일과 비교하여 정크 메일을 식별하는 NLP 통계 기술입니다.
- 전화를 미처 받지 못해 이메일의 받은 편지함이나 스마트폰 앱에서 음성 사서함에 저장된 자동 텍스트를 읽어본 적이 있으신가요? 이게 바로 NLP의 음성-텍스트 변환 기능입니다.
- 내장된 검색창을 이용하거나 제안된 주제, 개체 또는 카테고리 태그를 선택하여 특정 웹사이트로 이동한 적이 있으신가요? 그렇다면 검색, 주제 모델링, 개체 추출, 콘텐츠 분류에 NLP 방식을 사용한 것입니다.
자연어 이해(NLU)라는 NLP의 하위 분야는 인지 및 AI 응용 분야에서 드러난 잠재력에 힘입어 인기를 끌기 시작했습니다. NLU는 언어의 구조를 파악하는 것을 넘어 의도를 해석하고, 문맥과 단어의 모호성을 해결하며, 문법에 맞는 인간 언어를 스스로 생성하기도 합니다. NLU 알고리즘은 매우 복잡한 의미론적 해석 문제를 해결해야 합니다. 다시 말해서 인간이 이해할 수 있는 미묘한 차이와 맥락, 추론과 더불어 구어나 텍스트가 지닌 의미를 파악해야 합니다.
NLP에서 NLU로의 진화는 기업과 소비자 모두에게 여러모로 중요한 영향을 미칩니다. 인간 언어의 의미와 뉘앙스를 이해할 수 있는 알고리즘이 의료 산업이나 법률, 교육계 등 다양한 분야에서 어떤 파급 효과를 가져올지 상상해보세요. 비정형 정보가 기하급수적으로 증가하는 가운데, 컴퓨터의 지칠 줄 모르는 분석 능력을 활용한다면 모든 정보를 활용할 수 있을 것입니다.
Recommended Reading
- Fishing for the freshest data: Leading the global seafood market with analyticsThe Norwegian Seafood Council uses SAS to give Norwegian fish exporters a competitive advantage.
- Manufacturing smarter, safer vehicles with analyticsKia Motors America relies on advanced analytics and artificial intelligence solutions from SAS to improve its products, services and customer satisfaction.
- Reducing hospital-acquired infections with artificial intelligence Hospitals in the Region of Southern Denmark aim to increase patient safety using analytics and AI solutions from SAS.
- Your personal data scientistImagine pushing a button on your desk and asking for the latest sales forecasts the same way you might ask Siri for the weather forecast. Find out what else is possible with a combination of natural language processing and machine learning.