머신러닝

소개 및 활용 방안

머신러닝은 인공 지능 (AI)의 한 분야로, 데이터 분석을 위한 모델 생성을 자동화 하여 소프트웨어가 데이터를 바탕으로 학습하고 패턴을 찾아냅니다. 이를 통해 사람의 개입을 최소화 하고 빠르게 의사 결정을 내릴 수 있도록 지원합니다.

머신러닝의 발전

새로운 컴퓨팅 기술의 발전으로 오늘날의 머신러닝은 과거의 머신러닝과는 다른 모습을 보이고 있습니다. 머신러닝 기술은 특정한 과제를 수행하도록 프로그래밍하지 않아도 컴퓨터가 학습할 수 있다는 이론과 데이터 패턴 인식이 어우러져 탄생했습니다. 인공 지능 (AI)에 관심을 가진 연구자들은 컴퓨터가 데이터를 통해 학습할 수 있는지 알고자 했습니다. 새로운 데이터에 노출됨에 따라 독립적으로 최적화를 수행한다는 점에서 머신러닝에서는 반복적 측면이 중요한데, 이전 연산 결과를 학습하여 믿을 수 있는 의사 결정 및 결과를 반복적으로 산출하기 때문입니다 머신러닝은 새로운 개념은 아니지만 새롭게 각광 받고 있는 분야로 떠오르고 있습니다.

오랜 기간 수 많은 머신러닝 알고리즘이 등장하였지만 새로운 기술의 발전에 힘입어 복잡한 수학적 계산을 반복하여 더욱 빠르게 빅 데이터 분석에 자동으로 적용할 수 있는 기술들이 개발되고 있습니다. 머신러닝이 상용화 되면서 주변에서 쉽게 접할 수 있는 몇가지 사례는 아래와 같습니다.

  • 대대적인 홍보를 하고 있는 Google의 자동 주행 자동차
  • Amazon과 Netflix에서 제공하는 온라인 상품 추천 시스템
  • Twitter (mention 분석을)를 통한 고객의 기업 평가 분석과 같은 텍스트 분석
  • 사기 및 부당 거래 탐지와 같은 사기 탐지

 

머신러닝의 기초

머신러닝이란 무엇이며 이렇게 주목 받고 있는 이유는 무엇일까요? SAS가 제공하는 머신러닝 기술, 작동 방식, 비즈니스에 적용 및 활용 방안을 왼쪽의 동영상을 통해 확인해 보실 수 있습니다.

머신러닝의 중요성

머신러닝에 대한 관심은 데이터 마이닝이나 베이지안 분석과 같은 기술의 발전에서 찾아볼 수 있습니다. 즉, 사용 가능한 데이터의 볼륨과 다양성의 증가, 분석 비용의 감소, 강력해진 분석 기술, 저렴한 스토리지 비용 등이 머신러닝에 대한 지속적인 관심을 불러일으키는 요인입니다.

이 모든 상황을 종합해보면 아무리 규모가 큰 데이터라도 분석 모델을 자동으로 빠르게 생성함으로써 복잡한 분석에서 정확한 결과를 도출할 수 있습니다. 또한, 기업들은 이러한 결과를 이용하여 수익성이 높은 기회를 찾아내거나 미지의 위험을 회피하는 등 인사이트를 획득할 수 있습니다.

 

훌륭한 머신러닝 시스템 구축에 필요한 조건

  • 데이터 준비 역량
  • 기본 및 고급 알고리즘
  • 자동화/반복 프로세스
  • 확장성
  • 앙상블 모델링
Machine learning infographic

알고 계신가요?

  • 머신러닝에서는 목표값을 레이블이라고 부릅니다.
  • 통계에서는 목표값을 종속 변수라고 부릅니다.
  • 통계학에서 변수라고 부르는 것을 머신러닝에서는 피처라고 부릅니다.
  • 통계학에서 변환이라고 부르는 것을 머신러닝에서는 피처 생성이라고 부릅니다.

머신러닝의 현 주소

알고리즘을 이용해 연계성을 찾아내는 모델을 구축함으로써 조직은 사람의 개입 없이도 더 나은 의사 결정을 내릴 수 있습니다.
우리가 살아가는 세상을 만들고 발전시키는 기술들에 대해 확인해보세요!

White Paper

SAS®로 구현하는 딥러닝 기술

딥러닝 및 응용 분야를 알아보고 딥러닝 모델 개발을 위한 SAS의 지원 기술을 확인하십시오. 데이터 사이언티스트를 대상으로 SAS에서 개발한 딥러닝 방식으로 모델을 개발하는 과정을 순차적으로 설명하고 있습니다.

백서 확인하기

머신러닝을 위한 SAS 솔루션

SAS는 분석의 모든 프로세스를 표준화하고, 다양하고 검증된 머신러닝 알고리즘을 적용하여 비즈니스 고민을 쉽게 해결할 수 있도록 돕고 있습니다. 본 백서는 머신러닝을 위한 고려사항과 머신러닝을 위한 솔루션 및 솔루션 별 머신러닝을 어떻게 구현하는지 알 수 있습니다.

백서 확인하기

SAS의 첨단 분석 기술


머신러닝이 그 자체로 특정한 기술인 것은 아닙니다. 데이터 마이닝과 같은 소프트웨어와 첨단 분석 기술이 결부되어야 비로소 머신러닝을 통해 대량의 데이터를 분석하고 인사이트를 획득할 수 있습니다. SAS 솔루션은 이 모든 작업을 간단하게 처리할 수 있는 혁신적인 알고리즘을 포함하고 있습니다.

SAS의 분석 솔루션에 대해 자세히 알아보기

머신러닝의 사용자

많은 양의 데이터를 처리하고 분석하는 대부분의 산업에서는 머신러닝을 적극적으로 활용하고 있습니다. 대부분 실시간 데이터를 분석하고 인사이트를 얻음으로써 기업은 보다 효과적으로 기회를 포착하고 경쟁 우위를 획득할 수 있습니다.

금융 서비스

은행을 비롯해 금융 산업에서는 머신러닝 기법을 다음과 같이 활용합니다. 첫째로 데이터로부터 중요한 인사이트를 확인하고 사기를 방지하는 것입니다. 이러한 인사이트는 투자 기회를 확인하거나 투자자가 거래 시기를 정확히 파악할 수 있도록 지원합니다. 또한 데이터 마이닝을 이용해 고위험 특징을 보이는 클라이언트를 식별하거나 사이버 감시를 이용해 사기의 전조 징후를 정확하게 발견해낼 수 있습니다.

정부

공공의 안전을 담당하는 정부 부처와 공공 서비스를 제공하는 기관에서는 다양한 데이터를 가지고 있기 때문에 머신러닝으로 인사이트를 획득할 수 있는 기회가 특히 많습니다. 예를 들어, 센서 데이터를 분석하여 효율성을 높이고 비용을 절감할 수 있는 방법을 찾아낼 수도 있고 머신러닝을 이용하여 사기를 감지하고 개인정보 도용을 최소화할 수도 있습니다.

의료 서비스

IoT 기술을 이용해 환자의 건강 상태를 실시간으로 파악할 수 있는 웨어러블 장치와 센서 덕분에 의료 산업은 머신러닝이 빠르게 성장하는 주 무대가 되고 있습니다. 또한 머신러닝은 의료 전문가가 실시간 데이터를 분석하여 환자의 변화 추이나 적색 경고를 확인함으로써 진단과 치료 효과 개선에 활용될 수 있습니다.

마케팅 및 영업

구매자가 좋아할 만한 상품을 추천하는 웹사이트도 머신러닝을 활용할 수 있습니다. 과거 구매자의 검색 및 구매 기록을 분석하여 상품 추천 및 홍보에 사용할 수 있습니다. 이렇게 데이터를 포착하여 활용해서 쇼핑 경험을 개별화(또는 마케팅 캠패인 실행)하는 추세가 산업의 미래로 다가오고 있습니다.

석유 및 가스

새로운 에너지원의 발견, 매장된 광물 분석, 정유 시설의 센서 고장 예측, 보다 효율적이고 경제적으로 석유 물류 구조 개선 등 석유 및 가스 산업에서 머신러닝을 활용할 수 있는 부분이 매우 많을 뿐 아니라 계속해서 그 사용 범위가 늘어나고 있습니다.

운송

수익성을 높이기 위해 이동 경로를 효율적으로 배치하고 잠재적인 문제를 예측해야 하는 운송 업계에서도 데이터를 분석하여 패턴과 트렌드를 찾아내는 기술이 핵심 기술로 대두되고 있습니다. 따라서 택배 업체, 대중 교통 서비스 및 기타 운송 기업은 머신러닝의 데이터 분석과 모델링 기술을 중요한 분석 솔루션으로 이용하고 있습니다.

이 기술을 사용하는 산업에 대해 자세히 알아보십시오.

활용 방안

머신러닝의 가치를 극대화 하기 위해서는 최적의 알고리즘과 적합한 도구 및 프로세스를 결합시키는 방법을 알아야 합니다. SAS는 통계 및 데이터 마이닝 분야에서 쌓아온 풍부하고 정교한 노하우와 새로운 아키텍처 기술을 결합하여 방대한 엔터프라이즈 환경에서도 분석 모델의 운영 시간을 최대한 단축할 수 있습니다.

알고리즘: SAS 그래픽 인터페이스는 머신러닝 모델을 구축하여 반복적인 머신러닝 프로세스를 구현하는 데 효과적입니다. 통계 전문가 뿐 아니라 실무진 등 모든 사용자들이 쉽게 사용할 수 있습니다. 다양한 SAS 솔루션에 머신러닝 알고리즘이 포괄적으로 구성되어 있으므로 원하는 알고리즘을 선택하여 빅 데이터의 가치를 신속하게 창출할 수 있습니다. SAS는 아래와 같은 머신러닝 알고리즘을 제공합니다.

신경망(Neural networks)
 
의사 결정 트리 (Decision trees)
 
랜덤 포레스트 (Random forests)
 
연관성 및 수열 탐색 (Associations and sequence discovery)
 
변화도 부스팅 및 배깅 (Gradient boosting and bagging)
 
서포트 벡터 머신 (Support vector machines)
 
최근접 이웃 매핑 (Nearest-neighbor mapping)
 
k 평균 군집화 (k-means clustering)
 
자기 조직화 지도 (Self-organizing maps)
 
로컬 검색 최적화 기법(유전자 알고리즘 등)
Local search optimization techniques (e.g., genetic algorithms)
 
기대값 최대화 (Expectation maximization)
 
다변량 적응 회귀분석 모형(MARS)
(Multivariate adaptive regression splines)
 
베이지안 네트워크 (Bayesian networks)
 
커널 밀도 추정 (Kernel density estimation)
 
주요 구성요소 분석 (Principal component analysis)
 
특이값 분해 (Singular value decomposition)
 
가우스 혼합 모델 (Gaussian mixture models)
 
순차적 커버링 규칙 구성 (Sequential covering rule building)
 

 

도구 및 프로세스: 우리가 지금 얘기하는 것은 단순히 알고리즘의 문제가 아닙니다. 궁극적으로 빅 데이터에서 최고의 가치를 창출하려면 당면과제에 가장 적합한 알고리즘을 다음과 같은 능력과 결합할 수 있어야 합니다.

종합적인 데이터 품질 관리
 
모델 및 프로세스 플로를 구축하기 위한 GUI
 
인터랙티브 데이터 탐색과 모델 결과의 시각화
 
여러 머신러닝 모델을 비교하여 최적의 모델을 빠르게 식별
 
앙상블 모델의 평가 자동화로 최상의 모델 식별
 
신뢰할 수 있는 결과를 반복하여 빠르게 도출할 수 있는 간편한 모델 배포
 
데이터에서 의사결정으로 이어지는 프로세스의 자동화를 위한 종합적인 엔드 투 앤드(end-to-end) 플랫폼
 

널리 사용되고 있는 머신러닝 기법

가장 널리 채택되고 있는 머신러닝 기법은 지도 학습과 비지도 학습 두 가지이지만 그 밖의 머신러닝 방법들도 존재합니다.
여기에서는 가장 일반적으로 활용되는 유형에 대해 간략히 알아봅니다.

지도 학습 알고리즘은 목표 출력값을 알고 있는 입력값처럼 레이블이 지정된 데이터 정보를 사용해 트레이닝됩니다. 예를 들어 데이터 포인트에 "F"(failed) 또는 "R"(runs)이라는 레이블이 지정되어 있는 장비가 있다고 가정해 봅시다. 그러면 학습 알고리즘에 따라 입력값 집합이 그에 상응하는 정확한 출력값과 함께 수신됩니다. 이후 실제 출력값과 정확한 출력값을 서로 비교하여 오류를 검출하면서 알고리즘 학습이 이루어집니다. 그런 다음 학습 결과에 따라 모델을 수정합니다. 지도 학습은 분류, 회귀분석, 예측 및 변화도 부스팅 등의 기법을 통해 발견한 패턴을 사용하여 추가로 레이블이 지정되지 않은 데이터의 레이블 값을 예측합니다. 지난 데이터를 기반으로 앞으로 있을 이벤트를 예측하는 데 지도 학습이 가장 보편적으로 사용됩니다. 예를 들어 신용 카드 거래의 사기성이나 보험 가입자의 보험금 청구 가능성 여부 등을 예측하는 데 효과적입니다

비지도 학습은 이전 레이블이 없는 데이터를 학습하는 데 사용됩니다. 이 시스템에는 "정답"이 없기 때문에 알고리즘을 통해 현재 무엇이 출력되고 있는지 알 수 있어야 합니다. 따라서 데이터를 탐색하여 내부 구조를 파악하는 것이 목적입니다. 비지도 학습은 트랜잭션 데이터에서 특히 효과적입니다. 예를 들어 유사한 속성의 고객 세그먼트를 식별한 후 그 유사성을 근거로 마케팅 캠페인에서 고객 세그먼트를 관리하거나 고객 세그먼트의 구분 기준이 되는 주요 속성을 찾을 수도 있습니다. 주요 기법으로는 자기 조직화 지도(self-organizing maps), 최근접 이웃 매핑(nearest-neighbor mapping), k-평균 군집화(k-mㅇeans clustering), 특이값 분해(singular value decomposition) 등이 있는데, 이러한 알고리즘은 텍스트 주제를 세분화하고 항목을 권장하며 데이터 이상점(Outlier)을 식별하는 데도 이용됩니다.

준지도 학습이 활용되는 응용 분야는 지도 학습과 다르지 않습니다. 하지만 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용해 트레이닝한다는 점에서 차이가 있습니다. 주로 레이블이 지정된 데이터는 용량이 작고, 레이블이 지정되지 않은 데이터는 용량이 큽니다. 그 이유는 레이블이 지정되지 않은 데이터의 경우 수집에 많은 노력이 필요하지 않아 비용이 저렴하기 때문입니다. 또한 준지도 학습은 레이블 지정에 따른 비용이 너무 높아서 완전한 레이블 지정 트레이닝이 어려운 경우에도 유용합니다 이 학습 기법을 사용한 초기 사례로는 웹 캠을 이용한 안면 인식 기술이 있습니다.



강화 학습은 로봇, 게임 및 내비게이션에 많이 이용됩니다. 강화 학습 알고리즘은 시행착오를 거쳐 보상을 극대화할 수 있는 행동을 찾아냅니다. 이러한 유형의 학습은 기본적으로 에이전트(학습자 또는 의사결정권자), 환경(에이전트가 상호작용하는 모든 대상), 동작(에이전트 활동)이라는 세 가지 요소로 구성됩니다. 이 알고리즘의 목적은 에이전트가 일정한 시간 내에 예상되는 보상을 극대화할 수 있는 동작을 선택하도록 하는 데 있습니다. 에이전트는 유효한 정책을 따라 목표에 이르는 시간이 더욱 빨라집니다. 따라서 강화 학습의 목표는 최선의 정책을 학습하는 것이라고 할 수 있습니다.

일반적으로 사람이 1주일에 생성할 수 있는 양질의 모델은 1~2개에 불과하지만 머신러닝은 같은 기간에 수천 개의 모델을 생성할 수 있습니다.

Thomas H. Davenport, 분석 기술의 권위자
The Wall Street Journal 발췌

데이터 마이닝, 머신러닝, 딥러닝의 차이

이 세 가지 방법은 모두 인사이트, 패턴 및 관계를 도출하여 의사 결정에 이용한다는 동일한 목적을 가지고 있지만 접근 방식과 해낼 수 있는 역할에 차이가 있습니다.


데이터 마이닝 (Data Mining)

데이터 마이닝은 데이터로부터 인사이트를 도출해내기 위한 많은 방법들의 상위 개념으로 볼 수 있습니다. 여기에는 전통적인 의미의 통계 기법과 머신러닝도 포함됩니다. 데이터 마이닝은 다양한 영역의 기법을 적용하여 이전에 데이터에서 발견하지 못한 패턴을 찾아낼 수 있는데, 여기에는 통계적 알고리즘, 머신러닝, 텍스트 분석, 시계열 분석 등 기타 다양한 영역의 분석 기법이 포함됩니다. 그 밖에 데이터 스토리지 및 조작에 대한 연구와 노력도 예외는 아닙니다.

 


머신러닝 (Machine Learning)

머신러닝의 주요 차이점은 일반적으로 통계 모델이 그러하듯 데이터 구조를 파악할 목적으로 데이터에 이론적 분포를 적용한다는 점입니다. 그러다 보니 통계 모델에서는 수학적 검증을 통해 모델을 뒷받침하는 이론이 있기 마련입니다. 하지만 이러한 이론 역시 데이터가 납득할 수 있는 가설을 만족해야만 성립됩니다. 비록 데이터 구조의 형태를 나타내는 이론은 없다고 해도 머신러닝은 데이터의 구조 유무를 탐색할 수 있는 컴퓨터의 능력을 기반으로 개발되었습니다. 머신러닝 모델에 대한 테스트는 귀무 가설을 검증하기 위한 이론적 테스트가 아니라 새로운 데이터에 대한 검증 오차를 통해 이루어집니다. 머신러닝은 반복적인 접근 방식으로 데이터를 통해 학습하기 때문에 손쉽게 자동화할 수 있습니다. 이후 데이터를 통해 패스를 반복하며 강력한 패턴을 발견하게 됩니다.


딥러닝 (Deep learning)

딥러닝은 놀랍도록 향상된 컴퓨팅 파워와 특수한 유형의 신경망을 서로 결합하여 대용량의 데이터에서 복잡한 패턴을 학습합니다. 오늘날 딥러닝은 기법은 이미지에서 개체를, 사운드에서 단어를 식별하는 최첨단 기술로 인정받고 있습니다. 그 밖에 연구 기관들도 자동 언어 번역, 의학적 진단, 그 밖에 중요한 사회 및 비즈니스 문제 등 복잡한 과제에 이러한 성공적인 패턴 인식 기술을 적용하려는 모습도 보이고 있습니다.

인공 지능 (AI)에 대해 더 자세히 알아보십시오.
최신 백서, 성공사례 및 인공 지능 전문가의 인사이트를 확인하실 수 있습니다.

전 세계 수 많은 기업들이 SAS와 함께 발전하고 있습니다.
분석 기술의 리더가 되기 위한 첫 걸음을 시작하세요.