텍스트 분석을 이용한 R-Scanner 개발과 활용

리스크 탐색을 위한 빅데이터 분석시스템, R-Scanner

국립재난안전연구원에서는 리스크를 탐색하기 위해 R-Scanner를 개발했습니다. R-Scanner는 미래에 발생할 수 있는 위험요인을 도출하기 위해 SAS의 다양한 솔루션을 기반으로 개발한 빅데이터 분석 시스템입니다. 빅데이터에는 재난안전과 관련한 과거 10년동안의 뉴스(총 1억여 건), 논문(국내 주요 14개 학회 10만여 건), 각종 보고서(국립재난안전연구원 발간 보고서, PRISM 국가정책보고서), 안전신문고 민원데이터 등의 텍스트가 DB로 구축되어 있으며, 계속 업데이팅 하고 있습니다.

R-Scanner는 ▶뉴스, 논문 보고서 등 DB 구축 ▶재난안전 맞춤형 자연어 처리기술 ▶비정형 통계분석 ▶분석 결과 시각화로 구성되어 있습니다. 먼저, 뉴스, 논문 보고서 등을 DB로 구축하고, SAS Enterprise Contents Categorization을 이용해 뉴스를 컴퓨터가 이해할 수 있는 언어로 해석합니다. 그리고 SAS Text Miner와 SAS Enterprise Miner를 이용해 단어들의 경향성/연관성 분석, 토픽추출 등 비정형 통계분석을 한 다음, 분석결과를 시각화합니다. 즉, 1억 5천개의 신문기사 등을 통해 과거에 많이 발생했던 자연재난 유형(20개), 사회재난 유형(35개), 사회환경 유형(10개)을 분석하여 대시보드로 만들어 신속히 볼 수 있도록 제공하고 있습니다.

R-Scanner의 다양한 활용

R-Scanner는 현재 다양하게 활용되고 있으며, 앞으로도 그 영역은 무한히 확대될 전망입니다.

첫째, R-Scanner는 재난 위험환경을 탐색합니다. 정전을 예로 들면, 최근 뉴스 원문 중에서 ‘정전’ 키워드 출현 빈도가 증가하고 있습니다. 이를 탐색해본 결과, 과거 3년(2004~2006)에는 폭염, 낙뢰, 대풍, 산불 등이 정전을 일으키는 키워드로 등장했습니다. 최근 3년(2012~2014)에도 주요 키워드에는 변화가 없었지만 원전해킹, 환자 생명과 같은 과거에는 없던 키워드가 등장하고 있습니다. ‘환자 생명’ 키워드를 중심으로 연관어 분석을 해본 결과, 가정에서 혈액투석 및 인공호흡기를 달고 있는 분들이 정전이 되면 생명에 위협을 받는 것으로 나타났습니다. 수술 중인 병원에서 정전이 발생한 경우에도 환자 생명에 영향을 준다는 사실을 알 수 있습니다.

둘째, 재난 시나리오를 작성합니다. 2014년 여름, 국립재난안전연구원에서는 2020년 발생 가능한 폭염 예측 시나리오를 정리한 를 발표한 적이 있습니다. 시나리오는 ▶미래 위험요인 도출 ▶과거 재난사례 조사 ▶미래 재난이슈 도출 ▶(이슈들 간) 상호연관성 분석 ▶(이를 토대로) 미래 재난예측 시나리오 작성 ▶(시나리오를 기반으로) 재난 관련 비전 및 전략 수립의 과정으로 작성했습니다. 이 중 미래 재난이슈 도출, 상호 연관성 분석 시 SAS 기반의 R-Scanner를 사용했습니다.

폭염 시나리오를 작성하기 위해 1994년부터 2012년까지 폭염 관련 뉴스 토픽을 모두 분석하고 카테고리화했습니다. 그리고 1994년의 이른 더위와 2012년 8월의 한여름 더위가 합쳐져 가뭄과 폭염이 동시에 오면 어떻게 될 지를 시나리오로 작성하고, 현재 국가 공공기관에서 수립한 폭염대책이 이 극한 상황의 시나리오를 감당할 수 있는지 점검하고, 추가로 준비할 사항을 내용으로 보고서를 작성했습니다.

이처럼 R-Scanner를 이용해 주요 재난에 대한 시나리오를 개발하고, 이 시나리오는 실제 작동할 수 있는 국가위기매뉴얼의 개선 기반으로 활용됩니다. 또 국가재난안전관리의 새로운 패러다임 및 고도화 전략 제시를 통해 미래 국가안전관리기본계획의 새로운 방향을 정립할 수 있습니다. 아울러 재난 파급효과에 따른 재난안전정책의 합리적 우선순위를 결정할 수 있습니다.

셋째, 국민의 소리를 해석합니다. 최근 안전에 관한 민원 창구인 ‘안전신문고’에 신고된 민원 데이터를 R-Scanner에 연계하여 민원을 자동으로 분류하고, 그 안에 담긴 주요 이슈 도출 및 이슈별 처리현황을 추적해봤습니다. 그 결과, 시설분야에서 도로파손(1,885건), 맨홀/하수구 뚜껑 부재(289건), 옹벽/축대/담장 위험(160건)이 주요 이슈로 나타났습니다. 교통분야에서는 횡단보도/과속방지턱 설치 및 보수(1,093건), 신호등/교통표지판 설치 및 보수(794건), 교통법규 위반신고(562건)가 주요 이슈였습니다.

이처럼 R-Scanner를 통해 안전과 관련된 민원 텍스트를 분류/분석하고 제시함으로써 안전사각지대 해소에 기여할 수 있을 것입니다. 특히 올해 안으로 민원 및 처리결과를 기반으로 의미해석을 하여 국민이 원하는 안전수준과, 국가가 어떤 분야에서 무슨 이유로 민원을 해결하지 못했는지를 분석하여 그에 대한 대책을 마련할 수 있도록 지원할 계획입니다. 아울러 장기적으로는 안전산업 육성의 기반을 마련할 수 있을 것으로 기대하고 있습니다.

비즈니스 이슈

  • 사회적으로 국민의 안전이 최우선 이슈로 대두
  • 국민이 보다 안전하고 안심할 수 있는 선제적인 정책마련 필요

Solution

Benefits

  • 국가위기매뉴얼 개선 기반 마련
  • 국가재난안전관리의 새로운 패러다임 및 고도화 전략 제시
  • 재난안전정책의 합리적 우선순위 결정
  • 안전산업 육성 기반 마련

본 문서에 나오는 결과는 본 문서에 설명된 특정 상황, 비즈니스 모델, 데이터 입력 및 컴퓨팅 환경에 적합하게 되어 있습니다. 각 SAS 고객의 경험은 고유한 것으로, 비즈니스 및 기술적 변수에 따라 달라집니다. 따라서 모든 서술은 비전형적인 것이라는 점을 고려해야 합니다. 실제 절약, 결과 및 성능 특성은 개별 고객의 구성 및 조건에 따라 달라질 수 있습니다. SAS는 모든 고객이 비슷한 결과를 달성할 수 있다고 보증하거나 진술하지 않습니다. SAS 제품과 서비스에 대한 유일한 보증은 해당 제품 및 서비스에 대한 서면 계약의 보증서에 명시되어 있습니다. 본 문서의 어떠한 내용도 추가 보증을 구성하는 것으로 해석될 수 없습니다. 고객은 SAS 소프트웨어의 성공적인 구현에 따라 합의된 계약적 교환 또는 프로젝트 성공 요약의 일환으로 성공 사례를 SAS와 공유했습니다. 브랜드 및 제품 명칭은 각 기업의 상표입니다.