빅데이터
개념과 중요성
빅데이터란 정형 및 비정형 데이터 모두를 포함하며, 일상적으로 비즈니스에 영향을 미치는 관리가 어려운 대용량 데이터를 일컫습니다. 그러나 중요한 것은 데이터의 종류나 양이 아니라 조직이 데이터를 이용하여 수행하는 작업입니다. 빅데이터 분석을 통한 인사이트로 의사결정을 개선하고 전략적 비즈니스 행보에 대해 확신을 얻을 수 있습니다.
빅데이터의 역사
빅데이터는 기존 방식으로는 처리가 어렵거나 불가능할 정도로 크고, 빠르며, 복잡한 데이터를 말합니다. 분석을 위해 대량의 정보에 액세스하고 저장하는 활동은 오래 전부터 실행되어 왔습니다. 하지만 2000년대 초반 업계 분석가 더그 레니(Doug Laney)가 빅데이터의 정의를 다음과 같이 세 가지 V로 명시하면서 그 개념이 큰 주목을 받게 되었습니다.
크기(Volume). 조직은 트랜잭션, 스마트(IoT) 장치, 산업 장비, 비디오, 이미지, 오디오, 소셜 미디어 등을 비롯한 다양한 소스에서 데이터를 수집합니다. 과거에는 모든 데이터를 저장하는 데 너무 많은 비용이 들었지만 데이터 레이크, Hadoop 및 클라우드를 사용하는 저렴한 스토리지로 인해 부담이 줄어들었습니다.
속도(Velocity). 사물 인터넷의 성장에 따라 데이터는 전례 없는 속도로 비즈니스에 스트리밍되고 있으며, 이러한 데이터는 적시에 처리되어야만 합니다. RFID 태그, 센서 및 스마트 미터로 인해 이렇게 급증하는 데이터를 거의 실시간으로 처리해야 할 필요성이 제기되고 있습니다.
다양성(Variety). 데이터는 기존 데이터베이스의 정형화된 숫자 데이터부터 비정형 텍스트 문서, 이메일, 비디오, 오디오, 스톡 티커 데이터 및 금융 거래에 이르기까지 모든 유형의 형식으로 제공됩니다.
SAS에서는 빅데이터와 관련하여 다음과 같은 두 가지 추가적 차원을 고려합니다.
변동성(Variability)
데이터의 속도와 다양성이 증가하고 있을 뿐만 아니라, 그 흐름도 예측할 수 없을 만큼 큰 폭으로 빈번하게 변경되고 있습니다. 어려운 일이긴 하지만, 기업은 소셜 미디어에서 무엇이 언제 유행하는지, 그리고 일별, 계절별 및 특정 이벤트로 인해 발생하는 최대 데이터를 어떻게 관리해야 하는지에 대해 알아야 합니다.
진실성(Veracity)
진실성은 데이터 품질을 말합니다. 데이터는 매우 다양한 소스에서 나오기 때문에 시스템 전체에서 데이터를 연결하고 일치시키고 정리 및 변환하기가 어렵습니다. 기업은 관계, 계층 및 다양한 데이터 결합을 연결하고 상호 연관시켜야 합니다. 그렇지 않으면 순식간에 데이터가 통제 불능 상태에 이를 수 있습니다.
빅데이터는 왜 중요할까요?
빅데이터의 중요성은 단순히 데이터를 얼마나 많이 보유하고 있느냐에 달려 있지 않습니다. 데이터의 가치는 어떻게 사용하느냐에 달려 있습니다. 원하는 소스에서 데이터를 수집하여 분석하면 다음과 같은 해결책을 얻습니다. 1) 리소스 관리가 간소화되고, 2) 운영 효율성이 개선되며, 3) 제품 개발이 최적화되고, 4) 새로운 수익 및 성장 기회가 창출되며, 5) 현명한 의사결정이 가능하게 됩니다. 빅데이터를 고성능 분석과 결합하면 다음과 같은 비즈니스 관련 작업을 수행할 수 있습니다.
- 거의 실시간으로 고장, 문제 및 결함의 근본 원인을 파악합니다.
- 사람의 눈보다 더 빠르고 정확하게 이상 징후를 발견합니다.
- 의료 이미지 데이터를 인사이트로 빠르게 변환하여 환자 건강 결과를 개선합니다.
- 전체 리스크 포트폴리오를 몇 분 만에 재계산합니다.
- 변화하는 변수를 정확하게 분류하고 대응하는 딥러닝 모델의 능력을 향상시킵니다.
- 사기 행위가 조직에 영향을 미치기 전에 감지합니다.
빅데이터의 활용 현황
빅데이터와 더불어 조직이 빅데이터를 관리하고 인사이트를 얻는 방식은 전 세계의 비즈니스 정보 사용 방식을 변화시키고 있습니다. 빅데이터가 미치는 영향에 대해 자세히 알아보세요.
데이터 히어로가 하는 일은 무엇일까요?
데이터 히어로는 누구일까요? 데이터 과학자는 데이터를 분석하고 인사이트를 찾습니다. 데이터 엔지니어는 데이터옵스(DataOps)에 초점을 맞춰 파이프라인을 구축합니다. 데이터 관리자는 데이터가 신뢰할 수 있고 책임감 있게 관리되는지 확인합니다. 이러한 역할 간의 시너지 효과가 성공적인 분석을 이끌어냅니다.
데이터 레이크 vs. 데이터 웨어하우스
"데이터 레이크"라는 용어는 단지 마케팅 광고에 불과할까요? 아니면 데이터 웨어하우스를 일컫는 새로운 이름일까요? 필 사이먼(Phil Simon)이 '데이터 레이크' 대 '데이터 웨어하우스'에 대한 사실을 바로 잡으며 데이터 레이크의 정의와 작동 방식, 필요 시기에 대해 설명합니다.
빅데이터와 클라우드
빅데이터 프로젝트에는 데이터 처리와 저장을 위한 강력한 리소스가 필요합니다. 빅데이터 기술과 클라우드 컴퓨팅이 함께 사용되면 모든 유형의 데이터를 처리할 수 있는 비용 효율적인 방법을 찾을 수 있으며, 민첩성과 탄력성을 효과적으로 결합할 수 있습니다.
누가 빅데이터에 집중할까요?
빅데이터는 산업에서 매우 중요합니다. IoT 및 기타 연결 장치가 부상함에 따라 조직에서 수집, 관리, 분석하는 정보의 양도 크게 증가했습니다. 빅데이터의 등장과 함께 크고 작은 산업 전반에 걸쳐 빅 인사이트를 제공할 수 있는 잠재력을 갖추게 되었습니다.
소매업
고객 관계 구축은 소매 업계에서 매우 중요한 요소이며, 이를 관리하는 가장 좋은 방법은 빅데이터를 관리하는 것입니다. 소매 업체는 고객을 대상으로 마케팅하는 최선의 방법과 거래를 처리하는 가장 효과적인 방법, 그리고 부진한 비즈니스를 복구하는 가장 전략적인 방법을 알아야 합니다. 이 모든 작업의 중심에 빅데이터가 자리합니다.
제조업
제조업체는 빅데이터가 제공할 수 있는 인사이트를 바탕으로, 경쟁이 치열한 오늘날의 시장에서 낭비를 최소화하고 품질 및 생산량을 향상시키는 등 핵심적인 작업들을 개선할 수 있습니다. 점점 더 많은 제조업체가 분석 기반 문화를 형성하고 있으며, 이를 통해 문제를 더 빨리 해결하고 더 민첩하게 비즈니스 의사결정을 내릴 수 있습니다.
은행
수많은 소스에서 대량의 정보가 스트리밍됨에 따라 은행은 빅데이터를 관리할 새롭고 혁신적인 방법을 찾아야 하는 상황에 직면해 있습니다. 고객을 이해하고 고객의 만족도를 높이는 것도 중요하지만, 규제 준수를 유지하면서 리스크와 사기를 최소화하는 것도 동일하게 중요합니다. 빅데이터는 빅 인사이트를 제공하지만, 금융기관은 고급 분석 기능을 사용하여 한 단계 앞서 나가야 합니다.
의료 서비스
환자 기록. 치료 계획. 처방전 정보. 의료와 관련된 모든 일은 신속하고 정확하게 이루어져야 하며, 어떤 경우에는 엄격한 업계 규정을 충족시킬 수 있을 정도의 투명성을 갖추어야 합니다. 빅데이터가 효과적으로 관리되면, 의료 기관은 환자 관리를 개선할 수 있는 숨겨진 인사이트를 찾아낼 수 있습니다.
교육
데이터 기반 인사이트를 갖춘 교육자는 학교 시스템, 학생 및 커리큘럼에 상당한 영향을 미칠 수 있습니다. 교육자는 빅데이터를 분석함으로써 위험에 처한 학생들을 식별할 수 있고, 학생들이 적절하게 발전을 이루고 있는지 확인할 수 있으며, 교사와 교장의 평가와 지원을 위해 더 나은 시스템을 구현할 수 있습니다.
중소 기업
빅데이터를 쉽게 수집할 수 있다는 점과 데이터를 관리, 저장, 분석할 수 있는 경제적인 옵션 사이에서, 중소기업이 대기업과 경쟁할 수 있는 가능성이 어느 때보다 높아졌습니다. 중소기업은 빅데이터를 분석 기능과 함께 사용하여 비용을 절감하고, 생산성을 높이고, 보다 강력한 고객 관계를 구축하며, 리스크와 사기를 최소화할 수 있습니다.
정부
정부 기관이 빅데이터를 활용하고 분석을 적용할 수 있게 되면 유틸리티 관리, 기관 운영, 교통 체증 대처 또는 범죄 예방 측면에서 상당한 입지를 확보하게 됩니다. 하지만 빅데이터에 많은 이점이 있는 반면, 정부는 반드시 투명성과 개인 정보 보호 문제를 해결해야 합니다.
보험
보험사들은 텔레매틱스, 센서 데이터, 기상 데이터, 드론 및 항공 이미지 데이터 등 밀려드는 빅데이터에 힘겨워하고 있습니다. 빅데이터와 분석을 결합하면 디지털 변환을 주도할 수 있는 새로운 인사이트를 얻을 수 있습니다. 예를 들어, 보험사가 빅데이터를 활용하면 리스크를 더 잘 평가하고, 새로운 가격 정책을 세우며, 적합한 개인 맞춤형 상품을 만들고, 보다 적극적으로 손실 방지를 이룰 수 있습니다.
딥 러닝에는 빅데이터가 매우 중요합니다. 데이터를 과적합하지 않고 숨겨진 패턴을 분리하고 답을 찾는 데 있어 빅데이터가 필수이기 때문입니다. 딥 러닝을 사용하면 좋은 품질의 데이터가 많을수록 좋은 결과를 얻을 수 있습니다. Wayne Thompson SAS Research & Development
빅데이터 작동 원리
기업은 빅데이터를 활용하기 전에 빅데이터가 다양한 위치, 소스, 시스템, 소유자 및 사용자 사이에서 흘러가는 방식을 고려해야 합니다. 기존의 정형 데이터와 비정형 및 반정형 데이터를 포함하는 이 "빅데이터 패브릭"을 관리하기 위해 다음과 같은 5가지 주요 단계가 있습니다.
- 빅데이터 전략 수립하기.
- 빅데이터 소스 파악하기.
- 데이터 액세스, 관리 및 저장하기.
- 데이터 분석하기.
- 지능적인 데이터 기반 의사결정 내리기.
1) 빅데이터 전략 수립하기
보편적으로, 빅데이터 전략은 조직 내외의 데이터를 획득, 저장, 관리, 공유 및 사용하는 방식을 감독하고 개선할 수 있도록 설계된 계획입니다. 빅데이터 전략은 풍부한 데이터 속에서 비즈니스 성공을 뒷받침하는 발판을 마련합니다. 전략을 수립할 때는 기존 및 미래의 비즈니스, 그리고 기술 목표와 이니셔티브를 고려하는 것이 중요합니다. 따라서 빅데이터를 응용 프로그램의 부산물이 아닌 별개의 가치 있는 비즈니스 자산으로 다루어야 합니다.
2) 빅데이터 소스 파악하기
- 스트리밍 데이터는 사물 인터넷(IoT) 및 웨어러블, 스마트 자동차, 의료 기기, 산업 장비 등에서 IT 시스템으로 유입되는 기타 연결 장치에서 나옵니다. 이러한 빅데이터를 바로 분석하여 유지할 데이터와 유지할 필요가 없는 데이터, 그리고 추가 분석이 필요한 데이터를 결정할 수 있습니다.
- 소셜 미디어 데이터는 페이스북, 유튜브, 인스타그램 등의 상호 작용에서 비롯됩니다. 이러한 데이터에는 이미지, 비디오, 음성, 텍스트 및 사운드 형태의 방대한 빅데이터가 포함됩니다. 이는 마케팅, 영업, 지원 기능에 유용합니다. 이러한 데이터는 종종 비정형 또는 반정형 형태이므로 소비와 분석을 위해서는 고유한 과제를 해결해야만 합니다.
- 공개적으로 사용 가능한 데이터는 미국 정부의 data.gov, CIA World Factbook 또는 European Union Open Data Portal과 같은 방대한 양의 오픈 데이터 소스에서 제공됩니다.
- 기타 빅데이터는 데이터 레이크, 클라우드 데이터 소스, 공급업체 및 고객에게서 나올 수 있습니다.
3) 빅데이터 액세스, 관리 및 저장하기
현대 컴퓨팅 시스템은 다양한 유형의 대량 빅데이터에 빠르게 액세스하기 위해 필요한 속도, 성능 및 유연성을 제공합니다. 기업은 신뢰할 수 있는 액세스뿐만 아니라 데이터 통합, 데이터 파이프라인 구축, 데이터 품질 보장, 데이터 거버넌스 및 스토리지 제공, 그리고 분석을 위한 데이터 준비 등을 처리할 방안 또한 필요로 합니다. 일부 빅데이터는 기존의 데이터 웨어하우스를 이용하여 사내에 저장할 수도 있지만, 클라우드 솔루션, 데이터 레이크, 데이터 파이프라인 및 Hadoop을 통해 빅데이터를 저장하고 처리하는 유연하고 저렴한 옵션도 있습니다.
4) 데이터 분석하기
그리드 컴퓨팅이나 인메모리 분석과 같은 고성능 기술을 사용하면 모든 빅데이터를 분석에 사용할 수 있습니다. 또 다른 접근 방식은 데이터를 분석하기 전에 어떤 데이터가 관련성이 있는지 미리 파악하는 것입니다. 어느 방식을 사용하든 기업은 빅데이터 분석을 통해 가치와 인사이트를 얻을 수 있습니다. 더 많은 빅데이터가 인공 지능(AI) 및 머신 러닝과 같은 오늘날의 고급 분석 노력에 중요 기반으로 작용하고 있습니다.
5) 지능적인 데이터 기반 의사결정 내리기
효과적으로 관리된 신뢰할 수 있는 데이터는 신뢰할 수 있는 분석과 신뢰할 수 있는 의사결정으로 이어집니다. 기업이 경쟁력을 유지하기 위해서는 빅데이터의 가치를 충분히 파악하고 데이터 기반 방식으로 운영해야 합니다. 즉, 직감보다는 빅데이터가 제시하는 증거를 기반으로 의사결정을 해야 합니다. 데이터 기반의 이점은 분명합니다. 데이터 기반 조직은 더 나은 성과를 내고, 보다 예측 가능한 운영과 더 높은 수익성을 얻을 수 있습니다.
다음 단계
정교한 데이터 관리 기술이 있을 때 빅데이터가 분석 및 AI 프로그램을 큰 기회로 전환할 수 있습니다. SAS가 고객의 다양한 요구를 만족시켜 드립니다.
SAS® Information Governance
SAS Information Governance는 데이터의 출처, 저장 위치 또는 크기와 복잡성에 관계없이 데이터 사용자가 분석에 가장 가치 있는 빅데이터를 보다 빠르고 쉽게 찾고, 분류하며, 보호할 수 있도록 지원합니다. 메타데이터 중심의 검색 결과는 각 데이터 자산에 대한 상세한 정보를 보여줍니다. 그 결과, 비즈니스 사용자는 IT에 대한 의존도를 낮추면서 데이터의 목적 부합성을 평가할 수 있으며, 재작업을 피하고 정보에 입각한 선택을 할 수 있게 됩니다.
권장 문서
- 기사 Smart cities, smart energy solutions – thanks to the IoTFind out how Envision America and CPS Energy are using the IoT and analytics to make cities smarter and transform energy programs.
- 회견 Real-world techniques for analyzing big dataWhat are the top two analytics techniques you should know for big data? And how are businesses modernizing for big data analytics? Find out in this interview with author and professor Bart Baesens.
- 회견 Data visualization: A wise investment in your big data futureData visualization technologies can help the practice of data-driven decision making really take hold. But putting data visualization software in the hands of business users? Is it crazy – or crazy smart?
Adding Hadoop to your Big Data Mix?
SAS provides everything you need to get valuable insights from all that data.
데이터 탐색 및 시각화
SAS 플랫폼을 사용하면 데이터에서 무엇을 찾아내야 하는지 쉽게 이해하고 수십억 행의 데이터를 몇 초 만에 대화식으로 탐색할 수 있습니다