Путешествуя сквозь текстовые айсберги
Лонни Миллер, ведущий индустриальный консультант SAS по энергетике и промышленности
Недавно я парковался у отеля, возвращаясь с ужина с заказчиками. Было темно и дождливо, а я был уставший после путешествия. Я уже почти ничего не соображал, когда услышал резкий звук «бип бип бип», исходящий от моей арендованной машины. Я взглянул в камеру заднего вида и увидел, что почти врезался в светящееся поле. Я нажал на тормоз и вернул машину на место. «Сегодня бампер будет цел», - подумал я. Должен признать, я чувствовал себя уменьшенной и более везучей версией Эдварда Смита, капитана Титаника.
Моя «усталая» парковка, этот практически произошедший несчастный случай, заставила меня задуматься обо всех типах анализа, подразумевающих использование неструктурированных данных.
- Я получил пользу от камеры, которая увидела то, что я пропустил.
- Я обнаружил что-то, что было там все время, но чего я сначала не увидел.
Статистик и автор Нэт Сильвер сказал: «Каждый день, трижды в секунду, мы производим столько же данных, сколько содержится во всех изданиях в библиотеке Конгресса, так? Но в основном это что-то вроде видео с котиками на YouTube или SMS-ки тринадцатилетних подростков, говорящих о следующих Сумерках».
Комментарий Нэта имеет отношение к огромному количеству информации, с которой мы так или иначе соприкасаемся, и огромному количеству бизнес-процессов. Если смотреть на это с точки зрения бизнеса, то организации стараются учитывать, что говорят их заказчики, а для этого приходится разбирать массивы беспорядочных и неструктурированных данных. Короче говоря, текстовые данные могут доставлять массу хлопот.
Наши клиенты из производственного сектора утверждают, что изучение текстовых данных помогает им более успешно справиться с текущими задачами. Рассмотрим следующие вопросы, составленные текстовыми аналитиками:
Инженеры по качеству товаров:
- Как мы можем узнать больше о дефектах товара до того, как они нагрузят избыточной работой нашу гарантийную службу?
- Что приводит к недовольству нашим продуктом?
Специалисты, анализирующие цифровой маркетинг:
- Какие ключевые слова нам использовать в описаниях продуктов для того, чтобы улучшить результаты поиска?
- Как мы можем улучшить нашу стратегию поисковой оптимизации?
Команды запуска товаров /Менеджеры продуктов:
- Что говорят о наших автомобилях в социальных сетях?
- Стоит ли нам изменить хэштеги в твиттере?
Отдел по работе с персоналом:
- Какие комментарии, из полученных в ходе нашего ежегодного исследования степени удовлетворенности сотрудников, отражают мнение большинства?
- Как комментарии наших сотрудников, оставленные на определенных сайтах, влияют на риск оттока клиентов?
- Команды, занимающиеся послепродажным обслуживанием:
- Что наши дилеры пишут в разделе заметок на сервисе или в тех частях заказа, которые объясняют, почему клиент заказал именно эту деталь?
- Можем ли мы улучшить набор товарных категорий для наших дилеров для того, чтобы они лучше обслуживали своих клиентов?
Что объединяет все эти вопросы?
- Данные существуют для общения. Комментарии от различных пользователей, заказы на ремонт автомобилей, новые опросы среди покупателей, исследования удовлетворенности сотрудников и онлайн посты или заметки, придают дополнительное значение цифровому анализу. Данные нужны именно для этого!
- Анализ данных способствует росту проактивности. Специалисты по digital-маркетингу хотят заранее спланировать лучшие позиции для своих товаров с соответствующим контентом, уменьшив количество денег, потраченных на спонсирование/оплату объявлений и т.д. Руководство отделов по работе с персоналом хочет знать смысл и последствия пользовательских комментариев, чтобы избежать потери высококвалифицированного персонала. Команды по сервисному обслуживанию хотят точнее прогнозировать потребности в запчастях для своей дилерской сети.
- Данные приводят к финансовой выгоде. Снижение объема претензий по гарантиям или предотвращение сбоев продукта напрямую повлияет на баланс предприятия в части доходов.
Текст для прогнозирования.
Раньше я работал в сфере маркетинговых исследований. Я занимался анализом и моим источником данных были опросы потребителей. Обычно я разрабатывал и анализировал исследования, проведенные среди клиентов в автомобильной сфере.
Например, я отвечал на такие вопросы: «Каковы настроения покупателей, впервые приобретающих автомобили?» или «Чего ожидают онлайн-покупатели автомобилей от дилера, ставшего онлайн-лидером?» Тогда мне хотелось, чтобы кто-нибудь научил меня тому, что комментарии из опросов действительно могут быть использованы для прогнозирования результатов, а не просто сообщать актуальные темы или дословно цитировать открытые вопросы опроса.
Сравним влияние этих 2 утверждений. Для наглядности предположим, что источником данных был опрос потребителей, в ходе которого изучался их опыт в сфере онлайн-покупок.
Что касается использования текстовых данных для выделения тематик: «Многочисленные комментарии от респондентов указывают на высокий уровень недоверия процессу онлайн-покупок». (Ну и что, верно?)
Что касается использования текстовой аналитики для создания предикторных переменных для модели логистической регрессии: «Когда онлайн-покупатели упоминают «Это занимает слишком много времени» или «Они не перезвонили мне», их шансы на переход к другому производителю возрастают на 12%. (Славно, мы уже дошли до чего-то полезного.)
Текстовая аналитика – это мощный инструмент, позволяющий создавать добавленную стоимость. Рассмотрим следующие два сценария:
- Обработка высказываний клиентов во время сессии в чате. Подсчет комментариев во время «живого» чата обращает внимание на рост потребностей. Представитель службы поддержки клиентов может связаться с менеджером или ссылаться на новую запись для наилучшего разрешения определенных дискуссий или транзакций, основанных на чатах в режиме реального времени.
- Сокращение текучки персонала. Комментарии работников из ежегодного опроса удовлетворенности работой нужно сопоставить с набором признаков, которые свидетельствуют о вероятности ухода из компании. Ключевые слова и заголовки можно трансформировать в независимые переменные, которые будут служить индикаторами для предсказания ухода сотрудников из компании. Это дает работодателям возможность оперативно решать возникающие проблемы и сохранить ценных сотрудников.
Технологии, которые нам сегодня доступны, упрощают и ускоряют процессы сбора данных и создания предсказательных моделей. Если ваши ИТ‑платформы не включают в себя возможность использования разрозненных, неструктурированных текстовых данных, то по факту вы упускаете шанс лучше обслуживать ваших клиентов и создавать комфортные условия труда для ваших сотрудников.
Я призываю вас посмотреть этот вебинар. Там показано, как в машинном обучении помогают методы текстовой аналитики.
Ну и в качестве завершения: почему утонул «Титаник»? Потому что команда не увидела проблему. Дисциплинарные подходы к пониманию текстовых данных уже не являются удобными. Они не дают ни глубины понимания, ни оперативности. Не будьте капитаном Смитом вашей компании. Смотрите шире и глубже.