Пять этапов подготовки данных
Джим Харрис (Jim Harris), главный редактор блога Obsessive-Compulsive Data Quality (OCDQ)
Подготовка данных — это процесс их объединения, приведения к единому формату и очистки с целью дальнейшего анализа и решения других бизнес-задач. Но какие именно этапы входят в этот процесс? В чем сходство с другими процедурами управления данными и в чем отличие? Какую пользу подготовка приносит бизнес-пользователям, ИТ-специалистам и всей организации?
Подготовка данных — это формальный компонент многих корпоративных систем и приложений, обслуживаемых ИТ-отделом, таких, как системы хранения данных и бизнес-аналитики. Однако подготовленные данные требуются бизнес-пользователям и для других целей, например, для анализа и составления разовых отчетов. В результате ИТ-специалисты и прочие сотрудники, разбирающиеся в ИТ-технологиях (например, специалисты по исследованию данных), вынуждены обрабатывать множество запросов на подготовку особых наборов данных. В наши дни возрастает интерес бизнес-пользователей к инструментам самостоятельной подготовки данных, позволяющим получать доступ к источникам информации и работать с ними, особо не вникая в тонкости SQL, Python и кода SAS®.
Чтобы понять особенности подготовки данных, предлагаю взглянуть на пять этапов этого процесса — поиск, удержание, очистку, документирование и доставку. Давайте рассмотрим их более детально.
Оптимизация подготовки данных для бизнес-аналитики
Скачайте этот отчет от TDWI и ознакомьтесь с передовыми методами, позволяющими оптимизировать подготовку данных.
Скачать отчет
1. Поиск
Суть этого этапа — поиск данных, наиболее подходящих для решения конкретной задачи. Многие пользователи считают, что это невероятно сложно и трудозатратно. Для эффективного поиска данных необходимо создать и поддерживать полный, грамотно задокументированный каталог данных (т. е. репозиторий метаданных). Помимо статистики по профилированию данных и другого содержимого, в каталоге хранится описательный индекс, указывающий на местоположение доступных данных.
Профилирование данных — это ключ к их пониманию, поскольку оно обеспечивает высокоуровневую статистику по качеству данных (количество строк, типы данных в столбцах, минимальные, максимальные и средние значения по столбцам, количество нулевых значений и пр.). Профилирование облегчает выбор одного из нескольких подходящих наборов данных.
Заметьте, что при поиске важно не только найти данные, необходимые прямо сейчас. Следует также предусмотреть возможность их повторного поиска позже, когда снова возникнет такая потребность. При использовании новых источников информации, особенно внешних, нужно обновлять каталог данных, даже если вы не планируете сразу же переходить к следующим этапам их подготовки.
Подготовка данных должна стать формализованной корпоративной практикой. Благодаря общим метаданным, постоянно управляемому хранилищу и логике многократного преобразования и (или) очистки подготовка данных превращается в эффективный, последовательный и повторяемый процесс.
2. Удержание
Суть этапа удержания — консолидация данных, отобранных на этапе поиска. Образно говоря, это временный арест данных, необходимых на дальнейших этапах подготовки. Но во многих организациях данные остаются «за решеткой» электронных таблиц навечно, даже когда подготовка завершена. На этапе очистки необходимо временное рабочее пространство или зона временного хранения данных. Чтобы непрерывно удерживать промежуточные или доставленные данные, нужно использовать общее и управляемое хранилище: реляционную базу данных, сетевую файловую систему или репозиторий «больших данных», например, «озеро данных» на платформе Hadoop. Новым веянием является размещение данных непосредственно в оперативной памяти (или в облаке). Это значительно ускоряет выполняемые в реальном времени процессы консолидации и приведения данных к нужному формату, предшествующие дальнейшей обработке.
3. Очистка
Во время очистки необходимо определить, насколько данные подходят для решения поставленной задачи. Очистка используется и для оценки качества данных и именно поэтому является неотъемлемой частью их подготовки. Трудоемкость этой оценки (она обычно включает проверку, дедупликацию и обогащение данных) зачастую зависит от возможности повторного использования компонентов из других развернутых систем.
Так, например, в хранилищах данных и системах бизнес-аналитики выполняется преобразование и оценка качества данных при интеграции множества источников данных в единую модель, оптимизированную для обработки запросов и подготовки стандартных отчетов. Суть в следующем: нужно не изобретать велосипед, а использовать то, что есть в наличии. Чем шире возможности повторного применения данных при дистилляции, тем меньше бизнес-пользователи будут зависеть от индивидуально настраиваемых процессов, управляемых ИТ-специалистами.
В идеале организация должна стремиться к тому, чтобы компоненты контроля качества данных были представлены в виде библиотеки функций и репозитория правил, которые можно повторно использовать для очистки данных. Кроме того, в ходе процесса очистки можно фильтровать и агрегировать данные, чтобы создавать пользовательские представления или презентации с различным уровнем детализации. Некоторые аналитические инструменты позволяют реализовать функцию очистки непосредственно в оперативной памяти, чтобы избежать постоянного хранения альтернативных представлений доставленных данных.
4. Документирование
Документирование — это процесс записи бизнес- и технических метаданных о найденных, консолидированных и очищенных данных. К метаданным относятся:
- Технические описания.
- Бизнес-терминология.
- Информация о происхождении данных вплоть до источника.
- История изменений, внесенных во время дистилляции.
- Связи с другими данными.
- Рекомендации по использованию данных.
- Связанные правила управления данными.
- Идентифицированные администраторы основных данных.
Все эти метаданные доступны в каталоге данных. Подготовка данных вручную, обычно в электронных таблицах, — не только трудоемкий, но и зачастую дублирующийся процесс. Это объясняется тем, что разные пользователи (или даже один человек) могут получать различные результаты при решении одной и той же задачи. Общие метаданные позволяют ускорить подготовку данных и последовательно повторить ее при необходимости. Кроме того, благодаря общим метаданным могут эффективно сотрудничать несколько пользователей, отвечающих за различные аспекты подготовки данных.
5. Доставка
Доставка — это приведение очищенных данных к формату, пригодному для использования человеком или процессом. При этом необходимо оценивать потребность в постоянном удержании доставленных наборов данных. Если она есть, то соответствующие метаданные помещают в каталог, чтобы и другие пользователи могли искать данные.
При доставке необходимо соблюдать политики управления данными, чтобы, к примеру, минимизировать риск утечки конфиденциальной информации. Важно отметить, что доставка бывает не только единовременной. В случае повторяющихся доставок новых или измененных данных подготовка выполняется по расписанию или запросу. Кроме того, необходимо отслеживать использование доставленных данных, а неиспользуемые — удалять спустя определенное время (вместе с соответствующими записями в каталоге данных).
Используйте повторяемый процесс подготовки данных
Подготовка данных должна стать формализованной корпоративной практикой. Благодаря общим метаданным, постоянно управляемому хранилищу и логике многократного преобразования и (или) очистки подготовка данных превращается в эффективный, последовательный и повторяемый процесс. В свою очередь, сотрудникам будет легче находить релевантные данные и вооружаться знаниями, необходимыми для быстрого использования этих данных на практике. Обеспечив пользователей инструментами для самостоятельной подготовки данных, можно будет высвободить ИТ-специалистов для решения других задач. А благодаря этому будет эффективно работать вся организация.
Для оптимизации работы нужно позаботиться о том, чтобы все процессы подготовки данных можно было с легкостью применять повторно и развертывать в операционных системах и на производственных объектах. Благодаря подготовке данных (поиску, удержанию, очистке, документированию и доставке) все сотрудники смогут максимально эффективно использовать информационные активы.
Об авторе
Джим Харрис — признанный лидер в области качества данных, имеющий 20-летний опыт работы в области управления корпоративными данными. Джим — независимый консультант, спикер и внештатный автор. Джим является главным редактором Obsessive-Compulsive Data Quality, независимого блога, предлагающего беспристрастный взгляд на проблему качества данных. Джим также ведет популярный подкаст OCDQ Radio и активно использует Twitter. Найти и подписаться на него можно по имени пользователя @ocdqblog.
Рекомендуем прочитать
- Article Управление качеством данных: что вам нужно знатьКачество данных не является хорошим или плохим, высоким или низким. Это диапазон или показатель работоспособности данных, проходящих через вашу организацию.
- Article Ключевые вопросы для запуска ваших проектов по аналитике данныхНет единого плана по работе над проектом по аналитике данных. Эксперт по технологиям Фил Саймон предлагает рассмотреть эти десять вопросов в качестве руководства.
- Article 4 совета по тегированию данныхЧем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие данные у них уже есть и как их можно использовать.
- Article Data Lineage делает искусственный интеллект умнееРазработайте стратегию управления данными с использованием Data Lineage и дайте возможность ИИ полностью раскрыть свой потенциал.