Управление качеством данных: что вам нужно знать
Автор: Джон Бауман, редактор SAS Insights
Поскольку организации собирают все больше данных, управлять качеством этих данных становится все важнее с каждым днем. Данные – жизненная основа вашей компании. Управление качеством данных помогает путем объединения организационной культуры, технологий и данных обеспечить точные и полезные результаты.
Качество данных не является хорошим или плохим, высоким или низким. Это диапазон или показатель работоспособности данных, проходящих через вашу организацию. Для некоторых процессов может быть приемлемым маркетинговый список, где 5% дублированных имен и 3% плохих адресов. Но, если вы отвечаете нормативным требованиям, риск штрафов требует более высокого уровня качества данных.
Управление качеством данных обеспечивает контекстно-зависимый процесс улучшения пригодности данных, который используется для анализа и принятия решений. Цель состоит в том, чтобы создать представление о здоровье этих данных с использованием различных процессов и технологий на все более сложных наборах данных.
Зачем нужно управление качеством данных?
Управление качеством данных - это важный процесс анализа данных, который в конечном счете может улучшить ваш результат.
Во-первых, хорошее управление качеством данных создает основу для всех бизнес-инициатив. Устаревшие или ненадежные данные могут привести к ошибкам и неправильным шагам. Программа управления качеством данных устанавливает структуру для всех подразделений в организации, которая обеспечивает соблюдение правил качества данных.
Во-вторых, точные и современные данные дают четкое представление о повседневных операциях вашей компании, поэтому вы можете быть уверены в верхних и нижних показателях, которые используют все эти данные. Управление качеством данных также сокращает ненужные затраты. Плохое качество может привести к дорогостоящим ошибкам и промахам, например, к потере большого количества заказов или расходам. Управление создает базу данных, которая позволяет вам понять вашу организацию и расходы, подтвержденные данными.
В-третьих, вам необходимо управление качеством данных для соответствия требованиям и рисковым целям. Хорошее управление данными требует четких процедур и коммуникаций, а также хороших базовых данных. Например, комитет по управлению данными может определить, что следует считать приемлемым для здоровых данных. Но как вы определяете их в базе данных? Как вы контролируете и применяете политики? Качество данных - это реализация политики на уровне базы данных.
Качество данных является важной частью внедрения структуры управления данными. И хорошее управление качеством данных поддерживает управляющих данными при выполнении их задач.
Хотите увидеть управление данными в действии в реальном мире?
Узнайте, как надежное управления данными дает вам достоверную информацию и помогает решать повседневные бизнес-задачи.
Скачать официальный документ
Аспекты управления качеством данных
Существует несколько аспектов качества данных. Этот список продолжает расти по мере роста объемов и разнообразия данных; однако некоторые из основных измерений остаются постоянными.
- Достоверность измеряет степень правильности значений данных и имеет первостепенное значение для возможности делать точные выводы.
- Полнота означает, что все элементы данных имеют осязаемые значения.
- Последовательность фокусируется на единых элементах данных в разных экземплярах данных со значениями, взятыми из известной области эталонных данных.
- Важен возраст. Данные должны быть свежими и текущими, со значениями, которые обновляются по всем направлениям.
- Уникальность демонстрирует, что каждая запись или элемент представляется один раз в наборе данных, что помогает избежать дублирования.
Основные характеристики управления качеством данных
Хорошая программа качества данных использует систему со множеством функций, которые помогают повысить надежность ваших данных.
Во-первых, очистка данных помогает исправить дубликаты записей, нестандартные представления данных и неизвестные типы данных. Очистка обеспечивает соблюдение правил стандартизации данных, необходимых для предоставления информации из ваших наборов данных. Очистка также устанавливает иерархии данных и ссылается на определения данных чтобы настроить их в соответствии с вашими уникальными потребностями.
Профилирование данных - акт мониторинга и очистки данных - используется для проверки данных по стандартным статистическим мерам, выявления связей и проверки данных по сопоставимым описаниям. Шаги профилирования данных будут определять тенденции, которые помогут вам обнаружить, понять и потенциально выявить несоответствия в ваших данных.
Проверка бизнес-правил, а также создание бизнес-словаря помогают вам воздействовать на данные низкого качества, прежде чем они нанесут вред вашей организации. Это влечет за собой создание описаний и требований к переводам бизнес-терминов между системами. Данные также могут быть проверены на соответствие стандартным статистическим мерам или индивидуальным правилам.
В дополнение к этим ключевым функциям, централизованное представление активности предприятия через консоль управления данными является ключевым способом упрощения процесса.
Точные и современные данные дают четкое представление о повседневных операциях вашей компании, поэтому вы можете быть уверены в верхних и нижних показателях, которые используют все эти данные.
Как важно управление качеством данных для больших данных?
Большие данные оказывают и в дальнейшем будут оказывать разрушительное влияние на бизнес. Рассмотрим массивные объемы потоковых данных с подключенных устройств к Интернету-вещей. Или многочисленные контрольные точки отгрузки, которые заполоняют бизнес-серверы и вообще должны быть приведены в порядок для анализа. Со всеми этими большими данными возникают проблемы в управлении качеством данных. Их можно описать в трех пунктах.
Перепрофилирование
Наблюдается безудержное повторение тех же наборов данных в разных контекстах. Это отрицательно влияет на то, что одни и те же данные имеют разные значения в разных настройках. Возникает вопрос достоверности и согласованности данных. Необходимо хорошее качество данных, чтобы разобрать эти структурированные и неструктурированные большие наборы данных.
Валидация
Есть вероятность сложного внедрения элементов управления для проверки, если используются наборы данных, взятые извне. Исправление ошибок приведет к несогласованности данных с исходным кодом, но сохранение согласованности может означать некоторые уступки в отношении качества. Эта проблема требует функций управления качеством данных, которые могут обеспечить решение проблемы.
Обновление
Обновление данных продлевает срок службы исторической информации, которая ранее могла быть оставлена на хранении, но также увеличивает необходимость проверки и управления. Новые данные могут быть извлечены из старых данных, но эти данные должны быть правильно интегрированы в новые наборы данных.
Где и когда должно происходить управление качеством данных?
Лучше всего наблюдать за управлением качества данных через призму современной проблемы. Разные проблемы требуют разного временного отклика.
Например, в процессе обработки транзакции с использованием кредитной карты существует потребность в данных в режиме реального времени. Могут быть замечены мошеннические действия со стороны покупателя или компании. Но если вы обновляете карточки лояльности и очки вознаграждения для этого же клиента, вы можете сделать ночную обработку для этой менее насущной задачи. В обоих случаях вы применяете принципы управления качеством данных в реальном мире. В то же время вы осознаете потребности своих клиентов и максимально приближены к задаче.
Рекомендуем прочитать
- Article 5 советов по управлению данными, которые помогут вам улучшить работу с аналитикойСледуйте этим 5 рекомендациям по управлению данными, чтобы убедиться, что ваши бизнес-данные дают вам отличные результаты в рамках проведения аналитики.
- Article Персональные данные: разбираемся в GDPRЧтобы узнать больше о понятии «персональные данные», почему об этих данных говорят в новостях и почему они жестко регулируются Общим положением о защите данных (GDPR), мы пообщались с Джеем Экзэмом, юристом по вопросам конфиденциальности в SAS.
- Article Пять этапов подготовки данныхПодготовка данных — это процесс их объединения, приведения к единому формату и очистки с целью дальнейшего анализа и решения других бизнес-задач.
- Article Coming soon: The Industrial Internet and IoT standardsFrom smart farms to connected water meters, the IIoT party is happening – with consensus around IoT standards playing host.