4 совета по тегированию данных
Автор: Джим Харрис, The Data Roundtable
Чем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие именно данные уже есть и как их можно использовать. Поэтому не нужно упускать из виду метаданные и их важное значение в экосистеме данных. Способность разрозненных данных подключаться и объединяться (даже если они находятся в одном и том же озере данных или облачном хранилище) в значительной степени зависит от метаданных, которые характеризуют сами данные. Тегирование данных — это только один аспект, связанный с метаданными, но при этом очень важный.
Многие знакомы с тегами вне контекста управления корпоративными данными. Посты в блоге, онлайн-статьи, видео, фотографии, подкасты и социальные сети — все это примеры неструктурированных или полуструктурированных данных, которые в значительной степени зависят от тегов при привязывании их к материалу. Тегирование также играет большую роль в поиске по ключевым словам и в поисковой оптимизации (SEO). Бывают случаи, когда теги используются преднамеренно неправильно и тем самым побуждают нас кликать по определенной ссылке только чтобы обнаружить, что это был кликбейт.
В контексте управления корпоративными данными тегирование дает множество преимуществ. Например, оно может:
- Помочь определить, сколько нужно заниматься подготовкой данных в новых источниках данных.
- Повысить возможность эффективного нахождения данных. Когда данные понадобятся для конкретных бизнес-целей, можно будет легко и быстро найти наиболее соответствующие данные.
- Улучшить качество больших данных, особенно благодаря повышению пригодности для использования неструктурированных и полуструктурированных больших данных.
- Помочь идентифицировать конфиденциальные личные данные, чтобы можно было надлежащим образом контролировать и регулировать доступ к ним.
- Помочь отметить и отфильтровать этически сомнительные или иные спорные данные, прежде чем какие-либо из них будут использоваться при принятии решений или в решениях для искусственного интеллекта.
Рассмотрим четыре совета по тегированию данных.
Стандартизировать теги
Тегирование данных — это подмножество основных метаданных, составляющих бизнес-глоссарий. Список терминов бизнес-данных в бизнес-глоссарии образует авторитетный словарь, который способствует общему пониманию между заинтересованными сторонами в организации. Без установления стандартных значений тегирование часто выдает омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия). Это может привести к связям с несоответствующими данными и неэффективному поиску данных по конкретной теме.
Использовать все применимые теги
Как и во многих задачах по управлению метаданными, можно попробовать продвинуться вперед, выполняя минимум и применяя только один или два тега. Но поскольку большинство данных можно использовать для разных целей, важно использовать все применимые теги. Это может привести к неожиданным полезным результатам. Например, определить бизнес-группу, наиболее заинтересованную в тегировании конкретного источника, что может сделать эту группу логичным кандидатом в стюарды данных.
Не перегружать тегами
Эта рекомендация звучит как противоречие предыдущей рекомендации по тегированию данных, но теги могут потерять свое значение, если вы станете жертвой искушения и настолько увлечетесь их применением. Анализ по частотному распределению значений тегов, как по отдельности, так и в различных комбинациях, может помочь сократить посторонние теги для оптимальной эффективности. Этот анализ также в дальнейшем может помочь стандартизировать теги, выявляя часто используемую комбинацию тегов, которая должна быть доступна в качестве дополнительного стандартного значения тега. Иногда это уместнее, чем назначение нескольких отдельных тегов.
Пересмотреть теги с течением времени
Важно помнить, что бизнес-терминология и бизнес-контекст редко остаются неизменными. Хотя многие теги остаются применимыми в течение длительного времени, не думайте, что так будет всегда. Кроме того, если тегирование не всегда дает преимущества, описанные выше, выясните почему. Может оказаться, что вам необходимо повторно стандартизировать и повторно применить существующие теги.
Рекомендуем прочитать
- Fraud detection and machine learning: What you need to knowМашинное обучение является важной частью инструментария обнаружения мошенничества. Вот что вам нужно для начала работы.
- Finding COVID-19 answers with data and analyticsLearn how data plays a role in optimizing hospital resources, understanding disease spread, supply chain forecasting and scientific discoveries.
- Реагировать, восстанавливать, переосмысливатьПотрясения в нашей жизни случаются регулярно, хотя большинство из них не такие далеко идущие, как пандемия COVID-19. Какова бы ни была их природа, полезно иметь план, как выйти из кризиса, пока вы еще в игре. Узнайте о трехфазном подходе, который рекомендует SAS для смягчения широко распространенных последствий.
Подпишитесь на рассылку инсайтов SAS сейчас.