4 совета по тегированию данных
Автор: Джим Харрис, The Data Roundtable
Чем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие именно данные уже есть и как их можно использовать. Поэтому не нужно упускать из виду метаданные и их важное значение в экосистеме данных. Способность разрозненных данных подключаться и объединяться (даже если они находятся в одном и том же озере данных или облачном хранилище) в значительной степени зависит от метаданных, которые характеризуют сами данные. Тегирование данных — это только один аспект, связанный с метаданными, но при этом очень важный.
Многие знакомы с тегами вне контекста управления корпоративными данными. Посты в блоге, онлайн-статьи, видео, фотографии, подкасты и социальные сети — все это примеры неструктурированных или полуструктурированных данных, которые в значительной степени зависят от тегов при привязывании их к материалу. Тегирование также играет большую роль в поиске по ключевым словам и в поисковой оптимизации (SEO). Бывают случаи, когда теги используются преднамеренно неправильно и тем самым побуждают нас кликать по определенной ссылке только чтобы обнаружить, что это был кликбейт.
В контексте управления корпоративными данными тегирование дает множество преимуществ. Например, оно может:
- Помочь определить, сколько нужно заниматься подготовкой данных в новых источниках данных.
- Повысить возможность эффективного нахождения данных. Когда данные понадобятся для конкретных бизнес-целей, можно будет легко и быстро найти наиболее соответствующие данные.
- Улучшить качество больших данных, особенно благодаря повышению пригодности для использования неструктурированных и полуструктурированных больших данных.
- Помочь идентифицировать конфиденциальные личные данные, чтобы можно было надлежащим образом контролировать и регулировать доступ к ним.
- Помочь отметить и отфильтровать этически сомнительные или иные спорные данные, прежде чем какие-либо из них будут использоваться при принятии решений или в решениях для искусственного интеллекта.
Рассмотрим четыре совета по тегированию данных.
Стандартизировать теги
Тегирование данных — это подмножество основных метаданных, составляющих бизнес-глоссарий. Список терминов бизнес-данных в бизнес-глоссарии образует авторитетный словарь, который способствует общему пониманию между заинтересованными сторонами в организации. Без установления стандартных значений тегирование часто выдает омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия). Это может привести к связям с несоответствующими данными и неэффективному поиску данных по конкретной теме.
Использовать все применимые теги
Как и во многих задачах по управлению метаданными, можно попробовать продвинуться вперед, выполняя минимум и применяя только один или два тега. Но поскольку большинство данных можно использовать для разных целей, важно использовать все применимые теги. Это может привести к неожиданным полезным результатам. Например, определить бизнес-группу, наиболее заинтересованную в тегировании конкретного источника, что может сделать эту группу логичным кандидатом в стюарды данных.
Не перегружать тегами
Эта рекомендация звучит как противоречие предыдущей рекомендации по тегированию данных, но теги могут потерять свое значение, если вы станете жертвой искушения и настолько увлечетесь их применением. Анализ по частотному распределению значений тегов, как по отдельности, так и в различных комбинациях, может помочь сократить посторонние теги для оптимальной эффективности. Этот анализ также в дальнейшем может помочь стандартизировать теги, выявляя часто используемую комбинацию тегов, которая должна быть доступна в качестве дополнительного стандартного значения тега. Иногда это уместнее, чем назначение нескольких отдельных тегов.
Пересмотреть теги с течением времени
Важно помнить, что бизнес-терминология и бизнес-контекст редко остаются неизменными. Хотя многие теги остаются применимыми в течение длительного времени, не думайте, что так будет всегда. Кроме того, если тегирование не всегда дает преимущества, описанные выше, выясните почему. Может оказаться, что вам необходимо повторно стандартизировать и повторно применить существующие теги.
Рекомендуем прочитать
- Resilience in the face of unpredictabilityUnpredictability can “shatter and reshape” a society. And in these unpredictable times, it is important to remain resilient and be prepared to bounce back. This article explores what it truly means to be resilient, how to build it, and how analytics can help you act when your resilience is tested.
- Платформа клиентских данных: что это такое и почему это важно Недавний рост популярности CDP привел к значительной путанице на рынке. Вот все, что вам нужно знать о том, как работает CDP, о проблемах, которые следует учитывать, и о том, как выйти за рамки CDP с помощью бесшовной интеграции.
- Will health care be fundamentally changed post-COVID-19?Many market forces are supporting the transformation to virtual digital health programs -- the COVID-19 pandemic is just the latest compelling event.
Подпишитесь на рассылку инсайтов SAS сейчас.