
4 совета по тегированию данных
Автор: Джим Харрис, The Data Roundtable
Чем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие именно данные уже есть и как их можно использовать. Поэтому не нужно упускать из виду метаданные и их важное значение в экосистеме данных. Способность разрозненных данных подключаться и объединяться (даже если они находятся в одном и том же озере данных или облачном хранилище) в значительной степени зависит от метаданных, которые характеризуют сами данные. Тегирование данных — это только один аспект, связанный с метаданными, но при этом очень важный.
Многие знакомы с тегами вне контекста управления корпоративными данными. Посты в блоге, онлайн-статьи, видео, фотографии, подкасты и социальные сети — все это примеры неструктурированных или полуструктурированных данных, которые в значительной степени зависят от тегов при привязывании их к материалу. Тегирование также играет большую роль в поиске по ключевым словам и в поисковой оптимизации (SEO). Бывают случаи, когда теги используются преднамеренно неправильно и тем самым побуждают нас кликать по определенной ссылке только чтобы обнаружить, что это был кликбейт.
В контексте управления корпоративными данными тегирование дает множество преимуществ. Например, оно может:
- Помочь определить, сколько нужно заниматься подготовкой данных в новых источниках данных.
- Повысить возможность эффективного нахождения данных. Когда данные понадобятся для конкретных бизнес-целей, можно будет легко и быстро найти наиболее соответствующие данные.
- Улучшить качество больших данных, особенно благодаря повышению пригодности для использования неструктурированных и полуструктурированных больших данных.
- Помочь идентифицировать конфиденциальные личные данные, чтобы можно было надлежащим образом контролировать и регулировать доступ к ним.
- Помочь отметить и отфильтровать этически сомнительные или иные спорные данные, прежде чем какие-либо из них будут использоваться при принятии решений или в решениях для искусственного интеллекта.
Рассмотрим четыре совета по тегированию данных.
Стандартизировать теги
Тегирование данных — это подмножество основных метаданных, составляющих бизнес-глоссарий. Список терминов бизнес-данных в бизнес-глоссарии образует авторитетный словарь, который способствует общему пониманию между заинтересованными сторонами в организации. Без установления стандартных значений тегирование часто выдает омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия). Это может привести к связям с несоответствующими данными и неэффективному поиску данных по конкретной теме.
Использовать все применимые теги
Как и во многих задачах по управлению метаданными, можно попробовать продвинуться вперед, выполняя минимум и применяя только один или два тега. Но поскольку большинство данных можно использовать для разных целей, важно использовать все применимые теги. Это может привести к неожиданным полезным результатам. Например, определить бизнес-группу, наиболее заинтересованную в тегировании конкретного источника, что может сделать эту группу логичным кандидатом в стюарды данных.
Не перегружать тегами
Эта рекомендация звучит как противоречие предыдущей рекомендации по тегированию данных, но теги могут потерять свое значение, если вы станете жертвой искушения и настолько увлечетесь их применением. Анализ по частотному распределению значений тегов, как по отдельности, так и в различных комбинациях, может помочь сократить посторонние теги для оптимальной эффективности. Этот анализ также в дальнейшем может помочь стандартизировать теги, выявляя часто используемую комбинацию тегов, которая должна быть доступна в качестве дополнительного стандартного значения тега. Иногда это уместнее, чем назначение нескольких отдельных тегов.
Пересмотреть теги с течением времени
Важно помнить, что бизнес-терминология и бизнес-контекст редко остаются неизменными. Хотя многие теги остаются применимыми в течение длительного времени, не думайте, что так будет всегда. Кроме того, если тегирование не всегда дает преимущества, описанные выше, выясните почему. Может оказаться, что вам необходимо повторно стандартизировать и повторно применить существующие теги.
Рекомендуем прочитать
-
AI anxiety: Calm in the face of changeAI anxiety is no joke. Whether you fear jobs becoming obsolete, information being distorted or simply missing out, understanding AI anxiety can help you conquer it.
-
What are AI hallucinations?Separating fact from AI-generated fiction can be hard. Learn how large language models can fail and lead to AI hallucinations – and discover how to use GenAI responsibly.
-
Внутренние ИТ-отделы становятся более значимыми для бизнесаИнновация – это вопрос данных. Это не секрет. Но как компания преобразовывает свои данные в бизнес-модели, чтобы стимулировать изменения?
Подпишитесь на рассылку инсайтов SAS сейчас.