
4 совета по тегированию данных
Автор: Джим Харрис, The Data Roundtable
Чем больше данных вы можете применить к бизнес-проблеме, тем лучше ее потенциальные решения. Несмотря на то, что сегодня компании не испытывают недостатка в данных, зачастую трудно узнать, какие именно данные уже есть и как их можно использовать. Поэтому не нужно упускать из виду метаданные и их важное значение в экосистеме данных. Способность разрозненных данных подключаться и объединяться (даже если они находятся в одном и том же озере данных или облачном хранилище) в значительной степени зависит от метаданных, которые характеризуют сами данные. Тегирование данных — это только один аспект, связанный с метаданными, но при этом очень важный.
Многие знакомы с тегами вне контекста управления корпоративными данными. Посты в блоге, онлайн-статьи, видео, фотографии, подкасты и социальные сети — все это примеры неструктурированных или полуструктурированных данных, которые в значительной степени зависят от тегов при привязывании их к материалу. Тегирование также играет большую роль в поиске по ключевым словам и в поисковой оптимизации (SEO). Бывают случаи, когда теги используются преднамеренно неправильно и тем самым побуждают нас кликать по определенной ссылке только чтобы обнаружить, что это был кликбейт.
В контексте управления корпоративными данными тегирование дает множество преимуществ. Например, оно может:
- Помочь определить, сколько нужно заниматься подготовкой данных в новых источниках данных.
- Повысить возможность эффективного нахождения данных. Когда данные понадобятся для конкретных бизнес-целей, можно будет легко и быстро найти наиболее соответствующие данные.
- Улучшить качество больших данных, особенно благодаря повышению пригодности для использования неструктурированных и полуструктурированных больших данных.
- Помочь идентифицировать конфиденциальные личные данные, чтобы можно было надлежащим образом контролировать и регулировать доступ к ним.
- Помочь отметить и отфильтровать этически сомнительные или иные спорные данные, прежде чем какие-либо из них будут использоваться при принятии решений или в решениях для искусственного интеллекта.
Рассмотрим четыре совета по тегированию данных.
Стандартизировать теги
Тегирование данных — это подмножество основных метаданных, составляющих бизнес-глоссарий. Список терминов бизнес-данных в бизнес-глоссарии образует авторитетный словарь, который способствует общему пониманию между заинтересованными сторонами в организации. Без установления стандартных значений тегирование часто выдает омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия). Это может привести к связям с несоответствующими данными и неэффективному поиску данных по конкретной теме.
Использовать все применимые теги
Как и во многих задачах по управлению метаданными, можно попробовать продвинуться вперед, выполняя минимум и применяя только один или два тега. Но поскольку большинство данных можно использовать для разных целей, важно использовать все применимые теги. Это может привести к неожиданным полезным результатам. Например, определить бизнес-группу, наиболее заинтересованную в тегировании конкретного источника, что может сделать эту группу логичным кандидатом в стюарды данных.
Не перегружать тегами
Эта рекомендация звучит как противоречие предыдущей рекомендации по тегированию данных, но теги могут потерять свое значение, если вы станете жертвой искушения и настолько увлечетесь их применением. Анализ по частотному распределению значений тегов, как по отдельности, так и в различных комбинациях, может помочь сократить посторонние теги для оптимальной эффективности. Этот анализ также в дальнейшем может помочь стандартизировать теги, выявляя часто используемую комбинацию тегов, которая должна быть доступна в качестве дополнительного стандартного значения тега. Иногда это уместнее, чем назначение нескольких отдельных тегов.
Пересмотреть теги с течением времени
Важно помнить, что бизнес-терминология и бизнес-контекст редко остаются неизменными. Хотя многие теги остаются применимыми в течение длительного времени, не думайте, что так будет всегда. Кроме того, если тегирование не всегда дает преимущества, описанные выше, выясните почему. Может оказаться, что вам необходимо повторно стандартизировать и повторно применить существующие теги.
Рекомендуем прочитать
-
Хакатон открыл для меня новые сценарии применения аналитикиВ 2021 году компания SAS организовала международный хакатон #HackinSAS. В ходе хакатона участники из разных стран, с разным опытом и навыками создавали готовые для внедрения в эксплуатацию приложения и продукты с использованием аналитики SAS, искусственного интеллекта, облачных вычислений и технологий с открытым исходным кодом.
-
Банки проверяют все операции на предмет отмывания денегНесколько лет назад в интернете можно было найти массу жалоб на несколько банков, которые слишком буквально восприняли нормы закона 115-ФЗ, и начали блокировать практически все крупные транзакции.
-
Finding COVID-19 answers with data and analyticsLearn how data plays a role in optimizing hospital resources, understanding disease spread, supply chain forecasting and scientific discoveries.
Подпишитесь на рассылку инсайтов SAS сейчас.