Data Lineage делает искусственный интеллект умнее
Автор: Джим Харрис , автор блога Obsessive-Compulsive Data Quality (OCDQ)
Представьте, вы работаете в оживленном центре мегаполиса. На обеденном перерыве вы отправляетесь на прогулку, чтобы потренироваться или просто проветрить мозги. Через полчаса вы понимаете, что не знаете, где находитесь, но в офис нужно скорее вернуться. Тогда вы достаете смартфон и используете надежное приложение с поддержкой GPS, чтобы увидеть ваше точное местоположение. С его помощью вы прокладываете путь, которым добрались до нынешней точки, и маршрут обратно в офис. Это хорошая аналогия для Data Lineage – это детализация данных маршрута от начальной точки до конечной. В наши дни Data Lineage особенно важен в контексте искусственного интеллекта (ИИ). Но прежде чем углубляться в эту тему, давайте рассмотрим несколько определений.
Что такое Data Lineage
Data Lineage показывает подробные сведения о потоке данных от системы‑источника к системе-приемнику и позволяет отследить преобразования и взаимосвязи как технических, так и бизнес-метаданных. Иными словами, это информация, которая описывает элементы:
- Происхождение. Data Lineage показывает, где, когда и каким образом были созданы или получены данные, а также как они хранятся и ведутся. Это относится как к внутренним, так и к внешним источникам данных.
- Характеристики. Описывают как с бизнес, так и с технической точки зрения, для чего предназначены данные. Бизнес‑метаданные представляют собой глоссарий с описанием данных на языке, понятном бизнес-пользователям. Технические метаданные — это описание структуры и формата данных приложений, моделей, интерфейсов.
- Связи. Они показывают, как данные связаны между собой (например, иерархии) и с другими данными, в том числе связи по ключу, ассоциации, зависимости, копии или производные.
- Потоки данных. В современных гибридных экосистемах данные постоянно перемещаются между различными системами — от источника во временные области, от хранилища данных в озера данных (Data Lake), а также в аналитические инструменты и отчетные формы для анализа. Такой поток данных должен быть полностью наглядным для однозначного понимания каждой трансформации при перемещении данных.
- Процессы. Важно понимать, в каких процессах участвуют данные (повышение качества данных, подготовка и интеграция, моделирование) и как эти процессы влияют на изменение значений, форматов и структуры данных.
- Трансформации. Описывают, как данные были изменены при передаче. К типичным трансформациям можно отнести транслитерацию, преобразования, правила проверки качества данных, значения контрольных значений.
- Пользователи. Кто или что использует данные? Кто из пользователей, с помощью каких инструментов, как и как часто работает с данными?
Data Lineage обеспечивает полный аудит данных, что становится все более важным для соблюдения нормативных актов, таких как GDPR. Data Lineage позволяет отследить проблемы качества данных и другие ошибки до их первопричины и провести анализ влияния новых изменений на существующие объекты. Поскольку Data Lineage связывает данные в разрозненных системах на логическом уровне, показывая, как связаны метаданные, он помогает выявить несоответствия и неполноту данных. Data Lineage также помогает оперативно реагировать на инциденты с данными до того, как они станут проблемой, определять стратегии улучшения качества данных и способствовать эффективному повторному использованию существующей информации.
Управление данными для искусственного интеллекта
Когда дело доходит до искусственного интеллекта, старая поговорка «из худого хорошее не сделаешь» подходит лучше всего. Разработайте стратегию управления данными с использованием Data Lineage и дайте возможность ИИ полностью раскрыть свой потенциал.
Определение искусственного интеллекта в контексте Data Lineage
Искусственный интеллект (ИИ) – это общий термин, охватывающий множество методов и подходов, которые позволяют машинам учиться, адаптироваться и действовать на уровне с человеческим интеллектом. Data Lineage имеет прямое воздействие на многие методы и подходы ИИ, такие как:
- Нейронные сети. ИИ классифицирует данные, чтобы строить прогнозы и принимать решения во многом так же, как это делает человеческий мозг. Нейронная сеть – это вычислительная система, состоящая из взаимосвязанных блоков (нейронов), которые обрабатывают данные с внешних входов, передавая информацию между каждым блоком. Нейронная сеть предполагает многократные проходы по данным для поиска связей и извлечения пользы из неопределенных данных. Нейронные сети выигрывают от правильно выстроенных потоков данных в Data Lineage, упрощающих поиск значений.
- Обработка естественного языка. Искусственный интеллект, который обеспечивает взаимодействие, понимание и общение между людьми и машинами посредством анализа и генерирования человеческого языка, включая речь, называется обработкой естественного языка (NLP). NLP позволяет людям общаться с компьютерами, используя обычный, повседневный язык для выполнения задач. NLP во многом опирается на данные человеческого языка, используя описательные свойства Data Lineage.
- Машинное обучение. Это когда ИИ нацелен на то, чтобы дать машинам доступ к данным и дать им возможность учиться самостоятельно. Машинное обучение автоматизирует построение аналитической модели с использованием методов нейронных сетей, статистики, исследования операций и физических явлений, а также находит скрытые закономерности в данных без прямого указания что и где искать. Машинное обучение опирается на Data Lineage для определения взаимосвязей и трансформаций объектов в своих алгоритмах.
- Глубокое обучение. При глубоком обучении ИИ использует огромные нейронные сети с большим количеством слоев обработки, чтобы изучать сложные закономерности на больших объемах данных и выполнять задачи, подобные человеческим. Например, распознавать речь или понимать изображения и видео (также известно как компьютерное зрение). Этот метод требует использования значительных вычислительных ресурсов и использует улучшенные методы обучения. Глубокое обучение зависит от пользовательского аспекта Data Lineage, позволяющего определить, как те или иные пользователи работают с данными.
ИИ играет все возрастающую роль в корпоративных решениях. В отличие от робототехники, которая автоматизирует ручные задачи, ИИ автоматизирует вычислительные задачи. Это особенно ценно, учитывая большие и разрозненные наборы данных, которые сегодня используют большинство организаций.
В то время как человеческая роль в корпоративных решениях никогда не исчезнет, глупо спорить с преимуществами ИИ. Благодаря ему значительно повышается производительность труда человека, когда трудоемкие задачи (например, анализ гигабайтов данных) могут быть полностью автоматизированы. Но для того, чтобы ИИ полностью раскрыл свой потенциал, данные алгоритмов и моделей должны быть понятными. Data Lineage играет жизненно важную роль в понимании данных, являясь основополагающим принципом ИИ.
Так же, как GPS предоставляет вам пошаговые указания и визуальное представление нанесенного на карту маршрута, Data Lineage обеспечивает представление потока данных от системы-источника в систему-приемник. Джим Харрис (Jim Harris) автор блога Obsessive-Compulsive Data Quality (OCDQ)
Data Lineage: GPS для данных
Неважно, кто использует данные – люди или машины – важно, что при этом они перемещаются. Данные путешествуют по всей компании, что затрудняет понимание, откуда они поступают и как они попали в свое текущее положение. Чтобы полностью раскрыть функциональные возможности и ценность данных для бизнеса, вам необходимо четкое понимание их местоположения и трансформаций. Data Lineage обеспечивает этим знанием, выступая в качестве GPS для ваших данных.
Из-за сложного характера корпоративных потоков данных очень важно иметь возможность визуализировать путь данных. Так же, как GPS предоставляет вам пошаговые указания и визуальное представление нанесенного на карту маршрута, Data Lineage обеспечивает представление потока данных от системы-источника в систему-приемник. И точно так же, как вы можете дополнить свои запросы на карте другими объектами, которые находятся рядом или связаны с определенной локацией (например, когда вы ищите рестораны вдоль вашего маршрута), Data Lineage может найти данные, которые находятся поблизости и связаны с данными, которые используются в настоящее время. Эти дополнительные данные могут заменить или расширить выполняемый анализ. Например, приложение ИИ, прогнозирующее поведение клиента, может получить новую полезную информацию благодаря релевантному контенту из социальных сетей.
Данные часто называют источником жизненной силы организации. И сегодня потоковая передача данных буквально течет по венам моделей машинного обучения и других приложений ИИ с целью поддержки бизнес-анализа. Нам трудно понять, куда двигаться без GPS, точно так же сложно представить, куда направить данные для ИИ без Data Lineage.
Поскольку данные все чаще определяют решения и действия, а искусственный интеллект самостоятельно принимает некоторые из этих решений и выполняет часть из этих действий, вам лучше будет знать, где находились ваши данные, прежде чем вы позволите встать им у руля. И человеческий, и искусственный интеллект становятся умнее при использовании Data Lineage.
Об авторе
Джим Харрис – признанный лидер в области качества данных с 20-летним опытом работы в отрасли управления корпоративными данными. Джим – независимый консультант, спикер и внештатный автор. У Джима свой блог «Obsessive-Compulsive Data Quality», в котором он представляет независимый от поставщика взгляд на качество данных. Джим является ведущим популярного подкаста OCDQ Radio и очень активен в Твиттере, где вы можете следить за ним @ocdqblog.
Рекомендуем прочитать
- Unlocking a strategic approach to data and AIAI is only as good as the data that powers it – this is a fundamental truth about data and AI that defines the limits of what’s possible with artificial intelligence. It may seem surprising, but it's rarely a bad algorithm or a bad learning model that causes AI failures. It's not the math or the science. More often, it's the quality of the data being used to answer the question.
- Шесть способов усовершенствовать обработку заявок на выплату страхового возмещенияПочему необходимо включить аналитику в стандартную процедуру обработки заявок? Применение аналитических инструментов в течение жизненного цикла заявки на выплату страхового возмещения поможет повысить окупаемость вложений и сократить затраты.
- Model risk management: Vital to regulatory and business sustainabilitySloppy model risk management can lead to failure to gain regulatory approval for capital plans, financial loss, damage to a bank's reputation and loss of shareholder value. Learn how to improve model risk management by establishing controls and guidelines to measure and address model risk at every stage of the life cycle.