Взгляд опытного дата-сайентиста: почему data literacy так важна сегодня
Кирк Борн о ценности универсального понимания данных и его влиянии на общество
В разгар пандемии нас буквально «бомбардировали» новостями с новой статистикой по коронавирусу. И, кажется, такого объема информации ранее мы никогда не получали. Но разные данные и статистические кривые трудно сравнивать и анализировать, поэтому сегодня как никогда важно грамотно использовать получаемые сведения.
Без понимания, как данные могут быть представлены, трудно отличить хороший анализ от плохого. Например, как узнать, какому из отчетов верить, где говорится о том, как долго вирус живет на разных типах поверхностей?
Станьте сертифицированным дата-сайентистом
Интересуетесь data curation, углубленной аналитикой, искусственным интеллектом и машинным обучением? Дата-сайентисты востребованы в постоянно расширяющемся мире данных. Мы можем помочь вам подготовиться к тому, чтобы стать сертифицированным специалистом в этой области.
Мне удалось пообщаться с Кирком Борном о data literacy – что это такое, почему это важно и как можно жить лучше будучи более грамотными в использовании данных.
Кирк опытный астофизик и дата-сайентист. С 2015 года он работает в международной технологической и консалтинговой фирме Booz Allen Hamilton. Там он является главным дата-сайентистом, идейным лидером, занимается наставничеством, обучением и консультированием в области data science, машинного обучения и искусственного интеллекта. Ранее Кирк был профессором астрофизики в Университете Джорджа Мейсона – в течение 12 лет преподавал на бакалавриате и магистратуре по программам data science. До этого он почти 20 лет работал в NASA над поддержкой систем данных для программ в области космической науки, также был научным сотрудником проекта архива данных NASA для космического телескопа Хаббл и контрактным менеджером в центре астрономических данных NASA и операционном управлении данными космических наук.
Что такое data literacy?
Data literacy состоит из нескольких компонентов, которые в совокупности позволяют человеку стать грамотным в области данных. Одно из формальных определений гласит, что data literacy – это «способность читать, работать с данными, анализировать и оспаривать их». Быть грамотным в области данных означает обладать пониманием того, что такое данные и их характеристики (источники, типы, форматы и особенности данных), приложения данных (для анализа, бизнес-аналитики, data science, поддержки принятия решений, искусственного интеллекта, автоматизации и аналитики), методы обработки данных (например, обнаружение закономерностей, распознавание и прогнозирование шаблонов) и способы представления данных (например, сторителлинг, обоснование доказательств, поддержка принятия решений и визуализация).
Первое, что нужно сделать, — это признать, что данные есть повсюду, что почти все вокруг является цифровым и эти цифровые устройства производят и потребляют данные. Kirk Borne Data Scientist
Почему data literacy приобретает все большее значение?
Это происходит по многим причинам. Я сгруппирую их в три категории:
Физические лица. Сегодня существует огромное количество карьерных возможностей, открыто множество вакансий. Мой собственный преподавательский опыт также показывает, что большинство студентов увлекаются темой data literacy, когда понимают, что это такое и почему это важно.
Организации. Компаниям приходится использовать большое количество данных для поиска бизнес-инсайтов, инноваций и создания ценностей. Теперь сведения организаций – один из самых ценных активов. И это возобновляемый актив, то есть одни и те же данные могут использоваться повторно в различных приложениях для поддержки различных проектов и получения доходов.
Законы рынка. Организации, которые руководствуются данными и у которых есть персонал, умеющий грамотно использовать данные, вознаграждаются рынком – у них появляется преимущество перед конкурентами. Те, кто отстает в этих областях, также начинают отставать от конкурентов, которые нанимают лучших специалистов и обеспечивают рыночную стоимость.
Какие первые шаги нужно сделать, чтобы начать грамотно использовать данные?
Первое, что нужно сделать, — это признать, что данные повсюду, что почти все вокруг является цифровым и эти цифровые устройства производят и потребляют данные.
Например, чат-боты, онлайн-рекомендации, автономные транспортные средства, прогнозное моделирование, предиктивное техобслуживание, обнаружение мошенничества, обработка заявок, анализ социальных настроений, обнаружение фейк-новостей, распознавание лиц. И это далеко не все цифровые технологии и устройства. Осведомленность о том, как много данных и приложений для их обработки пронизывают нашу повседневную жизнь, — это первый шаг к data literacy.
Следующий шаг – осознать, что почти каждый человек, вещь и деятельность в мире производят данные, и эти источники данных являются входными данными для процессов, которые создают ценность (например, продукты, решения и действия) для человека или организации практически в каждой отрасли. Надеюсь, люди могут представить себя одновременно источниками и потребителями данных.
Третий шаг – люди должны увидеть, что они могут узнать о цифровой трансформации в мире и стать ее участниками.
Например, когда я читал выпускной курс по data science в Университете Джорджа Мейсона, у меня был блок по геопространственным базам данных и пространственной аналитике. В рамках материала я рассматривал географические информационные системы (ГИС). Возможно, ГИС – это слишком высокотехнологичная тема для тех, кто с ними не знаком, поэтому я попросил студентов выполнить простое упражнение: открыть веб-браузер и выполнить поиск по запросу «ГИС геопространственный» плюс все, что их интересует (желательно в рамках темы науки и технологий), а затем сообщить, что они нашли. Я преподавал этот курс ежегодно более 10 лет, и каждый год я и мои студенты всегда удивлялись тому, что мы находили.
Мои ученики поражаются тому, что им действительно так просто достичь первого уровня понимания того, что ранее казалось недоступным и сложным. Если эти три шага будут сделаны, у людей появится мотивация узнать больше. Если эти шаги не сработают, тогда я постараюсь дать мотивацию к чтению и просмотру информации в рамках этой темы в контексте вещей, которые лично волнуют мою аудиторию. Это может быть тема здоровья, финансов, покупок в интернете, спорта, развлечений, отдыха, путешествий, науки и т.д.
Какую роль играет data literacy в рамках гражданской ответственности?
Я читал курс по этике данных в Университете Джорджа Мейсона. Я мог бы легко переименовать курс в «Data Literacy». В его краткий обзор я включил отрывки из трех книг «Как лгать с помощью статистики», «Как лгать с помощью карт» и «Визуальное и статистическое мышление». Почему я выбрал эти книги? Мне хотелось продемонстрировать, как мы можем намеренно или случайно оказаться производителями и потребителями необъективных данных. Я приводил примеры хороших и плохих диаграмм, графиков и статистики, чтобы показать ученикам, как ответственно подходить к их анализу.
Должен признать, что всякий раз, когда ко мне подходил новый студент, спрашивая (напомню, что я являюсь консультантом по программе обучения data science для бакалавриата), следует ли ему посещать мой курс этики данных или общий университетский курс этики, я отвечал каждому, что общий курс этики хороший, но на моем курсе я буду учить их лгать, и говорил это с юмором. Их это зацепило, каждый после нашего диалога записывался на мой курс! На самом деле я учил студентов различным способам, с помощью которых люди и организации могут лгать намеренно или непреднамеренно, используя статистику. Я объяснил своим ученикам, что делаю это по трем причинам:
- Чтобы помочь распознать статистические погрешности и ложные заключения.
- Чтобы показать, как решать эти проблемы, когда они с ними сталкиваются.
- Чтобы продемонстрировать, как избежать подобных проблем в своей деятельности, связанной с данными.
Гражданская ответственность в наши дни зависит от наличия определенных данных, статистической и информационной грамотности, чтобы бороться с необъективностью, погрешностями, неверными интерпретациями и вводящими в заблуждение гипотезами, связанными с данными.
Знаменитый писатель Х. Г. Уэллс сказал об этом лучше всех более 100 лет назад: «Статистическое мышление однажды станет таким же необходимым для ответственных граждан, как и умение читать и писать». В это утверждение теперь еще стоит добавить data literacy и аналитическое мышление.
Как data literacy влияет на успех компании?
Data literacy – важный компонент более широкой концепции демократизации данных. Демократизация данных влияет на успех организаций как минимум в рамках пяти аспектов:
- Data awareness. Сотрудники все больше узнают о повсеместном распространении и типах данных, которые использует организация (или может использовать).
- Data relevance. Сотрудники начинают видеть связь между данными и своей ролью в компании.
- Data literacy. Сотрудники учатся читать, работать, анализировать и оспаривать получаемые сведения.
- Data science. Большинство (если не все) сотрудников узнают, как получать инсайты и делать выводы на основе данных (обнаружение закономерностей, распознавание шаблонов, исследование закономерностей и их использование).
- Data imperative. В конечном итоге сотрудники осознают, что неспособность использовать и анализировать данные наносит ущерб бизнесу (и, возможно, их собственной продолжительности карьеры).
Как вы считаете, компании действительно понимают важность data literacy? Предлагают ли они возможности обучения data literacy своим сотрудникам?
Многие организации сейчас находятся на стадии понимания важности data literacy, но большинство еще этого не понимают. К счастью, программы обучения data literacy сегодня много где появляются. Тем, кто еще не проникся этой темой, необходимо увидеть потенциальные выгоды от сотрудников, грамотно владеющих данными. У меня есть личный пример.
Несколько лет назад небольшая компания (менее 100 сотрудников) пригласила меня провести двухдневный тренинг по data science, который фактически охватывал пять аспектов демократизации данных, которые я описал ранее. Меня впечатлило, что владельцы компании потребовали, чтобы на тренинге присутствовали все сотрудники, а не только технический и деловой персонал. Больше всего на этом обучении было интересно секретарю, которой нравилось все новое в изучении. Владельцы бизнеса действительно понимали важность этого обучения для своих сотрудников и для их бизнеса. И это подтвердилось через пару лет, когда они успешно продали свою компанию более крупной корпорации.
Какие культурные изменения должны произойти в обществе, чтобы data literacy вышла на первый план?
Во-первых, общество должно осознать ценность данных. Что я имею в виду: данные часто представляются как нечто деструктивное или слишком сложное для обычного человека. Это должно измениться.
Во-вторых, должно быть больше положительных примеров. Например, data-хакатоны для общественного блага, аналитические бизнес-примеры и примеры буквально на ладонях – в наших смартфонах. Следует говорить о данных в новостях, рассуждать о них во время деловых встреч и даже во время бытовых бесед, нужно обучать правильному использованию данных.
В-третьих, необходимо обсуждать, как компании создают рабочие места, рынки, возможности и новые полезные продукты для общества с помощью данных.
В-четвертых, система образования должна вводить статистику, данные, обнаружение закономерностей и формирование научных гипотез на основе фактов гораздо более интенсивно, сознательно и креативно во все курсы и учебные программы (на соответствующем возрасту уровне, конечно), потому что мир стал цифровым, и он будет становиться таким еще больше с каждым днем.
Не математический, а жизненный навык
Данные пронизывают нашу повседневную жизнь с помощью цифровых технологий, портативных устройств, бизнес-задач и личных действий. С помощью данных мир вычислим. Data literacy не должна фокусироваться на математике, алгоритмах или инженерии. Вместо этого следует сосредоточиться на демонстрации того, что data science и аналитика универсальны, data literacy доступна, а data fluency достижима для всех. Демократизация данных и data literacy важны для всех организаций. Команды профессионалов, которые грамотно используют данные, понимают, о чем говорят многочисленные и разнообразные сведения, и, таким образом, они обеспечивают новые результаты и успехи для любой компании. Data literacy – это не математический, а жизненный навык.
Рекомендуем прочитать
- Реагировать, восстанавливать, переосмысливатьПотрясения в нашей жизни случаются регулярно, хотя большинство из них не такие далеко идущие, как пандемия COVID-19. Какова бы ни была их природа, полезно иметь план, как выйти из кризиса, пока вы еще в игре. Узнайте о трехфазном подходе, который рекомендует SAS для смягчения широко распространенных последствий.
- Отслеживание контактов для целей общественного здравоохранения: технология способствует проведению эпидемиологических исследованийТо, что когда-то было трудоемким процессом, основанным на зачастую неполной или неточной памяти человека. Расследования по отслеживанию контактов для общественного здравоохранения теперь вошли в цифровую эру благодаря углубленной аналитике и визуализации данных.
- Will health care be fundamentally changed post-COVID-19?Many market forces are supporting the transformation to virtual digital health programs -- the COVID-19 pandemic is just the latest compelling event.
Готовы подписаться на инсайты сейчас?