6 мифов о больших данных: что мешает бизнесу заработать на Big Data

14040

Чем шире используются большие данные, тем больше мифов возникает вокруг них. Управляющий директор ДБ «Альфа-Банк» Максат Нуриденулы решил развенчать некоторые из них

ФОТО: Depositphotos@Wavebreakmedia

Миф 1. Большие данные значительно отличаются от других данных

Казалось бы, словосочетание Big Data – большие данные – существует уже достаточно времени, чтобы к нему привыкнуть. Тем не менее даже в среде профессионалов до сих пор встречаются различные трактовки этого термина. Например, кто-то до сих пор считает, что большие данные – это любой большой объём информации. Хотя, специалисты трактуют Big Data шире. Так, генеральный директор DIS Group KZ (представляет в Казахстане российский дистрибутив Hadoop) Канат Абиров уверен, что большие данные характеризуются не только большим объёмом, но и требованиями к высокой скорости обработки, на которой они поступают, а также большим разнообразием форматов и источников. Такие данные требуют других, новых методов хранения, обработки и анализа.

При этом Канат отмечает, что не стоит преувеличивать различия между традиционными данными и большими. Любые данные в компании должны быть высокого качества, непротиворечивыми, надёжными, хорошо защищёнными. Сейчас распространено мнение, что качеством больших данных можно пренебречь из-за статистической природы методов, которые используются для их анализа. Это опасное заблуждение. Ведь по мере роста объёмов данных масштабы изъянов в них также растут. Эксперты аналитической компании Gartner указывают, что более 60% проектов Big Data терпят неудачу. Большой вклад в это вносит низкое качество данных. Эксперты McKinsey&Company отмечают: «лучшая аналитика не представляет ценности, если используются плохие данные». И вишенка на торте: аналитики IDC предсказывают, что к 2025 году 80% данных, которые собирает компания, будет неструктурированными.

Миф 2. Можно собирать все данные подряд, никак не обрабатывая их перед загрузкой

В отрасли больших данных набирает популярность такая форма хранения данных, как «озеро данных» (Data Lake) - это большие объёмы неструктурированных данных. Озёра прекрасно подходят для поиска информации, исследования данных, Data Science, обучения искусственного интеллекта и машинного обучения.

В чём главный секрет популярности озёр? Согласно EMC, они в 20-50 раз удешевляют хранение информации. Поэтому компании могут позволить себе хранить всевозможные данные, даже те, в полезности которых никто не уверен. С одной стороны, это позволяет специалистам по анализу данных, data scientists, быстро искать и получать доступ к любым данным в компании без учёта их формата. При этом data scientists могут даже не знать, что конкретно они ищут, и находить неожиданные закономерности в данных.

С другой стороны, если хранить в озере все данные без разбора в неподготовленном виде, оно быстро превратится в болото. Когда потребуется, найти конкретные данные в нём будет невозможно. К тому же, если вы не знаете, какие данные храните в своём озере, – рискуете получить проблемы с регуляторными органами: у вас может оказаться персональная или конфиденциальная информация, которую нужно отдельно защищать, маскировать.

Для эффективной работы с озёрами важно готовить данные для загрузки в них, внедрять программы стратегического управления данными (Data Governance), эффективно управлять метаданными (данные над данными), определять связи между данными и так далее. Также необходимо понимать, для каких задач вы собираете ту или иную информацию.

Миф 3. Большие данные используются только для предсказания событий – для предиктивной аналитики

К предиктивной аналитике относятся методы анализа, которые позволяют предсказать поведение объекта. С её помощью можно предсказать продажи и поломки оборудования, создать рекомендательный сервис, обнаружить финансовое мошенничество. Предиктивная аналитика на основе Big Data применяется очень широко: в компаниях разных отраслей и разного масштаба.

Кроме того, большие данные помогают тестировать бизнес-гипотезы, осуществлять масштабную визуализацию данных. А также – искать инсайты, полезные для бизнеса закономерности в данных. Эксперты McKinsey&Company отмечают, что поиск инсайтов помогает повысить продажи на 1,5-2% через дополнительные продажи и кросс-продажи; предотвращать отток клиентов; улучшить маржу на 0,5-1% через оптимизацию предложения и ценообразования; снизить затраты на 5-50% в части оптимизации маркетинговых активностей и прочее.

Используются большие данные и для традиционных задач описательной аналитики (например, фиксация выполнения KPI, составление корпоративной отчётности) и для повышения операционной эффективности.

При этом не стоит забывать о том, что Big Data – это прежде всего технологии хранения и обработки данных.

Миф 4. Для работы с большими данными достаточно data scientists

IDC отмечает, что 80% работы с данными – это их поиск и подготовка к анализу. Сам по себе анализ занимает только 20% рабочего времени. Кроме того, до 10 часов в неделю тратится на создание новых наборов данных для аналитики, которые уже были созданы кем-то другим в компании.

Будет большой ошибкой нанять дорогую команду data scientists и загрузить её задачами по поиску, очистке, интеграции, повышению качества данных. Задачи по подготовке данных должны быть максимально автоматизированы и переложены на плечи инженеров по данным. Лидеры работы с данными по всему СНГ хорошо понимают значимость последних и занимаются их обучением и подготовкой. Например, в России «Ростелеком» открыл свою школу, в Казахстане – Альфа-Банк Казахстан.

Миф 5. Сотрудники компаний с удовольствием внедряют новые технологии

При разработке новых проектов Big Data нужно принимать во внимание, что не все сотрудники компании будут рады поддержать вашу инициативу. А инициативы, связанные с данными, подразумевают вовлечение большого числа людей на разных уровнях и из разных отделов. В частности, большую роль такое вовлечение играет для стратегического управления данными – Data Governance, для обеспечения глобального качества данных.

С точки зрения бизнеса подобные проекты приносят пользу. С точки зрения рядового сотрудника – могут представлять дополнительную нагрузку или угрозу: аналитика данных может показать ошибки в работе людей. Нужно заранее всё предусмотреть, договориться, учесть интересы всех вовлечённых сторон. При этом вовлечение руководства организации обязательно.

Миф 6. Управление данными и информационная безопасность по-прежнему живут отдельно друг от друга

Такое положение дел может привести к проблемам с законом в будущем. Компании в Европе сейчас уже столкнулись с такими проблемами из-за регламента GDPR (Генеральный регламент о защите персональных данных). Что делать? Нужно внедрять Data Governance, чтобы знать обо всех данных, которые хранятся в компании, и эффективно искать те, которые требуют защиты. Конфиденциальную и чувствительную информацию лучше маскировать – пользователь без доступа увидит набор символов вместо реальных данных. Работа с данными всё больше становится междисциплинарной. Функции специалистов по данным и специалистов по информационной безопасности в будущем будут только сближаться.

Для успешной монетизации больших данных важно отделять мифы от реальных фактов. Иногда это бывает непросто. Но игра стоит свеч, успешных проектов Big Data в мире сейчас всё больше. Казахстан в этом направлении не должен отставать.

   Если вы обнаружили ошибку или опечатку, выделите фрагмент текста с ошибкой и нажмите CTRL+Enter

Орфографическая ошибка в тексте:

Отмена Отправить