Big Data

Большие данные или Big Data

Big data — что это такое? В буквальном переводе эта фраза означает большие данные. В традиционном толковании большие данные — это набор огромных объемов информации, настолько сложной и неорганизованной, что она не поддается обработке традиционными инструментами управления базами данных. Big Data просто не вписываются в традиционную структуру из-за своей величины.

Под этим термином также понимают не саму информацию или отдельную технологию, а комбинацию современных и проверенных инструментов работы с гигантскими потоками данных, что помогает получать практическую информацию.

Если суммировать, то биг дата можно определить, как возможность управлять колоссальным объемом разрозненных данных с нужной скоростью и в нужные временные рамки, чтобы обеспечить их обработку и анализ больших данных в реальном времени.

Просто о больших данных

Каждый раз, когда кто-то открывает приложение на смартфоне, посещает сайт, регистрируется в Сети на каком-то ресурсе или даже вводит запрос в поисковую систему, собирается какой-то массив данных.

Большие данные схема

Пользователи обычно больше сосредоточены на результатах того, что они делают в Интернете. Их не особенно волнует то, что происходит «за кулисами». Например, человек открывает браузер и набирает в поиске «большие данные», а затем переходит по этой ссылке, чтобы прочитать наш глоссарий. Один только этот запрос способствует созданию определенного количества больших данных. Если представить, сколько людей проводят время в Интернете, посещая разные сайты, загружая изображения и так далее, становится понятно, о каких огромных объемах информации может идти речь.

Характеристики больших данных

Есть некоторые термины, связанные с большими данными, которые нужны, чтобы описать их и понять суть. Они называются характеристиками больших данных.

В традиционной трактовке «биг дейта» имеют 3 основных характеристики. В английском языке их обозначают как 3V:

  • Volume, Объем: сколько данных. Компании, занимающиеся big data, должны постоянно масштабировать свои решения для хранения данных, поскольку им постоянно требуются большие объемы дискового пространства.
  • Velocity, Скорость: насколько быстро обрабатываются данные. Поскольку большие данные генерируются каждую секунду, компаниям необходимо реагировать в режиме реального времени, чтобы справиться с такими потоками.
  • Variety, Разнообразие: какие типы данных обрабатываются и сколько их. Большие данные имеют множество форм. Они могут быть структурированными, неструктурированными или представленными в разных форматах — таких, как текст, видео, изображения и так далее.

Хотя сводить большие данные до трех V удобно, современный подход считает, что это — упрощенная схема, которая может вводить в заблуждение. Что является обязательной характеристикой, а что нет? Например, компания может управлять относительно небольшим объемом разнообразных данных или обрабатывать огромные объемы очень простых. И в том, и в другом случае одна из характеристик — или объем, или разнообразие — не совпадает. Тем не менее, речь по-прежнему идет о big data.

Кроме того, чтобы дополнить постоянно развивающиеся технологии в этой области, аналитики ввели дополнительные 2V, которые также относятся к характеристикам big data и применяются для их описания.

  • Value, Ценность: имеют ли данные ценность. Сами по себе сбор и хранение больших данных не имеют никакой практической пользы, если они не были проанализированы и не был получен результат.
  • Veracity, Правдивость: насколько данные истинны. Большие данные, какими бы большими они ни были, тоже могут содержать неверную информацию. Неопределенность данных — это то, что стоит учитывать при работе с big data.

Последняя характеристика требует некоторых пояснений. Необходимы заранее определенные критерии, по которым собранные big data можно оценивать на предмет их истинности. Тут важно правильно оценить стоящую задачу — собранные данные должны проверяться как на точность, так и в соответствии с контекстом.

Как и в реальной жизни, истина у каждого своя. Например, критерии «правды» для оценки стоимости бизнеса вряд ли совпадут с параметрами оценки ценности конкретного клиента — например, для экспресс-выдачи кредита. В первом случае берутся в расчет финансовые результаты компании и сравнение с другими аналогичными, во втором — индивидуальная кредитная история, наличие просрочек и размер официальных доходов конкретного человека. И в том, и в другом варианте нужны подсказки — какой объем информации это займет, какие признаки информации выделять и по каким критериям анализировать в реальном времени, чтобы это принесло нужный бизнес-результат.

Структурированные и неструктурированные данные

Большие данные включают в себя все разновидности данных, включая информацию из электронной почты, социальных сетей, текстовые потоки и так далее. Управление ими требует использования как структурированных, так и неструктурированных данных.

Структурирование данных — это получение информации, которая имеет определенную длину и формат. Примеры использования структурированных данных включают числа, даты или группы слов и чисел, называемые строками.

Определение неструктурированных данных идет от названия. Они отличаются от структурированных тем, что их структура непредсказуема. Примеры неструктурированных данных включают документы, электронную почту, блоги, цифровые изображения, видео и даже фото со спутника. Они также объединяют некоторые данные, генерируемые машинами или датчиками. Фактически, неструктурированные данные составляют большую часть внутренних данных компании, а также внешних, которые поступают из общедоступных онлайн-источников — таких, например, как соцсети.

Большие данные источники

В недавнем прошлом большинство компаний не могли ни собирать, ни хранить такой огромный объем неструктурированных данных. Это было слишком дорого или слишком сложно. Даже если удалось бы собрать такую информацию, у них не было инструментов, позволяющих  анализировать её и использовать результаты для принятия решений. Существовавшие платформы были сложными в использовании и не давали результатов в разумные сроки, поэтому часто использовались выжимки из данных. Это существенно искажало общую картину, так как критерии отбора информации были субъективными.

Технологии big data (больших данных)

Сегодня разработаны разные технологии, которые используются для обработки больших данных и управления ими. Из них наиболее широко используются фреймворки и платформы, разработанные Apache. По данным MarketsandMarkets, доля этой компании на рынке больших данных составляет 23,5% на конец 2020 года даже с учетом влияния пандемии. Вот что входит в их стартовый набор для управления big data.

  • Apache Hadoop — платформа, которая позволяет выполнять параллельную обработку и распределенное хранение данных;
  • Apache Spark — среда распределенной обработки данных общего назначения;
  • Apache Kafka — платформа потоковой обработки;
  • Apache Cassandra — распределенная система управления базами данных NoSQL.

Самая известная парадигма программирования, применяемая сегодня для работы с big data, называется MapReduce. Разработанная Google, модель позволяет выполнять распределенные вычисления с огромными наборами данных в нескольких системах параллельно.

MapReduce состоит из 2х частей:

  • Map, Карта данных. Технология сортирует и фильтрует, а затем классифицирует данные, чтобы их было легче анализировать.
  • Reduce, Уменьшение. Вычислительная модель объединяет все данные и предоставляет сводку.

Сферы применения больших данных

Большие данные находят множество применений в различных отраслях. Вот некоторые наиболее значимые из них.

Обнаружение мошенничества

Большие данные помогают управлять финансовыми рисками, обнаруживать попытки мошенничества и анализировать подозрительные торговые сделки.

Реклама и маркетинг

Большие данные помогают маркетологам понимать модели поведения пользователей, анализировать их и собирать информацию о мотивах потребления.

Сельское хозяйство

Большие данные в сельском хозяйстве используют для повышения урожайности. Это может быть сделано путем посадки разных семян и саженцев для теста. В big data ведутся записи, обработка и сохранение данных о том, как они реагируют на различные изменения окружающей среды. Затем собранные и проанализированные данные используются для планирования посадки выбранных сельскохозяйственных культур.

Существует также множество аналитических проблем, решить которые ранее было невозможно из-за технологических ограничений. После появления big data компании больше полагаются на этот рентабельный и надежный метод простой обработки и хранения огромных объемов данных. Технологии успешно применяются в сфере HR, здравоохранении, для улучшения городской среды, при проектировании полезных гаджетов и даже электромобилей Tesla.

Профессии в сфере больших данных

Знания о больших данных — один из важных навыков, необходимых для современных профессий, которые сегодня востребованы на рынке — в России и за рубежом. Спрос на этих специалистов вряд ли упадет в ближайшее время — ведь накопление данных со временем будет только расти. Вот некоторые из популярных специальностей.

  • Аналитик big data. Анализирует и интерпретирует большие данные, визуализирует их и создает отчеты, помогающие предпринимателям принимать обоснованные бизнес-решения.
  • Специалист по работе с большими данными. Ведет сбор данных, оценивая источники и применяя алгоритмы и методы машинного обучения.
  • Архитектор данных, Data Architect. Проектирует системы и инструменты баз, способных работать с большими данными.
  • Менеджер баз данных. Контролирует производительность системы баз данных, выполняет устранение неполадок и обновляет оборудование и программное обеспечение.
  • Инженер big data. Разрабатывает, обслуживает и поддерживает программные решения для обработки больших данных.

Проблемы больших данных

Говоря о современных больших данных, нельзя игнорировать тот факт, что с ними все еще связаны некоторые очевидные проблемы. Вот некоторые из них.

Быстрый рост данных

Данные, растущие такими быстрыми темпами, трудно затрудняют получение на их основе понимания. Каждую секунду создается все больше и больше информации, из которой необходимо извлекать действительно актуальные и полезные данные для дальнейшего анализа.

Хранение

Такие большие объемы данных сложно хранить и управлять ими без соответствующих инструментов и технологий.

Синхронизация источников данных

Когда организации импортируют данные из разных источников, данные из одного источника могут быть устаревшими по сравнению с данными из другого.

Безопасность

Огромный объем данных может легко стать мишенью для хакеров и постоянной угрозой компьютерной безопасности. Поэтому перед компаниями, управляющими big data, стоит еще одна проблема — обеспечить безопасность своих данных с помощью надлежащей аутентификации, шифрования данных и так далее.

Ненадежные данные

В силу своих объемов и разности источников большие данные не могут быть точными на 100%. Они могут содержать избыточную или, наоборот, неполную информацию, а также противоречия.

Другие проблемы

Это некоторые другие проблемы, которые возникают при работе с большими данными. Самые известные из них — это корректная интеграция данных, наличие у персонала навыков работы с big data, затраты на профессиональные решения и обработка большого количества данных вовремя и с нужной точностью.

Будущее big data

Данные становятся все более сложными — как в структурированном, так и в неструктурированном виде. Появляются и новые источники — например, датчики на оборудовании или метрики взаимодействия с сайтом в виде потоков кликов. Для удовлетворения этих меняющихся бизнес-требований важно, чтобы нужная информация была доступна в нужное время.

По прогнозам MarketsandMarkets , даже небольшим компаниям в ближайшие 10 лет предстоит освоить практические способы работы с большими данными, чтобы оставаться конкурентоспособными — изучить новые способы сбора и анализа растущего объема информации о клиентах, продуктах, услугах и так далее.

Блог