Жизненный цикл Больших данных (Big Data)

Жизненный цикл Больших данных

Многие организации рассматривают большие данные (Big Data) не только как модное сло­во, но и как интеллектуальную систему для улучшения бизнеса и получения со­ответствующей информации и идей. Большие данные - это термин, который от­носится к управлению огромным объемом сложных необработанных данных из различных источников, таких как базы данных, социальные медиа, изображения, сенсорное оборудование, файлы журналов регистрации событий, мнения людей и т. д. Эти данные могут быть структурированными, полуструктурированными или неструктурированными. Поэтому для обработки таких данных, которая в ус­ловиях традиционных процедур обработки представляла бы собой сложный и тру­доемкий процесс, используются специальные инструменты больших данных.


Оглавление статьи[Показать]


Жизненный цикл больших данных может быть сегментирован на объем, раз­нообразие, скорость и достоверность - обычно известные как ЧЕТЫРЕ V (Volu­me, Variety, Velocity и Veracity) БОЛЬШИХ ДАННЫХ. Давайте кратко их рассмот­рим, а затем перейдем к четырем фазам жизненного цикла больших данных, то есть сбору, хранению, анализу и управлению данными.

Ниже показано несколько реальных сценариев, которые дают нам гораздо луч­шее понимание четырех V и определения больших данных:

 Жизненный цикл больших данных

 

Объем

Объем подразумевает огромное количество данных, генерируемых и хранимых каждую секунду. Счет размера данных на предприятиях ведется уже не в терабай­тах - он наращивается в зеттабайтах или бронтобайтах. Новые инструменты для работы с большими данными в настоящее время, как правило, используют рас­пределенные системы, которые иногда могут быть диверсифицированы по всему миру.

Ожидается, что объем данных, полученных по всему миру к 2008 году, будет к 2020 году генерироваться всего за минуту.

Разнообразие

Разнообразие относится к нескольким типам и характеру данных, таких как пото­ки нажатий на веб-страницах, текст, датчики, изображения, голос, видео, файлы журналов регистрации событий, беседы в социальных сетях и многое другое. Это помогает людям, которые тщательно их изучают, эффективно их использовать для углубленного понимания.

70% данных в мире не структурированы, в частности текст, изображения, голос и т. д. Однако ранее структурированные данные были популярны из-за их доступ­ности для анализа, поскольку они могут храниться в файлах, базах данных или поддаются традиционным процедурам хранения данных.

Скорость

Скорость подразумевает скорость генерирования, усвоения и обработки данных для удовлетворения потребностей и решения задач, которые возникают на пути эволюции и расширения.

Каналы связи нового поколения, такие как социальные сети, электронные письма и мобильные телефоны, прибавили скорости данным в больших данных. Процесс ежедневного отслеживания около 1 Тб информации о торговых событи­ях для выявления мошенничества чувствителен ко времени, когда иногда каж­дая минута имеет важное значение для предотвращения мошенничества. Просто представьте разговоры в социальных сетях, которые в считанные секунды могут становиться вирусными; на таких платформах анализ помогает нам выявлять тенденции.

Правдивость

Под достоверностью понимается несогласованность данных, которую можно об­наружить; она может повлиять на эффективное управление и обработку данных. Управление такими данными и придание им ценности - вот где могут помочь большие данные.

Когда мы говорим о больших данных, качество и точность остаются главной задачей. Разве не ради этого все крутится? Количество Twitter-каналов является подходящим вариантом применения, где изобилуют хештеги, опечатки, неофи­циальный текст и аббревиатуры; вместе с тем мы ежедневно сталкиваемся со сце­нариями, где большие данные отлично справляются со своей работой в серверной части и позволяют нам работать с таким типом данных.

Фазы жизненного цикла больших данных

Эффективное использование больших данных с экспоненциальным ростом в ти­пах и объемах данных имеет огромный потенциал для преобразования эконо­мической, деловой и маркетинговой информации и наращивания клиентской базы. Большие данные стали ключевой мантрой успеха для текущих конкурент­ных рынков, для существующих компаний и фактором, меняющим правила игры в конкурентной борьбе для новых компаний. Все это может оказаться истиной, только если задействуется ЦЕННОСТЬ ДАННЫХ. Давайте посмотрим на следую­щий ниже рисунок:

Ценность больших данных

Как показано на рисунке, жизненный цикл больших данных можно разделить на четыре этапа. Рассмотрим их подробнее.

Сбор

Этот раздел является ключевым в жизненном цикле больших данных. Он опре­деляет, какой тип данных фиксируется в источнике. В качестве примеров можно привести сбор журналов регистрации событий с сервера, извлечение профилей пользователей, автоматический обзор организаций для анализа мнений и сведе­ний о заказах. Примеры, которые мы упомянули, могут включать в себя работу с локальным языком, текстом, неструктурированными данными и изображения - ми, в которых мы будем заинтересованы по мере продвижения вперед в жизнен­ном цикле больших данных.

С повышением уровня автоматизации потоков коллекций данных меняются и организации, которые классически тратят много усилий на сбор структуриро - ванных данных для анализа и оценки ключевых точек успеха бизнеса. Зрелые ор­ганизации теперь используют данные, в обычном случае игнорируемые из-за их размера или формата, которые в терминологии больших данных часто называют­ся неструктурированными данными. Эти организации всегда стараются исполь­зовать максимальный объем информации, будь то структурированная или не­структурированная, так как для них данные представляют ценность как таковую.

Данные можно передать в платформу больших данных, такую как HDFS (Hadoop Distributed File System), и их там консолидировать. После того как данные об­работаны с помощью таких инструментов, как Apache Spark, их можно загрузить обратно в базу данных MySQL, которая поможет заполнить соответствующими данными, чтобы показать, из каких составляющих MySQL состоит.

С ростом объемов данных и увеличением скорости теперь Oracle имеет интер­фейс NoSQL, предназначенный для подсистем хранения данных InnoDB и MySQL Cluster. Подсистема MySQL Cluster дополнительно полностью обходит слой SQL. Без синтаксического анализа и оптимизации SQL данные в формате ключ- значение могут вставляться прямо в таблицы MySQL в девять раз быстрее.

Хранение

В этом разделе мы обсудим хранение данных, собранных из различных источни­ков. Рассмотрим пример автоматических обзоров организаций для анализа мне­ний, где каждый обзор собирает данные с разных сайтов и по каждому отобра­жаются уникальные данные.

Традиционно данные обрабатывались с помощью процедуры ETL (извлечение, трансформация и загрузка), которая использовалась для сбора данных из различ­ных источников, их изменения в соответствии с требованиями и загрузки в хра­нилище для дальнейшей обработки или отображения. Для подобных сценариев очень часто использовались такие инструменты, как электронные таблицы, реля­ционные СУБД, инструменты бизнес-аналитики и т. д., а иногда и вручную.

Наиболее распространенным хранилищем, используемым в платформе боль­ших данных, является HDFS. HDFS также предоставляет в распоряжение язык запросов HQL (Hive Query Language), который помогает выполнять многие ана­литические задачи, которые традиционно выполняются инструментами биз- нес-аналитики. Можно рассмотреть несколько других вариантов хранения - это Apache Spark, Redis и MongoDB. Каждый вариант хранения имеет свой собствен­ный способ работы в серверной части; однако большинство поставщиков хране­ния предоставляет прикладные программные интерфейсы SQL, которые могут использоваться для дальнейшего анализа данных.

Также может возникнуть ситуация, когда нам нужно собирать и демонстриро­вать данные в реальном времени, которая практически не требует хранения дан­ных для будущих целей и позволяет выполнять аналитическую обработку в реаль­ном времени для получения результатов на основе запросов.

Анализ

В этом разделе мы обсудим, как эти различные типы данных анализируются на основе универсального вопроса, который начинается со слов «что, если...?». Эво­люция организаций вместе с данными также повлияла на новые стандарты мета­данных, организующие их с целью первичного обнаружения и переработки для структурных подходов, вызревающих на основе ценности создаваемых данных.

Большинство зрелых организаций надежно обеспечивают доступность, превос­ходство и ценность для бизнес-подразделений с постоянным автоматизированным процессом структурирования метаданных и результатов, которые будут обрабаты­ваться для анализа. В зрелой организации, управляемой данными, механизм ана­лиза обычно работает с несколькими источниками данных и типами данных, ко­торые также включают в себя данные, поступающие в режиме реального времени.

В фазе анализа обрабатываются сырые данные, для которых СУБД MySQL имеет задания MapReduce в Hadoop, которые проводят анализ и выводят результат. Ког­да данные MySQL расположены в HDFS, к ним в целях дальнейшего анализа может обращаться остальная часть экосистемы инструментов, связанных с платформой больших данных.

Управление

Невозможно извлечь ценность данных для бизнеса без сформулированной по­литики управления данными на практике. В отсутствии продуманной политики управления данными предприятия могут столкнуться с неправильной интерпре­тацией информации, что в конечном итоге может привести к непредсказуемому ущербу для бизнеса. С помощью управления большими данными организация может достигнуть последовательной, точной и действенной осведомленности в данных.

Управление данными осуществляется с целью соблюдения законодательных требований, конфиденциальности, нормативно-юридических актов и всего, что является обязательным в соответствии с требованиями бизнеса. В целях управ­ления данными непрерывный мониторинг, изучение, пересмотр и оптимизация качества процесса также должны учитывать потребности в безопасности данных. До сих пор, когда речь шла о больших данных, управление данными принималось с легкостью; однако, с ростом объемов данных и их повсеместным использованием управление данными стало привлекать к себе все больше внимания. Оно постепенно становится обязательным фактором для любого проекта в области больших данных.

Поскольку у нас есть хорошее понимание жизненного цикла больших данных, давайте теперь подробнее рассмотрим основы MySQL, ее преимущества и не­сколько превосходных функциональных средств этой реляционной СУБД.

Вас заинтересует / Intresting for you:

Важность Больших данных: где и...
Важность Больших данных: где и... 1689 просмотров Дэйзи ак-Макарова Sun, 01 Aug 2021, 16:31:46
Войдите чтобы комментировать

iVoron аватар
iVoron ответил в теме #10165 2 года 6 мес. назад
Big Data - супер актуальное направление. Пожалуйста, побольше статей на данную тему на портале!