Облако меняет способ использования данных предприятиями, и в то же время способ использования данных меняет само облако.
Организации внедряют несколько облачных платформ данных, чтобы максимизировать ценность данных, но при этом часто усложняются команды инженерии данных и DataOps, что может подавить саму причину инвестирования в эти платформы.
На вебинаре с участием Сумита Саркара, старшего директора по маркетингу продуктов Immuta, обсудили три самых больших препятствия для команд DataOps, управляющих платформами облачных данных, и способы их преодоления.
Саркар пояснил, что DataOps - это практика совместного управления данными, направленная на улучшение связи, интеграции и автоматизации потоков данных между инженерами данных и потребителями данных в организации.
По его словам, DataOps - это не инструмент интеграции данных, ни нечто, что использует Apache Airflow, или даже что-то более продвинутое, что используют низкооплачиваемые инженеры.
Прямо сейчас команды DataOps наблюдают появление различных тенденций, включая использование различных облачных платформ и использование конфиденциальных и регулируемых данных.
Согласно исследованию Immuta «Состояние обработки данных и операций для аналитики, 2020», 75% респондентов ожидают, что в ближайшие 24 месяца они будут «полностью» или «преимущественно» использовать облачные технологии.
По словам Саркара, группы обработки данных сочли «маскирование или анонимность данных» и «мониторинг и аудит использования данных» наиболее сложными шагами в процессе управления данными. Проблемы множатся с появлением большего количества платформ облачных данных.
Три самых больших препятствия, связанных с увеличением количества платформ облачных данных и более конфиденциальными данными, включают:
- Многократный рост ролей при использовании данных
- Трудно классифицировать данные
- Разрозненная защита данных
По его словам, существует несколько уровней современной экосистемы облачных данных, которые можно автоматизировать. Эти области включают:
- уровень приема и преобразования;
- уровень хранения (элементы управления хранилищем объектов);
- уровень запросов и обработки;
- выходной слой (аналитический инструмент управления);
- независимая политика, применяемая на уровне запросов и обработки.
По словам Саркара, результатом этого является увеличение разрешенных вариантов использования на 400%, повышение производительности разработки данных на 40%, упрощение управления ролями в 200 раз и сокращение времени доступа к данным с месяцев до секунд.