Агрегированные модели и NoSQL базы данных

04 октября 2018 Просмотров: 9473

Модель данных — это модель, с помощью которой мы воспринимаем и обрабатываем свои данные. Для людей, работающих с базами данных, модель данных описывает способ взаимодействия с данными, находящимися в базе. Этим она отличается от модели хранилища, описывающей, как база данных хранит данные и манипулирует ими. В теории мы должны были бы игнорировать модель хранилища, но на практике нам необходимо иметь хотя бы приблизительное представление о ней, в основном для того, чтобы обеспечить приемлемую производительность.

Оглавление статьи[Показать]

В разговорной речи моделью данных часто называют модель конкретных данных в приложении. Разработчик может указать на диаграмму “сущность—связь” своей базы данных и назвать ее моделью данных, содержащей клиентов, заказы, товары и т.д. Однако в нашей книге термин “модель данных” относится к модели, в соответствии с которой база данных организует данные, — то, что формально можно было бы назвать метамоделью.

В последние несколько десятилетий доминирующей была реляционная модель данных, которая лучше всего представляется в виде набора таблиц, напоминающих страницы электронных таблиц. Каждая таблица состоит из строк, представляющих какую- то сущность. Мы описываем эту сущность с помощью столбцов, каждый из которых имеет отдельное значение. Столбец может относиться к другой строке той же или другой таблицы. Таким образом, возникают связи между сущностями. (Говоря о таблицах и строках, мы используем неформальную, но распространенную терминологию; более формальными терминами являются “отношения” и “кортежи”.)

Одной из основных особенностей технологии NoSQL является отказ от реляционной модели. Каждое решение в рамках технологии NoSQL использует свою собственную модель. Эти модели разделяются на четыре категории: ключ—значение, документ, семейство столбцов и граф. Первые три модели имеют общее свойство, которое мы назовем агрегатной ориентацией (aggregate orientation). В этой главе объясняется, что мы понимаем под агрегатной ориентацией и что это значит для моделей данных.

Агрегаты

Реляционная модель получает информацию, которую мы хотим хранить, и разделяет ее на кортежи (строки). Кортеж — это ограниченная структура данных. Он хранит набор значений, поэтому не может содержать запись, список значений или другой кортеж. Эта простота образует основу реляционной модели и позволяет интерпретировать все операции как операции над кортежами и возвращение кортежей.

Агрегатная ориентация придерживается другого подхода. Она учитывает необходимость оперировать данными, имеющими более сложную структуру, чем набор кортежей. Ее можно описать в терминах сложной записи, которая может содержать списки и другие структуры записей. Как мы увидим, базы данных типа “ключ-значение”, документ и семейство столбцов могут содержать сложные записи. Однако для этой сложной записи нет общепринятого термина; в книге мы называем ее агрегатом (aggregate).

Агрегат — это термин, пришедший из предметно-ориентированного проектирования [Evans]. В предметно-ориентированном проектировании агрегатом называют коллекцию связанных объектов, которая интерпретируется как единое целое. В частности, она представляет собой единицу для манипулирования данными и управления их согласованностью. Обычно мы модифицируем агрегаты с помощью атомарных операций и взаимодействуем с хранилищем данных посредством агрегатов. Это определение довольно точно описывает принципы работы баз данных типа “ключ-значение”, документ и семейство значений. Агрегаты облегчают работу баз данных на кластерах, поскольку агрегат представляет собой естественную единицу репликации и фрагментации. Кроме того, агрегаты упрощают разработку прикладных программ, которые часто манипулируют данными с помощью агрегированных структур.

Пример отношений и агрегатов

Попробуем продемонстрировать сказанное на примере. Предположим, мы разрабатываем веб-сайт для электронной торговли; мы собираемся продавать товары непосредственно клиентами через веб и хотим хранить информацию о пользователях, каталогах наших товаров, заказы, адреса поставки и даты платежей. Этот сценарий можно использовать для моделирования данных с помощью реляционной модели, а также технологии NoSQL, а потом проанализировать их преимущества и недостатки. Разработку реляционной базы данных можно начать с модели данных, представленной на рис. 1.

Мы выполнили все правила реляционной модели, все нормализовано, так что никакие данные не встречаются в нескольких базах одновременно. Кроме того, мы обеспечили целостность ссылок. Реалистичная система заказов, конечно, выглядит сложнее, но в книге можно ограничиться ее упрощенным вариантом.

Рис. 1. Модель данных, ориентированная на реляционную базу данных (в обозначениях UML [Fowler UNL])

На рис. 2 представлены некие простые данные для этой модели.

Рис. 2. Типичные данные для использования в модели RDBMS

Посмотрим, как будет выглядеть эта модель, если мы используем агрегатноориентированный подход (рис. 3)

Рис. 3. Агрегатная модель данных

Итак, у нас есть простые данные, которые мы представим в формате JSON, который является основным способом представления данных в технологии NoSQL.

// Клиенты
{
"id":l,
"name":"Martin",
"ЬillingAddress": [ { "ci ty": "Chicago"}]
}
// Заказы
{
"id":99,
"customer!d":l,
"orderitems":[
   {
   "productid":27,
   "price": 32. 45,
   "productName": "NoSQL Distilled"
   }
] ,
"shippingAddress": [ { "city": "Chicago"}]
"orderPayment": [
   {
   "ccinfo":"l000-1000-1000-1000",
   "txnid":"abelif879rft",
   "billingAddress": {"city": "Chicago"}
   }
],
}

В этой модели есть два основных агрегата: клиент и заказ. В языке UML черный ромб обозначает агрегацию. Агрегат клиента содержит список адресов плательщиков; агрегат заказа содержит список заказанных товаров, адреса поставки и данные о платежах. Запись о платеже сама содержит адрес клиента, выполняющего данный платеж.

Отдельная логическая запись, содержащая адрес, в этом примере появляется три раза, но вместо использования идентификатора она интерпретируется как значение и каждый раз копируется. Это соответствует ситуации, в которой вы не хотите изменять адреса доставки и плательщика. В реляционных базах данных мы должны были бы гарантировать, что строки адресов не будут изменяться, создавая вместо них новые строки. При использовании агрегатов мы можем копировать всю адресную структуру в агрегат.

Связь между клиентом и заказом не хранится в агрегатах — это связь между агрегатами. Аналогично связь, идущая от заказа, может идти к отдельной агрегированной структуре для товаров, но она не хранится в этой структуре. Мы показали название товара в качестве части заказа, — этот вид денормализации напоминает компромисс, принятый в реляционных базах данных, но по отношению к агрегатам он носит более общий характер, потому что мы хотим минимизировать количество агрегатов, к которым будем иметь доступ при работе с данными.

В данном примере важен не столько конкретный способ изображения границы агрегата, сколько тот факт, что мы должны думать о доступе к данным при разработке модели данных для приложения. Действительно, мы могли бы иначе изобразить границы агрегатов, поместив все заказы отдельного клиента в агрегат клиента (рис. 4).

Рис. 4. Объединение всех объектов, соответствующих клиенту и его заказам

Используя описанную выше модель данных, записи Customer и Order можно переписать следующим образом:

// Клиенты {
"customer": {
"id": 1,
"name": "Martin",
"billingAddress":	[{"city": "Chicago"}],
"orders":	[
   {
      "id":99,
      "customerld":1,
      "orderIterns":[
      {
         "productld":27,
         "price": 32.45,
         "productName": "NoSQL Distilled"
      }
   ],
   "shippingAddress":[{"city":"Chicago"}]
      "orderPayment":[
      {
         "ccinfo":"1000-1000-1000-1000",
         "txnId":"abelif879rft",
         "billingAddress" : { "city" : "Chicago" }
      }],
   }]
  }
}

Как это часто бывает в моделировании, универсального способа для изображения границ агрегатов не существует. Это целиком зависит от ваших намерений относительно манипулирования данными. Если вы хотите получать доступ к записи о клиенте и ко всем его заказам одновременно, то, вероятно, предпочтете один агрегат. Однако, если вы хотите в каждый момент времени получать доступ к отдельному заказу, то должны предусмотреть отдельный агрегат для каждого заказа. Естественно, это очень сильно зависит от контекста; даже в рамках одной системы разные приложения могут иметь разные предпочтения. Этим, в частности, объясняется, почему так много людей предпочитают игнорировать агрегаты.

Последствия ориентации на агрегаты

Несмотря на то что реляционное отображение достаточно хорошо отражает элементы данных и отношения между ними, оно никак не учитывает понятие агрегата. При описании предметной области мы можем говорить, что заказ состоит из предметов заказа, адреса поставки и платежа. В реляционной модели это можно выразить в терминах отношений с внешним ключом. Однако отношения, представляющие
агрегацию, невозможно отличить от отношений, не представляющих агрегацию. В результате база данных не может использовать знание об агрегатной структуре при хранении и распределении данных.

В разных методах моделирования данных существуют возможности разметить агрегаты или составные структуры. Однако проблема заключается в том, что эти методы редко предоставляют какие-либо семантические конструкции, позволяющие отличить отношение агрегирования от других; а те методы, которые это делают, решают эту задачу по-разному. Работая с агрегатно-ориентированными базами данных, мы имеем более четкую семантику, позволяющую сосредоточиться на единице взаимодействия в хранилище данных. Тем не менее это не является логическим свойством данных. Все это относится к тому, как данные используются в приложениях, — т.е. к вопросу, который часто выходит за рамки моделирования данных.

Реляционные базы данных не имеют концепции агрегата в своей модели данных, поэтому мы называем их безагрегатными (aggregate-ignorant). В технологии NoSQL графовые базы данных также являются безагрегатными. Это свойство нельзя назвать недостатком. Часто трудно правильно изобразить границы агрегатов, особенно если одни и те же данные используются в разных контекстах. Заказ представляет собой удобный агрегат, если клиент создает и просматривает заказы, а розничный продавец обрабатывает их. Однако, если продавец захочет проанализировать свои продажи за последние несколько месяцев, агрегат заказов станет для него проблемой. Для того чтобы получить историю продаж, вы должны заглянуть в каждый агрегат в вашей базе данных. Итак, агрегатная структура может упростить одни операции с данными и усложнить другие. Безагрегатная модель позволяет легко просматривать данные разными способами, поэтому она является лучшим выбором, если у вас нет основной структуры для манипулирования данными.

Заключительный аргумент в пользу агрегатной ориентации заключается в том, что она очень облегчает работу на кластерах, которая, как вы помните, была основной причиной появления технологии NoSQL. При работе на кластерах вы должны минимизировать количество узлов, которые необходимо опросить, чтобы собрать данные. Включая агрегаты явным образом, мы предоставляем базе данных важную информацию о том, какие части данных обрабатываются вместе и, следовательно, должны храниться на одном и том же узле.

Агрегаты оказывают сильное влияние на транзакции. Реляционные базы данных позволяют манипулировать любой комбинацией строк из любой таблицы в рамках одной транзакции. Такие транзакции называются ACID: атомарные (atomic), согласованные (consistent), изолированные (isolated) и долговечные (durable). ACID — это надуманная аббревиатура; главным пунктом является атомарность: многие строки из разных таблиц обновляются в рамках одной операции. Эта операция завершается либо полным успехом, либо полной неудачей, причем параллельные операции изолируются друг от друга так, что они не могут выполнять частичные модификации.

Часто говорят, что базы данных NoSQL не поддерживают транзакции ACID и тем самым не обеспечивают согласованность. Это огульное упрощение. В целом это относится к тем агрегатно-ориентированным базам данных, у которых нет транзакций ACID, охватывающих несколько агрегатов. Вместо этого они поддерживают атомарные манипуляции с отдельными агрегатами по очереди. Это значит, что если нам требуется обработать несколько агрегатов атомарным образом, то мы должны управлять ими из кода приложения.

На практике наши атомарные потребности можно удовлетворить в рамках отдельного агрегата; действительно, эта задача является частью общей проблемы, связанной с разделение данных по агрегатам. Следует также помнить, что графовые и другие безагрегатные базы данных обычно используют транзакции ACID аналогично реляционным базам данных. Кроме того, как будет показано в главе 5, согласованность данных представляет собой отдельную проблему, для решения которой не важно, поддерживает ли база данных транзакции ACID или нет.

Модель данных “ключ-значение” и документная модель

Ранее мы говорили о том, что базы данных типа “ключ—значение” и документные базы данных являются сильно агрегатно-ориентированными. Мы имели в виду, что эти базы данных в основном были сконструированы из агрегатов. Базы данных обоих типов состоят из множества агрегатов, каждый из которых имеет ключ или идентификатор, который используется для доступа к данным.

Эти две модели отличаются друг от друга тем, что в базе данных “ключ- значение” агрегат является непроницаемым для базы данных — просто большой черный ящик, состоящий из преимущественно бессмысленных битов. В противоположность этому документная база может видеть структуру агрегата. Преимущество непрозрачности заключается в том, что в агрегате можно хранить все что угодно. База данных может ограничивать общий размер агрегата, но в остальном мы имеем полную свободу. Документная база данных накладывает ограничения на то, что можно хранить в агрегате, определяя допустимые структуры и типы. Однако за это мы получаем большую гибкость доступа. В хранилище типа “ключ-значение” мы можем просматривать агрегат только с помощью его ключа. В документной базе данных мы можем посылать базе данных запросы, касающиеся полей в агрегате, извлекать части агрегата, а не весь агрегат целиком, причем база данных может создавать индексы с учетом содержимого агрегата. На практике разделительная линия между базами данных типа “ключ-значение” и документными базами данных довольна расплывчата. Люди часто записывают идентификаторы в документные базы данных, чтобы выполнять поиск в стиле “ключ-значение”. Базы данных, классифицированные как базы типа “ключ-значение”, могут предлагать новые структуры для данных, помимо непрозрачных агрегатов. Например, база данных Riak позволяет добавлять метаданные к агрегатам для индексирования и установления связей между агрегатами, a Redis позволяет разбивать агрегаты на списки или множества. Кроме того, можно обеспечить механизм запросов с помощью интегрированных средств поиска, как в базе данных Solr. Например, поисковый механизм базы данных Riak, аналогичный поисковому механизму базы Solr, выполняет поиск агрегатов, хранящихся в виде структур JSON или XML.

Несмотря на такое нечеткое разделение, эти две категории в целом отличаются друг от друга. Базы данных типа “ключ—значение”, как правило, выполняют поиск агрегатов по ключу. В документных базах данных пользователь должен подать запрос, основанный на внутренней структуре документа; это может быть ключ, но, скорее всего, это будет нечто другое.

Хранилища типа “семейство столбцов”

Одной из ранних и популярных баз данных NoSQL была база BigTable компании Google [Chang etc.]. Ее имя вызывает в воображении табличную структуру, состоящую из отдельных столбцов и не имеющую схемы. Как вскоре будет показано, эту структуру не следует представлять в виде таблицы; скорее она представляет собой двухуровневый ассоциативный массив. Однако, как бы вы ни представляли себе эту структуру, эта модель оказала влияние на более поздние базы данных, такие как HBase и Cassandra.

Эти базы данных с таблицами в стиле BigTable часто называют хранилищами столбцов, но это имя относится совсем к другой сущности. Хранилища столбцов, существовавшие до появления технологии NoSQL, такие как С-Store [C-Store], прекрасно уживались с языком SQL и реляционной моделью. Они отличались лишь способом физического хранения данных. Большинство баз данных в качестве единицы хранения используют строки. Помимо всего прочего, это позволяет обеспечить высокую производительность записи. Однако существует много сценариев, в которых записи выполняются редко, но приходится часто считывать по несколько столбцов из многих строк одновременно. В этой ситуации лучше считать единицей хранения группы столбцов для всех строк. Именно поэтому такие базы данных называются хранилищами столбцов.

База данных BigTable и ее потомки основаны на концепции хранения групп столбцов (семейств столбцов), но, в отличие базы C-Store и ее аналогов, в них не используются реляционная модель и язык SQL. В моем блоге мы называем этот класс баз данных семействами столбцов.

Вероятно, лучше всего представлять модель семейства столбцов как двухуровневую агрегатную структуру. Как и в хранилищах типа “ключ-значение”, главный ключ часто описывается как идентификатор строки, отмечая интересующий нас агрегат. Отличительной особенностью структур типа “семейство столбцов” является то, что эта строка-агрегат сама состоит из ассоциативного массива более детализированных значений. Эти значения второго уровня называются столбцами. Помимо доступа к строкам как к единому целому, операции также допускают извлечение конкретного столбца, так что, для того чтобы получить имя клиента на рис. 5, мы могли бы написать команду наподобие get ('1234', 'name').

Базы данных типа “семейство столбцов” организуют свои столбцы в семейства. Каждый столбец должен быть частью одного семейства столбцов и быть единицей доступа. При этом предполагается, что данные в конкретном семействе столбцов обычно доступны одновременно.

Рис. 5. Представление информации о пользователе в виде структуры “семейство столбцов”

Это открывает несколько возможностей для представления о том, как структурированы данные в базе.

Ориентация по строкам. Каждая строка — это агрегат (например, клиент с идентификатором 1234), а семейства столбцов содержат фрагменты данных (профиль, история заказов) в этом агрегате.
Ориентация по столбцам. Каждое семейство столбцов определяет тип записи (например, профили клиентов), причем каждой записи соответствуют строки. В таком случае строку можно интерпретировать как объединение записей из всех семейств столбцов.

Последний аспект отражает “столбцовую” природу баз данных типа “семейство столбцов”. Поскольку базе данных известно о группировке данных, она может использовать эту информацию для хранения и обеспечения доступа. Несмотря на то что документная база данных объявляет определенную структуру данных, каждый документ по-прежнему рассматривается как отдельная единица. Базы данных типа “семейство столбцов” имеют двумерный характер.

Все сказанное относится к базам данных Google BigTable и HBase, но Cassandra немного отличается от них. Строка в базе данных Cassandra возникает только в семействе столбцов, но это семейство может содержать суперстолбцы — столбцы, содержащие вложенные столбцы. Суперстолбцы в базе Cassandra являются ближайшим аналогом классических семейств столбцов BigTable.

Представлять семейства столбцов в виде таблиц неправильно. Вы можете добавлять любой столбец в любую строку, а строки могут иметь самые разные ключи. В то время как новые столбцы добавляются в строки при обычном доступе к базе данных, определение нового семейства столбцов происходит намного реже и может вызвать остановку работы базы данных.

Пример, приведенный на рис. 5, иллюстрирует другой аспект баз данных типа “семейство столбцов”, который может оказаться неизвестным людям, использующим реляционные базы данных: семейство столбцов orders. Поскольку столбцы можно добавлять свободно, список элементов можно легко моделировать, сделав каждый элемент отдельным столбцом. Если представлять себе семейство столбцов как таблицу, это может показаться очень странным, но если строку семейства столбцов интерпретировать как агрегат, все становится на свои места. В базе данных Cassandra строки бывают широкими и “худыми”. “Худые” строки (skinny rows) содержат несколько столбцов, причем одни и те же столбцы используются в разных строках. В данном случае семейство столбцов определяет тип записи, каждая строка является записью, а каждый столбец — полем. Широкая строка (wide row) содержит много разных столбцов (возможно, тысячи). Широкое семейство столбцов моделирует список, в котором каждый столбец представляет собой элемент в этом списке.

Широкие семейства столбцов могут определять определенный порядок следования своих столбцов. В таком случае мы можем обращаться к заказам и диапазонам заказов по их порядковым ключам. Если заказы упорядочены по идентификаторам, это не представляет интереса, но ключ представляет собой конкатенацию даты и идентификатора (например, 20111027-1001), и это оказывается полезным.

Несмотря на то что полезно различать широкие и “худые” семейства столбцов, нет никаких формальных причин, по которым семейство столбцов не может содержать как столбцы, похожие на поля, так и столбцы, напоминающие списки, хотя упорядочение при этом сильно усложняется.

Заключительные замечания об агрегатноориентированных базах данных

Мы рассмотрели достаточно много материала, чтобы сделать краткий обзор трех разных стилей агрегатно-ориентированных моделей и их отличий.

Для всех них характерно понятие агрегата, индексированного ключом, который можно использовать для поиска. Агрегат очень важен для работы на кластерах, поскольку база данных в этом случае будет гарантировать, что все данные одного агрегата хранятся на одном узле. Кроме того, агрегат является атомарной единицей модификации, обеспечивая полезный, хотя и ограниченный объем управления транзакциями.

Агрегаты бывают разными. Модели данных типа “ключ—значение” интерпретируют агрегаты как “черный ящик”, т.е. искать можно только целые агрегаты, — вы не можете подать запрос на извлечение части агрегата.

В документной модели агрегат является прозрачным для базы данных. Это позволяет посылать запросы к фрагментам агрегата и осуществлять частичное извлечение данных. Однако, поскольку документ не имеет схемы, база данных не может сильно влиять на структуру документа, чтобы оптимизировать хранение и извлечение частей агрегата.

Модели типа “семейство столбцов” разделяют агрегат на группы столбцов, интерпретируя их как единицы данных в агрегате-строке. Это накладывает на агрегат структурные ограничения, но позволяет базе данных использовать эту структуру для улучшения доступа.

Резюме

Агрегат — это коллекция данных, с которой мы взаимодействуем как с отдельной единицей. Агрегаты образуют границы для операций ACID, применяемых в базе данных.
Базы данных типа “ключ-значение”, документные базы данных и семейства столбцов представляют собой агрегатно-ориентированные базы данных.
Агрегаты упрощают управление хранением данных на кластерах.
Агрегатно-ориентированные базы данных лучше всего работают, когда большинство операций над данными выполняются в одном и том же агрегате; безагрегатные базы данных лучше работают, когда операции выполняются над данными, которые относятся к многочисленным разным формациям.

Вас заинтересует / Intresting for you:

Как правильно выбрать базу дан... 7234 просмотров Administrator SU Sun, 07 Oct 2018, 08:31:24

Модели данных и концептуальное... 3021 просмотров Ирина Светлова Thu, 11 Feb 2021, 14:18:45

Альтернативные модели данных и... 8650 просмотров Дэйзи ак-Макарова Sun, 09 Sep 2018, 10:39:19

Модели данных и языки запросов 1359 просмотров Дэн Wed, 06 Mar 2019, 16:11:35

Войдите чтобы комментировать

Тема на форуме: Агрегированные модели и NoSQL базы данных

apv ответил в теме #9869 3 года 2 мес. назад

Из баз данных / хранилищ типа "ключ-значение" кто какие предпочитает? Есть лидеры? Или спецификой задачи все определяется?

Подробнее...

What Are You Looking For?

Popular Tags

Агрегированные модели и NoSQL базы данных

Агрегаты

Пример отношений и агрегатов

Последствия ориентации на агрегаты

Модель данных “ключ-значение” и документная модель

Хранилища типа “семейство столбцов”

Заключительные замечания об агрегатноориентированных базах данных

Рекомендации по теме

Резюме

Вас заинтересует / Intresting for you:

Новости

Собчак сделала попытку обвинить Путина в гибели Пригожина

Как Эрдоган кинул Путина после мятежа Пригожина в России?

Мятеж Пригожина как индикатор импотенции элит, власти, силовиков

Кто и зачем крышует мошенницу Блиновскую? И при чем здесь Нарусова, Собчак и Титов?

Ваш аккаунт

Разделы

Информация

Войдите в Ваш аккаунт

What Are You Looking For?

Popular Tags

Агрегированные модели и NoSQL базы данных

Агрегаты

Пример отношений и агрегатов

Последствия ориентации на агрегаты

Модель данных “ключ-значение” и документная модель

Хранилища типа “семейство столбцов”

Заключительные замечания об агрегатно­ориентированных базах данных

Рекомендации по теме

Резюме

Вас заинтересует / Intresting for you:

Новости

Собчак сделала попытку обвинить Путина в гибели Пригожина

Как Эрдоган кинул Путина после мятежа Пригожина в России?

Мятеж Пригожина как индикатор импотенции элит, власти, силовиков

Кто и зачем крышует мошенницу Блиновскую? И при чем здесь Нарусова, Собчак и Титов?

Ваш аккаунт

Разделы

Информация

Заключительные замечания об агрегатноориентированных базах данных