Появление хранилищ данных (Data Warehouse)

хранилищ данных - Data WarehouseКак только были созданы OLTP-системы для эффективного сбора данных, возник вопрос о том, как лучше всего интерпретировать эти данные. В конце 80-х и начале 90-х в ходе попыток получить более широкий взгляд на бизнес в целом возникли хранилища данных (системы хранения информации) (data warehouses)(термин введен Биллом Инмоном (Bill Inmon), «отцом» хранилищ данных). Данные от многих рабочих систем, используемых в повседневной работе, собирались вместе и обеспечивали общекорпоративную перспективу.

Системы хранения информации создавались для того, чтобы видеть бизнес во времени и выявлять тенденции. Принятие многих решений требует способности отрешиться от повседневных операций и шире взглянуть на бизнес. К типичным запросам к хранилищам относятся составление отчетов по продажам продукта за последние два года или рассмотрение влияния крупного снежного бурана на розничную продажу и продажу через Интернет. Запросы включают определение того, как эти значения менялись со временем, что изменилось еще, а также выявление возможной связи.

Чтобы выполнять анализ такого типа, данные в хранилище должны сохраняться в течение долгого периода времени, часто пять-десять лет.

Система хранения находит информацию, стоящую за данными

В хранилище данных главная операция — это запрос или чтение данных. Единственная операция модификации выполняется при загрузке новых данных. Системы принятия решений (Decision Support Systems, DSS), такие, как Oracle Discoverer, обеспечивают интерактивную посылку запросов, составление диаграмм, графиков и отчетов. Oracle добавила для повышения производительности запросов новые типы структур доступа, такие, как индексы на основе битовых карт (bitmap indexes). В Oracle 8i для повышения производительности сбора и суммирования данных были введены материализованные представления (materialized views).

Oracle Express Server стал аналитическим интерфейсом хранилища данных, обеспечивающим аналитическую обработку информации в режиме он-лайн (OLAP). Программное обеспечение OLAP используется для анализа бизнес данных иерархическим образом сверху вниз. Оно предполагает, что запросы будут поступать итеративно, т. е. результаты ответа на один вопрос будут порождать много новых вопросов.

Недостаточно знать только прибыль, полученную за этот год. Аналитики должны знать изменение прибыли во времени для каждого продукта и в каждом географическом регионе. Это называется трехмерный запрос. Измерениями являются продукт, время и географический регион. Аналитику может понадобиться сравнить объем продаж в этом месяце с объемом продаж в том же месяце прошлого года по каждому магазину и с Интернет-сайтом. Он может перейти к более детализованному уровню иерархии и получить объемы продаж по отдельным магазинам и определить, какой из них оказался наиболее прибыльным, а какой - убыточным.

Системы хранения информации требуют иного построения базы данных

Хранилища информации разработаны для быстрого извлечения данных, когда путь доступа к ним неизвестен заранее. Источниками информации часто служат другие данные, составление сводок по данным, действия по выяснению подробностей или поиск тенденций и закономерностей.

В системах OLTP при проектировании схемы базы данных используется техника диаграмм связи сущностей (entity relationship, E-R). Каждая сущность становится таблицей, ее атрибуты становятся столбцами, а связи отражаются путем объединения столбцов первичного и внешнего ключей в ходе выполнения.

Нормализованное построение обеспечивает оптимальную производительность систем OLTP, что способствует большему объему операций и частому обновлению данных. Нормализация обеспечивает корректное формирование таблиц Oracle, собирая связанные данные в одну таблицу и устраняя избыточность.

Наличие единственной копии данных позволяет избежать аномалий при обновлении. Когда данные обновляются только в одном месте, сохраняется их связность. После нормализации данных для повышения производительности возможно внесение некоторой избыточности в столбцы, обновление которых не проводилось.

Чтобы оптимизировать производительность хранилища, в котором главной операцией является запрос к данным, необходима новая модель данных. Ральф Кимбелл (Ralph Kimball), главный пропагандист пространственного моделирования и автор книги «The Data Warehouse Toolkit», предложил схему звезды, новый способ проектирования базы данных для облегчения обработки OLAP. Для оптимизации производительности системы хранения информации используется техника пространственного моделирования.

При пространственном подходе данные организуются в таблицы фактов (fact table) и измерений (dimension table). Данные представляются в понятном для пользователя виде. Пользователи часто запрашивают отчеты поквартально с секционированием по магазинам и географическому региону. Число продаж — это факты.

Магазин, регион и квартал — это измерения, по которым анализируются данные и которые используются для их организации. При пространственном моделировании вносится денормализация и избыточность. Далее (в следующих заметках моего блога) мы увидим, как можно  спроектировать базу для компании Easy Shopping Inc. Этот пример будет затем использоваться на всем протяжении блога.

Логическое построение переводится в физическое, с максимальной оптимизацией производительности и управляемости. Определяются таблицы, ограничения, индексы и секционирование.

Oracle добавила несколько свойств, поддерживающих пространственное построение. Тот, кто проводит оптимизацию, может распознать схему звезды и выполнить специальную оптимизацию, что позволит избежать создания более дорогого продукта с полными декартовыми координатами. Помимо создания таблиц и столбцов, вы также можете определять измерения.

Вас заинтересует / Intresting for you:

Поддерживаемые Oracle типы дан...
Поддерживаемые Oracle типы дан... 9517 просмотров Валерий Павлюков Wed, 24 Oct 2018, 08:00:37
Видеокурс по администрированию...
Видеокурс по администрированию... 10719 просмотров Илья Дергунов Mon, 14 May 2018, 05:08:47
Oracle и непроцедурный доступ ...
Oracle и непроцедурный доступ ... 8510 просмотров Antoni Tue, 21 Nov 2017, 13:32:50
Обновление до Oracle Database ...
Обновление до Oracle Database ... 7829 просмотров Илья Дергунов Tue, 21 Nov 2017, 13:18:05
Печать
Войдите чтобы комментировать

admin аватар
admin ответил в теме #10606 1 год 8 мес. назад
Да, я бы тоже с удовольствием посмотрел бы на сравнение Oracle BI с другими системами.
ildergun аватар
ildergun ответил в теме #8210 7 года 2 нед. назад

apv пишет: а какой сейчас топовый инструмент для анализа информации хранилищ данных? Oracle Business Intelligence 12c? и что есть у конкурентов?

"Всяк кулик своё болото хвалит". У меня нет обширных данных, чтобы ответить на этот вопрос. Может кто-то наталкивался на толковое (пусть и не авторитетное) аналитическое исследование по данному вопросу?
apv аватар
apv ответил в теме #7921 7 года 2 мес. назад
а какой сейчас топовый инструмент для анализа информации хранилищ данных? Oracle Business Intelligence 12c? и что есть у конкурентов?