Первая страница webxt design
™
   
   
   
   
 информационные технологии для вашего бизнеса
Создание OLAP, DW, DSS систем  Создание OLAP, DW, DSS систем 
 

Концепции

В основе концепции оперативной аналитической обработки (OLAP) лежит многомерное представление данных. Термин OLAP ввел E. F. Codd в 1993 году. Он рассмотрел недостатки реляционной модели, в первую очередь невозможность “объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом”, и определил общие требования к системам OLAP, расширяющим функциональность реляционных СУБД и включающим многомерный анализ как одну из своих характеристик.

Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP (табл. 1).

Правило
Описание
1

Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View)

Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции “анализа вдоль и поперек”3 (“slice and dice”), вращения (rotate) и размещения (pivot) направлений консолидации.

2

Прозрачность (Transparency)

Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.

4

Устойчивая производительность (Consistent Reporting Performance)

С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.

5

Клиент – серверная архитектура (Client-Server Architecture)

Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.

6

Равноправие измерений (Generic Dimensionality)

Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.

7

Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling)

Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.

8

Поддержка многопользовательского режима (Multi-User Support)

Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.

9

Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimen sional Operations)

Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.

10

Интуитивное манипулирование данными (Intuitive Data Manipulation)

Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.

11

Гибкий механизм генерации отчетов (Flexible Reporting)

Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации.

12

Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels)

Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации.

По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) является наиболее естественным взглядом управляющего персонала на объект управления. Оно представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных.

Одновременный анализ по нескольким измерениям данных определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.

Так, измерение Исполнитель может определяться направлением консолидации, состоящим из уровней обобщения “предприятие – подразделение – отдел – служащий”. Измерение Время может даже включать два направления консолидации – “год – квартал – месяц – день” и “неделя – день”, поскольку счет времени по месяцам и по неделям несовместим. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений. Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим; напротив, операция подъема (rolling up) означает движение от низших уровней к высшим.

С концепцией оперативной аналитической обработки информации наразрывно связана концепция Хранилищ Данных ( Data Warehouse).

Автором концепции Хранилищ Данных (Data Warehouse) является Б.Инмон, который определил Хранилища Данных, как: “предметно ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления”, призванные выступать в роли “единого и единственного источника истины” обеспечивающего менеджеров и аналитиков достоверной информацией необходимой для оперативного анализа и принятия решений.

В основе концепции Хранилищ Данных лежат две основополагающие идеи:

  • Интеграция ранее разъединенных детализированных данных:

    • исторические архивы,

    • данные из традиционных СОД,

    • данные из внешних источников в едином Хранилище Данных, их согласование и возможно агрегация.

  • Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа.

В области информационных технологий всегда сосуществовали два класса систем:

  1. системы, ориентированные на операционную (транзакционную) обработку данных OLTP (On-Line Transaction Processing, оперативная транзакционная обработка)

  2. системы, ориентированные на аналитическую обработку данных (OLAP) – системы поддержки принятия решений (СППР), или Decisi on Support Systems (DSS).

Цель концепции Хранилищ Данных - прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным помещаемым в целевую БД Хранилища Данных (таблица 2), определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.

Таблица 1. Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных

Характеристика
Операционные
Аналитические
Частота обновления

Высокая частота, маленькими порциями

Малая частота, большими порциями

Источники данных

В основном внутренние

В основном внешние

Объемы хранимых данных

Сотни мегабайт, гигабайты

Гигабайты и терабайты

Возраст данных

Текущие (за период от нескольких месяцев до одного года)

Текущие и исторические (за период в несколько лет, десятки лет)

Назначение

Фиксация, оперативный поиск и преобразование данных

Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.

Таблица 2. Основные требования к данным в Хранилище Данных

Предметная ориентированность

Все данные о некотором предмете (бизнес объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме.

Интегрированность

Все данные о разных бизнес объектах, взаимно согласованы и хранятся в едином общекорпоративном Хранилище

Не изменчивость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное Хранилище, остаются неизменными и используются исключительно в режиме чтения

Поддержка хронологии

Данные хронологически структурированы и отражают историю, за достаточный, для выполнения задач бизнес анализа и прогнозирования, период времени.

Целью построения корпоративного хранилища данных является интеграция, актуализация и согласование оперативных данных из разнородных источников для формирования единого непротиворечивого взгляда на объект управления в целом. При этом в основе концепции хранилищ данных лежит признание необходимости разделения наборов данных, используемых для транзакционной обработки, и наборов данных, применяемых в системах поддержки принятия решений. Такое разделение возможно путем интеграции разъединенных ориентированных на операционную (транзакционную) обработку данных OLTP-систем и внешних источников детализированных данных в едином хранилище, их согласования и, возможно, агрегации.


Карта сайта
Как с нами связаться