Общий вид статистики
Маленький настраиваемый OLAP’ик на PHP+MySQL, на самом деле также поддерживает любые источники данных, если напишете функцию, которая эти данные по запросу предоставит. Брать здесь. Общий вид любой, по сути дела, статистики. Есть, условно говоря, «события» (в OLAP — «факты»), у каждого есть показатели. То есть, обычный OLAP-куб, который берётся из SQL-БД или генерируется функцией. По этим событиям интересно получать какие-то отчёты.
Типы показателей:
- Численный тип
- Время (timestamp)
- Строковой тип
Примеры показателей:
- Любые части даты/времени, типа: год, месяц, неделя, дата, время суток, час, минута и т. п. Каждый следующий такой показатель содержит все предыдущие.
- Стандартные параметры из веб-статистики: IP, User-Agent, Referer, поисковой запрос и т. п.
- Параметры смс-биллинга: стоимость смс, доход от смс, отправитель, надёжность отправителя.
- Показатели продаж: кто купил, что купил, за сколько купил.
Вычисляется Агрегат(Функция(Показатель)). Агрегат и Функция необязательны, то есть может быть просто Функция(Показатель) или Агрегат(Показатель) или просто Показатель. Функции — любые преобразования показателей, те же даты и т. п. А агрегаты — это агрегатные функции:
- Минимум, максимум
- Сумма, количество, среднее
- Количество уникальных значений
- Дисперсия (среднеквадратичное отклонение)
Построение отчёта
Во-первых, задаются условия выборки данных — потенциально, любые (просто WHERE в SQL-запросе). В простейшем виде — выбор одного значения или диапазона для каждого поля.
Далее выбирается требуемый показатель: А(Ф(П)) или А(П).
И самое интересное — произвольный набор полей для группировки. Для каждого поля выбирается:
- Тип группировки. Доступные типы, по порядку убывания приоритета (то есть сначала всегда группируется по тем типам, которые выше в списке):
- Несколько таблиц — для каждого значения данного поля будет построена отдельная таблица.
- По вертикали — значения данного поля будут отложены по вертикальной оси (в таблице — слева тела таблицы).
- По горизонтали — аналогично, но по горизонтальной оси.
- В ячейке — список значений данного поля будет выведен внутри ячейки таблицы вместе с соответствующими значениями показателя.
- Само поле: любой П или Ф(П).
- Порядок сортировки — по убыванию или по возрастанию.
- Тип сортировки — либо по значениям самого поля, либо по А(Ф(П)) любого другого поля, группируемого не по всем выбранным полям, а только по полям с типом группировки «несколько таблиц» и полям с группировкой того же типа, что и данное поле, но предшествующим данному полю.
Важная фишка в том, что на каждый тип группировки можно выбрать несколько полей, и всё отобразится корректно.
Последний пункт звучит страшно, но на самом деле, отражает довольно интуитивное поведение. Примеры:
- Для единственного поля по вертикали это будет А(Ф(П)) за соответствующую строку таблицы (например, общая сумма прибыли за строку).
- Для единственного поля по горизонтали — аналогично, за соответствующий столбец таблицы.
- Для поля в ячейках — за все ячейки, но только за их части, соответствующие данному значению.
- Если по вертикали не одно, а два поля, то для первого («внешнего») это будет А(Ф(П)) за все строки, соответствующие его значению, а для второго («внутреннего») — А(Ф(П)) за все строки, соответствующие значениям обоих полей. То есть «внутреннее» поле и будет сортироваться как бы «внутри» каждого значения внешнего.
Также умеет строить «псевдографики», состоящие из горизонтальных полос шириной, пропорциональной значению. Но — не умеет их смешивать с другими типами группировок, если выбираете хотя бы один график, графиками становится всё.
Конфигурация
Конфигурация OLAP пишется в файле olap-config.php, кладётся рядом с olap.php, и включает в себя:
OLAP::$sources = array( 'строковой ID источника' => array( 'name' => 'читаемое имя источника', 'db' => array('имя БД', 'хост БД', 'пользователь БД', 'пароль пользователя'), 'tables' => $SQL_таблицы, 'where' => $SQL_условия_накладываемые_всегда, 'use_pgm' => (true, если группировку и подсчёт нужно вычислять в PHP), 'generator' => $функция_генератор_данных, 'sql_filter' => $фильтр_SQL_строк, 'sql_options' => $SQL_опции (используются только если use_pgm==true), 'fielddescs' => array( 'имя поля' => array( 'sql' => 'SQL-код поля (необязателен, по умолчанию равен имени)', 'name' => 'читаемое имя поля', 'comment' => 'необязательный комментарий (показывается после полей ввода)', 'options' => array(array('значение', 'читаемое имя')), // опции для выпадающего списка (необязательно) 'autofilter' => (true, если можно загрузить опции для выпадающего списка из таблицы автоматически), 'le_ge' => (true, если к полю применимы фильтры >= и <=), 'is_time' => (true, если поле содержит дату/время), 'format' => (для полей с датой/временем формат - константа TS_DB (YYYY-MM-DD HH:MM:SS) или TS_UNIX (время UNIX)), 'mandatory' => (true, если данные поля нужно запрашивать всегда), // используется только в use_pgm, на случай, если фильтру нужны эти значения ), ... ), ), ... ); // Функция-генератор данных принимает параметры через хеш: function generator($params = array( 'where' => array(array('поле', 'оператор (le/ge/eq)', 'значение'), ...) 'where_sql' => (условия where, транслированные в SQL), 'fields' => array('поле', 'поле', ...), 'fields_sql' => (поля, транслированные в SQL) )) { // Должна вернуть объект, функция fetch() которого будет возвращать данные // в виде ассоциативных массивов и NULL, когда данные кончатся. return new Result(); } // Функция-фильтр применяется, если вам ещё нужно что-то сделать // с данными в коде перед их скармливанием OLAP'у. Принимает один // параметр - строчку данных (ассоциативный массив): function filter($row) { // Должна вернуть массив строчек, возможно пустой. // В конце обработки фильтру передаётся $row = NULL, на случай, // если он зажал какие-то строки и должен отдать в конце return array($row); }
За описанием параметров tables, where, sql_options обращайтесь к описанию подобного MediaWikовскому SelectBuilder’а: MySQL Select Builder, или в его код — http://svn.yourcmc.ru/viewvc.py/vitaphoto/php/mysql.php?view=markup (функция mysql_select_builder).