Пакет статистических программ Statistica - Горшков М.В. Экологический мониторинг

Данная система задумывалась как полная статистическая система для пользователей персональных компьютеров, не привыкших к работающим в пакетном режиме ранних версий других статистических пакетов SAS или SPSS. С самого начала эта программа обладала развитым графическим интерфейсом и опиралась на поддержку высококачественной графики для анализа данных.

Система состоит из ряда модулей, работающих независимо. Это означает, что все методы статистической обработки, реализованные в системе, разбиты на несколько групп модулей, в соответствии с разделами статистического анализа. Например, модуль Basic Statistica and Tables (Основные статистики и таблицы) содержит основные описательные статистики, методы статистического анализа различных таблиц, разносторонний инструментарий для проведения разведочного анализа данных. Имеется Multiple Regression (Многомерная регрессия), ANOVA (Дисперсионный анализ), Nonparametrics (Непараметрические статистики), Распределения (Distribution Fitting) и многие другие. Графики в данной системе строятся как из общего меню, так и из подменю процедур, что очень облегчает начинающим выбор адекватного графического представления данных.

Почти все процедуры являются интерактивными, т.е. для запуска обработки необходимо выбрать из меню переменные и ответить на ряд вопросов системы. Это очень удобно для начинающего пользователя, однако резко замедляет деятельность опытного и не позволяет эффективно повторять одну и ту же процедуру несколько раз.

Пакет Statistica является наиболее динамично развивающимся статистическим пакетом и по многочисленным рейтингам является мировым лидером на рынке статистического программного обеспечения.

Знакомство с интерфейсом программы. Меню типа File (Файл), Edit (Правка), Window (Окно), Help (Справка), стандартны для любых приложений Windows и не вызовут сложностей. Основные файлы пакета имеют расширение *.sta.

Создание файла. В меню Файл (File) выберите Новый (New). Выбрать 10×10. ОК. Данные в программе Statistica представлены электронной таблицей. Все столбцы называются Переменные (Variables), сокращённо Var 1, Var 2, Var 3 и т.п. Все строки называются Наблюдения (Cases), обозначены простыми арабскими цифрами. Изменение количества строк или столбцов. Для увеличения количества строк нажмите кнопку Наблюдения (Cases) и, из предлагаемого меню, выберите функцию Добавить (Add). В возникшем окне измените Число наблюдений (How many) на 1, а Вставить после (Insert after case) на 10. Нажмите OK. Мы получим добавление одной строки после 10-ой. Для увеличения количества столбцов используйте кнопку Переменные (Vars). Аналогично выбрав функцию Добавить (Add) измените Число переменных (How many) на 1, а Вставить после (After) на 10. Нажав OK, мы получим добавление одного столбца после 10-ого.

Для того чтобы изменить имя столбца или строки подведите курсор к ячейке с именем и произведите на ней двойной щелчок мыши. В появившемся окне, в ячейке Имя (Name) наберите название ячейки и нажмите OK.

Описательные статистики. Создайте таблицу:

	Уровень	Частота
1	16	1
2	17	0
3	18	0
4	19	3
5	20	2
6	21	3
7	22	0

Найдите меню Статистических модулей (Statistics). Выберите функцию Основные статистики и таблицы (Basic Statistics/Tables). Нажмите OK. В проявившемся списке найдите Описательные статистики (Descriptive Statistics) и нажмите OK. В окне найдите кнопку Переменные (Variables). В новом окне выберите переменную Уровень. Нажмите ОК. Вернувшись в предыдущее окно, нажмите кнопку В (W). Должно появиться окно Задание веса (Analysis/Graph Case Weights). Двойным щелчком мыши вызовите в графе Вес из переменной (Weight variable) новое окно. В нём выберите переменную Частота. Нажмите ОК. Вернувшись в окно Задание веса (Analysis/Graph Case Weights), нажмите ОК.

Во вкладке Advanced выберите следующие показатели: Минимум и максимум (Minimum & maximum), Верхняя и нижняя квартили (Lower and upper quartiles), Среднее (Mean), Выборочная дисперсия (Variance), Медиана (Median), Мода (Mode), Range (Размах), Стандартное отклонение (Standard Deviation), Skewness (Выборочный коэффициент ассиметрии), Kurtosis (Выборочный коэффициент эксцесса). После всех операций нажмите кнопку OK (Summary). Вы увидите таблицу со всеми выбранными значениями.

Графическое представление данных. Создайте таблицу:

В меню Graphs (Графики) выбрать 2М графики (2D Graphs) – Диаграмма рассеивания (Scatterplots). Если выбрать Linear fit (Подгонка) данные выстроятся относительно прямой. Тип графика Regular. Нажмите на кнопку Переменные (Variables) и выберите слева «Год», а справа «Количество». ОК. Получим диаграмму рассеивания.

Выполните графическое представление переменных. Постройте: диаграмму рассеивания (с выравниванием и без выравнивания), гистограмму (для Переменной 1 с выравниванием и без, Переменной 2 с выравниванием и без), круговую диаграмму, двухмерную гистограмму (Bivariate Histogram).

Параметрические критерии. Наиболее часто используется t-критерий известный также как критерий Стьюдента. Проиллюстрируем его расчёт на примере из типового файла Statistica. Откройте файл Adstudy.sta. Допустим нас интересует вопрос: «различается ли восприятие напитков Pepsi и Cola мужчинами и женщинами»?

Запускаем модуль Основные статистики и таблицы (Basic Statistics/Tables). Находим строку «t-test, independent, by group». ОК. Зависимые (dependent) переменные: MEASURE01-MEASURE23, группирующая – GENDER. Ориентировочным является построение диаграмм размаха и категоризированных гистограмм.

Самым простым способом изучения таблицы является просмотр столбца с p-значениями. Здесь ищем те значения, которые меньше установленного уровня значимости (0,05 – обычный в биологии). В данном случае это MEASURE07.

В качестве примеров используйте типовые файлы: Textbooks.sta, Sonar.sta (группирующая NNST или TARGET), Random.sta (кроме столбца CATEGORY), Nonlinpca.sta, Hurrdata.sta, Activities.sta.

Непараметрические критерии. Расчёт непараметрических критериев представлен отдельным модулем Nonparametrics (Непараметрические критерии).

Отметим наличие коэффициентов ранговой корреляции. Самостоятельно вычислите тау-Кендела и ро-Спирмена для рассмотренного выше примера. Ответы должны совпасть.

Критерий Вальда-Вольфовица применятся для проверки гипотезы, утверждающей, что две группы переменных представляют собой две случайные выборки из одной генеральной совокупности. Каждой группе присваивается код, а результаты наблюдений с присвоенными им кодами называются последовательностью кодов. Например, в последовательности 010001111100 выделяют 5 серий: (0), (1), (000), (11111), (00).

Рассмотрим пример. При изучении иностранного языка в двух группах студентов использовались различные методики. После изучения курса они написали диктант. Количество ошибок равно соответственно: в первой группе – 31, 26, 33, 11, 13, 5, 18, 1, 2, 16, 17, 23, 20, 20, 21, 9, а во второй – 12, 7, 4, 8, 3, 6, 10, 25, 22, 24, 15, 19, 14, 36, 34, 32, 27,29, 30, 35, 28. Можно ли считать, что разница в методиках не влияет на результаты диктанта?

Ставим нулевую гипотезу о том, что обе выборки получены из одной генеральной совокупности. Присвоим первой группе код – 1, а второй код – 0, упорядочим выборки в порядке возрастания. Далее ищем в модуле с непараметрическими критериями строку «comparing two independent samples». В появившемся окне нажимаем кнопку Variables, где под зависимой переменной понимаются данные выборки, а под группирующей соответствующие коды.

После выполнения процедуры в результирующей таблице получим: No. of runs (число серий) = 22; No. of ties (число совпадающих значений) = 0. Определяющим является значение параметра Z, который приближается к нормальному распределению если нулевая гипотеза верна (Z = 1,2185).

Критерий Краскела-Уоллиса служит для проверки гипотезы о том, что k выборок разных объёмов были получены из одной генеральной совокупности. В модуле непараметрических критериев выберите строчку «comparing multiple independent samples (groups)». Задайте зависимую и независимую переменные (в качестве примера используйте типовой файл Kruskal.sta. Зависимая переменная здесь – PERFRMNC, независимая - CONDITN), задайте коды для групп. Вспомогательными являются диаграммы размаха и категоризированные гистограммы.

Нажимаем кнопку Summary и получаем данные. Потом переключаемся на таблицу критерия Краскела-Уоллиса. Определяющим здесь является H-критерий, который сравнивается с квантилем распределения хи-квадрат и в случае когда

гипотеза отклоняется.

Оцените нулевую гипотезу самостоятельно (для данного случая табличное значение хи-квадрат (4-1) равно 7,81).

Q-критерий Кохрена применяется только для бинарных данных (принимающих только два возможных значения). Рассмотрим пример. Для оценки четырёх видов мороженного ряду испытуемых предложили его продегустировать и дать бинарную оценку («нравится» или «не нравится», которую мы обозначим в виде «1» и «0» соответственно). Данные представим данные в виде таблицы.

Проверим нулевую гипотезу о том, что все виды продукта нравятся покупателям в равной степени. Рассчитаем Q-критерий Кохрена (модуль «Cochran Q test»). В таблице результатов даны суммы для каждой переменной, а также процент нулей и единиц. Сравниваем Q-критерий с хи-квадрат (табличное значение то же, что и в предыдущем случае). Если

гипотеза отклоняется. В нашем случае Q = 7,142857, т.е. гипотеза принимается.

Пломбир	Эскимо	С шоколадом	С фруктами
0	0	0	0
1	1	0	0
1	1	0	0
0	0	0	0
1	0	1	1
1	1	0	0
1	1	0	1
1	0	0	1
0	1	1	0
1	0	0	0
1	1	0	1
0	1	1	1
1	0	0	0
1	0	0	1
1	1	1	1

Дисперсионный анализ (ANOVA). Отметим, что зачастую первичный материал необходимо адаптировать под программу, т.е. перевести первичные данные в форму понятную программе. Рассмотрим пример. Пакеты с удобрениями (30 шт) распределены согласно различным условиям хранения (3 вида). После хранения в течение месяца содержание в них равно соответственно:

Преобразуем таблицу, присвоив каждому элементу ряда код соответствующей строки. В модуле Statistics запустить модуль Основные статистики и таблицы (Basic Statistics/Tables). ОК. Здесь выберите модуль Breakdown and one-way ANOVA (Однофакторный дисперсионный анализ). Задаём Variables (Переменные) – зависимыми переменными будут значения, а группирующими коды строк. Задайте коды строк. Для получения таблицы дисперсионного анализа нажмите на кнопку Analysis of Variance.

§ df Effect – число степеней свободы факториальной изменчивости;

§ MS Effect – дисперсия факториальной изменчивости;

§ df Error – число степеней свободы остаточной изменчивости;

§ MS Error – дисперсия остаточной изменчивости;

Вычисленный уровень значимости меньше заданного, следовательно, гипотезу о равенстве средних отвергаем. Вывод – условия хранения продукта значимо влияют на влажность.

Для таблицы из лабораторной работы №2 проведите анализ и сравните с ранее полученными вами результатами.

Регрессионный анализ. В пакете Statistica для регрессионного анализа используется модуль Multiple Regression (Множественная регрессия). Рассмотрим пример расчёта модели регрессионного анализа. Дано:

Примеси	Октановое число
2	96,3
3	95,7
4	99,9
5	99,4
2	95,1
3	97,8
4	99,3
5	104,9

Требуется определить наличие связи между наличием примесей и октановым числом бензина. Выберите модуль Multiple Regression (Множественная Регрессия). Задаём переменные: зависимая переменная – октановое число. Нажимаем кнопку ОК. Получаем результаты:

§ Dependent (Зависимая переменная).В нашем случае «октановое число».

§ Multiple R (Коэффициент множественной корреляции). В случае просто линейной регрессии равен коэффициенту корреляции Пирсона.

§ R² (Квадрат коэффициента множественной корреляции). Также известен как коэффициент детерминации. Показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией (изменяется от 0 до 1).

В нашем случае равен 0,7134337, т.е. построенная регрессия объясняет более 71% разброса значений переменной «Октановое число».

§ Adjusted R² (Скорректированный коэффициент детерминации).

где n – число наблюдений в модели; p – число параметров модели (число независимых переменных +1, т.к. в модель включён свободный член регрессии).

§ Standard error of estimate (Стандартная ошибка оценки). Определяется как среднее квадратическое отклонение ошибок наблюдений.

§ Intercept (Оценка свободного члена регрессии), т.е. значение коэффициента b₀ в уравнении регрессии.

§ Std. Error (Стандартная ошибки свободного члена).

Если p < α (0,05), то нулевая гипотеза отклоняется (наш случай, т.к. p = 0,008315), а если p > α (0,05), то соответственно гипотеза принимается. Следовательно, в нашем случае значение b₀ является достоверным. Если выбрать «Summary: Regression results», то можно также увидеть дополнительно другие значимые коэффициенты регрессионной модели.

Для оценки адекватности модели также требуется проанализировать значение F-критерия (критерий Фишера) и рассчитанный для него p-критерий. В нашем случае критерий Фишера равен F(1,6)=14,938 на уровне значимости p < 0,0083. Значения весьма значимы и следовательно нулевая гипотеза об отсутствии линейной зависимости (b₁ = 0) между переменными отвергается. Модель простой линейной регрессии в этом случае принимает следующий вид:

По этой модели легко спрогнозировать значение октанового числа при добавлении различных примесей.

Самостоятельная работа. На основании данных нижеприведенной таблицы произведите полную процедуру регрессионного анализа. Температура всегда зависимая переменная, независимые переменные меняются (исследуйте все варианты).

Состав и температура проб воды Амурского и Уссурийского заливов (Дулепов, Лескова, 2006)

Температура	Нитраты мг/м3	Фосфаты мг/м3	Продукция мгС/м3
5	30,5	16,8	2,92
6	19,5	11,8	1,95
4	25	14	1,12
12	26	8,1	18,1
19	19,4	4,3	19,9
20	17,6	6,4	21,7
14	17,5	9,7	41,5
10	15,2	8,6	33
10	20,5	11,7	20,5
1,5	18,1	14,8	1,01
1,1	19	12,1	1,21
5	26,3	13,5	2,7
11	21,4	12,8	17,2
17	19,8	11,2	29,2
19,5	18,6	9,3	12,9
13,5	25,3	11,6	44,8
7,3	21	9,8	36,7
8	22,7	10,4	7,46

4	19,7	16,1	3,71
3,1	18	15,3	2,8
6	26	11,7	3,16
12	21,5	5,1	34,8
19	18,7	4,7	20,8
20	29	7,6	34,6
14	32	8,3	47,3
9,6	29	10,6	39,2
10	25	14,1	25,2
5	28,7	14,3	1,95
4,2	31,4	15,5	2,05
6	21,7	11,6	2,46
12	17,3	8,6	25,2
19	16,7	7,5	26,8
20	19,6	8,8	27,6
14	24,6	16,2	53,8
8,9	15,1	14,4	44,1
10	17,5	12,8	19,7

Анализ временных рядов. Для знакомства с методами анализа временных рядов в Statistica мы воспользуемся типовыми файлами пакета. Для этого выбираем File/Open/Datasets и выбираем типовой файл.

Откройте типовой файл Series_G.sta. Выберите модуль Advanced Linear/Nonlinear Models (Дополнительные линейные и нелинейные модели) и далее модуль Time Series/Forecasting (Анализ временных рядов/Прогнозирование). Задаём переменную. В верхнем правом углу нажимаем кнопку ОК и получаем окно «Transformations of Variables».

§ Во вкладке «Review & plot» можно получить график временного ряда. Для этого есть кнопки Plot (для одиночного графика и нескольких графиков).

§ Во вкладке Smoothing (Сглаживание) можно соответственно получить сглаженный график.

Например, выбрав «N-pts mov. averg.» (Сглаживание по скользящим средним). Установите N=4, т.е. сглаживание будет проходить по 4-м точкам. Нажмите ОК и получите график сглаженного ряда. Можно получить сразу несколько видов графика (разных компонент) для одного ряда.

§ Вернувшись на 1 шаг назад и выбрав кнопку «Exponential smoothing & forecasting» мы можем задать параметры тренда: без тренда, линейный, экспоненциальный, дампфированный (затухающий). Лишние графики можно удалить в окне длинных имён.

Модуль анализа временных рядов весьма насыщен процедурами. В частности имеются такие процедуры как спектральный анализ Фурье и ARIMA (АРПСС), которые используются для выявления периодичности во временных рядах.

Язык STATISTICA Visual Basic. Пакет содержит внутренний язык для целей автоматизации и настройки рабочей среды. Состоит язык из двух основных компонентов: 1) общая среда программирования Visual Basic; 2) библиотека STATISTICA.

Работа с Visual Basic производится путём создания макросов. Выделяют три вида макросов:

1. Макросы анализа, используемые в одном модуле.

§ откройте типовой файл Heart.sta. Получите для переменной Age список описательных статистик, а во вкладке Normality получите Гистограмму.

§ макрос можно сохранить как Глобальный Макрос (Save As Global Macro).

§ запустите из Tools функцию Recording Log of Analysis (Master Macro) – Записать журнал анализа (Мастер-макрос).

§ Все ваши действия будут записываться. Далее вы можете воспользоваться функциями: Пауза – приостановить или Стоп – завершить.

1. Выбирается в меню Tools. Фиксирует все нажатия на клавиши.

Практикум

Тема 4. Информационные технологии для экологического мониторинга

4.1. Пакет статистических программ Statistica