ANOVA - Дисперсионный анализ



Проверьте правильность введенных данных

Описание

Ваши данные содержат:


Предпросмотр

Визуальная диагностика:

Ваши данные представлены на левом графике. Наблюдения должны укладываться в диапазон, отмеченный красными линиями. Для сравнения - на правом графике показаны искуственные данные, соответствующие нормальному распределению.



Формальный тест на нормальность распределения:

Тест на однородность дисперсий:

(Зависит от выбора группирующих переменных)


              

            

Цель программы:

Основная задача программы - проведение анализа данных с умеренно неоднородными дисперсиями. Для этого применяется поправка Уайта-Хьюбера на гетероскедастичность (алгоритм HC3, см. Long & Ervin 2000).

В качестве альтернативных подходов реализована возможность проведения пермутационного теста или использование непараметрического аналога дисперсионного анализа - расширение Шейрера-Рея-Хара критерия Краскела-Уоллиса (Scheirer et al., 1976; Sokal, Rohlf, 1995).

Также даны основные средства для проверки допущений ДА.


Формат данных:

Входной файл - текстовый файл с разделителями табуляции (.txt) или файл Microsoft Excel (.xls, .xlsx).

Первая строка содержит названия переменных. Они должны быть написаны латиницей и не могут начинаться с цифры, содержать пробел или тире.

Все группирующие переменные (факторы) должны быть закодированы как текстовые значения (начинаются с буквы).

Зависимые переменные имеют числовой вид. Разделитель дробной части - точка . Пропущенные значения разрешены и должны быть закодированы как NA . Однако они будут исключены из дальнейшего анализа по мере необходимости.

В случае импорта Excel-файла импортируется только первый лист из книги.

Пример текстового файла с данными.

Пример Excel-файла.


Возможности программы:

Преобразование Йео–Джонсона (Yeo-Johnson transformation) - аналог преобразования Бокса-Кокса, но позволяет работать с отрицательными значениями. Производится для всей совокупности данных и не учитывает группирующие переменные (например, для выравниявания их дисперсий).

Преобразование обратного гиперболического синуса - аналог логарифмического преобразования, но оно определено для отрицательных и нулевых значений.

Тест Шейрера-Рея-Хара (Scheirer-Ray-Hare test) добавлен лишь в экспериментальных целях и не рекомендуется к использованию из-за крайне малой мощности метода. Его реализация базируется на работе Dytham (2011).

Непараметрический тест взаимодействия факторов (ART-тест на взаимодействие) возможен пока только для двух-факторного дизайна (Leys, Schumann, 2010; Sawilowsky, 1990).

Пермутационный ANOVA для оценки статистической значимости использует перестановочный тест. Количество итераций опеределяется в соответствии с алгоритмом Anscome (1953). При анализе факторов, представленных более чем 4-5 уровнями могут быть проблемы.

Множественные сравнения критерем Даннета (Dunnett) следует проводить только с контрольной группой. Контрольной будет считаться та группа, которая идет первой в таблице данных.


Что пока не умеет, но планирует:

Будет добавлен экпорт полученных результатов в табличном виде.

Будет добавлена возможность фильтрации данных по переменной и анализа полученного поднабора данных.

Тест Колмогорова-Смирнова с поправкой Лиллиефорса возможно, следует заменить на более мощный. Поэтому большее внимание следует уделить результатам теста Шапиро-Уилкса (он рассчитывается до n = 5000).

Добавить альтернативный тест на однородность дисперсий - Критерий Брауна–Форсайта (Brown–Forsythe test) , который использует медиану вместо среднего, как у теста Ливена).

При использовании трансформации зависимой переменной возвращать значения отличий между группами в исходной шкале (с помощью обратного преобразования).

Посмотреть в сторону других непараметрических критериев: Джонкхиера-Терпстра, Данна, Q Кокрена.

Добавить другие множественные сравнения - например, Student-Newman-Keuls (SNK) менее консервативен, чем Тьюки

Добавить выбор контрольной группы для критерия Даннета.


Планы на далекое будущее:

Пермутационные тесты для ANOVA - Unrestricted Permutation of observations (Manly, 2007), Restricted permutation of main effects (Edgington, 2007), Permutation of Residuals (Still and White, 1981), ter Braak's method (1992) ...


История версий:

v.0.1.0 (28.05.2014) - Первый публичный релиз.

v.0.1.2 (20.06.2014) - Добавлен импорт данных из файлов Excel; мелкие исправления.


Author - Vladimir Mikryukov. Email: vmikryukov at gmail.com

Данная программа была написана для внутреннего использования в лаборатории экотоксикологии популяций и сообществ ИЭРиЖ УрО РАН и распространяется на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International License



Для реализации данного приложения использованы следующие компоненты:

R - язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений.

Shiny - основа для построения web-приложений для R.

и пакеты для R:

car . Fox J., Weisberg S. An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, 2010. 512 p.

nortest . Gross J., Ligges U. nortest: Tests for Normality

multcomp . Hothorn T., Bretz F., Westfall P. Simultaneous Inference in General Parametric Models // Biometrical J. 2008. V. 50. № 3. P. 346-363.

multcompView . Graves S., Piepho H.-P., Selzer L., Dorai-Raj S. multcompView: Visualizations of Paired Comparisons.

sandwich . Zeileis A. Econometric Computing with HC and HAC Covariance Matrix Estimators // J Stat Softw. 2004. V. 11. № 10. P. 1-17.

lmPerm . Wheeler B. lmPerm: Permutation tests for linear models.

agricolae . de Mendiburu F. agricolae: Statistical Procedures for Agricultural Research.

XLConnect . Mirai Solutions GmbH. XLConnect: Excel Connector for R.


Список литературы

Dytham C. Choosing and using statistics: A biologist's guide. Hoboken, NJ: Wiley-Blackwell, 2011. 298 p.

Leys C., Schumann S. A nonparametric method to analyze interactions: The adjusted rank transform test // Journal of Experimental Social Psychology. 2010. V. 46. № 4. P. 684-688.

Long J.S., Ervin L.H. Using heteroscedasticity consistent standard errors in the linear regression model // American Statistician. 2000. V. 54. № 3. P. 217-224.

Sawilowsky S.S. Nonparametric-Tests of Interaction in Experimental-Design // Rev Educ Res. 1990. V. 60. № 1. P. 91-126.

Scheirer C.J., Ray W.S., Hare N. The Analisis of Ranked Data Derived from Completely Randomized Factorial Designs // Biometrics. 1976. V. 32. № 2. P. 429-434.

Sokal R.R., Rohlf F.J. Biometry: The Principles And Practice Of Statistics In Biological Research. W.h. Freeman & Company, 1995. 880 p.