Проверьте правильность введенных данных
Описание
Ваши данные содержат:
Предпросмотр
Визуальная диагностика:
Ваши данные представлены на левом графике. Наблюдения должны укладываться в диапазон, отмеченный красными линиями. Для сравнения - на правом графике показаны искуственные данные, соответствующие нормальному распределению.
Формальный тест на нормальность распределения:
Тест на однородность дисперсий:
(Зависит от выбора группирующих переменных)
Цель программы:
Основная задача программы - проведение анализа данных с умеренно неоднородными дисперсиями. Для этого применяется поправка Уайта-Хьюбера на гетероскедастичность (алгоритм HC3, см. Long & Ervin 2000).
В качестве альтернативных подходов реализована возможность проведения пермутационного теста или использование непараметрического аналога дисперсионного анализа - расширение Шейрера-Рея-Хара критерия Краскела-Уоллиса (Scheirer et al., 1976; Sokal, Rohlf, 1995).
Также даны основные средства для проверки допущений ДА.
Формат данных:
Входной файл - текстовый файл с разделителями табуляции (.txt) или файл Microsoft Excel (.xls, .xlsx).
Первая строка содержит названия переменных. Они должны быть написаны латиницей и не могут начинаться с цифры, содержать пробел или тире.
Все группирующие переменные (факторы) должны быть закодированы как текстовые значения (начинаются с буквы).
Зависимые переменные имеют числовой вид. Разделитель дробной части - точка . Пропущенные значения разрешены и должны быть закодированы как NA . Однако они будут исключены из дальнейшего анализа по мере необходимости.
В случае импорта Excel-файла импортируется только первый лист из книги.
Пример текстового файла с данными.
Возможности программы:
Преобразование Йео–Джонсона (Yeo-Johnson transformation) - аналог преобразования Бокса-Кокса, но позволяет работать с отрицательными значениями. Производится для всей совокупности данных и не учитывает группирующие переменные (например, для выравниявания их дисперсий).
Преобразование обратного гиперболического синуса - аналог логарифмического преобразования, но оно определено для отрицательных и нулевых значений.
Тест Шейрера-Рея-Хара (Scheirer-Ray-Hare test) добавлен лишь в экспериментальных целях и не рекомендуется к использованию из-за крайне малой мощности метода. Его реализация базируется на работе Dytham (2011).
Непараметрический тест взаимодействия факторов (ART-тест на взаимодействие) возможен пока только для двух-факторного дизайна (Leys, Schumann, 2010; Sawilowsky, 1990).
Пермутационный ANOVA для оценки статистической значимости использует перестановочный тест. Количество итераций опеределяется в соответствии с алгоритмом Anscome (1953). При анализе факторов, представленных более чем 4-5 уровнями могут быть проблемы.
Множественные сравнения критерем Даннета (Dunnett) следует проводить только с контрольной группой. Контрольной будет считаться та группа, которая идет первой в таблице данных.
Что пока не умеет, но планирует:
Будет добавлен экпорт полученных результатов в табличном виде.
Будет добавлена возможность фильтрации данных по переменной и анализа полученного поднабора данных.
Тест Колмогорова-Смирнова с поправкой Лиллиефорса возможно, следует заменить на более мощный. Поэтому большее внимание следует уделить результатам теста Шапиро-Уилкса (он рассчитывается до n = 5000).
Добавить альтернативный тест на однородность дисперсий - Критерий Брауна–Форсайта (Brown–Forsythe test) , который использует медиану вместо среднего, как у теста Ливена).
При использовании трансформации зависимой переменной возвращать значения отличий между группами в исходной шкале (с помощью обратного преобразования).
Посмотреть в сторону других непараметрических критериев: Джонкхиера-Терпстра, Данна, Q Кокрена.
Добавить другие множественные сравнения - например, Student-Newman-Keuls (SNK) менее консервативен, чем Тьюки
Добавить выбор контрольной группы для критерия Даннета.
Планы на далекое будущее:
Пермутационные тесты для ANOVA - Unrestricted Permutation of observations (Manly, 2007), Restricted permutation of main effects (Edgington, 2007), Permutation of Residuals (Still and White, 1981), ter Braak's method (1992) ...
История версий:
v.0.1.0 (28.05.2014) - Первый публичный релиз.
v.0.1.2 (20.06.2014) - Добавлен импорт данных из файлов Excel; мелкие исправления.
Author - Vladimir Mikryukov. Email: vmikryukov at gmail.com
Данная программа была написана для внутреннего использования в лаборатории экотоксикологии популяций и сообществ ИЭРиЖ УрО РАН и распространяется на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International License
Для реализации данного приложения использованы следующие компоненты:
Shiny - основа для построения web-приложений для R.
и пакеты для R:
car . Fox J., Weisberg S. An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, 2010. 512 p.
nortest . Gross J., Ligges U. nortest: Tests for Normality
multcomp . Hothorn T., Bretz F., Westfall P. Simultaneous Inference in General Parametric Models // Biometrical J. 2008. V. 50. № 3. P. 346-363.
multcompView . Graves S., Piepho H.-P., Selzer L., Dorai-Raj S. multcompView: Visualizations of Paired Comparisons.
sandwich . Zeileis A. Econometric Computing with HC and HAC Covariance Matrix Estimators // J Stat Softw. 2004. V. 11. № 10. P. 1-17.
lmPerm . Wheeler B. lmPerm: Permutation tests for linear models.
agricolae . de Mendiburu F. agricolae: Statistical Procedures for Agricultural Research.
XLConnect . Mirai Solutions GmbH. XLConnect: Excel Connector for R.
Список литературы
Dytham C. Choosing and using statistics: A biologist's guide. Hoboken, NJ: Wiley-Blackwell, 2011. 298 p.
Leys C., Schumann S. A nonparametric method to analyze interactions: The adjusted rank transform test // Journal of Experimental Social Psychology. 2010. V. 46. № 4. P. 684-688.
Long J.S., Ervin L.H. Using heteroscedasticity consistent standard errors in the linear regression model // American Statistician. 2000. V. 54. № 3. P. 217-224.
Sawilowsky S.S. Nonparametric-Tests of Interaction in Experimental-Design // Rev Educ Res. 1990. V. 60. № 1. P. 91-126.
Scheirer C.J., Ray W.S., Hare N. The Analisis of Ranked Data Derived from Completely Randomized Factorial Designs // Biometrics. 1976. V. 32. № 2. P. 429-434.
Sokal R.R., Rohlf F.J. Biometry: The Principles And Practice Of Statistics In Biological Research. W.h. Freeman & Company, 1995. 880 p.