Пример анализа полных наблюдений. В ходе построения регрессии на анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений (англ. listwise/casewise deletion, реже англ. complete-case analysis) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данных[1].

Оценка регрессий при анализе полных наблюдений

править

Представим линейную регрессионную модель вида , где — вектор целевых значений, — матрица значений независимых переменных, — вектор регрессионных коэффициентов, — вектор регрессионных остатков.

Пусть , если i-е наблюдение имеет полное признаковое описание и в противном случае — то есть . Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: , где и — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК-оценка вектора в таком случае выглядит следующим образом[2]: .

Ограничения метода

править

Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения () зависит от независимых переменных (), а не регрессионных остатков ()[2]. Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, англ. Missing not at random). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типа[3]. Данное условие может не выполняться в двух случаях:

  • Невключение какой-то значимой переменной (omitted variable).
  • Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную»)[2].

Кроме того, вероятность пропуска может быть связана и с откликом ()[4]. Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках: верная спецификация моделей и точная функциональная форма редко бывают доподлинно известны[5].

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данных[6][3]. Кроме того, метод может привести к получению неэффективных оценок, если удаление наблюдений значительно сократит объясняемую дисперсию[5].

Сравнение с другими методами

править

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место, прибегают к альтернативным, более сложным методам обработки пропущенных данных: попарное удаление пропущенных наблюдений (англ. pairwise deletion), введение дамми на пропуск, а также множественная импутация (англ. multiple imputation)[5]. Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение среднего значения), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значений[7].

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативами[8].

Анализ полных наблюдений широко используется в анализе «intent-to-treat[англ.]», широко распространённом в экономике образования, где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниями[9].

В статистических пакетах

править
  • В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции[10].
  • В Stata[англ.] при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями[11].
  • В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit(), complete.cases() и параметр na.rm = TRUE, «механически» удаляющие наблюдения с пропущенными значениями переменных[12], а также функция ld() для матричных объектов из пакета (библиотеки) ForImp[13].

Примечания

править
  1. Samii, 2011, p. 518.
  2. 1 2 3 Jones, 1996, p. 223.
  3. 1 2 Olinsky et al., 2003.
  4. Тем не менее, показывается (Jones, 1996, p. 228), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (англ. Missing completely at random).
  5. 1 2 3 Samii, 2011, pp. 518-519.
  6. Roth, 1994.
  7. Little, Rubin, 2002, pp. 43-44.
  8. Allison, 2001, pp. 6-7.
  9. Peugh, Enders, 2004.
  10. Pairwise vs. Listwise deletion: What are they and when should I use them? (англ.). IBM Support. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
  11. Missing Values | Stata Learning Modules (англ.). UCLA Institute for Digital Research and Education. Дата обращения: 24 августа 2017. Архивировано 24 августа 2017 года.
  12. Missing Data (англ.). Quick-R. Дата обращения: 24 августа 2017. Архивировано 27 августа 2017 года.
  13. R: Listwise Deletion (англ.). R Documentation. Дата обращения: 24 августа 2017. Архивировано из оригинала 24 декабря 2014 года.

Литература

править
  • Allison P. D. Missing Data. — Thousand Oaks, CA: Sage, 2001. — (Sage University Papers Series on Quantitative Applications in the Social Sciences).
  • Jones M. P. Indicator and Stratification Methods for Missing Explanatory Variables in Multiple Linear Regression // Journal of the American Statistical Association. — 1996. — Т. 91, № 433. — P. 222—230.
  • Little R.J.A., Rubin D.B. Statistical Analysis with Missing Data. — Wiley, 2002. — 408 p. — ISBN 978-0-471-18386-0.
  • Olinsky A., Chen S., Harlow L. The comparative efficacy of imputations methods for missing data in structural equation modeling // European Journal of Operational Research. — 2003. — Т. 151, № 1. — P. 53–79. — doi:10.1016/S0377-2217(02)00578-7.
  • Peugh J. L., Enders C. K. Missing data in educational research: A review of reporting practices and suggestions for improvement. // Review of Educational Research. — 2004. — № 74. — P. 525—556.
  • Roth P. L. Missing data: A conceptual review for applied psychologists // Personnel Psychology. — 1994. — Т. 47, № 3. — P. 537–559. — doi:10.1111/j.1744-6570.1994.tb01736.x.
  • Samii C. Data, Missing // International Encyclopedia of Political Science / Badie B., Berg-Schlosser D., Morlino L. — Sage, 2011. — Т. 2. — P. 518—520.

Ссылки

править

📚 Artikel Terkait di Wikipedia

Искусственный интеллект

законах физики. — М.: УРСС, 2005. — ISBN 5-354-00993-6. Matthew Hutson. Missing data hinder replication of artificial intelligence studies (англ.) // Science

Оцениваемая величина

Council (2010). The Prevention and Treatment of Missing Data in Clinical Trials. Panel on Handling Missing Data in Clinical Trials. Committee on National Statistics

Исчезновение Натали Холлоуэй

2005. Архивировано 7 ноября 2014. Дата обращения: 24 марта 2008. AMW missing data file for Natalee Holloway: All Suspects Released . // America's Most

Большие данные

V´s of Big Data (англ.). IBM (2011). Дата обращения: 19 февраля 2017. Архивировано 16 июня 2016 года. Neil Biehn. The Missing V’s in Big Data: Viability

Снижение размерности

uncertainties), учёт отсутствующих данных (англ. the consideration of missing data) и параллельные вычисления, последовательное построение (англ. sequential

История теории вероятностей

Results of Likelihood-based Phylogenetic Analyses in the Presence of Missing Data // Cladistics, 28 (2), 2012. — P. 208—222. — doi:10.1111/j.1096-0031

AL 333

afarensis: Results from two new resampling methods for multivariate data sets with missing data. American Journal of Physical Anthropology, 311—328. Plavcan

Рейс 370 Malaysia Airlines

home flight simulator as it's revealed he deleted data one month prior to taking control of missing MH370 plane (ФБР анализирует домашний авиасимулятор