Imputacja – sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.

Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.

Imputacja wielokrotna

edytuj

Zaawansowaną, a przy tym uniwersalną metodą imputacji jest imputacja wielokrotna (ang. Multiple Imputation) Rubina[1]. Metoda ta działa w następujący sposób:

Niech jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to a dane wyjściowe to Załóżmy, że nasze dane mają braki danych, a chcielibyśmy zastosować metodę

1. Estymujemy parametry wielowymiarowego rozkładu danych
2. Wykonujemy w pętli dużą liczbę razy, dla następujące czynności:

2a. Uzupełniamy braki danych w wartościami wylosowanymi z rozkładu uzyskując
2b. Stosujemy metodę czyli wyliczamy

3. Łączymy (uśredniamy) wyniki aby otrzymać Algorytm łączenia musi być dobrany do metody W przypadku metod, dla których jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.

Przypisy

edytuj
  1. D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

Linki zewnętrzne

edytuj

📚 Artikel Terkait di Wikipedia

Zaginięcie lotu Malaysia Airlines 370

Giallo passaporti rubati. ansa.it, 2014-03-09. [dostęp 2014-03-09]. (wł.). Missing Malaysia plane: Search resumes off Vietnam. BBC News, 2014-03-09. [dostęp

Cetartiodactyla

Shedlock, A. M., M. C. Milinkovitch, and N. Okada. 2000. SINE evolution, missing data, and the origin of whales. Systematic Biology, 49:808-816. Shimamura

Chuck Norris

McQuade (Lone Wolf McQuade) jako J.J. McQuade 1984: Zaginiony w akcji (Missing in Action) jako Braddock 1985: Kraj pod ostrzałem (Invasion U.S.A.) jako

Brakujące dane

 missing completely at random) tzw. cenzorowanie w przypadku analizy przeżycia Little, R. J. A. & Rubin, D. B.. Statistical Analysis with Missing Data

Wnioskowanie przyczynowe

appear, they are fundamentally flawed. They are data driven, not model driven. All the missing data are filled in by examining other values in the table

Zaginiony (brytyjski serial telewizyjny)

Zaginiony (ang. The Missing) – brytyjski serial telewizyjny emitowany od 28 października 2014 do 30 listopada 2016 przez BBC One, współprodukowany przez

Implozja łodzi podwodnej Titan

2023 [dostęp 2023-08-02]  (pol.). Titanic sub timeline: when did it go missing and key events in search, „Reuters”, 23 czerwca 2023 [dostęp 2023-08-03] 

Odontophorus

gamebirds (Aves: Galliformes): effects of character exclusion, data partitioning and missing data. „Cladistics”. 22 (6), s. 495–532, 2006. DOI: 10.1111/j.1096-0031