Porównanie metod wielokrotnej imputacji dla danych nominalnych - DwuMIan 2022

Porównanie metod wielokrotnej imputacji dla danych nominalnych - DwuMIan 2022

Powszechnym problemem, z którym mierzą się badacze są braki danych, zwłaszcza w naukach społecznych. Bardzo często dane używane w badaniach mierzone są na skali nominalnej, czyli bez żadnego naturalnego porządku i ciągłości. W celu zwiększenia rozmiaru próbki, zapobieganiu obciążenia estymatorów czy zwiększenia mocy testów statystycznych używa się metod imputacji braków. Obecnym złotym standardem radzenia sobie z opisanym problemem jest wielokrotna imputacja, która pozwala na włączenie do modelu niepewności związanej ze strukturą braków danych i strukturą nieobserwowalności. W literaturze można spotkać się z wieloma propozycjami algorytmów, które miałyby systematycznie wypełniać brakujące luki, biorąc pod uwagę podobieństwo obserwacji i zależności w obserowalanych danych. Z drugiej strony brakuje porównania opublikowanych metod, zwłaszcza dla danych nominalnych. 

Niniejszy referat wygłoszony na konferencji zastosowań matematyki organizowanej przez wydziały MINI PW oraz MIM UW "DwuMian 2022" prezentuje wyniki artykułu zajmującego się wyżej opisaną problematyką. Praca porównuje kilka obecnych w literaturze metod wielokrotnej imputacji dla wielowymiarowych danych nominalnych. Porównanie odbywa się na drodze symulacji, wielokrotnego próbkowania z rzeczywistej bazy danych i każdorazowo amputowania wartości według mechanizmu MCAR albo MAR. Następnie aplikowane są algorytmy wielokrotnej imputacji. Zbadane zostały dwie metody uczenia maszynowego, dwie głębokiego uczenia i siedem klasyfikowanych do klasycznej teorii statystyki. Celem badania była ocena i porównanie zdolnosci odtwarzania wielowymiarowych zalezności populacyjnych oraz wskazanie w tym względzie porządku wśród analizowanych metod. Jakość imputacji mierzona była poprzez pomiar trafności prognozy idiosynkratycznej brakującej wartości, obciążenia estymatorów i ich zmienności w oszacowaniu populacyjnych wielowymiarowych frakcji, a także pokrycia przedziałów ufności uzyskanych za pomocą reguł Rubina. Z analizy wynika, że algorytm MICE CART dominował nad pozostałymi metodami. Algorytmy MIDA, GAIN, nieparametryczny hot deck i MICE LDA nie uzyskiwały nominalnego pokrycia przedziałów ufnosci.

 

 

 

 

 

26/Mar/2022 - 27/Mar/2022
Warsaw, Poland