Strona główna

Obserwacje wpływowe

          Spójrzmy na wykresy poniżej. Czy uznalibyśmy, że między tymi zmiennymi zachodzi jakikolwiek związek ?

Jeżeli przeprowadzimy test t to wykaże on, że między tymi zmiennymi zachodzi związek linowy, a po usunięciu jednej – najbardziej odstającej obserwacji (jak na wykresie z prawej), że związek taki nie istnieje. Zmienne odstające mają, więc wpływ na testy statystyczne oraz wartości samych parametrów szacowanych na podstawie np. KMNK. Ponieważ w takich przypadkach mamy do czynienia z zależnością przypadkową, a nie prawdziwym związkiem między zmiennymi należy zastosować jedną z poniższych procedur.

          Pierwsza najprostsza metoda polega na wyodrębnieniu i usunięciu obserwacji odstających jeszcze przed rozpoczęciem budowy modelu. Można wyodrębnić takie zmienne na podstawie obserwacji wykresów lub usunąć zmienne, które odstają od ich wartości średniej o trzy odchylenia standardowe. Model powinien zachowywać się stabilnie we wszystkich jego podokresach, więc usunięcie jednej zmiennej nie powinno wpłynąć na wyniki oszacowań dla całego modelu.

          Drugi sposób polega na przetestowaniu hipotezy o występowaniu w modelu obserwacji wpływowych już po jego estymacji. Metoda ta jest bardziej skuteczna w przypadku modelu z wieloma zmiennymi, gdyż wtedy należy zbadać wpływ zmiennej objaśniającej na zmienną objaśnianą, ale po usunięciu wpływu pozostałych zmiennych. Analiza wykresu lub metoda „poza trzema sigmami” nie będzie, więc w tym przypadku skuteczna. (Większość pakietów statystycznych ma wbudowaną opcję przeprowadzania takich testów – również program GRETL). Gdy wyodrębnimy na podstawie tego testu obserwacje wpływowe także i w tym przypadku należy je usunąć z modelu, lub zastosować poniższą procedurę.

          Istnieje także możliwość szacowania parametrów modelu z wykorzystaniem odpornych metod statystycznych (robust). Metoda ta polega na ustaleniu wag dla każdej obserwacji, a następnie szacowaniu parametrów modelu na podstawie KMNK. Wagi ustala się w taki sposób, aby dla obserwacji wpływowych były one jak najmniejsze, zmienne takie będą więc miały niewielki udział w całym procesie szacowania parametrów. Metoda ta nie jest jednak skuteczna we wszystkich przypadkach. Spójrzmy na wykres poniżej.

Na wykresie z lewej strony metoda robust okazała się skuteczna, natomiast na wykresie prawym, parametry prostej szacowane tą metodą okazały się także zależne od obserwacji wpływowej. Wynika z tego, że najbardziej efektywna metoda polega na przetestowaniu hipotezy o występowaniu obserwacji wpływowych i usunięciu takiej zmiennej z modelu już po jego estymacji. Metoda ta przyniosła pożądany skutek we wszystkich zaprezentowanych przykładach.