Imputace chybějících dat pomocí Bayesovského modelování

Roman Pavelka, Štatistický úrad Slovenskej republiky, Slovenská republika

Typ článku: vedecký článok
Strany: 21 – 41

Abstrakt

Proč jsou chybějící údaje problém? Protože běžné statistické metody a software předpokládají, že všechny hodnoty u všech proměnných v matici dat jsou pozorovány za všechny jednotky účastné ve statistickém zjišťování. Výchozí metodou řešení neodpovědí prakticky u všech statistických softwarů je prosté vymazání případů s chybějícími údaji ukazatelů, které jsou předmětem zájmu. Nejzřetelnější nevýhodou vymazání seznamu (jednotek) je to, že se často vymaže velká část vzorku sesbíraných statistických dat. Odstranění sesbíraných dat, které nejsou vhodné k dalšímu statistickému zpracování, může vést k vážné ztrátě statistické síly analýz. Výzkumníci pochopitelně neradi vyřazují údaje, jejichž sběru věnovali mnoho času, peněz a úsilí, a proto se staly populárními různé metod „záchrany“ případů s chybějícími údaji. Moderní metodou pro doplnění neúplných dat se v posledních několika desetiletích stává bayesovská inference. Bayesovská pravděpodobnost a statistika je mnohem více než všeobecně známý Bayesův vzorec a jeho občasné použití v ukázkových či ilustrativně orientovaných příkladech při výkladu operací s pravděpodobnostmi náhodných jevů. Bayesův pravděpodobnostní vzorec (nazývaný také zákon o inverzní pravděpodobnosti) se především používá v souvislosti s úsudky o neznámém modelu na základě známých dat. Toto dává možnosti pro použití Bayesova vzorce při imputování nepozorovaných dat (neznámý model) na základě dat zjištěných.

Článok na stiahnutie
PDF (2,6 MB, 5 stiahnutí)