Roman Pavelka, Štatistický úrad Slovenskej republiky, Slovenská republika
Typ článku: vedecký článok
Strany: 21 – 41
Abstrakt
Proč jsou chybějící údaje problém? Protože běžné statistické metody a software předpokládají, že všechny hodnoty u všech proměnných v matici dat jsou pozorovány za všechny jednotky účastné ve statistickém zjišťování. Výchozí metodou řešení neodpovědí prakticky u všech statistických softwarů je prosté vymazání případů s chybějícími údaji ukazatelů, které jsou předmětem zájmu. Nejzřetelnější nevýhodou vymazání seznamu (jednotek) je to, že se často vymaže velká část vzorku sesbíraných statistických dat. Odstranění sesbíraných dat, které nejsou vhodné k dalšímu statistickému zpracování, může vést k vážné ztrátě statistické síly analýz. Výzkumníci pochopitelně neradi vyřazují údaje, jejichž sběru věnovali mnoho času, peněz a úsilí, a proto se staly populárními různé metod „záchrany“ případů s chybějícími údaji. Moderní metodou pro doplnění neúplných dat se v posledních několika desetiletích stává bayesovská inference. Bayesovská pravděpodobnost a statistika je mnohem více než všeobecně známý Bayesův vzorec a jeho občasné použití v ukázkových či ilustrativně orientovaných příkladech při výkladu operací s pravděpodobnostmi náhodných jevů. Bayesův pravděpodobnostní vzorec (nazývaný také zákon o inverzní pravděpodobnosti) se především používá v souvislosti s úsudky o neznámém modelu na základě známých dat. Toto dává možnosti pro použití Bayesova vzorce při imputování nepozorovaných dat (neznámý model) na základě dat zjištěných.
Článok na stiahnutie
PDF (2,6 MB, 59 stiahnutí)