Imputace chybějících dat pomocí Bayesovského modelování

15. októbra 2024

4/2024 vedecké články

Roman Pavelka, Štatistický úrad Slovenskej republiky, Slovenská republika

Typ článku: vedecký článok
Strany: 21 – 41

Abstrakt

Proč jsou chybějící údaje problém? Protože běžné statistické metody a software předpokládají, že všechny hodnoty u všech proměnných v matici dat jsou pozorovány za všechny jednotky účastné ve statistickém zjišťování. Výchozí metodou řešení neodpovědí prakticky u všech statistických softwarů je prosté vymazání případů s chybějícími údaji ukazatelů, které jsou předmětem zájmu. Nejzřetelnější nevýhodou vymazání seznamu (jednotek) je to, že se často vymaže velká část vzorku sesbíraných statistických dat. Odstranění sesbíraných dat, které nejsou vhodné k dalšímu statistickému zpracování, může vést k vážné ztrátě statistické síly analýz. Výzkumníci pochopitelně neradi vyřazují údaje, jejichž sběru věnovali mnoho času, peněz a úsilí, a proto se staly populárními různé metod „záchrany“ případů s chybějícími údaji. Moderní metodou pro doplnění neúplných dat se v posledních několika desetiletích stává bayesovská inference. Bayesovská pravděpodobnost a statistika je mnohem více než všeobecně známý Bayesův vzorec a jeho občasné použití v ukázkových či ilustrativně orientovaných příkladech při výkladu operací s pravděpodobnostmi náhodných jevů. Bayesův pravděpodobnostní vzorec (nazývaný také zákon o inverzní pravděpodobnosti) se především používá v souvislosti s úsudky o neznámém modelu na základě známých dat. Toto dává možnosti pro použití Bayesova vzorce při imputování nepozorovaných dat (neznámý model) na základě dat zjištěných.

Článok na stiahnutie
PDF (2,6 MB, 337 stiahnutí)

Počet videní: 150

autor Roman PAVELKA, bayesovská inference, imputace dat, inverzní pravděpodobnost, mechanismus chybění

Imputace chybějících dat pomocí Bayesovského modelování

Abstrakt

ŠTATISTICKÝ ÚRAD SR

INFORMAČNÝ SERVIS