Index spotrebiteľských cien z webscrapovaných údajov: analýza vybranej produktovej skupiny

Peter Knížat, Helena Glaser-Opitzová, Štatistický úrad Slovenskej republiky, Ekonomická univerzita v Bratislave, Slovenská republika

Typ článku: vedecký článok
Strany: 37 – 49

Abstrakt

V dôsledku zmien spotrebiteľského správania sa spotrebiteľ orientuje viac na nákup cez internet. Štatistické inštitúcie zodpovedné za zber cien tovarov a služieb sú nútené prehodnotiť tradičný zber cien pre oblasť cenovej štatistiky a v niektorých prípadoch ho potenciálne nahradiť automatickým zberom cien cez internet, tzv. webscrapingom. Implementácia takéhoto zdroja údajov prináša so sebou rôzne výzvy, od otázok v metodickej oblasti až po významnú zmenu procesov spracovania údajov. Ide o spracovanie veľkého množstvo údajov, vrátane hodnotenia ich kvality, výberu reprezentantov a určenie cien jednotlivých tovarov, ktoré sú obvykle scrapované na dennej báze. Ďalšou výzvou je výber metódy na výpočet indexu spotrebiteľských cien, ktorá sa môže zásadne odlišovať od metódy výpočtu indexu spotrebiteľských cien použitej pri tradičnom zbere údajov. Cieľom tohto článku je predstaviť teoretický rámec na implementáciu webscrapovaných údajov do produkcie cenových štatistík. V prípadovej štúdii sme použili údaje o cenách pre produktovú skupinu chladničky, ktoré boli scrapované z webového porovnávacieho portálu www.heureka.sk.

Článok na stiahnutie
PDF (2,6 MB, 169 stiahnutí)