Silvia Komara, Michal Páleš, Fakulta hospodárskej informatiky, Ekonomická univerzita v Bratislave, Slovenská republika
Typ článku: informatívny článok
Strany: 55 – 68
Abstrakt
Príspevok sa zameriava na predstavenie základných atribútov web scrapingu v kontexte v súčasnosti tak skloňovaných pojmov, ako sú nové zdroje štatistiky veľké dáta, strojové učenie, umelá inteligencia, Business Intelligence a pod. Opisuje návrhy riešenia sťahovania údajov z internetu v jazyku Python a moduly, v ktorých možno tento proces realizovať. Špecificky sa venuje aj prepojeniu oblasti strojového učenia s web scrapingom. V praktickej ukážke predstavujeme funkcionalitu jazyka Python na získanie údajov z PDF dokumentov.