Co je to web scraping?

Jak si "škrábáním webu" představit? Web scraping je jeden z ustálených pojmů, u kterého nám jeho doslovný překlad moc nenapoví. Ve skutečnosti jde o sběr dat z webových stránek. Tato činnost se dá samozřejmě dělat manuálně, ale představte si situaci, že máte e-shop a zajímají vás ceny nabízených produktů u konkurence. Navštěvovat každý den stránky konkurence a opisovat si ceny produktů na papír, není ideální řešení. Proto se pro web scraping využívají softwaroví boti. Jde o programy, které prochází konkrétní webové stránky a ukládají získaná data do interní databáze. Databází můžeme v tomto kontextu rozumnět tabulku v Excelu, soubor ve formátu JSON nebo klidně složitější strukturu v nějaké relační databázi.

Většina webových stránek je psána v HTML, ze kterého sa dají data získat, této metodě se říká parsování. Bohužel data na webu jsou převážně nestrukturovaná, proto samotné získávání dat z webových stránek nemůžeme stále přenechat umělé inteligenci a je třeba naprogramovat web scraper na míru konkrétnímu webu. Existuje i řada nástrojů, které umožňují si jednocuchý web scraper takzvaně naklikat, ale jejich spolehlivost je nižší a doporučují se pouze pro jednoduché weby.

K čemu je dobrý sběr dat z webových stránek?

Jeden z možných způsobů využití jsem zmínil výše. Web scraping je dále hojně používán ke:

  • zjišťování změn webových stránek,
  • sledování pozic ve vyhledávačích,
  • monitorování hodnocení vaší společnosti,
  • stahování recenzí produktů,
  • shromažďování nabídek nemovitostí,
  • sledování údajů o počasí,
  • integraci webových dat,
  • stavbě web mashupu (využívání dat z více webových zdrojů, díky kterému vznikne nová služba).

Obří business založený na web scrapingu

Zřejmě jste již někdy využili vyhledávač letenek Kiwi nebo jste o něm alespoň slyšeli. Jedná se o jeden z největších českých startupů posledních let, na kterém jste schopni vyhledat levnější letenky a to hlavně na dlouhých trasách s přestupy. Kiwi vám nabídne kombinaci letenek od růzmých společností, které spolu normálně nespolupracují. Tento úspěšný projekt, jehož obrat v roce 2018 překonal hranici jedné miliardy eur, by bez vytěžováním dat z webových stránek vznikl jen velmi těžko. V počátku zakladatelům nezbývalo nic jiného, než si tato data sesbírat z webů jednotlivých leteckých společností za pomoci web scrapingu.

Máte-li v hlavě nápad, jak by vám v podnikání pomohla vytěžená data z webu, neváhejte mě kontaktovat. Třeba vám pomůžu se startem další startup podobného velikosti, jako zde zmíněné Kiwi.