Scrapoval jsem např. primu a novu - tam se struktura mění(la) každý půlrok. A proměnné v js jsou na nic, pokud změní strukturu, je třeba ji přepsat - někdy jeden znak, jindy celý prvek.
Ono scrapovat běžný web nemá smysl, pokud nemá unikátní data.
Ale nejvíc mě fascinuje, že na tohle jde dostat investici. Jak jsem psal, scrapoval jsem roky různé weby a vždy jsem to bral jako light underground job, nikdy by mě nenapadlo jít s tím na světlo a ještě dostat investici.
Mě přijde skvělý ten nápad PhantomJS a inject vlastního skriptu. S tímhle nápadem to už napodobím snadno, i když třeba bez toho velkého poolu ip adres. Ten ale vyřeší nějaká placená VPN, třeba HideMyAss má pool 120000 IPv4 adres.
Bohužel napodobit vaši službu je potřeba, vašich 10 000 requestů zdarma bylo pryč, než jsem odladil skript :)
Ano, to je jedna z prekazek scrapingu, nicmene pro nase zakazniky ji umime take resit jako sluzbu. Navic po roce zkusenosti vime, ze se bezny web zas az tak casto nemeni. Nekdy dokonce ani zmena struktury nerozhodi nastaveni crawleru (pokud vyuzivame JS promenne nebo AJAX).