Pekny tool na web scraping ! Hodne stesti.
Sam scrapuji realitni servery pro svuj realitymon.cz, je to peklo. Nejaky REPL by se hodil, treba Apifier neco takoveho ma ?
Zajimalo by me jak resi infrastrukturu, na jakem cloudu jedou (jestli tedy).
Otazka je jak se stavi scrapovane weby ke scrapovani, jaka je vlastne legalnost web scrapingu.
Napr v rohovoru zminovane realitio.cz po letmem pohledu stahuje i veskere image ze serveru a nasledne je hostuje z cloudfrontu, coz mi osobne neprijde uplne koser.... Ale co neni zakazano, to je povoleno, tak funguje dnesni svet.
Scrapoval jsem např. primu a novu - tam se struktura mění(la) každý půlrok. A proměnné v js jsou na nic, pokud změní strukturu, je třeba ji přepsat - někdy jeden znak, jindy celý prvek.
Ono scrapovat běžný web nemá smysl, pokud nemá unikátní data.
Ale nejvíc mě fascinuje, že na tohle jde dostat investici. Jak jsem psal, scrapoval jsem roky různé weby a vždy jsem to bral jako light underground job, nikdy by mě nenapadlo jít s tím na světlo a ještě dostat investici.
Mě přijde skvělý ten nápad PhantomJS a inject vlastního skriptu. S tímhle nápadem to už napodobím snadno, i když třeba bez toho velkého poolu ip adres. Ten ale vyřeší nějaká placená VPN, třeba HideMyAss má pool 120000 IPv4 adres.
Bohužel napodobit vaši službu je potřeba, vašich 10 000 requestů zdarma bylo pryč, než jsem odladil skript :)
Ano, to je jedna z prekazek scrapingu, nicmene pro nase zakazniky ji umime take resit jako sluzbu. Navic po roce zkusenosti vime, ze se bezny web zas az tak casto nemeni. Nekdy dokonce ani zmena struktury nerozhodi nastaveni crawleru (pokud vyuzivame JS promenne nebo AJAX).