Hlavní navigace

Názory k článku Jan Čurn (Apify): Z webu stahujeme už miliardu stránek měsíčně

  • Článek je starý, nové názory již nelze přidávat.
  • 9. 1. 2020 7:55

    bez přezdívky

    Neziskový projekt pod hlavičkou firmy je vždy projektem komečním. I nepřímá podpora značky, která nemá primární cíl získu, je pořád podpora značky. POkud by to mysleli pánové a dámy opravdu neziskově, tak si to udělají jako soukromý projekt a nebudou tam dávat svá loga apod.

    Je také zajímavé sledovat, jak někdo, kdo balancují na hraně morálky a etiky řeší druhé ve stejném stylu chování. Krásně ta vaše etika jde vidět i v tomto článku. Kdy sami píšete, jak se vůči vašemu chování brání např. Google, ale přesto děláte vše proto, abyste tu jejich “ochranu” obešli. Je to prostě jako když Andrej káže o tom, jak se mají lidé chovat slušně a eticky.

    Myšlenka projektu není špatná, jen škoda, že k tomu potřebuje vytěžování prostředky jiných firem, to je na tom špatné. Zároveň je tam dost často chyba napříč e-shopy apod. Pak je otázkou jakou to má hodnotu, když se na to nedá moc spolehnout. Tak třeba časem si dáte i tu práci, že se s dotyčnými e-shopy domluvíte a bude to vše čisté.

  • 9. 1. 2020 18:07

    Kamil Zmeškal

    Úvodem Vám chci poděkovat za konstruktivní reakci a ještě musím dodat, že můj pohled je hodně ovlivněn tím, že sami neustále automatizované stahování řešíme, protože na jeho základě funguje nepěkná věc obtěžující vlastníky
    nemovitostí.

    Na uvedenou problematiku mám jiný názor. Pro mě je základ, že vlastník obsahu má podle mě právo si určit, za jakých podmínek se jeho obsah může konzumovat. Rozdíl mezi tím, jestli projedu web nějakým automatem nebo si najmu 100 lidí nevidím za účelem, aby se něco z obsahu vytěžilo a někde přeuložilo pro další zpracování, moc nevidím. 100 lidí je pouze jiná forma automatizace. Hlavní je to, že pokud má web sloužit uživatelům k interaktivní činnosti, tak mezi to nepočítám "automatizované" lidské stahování a další zpracování.

    Jestli většinu obsahu spravuje několik firem asi nedokáži posoudit nebo možná přesně nevím, co máte na mysli. Jestli například Facebook, tak myslím, že nic nebrání lidem zajistit, aby Facebook, zkrachoval. Stačí, když lidé přejdou jinde, třeba na nějakou svobodnou a nekomerční soc. síť. typu Diaspora. Není to o těch firmách, je to o lidech, kteří je evidentně chtějí používat a vyhovují jim.

    To, že je nějaký obsah schován za paywalem je podle mě OK a já si webů, které paywall zavedou (Deník N, Hospodářky, ...) naopak cením, protože si evidentně váží své práce a jsou si vědomy toho, že mají hodnotný obsah. S myšlenkou, že "web = zdarma" nesouhlasím. Vše něco stojí a vše má svoji cenu.

    Vám rozumím tak, že robots.txt by vůbec neměl existovat a nezajímá vás. Je to z mého pohledu divné, protože i nenáviděný Google tento typ řízení přístupu reflektuje (tedy doufám :-) ). Z tohoto pohledu je pro mě Google čitelnější společnost jak Apify. Ta je pro mě velkou neznámou. Navíc ani vůbec ani nevím, jaká data o mě Apify sbírá, komu je prodává atd. I v tomto je Google myslím více transparentnější (nebo jsem opět jen moc naivní :-) ).

    Jak nad tím přemýšlím, tak je možné, že bagrující firmy jako Apify způsobují, že poskytovatelé omezují obsah koncovým uživatelům a trpíme tím všichni. Firmě by nevadilo, když se někdo (Pepa z Horní Dolní) podívá na informaci, ale protože komerční bagrovači jedou a ignorují jejich podmínky, tak to raději kompletně zařízne za paywall.

    PS: I přes výše uvedené Google moc nemám rád, na Facebook jsem silně alergický a také nesnáším, když firmy mají aplikaci v mobilu a ne web (typicky Revolut) nebo když jejich web je pouze pro mobily a na desktopu není použitelný. Ale beru to tak, že je to jejich věc a jejich rozhodnutí. Mé rozhodnutí je, že na ně kašlu.

  • 9. 1. 2020 11:51

    Kamil Zmeškal

    Skvělý komentář, se kterým do puntíku souhlasím. Vůbec se mi tento způsob "podnikání" nelíbí. Pokud by takto stahovali jen weby, které si to přejí, tak OK. Ale pokud dá někdo jasně najevo, že si to nepřeje a oni na to kašlou a ještě navíc aktivně obcházejí omezení, které tomu stahování mají bránit, tak je podle mě přinejmenším pěkná všivárna a nerozumím jejich zákazníkům, že s nimi spolupracují a tato data si berou. Ale asi si říkají, že účel světí prostředky.

    Pokud před stažením každého webu pročtou provozní podmínky a podívají se, zda je automatizované vytěžování povoleno a ještě mají svůj user agent, pod kterým vystupují a respektují robots.txt, tak OK. Ale z toho, co se zde píše mi připadá, že dělají přesný opak.

    PS: Nemíním řešit, jestli je technicky vzato stažení stránky prohlížečem po interakci uživatele (přechod na stránku) automatické zpracování nebo ne. Myslím, že je to celkem jasné, co se takovýmto automatizovaným zpracováním myslí.

    9. 1. 2020, 11:55 editováno autorem komentáře

  • 9. 1. 2020 13:44

    bez přezdívky

    Tady Jan Čurn z Apify. Díky za komentář, nicméně dovolím si vyslovit opačný názor.

    Web byl vytvořen s vizí, že musí zůstat "otevřeným jakožto veřejné blaho a jako základní právo pro každého" (viz https://webfoundation.org/about/). Během posledních let jsme ovšem svědky opačného trendu - většinu obsahu spravuje jen několik největších společností, přístup k informacím se podmiňuje loginem, placením nebo používáním speciálních aplikací, poskytovatele obsahu diktují, jakým způsobem může být obsah konzumován.

    Pro udržení otevřenosti webu je zcela zásadní, aby si každý mohl k obsahu na webu přistupovat způsobem, jaký chce on sám, a nejen způsobem, jaký mu diktuje poskytovatel obsahu. Jaký je etický rozdíl mezi tím najmout si 100 lidí, nechat je manuálně procházet webové stránky eshopů a vytahovat z nich data o cenách, nebo tu stejnou věc udělat zcela automatizovaně a ty lidi nechat pracovat na něčem smysluplnějším? Naopak, mně přijde neetické nechat lidi dělat činnost, kterou za ně může udělat stroj. Web scraping je pouze automatizace přístupu, nic víc, nic míň, viz např. pěkný rozbor od EFF na https://www.eff.org/deeplinks/2018/04/scraping-just-automated-access-and-everyone-does-it

    Velké společnosti sbírají obrovské množství dat o lidech a tím dále upevňují své dominantní postavení. Jedna z mála možností, jak nové firmy mohou tento deficit dat nahradit a prorazit v tomto prostředí, je právě využitím otevřených dat z webu. Samozřejmě, firmy provádějící web scraping mají morální i legální povinnost zajistit, abyste nepoškozovaly nebo nepřetěžovaly ty cílové weby, a také obsah využívat pouze legálním způsobem tak, aby nepoškodily práva majitelů obsahu (např. copyright). Ale to, jak k veřejným datům kdo přistupuje, musí zůstat na svobodné vůli každého z nás.

  • 9. 1. 2020 11:26

    jakubbalada

    Dobry den, rad bych za Hlidac shopu a Apify reagoval:

    Hlidac shopu je neziskovy projekt, ktery stoji stovky dolaru mesicne jen v nakladech na platformy. Myslim, ze je fer, aby firmy, ktere tyto naklady pokryvaji, na nem mely aspon svoje logo a vyuzily to pro sve PR. Nemluve o stovkach clovekodni, ktere na tom lidi z techto firem stravili.

    Nevime o tom, ze bychom v Hlidaci nebo Apify porusili nejaky zakon. To, jak eshopy porusuji zakon o ochrane spotrebitele, jsme napsali mnoho. Prosim, nesrovnavejte nas s Andrejem :-)

    Nepochopil jsem, jake vytezovani prostredku myslite. Jestli v ramci scrapingu, tak technicky stahujeme data jen ze strankovani a traffic Hlidace je tak promile trafficu danych eshopu. Chyby v datech v Hlidaci mame, snazime se je promptne opravovat. Nicmene priklady, na ktere poukazujeme (a ktere pak "opravuji" eshopy) jsou nezpochybnitelne. Mimochodem, s CZC a Alzou jsme jiz domluveni a data nam jiz zacinaji poskytovat sami.

  • 10. 1. 2020 11:33

    bez přezdívky

    Díky pánům z Apify za reakce a upřímně jsem je v podobném duchu očekával. Tak to vezmu popořadě.

    Jakubbalada: prostě buď je produkt nekomerční, nebo má vedlejší efekt v reklamě, kterou vám nese. Takže není to neziskový projekt, protože zisk nemusí být vždy jen o penězích, ale dalších benefitech. Prostě to, že se o vás píše násobně překonává sumy, co vás to stojí.

    Píšete, že neporušujete zákon, ale zároveň píšete že někdo ano. Myslím, že o tom, zda někdo dodržuje či nedodržuje zákon hlásat soukromá firma, ale dozorové orgány a soudy.

    Máte to prostě postaveno na srapingu, pokud by vám dodávají data obchodníci, pak bych proti tomu nic neměl, jenže to je jiná cesta, složitější apod. Prostě byznys máte postaveny na tom, že děláte věci, které jsou na hraně etiky a o druchých kážete, že dělají totéž. Proto ten příměr k Andrejevič je na místě.

    Jancurn: z toho co píšete mi vyplývá, že se vidíte jako nějací bojovníci za lepší svět. Tím si obhajuje to co děláte. Jenže to není disent jako u lidí před rokem 1989, vy na tom máte postaven byznys, který si hájit tím, že děláte věci pro lepší svět. Ne, to je možná vedlejší produkt. Opravdu lepší svět neděláte tím, že firmám dodáváme data o jiných způsobem, který si ti, od kterých data berete, nepřejí. A ono je opravdu zásadní rozdíl posadit 100 lidí, co dělá něco manuálně a to, co děláte vy.

    Nemusíte pánové odpovídat, myslím, že váš a můj pohled na to bude prostě jiný. Váš chápu. Být u vás ve firmě hlásán to samé.

    Takže ať se daří a příště prostě přiznejte, že děláte byznys co děláte, nějaká morálka jde bokem, hlavně že to sype. To je dle mého férovější a hlavně na tom není nic špatného.

  • 9. 1. 2020 9:31

    Uzivatel_tohoto_jmena_jiz_existuje

    Zas bych to tak nehrotil. Delaji to, co dela spousta firem. Treba firem co nabizi stahovani cen konkurentu je tu spousta. Kde je poptavka, je nabidka.

    Co se tyka toho cenoveho toolu, tak proc ne. Obcas je tam sotek, ale co uz.

  • 9. 1. 2020 12:25

    TIRO

    Mně to vychází cca na 33 333 333,3333333 stránek/den včetně těch fujtajblových co z nich pro nesourodou škálu subjektů dolují. Možná i tu moji.

  • 9. 1. 2020 12:28

    R.

    Tak delat hrubou analyzu pro eshopy zdarma, proc ne :) Kdyz si pak mohou dle vystupu optimalizovat kampane, pomuze jim to k verohodnosti naceneni a lepsimu cileni :) Reklama zadarmo je fajn, ne?

  • 9. 1. 2020 14:27

    bez přezdívky

    V zásadě takto jde obhájit jen nevýznamná společnost, bez dominantního postavení, která opravdu koncovým uživatelům usnadní pohyb na webu. To ale není automaticky dáno a tím to platí jen v omezemném počtu případů a ne obecně.