Hlavní navigace

Vlákno názorů k článku Ukázal evropský soud světlo na konci hyperlinkového tunelu? od anonym - A jak vas "odrizne"? Jedine co muze udelat...

  • Článek je starý, nové názory již nelze přidávat.
  • 14. 2. 2014 15:23

    bez přezdívky

    A jak vas "odrizne"? Jedine co muze udelat je to, ze zablokuje IP adresu ze ktere ho "scrapuji". No a ja jen zmenim IP adresu a muzu ho "vysavat" dale...

    Ona ta zdrojova stranka proste nema zadnou moznost me odriznout uz z podstaty veci. Oni obsah zverejni, ale pote uz (technicky) nemohou nijak ovlivnit to, jak bude s jejich obsahem zachazeno. Jedina moznost by prave byla legalni cesta, ale to uz fungovat take nebude...

  • 14. 2. 2014 16:13

    bez přezdívky

    2 poznamky:
    - na nejakem zpravodajskem webu s desetitisici UIP/den to asi preci jen bude slozitejsi analyza
    - tim "normalne napsanym scraperem" jsem prave myslel takovy, ktery npr. pouziva random funce: sjedu si homepage a pote pres random vyberu poradi, v jakem se budou projizdet jednotlive stranky, dalsim randomem pridelim ruzne stranky do ruznych "session" (bud prihlednu jednu stranku, nebo "proklikam" nekolik stranek co na sebe v ramci webu odkazuji v jednom sezeni). Pak jeste pridat random s rozmezim rekneme 15 - 300 s na delku navstevy jedne stranky a pak posledni random na cas jednotlivych pristupu

    --> a zkuste potom analyzovat takoveto chovani... Sice to da chvili prace takovy programek napsat, ale potom mate vystarano. A pokud je opravdu dobre napsan, da se pouzit na ruzne weby pouze zmenou parametru url domovske stranky... Takze je mozne ho pouzivat bez modifikaci temer donekonecna.

  • 14. 2. 2014 15:28

    bez přezdívky

    A to by jeste museli prijit na to, jaka presne IP adresa je scrapuje. A pokud je vysavaci program napsan nejak "normalne" (= ne tak, ze si prohlednu 200 stranek za 2 vteriny), tak nemaji sanci me odlisit od "normalniho navstevnika" jejich webu.

    Takze mimosoudni cestou je "odriznuti" o kterem mluvite IMHO jednoduse nemozne...

  • 14. 2. 2014 15:06

    tom (neregistrovaný) 194.228.13.---

    a proc bys nemohl google tohle dela s obrazkama jiz pekne dlouho a nic mu za to nehrozi

  • 14. 2. 2014 15:58

    Unknown (neregistrovaný) 78.108.103.---

    A co heuristika provozu? Podle me neni uplne nesnadne na to prijit. Uz dnes existuji komercni (a patrne dost drahe) programy ktere dokazi delat VELMI sofistikovanou analyzu trafficu.

    Ten Vas program bude patrne mit specificke chovani, vzdy v podobnou dobu projede stranky ve stejnem poradi (podle stejneho algoritmu), atd... Clovek se proste chova jinak nez stroj a z logu to pri trose snahy lze analyticky vytahnout.

  • 14. 2. 2014 16:39

    dino

    Ano, měl jsem na mysli přesně ten směr úvah, který se tu rozvíjí. Ale máte pravdu, pokud si někdo dá tu práci a napíše ten crawler tak, že bude simulovat chování běžných uživatelů, z nichž se ve výsledku poskládá kompletní scrape webu, přičemž kromě měnících se IP adres bude měnit i další identifikační údaje tvořící fingerprint návštěvníka, dá si pozor na konzistenci (jedna IP adresa s přílišnou variabilitou dalších údajů je taky podezřelá) a v případě, že mu přece jen nějakého "uživatele" odříznou, zareaguje ne tupou náhradou, ale přidáním několika nových, které bude opět těžké odhalit, skutečně může být úspěšný.

    Pak je tu ale druhá stránka, máte obsah, postavíte portál, jenže co HTTP referer? Těžko vycvičíte své uživatele, aby na odkazy neklikali a kopírovali si je do nového panelu prohlížeče. Též je těžko přesvědčíte, aby si nastavili prohlížeče tak, aby referera nepředávaly. Zbývá nějaký anonymizér, jenže zakázat přístup přes anonymizér je stejně obhajitelné jako zakázat přístup přímo z Vašeho portálu, kolik uživatelů přichází na zpravodajský portál přes anonymizér?

  • 14. 2. 2014 21:55

    NN (neregistrovaný) ---.178-41-98.t-com.sk

    Embedded link je o tom, že obsah je stále na zdrojovej adrese. Jednoduchá ochrana predstavuje HTTP hlavička X-Frame-Options: http://www.rfc-editor.org/rfc/rfc7034.txt

  • 15. 2. 2014 10:15

    Unknown (neregistrovaný) 78.108.103.---

    Ano, chovani uzivatele se da nasimulovat, jenze Vy v prvni rade potrebujete mit periodicky precteny cely obsah webu a potrebujete ho mit v nejakych pravidelnych intervalech aby Vam, na tom zalozeny, bussiness slapal.
    Tim jsou ovsem Vase moznosti randomizace znacne omezeny. Navic predpokladejme promenlivou strukturu URI, takze musite postupovat systematicky abyste prosel vsechny linky.

    Dovedu si predstavit desitky a desitky dalsich komplikaci, a dobre placeni vyvojari tech drahych softwaru budou pravdepodobne vzdy o krok pred Vami.

  • 17. 2. 2014 10:52

    petík (neregistrovaný) ---.i2net.cz

    Já mám pocit, že pokud budu přímo zobrazovat u sebe celý článek, tak že poruším podmínku rozšíření okruhu osob, které článek vidí.

    Původní článek totiž viděly jen osoby, které zaplatily stažením reklamy okolo článku a pohledem na ni (v 90% případů - pokud ji neměly blokovánu) a pokud článek zobrazím na své stránce, tak jej uvidí další osoby, které původní reklamu neviděly. Z tohoto důvodu by tedy zobrazení celého článku na své stránce mělo být protiprávní.

  • 15. 2. 2014 12:38

    dino

    Tohle není zase takový problém. Celkem běžný způsob čtení je, že si člověk z home page načte do nových panelů články, které ho zajímají, a ty pak čte. Takže pattern "home page a několik článků v rychlém sledu" je normální, nemůžete ho blokovat. Máte-li k dispozici dostatek IP adres, dá se dělat to, že z jedné provedete tento postup s tím, že si do centrální databáze uložíte ty články, které jste "nerozklikl"... No a z jiné adresy přijde další "návštěvník" a podívá se na ty články, které ten první neviděl (s tím, že těch "návštěvníků" bude více a zařadíte i nějaké překryvy).

    Tohle je ovšem potřeba jen v případě, že chcete stahovat obsahy článků. Jenže původní zadání znělo "seznam článků třeba z LUPY / iDNES / iHNED, včetně krátkého úryvku, linku na originál, kdy po kliknutí se zobrazí článek z LUPY u mne na stránce? (Třeba v iFrame etc.)" A k tomu potřebujete scrapovat jen home page jednotlivých rubrik (přičemž můžete přidat i pár článků jako maskování).

    Pokud jde o ty pravidelné intervaly, nemyslím si, že je pro business třeba "(near to) real time monitoring", bude-li zpoždění maximálně půlhodinové a přidanou hodnotou bude nabídka článků z více serverů, mohlo by to stačit (i když mi není pořád jasné, co je vlastně business case). Takže když budu mít dejme tomu pět IP adres, dělá to deset návštěv za den z každé (přičemž zde by mohlo úplně stačit scrapování přes mobilní připojení a spoléhat se na proměnlivost dynamicky přidělovaných adres).

    No a pokud jde o "dobře placené vývojáře těch drahých softwarů", mám z relativně nedávné doby otestováno, že žádnému z hlavních obecně zpravodajských portálů nevadí ani to, když si sosáte jejich archivy z jedné IP adresy tempem "co to dá" po dvacet čtyři hodin.

    Takže se nabízí otázka, zda vůbec nějakou analýzu provozu dělají... A vlastně i ta, zda v případě, že by na nich někdo začal parazitovat, by investovali do sofistikovaného řešení a implementovali to, co je možné, kvůli jednomu parazitovi by se to nejspíše nevyplatilo.

  • 15. 2. 2014 13:56

    Filip Jirsák

    Aha, nevšiml jsem si odkazu, že už je plný text rozsudku k dispozici.

    Takové zjištění nemůže být zpochybněno v případě, že by předkládající soud shledal, což ze spisu jasně nevyplývá, že kliknou-li uživatelé internetu na dotčený odkaz, dílo se zobrazí takovým způsobem, že sice vyvolá dojem, že je zobrazováno na stránce, na které se tento odkaz nachází, avšak ve skutečnosti pochází z jiné internetové stránky.

    Tato další okolnost totiž nijak nemění závěr, že skutečnost, že je na jedné stránce uveden hypertextový odkaz na chráněné dílo, které je zveřejněné a volně přístupné na jiné stránce, má za následek zpřístupnění uvedeného díla uživatelům první stránky, a představuje tedy sdělování veřejnosti. Avšak vzhledem k tomu, že neexistuje nová veřejnost, svolení nositelů autorského práva není každopádně k takovému sdělování veřejnosti nutné.

    S tím ještě bude veselo. Třeba se konečně dočkáme prosazení XLinku v prohlížečích a to i do rámců, aby se dalo odkázat na tu správnou část dokumentu. Čímž neříkám, že by se proti vkládání do rámu pořád nedalo bránit přes neoprávněnou úpravu autorského díla, ale rozhodně to bude složitější.

  • 17. 2. 2014 22:01

    Ivan Nový (neregistrovaný) ---.tvtrinec.cz

    To obejdete jednoduše, budete kopírovat provoz na vašich stránkách, kde ten stažený obsah budete zobrazovat. tak získáte reálné chování, které bude odpovídat chování reálných uživatelů.

  • 20. 2. 2014 16:54

    xxx (neregistrovaný) ---.207.85.static.bluetone.cz

    Přesně tak. To by musel každý vyhledávač porušovat autorská práva, protože uveřejňuje linky na autorská díla...

  • 15. 2. 2014 7:42

    Jiri Cermak (neregistrovaný) ---.somt.cz

    Ja se domnivam, ze takove jednani by bylo mozne (a vhodne) postihnout podle prava na ochranu proti nekale soutezi ("sklidl, co sam nezasel"). Je to pruznejsi nez autorskopravni ochrana a daji se lepe posoudit okolnosti daneho pripadu.

  • 14. 2. 2014 13:33

    Jbrix (neregistrovaný) ---.tmcz.cz

    Ad "SDEU dále konstatuje, že tento závěr platí i v případě, kdy by se kliknutím na příslušný odkaz dílo zobrazilo takovým způsobem, že sice vyvolá dojem, že se nachází na této stránce, ale ve skutečnosti pochází z jiné internetové stránky (tzv. embedded linků)."

    Znamená to tedy, že můžu klidně udělat portál, který bude obsahovat seznam článků třeba z LUPY / iDNES / iHNED, včetně krátkého úryvku, linku na originál, kdy po kliknutí se zobrazí článek z LUPY u mne na stránce? (Třeba v iFrame etc.)

  • 14. 2. 2014 15:12

    dino

    Zdá se, že ano... Otázkou ovšem je, k čemu Vám to bude dobré, hádám, že ve chvíli, kdy původní zdroj usoudí, že se mu Vaše aktivita nelíbí (ať už proto, že na tom budete vydělávat, či proto, že bude mít pocit, že poškozujete jeho dobré jméno), se s Vámi nemusí soudit, prostě Vás "odřízne".

  • 15. 2. 2014 8:28

    Filip Jirsák

    Já bych radši počkal na přesné znění toho rozsudku. Ono to zestručnění může dost posunout význam. Embedded link je technická záležitost, a je divné, že by soud řešil technickou podstatu věci místo toho, jak se to projevuje navenek.

    Každopádně autorské právo chrání autorské dílo i proti změnám, takže pak je otázka, co je autorské dílo - zda jen samotný text, nebo celá stránka. Dnes je to prakticky realizovatelné spíš u obrázků, které je už dnes možné snadno odkazovat samostatně - a je to podstata sporu mezi Google a spoustou webů, protože Google přesně tímhle způsobem obrázky používá. Nebo-li záleží na tom, zda byste odkazoval/vkládal jen celou stránku Lupy (včetně všech log, reklam atd.), nebo jenom samotný text článku.

    Já doufám, že to klidně udělat nemůžete. Pokud by to výklad povolil, budeme za chvíli ve stejné džungli, jako u užití díla pro osobní potřebu. Každý bude vědět, že je to výrazné obcházení původního smyslu zákona, že to k ničemu dobrému není, ale místo spolehnutí na zákon budou obě strany vymýšlet ještě větší klacek, kterým se technicky takovémuhle vkládání zabrání, nebo které ochranu naopak obejde. Opravdu bych se nerad dočkal na webu DRM a analogií záměrně poškozených CD apod.