Hlavní navigace

Ve jménu (pseudo) vědy a výzkumu. Otazníky okolo zveřejnění dat uživatelů OKCupid

Daniel Dočekal 10. 6. 2016

Etika a rozum se někam vytratily, když vědci zveřejnili výzkum sedmdesáti tisíc uživatelů OKCupid bez jejich souhlasu.

OKCupid je internetová seznamka. Jako taková je, jak jinak, plná fantasticky zajímavých informací. Tak zajímavých, že stojí za zkoumání. Méně už za takové zkoumání, které data bez vědomí sedmdesáti tisíc lidí vezme a zveřejní. Což se přesně stalo na počátku května. Šlo o data zasahující období od listopadu 2014 do května 2015 a součástí „vědecké“ studie byla uživatelská jména, věk, pohlaví, náboženství, osobní charakteristiky a důvěrné odpovědi na otázky, které OKCupid používá, aby mohl lépe najít partnery.

Zveřejněná data se navíc podařilo odstranit až poté, co OKCupid podal 13. května stížnost v rámci DMCA (Digital Millenium Copyright Act), a událost vzbuzuje řadu otázek. Nejenom těch, že si lidé neuvědomují, že jejich osobní informace nejsou v online seznamkách příliš v bezpečí. Hlavně ale těch, že vědecký výzkum se musí řídit nějakými zásadními etickými pravidly, ne-li rozumem.

Data do výzkumu získali Emil Kirkegaard a Julius Daugbjerg Bjerrekær prostě tak, že pomocí softwaru shromažďovali informace z webu OKCupidu (nutno dodat, že to nejde zcela bez nutnosti založit účet a přihlásit se, data nejsou zase až tak veřejná). 

Poté je nahráli do Open Science Framework, což je služba a online fórum, kde výzkumníci sdílejí čistá data, sloužící k výzkumu, s cílem napomoci transparentnosti a usnadnit spolupráci na výzkumech. Což by nebylo problematické, kdyby posbíraná data neobsahovala zcela osobní informace, v řadě případů dohledatelné až ke konkrétním uživatelům seznamky. Zejména proto, že v údajích o všech 70 tisících údajích nechyběla uživatelská jména.

Není ani divu, že na řadě míst (například v Scientific consent, data, and doubling down on the internet) je tato událost označována za jednu z nejvíce neprofesionálních a neetických akademických aktivit. 

Právě odkázaný pohled na celou událost je dokonce ještě ostřejší, jeho autor, vědec Oliver Keyes, doslova říká, že „linguistics grad student with no identifiable background in sociology or social computing doxes 70,000 people so he can switch from publishing pseudoscientific racism to publishing pseudoscientific homophobia in the vanity journal that he runs

Zásadní selhání má několik zásadních momentů. Prvním je skutečnost, že autoři „studie“ se studovaných nezeptali, nezískali jejich svolení. Nezeptali se nakonec ani služby OKCupid, ze které data (podloudně) získali. Pro vysvětlení tohoto selhání mají dokonce obranu ve stylu, že „jde o veřejné informace, lidé by měli čekat, že to bude zveřejněno“.

Druhý zásadní problém? Data jsou velmi rozsáhlá, co se velmi osobních informací týče. Nejenom takové ty obvyklé věci jako pohlaví, rasa, sexualita, ale také odkud uživatel pochází, jaké má BDSM zájmy, objevují se tam i informace o užívání drog, sociální, politické a náboženské pohledy. Jediné, co vlastně chybí? Výzkumníci neuveřejnili fotografie uživatelů. Ale i pro to mají vysvětlení, „zabíralo by to příliš místa na pevném disku“.

To celé navíc směřuje ke třetímu zásadnímu problému, nedošlo k žádné anonymizaci. Žádné agregování dat, součástí dat jsou originální uživatelská jména, každého uživatele je možné identifikovat. A pokud někdo bude chtít, tak také pronásledovat, šikanovat, obtěžovat i vydírat.

Studie k popukání, nebo spíše k pláči

Samotná výsledná „studie“ má navíc ke skutečným studiím velmi daleko. Například se pokouší zjistit, jestli gay muži nejsou náhodou ženy. Ale také, jak zmiňuje Oliver Keyes, celou studií se line hlavně homofobie. 

Nakonec Keyes upozorňuje i na to, že dílo Kirkegaarda zahrnuje perly jako tvrzení, že imigranti s nižším IQ zničí dánskou společnost a měli by být vybavení mozkovými implantáty a podrobeni genetickému inženýrství před vstupem. Nebo, což je ještě lepší, zjišťování, zda imigranti páchají více zločinů, pokud mají malé penisy

Ne nadarmo jsou ve skutečném vědeckém světě studie podrobovány zkoumání, existují komise starající se o to, aby byly odborně na výši a vůbec splňovaly zásadní požadavky. Etické, vědecké i další.

Možná bude ale jednodušší si uvědomit, že označovat Kirkegaarda (a jeho kolegu ve studování) za vědce je asi poněkud nadsazené. Kirkegaard nakonec své „studie“ zveřejňuje na titulu vydávaném jím samým a nic vědeckého s tím spojené není. Oliver Keyes nakonec vcelku trefně říká, že nejde o nic jiného než o blog. Který by mohl být poměrně zábavným a satirickým, kdyby to nezahrnovalo něco tak nebezpečného jako sběr údajů o 70 tisíci lidech s následným zveřejněním.

Problém Kirkegaarda je ale i v tom, že působí (studuje) na univerzitě (Aarhus University) v jiném oboru a jeho originální geneticko-homofobní studie nemají s touto univerzitou nic společného. V otevřeném dopise podepsaném skoro dvěma stovkami lidí je ale jasně řečeno, že univerzitní angažmá Kirkegaarda a jeho podivná studie (a hlavně zásadní narušení soukromí 70 tisíc lidí) nemůže zůstat univerzitou nepovšimnuto. Z univerzitního Twitteru plyne, že už se případu začali věnovat.

Stažení zveřejněných dat už nepomůže

Jako v každém případě zveřejnění dat na internet nepatřících, i zde je stejný výsledek. Open Science Framework, kam byla data umístěna, se nedokázal rozhodnout, jestli má zasáhnout a OKCupid nakonec uspěl poměrně pozdě (prakticky až týden po zveřejnění) se stížností prostřednictvím DMCA.

Jak ale na konci článku uvádí Vox, než se data podařilo odstranit, byla už minimálně v pěti stech případech stažena dalšími lidmi, včetně toho, že někteří další je začali také analyzovat. Jinými slovy, na původním zdroji je už nenajdete, ale někomu, kdo bude chtít data využít a zneužít, ulehčil Kirkegaard výrazně práci, nasbíral jim data, jejichž hodnota může být poměrně vysoká. 

Našli jste v článku chybu?
Podnikatel.cz: Poslanci chtějí sebrat majetek Bakalovi

Poslanci chtějí sebrat majetek Bakalovi

Podnikatel.cz: Instalatér, malíř a elektrikář. "Vymřou"?

Instalatér, malíř a elektrikář. "Vymřou"?

Podnikatel.cz: Udělali jsme velkou chybu, napsal Čupr

Udělali jsme velkou chybu, napsal Čupr

Podnikatel.cz: Letáky? Lidi zuří, ale ony stále fungují

Letáky? Lidi zuří, ale ony stále fungují

Lupa.cz: Blíží se konec Wi-Fi sítí bez hesla?

Blíží se konec Wi-Fi sítí bez hesla?

Vitalia.cz: Voda z Vltavy před a po úpravě na pitnou

Voda z Vltavy před a po úpravě na pitnou

Podnikatel.cz: EET pro e-shopy? Postavené na hlavu

EET pro e-shopy? Postavené na hlavu

Vitalia.cz: Antibakteriální mýdla nepomáhají, spíš škodí

Antibakteriální mýdla nepomáhají, spíš škodí

Lupa.cz: Bude Google platit médiím za použití článků?

Bude Google platit médiím za použití článků?

Vitalia.cz: Test dětských svačinek: Tyhle ne!

Test dětských svačinek: Tyhle ne!

Lupa.cz: Proč jsou firemní počítače pomalé?

Proč jsou firemní počítače pomalé?

Vitalia.cz: Tohle jsou nejlepší česká piva podle odborníků

Tohle jsou nejlepší česká piva podle odborníků

Měšec.cz: TEST: Vyzkoušeli jsme pražské taxikáře

TEST: Vyzkoušeli jsme pražské taxikáře

Vitalia.cz: Tahák, jak vyzrát nad zápachem z úst

Tahák, jak vyzrát nad zápachem z úst

DigiZone.cz: Na jaká videa se vlastně díváme

Na jaká videa se vlastně díváme

120na80.cz: Galerie: Čínští policisté testují českou minerálku

Galerie: Čínští policisté testují českou minerálku

Root.cz: Prvních 700 routerů Omnia je hotových

Prvních 700 routerů Omnia je hotových

DigiZone.cz: Nova opět stahuje „milionáře“

Nova opět stahuje „milionáře“

Vitalia.cz: dTest odhalil ten nejlepší kečup

dTest odhalil ten nejlepší kečup

DigiZone.cz: Mordparta: trochu podchlazený 87. revír

Mordparta: trochu podchlazený 87. revír