Hlavní navigace

Bude Google prohledávat také lidský genom?

 Autor: 29
Pavel Houser

Informační technologie a biologie se stále více sbližují: Google si údajně našel nové pole působnosti - jeho vyhledávací algoritmy by se měly zahryznout do lidského genomu. Čím je tahle informace zajímavá a co z ní naopak dedukovat nelze?

Informace o nové aktivitě Googlu nepochází přímo z firemních zdrojů, leč napsal ji ve své knize The Google Story nositel Pulitzerovy ceny David Vise. Tedy přesněji řečeno, že to David Vise napsal, vím opět jen proto, že o tom zase napsali jiní – konkrétně třeba eWeek. Oznámení je doplněno obvyklými vizemi o budoucnosti medicíny, lécích šitých na míru a porozumění lidskému genomu.

David Vise uvedl, že Google získal přístup ke všem asi 30.000 lidským genům, které byly identifikovány v rámci známého projektu. Před pár lety spolu při čtení lidského genomu závodila firma Celera Genomics, v jejímž čele tehdy stál „Bill Gates biotechnologického světa“ Craig Venter, a vládní National Institutes of Health (NIH). Posléze ovšem mezi oběma týmy došlo k dohodě a společnému publikování výsledků. (Snad by ještě stálo za to dodat, že pokud známo, ani NIH se dnes ke spolupráci s Googlem nijak nehlásí – viz třeba archiv tiskových zpráv National Institutes of Health – a informace v knize The Google Story má pocházet od Craiga Ventera.)

Zajímavá je samozřejmě otázka, k čemu vlastně může být Google genetikům dobrý. První důvod je obchodní – oznámit spolupráci s Googlem může jistě pomoci ke vzestupu akcií skoro libovolné firmy nebo alespoň k publicitě. Vládní NIH ovšem akciovou společností není a Craig Venter se dnes (alespoň podle toho, co o něm píší média) namísto lidským genům věnuje hlavně projektu konstrukce „minimálního organismu“, což má být nová bakterie s maximálně osekaným genomem. PR důvody pro spolupráci s Googlem tedy prozatím pomiňme.

Druhou věcí je obrovská návštěvnost Googlu. Pokud by například vědci zabývající se lidským genomem potřebovali zapojit do počítání co nejvíce počítačů, byl by Google samozřejmě ideálním partnerem takového distribuovaného projektu. Google se už ostatně právě takto v oblasti biotechnologií a medicíny angažuje, když spolupracuje s projektem Folding@home. Tento výzkum se ovšem netýká přímo genetiky, ale zkoumání 3D struktury proteinů.

Třetím námětem na úvahy je použitelnost algoritmů Googlu při přístupu ke genetickým datům. Zde samozřejmě můžeme jen spekulovat, ostatně ony algoritmy ani pořádně neznáme. Popularita Google ale každopádně vzešla ne snad s tím, že by dokázal zpracovat co nejvíc dat, ale spíše JAK je dokázal zpracovat – oproti své konkurenci umožnil uživatelům se v nich lépe orientovat. To má přímý vztah i k lidskému genomu. Ačkoliv novinové titulky hovořily v době projektu o „rozluštěném genomu“ (stejnojmenná kniha vyšla i v češtině), na místě je spíše označit genom za přečtený. Nyní zůstává ještě úkol se v datech pěkně prohrabat/vyznat – tedy řekněme to, co se označuje jako datamining.

Čtvrtým okruhem našich úvah by mohlo být, co celý projekt přinese Googlu. Tady ovšem předpokládám, že nějakou paranoidní frázi o tom, jak nás čeká orwellovský svět a jak je nebezpečné, co všechno Google o člověku ví/bude vědět, připojí v diskusi někdo ze čtenářů, a autorům podobných mouder nechci lézt do zelí. Nakonec bych vůbec nevylučoval, že zakladatelé Googlu se do takového projektu pustí z čiré zvídavosti; patří ke šťastlivcům, kteří si už mohou dovolit se po zbytek života takhle bavit.

Pravdou každopádně je, že mezi biologií a informatikou existuje řada styčných ploch a obě oblasti se navzájem různě inspirují – máme evoluční algoritmy, genetické programování, umělý život (v počítačovém světě), buněčné automaty, DNA počítače… Stejně tak je ale fakt, že k často avizovanému splynutí obou těchto oborů přece jen prozatím nedošlo. Na jednu stranu se výzkum stále odehrává nejen u počítačů, ale i v laboratořích, na stranu druhou nám na stole nestojí místo počítače kýble s protoplazmou. Angažmá Googlu na poli genetiky lze jen sotva chápat jako nějaký revoluční přelom, který teprve vědcům umožní dát se pořádně do díla.

Přesto ale pár skoro povinných a nutně vágních slov o tom, jaké styčné plochy existují mezi tím, co umí Google (tedy klasickou lingvistikou), a genetickými výzkumy. Sekvence DNA se po statistické analýze chovají podobně jako lidský jazyk/text. Vyhovují zhruba Zipfovu zákonu a mocninným rozdělením (o tom viz třeba článek Internet: Pravidla růstu, uzly a vzdálenosti v síti, dále např. Science World), která se pokládají za typické pro systémy s nějakou složitější vnitřní strukturou. Podobně lze ale popsat třeba rozložení dob života biologických druhů nebo kolísání populací, takže o nějakou zvláštní hlubinnou podobnost mezi lidským a genetickým jazykem zase nejde.

Google ovšem při výpočtech relevancí stránek nejen mechanicky počítá frekvence výskytů, ale také studuje, kdo na koho odkazuje. To by opět mohlo pomoci se vyznat v genomu – sekvence DNA si sice můžeme napsat jako lineární řetězce čtyř písmenek, ale ve skutečnosti to takhle nefunguje. Geny tvoří různě propojené kaskády (od jednoduchých genů až po geny regulující to, jak budou čteny jiné geny) a systémy zpětných vazeb. Algoritmy Googlu by v tomhle snad mohly pomoci udělat pořádek.

Konečně má genom s lidským jazykem společnou značnou redundanci. Různé řetězce ve skutečnosti znamenají totéž (ostatně tahle redundance je pokládána i za jeden z mechanismů, jakým vznikají evoluční novinky – ve zdvojeném genu může docházet k mutacím, aniž se přitom ztratí jeho původní funkce), smysl se zase naopak může lišit podle kontextu. Genetická informace není nějakým narýsovaným výkresem, podle kterého se organismus sestaví, spíše se v této souvislosti používá metafora receptu, kde konkrétní ingredienci také neodpovídá jeden konkrétní kousek výsledného koláče. Podobné úvahy by nás ovšem od tematického záběru Lupy odvedly už příliš daleko.

Celé tohle teoretizování by snad stálo za to trochu ozřejmit konkrétním příkladem, který ukazuje praktický přenos znalosti mezi biologií a informatikou. V IBM vymysleli software pro analýzu DNA, tytéž principy však posléze našly uplatnění i v rozpoznávání spamu – algoritmus pro analýzu DNA uměl totiž právě rozpoznávat ne nějaké řetězce písmenek, ale spíše vzory s určitým významem. Při posuzování spamovitosti e-mailu se pak program nenechal zmást výrazy jako v1agra a naopak dovoloval, aby slovo viagra bylo použito v regulérní zprávě. Podrobněji viz např. článek DNA bojuje proti spamu.

Představuji si, že Google by mohl předvést něco podobného minulému příkladu, až na to, že „transfer algoritmů“ bude tentokrát probíhat opačným směrem, z informatiky do biologie. Tedy pokud samozřejmě k angažmá Googlu ve výzkumu lidského genomu vůbec dojde. Co jsem však o zakladatelích Googlu četl, myslím, že by je právě tohle mohlo docela bavit.

Anketa

Co byste dělali na místě zakladatelů Googlu?

Našli jste v článku chybu?

14. 12. 2005 19:06

Makrob (neregistrovaný)
Clanek uvadi, ze jeste nedoslo ke splynuti biologie a informatiky. To je trochu zavadejici, protoze my tu na univerzite mame kurzy bioinformatiky a alespon jednu vyzkumnou skupinu, ktera v tomto oboru pracuje. Dokonce jsem vyslechl prezentaci o pouziti NorduGrid-u pro hledani mutaci genomu. Na kyble s protoplazmou jsem se ale neptal.
Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

DigiZone.cz: R2B2 a Hybrid uzavřely partnerství

R2B2 a Hybrid uzavřely partnerství

DigiZone.cz: Optimedia: hybridní kampaň Nescafé

Optimedia: hybridní kampaň Nescafé

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá