Ušetřete

Bude Google prohledávat také lidský genom?

Informační technologie a biologie se stále více sbližují: Google si údajně našel nové pole působnosti - jeho vyhledávací algoritmy by se měly zahryznout do lidského genomu. Čím je tahle informace zajímavá a co z ní naopak dedukovat nelze?

reklama

Informace o nové aktivitě Googlu nepochází přímo z firemních zdrojů, leč napsal ji ve své knize The Google Story nositel Pulitzerovy ceny David Vise. Tedy přesněji řečeno, že to David Vise napsal, vím opět jen proto, že o tom zase napsali jiní – konkrétně třeba eWeek. Oznámení je doplněno obvyklými vizemi o budoucnosti medicíny, lécích šitých na míru a porozumění lidskému genomu.

David Vise uvedl, že Google získal přístup ke všem asi 30.000 lidským genům, které byly identifikovány v rámci známého projektu. Před pár lety spolu při čtení lidského genomu závodila firma Celera Genomics, v jejímž čele tehdy stál „Bill Gates biotechnologického světa“ Craig Venter, a vládní National Institutes of Health (NIH). Posléze ovšem mezi oběma týmy došlo k dohodě a společnému publikování výsledků. (Snad by ještě stálo za to dodat, že pokud známo, ani NIH se dnes ke spolupráci s Googlem nijak nehlásí – viz třeba archiv tiskových zpráv National Institutes of Health – a informace v knize The Google Story má pocházet od Craiga Ventera.)

Zajímavá je samozřejmě otázka, k čemu vlastně může být Google genetikům dobrý. První důvod je obchodní – oznámit spolupráci s Googlem může jistě pomoci ke vzestupu akcií skoro libovolné firmy nebo alespoň k publicitě. Vládní NIH ovšem akciovou společností není a Craig Venter se dnes (alespoň podle toho, co o něm píší média) namísto lidským genům věnuje hlavně projektu konstrukce „minimálního organismu“, což má být nová bakterie s maximálně osekaným genomem. PR důvody pro spolupráci s Googlem tedy prozatím pomiňme.

Druhou věcí je obrovská návštěvnost Googlu. Pokud by například vědci zabývající se lidským genomem potřebovali zapojit do počítání co nejvíce počítačů, byl by Google samozřejmě ideálním partnerem takového distribuovaného projektu. Google se už ostatně právě takto v oblasti biotechnologií a medicíny angažuje, když spolupracuje s projektem Folding@home. Tento výzkum se ovšem netýká přímo genetiky, ale zkoumání 3D struktury proteinů.

Třetím námětem na úvahy je použitelnost algoritmů Googlu při přístupu ke genetickým datům. Zde samozřejmě můžeme jen spekulovat, ostatně ony algoritmy ani pořádně neznáme. Popularita Google ale každopádně vzešla ne snad s tím, že by dokázal zpracovat co nejvíc dat, ale spíše JAK je dokázal zpracovat – oproti své konkurenci umožnil uživatelům se v nich lépe orientovat. To má přímý vztah i k lidskému genomu. Ačkoliv novinové titulky hovořily v době projektu o „rozluštěném genomu“ (stejnojmenná kniha vyšla i v češtině), na místě je spíše označit genom za přečtený. Nyní zůstává ještě úkol se v datech pěkně prohrabat/vyznat – tedy řekněme to, co se označuje jako datamining.

Čtvrtým okruhem našich úvah by mohlo být, co celý projekt přinese Googlu. Tady ovšem předpokládám, že nějakou paranoidní frázi o tom, jak nás čeká orwellovský svět a jak je nebezpečné, co všechno Google o člověku ví/bude vědět, připojí v diskusi někdo ze čtenářů, a autorům podobných mouder nechci lézt do zelí. Nakonec bych vůbec nevylučoval, že zakladatelé Googlu se do takového projektu pustí z čiré zvídavosti; patří ke šťastlivcům, kteří si už mohou dovolit se po zbytek života takhle bavit.

Pravdou každopádně je, že mezi biologií a informatikou existuje řada styčných ploch a obě oblasti se navzájem různě inspirují – máme evoluční algoritmy, genetické programování, umělý život (v počítačovém světě), buněčné automaty, DNA počítače… Stejně tak je ale fakt, že k často avizovanému splynutí obou těchto oborů přece jen prozatím nedošlo. Na jednu stranu se výzkum stále odehrává nejen u počítačů, ale i v laboratořích, na stranu druhou nám na stole nestojí místo počítače kýble s protoplazmou. Angažmá Googlu na poli genetiky lze jen sotva chápat jako nějaký revoluční přelom, který teprve vědcům umožní dát se pořádně do díla.

Přesto ale pár skoro povinných a nutně vágních slov o tom, jaké styčné plochy existují mezi tím, co umí Google (tedy klasickou lingvistikou), a genetickými výzkumy. Sekvence DNA se po statistické analýze chovají podobně jako lidský jazyk/text. Vyhovují zhruba Zipfovu zákonu a mocninným rozdělením (o tom viz třeba článek Internet: Pravidla růstu, uzly a vzdálenosti v síti, dále např. Science World), která se pokládají za typické pro systémy s nějakou složitější vnitřní strukturou. Podobně lze ale popsat třeba rozložení dob života biologických druhů nebo kolísání populací, takže o nějakou zvláštní hlubinnou podobnost mezi lidským a genetickým jazykem zase nejde.

Google ovšem při výpočtech relevancí stránek nejen mechanicky počítá frekvence výskytů, ale také studuje, kdo na koho odkazuje. To by opět mohlo pomoci se vyznat v genomu – sekvence DNA si sice můžeme napsat jako lineární řetězce čtyř písmenek, ale ve skutečnosti to takhle nefunguje. Geny tvoří různě propojené kaskády (od jednoduchých genů až po geny regulující to, jak budou čteny jiné geny) a systémy zpětných vazeb. Algoritmy Googlu by v tomhle snad mohly pomoci udělat pořádek.

Konečně má genom s lidským jazykem společnou značnou redundanci. Různé řetězce ve skutečnosti znamenají totéž (ostatně tahle redundance je pokládána i za jeden z mechanismů, jakým vznikají evoluční novinky – ve zdvojeném genu může docházet k mutacím, aniž se přitom ztratí jeho původní funkce), smysl se zase naopak může lišit podle kontextu. Genetická informace není nějakým narýsovaným výkresem, podle kterého se organismus sestaví, spíše se v této souvislosti používá metafora receptu, kde konkrétní ingredienci také neodpovídá jeden konkrétní kousek výsledného koláče. Podobné úvahy by nás ovšem od tematického záběru Lupy odvedly už příliš daleko.

CIF_tip

       

Celé tohle teoretizování by snad stálo za to trochu ozřejmit konkrétním příkladem, který ukazuje praktický přenos znalosti mezi biologií a informatikou. V IBM vymysleli software pro analýzu DNA, tytéž principy však posléze našly uplatnění i v rozpoznávání spamu – algoritmus pro analýzu DNA uměl totiž právě rozpoznávat ne nějaké řetězce písmenek, ale spíše vzory s určitým významem. Při posuzování spamovitosti e-mailu se pak program nenechal zmást výrazy jako v1agra a naopak dovoloval, aby slovo viagra bylo použito v regulérní zprávě. Podrobněji viz např. článek DNA bojuje proti spamu.

Představuji si, že Google by mohl předvést něco podobného minulému příkladu, až na to, že „transfer algoritmů“ bude tentokrát probíhat opačným směrem, z informatiky do biologie. Tedy pokud samozřejmě k angažmá Googlu ve výzkumu lidského genomu vůbec dojde. Co jsem však o zakladatelích Googlu četl, myslím, že by je právě tohle mohlo docela bavit.

Anketa

Co byste dělali na místě zakladatelů Googlu?

       

Pavel Houser

Autor je redaktorem Scienceworldu a Securityworldu…

Školení: Nagios, Zabbix, BisSister

  • Seznámení se službami k monitorování sítě serverů služeb.
  • Konfigurace monitoringu veřejných služeb (SMTP, FTP, web...).
  • Eskalace notifikací, pokud není problém řešen.
´

Zjistěte více informací o školení>>

       
2 názory Vstoupit do diskuse
poslední názor přidán 14. 12. 2005 19:06

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem