Když už jsme u toho. Víte že existuje také extrapolace? Ne jenom interpolace jest chleba horníků, leč i extrapolace. No, podívejte se do klasické matematické analýzy jaké jsou předpovědi a z nich vyplývající statistické chyby extrapolací.
Pravdou zůstane, že čím více datových bludů poskytnete, tím méně přesná bude předpověď.
Například placení kartou - já už x let neplatím doma svojí bankovní kartou a soudruzi jsou z toho mírně vyšinutí a nepasuji jim do žádné kategorie. Příčina? Jsem za hranicemi všedních dnů.
Také po nich nic nechci - chování standardní, data limitně se blížící nule a tedy jsou tam, kde nechtějí být a posílají dotazníky.
To samé telekomunikace - netelefonuji doma a tak mi ani nikdo nic nenabízí, na sporadické hovory typu - chceme nabídnout odpovídám rychle a stručně - není zájem, můj čas je drahý, budu za rok, za dva - nevím. A to je přesně to - na co nemají datovou základnu.
Vše je o datech která mají - na nich mohou stavět předpovědi a statistika je neúprosná.
Moje rada - hrajte si s nimi, nedávejte jim odpovědi na otázky, ptejte se na nesmysly. A pak vyhráváte vy.
Čest dolování :D
Zde je důležité si uvědomit jednu věc - musíte předem mít (předpřipravená) data (ty není až takový problém získat; stačí je jen upravit do nějaké rozumné podoby) a taky musíte mít ten *důsledek*. To jest data mining neumí jen z dat odvodit důsledky. Proto mohl MasterCard zjistit, že se rozvádíte - protože přišel na to, že někteří lidé, kteří třeba neměli problém s placením, najednou problém mají, a tak zjišťovali proč. Když zjistili, že je tam velké zastoupení těch rozvádějících se, zkusili daná data nechat automaticky zanalyzovat a voila, jsou schopni i na dalších datech (= u dalších lidí) zjistit, jestli se rozvádí. (Aneb vítejte ve světě strojového učení)
To, co se ve článku popisuje jako data mining, je něco trochu jiného - velmi pravděpodobně se jedná jen o prohledávání více či méně dostupných databází, nikoliv již tak automatické vyvozování znalostí a zkušeností. Bohužel si pro toto nedovedu nedovedu představit jiný pojem než právě data mining...