Přehnaný příslib takzvané nestranné dolování dat


Nobelovský laureát Richard Feynman jednou požádal jeho studenty Caltech, aby vypočítali pravděpodobnost, že pokud by šel mimo třídu, první auto na parkovišti mělo zvláštní poznávací značku, řekněme 6ZNA74. Za předpokladu, že každé číslo a dopis jsou stejně pravděpodobné a určeny samostatně, studenti odhadují pravděpodobnost, že budou méně než 1 ze 17 milionů. Když studenti dokončili své výpočty, Feynman zjistil, že správná pravděpodobnost byla 1: Viděl tuto poznávací značku na své cestě do třídy. Něco extrémně nepravděpodobné není vůbec nepravděpodobné, pokud se to již stalo.

Feynmanova průzkumná data o vzorcích bez jakékoliv předsudkové představy o tom, co hledá – je Achilova pata studií založených na dolování dat. Nalezení něčeho neobvyklého nebo překvapivého po tom, co již došlo, není ani neobvyklé, ani překvapující. Vzory jsou určitě nalezeny a pravděpodobně budou zavádějící, absurdní nebo horší.

Ve své nejprodávanější knize z roku 2001 Dobré Velké, Jim Collins srovnal 11 společností, které za posledních 40 let vykázaly celkový akciový trh 11 společnostem, které neměly. Identifikoval pět odlišných rysů, které měly úspěšné společnosti společné. "Tento projekt jsme nezačali teorií, která by testovala nebo dokázala," pochválil se Collins. "Snažili jsme se postavit teorii od základů, odvozených přímo z důkazů."

Vešel do Feynmanova pasti. Když se časem díváme na nějakou skupinu společností, ať už je to nejlepší nebo nejhorší, můžeme vždy najít nějaké společné rysy, takže jejich nalezení dokazuje vůbec nic. Po zveřejnění Dobré Velké, výkonnost Collinsových velkolepých 11 akcií byla zřetelně průměrná: Pět akcií bylo lepší než celkový akciový trh, zatímco šest z nich bylo horší.

V roce 2011 společnost Google vytvořila program umělé inteligence s názvem Google Chřipka, který použil vyhledávací dotazy na to, aby předpověděl výskyt chřipky. Program Google pro dolování dat vyhledal 50 milionů vyhledávacích dotazů a identifikoval 45, které nejvíce korelovaly s výskytem chřipky. Je to další příklad datového dolování: Platná studie by předem určila klíčová slova. Po vydání zprávy Google Flu nadhodnotil počet případů chřipky za 100 z následujících 108 týdnů, a to v průměru téměř o 100 procent. Chřipka Google již nepředstavuje předpovědi chřipky.

Internetový obchodník si myslel, že může zvýšit své tržby změnou tradiční modré barvy webové stránky na jinou barvu. Po několika týdnech testů společnost našla statisticky významný výsledek: zdá se, že Anglie miluje teal. Podíváme-li se na několik alternativních barev pro stovky takových zemí, zaručují, že v některých zemích budou mít nějaký nárůst příjmů, ale před časem neměli tušení, zda se v Anglii bude prodat víc. Jak se ukázalo, když se změnila barva stránky v Anglii, aby trpělila, příjmy poklesly.

Standardní experiment v oblasti neurovědy zahrnuje zobrazování dobrovolníků v MRI zařízení různých obrazů a dotazování na obrázky. Měření je hlučná, zvedají se magnetické signály z prostředí a variace hustoty tukových tkání v různých částech mozku. Někdy jim chybí mozek; někdy naznačují činnost tam, kde není.

Dartmouth postgraduální student používal MRI stroj ke studiu mozkové činnosti lososa, jak to bylo ukázáno fotografie a položené otázky. Nejzajímavější ve studii nebylo to, že byl studován losos, ale losos byl mrtev. Ano, mrtvý losos zakoupený na místním trhu byl vložen do stroje MRI a objevily se některé vzory. Nevyhnutelně byly vzory – a byly vždy bezvýznamné.

V roce 2018 profesor ekonomie Yale a postgraduální student vypočítaly korelace mezi každodenními změnami v cenách Bitcoin a stovkami dalších finančních proměnných. Zjistili, že ceny společnosti Bitcoin byly pozitivně korelovány s výnosy z akcií v odvětví spotřebního zboží a zdravotnictví a že byly negativně korelovány s návratností akcií ve zpracovaných výrobcích a v hornictví. "Neposkytujeme vysvětlení," řekl profesor, "toto chování zdokumentujeme." Jinými slovy, mohou se také podívat na korelace cen Bitcinu se stovkami seznamů telefonních čísel a hlásit nejvyšší korelace.

Ředitel laboratoří Food and Brand Lab společnosti Cornell University vytvořil více než 200 recenzovaných článků a napsal dvě populární knihy, které byly přeloženy do více než 25 jazyků.

V blogovém příspěvku s názvem "Grade Student, který nikdy neříkal", napsal o doktorském studijním programu, který získal údaje shromážděné v italském bufetu.

E-mailová korespondence se objevila, ve které profesor radí studentovi, aby oddělil hosty od "mužů, žen, obědců, návštěvníků večeří, lidí sedících samých, lidí, kteří jedí se skupinami 2, lidí, kteří jedí ve skupinách 2+, , lidé, kteří si objednávají nealkoholické nápoje, lidi, kteří sedí blízko u bufetu, lidé, kteří sedí daleko, a tak dále … "Potom se dala podívat na různé způsoby, jakými se tyto podskupiny mohou lišit:" # kusy pizzy, # výlety, desky, dostali dezert, objednali si nápoj a tak dále … "

Konečně dospěl k závěru, že by měla "tvrdě pracovat, vytlačit z této skály nějakou krev." Nikdy neříkala ne, student dostal čtyři články (nyní známé jako "pizzerie") publikoval spolu s profesorem Cornell jako spoluautor. Nejslavnější článek uvádí, že muži jíst o 93 procent více pizzy, když jedí se ženami. Nekončí to dobře. V září 2018 dospěl fakultní výbor Cornell k závěru, že "ve svém výzkumu se dopustil akademického pochybení." Odstoupil a vstoupil v platnost následující červen.

Dobrý výzkum začíná jasnou představou toho, co hledá a čeká na to. Data mining jen hledá vzory a nevyhnutelně najde některé.

Problém se v dnešní době stal endemickým, protože výkonné počítače jsou tak dobří, že drancuje Big Data. Datové horníci nalezli souvislost mezi slovy Twitter nebo vyhledávacími dotazy a kriminální činností Google, srdečními infarkty, cenami akcií, výsledky voleb, cenami Bitcoin a fotbalovými zápasy. Možná si myslíte, že tyto příklady dělám. Nejsem.

Existují ještě silnější korelace s čistě náhodnými čísly. Je to Big Data Hubris, který si myslí, že data-vyvážená korelace musí být smysluplná. Hledání neobvyklého vzoru ve Velkém datu není více přesvědčivé (nebo užitečné) než nalezení neobvyklé poznávací značky mimo třídu Feynmanových.

Stanovisko WIRED publikuje skladby napsané externími přispěvateli a představuje širokou škálu názorů. Přečtěte si další názory zde. Odeslat op-ed na adresu opinion@wired.com


Více skvělých příběhů WIRED