Nagy adathalmazok egy eszköz a cél; ezek nem öncélúak.
A nagy adatforrások legelterjedtebb jellemzője, hogy BIG. Sok cikk például elkezdi megbeszélni - és néha megragadni -, hogy mennyi adatot elemeztek. Például egy, a Science -ben megjelent, a Google Books korpusz szóhasználati trendjeit tanulmányozó tanulmány tartalmazta a következőket (Michel et al. 2011) :
"A mi corpusunk több mint 500 milliárd szót tartalmaz angolul (361 milliárd), francia (45 milliárd), spanyol (45 milliárd), német (37 milliárd), kínai (13 milliárd), orosz (35 milliárd) (2 milliárd). A legrégibb művek az 1500-as években jelentek meg. A korai évtizedeket évente csak néhány kötet képviseli, amely több százezer szót tartalmaz. 1800-ra a korpusz évente 98 millió szóra nő; 1900-ra, 1,8 milliárdra; és 2000-re, 11 milliárdra. A korpuszt nem lehet ember elolvasni. Ha csak 2000-ben csak az angol nyelvű bejegyzéseket próbálta meg olvasni csak 2000-ben, 200 szó / perc ésszerű tempóban, táplálék vagy alvás megszakítása nélkül, 80 évig tartana. A betűk sorozata 1000-szer hosszabb, mint az emberi genom: Ha egyenes vonalban írta, akkor a Holdhoz és a tízszeres visszafelé jut. "
Az adatok mérete kétségtelenül meggyőző, és mindannyian szerencsések vagyunk, hogy a Google Könyvek csapata közzétette ezeket az adatokat a nyilvánosság számára (valójában a fejezet végén néhány tevékenység használja ezeket az adatokat). De amikor ilyeneket látsz, kérdezd meg: az, hogy minden adat tényleg bármit is csinál? Vajon ugyanazt a kutatást végeznék, ha az adatok elérhetik a Holdat, és csak egyszer nyernek vissza? Mi van akkor, ha az adatok csak a Mount Everest tetejére vagy az Eiffel-torony tetejére érhetnek?
Ebben az esetben a kutatásuknak valójában vannak olyan megállapításai, amelyek hosszú idő alatt hatalmas szavakat igényelnek. Például az egyik dolog, amit feltárnak, a nyelvtan fejlődése, különösen a szabálytalan ige-konjugáció sebességének változása. Mivel néhány szabálytalan ige meglehetősen ritka, nagy mennyiségű adat szükséges az időbeli változások észlelésére. Túl gyakran azonban úgy tűnik, hogy a kutatók úgy kezelik a nagy adatforrás méretét, mint véget - "nézd meg, hogy mennyi adatot tudok összeolvasztani", mint valami fontosabb tudományos célt szolgáló eszköz.
Tapasztalatom szerint a ritka események tanulmányozása egyike azon három konkrét tudományos célnak, amelyet a nagy adatkészletek teszik lehetővé. A második a heterogenitás tanulmányozása, amit Raj Chetty és munkatársai (2014) tanulmányai mutatnak be az Egyesült Államok társadalmi mobilitásáról. A múltban számos kutató tanulmányozta a társadalmi mobilitást, összehasonlítva a szülők és a gyermekek életvitelét. E szakirodalom következetes megállapítása az, hogy az előnyös szülők előnyben részesítik a gyermekeket, de ennek a kapcsolatnak az ereje idővel és országonként eltérő (Hout and DiPrete 2006) . Újabban azonban Chetty és munkatársai 40 millió ember adóbevételeit felhasználhatják az Egyesült Államok régióiban a generációk közötti mobilitás heterogenitásának becslésére (2.1 ábra). Megállapították például, hogy a gyermek eléri a nemzeti jövedelemeloszlás felső kvintilisét az alsó kvintilisben lévő családtól kezdve, körülbelül 13% -kal San Joseban, Kaliforniában, de csak 4% -kal Charlotte-ban, Észak-Karolinában. Ha egy pillanatra megnézzük a 2.1. Ábrát, először elgondolkodhatunk, miért vannak olyanok, ahol a generációk közötti mobilitás bizonyos helyeken magasabb, mint mások. Chetty és kollégái pontosan ugyanazt a kérdést vetették fel, és úgy találták, hogy a nagy mobilitású területek kisebb lakossági szegregációt, kevesebb jövedelmi egyenlőtlenséget, jobb általános iskolákat, nagyobb társadalmi tőkét és nagyobb családi stabilitást élveznek. Természetesen ezek a korrelációk önmagukban nem mutatják, hogy ezek a tényezők nagyobb mobilitást eredményeznek, de olyan további mechanizmusokat javasolnak, amelyek a későbbiekben a Chetty és munkatársai által végzett további munkákban feltárhatók. Figyeld meg, hogy az adatok mérete valóban fontos volt ebben a projektben. Ha Chetty és munkatársai 40 ezer ember helyett 40 ezer ember adózási adatait használták fel, akkor nem tudták volna felbecsülni a regionális heterogenitást, soha nem tudták volna elvégezni a későbbi kutatásokat annak érdekében, hogy megpróbálják azonosítani azokat a mechanizmusokat, amelyek ezt a variációt hozták létre.
Végül, a ritka események tanulmányozása és a heterogenitás tanulmányozása mellett a nagyméretű adatkészletek lehetővé teszik a kutatók számára a kis különbségek felismerését. Valójában a nagy adatok az iparban nagy hangsúlyt kapnak ezekre a kis különbségekre: a hirdetés 1% és 1,1% közötti átkattintási arányainak megbízható megállapítása több millió dolláros többlet bevételre is képes. Bizonyos tudományos környezetben azonban az ilyen kis különbségek nem feltétlenül fontosak, még akkor is, ha statisztikailag szignifikánsak (Prentice and Miller 1992) . De bizonyos politikai beállításoknál fontosak lehetnek, ha összességében nézzük. Például, ha két közegészségügyi beavatkozás van, és az egyik valamivel hatékonyabb, mint a másik, akkor a hatékonyabb beavatkozás kiválasztása több ezer további életet takaríthat meg.
Bár a bölcsesség általában jó tulajdonság, ha helyesen használják, észrevettem, hogy ez néha fogalmi hibához vezethet. Bizonyos oknál fogva a bölcsesség úgy tűnik, hogy a kutatók figyelmen kívül hagyják az adatok generálásának módját. Bár a bölcsesség csökkenti a véletlenszerű hibákra való törekvés szükségességét, valójában növeli a rendszeres hibákra való törekvés szükségességét, az olyan hibákat, amelyeket az alábbiakban ismertetni fogok, és amelyek az adatok létrehozásából erednek. Például egy olyan projektben, amelyet később ismertetem ebben a fejezetben, a kutatók 2001. szeptember 11-én generált üzeneteket használtak fel a terrorista támadásra (Back, Küfner, and Egloff 2010) reakciók nagy felbontású érzelmi idővonalára. Mivel a kutatók nagyszámú üzenetet kaptak, nem kellett aggódniuk, hogy a megfigyelt minták - a nap folyamán növekvő düh - a véletlenszerű változatokkal magyarázhatók-e. Annyi adat volt, és a minta olyan világos volt, hogy minden statisztikai statisztikai teszt azt sugallta, hogy ez valódi minta. De ezek a statisztikai tesztek nem tudták, hogy az adatok hogyan jöttek létre. Valójában kiderült, hogy sok mintát egyetlen botnak tulajdonítottak, amely egyre több értelmetlen üzenetet generált a nap folyamán. E bot eltávolítása teljesen elpusztította a papír egyik legfontosabb eredményét (Pury 2011; Back, Küfner, and Egloff 2011) . Egyszerűen csak azok a kutatók, akik nem gondolnak a rendszeres hibákra, azzal a kockázattal járnak, hogy nagy adatkészleteiket felhasználják, hogy pontosan becsülhessék a lényegtelen mennyiségeket, például az értelmetlen üzenetek érzelmi tartalmát, amelyet egy automatizált bot hoz létre.
Végeredményben a nagy adatkészletek önmagukban nem célok, de lehetővé teszik bizonyos típusú kutatásokat, beleértve a ritka események tanulmányozását, a heterogenitás becslését és a kis különbségek kimutatását. A nagy adattárak ugyanakkor arra vezetnek bizonyos kutatókat, hogy figyelmen kívül hagyják az adataik létrehozásának módját, ami arra késztetheti őket, hogy pontos becslést kapjanak a lényegtelen mennyiségről.