Grouss Daten sinn e Mëttel op en Enn; si net op en Enn an sech selwer.
Déi meescht iwwerdriwwen Diskussioun vu grouss Datenquellen ass datt si grouss sinn. Vill Pappe, zum Beispill, unzefänken an iwwer diskutéieren an och heiansdo widdersprécht - wéi vill Daten déi se analyséiert hunn. Zum Beispill, e Paper, deen am Science Science publizéiert gëtt, deen d'Wuert benotzt Tendenze am Google Books Corpp enthält (Michel et al. 2011) folgender (Michel et al. 2011) :
"[Eisen] Korpus enthält iwwer 500 Milliarde Worte, op englesch (361 Milliarden), Franséisch (45 Milliarden), Spuenesch (45 Milliarden), Däitsch (37 Milliarden), Chinesen (13 Milliarden), Russesch (35 Milliarden) (2 Milliarden). Déi eelst Wierker goufen an den 1500er verëffentlecht. Déi fréier Joerzéngten sinn duerch nëmmen e puer Bicher pro Joer vertruede ginn, mat honnertdausend Wuerzelen. Duerch 1800 fänkt de Korpus op 98 Millioune Wuert pro Joer erop; ëm 1900, 1,8 Milliarden; an ëm 2000, 11 Milliarde. De Korpus kann net vun engem Mënsch gelies ginn. Wann Dir nëmmen Englesch Sproochen Einträgeren aus dem Joer 2000 eleng gelies huet, mat dem vernetzbaren Tempo vun 200 Worte / Min, ouni Ënnerbriechung fir Iessen oder Schlof, da wäert 80 Joer daueren. D'Sequenz vun Bréiwer ass 1000mal länger wéi e Mënschengenom: Wann Dir et an enger gerabbelter Linn geschriwen huet, ass et op de Mound a rëm 10 Mol méi wéi. "
D'Skala vun dësen Donnéeën ass wuel beandrockend, an mir sinn alles Gléck datt d'Google Books Team dës Donnéeë fir d'Publikatioun verëffentlecht (tatsächlech, e puer Aktivitéiten am Ende vum Kapitel benotzen dës Donnéeën). Awer wann's de eppes esou gesinn gesitt, da sollt Dir froen: ass dat all dës Donnéeën wierklech eppes maachen? Kënnt se d'selwecht gemaach hunn, wann d'Donnéeën op de Mound a rëm nëmmen eemol sinn? Wat maachen wann d'Donnéeën nëmmen op d'Spëtzt vum Mount Everest oder der Spëtzt vum Eiffeltuerm kommen?
An dësem Fall hunn hir Fuerschung tatsächlech e puer Erkenntnisser, déi e riesech Korpus vu Wierder iwwer laang Zäit erforderen. Zum Beispill, eng Saach, déi se erkennen, ass d'Evolutioun vun der Grammatik, besonnesch Verännerungen vun der Rate vun der irregulärer Verb Konjugatioun. Well verschidden onregelméisseg Verben zimlech rar sinn, brauche vill Daten un d'Verännerungen mat der Zäit ze erkennen. Tatsächlech schéngen d'Fuerscher d'Gréisst vun der grousser Datenquelle als Enn ze maachen - kuckt wéi vill Donnéeën ech Crunch hunn - anstatt e Mëttel fir e méi wichtegen wëssenschaftleche Objektiv.
A meng Erfahrung, ass d'Studie vu rare Evenementer ee vun de dräi spezifesch wëssenschaftlech Enden, déi grouss Datebank erlaben. Déi zweet ass d'Studie vun der Heterogenitéit, wéi kann et illustriert ginn duerch eng Etude vum Raj Chetty a Kollegen (2014) iwwert sozial Mobilitéit an den USA. An der Vergaangenheet hunn vill Fuerscher sozial sozial Mobilitéit studéiert andeems d'Liewensresultater vun Elteren a Kanner vergläicht. Eng konsequent Erkenntnes vun der Literatur ass, datt d'Eltereversprieche tendéiert Kanner ze profitéieren, mä d'Kraaft vun dëser Bezéiung hänkt am Laf vun der Zäit an iwwer Länner (Hout and DiPrete 2006) . Méi viru kuerzem ware Chetty a Kollegen d'Steierrecette vu 40 Millioune Leit benotzt fir d'Heterogenitéit an der intergenerationaler Mobilitéit iwwer all Regioun an den USA (2.1) ze schätzen. Si fonnt, zum Beispill, datt d'Wahrscheinlechkeet, datt e Kand op d'Top Quintil vun der nationaler Einkommestival geet, ausgehale mat enger Famill am nërdleche Quintil ëm 13% an San Jose, Kalifornien, awer nëmmen ongeféier 4% an Charlotte, North Carolina. Wann Dir e Punkt vun 2,1 erofgespaart ass, kënnt Dir virstellen, firwat d'intergenerative Mobilitéit op e puer Plaze méi héich ass wéi anerer. Chetty a Kollegen hunn genee d'selwecht Fro, a si hunn fonnt datt dës High-Mobility-Bereicher manner Wunnsegregatioun hunn, manner Akommes D'Ongläichheet, bessere Primärschoulen, méi sozialen Kapital a méi grouss Stéit d'Stabilitéit. Natiirlech sinn dës Korrelatiounen eleng net ze weisen, datt dës Faktoren méi Mobilitéit hunn, awer se proposéieren d'Mechanismen, déi an der weiderer Aarbecht erforscht ginn, wat genau dat Chetty a Kollegen an der spéiderer Aarbecht gemaach hunn. Bemierkung wéi d'Gréisst vun den Donnéeën an dësem Projet wierklech wichteg ass. Wann Chetty a Kollegen d'Steierrecords vu 40.000 Persounen anstatt 40 Milliounen benotzt hunn, hätt se et net an der Lag regionaler Heterogenitéit schätzen a si wären et méiglech nozefroen, d'Mechanismen ze identifizéieren déi dës Variatioun erstallt hunn.
Endlech, ausser dem Studium vu rare Evenementer an Heterogenitéit studéieren grouss Datebanke och de Fuerscher erlaabt kleng Ënnerscheeder ze erkennen. Tatsächlech ass vill vun de Fokus op grouss Daten an der Industrie iwwer dës kleng Differenzen: Zuverlässeg Detektioun vum Ënnerscheed tëscht 1% an 1,1% Click-through-Präisser op eng Annonce kann en Milliounen Dollar an extrae Recetten iwwersetzen. A ville wëssenschaftlech Astellungen sinn awer kleng Ënnerscheeder vill net wichteg, och wa si statistesch bedeitend sinn (Prentice and Miller 1992) . Mee, a ville politeschen Astellunge kënne si wichteg sinn, wann se aggregéiert sinn. Zum Beispill, wann et zwou öffentlech Gesondheetsinterventionen an een ass liicht méi effektiv wéi déi aner, da wäerte d'méi effektiv Interventioun ophalen fir Tausende vu zousätzlech Liewen ze sammelen.
Obwuel bigness normalerweis e gudde Besëtz ass, wann se richteg benotzt, hunn ech festgestallt datt et heiansdo zu engem konzeptuellen Fehler féieren. Aus e bësse Gronn, scheint bigness Leit Fuerscher ze ignoréieren, wéi hir Daten erstallt hunn. Iwwerdeems bigness de Besoin iwwer zoufälleg Feeler ze Suerg heescht reduzéieren, geet et eigentlech de Besoin iwwer systematesch Feeler ze Suergen, datt d'Arte vu Feeler ech ënnert datt aus biases féiere wäert beschreiwen an wéi Donnéeën geschaf ginn. Zum Beispill, an engem Projet deen ech spéider an dësem Kapitel beschreift, hunn d'Forscher d'Botschaften, déi den 11. September 2001 erstallt hunn, eng emotional temporär temporäre Reaktioun op d'Terrorattacke produzéieren (Back, Küfner, and Egloff 2010) . Well d'Fuerscher eng grouss Zuel vu Messagen haten, hunn se net wierklech Angscht gemaach, ob d'Muster, déi se observéiert haten, méi Wut iwwer dem Kurs vum Dag erkläert hunn - duerch Zoufall vu Variatiounen erklärt ginn. Et gouf esou vill Daten an d'Muster war sou kloer datt all statisteschen statisteschen Tester schléit, datt et e realen Muster war. Awer dës statistesch Tester sinn ignorant wéi d'Daten erstellt sinn. Tatsächlech huet et festgestallt, datt vill vun de Mustere vun engem eenzegen Bot botaniséiert ginn, deen am ganzen Dag méi an misse sinnlos Messagen generéiert hunn. Dëse Bottentull erof komplett vernichten e puer vun de Schlësselwieder am Pabeier (Pury 2011; Back, Küfner, and Egloff 2011) . Zimlech einfach sinn Fuerscher déi net iwwer systematesch Fehler denken iwwer d'Risiko fir hir grouss Datebank ze benotzen fir eng präzis Schätzung vun enger onendlech Quantitéit ze kréien, wéi zum Beispill den emotionalen Inhalt vu sanslosen Messagen, déi vun engem automatiséierte Bot produzéiert ginn.
Schlussendlech sinn groussen Datebank net e Schluss an sech selwer, awer si kënnen eng verschidde Fuerschung erméiglecht, dorënner d'Studie vu rare Evenementer, d'Schätzung vun der Heterogenitéit an d'Detektioun vu kleng Differenzen. Grouss Datener schéngen och verschidde Fuerscher ze ignoréieren, wéi hir Daten erstallt gi sinn, wat se kënne leeschten fir eng präzis Schätzung vun enger onendlech Quantitéit ze kréien.