Вялікія наборы дадзеных з'яўляюцца сродкам для дасягнення мэты; яны не з'яўляюцца самамэтай.
Найбольш шырока абмяркоўваецца асаблівасць вялікіх крыніц дадзеных з'яўляецца тое, што яны BIG. У многіх работах, напрыклад, пачаць з абмеркавання, а часам хвальба-пра тое, колькі дадзеных яны аналізуюцца. Напрыклад, артыкул , апублікаваная ў навуцы вывучэння тэндэнцый слова выкарыстання ў корпусе Google Кнігі ўключалі наступнае (Michel et al. 2011) і (Michel et al. 2011) . :
«[Наш] корпус утрымлівае больш за 500 млрд слоў, на англійскай мове (361 мільярдаў), французскі (45 мільярдаў), іспанскі (45 мільярдаў), нямецкі (37 мільярдаў), кітайскі (13 мільярдаў), руская (35 мільярдаў), і іўрыт (2000000000). Найстаражытныя творы былі апублікаваныя ў 1500-х гадах. Першыя дзесяцігоддзі прадстаўленыя толькі некалькі кніг у год, якія складаюцца з некалькіх соцень тысяч слоў. Да 1800 годзе корпус вырастае да 98 мільёнаў слоў у год; да 1900 годзе, 1800000000; і да 2000 году 11 мільярдаў даляраў. Корпус не можа быць прачытаны чалавекам. Калі вы спрабавалі чытаць толькі запісы на англійскай мове з 2000 года толькі, у разумным тэмпе 200 слоў / мін, без перапынкаў на ежу ці сон, гэта заняло б 80 гадоў. Паслядоўнасць літар у 1000 разоў больш, чым у геноме чалавека: Калі вы напісалі гэта ў прамой лініі, было б дабрацца да Месяца і назад 10 разоў больш «.
Маштаб гэтых дадзеных, несумненна, уражвае, і мы ўсе добра, што каманда Google Books выпусціла гэтыя дадзеныя для грамадскасці (на самай справе, некаторыя з мерапрыемстваў, у канцы гэтай часткі выкарыстоўваць гэтыя дадзеныя). Але кожны раз, калі вы бачыце нешта накшталт гэтага, вы павінны спытаць: тое, што ўсё, што дадзеныя сапраўды рабіць што-небудзь? Яны маглі б зрабіць тое ж даследаванне, калі дадзеныя могуць дабрацца да Месяца і назад толькі адзін раз? Што рабіць, калі дадзеныя могуць дасягнуць толькі да вяршыні Эверэста або на вяршыні Эйфелевай вежы?
У гэтым выпадку, іх даследаванне мае, на самай справе, ёсць некаторыя высновы, якія патрабуюць вялізнага зводу слоў на працягу доўгага перыяду часу. Напрыклад, адна рэч, якую яны даследуюць гэта эвалюцыя граматыкі, у прыватнасці, змены ў хуткасці няправільных дзеясловаў спражэньня. Паколькі некаторыя няправільныя дзеясловы даволі рэдкія, вялікая колькасць дадзеных неабходна для выяўлення змяненняў з цягам часу. Занадта часта, аднак, даследчыкі, здаецца, разглядаць памер вялікай крыніцы дадзеных у якасці канчатковага «см, колькі дадзеных я магу грызці» -rather, чым сродак для некаторай больш важнай навуковай задачы.
На маю вопыту, вывучэнне рэдкіх падзей з'яўляецца адным з трох канкрэтных навуковых мэтаў, што вялікія масівы дадзеных, як правіла, дазваляюць. Другое даследаванне неаднастайнасці, як гэта можна праілюстраваць на даследаванні Радж Chetty і яго калегі (2014) аб сацыяльнай мабільнасці ў Злучаных Штатах. У мінулым многія даследчыкі вывучалі сацыяльную мабільнасць шляхам параўнання вынікаў жыцці бацькоў і дзяцей. Ўзгоднены вывад з гэтай літаратуры з'яўляецца тое , што шчасныя бацькі , як правіла, маюць шчасныя дзіця, але сіла гэтага адносіны мяняецца з цягам часу і ў розных краінах (Hout and DiPrete 2006) . Зусім нядаўна, аднак, Chetty і яго калегі змаглі выкарыстаць падатковыя справаздачы з 40 мільёнаў людзей, каб ацаніць разнастайнасць ў мабільнасці паміж пакаленнямі ў розных рэгіёнах у Злучаных Штатах (мал 2.1). Яны выявілі, што, напрыклад, верагоднасць таго, што дзіця дасягае верхняга квинтиля размеркавання нацыянальнага даходу, пачынаючы з сям'і, у ніжняй Квінтам складае каля 13% у Сан-Хасэ, штат Каліфорнія, але толькі каля 4% у Шарлоце, Паўночная Караліна. Калі вы паглядзіце на малюнак 2.1 на дадзены момант, вы можаце пачаць задавацца пытаннем, чаму мабільнасць паміж пакаленнямі вышэй у некаторых месцах, чым іншыя. Chetty і яго калегі мелі сапраўды такі ж пытанне, і яны выявілі, што, што зоны высокай мабільнасці маюць меншую жылую сегрэгацыі, менш няроўнасці ў даходах, больш пачатковыя школы, большы сацыяльны капітал, і вялікую стабільнасць сям'і. Вядома, самі па сабе гэтыя карэляцыі не паказваюць, што гэтыя фактары прыводзяць да павелічэння рухомасці, але яны мяркуюць магчымыя механізмы, якія могуць быць вывучаныя ў ходзе далейшай працы, якая з'яўляецца менавіта тое, што Chetty і яго калегі зрабілі ў наступнай працы. Звярніце ўвагу на тое, як памер дадзеных быў вельмі важны ў гэтым праекце. Калі Chetty і яго калегі выкарысталі падатковыя запісу 40 тысяч чалавек, а не 40 мільёнаў, яны не змаглі б ацаніць рэгіянальную разнароднасць, і яны ніколі не змаглі б зрабіць наступныя даследаванні, каб паспрабаваць вызначыць механізмы, якія ствараюць гэты варыянт.
Нарэшце, у дадатак да вывучэння рэдкіх падзей і вывучэння неаднастайнасці, вялікія наборы дадзеных таксама дазваляюць даследчыкам выявіць невялікія адрозненні. На самай справе, большая частка ўвагі на вялікіх дадзеных у галіны аб гэтых невялікіх адрозненнях: надзейна выяўляць розніцу паміж 1% і 1,1% клікаў стаўкі па аб'яве можа перавесці на мільёны даляраў дадатковага даходу. У некаторых навуковых устаноўках, аднак, такія невялікія адрозненні могуць не быць асабліва важна, нават калі яны з'яўляюцца статыстычна значнымі (Prentice and Miller 1992) . Але, у некаторых параметрах палітыкі, яны могуць стаць важнымі пры разглядзе ў сукупнасці. Напрыклад, калі ёсць два мерапрыемствы ў галіне грамадскага аховы здароўя і адзін крыху больш эфектыўна, чым іншыя, то выбіраючы больш эфектыўнае ўмяшанне можа ў канчатковым выніку выратаваць тысячы дадатковых жыццяў.
Хоць велічыня, як правіла, добрае ўласцівасць, пры правільным выкарыстанні, я заўважыў, што часам гэта можа прывесці да канцэптуальнай памылку. Па нейкай прычыне, здаецца, велічыня прыводзіць даследчык ігнараваць, як ствараліся іх дадзеныя. У той час як велічыня значна памяншае патрэбнасць турбавацца пра выпадковую памылку, на самай справе павялічвае неабходнасць турбавацца аб сістэматычных памылках, віды памылак , якія я апішу ніжэй , якія ўзнікаюць з ухілаў у тым , як ствараюцца дадзеныя. Напрыклад, у праекце я апішу пазней у гэтым раздзеле, даследчыкі выкарыстоўвалі паведамлення , згенераваныя на 11 верасьня 2001 года з мэтай атрымання высокага дазволу эмацыйны графік рэакцыі на тэракт (Back, Küfner, and Egloff 2010) . Паколькі даследчыкі мелі вялікую колькасць паведамленняў, яны на самой справе не трэба турбавацца аб тым, мадэлях яны назіралі які павялічваецца гнеў на працягу дня, можна растлумачыць выпадковым зьмену. Там было так шмат дадзеных, і карціна была настолькі ясна, што ўсе статыстычныя статыстычныя тэсты выказалі здагадку, што гэта была рэальная карціна. Але гэтыя статыстычныя тэсты нічога не ведалі пра тое, як ствараліся дадзеныя. На самай справе, аказалася, што многія з мадэляў былі звязаны з адной бот, які згенераваў больш і больш бессэнсоўных паведамленняў на працягу дня. Выдаленне гэтага адзін бот цалкам знішчыў некаторыя з асноўных высноў , якія змяшчаюцца ў дакуменце (Pury 2011; Back, Küfner, and Egloff 2011) . Прасцей кажучы, даследчыкі, якія не думаюць пра сістэматычнай памылцы сутыкаюцца з рызыкай выкарыстання іх вялікіх набораў дадзеных, каб атрымаць дакладную ацэнку неістотнага колькасці, такіх як эмацыянальны змест бессэнсоўных паведамленняў, атрыманых з дапамогай аўтаматызаванага бота.
У заключэнне, вялікія наборы дадзеных не з'яўляюцца самамэтай, але яны могуць даць пэўныя віды даследаванняў, у тым ліку вывучэнне рэдкіх падзей, ацэнка неаднастайнасці, а таксама выяўлення невялікіх адрозненняў. Вялікія наборы дадзеных таксама, здаецца, прыводзіць некаторых даследчыкаў ігнараваць, як была створана іх дадзеныя, якія могуць прывесці іх, каб атрымаць дакладную ацэнку неістотнага колькасці.