далей каментары

Гэты падзел прызначаны для выкарыстання ў якасці эталона, замест таго , каб быць прачытаны як аповяд.

  • Уводзіны (Раздзел 2.1)

Адзін від назірання, не ўключаныя ў гэтай чале этнаграфія. Больш падрабязную інфармацыю пра этнаграфію ў лічбавых прасторах см Boellstorff et al. (2012) і Boellstorff et al. (2012) , а таксама больш падрабязную інфармацыю пра этнаграфію ў змешаных лічбавых і фізічных прастор см Lane (2016) .

  • Вялікія дадзеныя (раздел 2.2)

Калі вы перапрафілявання дадзеныя, ёсць два ментальных трукаў, якія могуць дапамагчы вам зразумець магчымыя праблемы, з якімі можна сутыкнуцца. Па-першае, вы можаце паспрабаваць уявіць сабе ідэальны набор дадзеных для вашай праблемы, і параўнаць яго з наборам дадзеных, якія вы выкарыстоўваеце. Як яны падобныя і чым яны адрозніваюцца? Калі вы не збіраць вашыя дадзеныя самастойна, ёсць, верагодна, будзе розніца паміж тым, што вы хочаце і што ў вас ёсць. Але, вы павінны вырашыць, калі гэтыя адрозненні з'яўляюцца нязначнымі або маёра.

Па-другое, памятаеце, што хтосьці стварыў і сабралі дадзеныя па нейкай прычыне. Вы павінны паспрабаваць зразумець іх разважанне. Гэты від зваротнай інжынерыі можа дапамагчы вам вызначыць магчымыя праблемы і перакосы ў вашых дадзеных шматкроць выкарыстоўваць.

Там не існуе адзінага вызначэння кансэнсус "вялікіх дадзеных", але , здаецца , шмат азначэнняў , каб засяродзіцца на 3 Vs: (напрыклад, аб'ём, разнастайнасць і хуткасць Japec et al. (2015) і Japec et al. (2015) ). Замест таго, каб засяродзіцца на характарыстыках дадзеных, маё вызначэнне больш факусуюць на тым, чаму была створана дадзеныя.

Маё ўключэнне дзяржаўных адміністрацыйных дадзеных усярэдзіне катэгорыі вялікіх аб'ёмаў дадзеных трохі незвычайна. Іншыя , якія зрабілі гэты выпадак, ўключаюць Legewie (2015) , Connelly et al. (2016) і Connelly et al. (2016) , і Einav and Levin (2014) . Больш падрабязную інфармацыю аб кошце дзяржаўных адміністрацыйных дадзеных для правядзення даследаванняў, см Card et al. (2010) і Card et al. (2010) , Taskforce (2012) , і Grusky, Smeeding, and Snipp (2015) .

Для зроку адміністрацыйнага даследаванні знутры дзяржаўнай статыстычнай сістэмы, у прыватнасці , Бюро перапісу насельніцтва ЗША, см Jarmin and O'Hara (2016) . Для даўжыні кніга лячэння даследаванні адміністрацыйных запісаў у Статыстычнае ўпраўленне Швецыі, см Wallgren and Wallgren (2007) .

У гэтым раздзеле я коратка параўнаў традыцыйны апытанне, такіх як General Social Survey (GSS) у якасці крыніцы дадзеных сацыяльных медыя, такіх як Twitter. Для стараннага і ўважлівага параўнання паміж традыцыйнымі абследаванняў і дадзеных сацыяльных медыя, см Schober et al. (2016) і Schober et al. (2016) .

  • Агульныя характарыстыкі вялікіх аб'ёмаў дадзеных (раздел 2.3)

Гэтыя 10 характарыстык вялікіх дадзеных былі апісаны ў розных спосабаў з дапамогай мноства розных аўтараў. Даць , што паўплывала на маё мысленне па гэтых пытаннях адносяцца: Lazer et al. (2009) і Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) і Japec et al. (2015) , і Goldstone and Lupyan (2016) .

У гэтым раздзеле я выкарыстаў тэрмін лічбавыя сляды, якія я думаю адносна нейтральным. Яшчэ адзін папулярны тэрмін для лічбавых слядоў з'яўляецца лічбавыя адбіткі ног (Golder and Macy 2014) , але , як Hal Абельсоном, Кен Ледин, і Гары Льюіс (2008) паказваюць, які больш падыходзіць тэрмін, верагодна , лічбавыя адбіткі пальцаў. Калі вы ствараеце сляды, вы ведаеце аб тым, што адбываецца, і вашыя адбіткі ног наогул не можа быць прасочана да вас асабіста. Тое ж самае не дакладна для вашых лічбавых слядоў. На самай справе, вы пакідаеце сляды ўвесь час пра тое, якія ў вас ёсць вельмі мала ведаў. І, хоць гэтыя сляды не маюць сваё імя на іх, яны часта могуць быць звязаныя з вамі. Іншымі словамі, яны больш падобныя на адбіткі пальцаў: нябачная і асабіста ідэнтыфікацыі.

вялікі

Больш падрабязную інфармацыю аб тым, чаму вялікія наборы дадзеных, візуалізацыі статыстычных тэстаў праблематычна см Lin, Lucas, and Shmueli (2013) і McFarland and McFarland (2015) . Гэтыя пытанні павінны прывесці даследчыкаў засяродзіць увагу на практычную значнасць, а не статыстычнай значнасці.

Заўсёды

Пры разглядзе пытання заўсёды на дадзеных, важна разгледзець пытанне аб тым, што вы параўноўваеце тыя ж людзі на працягу доўгага часу, ці вы параўноўваеце некаторую зменлівую групу людзей; глядзі, напрыклад, Diaz et al. (2016) і Diaz et al. (2016) .

Нереактивный

Класічная кніга па нереакционноспособных мер Webb et al. (1966) і Webb et al. (1966) . Прыклады, прыведзеныя ў кнізе папярэдняй даце лічбавай стагоддзе, але яны па-ранейшаму асвятляючы. Прыклады людзей змяніць сваё паводзіны з-за наяўнасці масавага назірання, см Penney (2016) і Brayne (2014) .

незавершаны

Больш падрабязную інфармацыю аб гуказапісвальнай сувязі см Dunn (1946) і Fellegi and Sunter (1969) (гістарычнае) і Larsen and Winkler (2014) (сучасны). Аналагічныя падышлі таксама былі распрацаваны ў інфарматыцы пад назвамі , такія як дедупликации дадзеных, ідэнтыфікацыі , напрыклад, супастаўленне імёнаў, выяўлення дублікатаў, і дубляваць запіс выяўлення (Elmagarmid, Ipeirotis, and Verykios 2007) . Ёсць таксама прыватнасць захавання падыходаў да запісу сувязі , якія не патрабуюць перадачы асабістую інфармацыю (Schnell 2013) . Facebook таксама распрацавала прыступіць звязаць свае запісы з паводзінамі галасавання; гэта было зроблена , каб ацаніць эксперымент , які я вам распавяду ў частцы 4 (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) .

Больш падрабязную інфармацыю аб валіднасці см Shadish, Cook, and Campbell (2001) , кіраўнік 3.

недаступны

Больш падрабязную інфармацыю аб выніках пошуку ў часопісе AOL фіяска, см Ohm (2010) . Я прапаную парады аб партнёрстве з кампаніямі і урадамі ў частцы 4, калі я апісваюць эксперыменты. Шэраг аўтараў выказваюць заклапочанасць па нагоды даследаванні , якое абапіраецца на недаступных дадзеных см Huberman (2012) і boyd and Crawford (2012) .

Адзін добры спосаб для універсітэцкіх даследчыкаў, каб атрымаць доступ да дадзеных, каб працаваць у кампаніі ў якасці стажора або запрошанага даследчыка. У дадатак да прадастаўлення доступу да дадзеных, гэты працэс таксама дапаможа даследніку даведацца больш аб тым, як стваралася дадзеных, што важна для аналізу.

Нерепрезентативного

Non-рэпрэзентатыўнасці з'яўляецца сур'ёзнай праблемай для даследчыкаў і ўрадаў, якія жадаюць зрабіць заявы аб генеральнай сукупнасці. Гэта менш турботы для кампаній, якія, як правіла, сканцэнтраваны на сваіх карыстальнікаў. Больш падрабязную інфармацыю аб тым , як Статыстычнае ўпраўленне Нідэрландаў разглядае пытанне аб непрадстаўленні рэпрэзентатыўнасці бізнесу вялікіх аб'ёмаў дадзеных, см Buelens et al. (2014) і Buelens et al. (2014) .

У раздзеле 3 я апішу адбор спроб і ацэнку значна больш падрабязна. Нават калі дадзеныя не з'яўляюцца рэпрэзентатыўнымі, пры пэўных умовах, яны могуць быць ўзважвання для атрымання добрых ацэнак.

дрэйф

Дрэйф сістэмы вельмі цяжка зразумець, з вонкавага боку. Тым не менш, праект MovieLens (падрабязней абмяркоўваецца ў главе 4) была запушчана на працягу больш за 15 гадоў акадэмічнай даследчай групай. Такім чынам, яны задакументаваныя і падзяліліся інфармацыяй аб тым , як сістэма развівалася з цягам часу і як гэта можа паўплываць на аналіз (Harper and Konstan 2015) .

Шэраг навукоўцаў былі сканцэнтраваны на дрэйф у Twitter: Liu, Kliman-Silver, and Mislove (2014) і Tufekci (2014) .

алгарытмічных пасаромленыя

Я ўпершыню пачуў тэрмін "алгарытмічных брыдка ім", які выкарыстоўваецца Джонам Клейнберг у гутарцы. Асноўная ідэя перфарматыўнасць з'яўляецца тое , што некаторыя тэорыі сацыяльных навук з'яўляюцца "рухавікамі ня камеры" (Mackenzie 2008) . Гэта значыць, яны на самой справе фарміруюць свет, а не проста захапіць яго.

брудны

Ўрадавыя статыстычныя ведамства назваць ачыстку дадзеных, рэдагаванне статыстычных дадзеных. De Waal, Puts, and Daas (2014) апісваюць метады рэдагавання статыстычных дадзеных , распрацаваныя для дадзеных абследавання і даследаваць , у якой ступені яны дастасавальныя да буйных крыніц дадзеных, і Puts, Daas, and Waal (2015) прадстаўлены некаторыя з тых жа самых ідэй для больш шырокай аўдыторыі.

Для некаторых прыкладаў даследаванняў , накіраваных на спам у Twitter, Clark et al. (2016) і Clark et al. (2016) і Chu et al. (2012) і Chu et al. (2012) . І, нарэшце, Subrahmanian et al. (2016) і Subrahmanian et al. (2016) апісвае вынікі DARPA Twitter Bot Challenge.

абачлівы

Ohm (2015) разглядае вынікі папярэдніх даследаванняў на ідэі канфідэнцыйнай інфармацыі і прапануе выпрабаванне шматфактарнага. Чатыры фактары ён прапануе, з'яўляюцца: верагоднасць нанясення шкоды; верагоднасць нанясення шкоды; наяўнасць канфідэнцыйных адносін; і ці ёсць рызыка адлюстроўваць мажарытарныя праблемы.

  • Падлік рэчаў (раздел 2.4.1)

Даследаванне Фарбэр таксі ў Нью - Ёрку была заснаваная на больш раннім даследаванні Camerer et al. (1997) і Camerer et al. (1997) , якія выкарыстоўвалі тры розных узораў зручнасці паперы камандзіровачных лістоў-папяровых формаў , якія выкарыстоўваюцца для запісу кіроўцаў паездкі час пачатку, час заканчэння, а таксама платы за праезд. Гэта ранняе даследаванне паказала, што кіроўцы, здавалася, мэтавымі здабытчыка: яны працавалі менш на тыя дні, калі іх заробкі былі вышэй.

Kossinets and Watts (2009) было засяроджана на паходжаннi гомофилии ў сацыяльных сетках. См Wimmer and Lewis (2010) для іншага падыходу да той жа праблеме , якая выкарыстоўвае дадзеныя з Facebook.

У наступнай працы, кароль і яго калегі даследавалі далей онлайн - цэнзуру ў Кітаі (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Для адпаведнага падыходу да вымярэння інтэрнэт - цэнзуру ў Кітаі, см Bamman, O'Connor, and Smith (2012) . Больш падрабязную інфармацыю аб статыстычных метадах , як той , якая выкарыстоўваецца ў King, Pan, and Roberts (2013) г. Hopkins and King (2010) King, Pan, and Roberts (2013) , каб ацаніць настрою 11 мільёнаў паведамленняў, см Hopkins and King (2010) . Больш падрабязную інфармацыю аб паднагляднай навучання см James et al. (2013) і James et al. (2013) (менш за тэхнічны) і Hastie, Tibshirani, and Friedman (2009) (больш тэхнічны).

  • Прагназаванне (раздел 2.4.2)

Прагназаванне з'яўляецца вялікая частка прамысловых дадзеных навукі (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) г. (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Адзін тып прагназавання, якія звычайна робіцца сацыяльных даследчыкаў дэмаграфічнага прагназавання, напрыклад , Raftery et al. (2012) і Raftery et al. (2012) .

Google Flu Trends ня быў першы праект, каб выкарыстоўваць дадзеныя пошуку для няшно распаўсюджанасці грыпу. На самай справе, даследчыкі ў Злучаных Штатах (Polgreen et al. 2008; Ginsberg et al. 2009) і (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009) і (Polgreen et al. 2008; Ginsberg et al. 2009) і Швецыі (Hulth, Rydevik, and Linde 2009) выявілі , што некаторыя пошукавыя тэрміны (напрыклад, "грып") прадказаў нацыянальнага эпіднагляду ў галіне грамадскага аховы здароўя дадзеныя перш чым ён быў вызвалены. Пасля шматлікія, многія іншыя праекты спрабавалі выкарыстоўваць лічбавыя дадзеныя трасіроўкі для выяўлення эпіднагляду за хваробамі, см Althouse et al. (2015) і Althouse et al. (2015) для агляду.

У дадатак да выкарыстання лічбавых дадзеных трасіроўкі для прагназавання вынікаў у дачыненні здароўя, існуе таксама вялікая колькасць працы з выкарыстаннем дадзеных Twitter для прагназавання вынікаў выбараў; агляды см Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (гл. 7) і Huberty (2015) .

Выкарыстанне дадзеных пошуку для прагназавання распаўсюджанасці грыпу і выкарыстання дадзеных Twitter, каб прадказаць выбары з'яўляюцца прыкладамі выкарыстання нейкі лічбавай след, каб прадказаць, нейкая падзея ў свеце. Там велізарная колькасць даследаванняў, якія маюць гэтую агульную структуру. Табліца 2.5 ўключае ў сябе некалькі іншых прыкладаў.

Табліца 2.5: Частковы спіс даследаванняў выкарыстоўваць некаторыя лічбавай след прадказаць нейкая падзея.
лічбавай след вынік цытаванне
шчабятаць даход у офісе Box фільмаў у ЗША Asur and Huberman (2010)
часопісы пошуку Продаж фільмаў, музыкі, кніг і відэагульняў ў ЗША Goel et al. (2010)
шчабятаць Dow Jones Industrial Average (фондавы рынак ЗША) Bollen, Mao, and Zeng (2011)
  • Аппроксимационные эксперыменты (раздел 2.4.3)

Часопіс PS паліталогія быў ​​сімпозіум па вялікіх дадзеных, прычыннай высновы і фармальнай тэорыі, і Clark and Golder (2015) абагульняе ўклад кожнага ўдзельніка. У часопісе Працы Нацыянальнай акадэміі навук Злучаных Штатаў Амерыкі быў сімпозіум па прычыннага высновы і вялікіх аб'ёмаў дадзеных, і Shiffrin (2016) сумуе ўклад кожнага ўдзельніка.

З пункту гледжання натуральных эксперыментаў, Dunning (2012) забяспечвае выдатную апрацоўку даўжыні кнігі. Для атрымання дадатковай інфармацыі аб выкарыстанні праекта латарэі ць В'етнаме ў якасці натуральнага эксперыменту, см Berinsky and Chatfield (2015) . Для машыннага навучання падыходаў , якія спрабуюць аўтаматычна выяўляць натуральныя эксперыменты ўнутры вялікіх крыніц дадзеных, см Jensen et al. (2008) і Jensen et al. (2008) і Sharma, Hofman, and Watts (2015) .

З пункту гледжання адпаведнасці, для аптымістычнага агляду см Stuart (2010) , а таксама для песімістычнага агляду см Sekhon (2009) . Больш падрабязную інфармацыю аб супаставіўшы як свайго роду абразанні см Ho et al. (2007) і Ho et al. (2007) . Для кніг , якія забяспечваюць выдатныя трактоўкі адпаведнасці, см Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) і Imbens and Rubin (2015) .