Допълнителна коментар

Този раздел е предназначен да се използва като отправна точка, а не да се чете като разказ.

  • Въведение (раздел 2.1)

Един вид като отбелязва, че не е включен в тази глава е етнография. За повече информация по етнография в дигитални пространства виж Boellstorff et al. (2012) , и в продължение на повече от етнографията в смесени цифрови и физически пространства виж Lane (2016) .

  • Големите данни (раздел 2.2)

Когато се Repurposing данни, има две ментални трикове, които могат да ви помогнат да разберете възможните проблеми, които може да възникнат. Първо, можете да се опитате да си представите идеалния набор от данни за вашия проблем и Сравнете това с набора от данни, която използвате. Как те са сходни и как те са различни? Ако не се съберат себе си данни, има вероятност да бъде разликата между това, което искате и това, което имате. Но, вие трябва да решите дали тези разлики са малки или големи.

На второ място, не забравяйте, че някой е създаден и събира данните си по някаква причина. Трябва да се опитаме да разберем мотивите им. Този вид обратна-инженерство може да ви помогне да се идентифицират възможните проблеми и отклонения във вашите променяно предназначението на данни.

Няма единна дефиниция консенсус на "големия данни", но много определения изглежда да се съсредоточи върху 3 Vs: (например, обем, разнообразие, и скорост Japec et al. (2015) ). Вместо да се фокусира върху характеристиките на данните, моята дефиниция се фокусира повече върху това защо е създаден на данните.

включване ми на държавни административни данни вътре в категорията на големия данни е малко необичайно. Други, които са направили този случай, включват Legewie (2015) , Connelly et al. (2016) , и Einav and Levin (2014) . За повече информация за стойността на държавните административни данни за научни изследвания, виж Card et al. (2010) , Taskforce (2012) , и Grusky, Smeeding, and Snipp (2015) .

За оглед на административната изследвания от вътрешността на статистическата система на правителството, особено Бюрото за преброяване на САЩ, виж Jarmin and O'Hara (2016) . За лечението с дължина книга на изследването на административни записи при Статистика Швеция, вижте Wallgren and Wallgren (2007) .

В главата, аз в сравнение накратко традиционна анкета като General Social Survey (GSS) към източник на социалните медии данни като Twitter. За цялостно и внимателно сравнение между традиционните проучвания и данни за социални медии, виж Schober et al. (2016) .

  • Общи характеристики на големи данни (раздел 2.3)

Тези характеристики 10 на големи данни са описани в редица различни начини от различни автори. Писане, че влияе моето мислене по тези въпроси включват: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , и Goldstone and Lupyan (2016) .

В тази глава, аз съм използвал термина цифрови следи, които мисля, че е сравнително неутрален. Друг популярен термин за цифрови следи е цифрови отпечатъци (Golder and Macy 2014) , но като Хал Абелсън, Кен Ледийн, и Хари Луис (2008) посоча, по-подходящ термин е вероятно цифрови отпечатъци. Когато създавате отпечатъци, сте наясно с това, което се случва и си отпечатъци не може по принцип да бъдат проследени с вас лично. Същото не важи за вашите цифрови следи. Всъщност, вие се оставя следи през цялото време, за което имате много малко знания. И, въпреки че тези следи не разполагат с името си върху тях, те често могат да бъдат свързани с вас. С други думи, те са по-скоро като на пръстови отпечатъци: невидим и да идентифицира лично.

голям

За повече информация относно защо големи масиви от данни, правят статистически тестове проблематично, вижте Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Тези въпроси трябва да доведат изследователите да се съсредоточи върху практическо значение, а не статистическа значимост.

Винаги включен

Когато се разглежда винаги-на данни, е важно да се помисли дали сте сравняване с точно същите хора, с течение на времето или дали сте сравняване някои променящите се група от хора; виж например, Diaz et al. (2016) .

Non-реактивен

А класическата книга на не-реактивни мерки е Webb et al. (1966) . Примерите в книгата предварително датата на цифровата ера, но те все още се осветява. За примери на хора променят поведението си, поради наличието на масово наблюдение, вижте Penney (2016) и Brayne (2014) .

непълен

За повече информация относно рекорд връзка, вижте Dunn (1946) и Fellegi and Sunter (1969) (исторически) и Larsen and Winkler (2014) (модерен). Подобна приближи също са били разработени по компютърни науки под имената като дедупликация на данни, идентификация, например, име съвпадение, дублира откриването, и дублира рекорд откриване (Elmagarmid, Ipeirotis, and Verykios 2007) . Има и неприкосновеността на личния живот запазване подходи за записване на връзката, които не изискват предаването на лично идентифицираща информация (Schnell 2013) . Facebook също е разработила продължите да свържат своите записи за поведението на гласоподавателите; това е направено, за да се оцени един експеримент, който аз ще ви кажа за в глава 4 (Bond et al. 2012; Jones et al. 2013) .

За повече информация относно конструкт валидност, виж Shadish, Cook, and Campbell (2001) , глава 3.

недостъпен

За повече информация относно търсенето дневник провала на AOL, вижте Ohm (2010) . Аз предложи информация за партньорството с компании и правителства в глава 4, когато се описват експерименти. Редица автори са изразили загриженост за научни изследвания, която разчита на недостъпни данни, виж Huberman (2012) и boyd and Crawford (2012) .

Един добър начин за университетски изследователи да придобият достъп до данните е да се работи в една компания като стажант или гостуващ изследовател. В допълнение към осигуряване на достъп на данни, този процес ще помогне и на изследователя да научите повече за това как е бил създаден на данните, което е важно за анализ.

Non-представителна

Non-представителност е основен проблем за изследователите и правителства, които желаят да направят изявления за цялото население. Това е по-малко от загриженост за фирми, които обикновено се фокусират върху техните потребители. За повече информация относно това как Статистика Холандия смята, че въпросът за не-представителност на бизнес големи данни, виж Buelens et al. (2014) .

В глава 3, аз ще опиша вземане на проби и оценка в много по-големи подробности. Дори ако данните не са представителни, при определени условия, те могат да бъдат претеглени, за да произвеждат добри оценки.

Плаващи

Система за дрифт е много трудно да се види отвън. Въпреки това, проектът на MovieLens (обсъдени повече в глава 4) се управлява в продължение на повече от 15 години от академична изследователска група. Следователно, те са документирани и споделена информация за начина, по който системата се разви във времето и как това може да повлияе на анализ (Harper and Konstan 2015) .

Редица учени са фокусирани върху плаващите в Twitter: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .

математически алгоритъм посрамиха

За първи път чух понятието "алгоритмично посрами", използван от Jon Kleinberg в разговор. Основната идея зад перформативност е, че някои социални науки теории са "двигатели не фотоапарати" (Mackenzie 2008) . Тоест, те всъщност оформят света, а не само да го улови.

мръсен

Правителствени статистически агенции наричат ​​почистване на данни, редактиране на статистически данни. De Waal, Puts, and Daas (2014) описват техники статистически редактиране на данни, разработени за данните от изследването и да проучи до каква степен те са приложими към големите източници на данни, и Puts, Daas, and Waal (2015) представя някои от същите идеи за по-широката аудитория.

За някои примери за изследвания, фокусирани върху спам в Twitter, Clark et al. (2016) и Chu et al. (2012) . Накрая, Subrahmanian et al. (2016) описва резултатите от DARPA Twitter Bot предизвикателство.

чувствителен

Ohm (2015) прави преглед на по-рано изследвания върху идеята на чувствителна информация и предлага тест за мулти-фактор. Четирите фактора той предлага са: вероятността от увреждане; вероятността от увреждане; наличие на конфиденциалните отношения; и дали рискът отразява мажоритарни опасения.

  • Преброяване неща (раздел 2.4.1)

Проучване на таксита в Ню Йорк Farber се основава на по-ранна проучване от Camerer et al. (1997) , която използва три различни стоки проби от хартия пътуване форми листове хартия, използвани от шофьорите да записва пътуване начален час, краен час, както и тарифа. Това по-рано проучване установи, че водачите изглеждаха целеви получаващите: те са работили по-малко на ден, където заплатите им са по-високи.

Kossinets and Watts (2009) е съсредоточена върху произхода на homophily в социалните мрежи. Вижте Wimmer and Lewis (2010) за един по-различен подход към същия проблем, който използва данни от Facebook.

В последваща работа, Кинг и колегите са разгледани допълнително онлайн цензурата в Китай (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . За свързано подход за измерване на онлайн цензурата в Китай, виж Bamman, O'Connor, and Smith (2012) . За повече информация относно статистическите методи като този, използван в King, Pan, and Roberts (2013) , за да се прецени настроенията на 11-те милиона публикации, виж Hopkins and King (2010) . За повече информация относно контролиран живот, вижте James et al. (2013) (по-малко технически) и Hastie, Tibshirani, and Friedman (2009) (повече технически).

  • Прогнозиране (раздел 2.4.2)

Прогнозирането е една голяма част от индустриалната наука данни (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Един вид на прогнозиране, които обикновено се прави от социалните изследователи са демографските прогнози, например Raftery et al. (2012) .

Google Flu Trends не е първият проект за използване на данните от търсенето за nowcast разпространението на грип. В действителност, изследователите в САЩ (Polgreen et al. 2008; Ginsberg et al. 2009) и Швеция (Hulth, Rydevik, and Linde 2009) са установили, че някои думи за търсене (например, "грип") прогнозира национално наблюдение на общественото здраве данни преди да бъде освободен. Впоследствие много, много други проекти са се опитали да използват цифрови данни следи за откриване наблюдение на заболяванията, вижте Althouse et al. (2015) за да оставите коментар.

В допълнение към използването на цифрови данни следи за предсказване на здравните резултати, там също е огромно количество работа, използвайки данни на Twitter, за да се предскаже резултатите от изборите; за прегледи виж Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (гл. 7), и Huberty (2015) .

Използвайки данните от търсенето за прогнозиране на разпространението на грип и използване на данни на Twitter, за да се предскаже избори са двете примери за използване на някакъв вид цифров следа да се предскаже някакво събитие в света. Има огромен брой изследвания, които имат тази обща структура. Таблица 2.5 включва няколко други примери.

Таблица 2.5: Частичен списък на проучвания използвате някои цифрови следи, за да се предскаже някакво събитие.
Digital следа изход цитат
кикотене Box офис приходи на филми в САЩ Asur and Huberman (2010)
Търсене на трупчета Продажбите на филми, музика, книги и видео игри в САЩ Goel et al. (2010)
кикотене Dow Jones Industrial Average (фондовия пазар в САЩ) Bollen, Mao, and Zeng (2011)
  • Сближаване на експерименти (раздел 2.4.3)

Списанието PS Политология имаше симпозиум по голяма данни, причинно-следствена извод, и официална теория, и Clark and Golder (2015) обобщава всяка вноска. Производството по вестник на Националната академия на науките на Съединените американски щати са имали симпозиум по причинна извод и големи данни, и Shiffrin (2016) обобщава всяка вноска.

От гледна точка на природни експерименти, Dunning (2012) предоставя отлична лечение дължина книга. За повече информация относно използването на Виетнам проект на лотарията като естествен експеримент, вижте Berinsky and Chatfield (2015) . За подходи за машинно обучение, които се опитват да автоматично открият природни експерименти вътре на големи източници на данни, вижте Jensen et al. (2008) и Sharma, Hofman, and Watts (2015) .

От гледна точка на съвпадение, за оптимистичен преглед, виж Stuart (2010) , както и за по-песимистично мнение виж Sekhon (2009) . За повече информация по съвпадение като един вид резитба, вижте Ho et al. (2007) . За книги, които предоставят отлични лечение на съвпадение, вижте Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , и Imbens and Rubin (2015) .