Един вид наблюдение, което не е включено в тази глава, е етнографията. За повече информация за етнографията в цифровите пространства, вижте Boellstorff et al. (2012) , а за повече за етнографията в смесени цифрови и физически пространства, вижте Lane (2016) .
Няма определена консенсусна дефиниция на "големи данни", но много дефиниции изглежда се фокусират върху "3 Vs": обем, разнообразие и скорост (напр. Japec et al. (2015) ). Виж De Mauro et al. (2015) за преразглеждане на определенията.
Включването на държавните административни данни в категорията на големи данни е малко необичайно, въпреки че други са направили този случай, включително Legewie (2015) , Connelly et al. (2016) и Einav and Levin (2014) . За повече информация относно стойността на правителствените административни данни за изследване вижте Card et al. (2010) , Adminstrative Data Taskforce (2012) и Grusky, Smeeding, and Snipp (2015) .
За оглед на административните изследвания от вътрешната статистическа система на правителството, особено на Бюрото за преброяване на населението в САЩ, вижте Jarmin and O'Hara (2016) . За изследване на административните записи в Statistics Sweden, вижте Wallgren and Wallgren (2007) .
В главата накратко сравнявах едно традиционно проучване като Общото социално изследване (GSS) с източник на данни за социални медии като Twitter. За внимателно и внимателно сравнение между традиционните проучвания и данните за социалните медии виж Schober et al. (2016) .
Тези 10 характеристики на големи данни са описани по различни начини от различни автори. Писането, което повлия на моето мислене по тези въпроси, включва Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , и Goldstone and Lupyan (2016) .
В цялата тази глава използвах понятието цифрови следи , което според мен е относително неутрално. Друг популярен термин за цифрови следи са цифровите отпечатъци (Golder and Macy 2014) , но както посочват Хал Абелсън, Кен Лейдън и Хари Люис (2008) , по-подходящ термин е вероятно цифрови пръстови отпечатъци . Когато създавате отпечатъци, вие сте наясно какво се случва и вашите отпечатъци обикновено не могат да бъдат проследени за вас лично. Същото не важи и за вашите цифрови следи. Всъщност, оставяте следи през цялото време, за което имате много малко познания. И въпреки че тези следи нямат името ви върху тях, те често могат да бъдат обвързани с вас. С други думи, те са по-скоро отпечатъци от пръсти: невидими и лични идентифициращи.
За повече информация защо големите масиви от данни правят статистическите тестове проблематични, вижте M. Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Тези въпроси трябва да накарат изследователите да се съсредоточат върху практическо значение, а не върху статистическа значимост.
За повече информация относно това, как Радж Чети и колегите получиха достъп до данъчните регистри, вижте Mervis (2014) .
Големите масиви от данни също могат да създадат компютърни проблеми, които обикновено са извън възможностите на един компютър. Следователно, изследователите, които правят изчисления на големи масиви от данни, често разпространяват работата на много компютри, понякога се нарича паралелно програмиране . За въведение в паралелното програмиране, по-специално език, наречен Хадоп, виж Vo and Silvia (2016) .
Когато се обмисляте винаги на данни, е важно да прецените дали сравнявате точно същите хора с течение на времето или дали сравнявате някаква променяща се група хора; виж например Diaz et al. (2016) .
Класическа книга за нереактивните мерки е Webb et al. (1966) . Примерите в тази книга предшестват цифровата ера, но те все още са осветени. За примери на хора, променящи поведението си поради наличието на масово наблюдение, вижте Penney (2016) и Brayne (2014) .
Реактивността е тясно свързана с това, което изследователите наричат ефект на търсенето (Orne 1962; Zizzo 2010) и ефекта на Hawthorne (Adair 1984; Levitt and List 2011) .
За повече информация вижте Dunn (1946) Fellegi and Sunter (1969) (исторически) и Larsen and Winkler (2014) (модерно). Подобни подходи също са разработени в областта на компютърните науки под наименования като дедупликация на данни, идентификация на потребителски (Elmagarmid, Ipeirotis, and Verykios 2007) съвпадение на имена, дублиране на откриване и дублиране на записи (Elmagarmid, Ipeirotis, and Verykios 2007) . Съществуват и подходи за запазване на неприкосновеността на личния живот за записване на връзката, които не изискват предаване на лична идентифицираща информация (Schnell 2013) . Facebook също така разработи процес за свързване на техните записи с поведението на гласовете; това е направено, за да се оцени експеримент, който ще ви разкажа в глава 4 (Bond et al. 2012; Jones et al. 2013) .
За повече информация относно конструктивната валидност вижте глава 3 на Shadish, Cook, and Campbell (2001) .
За повече информация относно провала на дневника за търсене в AOL вижте Ohm (2010) . Предлагам съвети за партньорство с компании и правителства в глава 4, когато описвам експерименти. Редица автори изразиха загриженост относно изследванията, които разчитат на недостъпни данни, вижте Huberman (2012) и boyd and Crawford (2012) .
Един добър начин за университетски изследователи да придобият достъп до данните е да се работи в една компания като стажант или гостуващ изследовател. В допълнение към осигуряване на достъп на данни, този процес ще помогне и на изследователя да научите повече за това как е бил създаден на данните, което е важно за анализ.
По отношение на достъпа до правителствени данни Mervis (2014) обсъжда как Raj Chety и колегите му са получили достъп до данъчните регистри, използвани в изследванията им за социалната мобилност.
За повече информация относно историята на "представителност" като концепция, вижте Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) и Kruskal and Mosteller (1980) .
Моите сведения за работата на Сняг и работата на "Дол и Хил" бяха кратки. За повече информация относно работата на Сноу по холера виж Freedman (1991) . За повече информация относно проучването на британските лекари вижте Doll et al. (2004) и Keating (2014) .
Много изследователи ще бъдат изненадани да научат, че въпреки че Дол и Хил са събрали данни от лекари и лекари под 35 години, те умишлено не са използвали тези данни в първия си анализ. Тъй като те твърдят: "Тъй като ракът на белите дробове е сравнително рядък при жени и мъже под 35 години, е малко вероятно полезните данни да бъдат получени в тези групи за няколко години напред. В този предварителен доклад ние ограничихме вниманието си на мъже на възраст 35 години и повече. " Rothman, Gallacher, and Hatch (2013) , който има провокативното заглавие" Защо представителността трябва да се избягва ", прави по-общ аргумент за стойността на умишлено създаване на непредставени данни.
Непредставеността е основен проблем за изследователите и правителствата, които искат да направят изявления за цялото население. Това е по-малко загриженост за компаниите, които обикновено са съсредоточени върху техните потребители. За повече информация относно това как статистиката Холандия разглежда въпроса за непредставителността на бизнеса с големи данни, виж Buelens et al. (2014) .
За примери на изследователи, които изразяват загриженост относно неспецифичния характер на големите източници на данни, вижте boyd and Crawford (2012) , K. Lewis (2015b) и Hargittai (2015) .
За по-подробно сравнение на целите на социалните изследвания и епидемиологичните изследвания, вижте Keiding and Louis (2016) .
Повече за опитите да използвате Twitter, за да направите извадки от извадката за гласоподавателите, особено случая от изборите за 2009 г. в Германия, вижте Jungherr (2013) и Jungherr (2015) . Следвайки работата на Tumasjan et al. (2010) изследователи по целия свят са използвали по-красиви методи - като например използването на анализ на настроенията за разграничаване между положителните и отрицателните споменавания на страните - с цел да се подобри способността на данните от Twitter да предскажат различни видове избори (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ето как Huberty (2015) обобщи резултатите от тези опити за предсказване на изборите:
"Всички познати методи за прогнозиране, базирани на социалните медии, се провалиха, когато бяха подложени на изискванията за истинско предсказуемо избирателно прогнозиране. Тези неуспехи изглежда се дължат основно на фундаменталните свойства на социалните медии, а не на методологическите или алгоритмичните трудности. Накратко, социалните медии не предлагат и вероятно няма да предлагат стабилна, безпристрастна и представителна картина на електората; и удобни извадки от социални медии, нямат достатъчно данни, за да опрат тези проблеми пост. "
В глава 3 ще опиша пробите и оценките много по-подробно. Дори ако данните са непредставителни, при определени условия те могат да бъдат претеглени, за да се получат добри оценки.
Задвижването на системата е много трудно да се види отвън. Проектът MovieLens (обсъден повече в глава 4) обаче се провежда повече от 15 години от академична изследователска група. По този начин те са могли да документират и споделят информация за начина, по който системата се е развила във времето и как това може да има въздействие върху анализа (Harper and Konstan 2015) .
Редица изследователи са се фокусирали върху плаванията в Twitter: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
Един от начините за справяне с пропадането на населението е да се създаде панел от потребители, който позволява на изследователите да изучават едни и същи хора с течение на времето, вижте Diaz et al. (2016) .
За пръв път чух терминът "алгоритмично объркан", използван от Джон Клайнбърг в разговор, но за съжаление не си спомням кога или къде се говори. Първият път, когато видях термина в печат, беше в Anderson et al. (2015) , което е интересна дискусия за това как алгоритмите, използвани от сайтовете за запознанства, могат да усложнят способността на изследователите да използват данни от тези уебсайтове, за да изучават социалните предпочитания. Тази загриженост беше повдигната от K. Lewis (2015a) в отговор на Anderson et al. (2014) .
В допълнение към Facebook, Twitter също препоръчва на хората да следват на базата на идеята за триадично затваряне; виж Su, Sharma, and Goel (2016) . Така че нивото на триадното затваряне в Twitter е комбинация от някаква човешка тенденция към триадично затваряне и някаква алгоритмична тенденция за насърчаване на триадското затваряне.
За повече за ефективността - по-специално за идеята, че някои социално-научни теории са "двигатели, които не са камери" (т.е. те оформят света, а не го описват) - виж Mackenzie (2008) .
Правителствените статистически агенции се обаждат за обработка на статистически данни . De Waal, Puts, and Daas (2014) описват техниките за редактиране на статистически данни, разработени за данните от изследванията, и разглеждат степента, в която те са приложими към големи източници на данни, а Puts, Daas, and Waal (2015) представят някои от същите идеи по-широка аудитория.
За общ преглед на социалните ботове виж Ferrara et al. (2016) . За някои примери на изследвания, насочени към намирането на спам в Twitter, вижте Clark et al. (2016) и Chu et al. (2012) . Накрая, Subrahmanian et al. (2016) описват резултатите от DARPA Twitter Bot Challenge, масово сътрудничество, предназначено да сравни подходите за откриване на ботове в Twitter.
Ohm (2015) прави преглед на по-ранните изследвания на идеята за чувствителна информация и предлага тест за многофакторен анализ. Четирите фактора, които предлага, са големината на вредата, вероятността от вреда, наличието на поверителна връзка и дали рискът отразява мажоритарните проблеми.
Изследването на Фарбер за такситата в Ню Йорк се основава на по-ранно проучване на Camerer et al. (1997) който използва три различни удобни проби от хартиени листове. Това по-ранно проучване установи, че шофьорите изглежда са целеви: те работят по-малко в дните, в които заплатите им са по-високи.
В последвалата работа Крал и колеги по-нататък проучиха онлайн цензурата в Китай (King, Pan, and Roberts 2014, [@king_how_2016] ) . За свързан подход за измерване на онлайн цензурата в Китай вижте Bamman, O'Connor, and Smith (2012) . За повече информация относно статистическите методи като този, използван в King, Pan, and Roberts (2013) да се оцени настроението на 11-те милиона бройки, вижте Hopkins and King (2010) . За повече информация относно контролираното обучение, вижте James et al. (2013) (по-малко технически) и Hastie, Tibshirani, and Friedman (2009) (по-технически).
Прогнозата е голяма част от науката за индустриалните данни (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Един тип прогнозиране, което обикновено се прави от социални изследователи, е демографското прогнозиране; виж, например, Raftery et al. (2012) .
Google Грипни тенденции не беше първият проект, който използва данните от търсенето за разпространение на грип в момента. В действителност изследователи в Съединените щати (Polgreen et al. 2008; Ginsberg et al. 2009) и Швеция (Hulth, Rydevik, and Linde 2009) установиха, че определени термини за търсене (напр. преди да бъде освободен. Впоследствие много, много други проекти се опитаха да използват цифрови данни за проследяване за откриване на болести; виж Althouse et al. (2015) за преглед.
В допълнение към използването на цифрови данни за проследяване, за да се предскажат последиците от здравето, имаше огромно количество работа, използвайки данните от Twitter, за да се предскажат резултатите от изборите; за рецензии вижте Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (глава 7) и Huberty (2015) . Осъществяването на икономически показатели, като брутния вътрешен продукт (БВП), също е често срещано в централните банки, виж Bańbura et al. (2013) . таблица 2.8 съдържа няколко примера за изследвания, които използват някаква цифрова следа, за да предскажат някакъв вид събитие в света.
Цифрова следа | изход | Цитат |
---|---|---|
кикотене | Покер офис приходи от филми в САЩ | Asur and Huberman (2010) |
Търсене в дневници | Продажба на филми, музика, книги и видео игри в САЩ | Goel et al. (2010) |
кикотене | Dow Jones Industrial Average (американски борсов пазар) | Bollen, Mao, and Zeng (2011) |
Социални медии и регистрационни файлове за търсене | Проучвания на настроенията на инвеститорите и на фондовите пазари в САЩ, Великобритания, Канада и Китай | Mao et al. (2015) |
Търсене в дневници | Разпространение на треска от денга в Сингапур и Банкок | Althouse, Ng, and Cummings (2011) |
И накрая, Джон Клайнбърг и колегите му (2015) посочват, че проблемите с прогнозите попадат в две категорично различни категории и че социалните учени са склонни да се съсредоточат върху едното и да пренебрегват другия. Представете си, че един политик ще я нарече Анна, която е изправена пред суша и трябва да реши дали да наеме шаман, за да направи дъжд, за да увеличи шанса за дъжд. Друг създател на политики, аз ще я наричам Бети, трябва да реши дали да вземе чадър, за да работи, за да не се намокри по пътя към дома. Както Анна, така и Бети могат да вземат по-добро решение, ако разбират времето, но трябва да знаят различни неща. Анна трябва да разбере дали дъждовните танци предизвикват дъжд. Бети, от друга страна, не трябва да разбере нищо за причинно-следствената връзка; тя просто се нуждае от точна прогноза. Социалните изследователи често се съсредоточават върху проблемите като тази, пред която е изправена Анна - която Клайнбърг и колегите му наричат "политически проблеми, подобни на дъждовните танци", защото те включват въпроси на причинно-следствената връзка. Въпроси като този, с който се сблъскват Бети - които Клайнбърг и колегите наричат политически проблеми като "чадър" - също могат да бъдат много важни, но са получили много по-малко внимание от социалните изследователи.
В сп. "Политически науки" имаше симпозиум по големи данни, причинно-следствена връзка и формална теория, а Clark and Golder (2015) обобщиха всеки принос. В списанието " Сборник" на Националната академия на науките на Съединените американски щати имаше симпозиум за причинно-следствени изводи и големи данни, а Shiffrin (2016) обобщава всеки принос. За подходите за машинно обучение, които се опитват автоматично да открият естествени експерименти в големи източници на данни, вижте Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) и Sharma, Hofman, and Watts (2016) .
По отношение на естествените експерименти, Dunning (2012) предоставя въвеждащо, дългосрочно лечение с много примери. За скептично отношение към естествените експерименти вижте Rosenzweig and Wolpin (2000) (икономика) или Sekhon and Titiunik (2012) (политически науки). Deaton (2010) и Heckman and Urzúa (2010) твърдят, че фокусирането върху естествените експерименти може да доведе изследователите да се съсредоточат върху оценката на незначителни причинни ефекти; Imbens (2010) противоречи на тези аргументи с по-оптимистичен поглед върху стойността на естествените експерименти.
Когато описва как един изследовател може да премине от оценката на ефекта от изготвянето му до ефекта на сервиране, описах техника, наречена инструментални променливи . Imbens and Rubin (2015) , в главите си 23 и 24, представят въвеждането и използват примерната лотария. Ефектът на военната служба върху подчинените служители понякога се нарича "средно причинно-следствен ефект" (CAcE) и понякога "локален ефект на лечение" (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) и Bollen (2012) предлагат прегледи за използването на инструменталните променливи в политическите науки, икономиката и социологията, а Sovey and Green (2011) оценка на проучванията, използващи инструментални променливи.
Оказва се, че проекто лотарията от 1970 г. всъщност не е правилно рандомизирана; имаше малки отклонения от чисто случайност (Fienberg 1971) . Berinsky and Chatfield (2015) твърдят, че това малко отклонение не е от съществено значение и обсъжда значението на правилно проведената рандомизация.
Що се отнася до съвпадението, вижте Stuart (2010) за оптимистичен преглед и Sekhon (2009) за песимистичен преглед. За повече информация относно съчетаването на нещо като подрязване виж Ho et al. (2007) . Намирането на едно единствено перфектно съвпадение за всеки човек често е трудно и това води до редица сложности. Първо, когато не са налице точни съвпадения, изследователите трябва да решат как да измерват разстоянието между две единици и ако дадено разстояние е достатъчно близко. Втората сложност възниква, ако изследователите искат да използват няколко мача за всеки случай в групата за лечение, тъй като това може да доведе до по-точни оценки. И двата въпроса, както и други, са описани подробно в глава 18 на Imbens and Rubin (2015) . Виж също част II от ( ??? ) .
Виж Dehejia and Wahba (1999) за пример, при който съвпадащи методи са в състояние да произведат оценки, подобни на тези от рандомизирания контролиран експеримент. Но вижте Arceneaux, Gerber, and Green (2006) и Arceneaux, Gerber, and Green (2010) за примери, при които методите за съвпадение не успяха да възпроизведат експериментален референтен показател.
Rosenbaum (2015) и Hernán and Robins (2016) предлагат друг съвет за откриване на полезни сравнения в големи източници на данни.