Un fel de observare care nu este inclus în acest capitol este etnografia. Pentru mai multe detalii despre etnografie în spații digitale, a se vedea Boellstorff et al. (2012) , și pentru mai multe despre etnografie în spații mixte digitale și fizice, a se vedea Lane (2016) .
Nu există o singură definiție a consensului despre "date mari", dar multe definiții par să se concentreze pe "3 Vs": volumul, varietatea și viteza (de exemplu, Japec et al. (2015) ). Vezi De Mauro et al. (2015) pentru o revizuire a definițiilor.
Includerea datelor administrative guvernamentale în categoria datelor mari este puțin neobișnuită, deși altele au făcut acest caz, inclusiv Legewie (2015) , Connelly et al. (2016) și Einav and Levin (2014) . Pentru mai multe informații despre valoarea datelor administrative guvernamentale pentru cercetare, a se vedea Card et al. (2010) , Adminstrative Data Taskforce (2012) și Grusky, Smeeding, and Snipp (2015) .
Din punctul de vedere al cercetării administrative din interiorul sistemului statistic guvernamental, în special al Biroului de recensământ al SUA, a se vedea Jarmin and O'Hara (2016) . Pentru un tratament de lungă durată a cercetării în registrele administrative de la Statistica Suediei, a se vedea Wallgren and Wallgren (2007) .
În capitol, am comparat pe scurt un sondaj tradițional, cum ar fi Ancheta Socială Generală (GSS), cu o sursă de date sociale, cum ar fi Twitter. Pentru o comparație amănunțită și atentă între sondajele tradiționale și datele media sociale, a se vedea Schober et al. (2016) .
Aceste 10 caracteristici ale datelor importante au fost descrise într-o varietate de moduri diferite de o varietate de autori diferiți. Scrierea care mi-a influențat gândirea pe aceste probleme include Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , și Goldstone and Lupyan (2016) .
În acest capitol, am folosit termenul de urme digitale , care cred că este relativ neutru. Un alt termen popular pentru urme digitale este amprentele digitale (Golder and Macy 2014) , dar, după cum subliniază Hal Abelson, Ken Ledeen și Harry Lewis (2008) , un termen mai potrivit este probabil amprentele digitale . Când creați amprente, sunteți conștienți de ceea ce se întâmplă și amprentele dvs. nu pot fi văzute personal. Același lucru nu este valabil pentru urmele digitale. De fapt, părăsiți urmele tot timpul despre care aveți foarte puține cunoștințe. Și, deși aceste urme nu au numele tău pe ele, ele pot fi adesea legate de tine. Cu alte cuvinte, ele sunt mai degrabă ca amprentele digitale: identificarea invizibilă și personală.
Pentru mai multe informații privind motivele pentru care seturile de date mari fac teste statistice problematice, consultați M. Lin, Lucas, and Shmueli (2013) și McFarland and McFarland (2015) . Aceste aspecte ar trebui să conducă cercetătorii să se concentreze mai degrabă asupra semnificației practice decât asupra semnificației statistice.
Pentru mai multe informații despre modul în care Raj Chetty și colegii au obținut acces la fișele fiscale, consultați Mervis (2014) .
Seturile de date mari pot crea, de asemenea, probleme de calcul care sunt, în general, dincolo de capacitățile unui singur computer. Prin urmare, cercetătorii care efectuează calcule pe seturi de date mari răspândesc deseori lucrarea pe mai multe computere, proces denumit uneori programare paralelă . Pentru o introducere în programarea paralelă, în special o limbă numită Hadoop, a se vedea Vo and Silvia (2016) .
Atunci când luați în considerare datele întotdeauna pe date, este important să vă gândiți dacă comparați exact aceiași oameni în timp sau dacă comparați un grup de persoane care se schimbă; vezi, de exemplu, Diaz et al. (2016) .
O carte clasică despre măsurile nereactive este Webb et al. (1966) . Exemplele din această carte predomină epoca digitală, dar acestea sunt încă luminoase. Pentru exemple de oameni care își schimbă comportamentul din cauza prezenței supravegherii în masă, a se vedea Penney (2016) și Brayne (2014) .
Reactivitatea este strâns legată de ceea ce cercetătorii numesc efecte ale cererii (Orne 1962; Zizzo 2010) și efectul Hawthorne (Adair 1984; Levitt and List 2011) .
Pentru mai multe legături înregistrate, a se vedea Dunn (1946) și Fellegi and Sunter (1969) (istoric) și Larsen and Winkler (2014) (moderne). Abordări similare s-au dezvoltat și în domeniul informaticii sub numele de deduplicare de date, identificare de instanță, potrivire de nume, detecție duplicat și detecție duplicat de înregistrări (Elmagarmid, Ipeirotis, and Verykios 2007) . Există, de asemenea, abordări care protejează intimitatea pentru a înregistra legături care nu necesită transmiterea informațiilor personale de identificare (Schnell 2013) . Facebook a dezvoltat, de asemenea, un proces pentru a-și lega înregistrările la comportamentul voturilor; acest lucru a fost făcut pentru a evalua un experiment despre care vă voi spune în capitolul 4 (Bond et al. 2012; Jones et al. 2013) .
Pentru mai multe despre validitatea constructului, vezi capitolul 3 al Shadish, Cook, and Campbell (2001) .
Pentru mai multe detalii despre debacolul jurnalului de căutare AOL, consultați Ohm (2010) . Vă ofer sfaturi despre parteneriatul cu companii și guverne în capitolul 4 când descriu experimentele. Un număr de autori și-au exprimat îngrijorarea cu privire la cercetarea care se bazează pe date inaccesibile, a se vedea Huberman (2012) și boyd and Crawford (2012) .
O modalitate de bună pentru cercetătorii universității pentru a dobândi accesul la date este de a lucra la o companie ca intern sau cercetător aflat în vizită. În plus față de a permite accesul la date, acest proces va ajuta, de asemenea, cercetătorul a afla mai multe despre modul în care a fost creat date, ceea ce este important pentru analiză.
În ceea ce privește accesul la datele guvernamentale, Mervis (2014) discută modul în care Raj Chetty și colegii au obținut acces la registrele fiscale utilizate în cercetarea lor privind mobilitatea socială.
Pentru mai multe detalii despre istoria "reprezentativității" ca concept, a se vedea Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) și Kruskal and Mosteller (1980) .
Rezumatele mele despre munca lui Snow și despre munca lui Doll and Hill au fost scurte. Pentru mai multe despre munca lui Snow pe holera, vezi Freedman (1991) . Pentru mai multe detalii despre studiul doctorilor britanici vezi Doll et al. (2004) și Keating (2014) .
Mulți cercetători vor fi surprinși să afle că, deși Doll și Hill au colectat date de la medici și de la medici sub 35 de ani, ei nu au folosit în mod intenționat aceste date în prima lor analiză. Așa cum au susținut: "Deoarece cancerul pulmonar este relativ rar la femei și bărbați sub 35 ani, cifrele utile sunt puțin probabil să fie obținute în aceste grupuri pentru câțiva ani care vor veni. În acest raport preliminar ne-am limitat atenția la bărbații în vârstă de 35 de ani și peste. " Rothman, Gallacher, and Hatch (2013) , care are titlul provocator" De ce reprezentativitatea trebuie evitată ", fac un argument mai general pentru valoarea crearea în mod intenționat a unor date nereprezentative.
Non-reprezentativitatea este o problemă majoră pentru cercetători și guverne care doresc să facă declarații despre o întreagă populație. Acest lucru este mai puțin o preocupare pentru companii, care sunt în mod obișnuit axate pe utilizatorii lor. Pentru mai multe informații despre modul în care statisticile Țările de Jos consideră că problema de nereprezentativitate a datelor de afaceri este mare, a se vedea Buelens et al. (2014) .
Pentru exemple de cercetători care exprimă îngrijorarea cu privire la caracterul nereprezentativ al unor mari surse de date, consultați boyd and Crawford (2012) , K. Lewis (2015b) și Hargittai (2015) .
Pentru o comparație mai detaliată a obiectivelor anchetelor sociale și a cercetărilor epidemiologice, a se vedea Keiding and Louis (2016) .
Pentru mai multe informații despre încercările de a utiliza Twitter pentru a generaliza generalizările despre alegători, în special cazul din alegerile germane din 2009, a se vedea Jungherr (2013) și Jungherr (2015) . În urma lucrării lui Tumasjan et al. (2010) cercetătorii din întreaga lume au folosit metode mai apreciate - cum ar fi utilizarea analizei sentimentului pentru a distinge între mențiunile pozitive și negative ale părților - pentru a îmbunătăți capacitatea datelor din Twitter de a prezice o varietate de tipuri diferite de alegeri (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Iată cum a rezumat Huberty (2015) rezultatele acestor încercări de a prezice alegerile:
"Toate metodele cunoscute de prognoză bazate pe mediile sociale au eșuat atunci când au fost supuse cerințelor unei previziuni electorale prospective. Aceste eșecuri par să se datoreze mai degrabă unor proprietăți fundamentale ale mediilor sociale, decât unor dificultăți metodologice sau algoritmice. Pe scurt, social media nu, și probabil niciodată nu va oferi, o imagine stabilă, imparțială și reprezentativă a electoratului; și eșantioanele de confort din mass-media sociale nu dispun de date suficiente pentru a remedia aceste probleme post-hoc. "
În capitolul 3, voi descrie eșantionarea și estimarea cu mult mai multe detalii. Chiar dacă datele nu sunt reprezentative, în anumite condiții, ele pot fi ponderate pentru a produce estimări bune.
Desprinderea sistemului este foarte greu de văzut din exterior. Cu toate acestea, proiectul MovieLens (discutat mai mult în capitolul 4) a fost lansat de mai mult de 15 ani de către un grup de cercetare academică. Astfel, au fost capabili să documenteze și să împărtășească informații despre modul în care sistemul a evoluat de-a lungul timpului și cum ar putea avea o analiză de impact (Harper and Konstan 2015) .
Un număr de cercetători s-au concentrat pe derivarea în Twitter: Liu, Kliman-Silver, and Mislove (2014) și Tufekci (2014) .
O abordare a gestionării driftului populației este crearea unui grup de utilizatori, care permite cercetătorilor să studieze aceiași oameni în timp, a se vedea Diaz et al. (2016) .
Am auzit pentru prima oară termenul "confuzie algoritmică" folosit de Jon Kleinberg într-o discuție, dar, din păcate, nu-mi amintesc când și unde a fost vorbit. Prima dată când am văzut termenul tipărit era în Anderson et al. (2015) , care este o discuție interesantă despre modul în care algoritmii folosiți de site-urile de dating ar putea complica capacitatea cercetătorilor de a folosi datele de pe aceste site-uri pentru a studia preferințele sociale. Această preocupare a fost ridicată de K. Lewis (2015a) ca răspuns la Anderson et al. (2014) .
În plus față de Facebook, Twitter recomandă, de asemenea, utilizatorilor să urmeze pe baza ideii de închidere triadică; vezi Su, Sharma, and Goel (2016) . Deci, nivelul de închidere triadică în Twitter este o combinație a unei tendințe umane spre închiderea triadică și a unei tendințe algoritmice de a promova închiderea triadică.
Pentru mai multe despre performanțe - în special ideea că unele teorii ale științelor sociale sunt "motoare care nu sunt camere" (adică modelează lumea mai degrabă decât descrie-o) - vezi Mackenzie (2008) .
Agențiile statistice guvernamentale solicită date de curățare a datelor statistice de editare . De Waal, Puts, and Daas (2014) descriu tehnicile de editare a datelor statistice elaborate pentru datele anchetei și analizează măsura în care sunt aplicabile surselor mari de date, iar Puts, Daas, and Waal (2015) prezintă unele dintre aceleași idei un public mai general.
Pentru o prezentare generală a boților sociali, a se vedea Ferrara et al. (2016) . Pentru câteva exemple de studii axate pe găsirea de spam în Twitter, a se vedea Clark et al. (2016) și Chu et al. (2012) . În cele din urmă, Subrahmanian et al. (2016) descriu rezultatele DARPA Twitter Bot Challenge, o colaborare în masă concepută pentru a compara abordările pentru detectarea bots pe Twitter.
Ohm (2015) analizează cercetările anterioare privind ideea de informații sensibile și oferă un test cu mai mulți factori. Cei patru factori pe care îi propune sunt magnitudinea răului, probabilitatea de rău, prezența unei relații confidențiale și dacă riscul reflectă preocupările majoritare.
Studiul lui Farber privind taxiurile din New York sa bazat pe un studiu anterior realizat de Camerer et al. (1997) care a utilizat trei mostre diferite de hârtie de foi de hârtie. Acest studiu anterior a constatat că șoferii păreau a fi beneficiari țintă: au lucrat mai puțin pe zile în care salariile lor erau mai mari.
În activitatea ulterioară, regele și colegii au explorat în continuare cenzura on-line în China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pentru o abordare similară a măsurării cenzurii online în China, a se vedea Bamman, O'Connor, and Smith (2012) . Pentru mai multe informații despre metodele statistice, cum ar fi cele folosite în King, Pan, and Roberts (2013) pentru a estima sentimentul celor 11 milioane de posturi, consultați Hopkins and King (2010) . Pentru mai multe despre învățarea supravegheată, a se vedea James et al. (2013) (mai puțin tehnice) și Hastie, Tibshirani, and Friedman (2009) (mai tehnice).
Prognoza este o mare parte a științei datelor industriale (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tip de prognoză care se face în mod obișnuit de către cercetătorii sociali este prognoza demografică; a se vedea, de exemplu, Raftery et al. (2012) .
Google Gripa Trends nu a fost primul proiect care utilizează datele de căutare pentru prevalența gripei nowcast. De fapt, cercetătorii din Statele Unite (Polgreen et al. 2008; Ginsberg et al. 2009) și Suedia (Hulth, Rydevik, and Linde 2009) au constatat că anumiți termeni de căutare (de exemplu, "gripa" înainte de data eliberării. Ulterior multe, multe alte proiecte au încercat să utilizeze date de urmărire digitală pentru depistarea bolii; vezi Althouse et al. (2015) pentru o examinare.
În plus față de utilizarea datelor digitale de urmărire pentru a anticipa rezultatele în domeniul sănătății, a existat, de asemenea, o cantitate uriașă de lucru prin utilizarea datelor din Twitter pentru a prezice rezultatele alegerilor; pentru Gayo-Avello (2011) vezi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capitolul 7) și Huberty (2015) . Nowcastingul indicatorilor economici, cum ar fi produsul intern brut (PIB), este de asemenea comun în băncile centrale, a se vedea Bańbura et al. (2013) . tabelul 2.8 include câteva exemple de studii care folosesc un fel de urme digitale pentru a prezice un eveniment în lume.
Trasare digitală | Rezultat | Citare |
---|---|---|
Stare de nervozitate | Venituri de filme din SUA pentru filme | Asur and Huberman (2010) |
Căutați jurnale | Vânzări de filme, muzică, cărți și jocuri video în SUA | Goel et al. (2010) |
Stare de nervozitate | Dow Jones Industrial Average (piața de valori din SUA) | Bollen, Mao, and Zeng (2011) |
Social media și jurnalele de căutare | Anchete privind sentimentul investitorilor și piețele bursiere din Statele Unite, Marea Britanie, Canada și China | Mao et al. (2015) |
Căutați jurnale | Prevalența febrei dengue în Singapore și Bangkok | Althouse, Ng, and Cummings (2011) |
În cele din urmă, Jon Kleinberg și colegii săi (2015) au subliniat faptul că problemele de prognoză se împart în două categorii subtil diferite și că oamenii de știință socială au tendința să se concentreze pe una și să ignore cealaltă. Imaginați-vă că un polițist o voi numi pe Anna, care se confruntă cu o secetă și trebuie să decidă dacă să angajeze un șaman pentru a face un dans de ploaie pentru a crește șansele de ploaie. Un alt factor de decizie, o voi numi Betty, trebuie să decidă dacă să ia o umbrelă pentru a lucra pentru a evita să se ude pe drumul spre casă. Atât Anna, cât și Betty pot lua o decizie mai bună dacă înțeleg vremea, dar trebuie să știe lucruri diferite. Anna trebuie să înțeleagă dacă ploaia dansului provoacă ploaie. Betty, pe de altă parte, nu trebuie să înțeleagă nimic despre cauzalitate; ea are nevoie doar de o prognoză corectă. Cercetătorii sociali se concentrează adesea asupra problemelor de genul celor cu care se confruntă Anna - pe care Kleinberg și colegii o numesc "probleme de dans pline de ploaie" - deoarece implică probleme de cauzalitate. Întrebări precum cea cu care se confruntă Betty - pe care Kleinberg și colegii o numesc "probleme de tip" umbrelă "- pot fi destul de importante, dar au primit mult mai puțină atenție din partea cercetătorilor sociali.
Jurnalul PS Political Science a avut un simpozion pe marile date, inferența cauzală și teoria formală, iar Clark and Golder (2015) rezumă fiecare contribuție. Jurnalul Proceedings al Academiei Naționale de Științe a Statelor Unite ale Americii a avut un simpozion privind inferența cauzală și date mari, iar Shiffrin (2016) rezumă fiecare contribuție. Pentru abordările de învățare mecanică care încearcă să descopere în mod automat experimentele naturale din interiorul unor mari surse de date, a se vedea Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , și Sharma, Hofman, and Watts (2016) .
În ceea ce privește experimentele naturale, Dunning (2012) oferă un tratament introductiv, de lungă durată, cu multe exemple. Pentru o viziune sceptică a experimentelor naturale, a se vedea Rosenzweig and Wolpin (2000) (economie) sau Sekhon and Titiunik (2012) (știința politică). Deaton (2010) și Heckman and Urzúa (2010) susțin că focalizarea pe experimentele naturale poate determina cercetătorii să se concentreze asupra estimării efectelor de cauzalitate neimportante; Imbens (2010) contracarează aceste argumente cu o viziune mai optimistă asupra valorii experimentelor naturale.
Când descriu modul în care un cercetător ar putea merge de la estimarea efectului de a fi proiectat la efectul de servire, descrieam o tehnică numită variabile instrumentale . Imbens and Rubin (2015) , în capitolele lor 23 și 24, oferă o introducere și folosesc modelul de loterie ca exemplu. Efectul serviciului militar asupra complianților este denumit uneori efectul cauzal mediu al compilatorului (CAcE) și, uneori, efectul mediu de tratament local (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) și Bollen (2012) oferă recenzii privind utilizarea variabilelor instrumentale în științele politice, economie și sociologie, iar Sovey and Green (2011) evaluarea studiilor folosind variabile instrumentale.
Se pare că proiectul loteriei din 1970 nu a fost, de fapt, randomizat corespunzător; au existat mici abateri de la puritatea aleatorie (Fienberg 1971) . Berinsky and Chatfield (2015) susțin că această mică abatere nu este importantă din punct de vedere material și discută importanța unei randomizări efectuate în mod corespunzător.
În ceea ce privește potrivirea, a se vedea Stuart (2010) pentru o revizuire optimistă și Sekhon (2009) pentru o revizuire pesimistă. Pentru mai multe despre potrivirea ca un fel de tăiere, a se vedea Ho et al. (2007) . Găsirea unei singure potriviri perfecte pentru fiecare persoană este adesea dificilă, ceea ce introduce o serie de complexități. În primul rând, când meciurile exacte nu sunt disponibile, cercetătorii trebuie să decidă cum să măsoare distanța dintre două unități și dacă o anumită distanță este suficient de apropiată. O a doua complexitate apare dacă cercetătorii doresc să utilizeze mai multe potriviri pentru fiecare caz în grupul de tratament, deoarece acest lucru poate duce la estimări mai precise. Ambele aspecte, precum și altele, sunt descrise în detaliu în capitolul 18 din Imbens and Rubin (2015) . A se vedea și partea a II-a ( ??? ) .
A se vedea Dehejia and Wahba (1999) pentru un exemplu în care metode de potrivire au fost capabile să producă estimări similare cu cele dintr-un experiment controlat randomizat. Dar, vedeți Arceneaux, Gerber, and Green (2006) și Arceneaux, Gerber, and Green (2010) pentru exemple în care metodele de potrivire nu au reușit să reproducă un punct de referință experimental.
Rosenbaum (2015) și Hernán and Robins (2016) oferă alte sfaturi pentru a descoperi comparații utile în cadrul unor mari surse de date.