Një lloj observimi që nuk përfshihet në këtë kapitull është etnografia. Për më shumë mbi etnografinë në hapësirat digjitale, shih Boellstorff et al. (2012) , dhe për më shumë mbi etnografinë në hapësira të përziera digjitale dhe fizike, shih Lane (2016) .
Nuk ka asnjë përkufizim të vetëm të konsensusit të "të dhënave të mëdha", por shumë përkufizime duket se përqëndrohen në "3 Vs": vëllimi, ndryshueshmëria dhe shpejtësia (p.sh., Japec et al. (2015) ). Shih De Mauro et al. (2015) për një rishikim të përkufizimeve.
Përfshirja ime e të dhënave administrative të qeverisë në kategorinë e të dhënave të mëdha është pak e pazakontë, edhe pse të tjerë e kanë bërë këtë rast, përfshirë Legewie (2015) , Connelly et al. (2016) dhe Einav and Levin (2014) . Për më shumë rreth vlerës së të dhënave administrative të qeverisë për hulumtim, shih Card et al. (2010) , Adminstrative Data Taskforce (2012) , dhe Grusky, Smeeding, and Snipp (2015) .
Për një pamje të hulumtimeve administrative nga sistemi statistikor i qeverisë, veçanërisht Zyra e Regjistrimit të SHBA-së, shih Jarmin and O'Hara (2016) . Për një trajtim të gjërë të librit të hulumtimeve të regjistrimeve administrative në Statistikat e Suedisë, shih Wallgren and Wallgren (2007) .
Në kapitull, unë përmblodha shkurtimisht një studim tradicional siç është Sondazhi i Përgjithshëm Social (GSS) me një burim të të dhënave të mediave sociale si Twitter. Për një krahasim të plotë dhe të kujdesshëm në mes të anketimeve tradicionale dhe të dhënave të mediave sociale, shih Schober et al. (2016) .
Këto 10 karakteristika të të dhënave të mëdha janë përshkruar në mënyra të ndryshme nga një shumëllojshmëri autorësh të ndryshëm. Shkrimi që ndikoi në të menduarit tim për këto çështje përfshin Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dhe Goldstone and Lupyan (2016) .
Gjatë gjithë këtij kapitulli, unë kam përdorur termin gjurmë digjitale , të cilat mendoj se është relativisht neutrale. Një term tjetër popullor për gjurmët digjitale është gjurmët dixhitale (Golder and Macy 2014) , por siç theksojnë Hal Abelson, Ken Ledeen dhe Harry Lewis (2008) , një term më i përshtatshëm është ndoshta shenjat digjitale të gishtërinjve . Kur krijoni gjurmët e këmbëve, jeni të vetëdijshëm për atë që po ndodh dhe gjurmët e këmbëve nuk mund të gjurmohen përgjithësisht tek ju personalisht. E njëjta gjë nuk është e vërtetë për gjurmët tuaja digjitale. Në fakt, po lini gjurmë gjatë gjithë kohës për të cilën keni shumë pak njohuri. Dhe, edhe pse këto gjurmë nuk e kanë emrin tuaj, ata shpesh mund të lidhen me ju. Me fjalë të tjera, ato janë më shumë si shenjat e gishtërinjve: të padukshme dhe identifikimin personal.
Për më shumë, pse bazat e të dhënave të mëdha i bëjnë testimet statistikore problematike, shih M. Lin, Lucas, and Shmueli (2013) dhe McFarland and McFarland (2015) . Këto çështje duhet të çojnë studiuesit të përqendrohen në domethënie praktike sesa në rëndësinë statistikore.
Për më shumë rreth asaj se si Raj Chetty dhe kolegët fituan qasje në të dhënat e taksave, shih Mervis (2014) .
Datasets të mëdha gjithashtu mund të krijojnë probleme kompjuterike që përgjithësisht janë përtej aftësive të një kompjuteri të vetëm. Prandaj, hulumtuesit që bënin llogaritjet në grupet e të dhënave të mëdha shpesh përhapin punën në shumë kompjuterë, një proces i quajtur ndonjëherë programimi paralel . Për një hyrje në programimin paralel, në veçanti një gjuhë të quajtur Hadoop, shih Vo and Silvia (2016) .
Kur merren parasysh të dhënat gjithmonë e më të rëndësishme, është e rëndësishme të shqyrtojmë nëse po i krahasoni njerëzit e njëjtë me kalimin e kohës ose nëse po krahasoni disa njerëz që ndryshojnë grupin; shih për shembull, Diaz et al. (2016) .
Një libër klasik mbi masat jo reaktive është Webb et al. (1966) . Shembujt në atë libër paragjykojnë moshën digjitale, por ato ende janë duke ndriçuar. Për shembuj të njerëzve që ndryshojnë sjelljen e tyre për shkak të pranisë së mbikqyrjes masive, shih Penney (2016) dhe Brayne (2014) .
Reaktiviteti është i lidhur ngushtë me atë që kërkuesit e quajnë efektet e kërkesës (Orne 1962; Zizzo 2010) dhe efektin e Hawthorne (Adair 1984; Levitt and List 2011) .
Për më shumë rreth lidhjes rekord, shih Dunn (1946) dhe Fellegi and Sunter (1969) (historike) dhe Larsen and Winkler (2014) (moderne). Qasje të ngjashme janë zhvilluar në shkenca kompjuterike nën emra të tillë si deduplikimi i të dhënave, identifikimi i shembullit, përputhja e emrit, zbulimi i kopjimit dhe zbulimi i kopjimit të dokumenteve (Elmagarmid, Ipeirotis, and Verykios 2007) . Ekzistojnë gjithashtu qasje të ruajtjes së privatësisë për lidhjen e rekordeve që nuk kërkojnë transmetimin e informacionit personal identifikues (Schnell 2013) . Facebook gjithashtu ka zhvilluar një proces që lidh të dhënat e tyre me sjelljen e votimit; kjo është bërë për të vlerësuar një eksperiment që do t'ju tregoj në kapitullin 4 (Bond et al. 2012; Jones et al. 2013) .
Për më shumë në ndërtimin e vlefshmërisë, shih kapitullin 3 të Shadish, Cook, and Campbell (2001) .
Për më shumë në debaclën e regjistrimit të kërkimit të AOL, shihni Ohm (2010) . Unë ofroj këshilla rreth partneritetit me kompanitë dhe qeveritë në kapitullin 4 kur i përshkruaj eksperimentet. Një numër autorësh kanë shprehur shqetësime rreth kërkimit që mbështetet në të dhënat e paarritshme, shih Huberman (2012) dhe boyd and Crawford (2012) .
Një mënyrë e mirë për studiuesit e universitetit për të marrë qasje të dhënave është për të punuar në një kompani si praktikant apo studiues vizitor. Përveç mundësuar qasje të dhënave, ky proces do të ndihmojë gjithashtu studiues të mësuar më shumë rreth asaj se si u krijua e të dhënave, e cila është e rëndësishme për analizë.
Sa i përket qasjes në të dhënat e qeverisë, Mervis (2014) diskuton se si Raj Chetty dhe kolegët fituan qasjen në të dhënat e taksave të përdorura në hulumtimin e tyre mbi mobilitetin social.
Për më shumë mbi historinë e "përfaqësimit" si koncept, shih Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1980) .
Përmbledhjet e mia të punës së Snow dhe puna e Doll dhe Hill ishin të shkurtër. Për më shumë në punën e Snow për kolerën, shih Freedman (1991) . Për më shumë në Studimin e Mjekëve Britanikë shihni Doll et al. (2004) dhe Keating (2014) .
Shumë studiues do të befasohen kur do të mësojnë se edhe pse Doll dhe Hill kishin mbledhur të dhëna nga mjekët femra dhe nga mjekët nën moshën 35 vjeç, ata në mënyrë të qëllimshme nuk i përdorën këto të dhëna në analizën e tyre të parë. Ndërsa argumentonin: "Meqenëse kanceri i mushkërive është relativisht i rrallë tek gratë dhe burrat nën moshën 35 vjeçare, shifrat e dobishme nuk kanë gjasa të merren në këto grupe për disa vite të ardhshme. Në këtë raport paraprak ne kemi kufizuar vëmendjen tonë tek burrat e moshës 35 vjeç e lart. " Rothman, Gallacher, and Hatch (2013) , që ka titullin provokues" Pse përfaqësimi duhet të shmanget ", të bëjë një argument më të përgjithshëm për vlerën e duke krijuar qëllimisht të dhëna jo-përfaqësuese.
Mos përfaqësimi është një problem i madh për kërkuesit dhe qeveritë që dëshirojnë të bëjnë deklarata për një popullsi të tërë. Kjo është më pak shqetësuese për kompanitë, të cilat zakonisht fokusohen tek përdoruesit e tyre. Për më shumë rreth asaj se si Hollanda e Statistikave e konsideron çështjen e mos përfaqësimit të të dhënave të mëdha të biznesit, shih Buelens et al. (2014) .
Për shembujt e hulumtuesve që shprehin shqetësim për natyrën jo-përfaqësuese të burimeve të mëdha të të dhënave, shih boyd and Crawford (2012) , K. Lewis (2015b) dhe Hargittai (2015) .
Për një krahasim më të detajuar të synimeve të sondazheve sociale dhe hulumtimeve epidemiologjike, shih Keiding and Louis (2016) .
Për më shumë në përpjekjet për të përdorur Twitter për të bërë përgjithësime jashtë zgjedhjes rreth votuesve, veçanërisht rastin nga zgjedhjet gjermane të vitit 2009, shih Jungherr (2013) dhe Jungherr (2015) . Pas punës së Tumasjan et al. (2010) studiuesit anembanë botës kanë përdorur metoda më të njohura - të tilla si përdorimi i analizës së ndjenjave për të dalluar mes përmendjeve pozitive dhe negative të palëve - në mënyrë që të përmirësohet aftësia e të dhënave të Twitter-it për të parashikuar një shumëllojshmëri të llojeve të ndryshme të zgjedhjeve (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ja se si Huberty (2015) përmblodhi rezultatet e këtyre përpjekjeve për të parashikuar zgjedhjet:
"Të gjitha metodat e njohura të parashikimit të bazuara në mediat sociale kanë dështuar kur u nënshtrohen kërkesave të parashikimit të vërtetë elektoral të parashikimit. Këto dështime duket të jenë për shkak të vetive themelore të mediave sociale, në vend të vështirësive metodologjike ose algoritmike. Me pak fjalë, mediat sociale nuk bëjnë dhe ndoshta kurrë nuk do të ofrojnë një pamje të qëndrueshme, të paanshme, përfaqësuese të elektoratit; dhe mostrat e lehtësirave të mediave sociale nuk kanë të dhëna të mjaftueshme për të zgjidhur këto probleme pas hoc ".
Në kapitullin 3, unë do të përshkruaj mostrimin dhe vlerësimin në detaje shumë më të mëdha. Edhe nëse të dhënat nuk janë përfaqësuese, në kushte të caktuara ato mund të peshohen për të prodhuar vlerësime të mira.
Driftet e sistemit janë shumë të vështira për t'u parë nga jashtë. Megjithatë, projekti MovieLens (diskutuar më shumë në kapitullin 4) është drejtuar për më shumë se 15 vjet nga një grup kërkimor akademik. Kështu, ata kanë qenë në gjendje të dokumentojnë dhe ndajnë informacion mbi mënyrën se si sistemi ka evoluar me kalimin e kohës dhe se si kjo mund të ndikojë në analizë (Harper and Konstan 2015) .
Një numër studiuesish janë përqëndruar në domethënie në Twitter: Liu, Kliman-Silver, and Mislove (2014) dhe Tufekci (2014) .
Një qasje për t'u marrë me domethënien e popullsisë është krijimi i një paneli të përdoruesve, që lejon hulumtuesit të studiojnë të njëjtët njerëz me kalimin e kohës, shih Diaz et al. (2016) .
Së pari dëgjoja termin "algoritmikisht të hutuar" të përdorur nga Jon Kleinberg në një diskutim, por fatkeqësisht nuk mbaj mend kur dhe ku u dha fjalimi. Herën e parë që pashë termin në shtyp ishte në Anderson et al. (2015) , e cila është një diskutim interesant se si algoritmet e përdorura nga faqet e takimeve mund të komplikojnë mundësinë e hulumtuesve për të përdorur të dhënat nga këto faqet e internetit për të studiuar preferencat sociale. Ky shqetësim u ngrit nga K. Lewis (2015a) në përgjigje të Anderson et al. (2014) .
Përveç Facebook, Twitter gjithashtu rekomandon njerëzit që përdoruesit të ndjekin duke u bazuar në idenë e mbylljes triadike; shih Su, Sharma, and Goel (2016) . Pra, niveli i mbylljes triadike në Twitter është një kombinim i një tendence njerëzore ndaj mbylljes triada dhe disa tendenca algoritmike për të nxitur mbylljen triadike.
Për më shumë në performativitet - në veçanti idenë se disa teori të shkencave shoqërore janë «motorë jo kamera» (dmth. Ata e formësojnë botën më shumë sesa thjesht ta përshkruajnë atë) - shih Mackenzie (2008) .
Agjencitë shtetërore statistikore e quajnë të dhënat e pastrimit të të dhënave statistikore redaktimi . De Waal, Puts, and Daas (2014) përshkruajnë teknikat e redaktimit të të dhënave statistikore të zhvilluara për të dhënat e sondazhit dhe ekzaminojnë shkallën në të cilën ato janë të zbatueshme për burimet e mëdha të të dhënave, dhe Puts, Daas, and Waal (2015) paraqesin disa nga idetë e njëjta për një audiencë më të përgjithshme.
Për një vështrim të përgjithshëm të botëve sociale, shih Ferrara et al. (2016) . Për disa shembuj të studimeve të fokusuara në gjetjen e spam në Twitter, shih Clark et al. (2016) dhe Chu et al. (2012) . Së fundmi, Subrahmanian et al. (2016) përshkruajnë rezultatet e DARPA Twitter Bot Challenge, një bashkëpunim masiv i dizajnuar për të krahasuar qasjet për zbulimin e botëve në Twitter.
Ohm (2015) rishikon hulumtimet e mëparshme mbi idenë e informacionit të ndjeshëm dhe ofron një test me shumë faktorë. Katër faktorët që ai propozon janë madhësia e dëmit, mundësia e dëmit, prania e një marrëdhënieje konfidenciale dhe nëse rreziku reflekton shqetësimet e shumicës.
Studimi i Farber mbi taksitë në Nju Jork u bazua në një studim më të hershëm të Camerer et al. (1997) që përdorën tre mostra të ndryshme të lehtësimit të fletëve të udhëtimit të letrës. Ky studim i mëparshëm zbuloi se shoferët duket se ishin njerëz që synonin: ata punonin më pak në ditët ku pagat e tyre ishin më të larta.
Në punën e mëpasshme, King dhe kolegët kanë hulumtuar më tej censurën në internet në Kinë (King, Pan, and Roberts 2014, [@king_how_2016] ) . Për një qasje të lidhur me matjen e censurës në internet në Kinë, shih Bamman, O'Connor, and Smith (2012) . Për më shumë mbi metodat statistikore si ajo e përdorur në King, Pan, and Roberts (2013) për të vlerësuar ndjenjën e 11 milion postimeve, shih Hopkins and King (2010) . Për më shumë mbi mësimin e mbikëqyrur, shih James et al. (2013) (më pak teknike) dhe Hastie, Tibshirani, and Friedman (2009) (më teknike).
Parashikimi është një pjesë e madhe e shkencës së të dhënave industriale (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Një lloj parashikimi që kryhet zakonisht nga hulumtuesit social është parashikimi demografik; shih, për shembull, Raftery et al. (2012) .
Trendet e gripit të Google nuk ishte projekti i parë për të përdorur të dhënat e kërkimit për prevalencën aktuale të gripit. Në fakt, hulumtuesit në Shtetet e Bashkuara (Polgreen et al. 2008; Ginsberg et al. 2009) dhe Suedia (Hulth, Rydevik, and Linde 2009) kanë gjetur se disa terma të kërkimit (p.sh. "grip") parashikojnë mbikëqyrjen kombëtare të shëndetit publik të dhënat përpara se të liroheshin. Më pas, shumë projekte të tjera janë përpjekur të përdorin të dhëna dixhitale gjurmë për zbulimin e mbikëqyrjes së sëmundjes; shih Althouse et al. (2015) për një shqyrtim.
Përveç përdorimit të të dhënave digjitale të gjurmëve për të parashikuar rezultatet e shëndetit, ka pasur gjithashtu një sasi të madhe të punës duke përdorur të dhënat e Twitter-it për të parashikuar rezultatet e zgjedhjeve; për shqyrtimet shih Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapitulli 7), dhe Huberty (2015) . Shfaqja e treguesve ekonomikë, siç është produkti i brendshëm bruto (PBB), është gjithashtu i zakonshëm në bankat qendrore, shih Bańbura et al. (2013) . tabela 2.8 përfshin disa shembuj të studimeve që përdorin një lloj gjurmë dixhital për të parashikuar një lloj ngjarjeje në botë.
Gjurmë digjitale | rezultat | citim |
---|---|---|
Cicëroj | Të ardhurat nga kinematë e filmave në SHBA | Asur and Huberman (2010) |
Kërkoni shkrimet | Shitjet e filmave, muzikës, librave dhe videove në SHBA | Goel et al. (2010) |
Cicëroj | Dow Jones Industrial Average (tregu i aksioneve në SHBA) | Bollen, Mao, and Zeng (2011) |
Mediat sociale dhe regjistrat e kërkimit | Sondazhet e ndjenjave të investitorëve dhe tregjet e aksioneve në Shtetet e Bashkuara, Mbretëria e Bashkuar, Kanadaja dhe Kina | Mao et al. (2015) |
Kërkoni shkrimet | Përhapja e Ethet e Dengutit në Singapor dhe Bangkok | Althouse, Ng, and Cummings (2011) |
Së fundmi, Jon Kleinberg dhe kolegët (2015) kanë vënë në dukje se problemet e parashikimit bien në dy kategori subtly të ndryshme dhe se shkencëtarët socialë kanë prirjen të përqendrohen në një dhe të injorojnë tjetrën. Imagjinoni një krijues të politikave, unë do ta quaj Anna e saj, e cila po përballet me një thatësirë dhe duhet të vendosë nëse do të punësojë një shaman për të bërë një valë shiu për të rritur mundësinë e shiut. Një tjetër krijues i politikave, unë do ta quaj Betty e saj, duhet të vendosë nëse do të marrë një ombrellë për të punuar për të mos u lagur në rrugën e shtëpisë. Si Anna dhe Betty mund të marrin një vendim më të mirë nëse e kuptojnë motin, por duhet të dinë gjëra të ndryshme. Anna duhet të kuptojë nëse vallëzimi shiu shkakton shi. Betty, nga ana tjetër, nuk ka nevojë të kuptojë asgjë për shkakun; ajo vetëm ka nevojë për një parashikim të saktë. Studiuesit social shpesh përqendrohen në problemet si ajo me të cilën përballet Anna, e cila Kleinberg dhe kolegët e quajnë "probleme të kërcimit të shiut", sepse ato përfshijnë pyetje të kauzalitetit. Pyetje si ai me të cilin ballafaqohet Betty, që Kleinberg dhe kolegët e quajnë "probleme ombrellë" të politikave, mund të jenë shumë të rëndësishme, por kanë marrë shumë më pak vëmendje nga hulumtuesit socialë.
Gazeta PS Shkenca Politike pati një simpozium mbi të dhënat e mëdha, konkluzionet shkakësore dhe teorinë formale, dhe Clark and Golder (2015) përmbledhin çdo kontribut. Procesi i revistës së Akademisë Kombëtare të Shkencave të Shteteve të Bashkuara të Amerikës kishte një simpozium për përfundimin shkakor dhe të dhëna të mëdha dhe Shiffrin (2016) përmbledh çdo kontribut. Për qasjet e mësimit të makinës që përpiqen të zbulojnë automatikisht eksperimentet natyrore brenda burimeve të mëdha të të dhënave, shih Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , dhe Sharma, Hofman, and Watts (2016) .
Sa i përket eksperimenteve natyrore, Dunning (2012) ofron një trajtim hyrës, gjatë librit me shumë shembuj. Për një pamje skeptike të eksperimenteve natyrore, shih Rosenzweig and Wolpin (2000) (ekonomikë) ose Sekhon and Titiunik (2012) (shkenca politike). Deaton (2010) dhe Heckman and Urzúa (2010) argumentojnë se përqendrimi në eksperimentet natyrore mund të çojë kërkuesit të përqendrohen në vlerësimin e efekteve kauzale të parëndësishme; Imbens (2010) numëron këto argumente me një pikëpamje më optimiste për vlerën e eksperimenteve natyrore.
Kur përshkruam se si një studiues mund të dilte nga vlerësimi i efektit të hartimit të efektit të shërbimit, unë përshkrova një teknikë të quajtur variabla instrumentalë . Imbens and Rubin (2015) , në kapitujt e tyre 23 dhe 24, ofrojnë një hyrje dhe përdorin lotarinë projekt si një shembull. Efekti i shërbimit ushtarak ndaj zbatuesve nganjëherë quhet efekti i shkaktuar mesatare (CAcE) dhe nganjëherë efekti i trajtimit mesatar lokal (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , dhe Bollen (2012) ofrojnë shqyrtime të përdorimit të variablave instrumentalë në shkencat politike, ekonomike dhe sociologjike, dhe Sovey and Green (2011) vlerësimi i studimeve duke përdorur variabla instrumentalë.
Rezulton se drafti i projektligjit të vitit 1970 nuk ishte, në të vërtetë, siç duhet në mënyrë të rastësishme; ka pasur devijime të vogla nga rastësia e pastër (Fienberg 1971) . Berinsky and Chatfield (2015) argumentojnë se ky devijim i vogël nuk është thelbësisht i rëndësishëm dhe të diskutojë rëndësinë e randomizimit të kryer siç duhet.
Në kushtet e përputhjes, shih Stuart (2010) për një rishikim optimist dhe Sekhon (2009) për një rishikim pesimist. Për më shumë rreth përputhjes si një lloj shkurtimi, shih Ho et al. (2007) . Gjetja e një ndeshjeje të përsosur të përsosur për çdo person është shpesh e vështirë, dhe kjo paraqet një numër kompleksish. Së pari, kur ndeshjet e sakta nuk janë të disponueshme, studiuesit duhet të vendosin se si të matin distancën mes dy njësive dhe nëse një distancë e caktuar është mjaft e ngushtë. Një kompleksitet i dytë lind nëse studiuesit duan të përdorin ndeshje të shumëfishta për secilin rast në grupin e trajtimit, pasi kjo mund të çojë në vlerësime më të sakta. Të dyja këto çështje, si dhe të tjera, përshkruhen në detaje në kapitullin 18 të Imbens and Rubin (2015) . Shih gjithashtu Pjesën II të ( ??? ) .
Shih Dehejia and Wahba (1999) për një shembull ku metodat e përputhjes ishin në gjendje të prodhonin vlerësime të ngjashme me ato nga një eksperiment i kontrolluar me randomizim. Por, shih Arceneaux, Gerber, and Green (2006) dhe Arceneaux, Gerber, and Green (2010) për shembuj ku metodat e përputhjes nuk arritën të riprodhonin një pikë referimi eksperimentale.
Rosenbaum (2015) dhe Hernán and Robins (2016) ofrojnë këshilla të tjera për zbulimin e krahasimeve të dobishme brenda burimeve të mëdha të të dhënave.