Az egyik ilyen megfigyelés, amely nem szerepel ebben a fejezetben, a néprajz. A digitális terekről szóló néprajzról bővebben lásd Boellstorff et al. (2012) , valamint a vegyes digitális és fizikai terek etnográfiájával kapcsolatban lásd: Lane (2016) .
A "nagy adatok" egyetlen konszenzus definíciója sem létezik, de sok meghatározás a "3 Vs" -ra koncentrálódik: a kötet, a változatosság és a sebesség (pl. Japec et al. (2015) ). Lásd De Mauro et al. (2015) a definíciók felülvizsgálatához.
A kormányzati adminisztratív adatoknak a nagy adatok kategóriájába való felvétele egy kicsit szokatlan, bár mások is ezt tették, beleértve a Legewie (2015) , Connelly et al. (2016) és Einav and Levin (2014) . További információ a kormányzati adminisztratív adatok értékéről a kutatáshoz lásd: Card et al. (2010) , az Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) és a Grusky, Smeeding, and Snipp (2015) .
A kormányzati statisztikai rendszeren belül, különösen az Egyesült Államok Népszámlálási Hivatalán belüli adminisztratív kutatások tekintetében lásd: Jarmin and O'Hara (2016) . A statisztikákról szóló adminisztratív nyilvántartási kutatások könyv szerinti kezelésére lásd Wallgren and Wallgren (2007) .
A fejezetben röviden összehasonlítottam egy olyan hagyományos felmérést, mint például az Általános szociális felmérés (GSS) egy olyan közösségi médiaadatforrással, mint a Twitter. A hagyományos felmérések és a közösségi médiaadatok alapos és körültekintő összehasonlítása érdekében lásd Schober et al. (2016) .
A nagy adatok 10 jellemzőjét számos különböző szerző írta le különböző módon. Írásom, amely befolyásolta a gondolkodásomat ezekre a kérdésekre magában foglalja Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) és Goldstone and Lupyan (2016) .
Ebben a fejezetben a digitális nyomok kifejezést használtam, amely szerintem viszonylag semleges. A digitális nyomok másik népszerű kifejezése a digitális lábnyom (Golder and Macy 2014) , de ahogy Hal Abelson, Ken Ledeen és Harry Lewis (2008) rámutat, egy megfelelő kifejezés valószínűleg digitális ujjlenyomat . Amikor lábnyomokat hoz létre, tudatában van annak, hogy mi történik, és a lábnyomokat általában nem lehet személyesen nyomon követni. Ugyanez nem igaz a digitális nyomatokra. Valójában mindig nyomokat hagysz, amelyekről nagyon kevés ismerettel rendelkezel. És bár ezek a nyomok nem rendelkeznek velük a nevükön, gyakran visszavezethetők hozzád. Más szavakkal, inkább hasonlítanak ujjlenyomatokra: láthatatlanok és személyesen azonosítóak.
További információ arról, hogy a nagyméretű adatkészletek milyen problémákat M. Lin, Lucas, and Shmueli (2013) statisztikai tesztekkel kapcsolatban. Lásd M. Lin, Lucas, and Shmueli (2013) , McFarland and McFarland (2015) . Ezeknek a kérdéseknek arra kell ösztönözniük a kutatókat, hogy inkább a gyakorlati jelentőségre koncentráljanak, mint statisztikai jelentőséggel.
Ha többet szeretne arról, hogy Raj Chetty és munkatársai hozzáférést kaptak az adóbevallásokhoz, lásd Mervis (2014) .
A nagyméretű adatkészletek olyan számítóproblémákat is létrehozhatnak, amelyek általában egyetlen számítógép képességein kívül esnek. Ezért a nagy adathalmazokra vonatkozó számításokat végző kutatók gyakran terjesztik a munkát sok számítógépen, egy olyan folyamatot, amelyet néha párhuzamos programozásnak neveznek. A párhuzamos programozáshoz, különösen a Hadoop nevű nyelvhez való bevezetéshez lásd Vo and Silvia (2016) .
A folyamatos adatok figyelembevételével fontos megfontolni, hogy összehasonlítja-e ugyanazokat az embereket az idő múlásával, vagy összehasonlít-e valamilyen változó embercsoportot; lásd például Diaz et al. (2016) .
A klasszikus könyv a nem reagáló intézkedésekről Webb et al. (1966) . A könyvben szereplő példák a digitális korszak előzményeit élvezik, de még mindig megvilágítják. Példák az emberek viselkedésére a tömeges megfigyelés miatt, lásd Penney (2016) és Brayne (2014) .
A reaktivitás szorosan összefügg azzal, amit a kutatók a keresleti hatásoknak neveznek (Orne 1962; Zizzo 2010) és a Hawthorne-hatás (Adair 1984; Levitt and List 2011) .
További részletek a Dunn (1946) és Fellegi and Sunter (1969) (történelmi) és Larsen and Winkler (2014) (modern) című Larsen and Winkler (2014) . Hasonló módszereket fejlesztettek ki a számítástechnikában olyan nevek mellett, mint az adatok deduplikációja, a példány azonosítása, a (Elmagarmid, Ipeirotis, and Verykios 2007) kettős észlelés és a rekordok felismerése (Elmagarmid, Ipeirotis, and Verykios 2007) . Vannak olyan magánélet-megőrző megközelítések is, amelyek rögzítik a kapcsolatot, amelyek nem igénylik a személyazonosításra alkalmas adatok továbbítását (Schnell 2013) . A Facebook kidolgozott egy eljárást is, amely összekapcsolja rekordjaikat a szavazati magatartással; Ezt a kísérletet a 4. fejezetben ismertetem (Bond et al. 2012; Jones et al. 2013) .
A konstrukciós érvényességről további információt a Shadish, Cook, and Campbell (2001) 3. fejezetében Shadish, Cook, and Campbell (2001) .
További információ az AOL keresési naplójában az Ohm (2010) . Tájékoztatást adok a vállalatokkal és a kormányokkal való partnerségről a 4. fejezetben, amikor leírok kísérleteket. Számos szerző aggodalmát fejezte ki a nem hozzáférhető adatokon alapuló kutatással kapcsolatban, lásd Huberman (2012) és boyd and Crawford (2012) .
Egy jó módja az egyetemi kutatók számára, hogy megszerezzék az adatokhoz való hozzáférést, hogy a munka egy cég, mint gyakornok, vagy látogató kutató. Amellett, hogy lehetővé teszi az adatokhoz való hozzáférést, ez a folyamat is segít a kutató többet megtudni az adatok jött létre, ami fontos az elemzéshez.
Ami a kormányzati adatokhoz való hozzáférést illeti, Mervis (2014) megvitatja, hogy Raj Chetty és munkatársai hozzáférést kaptak a társadalmi mobilitással kapcsolatos kutatásuk során használt adóbevallásokhoz.
A "reprezentativitás" koncepciójának történetét lásd Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1980) .
Összefoglaltam a Snow munkáját és a Doll és a Hill munkáját. További információ a hó munkájáról a koleráról lásd Freedman (1991) . A brit orvosok tanulmányozásáról bővebben lásd Doll et al. (2004) és Keating (2014) .
Sok kutató meglepődne, ha megtudja, hogy bár a Doll és a Hill a női orvosoktól és a 35 év alatti orvosoktól származó adatokat gyűjtött, szándékosan nem használták ezeket az adatokat első elemzésükben. Ahogy azt állították: "Mivel a tüdõrák viszonylag ritka a nõk és a 35 évnél fiatalabb férfiak esetében, az elkövetkezõ években nem valószínű, hogy hasznos adatokat kapnának ezeken a csoportokban. Ebben az előzetes jelentésben ezért csak a 35 évesnél idősebb férfiakra koncentráltuk figyelmünket. " Rothman, Gallacher, and Hatch (2013) , amely provokatív címmel" Miért kell reprezentativitást elkerülni "? szándékosan nem reprezentatív adatok létrehozását.
A nem reprezentativitás komoly problémát jelent a kutatók és a kormányok számára, akik nyilatkozni kívánnak egy teljes lakosságról. Ez kevésbé vonatkozik a vállalatokra, amelyek jellemzően a felhasználókra összpontosítanak. Ha többet szeretne arról, hogy a statisztikák Hollandia a nagyméretű adatok nem reprezentativitásának kérdését vizsgálja, lásd Buelens et al. (2014) .
A nagy adatforrások nem reprezentatív jellegét illetően kutatók példáit lásd: boyd and Crawford (2012) , K. Lewis (2015b) és Hargittai (2015) .
A társadalmi felmérések és az epidemiológiai kutatások céljainak részletesebb összehasonlítása érdekében lásd Keiding and Louis (2016) .
Ha többet szeretne megtudni a Twitter használatáról a Jungherr (2013) körében a szavazók körében, különösen a 2009-es német választásokon, lásd Jungherr (2013) és Jungherr (2015) . Tumasjan et al. (2010) kutatói szerte a világon olyan kedvelt módszereket használtak - például a hangulatelemzés használatával, hogy megkülönböztessék a felek pozitív és negatív említéseit - annak érdekében, hogy javítsák a Twitter adatoknak a különféle választási típusok (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Így foglalta össze Huberty (2015) a választások előrejelzésére irányuló kísérletek eredményeit:
"A társadalmi médián alapuló összes ismert előrejelzési módszer sikertelen volt, amikor a valódi előretekintő választási előrejelzésekre támaszkodtak. Ezek a kudarcok a szociális média alapvető tulajdonságainak tulajdoníthatók, nem pedig módszertani vagy algoritmikus nehézségeknek. Röviden, a szociális média nem, és valószínűleg soha nem fog felajánlani egy stabil, elfogulatlan, reprezentatív képet a választókról; és a közösségi média kényelmes mintái nem elegendőek ahhoz, hogy ezeket a problémákat utólagosan orvosolják. "
A 3. fejezetben részletesen bemutatom a mintavételt és a becslést. Még akkor is, ha az adatok nem reprezentatívak, bizonyos feltételek mellett súlyozhatják, hogy jó becsléseket készítsenek.
A rendszer driftjét nagyon nehéz látni kívülről. Azonban a MovieLens projekt (a 4. fejezetben részletesebben tárgyalt) egy tudományos kutatócsoport több mint 15 éve működik. Így képesek dokumentálni és megosztani az információkat a rendszernek az idővel kialakult módjáról, és hogyan befolyásolhatja az elemzést (Harper and Konstan 2015) .
Számos tudós koncentrált a Twitteren: Liu, Kliman-Silver, and Mislove (2014) és Tufekci (2014) .
A lakossági sodródás kezelésének egyik megközelítési módja egy olyan felhasználói csoport létrehozása, amely lehetővé teszi a kutatók számára, hogy ugyanazokat az embereket tanulmányozzák időben, lásd Diaz et al. (2016) .
Először hallottam Jon Kleinberg által használt "algoritmikusan zavarodott" kifejezést, de sajnos nem emlékszem, mikor, vagy amikor a beszédet adták. Az első alkalommal, amikor láttam a nyomtatott kifejezést, Anderson et al. (2015) , amely érdekes vitát jelent arról, hogy a társkereső oldalak által alkalmazott algoritmusok hogyan bonyolíthatják a kutatók azon képességét, hogy ezeket a weboldalakat használják a társadalmi preferenciák tanulmányozására. Ezt a problémát K. Lewis (2015a) felvetette Anderson et al. (2014) .
A Facebook mellett a Twitter azt is ajánlja az embereknek, hogy kövessék a triadikus lezárás alapját; lásd Su, Sharma, and Goel (2016) . Tehát a triadikus bezárás szintje a Twitteren egyfajta emberi tendencia a triadikus lezárás és az algoritmikus hajlam arra, hogy előmozdítsák a triadikus lezárást.
Többet is a performativitásról - különösen azt az elképzelést, hogy egyes társadalomtudományi elméletek "motorok nem kamerák" (azaz inkább a világot formálják, nem csak leírják) - mondja Mackenzie (2008) .
A statisztikai statisztikai ügynökségek statisztikai adatszerkesztési adatokat tisztítanak. De Waal, Puts, and Daas (2014) a felmérési adatokra kidolgozott statisztikai adatszerkesztési technikákat írják le, és megvizsgálják, hogy milyen mértékben alkalmazhatók a nagy adatforrásokra, és a Puts, Daas, and Waal (2015) ugyanazokat az ötleteket mutatják be egy általánosabb közönség.
A szociális botok áttekintéséhez lásd: Ferrara et al. (2016) . Néhány példa arra a vizsgálatra, melynek célja a spam feltárása a Twitteren, lásd Clark et al. (2016) és Chu et al. (2012) . Végül Subrahmanian et al. (2016) leírják a DARPA Twitter Bot Challenge eredményeit, a tömeges együttműködést, melynek célja, hogy összehasonlítsa a robotok felfedezésének módszereit a Twitteren.
Ohm (2015) áttekintette az érzékeny információk fogalmát, és többfaktoros tesztet kínál. Az általa javasolt négy tényező az ártalom nagysága, az ártalom valószínűsége, a bizalmas kapcsolat jelenléte és a kockázata a többségi kérdéseket tükrözi.
Farber tanulmánya a Camerer et al. (1997) New York-ban egy Camerer et al. (1997) , amely három különbözõ papíradagoló lapból álló kényelmes mintát használt. Ez a korábbi tanulmány megállapította, hogy a gépjárművezetők célzottan keresők: kevesebbet dolgoztak azon napokon, amikor a béreik magasabbak voltak.
A későbbi munkák során a király és munkatársai tovább vizsgálják az online cenzúrát Kínában (King, Pan, and Roberts 2014, [@king_how_2016] ) . Az online cenzúra Kínában történő mérésére vonatkozó megközelítéssel kapcsolatban lásd: Bamman, O'Connor, and Smith (2012) . Bővebben a statisztikai módszerekről, mint például a King, Pan, and Roberts (2013) , a 11 millió hozzászólás érzésének becsléséhez lásd Hopkins and King (2010) . A felügyelt tanulásról bővebben lásd James et al. (2013) (kevésbé technikai) és Hastie, Tibshirani, and Friedman (2009) (több technikai).
Az előrejelzés nagy része az ipari adat tudománynak (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . A társadalmi kutatók által közösen végzett előrejelzés egyik típusa a demográfiai előrejelzés; lásd például Raftery et al. (2012) .
A Google Influenzatrendek nem az első olyan projekt, amely a keresési adatokat a mostani influenza előfordulási gyakoriságra alkalmazza. Valójában az Egyesült Államok kutatói (Polgreen et al. 2008; Ginsberg et al. 2009) és Svédország (Hulth, Rydevik, and Linde 2009) azt találták, hogy bizonyos keresési kifejezések (pl. adatok kiadása előtt. Ezt követően számos, sok más projekt megpróbált digitális nyomon követési adatokat felhasználni a betegség megfigyelésére; lásd Althouse et al. (2015) felülvizsgálatra.
A digitális nyomkövetési adatok felhasználása mellett az egészségügyi eredmények megjósolása mellett hatalmas mennyiségű munkát végeztek a Twitter adatok felhasználásával a választási eredmények megjóslásához; a Gayo-Avello (2011) , a Gayo-Avello (2013) , a Jungherr (2015) (7. fejezet) és a Huberty (2015) . A gazdasági mutatók - mint például a bruttó hazai termék (GDP) - bemutatása ugyancsak gyakori a központi bankokban, lásd Bańbura et al. (2013) . a 2.8. táblázat néhány példát tartalmaz olyan tanulmányokra, amelyek valamilyen digitális nyomot használnak arra, hogy megjósolják valamilyen eseményt a világon.
Digitális nyomvonal | Eredmény | Idézet |
---|---|---|
Filmek forgalma az USA-ban | Asur and Huberman (2010) | |
Keresési naplók | Filmek, zenék, könyvek és videojátékok értékesítése az Egyesült Államokban | Goel et al. (2010) |
Dow Jones ipari átlag (amerikai részvénypiac) | Bollen, Mao, and Zeng (2011) | |
Közösségi média és keresési napló | Az Egyesült Államokban, az Egyesült Királyságban, Kanadában és Kínában a befektetői érzelmek és részvénypiacok felmérése | Mao et al. (2015) |
Keresési naplók | A dengue-láz előfordulása Szingapúrban és Bangkokban | Althouse, Ng, and Cummings (2011) |
Végezetül Jon Kleinberg és munkatársai (2015) rámutattak arra, hogy az előrejelzési problémák két, teljesen más kategóriába esnek, és a társadalomtudósok inkább az egyikre koncentrálnak, és nem veszik figyelembe a másikat. Képzeld el, hogy egy politikai döntéshozó, hívom Anna-nek, aki szárazsággal néz szembe, és el kell döntenie, hogy felvesz egy sámánt, hogy esőtáblát tegyen, hogy növelje az eső esélyét. Egy másik politikai döntéshozó, hívom Betty-nek, el kell döntenie, hogy dolgozik-e egy esernyőn, nehogy nedves legyen a hazafelé. Anna és Betty is jobb döntést hozhatnak, ha megértik az időjárást, de különböző dolgokat kell tudniuk. Annanek meg kell értenie, hogy az eső tánc esőt okoz. Betty viszont nem kell semmit megértenie az okságról; csak pontos előrejelzésre van szüksége. A társadalomtudósok gyakran olyan problémákra összpontosítanak, mint Anna, amely Kleinberg és kollégái "eső-táncszerű" politikai problémáknak nevezik - mert az oksági kérdésekkel foglalkoznak. Olyan kérdések, mint például a Bettyé - amely Kleinberg és munkatársai "esernyőszerű" politikai problémáknak nevezik - nagyon fontosak lehetnek, de a társadalmi kutatók sokkal kevesebb figyelmet kaptak.
A PS Political Science folyóiratban a nagy adatok, az oksági következtetés és a formális elmélet szimpóziummal rendelkeztek, Clark and Golder (2015) összegezik az egyes hozzászólásokat. Az Amerikai Egyesült Államok Nemzeti Tudományos Akadémia folyóirata az ok-okozati következtetésről és a nagy adatokról szóló szimpóziummal foglalkozott, és Shiffrin (2016) összegzi az egyes hozzászólásokat. A gépi tanulási módszerek esetében, amelyek megpróbálják automatikusan felfedezni a nagy adatforrásokon belüli természetes kísérleteket, lásd Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , valamint Sharma, Hofman, and Watts (2016) .
Természetes kísérletekben a Dunning (2012) bevezető, könyvhosszú kezelést nyújt számos példával. A természetes kísérletek szkeptikus megítéléséről lásd Rosenzweig and Wolpin (2000) (közgazdaságtan) vagy Sekhon and Titiunik (2012) (politikai tudomány). Deaton (2010) és Heckman and Urzúa (2010) azt állítják, hogy a természetes kísérletekre összpontosítva a kutatók arra koncentrálhatnak, hogy a jelentéktelen okozati hatások becslésére összpontosítsanak; Imbens (2010) ezeket az érveket a természeti kísérletek értékének optimistabb szemléletével Imbens (2010) .
Amikor leírtam, hogy egy kutató hogyan tudna megbecsülni a kiszolgálás hatását a kiszolgálás hatására, leírtam egy instrumentális változóknak nevezett technikát. Imbens and Rubin (2015) a 23. és 24. fejezetben bemutatják és példaként használják a sorsolás tervezetét. A katonai szolgálat kollégákra gyakorolt hatását időnként az átlagos okozati hatásnak (CAcE) és néha a helyi átlagkezelési hatásnak (LATE) nevezik. Sovey and Green (2011) , Angrist and Krueger (2001) , valamint Bollen (2012) a politikai tudományok, a közgazdaságtan és a szociológia instrumentális változói használatának felülvizsgálatát, valamint a Sovey and Green (2011) "olvasó ellenőrzési listáját" értékelések tanulmányozása instrumentális változók segítségével.
Kiderült, hogy az 1970-es lottójáték-tervezet nem volt valójában rendesen véletlenszerűen; kis eltérések voltak a tiszta véletlenszerűségtől (Fienberg 1971) . Berinsky and Chatfield (2015) azt állítja, hogy ez a kis eltérés nem lényegileg fontos, és megvitatja a megfelelően végrehajtott randomizáció fontosságát.
Ami a megfeleltetést illeti, lásd Stuart (2010) egy optimista áttekintéshez, és Sekhon (2009) pesszimista áttekintés céljából. Ha többet szeretne egyfajta metszésről, lásd Ho et al. (2007) . Gyakran nehéz megtalálni a tökéletes illeszkedést minden egyes ember számára, és számos bonyolultságot mutat be. Először is, ha a pontos egyezések nem állnak rendelkezésre, a kutatóknak el kell dönteniük, hogyan kell a két egység közötti távolságot mérni, és ha egy adott távolság elég közel van. A második összetettség akkor merül fel, ha a kutatók a kezelési csoport minden egyes esetére többszörös mérkőzést szeretnének használni, mivel ez pontosabb becsléseket eredményezhet. Mindkét kérdést, valamint másokat részletesen ismertetjük Imbens and Rubin (2015) 18. fejezetében. Lásd még a ( ??? ) II. Részét.
Lásd Dehejia and Wahba (1999) egy példát, ahol az összehasonlító módszerek képesek voltak olyan becsléseket készíteni, amelyek hasonlóak a randomizált, kontrollos kísérlethez. De lásd Arceneaux, Gerber, and Green (2006) és Arceneaux, Gerber, and Green (2010) példákat, ahol a megfelelő módszerek nem tudtak reprodukálni egy kísérleti referenciaértéket.
Rosenbaum (2015) és Hernán and Robins (2016) további tanácsokat kínálnak a nagy adatforrások közötti hasznos összehasonlítás felfedezéséhez.