Ez a szakasz célja, hogy kell használni, mint a referencia, ahelyett, hogy kell értelmezni, mint egy elbeszélés.
Az egyik fajta megjegyezve, hogy nem szerepel ebben a fejezetben az etnográfia. További néprajzi digitális térben látni Boellstorff et al. (2012) , és több néprajzi vegyes digitális és fizikai térben látni Lane (2016) .
Ha repurposing adatokat, két mentális trükköket, amelyek segítenek megérteni a lehetséges problémákat, hogy lehet találkozni. Először is, próbáld meg elképzelni az ideális adatbázisba a problémát, és a összehasonlítani, hogy az adatbázisba, amit használ. Hogy vannak hasonló és miben különböznek? Ha nem kérünk adatokat magad, akkor valószínűleg lesz különbség, amit akar, és mit tud. De, el kell döntenie, ha ezek a különbségek kisebb vagy nagyobb.
Másodszor, ne feledje, hogy valaki létrehozta és összegyűjtött adatait valamilyen okból. Meg kell próbálnunk megérteni a érvelés. Ez a fajta fordított mérnöki segíthet azonosítani a lehetséges problémákat és torzítások a repurposed adatokat.
Nincs egyetlen konszenzus meghatározása "nagy adat", de sok definíciókat úgy tűnik, hogy összpontosítson a 3V: mennyiség, fajta, és a sebesség (pl Japec et al. (2015) ). Ahelyett, összpontosítva az adatok jellemzőit, a definíció inkább a miért az adatokat hoztak létre.
Saját felvételét kormány adminisztratív adatok belsejében a kategóriába nagy adatmennyiség egy kicsit szokatlanul. Voltak, akik ebben az esetben tartalmaznia Legewie (2015) , Connelly et al. (2016) , és Einav and Levin (2014) . Ha többet szeretne megtudni az értékét kormány adminisztratív adatok kutatási lásd Card et al. (2010) , Taskforce (2012) , és Grusky, Smeeding, and Snipp (2015) .
Egy néző közigazgatási kutatások belülről a kormány statisztikai rendszer, különösen a US Census Bureau, lásd Jarmin and O'Hara (2016) . Egy könyv hosszúságú kezelés a közigazgatási nyilvántartások kutatás Svéd Statisztikai lásd Wallgren and Wallgren (2007) .
A fejezetben röviden szemben a hagyományos felmérésben, mint a General Social Survey (GSS), hogy a szociális média adatforrást, mint a Twitter. Egy alapos és gondos összehasonlítása hagyományos felmérések és a szociális média adatokat lásd Schober et al. (2016) .
Ezek a 10 jellemzőit nagy adatok írtak le a különböző módokon, különböző szerzők. Az írás, amely befolyásolta a gondolkodásom a következő kérdések: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , és a Goldstone and Lupyan (2016) .
Ebben a fejezetben már használta ezt a kifejezést digitális nyomokat, ami szerintem viszonylag semleges. Egy másik népszerű kifejezés digitális nyomok digitális lábnyom (Golder and Macy 2014) , de a Hal Abelson, Ken Ledeen, és Harry Lewis (2008) rámutatnak, egy megfelelőbb kifejezés talán ujjlenyomatot. Amikor létrehoz lábnyomok, akkor tisztában vannak azzal, hogy mi történik, és a lábnyomokat általában nem vezethető neked személyesen. Ugyanez nem igaz a digitális nyomokat. Sőt, akkor hagy nyomot az idő amiről nagyon keveset tudnak. És bár ezek a nyomok nem neved rajtuk, gyakran kapcsolódnak vissza hozzád. Más szóval, ezek több mint ujjlenyomatok: láthatatlanul és személyazonosításra.
Nagy
További miért nagy adathalmazok, tehetik statisztikai tesztek problematikus, lásd Lin, Lucas, and Shmueli (2013) és McFarland and McFarland (2015) . Ezeket a kérdéseket kell vezetnie a kutatók, hogy összpontosítson a gyakorlati jelentősége, nem pedig statisztikai jelentősége.
Always-on
Ha figyelembe vesszük, always-on adatok, fontos, hogy fontoljuk meg, hogy összehasonlítjuk a pontosan ugyanolyan emberek idővel, illetve attól, hogy összehasonlítjuk néhány változó embercsoport; lásd például Diaz et al. (2016) .
Nem reaktív
A klasszikus könyv nem reaktív intézkedések Webb et al. (1966) . A példák a könyv előtti időpont, amikor a digitális korban, de még mindig világító. Példákat az emberek változtatják meg magatartásukat, mert a tömeg jelenléte megfigyelés, lásd Penney (2016) és Brayne (2014) .
Befejezetlen
További rekord kapcsolatot, lásd Dunn (1946) és Fellegi and Sunter (1969) (historical) és Larsen and Winkler (2014) (modern). Hasonló közeledett is kifejlesztettek a számítástechnikában néven, például adatduplikáció, például azonosítás, egyezik, kettős érzékelés, és többszörös rekord érzékelés (Elmagarmid, Ipeirotis, and Verykios 2007) . Vannak még adatvédelmi megőrzése megközelítések felvenni kapcsolatot, amelyek nem igénylik a továbbítását, személyazonosításra alkalmas információkat (Schnell 2013) . Facebook is kifejlesztett egy folytassa kapcsolni a nyilvántartások választói magatartás; ez megtörtént, hogy értékelje egy kísérletet, hogy én megmondom, mi a 4. fejezetben (Bond et al. 2012; Jones et al. 2013) .
További információért a konstrukció érvényességét, lásd Shadish, Cook, and Campbell (2001) , 3. fejezet.
Megközelíthetetlen
Az inkább a AOL keresési napló összeomlás, lásd Ohm (2010) . Én tanácsot adnak partneri vállalatok és a kormányok a 4. fejezetben amikor leírom kísérletek. Számos szerző aggodalmukat fejezték ki a kutatás, amely támaszkodik a megközelíthetetlen adatokat lásd Huberman (2012) és boyd and Crawford (2012) .
Egy jó módja az egyetemi kutatók számára, hogy megszerezzék az adatokhoz való hozzáférést, hogy a munka egy cég, mint gyakornok, vagy látogató kutató. Amellett, hogy lehetővé teszi az adatokhoz való hozzáférést, ez a folyamat is segít a kutató többet megtudni az adatok jött létre, ami fontos az elemzéshez.
Nem reprezentatív
Nem reprezentativitás egyik fő probléma a kutatók és a kormányok, akik szeretnék, hogy nyilatkozatokat a teljes lakosság számára. Ez kevésbé aggályos a vállalatok, amelyek jellemzően összpontosít a felhasználók számára. További hogyan Holland Statisztikai megvizsgálja a kérdést, nem reprezentativitása üzleti nagy adatokat lásd Buelens et al. (2014) .
A 3. fejezetben fogom leírni mintavételi és becslési sokkal részletesebben. Még ha az adatok nem reprezentatív, bizonyos feltételek mellett, akkor lehet súlyozni, hogy készítsen jó becsléseket.
Sodródás
Rendszer sodródás nagyon nehéz látni kívülről. Azonban a MovieLens projekt (részletesebben tárgyaljuk a 4. fejezetben) már fut több mint 15 éve egy akadémiai kutatócsoport. Ezért az általuk dokumentált és a megosztott információkat az is, hogy a rendszer alakult ki az idők során, és hogyan lehet ezt hatáselemzés (Harper and Konstan 2015) .
Számos tudós középpontjában a drift Twitter: Liu, Kliman-Silver, and Mislove (2014) és Tufekci (2014) .
algoritmikusan átkozott
Először hallottam a "algoritmikusan zavarba" által használt Jon Kleinberg egy beszélgetés. A fő gondolata a performativitás, hogy egyes társadalomtudományi elméletek "motor nem fényképezőgép" (Mackenzie 2008) . Azaz, valójában formálja a világot, nem pedig csak megfogni.
Piszkos
Kormányzati statisztikai hivatalok hívja adattisztítás, a statisztikai adatok szerkesztését. De Waal, Puts, and Daas (2014) leírják a statisztikai adatok szerkesztési módszerekkel kifejlesztett felmérési adatok, és megvizsgálja, hogy milyen mértékben alkalmazhatók a nagy adatforrások és Puts, Daas, and Waal (2015) bemutat néhány azonos gondolatok általánosabb közönség.
Néhány példa a vizsgálatok középpontjában a spam Twitter, Clark et al. (2016) és a Chu et al. (2012) . Végül Subrahmanian et al. (2016) ismerteti az eredményeket a DARPA Twitter Bot Challenge.
Érzékeny
Ohm (2015) áttekinti a korábbi kutatások az elképzelést az érzékeny információk és kínál több tényező vizsgálata. A négy tényező azt javasolja a következők: annak a valószínűsége, kár; valószínűsége kár; jelenlétében bizalmas viszony; és hogy a kockázat tükrözik többségi aggályokat.
Farber tanulmánya taxik New Yorkban alapult egy korábbi tanulmány szerint Camerer et al. (1997) , amely három különböző kényelem minta papír utazás lap papír által használt üzleti vezetők rögzítésére utazás kezdete, és befejezési idő, és viteldíjat. Ez a korábbi tanulmány megállapította, hogy a vezetők úgy tűnt, hogy cél jövedelműek dolgoztak kevesebbet a napokon, amikor a bérek magasabbak voltak.
Kossinets and Watts (2009) összpontosított eredetét homofíliát a társadalmi hálózatok. Lásd Wimmer and Lewis (2010) egy másik megközelítése a probléma ugyanaz, amely felhasználja az adatokat a Facebook.
Az ezt követő munka, király és kollégái további vizsgálatát internetes cenzúra Kínában (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . A kapcsolódó megközelítés mérésére internetes cenzúra Kínában, lásd Bamman, O'Connor, and Smith (2012) . További statisztikai módszerek, mint egy használt King, Pan, and Roberts (2013) becslése hangulat a 11 millió álláshely, lásd Hopkins and King (2010) . További felügyelt tanulás, lásd James et al. (2013) (kevesebb technikai) és Hastie, Tibshirani, and Friedman (2009) (több technikai).
Az előrejelzés egy nagy része az ipari adatok tudomány (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Az egyik típusú előrejelzési hogy gyakran történik a szociális kutatók demográfiai előrejelzés, például Raftery et al. (2012) .
A Google Flu Trends nem volt az első olyan projekt, hogy a keresési adatokat nowcast influenza előfordulása. Tény, hogy a kutatók az Egyesült Államokban (Polgreen et al. 2008; Ginsberg et al. 2009) és Svédországban (Hulth, Rydevik, and Linde 2009) azt találták, hogy bizonyos keresési kifejezések (például "influenza") megjósolt nemzeti közegészségügyi felügyelet adatokat, mielőtt megjelent. Ezt követően sok-sok más projektek is próbálta használni a digitális nyomkövetési adatok betegségfelügyeleti kimutatására, lásd Althouse et al. (2015) felülvizsgálatát.
Amellett, hogy a digitális nyomkövetési adatok megjósolni egészségügyi eredmények ott is hatalmas mennyiségű munkát a Twitter adatok megjósolni a választási eredmények; továbbá áttekintést Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), és Huberty (2015) .
A keresési adatok előrejelzésére influenza előfordulása és a Twitter adatok megjósolni a választások egyaránt példák a valamilyen digitális nyoma megjósolni valamilyen esemény a világon. Van egy hatalmas számú tanulmány, amelyek az általános képletben. 2.5 táblázat tartalmaz néhány további példa.
digitális nyom | Eredmény | Idézet |
---|---|---|
Box office bevétel filmet az USA-ban | Asur and Huberman (2010) | |
Keresés naplók | Értékesítési filmek, zene, könyvek, és a videojátékok az USA-ban | Goel et al. (2010) |
Dow Jones Industrial Average (amerikai tőzsde) | Bollen, Mao, and Zeng (2011) |
A folyóirat PS politológia volt szimpóziumot nagy adatok, oksági következtetés, és a hivatalos elmélet, és Clark and Golder (2015) összefoglalja az egyes hozzájárulást. A folyóirat Proceedings of the National Academy of Sciences, az Egyesült Államok volt a szimpóziumon okozati következtetés és a nagy adat és Shiffrin (2016) összefoglalja az egyes hozzájárulást.
A természeti kísérletek Dunning (2012) kiváló könyv hosszúságú kezelést. Az inkább a vietnami tervezet lottó, mint egy természetes kísérlet, lásd Berinsky and Chatfield (2015) . A gépi tanulási megközelítések, hogy megkísérli automatikusan megkeresni természetes kísérletek belsejében nagy adatforrások Jensen et al. (2008) és Sharma, Hofman, and Watts (2015) .
Ami a megfelelő, egy optimista összefoglalást lásd Stuart (2010) , és egy pesszimista áttekintését lásd Sekhon (2009) . Az inkább illő, mint egyfajta metszés, lásd Ho et al. (2007) . Azon könyvek kiváló kezelések megfelelő, lásd Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , és Imbens and Rubin (2015) .