Dalsze komentarzem

Ten odcinek jest przeznaczony do stosowania jako odniesienie, a nie należy odczytywać jako narracji.

  • Wprowadzenie (sekcja 2.1)

Jeden rodzaj zauważając, że nie znajduje się w tym rozdziale jest etnografia. Więcej informacji na temat etnografii w przestrzeni cyfrowej patrz Boellstorff et al. (2012) , a więcej na etnografii w mieszanych przestrzeni cyfrowych i fizycznych patrz Lane (2016) .

  • Big Data (sekcja 2.2)

Kiedy przełożenie danych, istnieją dwie sztuczki umysłowe, które mogą pomóc zrozumieć ewentualne problemy, które można napotkać. Po pierwsze, można próbować wyobrazić sobie idealny zestaw danych dla problemu i porównać go do zbioru danych, którego używasz. Jak są one podobne i jak są one różne? Jeżeli nie udało się zebrać swoje dane, nie mogą być różnica między co chcesz i co masz. Ale, trzeba zdecydować, czy te różnice są niewielkie lub poważne.

Po drugie, należy pamiętać, że ktoś stworzył i pobiera dane z jakiegoś powodu. Należy starać się zrozumieć ich rozumowania. Tego typu reverse-engineering może pomóc zidentyfikować potencjalne problemy i uprzedzenia w swoim repurposed danych.

Nie ma jednej definicji konsensus "big data", ale wiele definicji zdają się skupiać na Vs 3: (np wielkość, różnorodność i szybkość Japec et al. (2015) ). Zamiast skupiać się na charakterystyce danych, moja definicja skupia się bardziej na dlaczego dane zostały utworzone.

Moja włączenie danych administracyjnych rządowych wewnątrz kategorii Big Data jest nieco nietypowo. Inni użytkownicy, którzy złożyli w tej sprawie, w tym Legewie (2015) , Connelly et al. (2016) , a Einav and Levin (2014) . Więcej informacji na temat wartości danych administracji rządowej w zakresie badań, patrz Card et al. (2010) , Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .

Przez widzenia badań administracyjną wewnątrz systemu statystycznego rządowych, szczególnie US Census Bureau, zobacz Jarmin and O'Hara (2016) . Dla leczenia długości książki badań statystycznych rejestrów administracyjnych w Szwecji, zobacz Wallgren and Wallgren (2007) .

W rozdziale krótko w porównaniu do tradycyjnego badania takie jak General Social Survey (GSS) ze źródłem danych mediów społecznościowych takich jak Twitter. Dla dokładnego i starannego porównania tradycyjnych badań i danych społecznościowych, zobacz Schober et al. (2016) .

  • Wspólne cechy dużych danych (sekcja 2.3)

Te cechy 10 dużych danych zostało opisane w wielu różnych sposobów, przez różnych autorów. Pisanie, że wpływ na moje myślenie na temat tych zagadnień należą: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) i Goldstone and Lupyan (2016) .

W niniejszym rozdziale, użyłem terminu śladów cyfrowych, co moim zdaniem jest dość neutralny. Innym popularnym terminem śladów cyfrowych jest Ślady cyfrowe (Golder and Macy 2014) , ale jak Hal Abelson Ken Ledeen i Harry Lewis (2008) podkreślają, bardziej odpowiednim terminem jest prawdopodobnie odciski cyfrowe. Podczas tworzenia śladów, jesteś świadomy tego, co się dzieje i twoje ślady, nie można na ogół przypisać do ciebie osobiście. Tego samego nie jest prawdziwe dla cyfrowych śladów. W rzeczywistości, są pozostawiania śladów przez cały czas, co do których masz bardzo małą wiedzę. I chociaż te ślady nie mają swoje nazwisko na nich, często mogą być powiązane z powrotem do Ciebie. Innymi słowy, są one bardziej jak odciski palców: niewidoczne i osobiście identyfikacji.

Duży

Więcej informacji na temat, dlaczego duże zbiory danych, czyni testy statystyczne problematyczne, zobacz Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Kwestie te powinny doprowadzić badaczy do skoncentrowania się na praktyczne znaczenie niż istotności statystycznej.

Zawsze włączone

Rozważając zawsze na danych, ważne jest, aby rozważyć, czy porównując te same osoby w miarę upływu czasu, czy też są jakieś porównanie zmieniającą się grupę ludzi; patrz, na przykład, Diaz et al. (2016) .

Nie reagujący

Klasyczna książka o środkach niereaktywnych jest Webb et al. (1966) . Przykłady w książce wstępnej daty ery cyfrowej, ale nadal są pouczające. Przykłady ludzi zmienia swoje zachowanie ze względu na obecność masowej kontroli patrz Penney (2016) i Brayne (2014) .

Niekompletny

Więcej informacji na temat nagrywania powiązania, zobacz Dunn (1946) i Fellegi and Sunter (1969) (historyczną) i Larsen and Winkler (2014) (modern). Podobny zbliżył zostały również opracowane w informatyce pod nazwami takimi jak deduplikacja danych, identyfikacji przykład pasującej nazwy, duplikować wykrywanie i wykrywanie duplikatów rekordu (Elmagarmid, Ipeirotis, and Verykios 2007) . Istnieją również zachowania prywatności podejść do nagrywania powiązania, które nie wymagają przekazywania informacji umożliwiających identyfikację (Schnell 2013) . Facebook też opracował postępować połączyć swoje rekordy do zachowań wyborczych; zrobiono to ocenić eksperyment, że powiem wam o w rozdziale 4 (Bond et al. 2012; Jones et al. 2013) .

Więcej informacji na temat ważności konstruktu, zobacz Shadish, Cook, and Campbell (2001) , rozdział 3.

Niedostępny

Więcej informacji na temat dziennika AOL wyszukiwania klęsce, zobacz Ohm (2010) . Oferuję informacje dotyczące współpracy z firmami i rządami w rozdziale 4, kiedy opisują eksperymenty. Szereg autorów wyraziło obawy co do badań, które opiera się na danych niedostępnych patrz Huberman (2012) i boyd and Crawford (2012) .

Dobrym sposobem naukowcy uniwersyteccy nabyć dostęp do danych jest pracować w firmie jako stażysta lub odwiedzając badacza. Oprócz umożliwienia dostępu do danych, proces ten pomoże również badacz dowiedzieć się więcej o tym, jak dane zostały utworzone, co jest istotne dla analizy.

Niereprezentatywnych

Non-reprezentatywność jest poważnym problemem dla naukowców i rządów, którzy chcą wypowiadać się na temat całej populacji. Jest to mniej niepokoju dla firm, które są zwykle koncentruje się na swoich użytkowników. Więcej informacji na temat sposobu Statystyki Holandia rozważa kwestię braku reprezentatywności biznesowych dużych danych, patrz Buelens et al. (2014) .

W rozdziale 3, opiszę pobieranie próbek i estymacji znacznie bardziej szczegółowo. Nawet, jeżeli dane nie są reprezentatywne, w pewnych warunkach mogą być ważone dostarczyć dobrych estymat.

drifting

Dryf system jest bardzo trudno zobaczyć z zewnątrz. Jednak projekt MovieLens (omówione w rozdziale 4) prowadzony jest przez ponad 15 lat przez akademickie grupy badawczej. Dlatego mają udokumentowane i udostępnione informacje na temat sposobu, w jaki system ewoluował w czasie i jak to może wpłynąć na analizę (Harper and Konstan 2015) .

Szereg badaczy skupiło się na dryf w Twitterze: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .

algorytmicznie confounded

Po raz pierwszy usłyszałem określenie "algorytmicznie przeklęty" wykorzystywane przez Jon Kleinberg w rozmowie. Ideą performatywności jest, że niektóre teorie nauki społeczne są "silniki nie kamery" (Mackenzie 2008) . Oznacza to, że właściwie kształtować świat, a nie tylko uchwycić go.

Brudny

Rządowe agencje statystyczne zadzwonić czyszczenie danych, statystycznych edycję danych. De Waal, Puts, and Daas (2014) opisują statystycznych technik edycji danych opracowanych na podstawie badań i zbadać, w jakim stopniu są one stosowane do dużych źródeł danych i Puts, Daas, and Waal (2015) przedstawia niektóre z tych samych pomysłów na bardziej ogólnej publiczności.

Dla niektórych przykładów badań skoncentrowanych na spam w Twitter, Clark et al. (2016) i Chu et al. (2012) . Wreszcie, Subrahmanian et al. (2016) opisuje wyniki DARPA Twitterze Bot Challenge.

Wrażliwy

Ohm (2015) Opinie wcześniejsze badania nad ideą poufnych informacji i oferuje test wieloczynnikowej. Cztery czynniki Proponuje się: prawdopodobieństwo wystąpienia szkody; prawdopodobieństwo wystąpienia szkody; Obecność związku poufnych; i czy ryzyko odzwierciedla większościowych obawy.

  • Liczenie rzeczy (§ 2.4.1)

Badanie Farber za taksówki w Nowym Jorku został oparty na wcześniejszym badaniu Camerer et al. (1997) , które wykorzystano trzy różne próbki wygody papieru trip-papierowych formularzy arkuszy używanych przez kierowców do rejestrowania czasu rozpoczęcia podróży, czas końca i taryfy. To wcześniejsze badania wykazały, że kierowcy wydawało się zarabiających docelowe: pracowali mniej na dni, gdy ich zarobki były wyższe.

Kossinets and Watts (2009) skupiła się na pochodzeniu homophily w sieciach społecznych. Zobacz Wimmer and Lewis (2010) dla innego podejścia do tego samego problemu, który wykorzystuje dane z Facebooka.

W późniejszych pracach, King i współpracownicy dokładniej zbadać cenzurę w Internecie w Chinach (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Dla powiązanego podejścia do mierzenia cenzurę w Internecie w Chinach, patrz Bamman, O'Connor, and Smith (2012) . Więcej informacji na temat metod statystycznych, jak ta stosowana w King, Pan, and Roberts (2013) w celu oszacowania sentyment 11 mln stanowisk, patrz Hopkins and King (2010) . Więcej informacji na temat uczenia nadzorowanego, zobacz James et al. (2013) (mniej techniczny) i Hastie, Tibshirani, and Friedman (2009) (bardziej techniczny).

  • Prognozowanie (sekcja 2.4.2)

Prognozowanie jest duża część science danych przemysłowych (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jeden rodzaj prognozowania, które są powszechnie wykonywane przez badaczy społecznych są prognozy demograficzne, np Raftery et al. (2012) .

Google Flu Trends nie był pierwszym projektem wykorzystać dane wyszukiwania, aby nowcast występowania grypy. W rzeczywistości, naukowcy w Stanach Zjednoczonych (Polgreen et al. 2008; Ginsberg et al. 2009) i Szwecji (Hulth, Rydevik, and Linde 2009) odkryli, że niektóre z wyszukiwanych haseł (np "grypa") przewidywane krajowe systemy nadzoru zdrowia publicznego dane zanim został zwolniony. Następnie wiele, wiele innych projektów próbowali wykorzystywać dane cyfrowe do wykrywania śladowych nadzoru choroby, patrz Althouse et al. (2015) o dokonanie przeglądu.

Oprócz korzystania z danych śledzenia cyfrowych do przewidzenia skutki zdrowotne, nastąpił również ogromna ilość pracy, z wykorzystaniem danych z Twittera, aby przewidzieć wyniki wyborów; opinii patrz Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (rozdz. 7) i Huberty (2015) .

Wykorzystując dane wyszukiwania do przewidywania występowania grypy i wykorzystanie danych Twitter przewidzieć wybory są przykładami przy użyciu pewnego rodzaju cyfrowego śladu przewidzieć jakieś wydarzenie w świecie. Istnieje ogromna liczba badań, które mają tę ogólną strukturę. Tabela 2.5 zawiera kilka innych przykładów.

Tabela 2.5: Częściowa lista badań użyć trochę cyfrowy ślad przewidzieć pewne zdarzenia.
cyfrowy śladu Wynik Cytat
Świergot Box office przychody filmów w USA Asur and Huberman (2010)
dzienniki wyszukiwania Sprzedaż filmów, muzyki, książek i gier wideo w USA Goel et al. (2010)
Świergot Dow Jones Industrial Average (US giełda) Bollen, Mao, and Zeng (2011)
  • Zbliżanie eksperymenty (sekcja 2.4.3)

Czasopismo PS Politologia miał sympozjum na temat wielkiego danych, wnioskowania przyczynowego i teorii formalnej, a Clark and Golder (2015) podsumowuje każdego wkładu. Postępowanie Journal of National Academy of Sciences w Stanach Zjednoczonych miał sympozjum na temat wnioskowania przyczynowego i dużych danych, a Shiffrin (2016) podsumowuje każdego wkładu.

W warunkach naturalnych eksperymentów Dunning (2012) stanowi doskonałą pomoc długości książki. Więcej informacji na temat korzystania z projektu loterii Wietnam jako naturalny eksperyment, zobacz Berinsky and Chatfield (2015) . Dla metod uczenia maszynowego, który próbuje automatycznie wykryć naturalne eksperymenty wewnątrz dużych źródeł danych, zobacz Jensen et al. (2008) i Sharma, Hofman, and Watts (2015) .

Pod względem dopasowania dla optymistycznego przeglądu, patrz Stuart (2010) , a pesymistycznym przeglądu patrz Sekhon (2009) . Więcej informacji na temat dopasowania jako rodzaj przycinania, patrz Ho et al. (2007) . W przypadku książek, które zapewniają doskonałe zabiegi dopasowywania patrz Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) oraz Imbens and Rubin (2015) .