Cheie:
[ . ] Intricate algoritmică a fost o problemă cu Google Tendințele gripei. Citiți lucrarea lui Lazer et al. (2014) , și a scrie un e - mail, clar la un inginer de la Google să explice problema și care oferă o idee despre modul de a rezolva problema.
[ ] Bollen, Mao, and Zeng (2011) susține că datele de la Twitter pot fi folosite pentru a prezice piața de valori. Aceasta constatare a dus la crearea unui fond de hedging-Derwent Capital Markets-a investi în piața de valori , pe baza datelor colectate de la Twitter (Jordan 2010) . Ce dovezi ai vrea sa vezi inainte de a pune banii în acest fond?
[ ] În timp ce unii pledeaza pentru sanatate publica grindina e-tigari ca un ajutor eficient pentru renunțarea la fumat, alții avertizează cu privire la riscurile potentiale, cum ar fi cele mai ridicate niveluri de nicotina. Imaginați-vă că un cercetător decide să studieze opiniei publice față de țigările electronice prin colectarea legate de e-tigari posturi Twitter si efectuarea analizei sentimentelor.
[ ] În noiembrie 2009, Twitter a schimbat întrebarea în caseta din tweet "Ce faci?" La "Ce se întâmplă?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) au analizat profilurile de 41,7 milioane de utilizatori, 1,47 miliarde de relații sociale, 4262 subiecte, și tendințe de 106 de milioane de tweet - uri intre 06 iunie si 31 iunie 2009. Pe baza acestei analize au ajuns la concluzia că Twitter servește mai mult ca un nou mediu de schimb de informații decât o rețea socială.
[ ] "Retweets" sunt adesea folosite pentru a măsura influența și răspândirea influenței pe Twitter. Initial, utilizatorii trebuiau să copiați și inserați tweet-ul le-a plăcut, tag-ul autorul original cu mâner lui / ei, și manual de tip "RT", înainte de tweet pentru a indica faptul că este un retweet. Apoi, în 2009, Twitter a adăugat un buton "retweet". În luna iunie 2016, Twitter a făcut posibil ca utilizatorii să retweet propriile tweet-uri (https://twitter.com/twitter/status/742749353689780224). Credeți că aceste modificări ar trebui să afecteze modul în care folosiți "retweets" în cercetare? De ce sau de ce nu?
[ . . ] Michel et al. (2011) au construit un corpus în curs de dezvoltare din efortul Google de a digitaliza cărți. Folosind prima versiune a corpusului, care a fost publicat în 2009 și conținea peste 5 milioane de cărți digitalizate, autorii au analizat cuvânt frecvența de utilizare pentru a investiga schimbările lingvistice și tendințele culturale. În curând Google Books Corpus a devenit o sursă de date populară pentru cercetători, precum și o versiune a 2-a bazei de date a fost lansat în 2012.
Cu toate acestea, Pechenick, Danforth, and Dodds (2015) a avertizat că cercetătorii au nevoie pentru a caracteriza pe deplin procesul de eșantionare a corpusului înainte de a utiliza pentru a trage concluzii generale. Chestiunea principală este faptul că corpus este bibliotecă asemănătoare, conținând una din fiecare carte. Ca rezultat, un individ, prolific autor este capabil de a insera în mod evident noi fraze în lexiconul Google Books. Mai mult decât atât, texte științifice constituie o parte din ce în ce pe fond a corpus pe tot parcursul anilor 1900. In plus, prin compararea a două versiuni ale seturilor de date de fictiune engleza, Pechenick et al. dovada a constatat ca un număr insuficient de filtrare a fost utilizată în producerea de prima versiune. Toate datele necesare pentru activitatea este disponibil aici: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ . . . ] Penney (2016) explorează dacă publicitatea pe scară largă cu privire la supravegherea / PRISM ANS (adică, dezvăluirile Snowden) în iunie 2013 asociată cu o scădere bruscă și bruscă a traficului la articole Wikipedia despre subiecte care ridică probleme de confidențialitate. Dacă este așa, această schimbare de comportament ar fi în concordanță cu un efect de răcire care rezultă din supravegherea în masă. Abordarea Penney (2016) este numit uneori întrerupt de proiectare serii de timp și este legat de abordările în capitolul despre apropierea experimentelor din datele observaționale (secțiunea 2.4.3).
Pentru a alege cuvintele cheie subiect, Penney se face referire la lista folosită de către Departamentul de Securitate Internă al SUA pentru urmărirea și monitorizarea mass-media sociale. Lista de DHS catalogheaza anumiți termeni de căutare într-o serie de probleme, și anume "problemă de sănătate", "infrastructurii de securitate" și "terorismul." Pentru grupul de studiu, Penney a folosit patruzeci și opt de cuvinte cheie legate de "terorism" (a se vedea tabelul 8 Apendice). Apoi, el agregat Wikipedia vedere din articol contează pe o bază lunară pentru patruzeci și opt de articole Wikipedia corespunzătoare pe o perioadă de treizeci și două luni, de la începutul lunii ianuarie 2012 până la sfârșitul lunii august 2014. Pentru a întări argumentul său, el a creat, de asemenea, mai multe comparație grupuri de urmărirea prin puncte de vedere articol cu privire la alte subiecte.
Acum, aveți de gând să reproducă și să extindă Penney (2016) . Toate datele brute pe care le va avea nevoie pentru această activitate este disponibilă de la Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Sau îl puteți obține de la wikipediatrend pachetul R (Meissner and Team 2016) de (Meissner and Team 2016) . Atunci când a scrie-up răspunsurile dumneavoastră, vă rugăm să rețineți ce sursă de date utilizat. (Notă: Aceeași activitate apare, de asemenea, în capitolul 6)
[ ] Efrati (2016) rapoarte, pe baza informațiilor confidențiale, că "partajarea totală" pe Facebook a scazut cu an , aproximativ 5,5% fata de anul in timp ce "sharing difuzat inițial" a fost scăzut cu 21% în fiecare an. Acest declin a fost deosebit de acută cu utilizatorii Facebook sub 30 de ani. Raportul a atribuit declinul a doi factori. Una dintre ele este creșterea numărului de "prieteni" au oamenii pe Facebook. Celălalt este faptul că o anumită activitate de partajare a trecut la mesaje și concurenților, cum ar fi Snapchat. Raportul a relevat, de asemenea, cele câteva tactici Facebook au încercat să stimuleze partajarea, inclusiv știri furaje trucurile algoritm care fac posturi originale mai proeminente, precum și memento-uri periodice ale utilizatorilor originale posturi "În această zi," în urmă cu câțiva ani. Ce implicatii, daca este cazul, are aceste rezultate au pentru cercetătorii care doresc să folosească Facebook ca sursă de date?
[ ] Tumasjan et al. (2010) a raportat că proporția de tweet - uri care menționează un partid politic se potrivea cu proporția de voturi pe care partidul a primit în alegerile parlamentare germane în 2009 (Figura 2.9). Cu alte cuvinte, se pare că ai putea folosi Twitter pentru a prezice alegerile. La momentul acestui studiu a fost publicat sa considerat extrem de interesant deoarece părea să sugereze o utilizare valoroasă pentru o sursă comună de date mari.
Având în vedere caracteristicile proaste de date mari, cu toate acestea, ar trebui să fie imediat sceptic în privința acestui rezultat. Germanii pe Twitter în 2009 au fost un grup destul de non-reprezentative, și susținători ai unui partid s-ar putea tweet despre politica mai des. Astfel, se pare surprinzător faptul că toate posibilele prejudecăți pe care le-ar putea imagina ar anula cumva afară. De fapt, rezultatele din Tumasjan et al. (2010) s -au dovedit a fi prea bun ca să fie adevărat. In lucrarea lor, Tumasjan et al. (2010) a considerat șase partide politice: Creștin - Democrat (CDU), social - democrații creștini (CSU), SPD, liberalii (FDP), stânga (Die Linke) și Partidul Verde (Grüne). Cu toate acestea, partidul politic german cel mai menționat pe Twitter la acel moment a fost Partidul pirat (Piraten), un partid care luptă reglementarea guvernamentală a internetului. În cazul în care Partidul pirat a fost inclusă în analiză, Twitter menționează devine un predictor teribil al rezultatelor alegerilor (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Ulterior, alți cercetători din întreaga lume au folosit metode , cum crescătorul ar fi folosind analiza sentimentului de a distinge între pozitive și negative menționează ale părților- , în scopul de a îmbunătăți capacitatea de date de Twitter pentru a prezice o varietate de diferite tipuri de alegeri (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Iată cum Huberty (2015) rezumate rezultatele acestor încercări de a prezice alegeri:
"Toate metodele cunoscute de prognoză bazate pe social media au eșuat atunci când sunt supuse cerințelor adevărate de prognoză electorală-așteaptă cu nerăbdare. Aceste eșecuri par a fi din cauza proprietăților fundamentale ale mass-media sociale, mai degrabă decât la dificultăți metodologice sau algoritmice. Pe scurt, social media nu, și, probabil, nu va, oferi o imagine stabilă, imparțială, reprezentant al electoratului; și mostre comoditatea de mass-media sociale nu dispun de date suficiente pentru a remedia aceste probleme post hoc. "
Citiți câteva dintre cercetările care conduc Huberty (2015) la această concluzie, și scrie un memoriu la o pagină la un candidat politic care descrie dacă și modul în care Twitter ar trebui sa fie folosite pentru a prognoza alegeri.
[ ] Care este diferența dintre un sociolog și istoric? Potrivit lui Goldthorpe (1991) , principala diferență între un sociolog și istoric este controlul asupra colectării de date. Istoricii sunt obligați să utilizeze relicve în timp ce sociologi se pot adapta lor de colectare a datelor în scopuri specifice. Citește mai Goldthorpe (1991) . Cum este diferența dintre sociologie și istorie legată de ideea de Custommades și readymade?
[ ] Pornind de la întrebarea anterioară, Goldthorpe (1991) , a atras un număr de răspunsuri critice, inclusiv una de la Nicky Hart (1994) , care a contestat devotamentul Goldthorpe de a adapta datele făcute. Pentru a clarifica posibilele limitări ale datelor personalizate, Hart a descris Proiectul Worker clasei înstărite, un studiu de mare pentru a măsura relația dintre clasa socială și votarea, care a fost realizat de Goldthorpe si colegii sai de la mijlocul anilor 1960. După cum s-ar putea aștepta de la un om de știință care au preferat proiectat date peste date găsite, Proiectul Worker a colectat date care socială precară a fost adaptate pentru a aborda o teorie recent propusă cu privire la viitorul clasei sociale într-o epocă de creștere a nivelului de trai. Dar, Goldthorpe si colegii sai intr-un fel "a uitat", pentru a colecta informații despre comportamentul de vot al femeilor. Iată cum Nicky Hart (1994) rezumatele întregului episod:
". . . aceasta [este] greu de evitat concluzia că femeile au fost omise, deoarece acest lucru "adaptate", a fost limitată de date CCD o logică paradigmatică care a exclus experiență de sex feminin. Condus de o viziune teoretică a conștiinței de clasă și de acțiune ca preocupări de sex masculin. . . , Goldthorpe si colegii sai au construit un set de dovezi empirice care hrănite și nutrit propriile lor ipoteze teoretice în loc de a le expune la un test valid de adecvare. "
Hart a continuat:
"Rezultatele empirice ale Proiectului Worker ne spune mai multe posibilități materiale despre valorile masculinist ale sociologiei la mijlocul secolului decât informează procesele de stratificare, politică și viața materială."
Vă puteți gândi la alte exemple în cazul în care colectarea de date personalizate are prejudecatile colectorului de date încorporat în ea? Cum se compara cu acest intricate algoritmice? Ce implicații ar putea avea acest lucru atunci când cercetătorii ar trebui să utilizeze readymade și când acestea ar trebui să utilizeze Custommades?
[ ] În acest capitol, am contrast datele colectate de către cercetători pentru cercetători cu înregistrările administrative create de companii și guverne. Unii oameni numesc aceste înregistrări administrative "descoperit că există date", care au contrast cu "date proiectate." Este adevărat că înregistrările administrative sunt găsite de către cercetători, dar ele sunt, de asemenea, foarte proiectate. De exemplu, companiile moderne tech cheltuiesc sume enorme de timp și resurse pentru a colecta și curatoriat datele lor. Astfel, aceste înregistrări administrative sunt ambele găsite și proiectate, doar depinde de perspectiva dumneavoastră (Figura 2.10).
Furnizează un exemplu de sursă de date în cazul în care o văd atât ca și a găsit proiectat este util atunci când se utilizează acea sursă de date pentru cercetare.
[ ] Într - un eseu grijuliu, Christian Sandvig și Eszter Hargittai (2015) descriu două tipuri de cercetare digitale, în cazul în care sistemul digital este "instrument" sau "obiect de studiu". Un exemplu de primul tip de studiu este în cazul în care Bengtsson și colegii (2011) a folosit date de telefon mobil pentru a urmări migrația , după cutremurul din Haiti din 2010. Un exemplu al doilea tip este în cazul în care Jensen (2007) studii de modul în care introducerea de telefoane mobile , în Kerala, India , au influențat funcționarea pieței de pește. Mi se pare util, deoarece clarifică faptul că studiile care utilizează surse de date digitale pot avea destul de diferite scopuri, chiar dacă acestea utilizează același tip de sursă de date. În scopul de a clarifica în continuare această distincție, descrie patru studii pe care le-ați văzut: două care folosesc un sistem digital ca instrument și două care utilizează un sistem digital ca obiect de studiu. Aveți posibilitatea să utilizați exemple din acest capitol, dacă doriți.