Key:
[ , ] Confounding algoritma masalah karo Google Flu Trends. Maca kertas dening Lazer et al. (2014) , lan nulis, email cetha cendhak kanggo insinyur ing Google penjelasan masalah lan aturan lan idea saka carane ndandani masalah.
[ ] Bollen, Mao, and Zeng (2011) claims sing data saka Twitter bisa digunakake kanggo mrédhiksi pasar Simpenan. Finding mimpin nitahaken saka pager dana-Derwent Capital Markets-kanggo nandur modal ing pasar saham didhasaraké data saka Twitter (Jordan 2010) . Apa bukti bakal pengin ndeleng sadurunge panggolekan dhuwit ing dana sing?
[ ] Nalika sawetara penasehat ukum kesehatan masyarakat becik e-udhut minangka sepindah efektif kanggo nglereni ontran-udud, wong ngelekake bab risiko potensial, kayata-tingkat dhuwur saka nikotin. Mbayangno sing peneliti nemtokaken kanggo sinau karo masyarakat marang e-udhut dening ngempalaken e-udhut-related Twitter kiriman lan nganakake analisis sentimen.
[ ] Ing November 2009, Twitter diganti pitakonan ing kothak tweet saka "Apa sing mengkono?" Kanggo "Apa kedados?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analisa 41.7 yuta profil panganggo, 1.47 milyar hubungan sosial, 4262 Insightful trending, lan 106 yuta tweets antarane 6 Juni lan 31 Juni 2009. Adhedhasar analisis iki padha rampung sing Twitter serves liyane minangka medium anyar Alexa nuduhake saka jaringan sosial.
[ ] "Retweets" asring digunakake kanggo ngukur pengaruh lan nyebar saka pengaruh ing Twitter. Kaping pisanan, kedhaftar kanggo nyalin lan nempel ing tweet padha disenengi, tag penulis asli karo kang / nangani dheweke, lan kanthi manual ngetik "RT" sadurunge tweet kanggo nunjukaké sing iku retweet a. Banjur, ing 2009 Twitter ditambahaké "pRT" tombol. Ing wulan Juni 2016, Twitter digawe iku bisa kanggo kedhaftar kanggo pRT tweets dhewe (https://twitter.com/twitter/status/742749353689780224). Aja mikir owah-owahan kudu mengaruhi cara sampeyan nggunakake "retweet" ing riset? Apa utawa kok ora?
[ , , ] Michel et al. (2011) dibangun corpus berkembang saka gaweyan Google kanggo olèhé digitalisasi berkas buku. Nggunakake versi pisanan ing corpus, kang diterbitake ing 2009 lan sing liwat 5 yuta buku digitized, penulis analisa tembung frekuensi panggunaan kanggo neliti owah-owahan linguistik lan tren budaya. Rauh Google Books Corpus dadi sumber data populer kanggo peneliti, lan versi 2 database iki dirilis ing 2012.
Nanging, Pechenick, Danforth, and Dodds (2015) sing dielingake peneliti kudu kanthi ciri proses sampling corpus sadurunge nggunakake kanggo drawing Serat amba. Jeksa Agung bisa ngetokake utama iku corpus iku perpustakaan-kaya, ngemot siji saka saben buku. Akibaté, individu, penulis kang produktif bisa noticeably masang phrases anyar menyang lexicon Google Books. Menapa malih, teks ngelmu akehe bagean saya intine saka corpus ing saindhenging taun 1900-an. Kajaba iku, dening mbandingaken loro versi sekumpulan data Fiction Inggris, Pechenick et al. bukti ketemu sing boten cecek nyaring iki digunakake ing prodhuksi versi pisanan. Kabeh saka data needed kanggo kegiatan kasedhiya kene: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) nylidiki apa woro nyebar bab NSA / prisma ndjogo (IE, Revelations Snowden) ing Juni 2013 punika gadhah nyuda cetha lan dumadakan ing lalu lintas menyang artikel Wikipedia ing topik-topik sing mundhakaken uneg-uneg privasi. Yèn mangkono, owah-owahan iki ing prilaku bakal konsisten karo efek chilling asil saka massa ndjogo. Pendekatan Penney (2016) iki kadhangkala disebut desain wektu seri diselani lan gegandhengan karo cedhak ing bab babagan approximating nyobi saka data pangamatan (Section 2.4.3).
Kanggo milih keywords topik, Penney diarani dhaftar digunakake dening US Department of kelairan Keamanan kanggo nelusuri lan ngawasi media sosial. Dhaptar DHS Kategori digoleki tartamtu menyang sawetara masalah, ie "Concern Health," "Infrastructure Keamanan," lan "Terorisme." Kanggo sinau kelompok, Penney digunakake ing patang puluh wolu keywords related to "Terorisme" (ndeleng Tabel 8 Lampiran). Banjur dikumpulke Wikipedia article view counts ing basis saben wulan kanggo patang puluh wolu artikel Wikipedia sing cocog liwat periode telung puluh loro sasi, saka awal Januari 2012 kanggo mburi Agustus 2014. Kanggo ngiyataken pitakonan kang, uga digawe sawetara comparison kelompok dening nelusuri views artikel ing topik liya.
Saiki, sing arep kanggo nurun lan ngluwihi Penney (2016) . Kabeh data mentah sing kudu kanggo kegiatan iki kasedhiya saka Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Utawa sampeyan bisa njaluk iku saka wikipediatrend paket R (Meissner and Team 2016) . Nalika nulis-munggah respon Panjenengan, please Wigati data kang sumber sing digunakake. (Note: kegiatan padha uga katon ing Bab 6)
[ ] Efrati (2016) laporan, adhedhasar informasi rahasia, sing "total sharing" ing Facebook wis nolak dening taun babagan 5.5% saka taun nalika "asli Broadcast sharing" mudhun taun 21% liwat taun. Kurangé populasi punika utamané leukemia karo kedhaftar Facebook ing 30 taun. Laporan lantaran Kurangé populasi sing rong faktor. Siji wutah ing nomer "kanca" wong duwe ing Facebook. Ing liyane sing sawetara kegiatan sharing wis pindah kanggo olahpesen lan kanggo saingan kayata snapchat. laporan uga sing dicethakaké sawetara cara Facebook wis nyoba kanggo ngedongkrak sharing, kalebu njiwet algoritma News Feed sing nggawe posting asli luwih penting, uga pangeling Lapuran saka kiriman pangguna asli "On Day iki" sawetara taun kepungkur. Apa mbek, yen, ora iki temonan duwe kanggo peneliti sing pengin nggunakake Facebook minangka sumber data?
[ ] Tumasjan et al. (2010) kacarita babagan tweets nyebutke parpol dicocogaké ing babagan nyanyi sing katelu ditampa ing pemilu parlemen Jerman ing 2009 (Figure 2.9). Ing tembung liyane, kuwe sing bisa nggunakake Twitter kanggo mrédhiksi Pemilu. Ing wektu sinau iki diterbitake iki dianggep arang banget macem amarga ketoke kanggo suggest nggunakake terkenal kanggo sumber umum saka data amba.
Given fitur ala saka data amba, Nanging, sampeyan kudu langsung dadi mamang ini. Jerman ing Twitter ing 2009 padha cukup klompok non-wakil, lan panyengkuyung saka siji partai bisa tweet babagan politik luwih asring. Mangkono, dadi misale jek ngageti sing kabeh bisa biases sing bisa mbayangno piye wae bakal mbatalake metu. Ing kasunyatan, asil ing Tumasjan et al. (2010) diaktifake metu dadi apik banget dadi bener. Ing koran sing, Tumasjan et al. (2010) dianggep Limang partai pulitik: Kristen Demokrat (CDU), Kristen Sosial Demokrat (CSU), SPD, liberal (FDP), Ngiwa (Die Linke), lan Partai Ijo (Grüne). Nanging, partai politik Jerman paling kasebut ing Twitter ing wektu sing ana ing Partai Pirate (Piraten), partai sing gelut peraturan pemerintah Internet. Nalika Partai Pirate iki klebu ing analisis, Twitter nyebataken dadi predictor elek asil Pemilu (Figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Salajengipun, peneliti liyane saindhenging donya wis digunakake cara-kuwi fancier minangka nggunakake analisis sentimen kanggo mbedakake antarane positif lan negatif nyebataken saka pihak-in supaya nambah kemampuan saka data Twitter kanggo mrédhiksi macem-macem macem-macem jinis pemilihan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Punika carane Huberty (2015) rangkuman asil saka usaha iki kanggo mrédhiksi pemilihan:
"Kabeh cara prakiraan dikenal adhedhasar media sosial wis gagal nalika nelukake panjaluk prakiraan pilihan bener maju-looking. gagal iki katon dadi amarga dhasar media sosial, tinimbang kangelan metodologi utawa algoritma. Ing cendhak, media sosial ora, lan mbokmenawa ora bakal, kurban, adil, Gambar wakil stabil saka electorate ing; lan conto penak saka media sosial lack data cekap kanggo ndandani masalah iki ngirim iki. "
Maca sawetara saka riset sing mimpin Huberty (2015) kanggo kesimpulan sing, lan nulis memo siji kaca calon politik njlentrehke yen lan carane Twitter kudu digunakake kanggo ramalan pemilu.
[ ] Apa minayang sosiolog sejarah? Miturut Goldthorpe (1991) , ing prabédan utama antarane sosiolog lan sejarah iku kontrol liwat data. Sejarawan sing dipeksa kanggo nggunakake barang-barang déné sosiolog bisa Ngatur data sing kanggo tujuan tartamtu. Maca Goldthorpe (1991) . Carane wis prabédan antarane sosiologi lan sajarah sing duwé pranala menyang idea saka Custommades lan Readymades?
[ ] Bangunan ing pitakonan sadurunge, Goldthorpe (1991) narik kawigaten sawetara respon kritis, kalebu salah siji saka Nicky Hart (1994) sing tantangan pengabdian Goldthorpe kang Ngatur data digawe. Kanggo njlentrehake watesan potensial data Ngatur-digawe, Hart diterangake Worker Proyek makmur, a survey gedhe kanggo ngukur hubungan antarane kelas sosial lan pilihan sing dilakokaké dening Goldthorpe lan kolega ing agêng-1960. Minangka salah siji bisa nyana saka sawijining ulama ingkang dipunremeni data liwat data ketemu dirancang, Worker Proyek makmur diklumpukake data sing ngarang alamat téori bubar ngajokaken babagan masa depan kelas sosial ing jaman nambah standar urip. Nanging, Goldthorpe lan kolega piye wae "kelalen" kanggo ngumpulake informasi bab prilaku pilihan saka wanita. Punika carane Nicky Hart (1994) ringkesan kabeh episode:
". . . iku [punika] angel supaya kesimpulan sing wadon padha dilirwakaké amarga iki 'Ngatur digawe' perlengkapan data iki Dibuwang dening logika paradigmatic kang tilar pengalaman wadon. Kasektene sesanti teori eling kelas lan tumindak minangka kapedulian lanang. . . , Goldthorpe lan kolega dibangun pesawat saka bukti empiris kang panganan lan nurtured pemanggih teori dhewe tinimbang mbabarake menyang test bener saka pase. "
Hart terus:
"Panemon empiris saka Project Worker makmur kita marang liyane bab angka masculinist saka Sociology abad-agêng tinimbang wong ngandhani pangolahan stratification, politik lan urip materi."
Bisa mikir conto ngendi data Ngatur-digawe wis biases saka kolektor data dibangun menyang iku? Carane ora iki kanggo mbandhingaké confounding algoritma? mbek apa bisa duwe nalika peneliti kudu nggunakake Readymades lan nalika padha kudu nggunakake Custommades?
[ ] Ing bab iki, aku kosokbalèn data sing diklumpukake dening peneliti kanggo peneliti karo cathetan administratif digawe dening perusahaan lan pemerintah. Sawetara wong nelpon iki cathetan administratif "ketemu data," kang padha kontras karo "data dirancang." Iku bener sing cathetan administratif sing ditemokake dening peneliti, nanging padha uga Highly dirancang. Contone, perusahaan tech modern nglampahi jumlah gedhe tenan saka wektu lan sumber daya kanggo ngumpulake lan kurator data sing. Mangkono, iki cathetan administratif sing loro ketemu lan dirancang, iku mung gumantung ing perspektif Panjenengan (Figure 2.10).
Nyedhiyani conto sumber data ngendi ningali iku loro minangka ketemu lan dirancang mbiyantu nalika nggunakake sing sumber data kanggo riset.
[ ] Ing Essay pemikir, Kristen Sandvig lan Eszter Hargittai (2015) njelasaken rong jinis riset digital, ngendi sistem digital iki "instrument" utawa "obyek panaliten." Conto saka jenis pisanan sinau ngendi Bengtsson lan kolega (2011) digunakake data telpon seluler kanggo trek migration sawise lindhu ing Haiti ing 2010. conto saka jenis sing kapindho yaiku ing ngendi Jensen (2007) studi carane introduksi saka telpon seluler saindhenging Kerala, India dampak nduwe fungsi ing pasar iwak. Aku golek iki mbiyantu amarga clarifies sing pasinaon nggunakake sumber data digital bisa duwe gol cukup beda sanajan lagi nggunakake apik padha sumber data. Supaya luwih njlentrehake bedane iki, njlèntrèhaké papat pasinaon sing wis katon: loro sing nganggo sistem digital minangka instrument lan loro sing nganggo sistem digital minangka obyek panaliten. Sampeyan bisa nggunakake conto saka bab iki yen pengin.