Key:
[ , ] Confounding Algorithmic ieu masalah jeung Google Flu Tren. Maca kertas ku Lazer et al. (2014) , jeung nulis, surelek jelas pondok ka insinyur di Google dijelaskeun masalah jeung ngalamar hiji pamanggih kumaha ngalereskeun masalah.
[ ] Bollen, Mao, and Zeng (2011) nyebutkeun yén data ti Twitter bisa dipaké pikeun ngaduga pasar stock. Pananjung ieu ngarah ka kreasi tina pager hirup dana-Derwent Capital Pasar-to investasi di pasar stock dumasar kana data nu dikumpulkeun ti Twitter (Jordan 2010) . Naon bukti bakal Anjeun hoyong tempo saméméh putting duit anjeun dina dana nu?
[ ] Sedengkeun sababaraha ngabela kaséhatan masarakat hujan es e-rokok salaku bantuan mujarab pikeun gencatan patempuran udud, batur ngingetkeun ngeunaan resiko poténsial, saperti-tingkat luhur nikotin. Bayangkeun nu panalungtik a megatkeun pikeun diajar pamadegan umum arah e-rokok ku cara ngumpulkeun e-rokok patali Twitter tulisan jeung ngalakonan analisis sentimen.
[ ] Dina Nopémber 2009, Twitter robah Patarosan dina kotak tweet ti "Naon anu anjeun lakukeun?" Ka "Naon nu lumangsung?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) dianalisis 41.7 juta propil pamaké, 1.47 milyar hubungan sosial, 4262 jejer Trending, sarta 106 juta tweets antara 6 Juni jeung 31st Juni, 2009. Dumasar analisis ieu aranjeunna menyimpulkan yén Twitter fungsi leuwih minangka medium anyar informasi babagi ti jaringan sosial.
[ ] "Retweet" mindeng dipaké pikeun ngukur pangaruh jeung sumebar tina pangaruh dina Twitter. Mimitina, pamaké geus nyalin jeung nempelkeun nu tweet maranehna liked, tag panulis asli jeung /-Na cecekelan nya, jeung manual ngetik "RT" saméméh tweet ka nunjukkeun yén éta retweet a. Saterusna, dina 2009 Twitter ditambahkeun a "retweet" tombol. Dina Juni 2016, Twitter dijieun mungkin for nu retweet tweets sorangan (https://twitter.com/twitter/status/742749353689780224). Ulah mikir robah ieu kudu mangaruhan kumaha Anjeun make "retweet" dina panalungtikan anjeun? Naha atawa naha teu?
[ , , ] Michel et al. (2011) diwangun hiji korpus munculna ti usaha Google pikeun digitize buku. Nganggo versi kahiji korpus, nu diterbitkeun taun 2009 jeung dikandung leuwih ti 5 juta buku digitized, pangarang dianalisis kecap frekuensi pamakéan pikeun nalungtik robah linguistik jeung tren budaya. Geura-giru Google Buku Corpus jadi sumber data populér pikeun panalungtik, jeung versi 2nd tina database ieu dirilis dina 2012.
Tapi, Pechenick, Danforth, and Dodds (2015) miélingkeun yén panalungtik kudu nyirikeun prosés sampling tina korpus saméméh ngagunakeun eta kanggo teken conclusions lega. Isu utama nyaeta korpus nyaeta perpustakaan kawas, ngandung salah sahiji unggal buku. Hasilna, hiji individu, pangarang prolific sanggup noticeably nyelapkeun frasa anyar kana léksikon Google Buku. Leuwih ti éta, teks ilmiah mangrupakeun hiji bagian beuki substantive of korpus nu sapanjang 1900. Sajaba ti éta, ku ngabandingkeun dua vérsi ngeunaan datasets Fiksi Inggris, Pechenick et al. bukti manggihan yén cukup panyaring ieu dipaké dina ngahasilkeun versi kahiji. Sakabéh data nu dipikabutuh pikeun aktivitas geus sadia di dieu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explores naha publisitas nyebar ngeunaan NSA / prisma panjagaan (ie, wahyu Snowden) dina Juni 2013 ieu pakait jeung panurunan seukeut jeung dadakan di lalu lintas ka artikel Wikipedia dina jejer nu ngangkat masalah privasi. Upami kitu, parobahan ieu dina paripolah bakal konsisten jeung éfék chilling dihasilkeun ti panjagaan massa. Pendekatan tina Penney (2016) kadangkala disebut desain time series interrupted sarta patali jeung deukeut dina bab ngeunaan approximating percobaan ti data observational (Bagéan 2.4.3).
Pikeun milih kecap konci topik, Penney disebut daptar dipaké ku US Dinas NKRI Kaamanan pikeun nyukcruk jeung mantau media sosial. Daptar DHS categorizes istilah panéang nu tangtu kana lingkup isu, nyaéta "Paduli Kaséhatan," "infrasturktur Kaamanan," jeung "terorisme." Pikeun kelompok studi, Penney dipaké opat puluh dalapan kecap konci patali ka "terorisme" (tempo Daptar 8 Lampiran). Anjeunna tuluy aggregated Wikipedia article view diitung dina dasar bulanan pikeun opat puluh dalapan artikel Wikipédia nu pakait leuwih periode tilu puluh dua bulan, ti mimiti Januari 2012 nepi ka ahir Agustus 2014. Pikeun nguatkeun argumen-Na, manéhna ogé dijieun sababaraha ngabandingkeun grup ku nyukcruk pintonan artikel dina jejer sejen.
Ayeuna, anjeun bade ngayakeun réplikasi jeung ngalegaan Penney (2016) . Sadaya data atah nu bakal kudu pikeun kagiatan ieu geus sadia ti Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atawa Anjeun bisa meunangkeun eta ti wikipediatrend paket Urang Sunda (Meissner and Team 2016) . Lamun anjeun nulis-up réspon, mangga dicatet data nu sumber anjeun dipaké. (Catetan: aktivitas sarua ieu oge nembongan dina Bab 6)
[ ] Efrati (2016) laporan, dumasar kana informasi rahasia, nu "total babagi" on Facebook geus ditolak ku taun ngeunaan 5,5% leuwih taun bari "asli siaran babagi" ieu turun taun 21% leuwih taun. turunna ieu utamana akut jeung pamaké Facebook dina 30 taun umur. laporan attributed turunna ka dua faktor. Hiji nyaéta tumuwuhna dina jumlah "babaturan" urang boga on Facebook. Nu séjénna nyaéta yén sababaraha aktivitas babagi geus bergeser ka olahtalatah jeung pesaing saperti SnapChat. laporan ogé ngungkabkeun sababaraha taktik Facebook geus usaha naekeun babagi, kaasup tweaks algoritma News Feed nu make tulisan asli leuwih nonjol, kitu ogé panginget periodical tina tulisan pamaké asli "On Poé Ieu" sababaraha taun ka tukang. Naon implikasi, lamun mana wae, teu papanggihan ieu geus keur panalungtik anu hayang make Facebook salaku sumber data?
[ ] Tumasjan et al. (2010) ngalaporkeun yén saimbang tweets mentioning hiji partéy pulitik loyog proporsi sora nu pihak narima dina pamilihan parlemén Jerman taun 2009 (Gambar 2.9). Dina basa sejen, eta mucunghul nu bisa ngagunakeun Twitter pikeun ngaduga pemilu. Dina waktu ulikan ieu diterbitkeun ieu dianggap pisan seru sabab seemed ngasongkeun make berharga pikeun sumber ilahar data gedé.
Dibikeun fitur bad data gedé, kumaha oge, Anjeun kudu geura-giru jadi skeptis tina hasil ieu. Germans dina Twitter dina 2009 éta cukup group non-wakil, sarta ngarojong hiji pihak bisa tweet ngeunaan pulitik leuwih sering. Ku kituna, jigana heran sagala mungkin biases anu bisa anjeun dibayangkeun kumaha bae bakal ngabatalkeun kaluar. Kanyataanna, hasil di Tumasjan et al. (2010) tétéla teuing alus jadi bener. Dina kertas maranéhanana, Tumasjan et al. (2010) dianggap genep partéi pulitik: Christian Demokrat (CDU), Christian Sosial Demokrat (CSU), SPD, Liberals (FDP), The kenca (maot Linke), sarta Partéi Green (Grüne). Sanajan kitu, partéy pulitik Jerman paling disebutkeun dina Twitter dina waktu nu Partéi bajak (Piraten), hiji pihak nu gelut pangaturan pamaréntah internét. Lamun Partéi bajak ieu kaasup analisis, Twitter nyebutkeun janten prediktor dahsyat hasil pamilihan (Gambar 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Salajengna, panalungtik séjén di sakuliah dunya geus dipaké métode-saperti fancier salaku ngagunakeun analisis sentimen keur ngabedakeun antara positif jeung negatif nyebutkeun tina pihak-guna ngaronjatkeun kamampuh data Twitter pikeun ngaduga rupa-rupa tipena béda Pilkada (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Di dieu nu kumaha Huberty (2015) diringkeskeun hasil usaha ieu pikeun ngaduga pamilu:
"Sadaya métode forecasting dipikawanoh dumasar kana média sosial geus gagal lamun subjected ka tungtutan forecasting Panwaslu bener maju-néangan. gagal ieu kaciri jadi alatan sipat dasar média sosial, tinimbang ka kasusah metodologis atawa algorithmic. Dina pondok, média sosial teu, sarta meureun moal, nawarkeun, unbiased, gambar wakil stabil tina electorate nu; jeung sampel genah média sosial kakurangan data cukup pikeun ngalereskeun masalah ieu posting hoc. "
Baca sababaraha panalungtikan nu mingpin Huberty (2015) ka kacindekan éta, jeung nulis mémo hiji kaca ka calon pulitik ngajéntrékeun lamun jeung kumaha Twitter kudu dipaké pikeun ngaramal pamilu.
[ ] What is beda antara sosiolog jeung sajarah hiji? Nurutkeun Goldthorpe (1991) , beda utama antara sosiolog jeung sajarah nyaéta kadali leuwih kumpulan data. Sajarah kapaksa ngagunakeun titilar sedengkeun ahli sosiologi bisa tukang ngaput kumpulan data maranéhna pikeun tujuan husus. Baca Goldthorpe (1991) . Kumaha ieu beda antara sosiologi jeung sajarah patali jeung pamanggih Custommades jeung Readymades?
[ ] Wangunan di Patarosan saméméhna, Goldthorpe (1991) Drew sababaraha réspon kritis, kaasup saurang ti Nicky Hart (1994) nu ditantang bakti Goldthorpe pikeun tukang ngaput data dijieun. Pikeun netelakeun keterbatasan potensi data tukang ngaput-dijieun, Hart digambarkeun Gelut Project nu makmur, hiji survéy gede pikeun ngukur hubungan antara kelas sosial jeung voting nu dilakukeun ku Goldthorpe sareng kolega di pertengahan 1960-an. Minangka salah bisa ngaharepkeun ti sarjana anu favored data leuwih data kapanggih dirarancang, Gelut Project nu makmur dikumpulkeun data nu tailored nepikeun téori anyar diusulkeun ngeunaan masa depan kelas sosial dina jaman ngaronjatkeun standar hirup. Tapi, Goldthorpe sareng kolega kumaha bae "poho" pikeun ngumpulkeun informasi ngeunaan paripolah voting awéwé. Di dieu nu kumaha Nicky Hart (1994) summaries sakabeh episode:
". . . eta [nyaéta] hésé pikeun nyingkahan kacindekan yen awewe anu disingkahkeun sabab ieu 'tukang ngaput dijieun' dataset ieu dipasrahkeun ku logika paradigmatik nu kaasup pangalaman bikangna. Disetir ku visi teoritis tina eling kelas jeung aksi salaku preoccupations jalu. . . , Goldthorpe sareng kolega-Na diwangun susunan proofs empiris nu fed jeung dipupuk asumsi teoritis sorangan tinimbang exposing ka tes valid tina adequacy. "
Hart terus:
"The papanggihan empiris tina Project Gelut makmur ngabejaan urang leuwih ngeunaan nilai masculinist tina sosiologi abad patengahan ti maranehna nginpokeun prosés tina stratifikasi, pulitik jeung kahirupan material."
Dupi anjeun mikir conto lianna dimana kumpulan data tukang ngaput-dijieun boga biases tina collector data diwangun kana eta? Kumaha carana sangkan ieu ngabandingkeun ka confounding algorithmic? implikasi What bisa ieu geus for lamun panalungtik kudu make Readymades jeung lamun maranéhanana kudu make Custommades?
[ ] Dina bab ieu, kuring contrasted data dikumpulkeun ku panalungtik pikeun panalungtik jeung catetan administratif dijieun ku pausahaan jeung pamaréntah. Sababaraha urang nyebut ieu catetan administratif "kapanggih data," nu maranehna kontras jeung "data dirancang." Memang bener yén catetan administratif kapanggih ku panalungtik, tapi ogé pohara dirancang. Contona, pausahaan tech modern méakkeun jumlah loba pisan waktu jeung sumber pikeun ngumpulkeun jeung milah data maranéhanana. Ku kituna, ieu catetan administratif anu boh kapanggih jeung dirancang, eta ngan gumantung kana sudut pandang Anjeun (Gambar 2.10).
Nyadiakeun conto sumber data mana manéh eta boh salaku kapanggih jeung dirarancang téh mantuan lamun maké nu sumber data pikeun panalungtikan.
[ ] Dina karangan wijaksana, Christian Sandvig jeung Eszter Hargittai (2015) ngagambarkeun dua rupa panalungtikan digital, di mana sistem digital nyaeta "alat" atawa "obyék ulikan." Hiji conto jenis munggaran ulikan ieu mana Bengtsson sareng kolega (2011) dipaké data telepon sélulér ka lagu migrasi sanggeus lini di Haiti dina 2010. Hiji conto jenis kadua mangrupa tempat Jensen (2007) nalungtik kumaha bubuka ponsel sakuliah Kerala, India impacted fungsi tina pasar pikeun lauk. Kuring manggihan ieu mantuan sabab clarifies nu studi ngagunakeun sumber data digital bisa boga gol cukup béda sanajan maranéhanana ngagunakeun jenis sarua sumber data. Dina raraga jang meberkeun netelakeun bedana ieu, ngagambarkeun opat studi nu tos Anjeun ditempo: dua nu make sistem digital salaku alat jeung dua anu ngagunakeun sistem digital jadi hiji obyék ulikan. Anjeun tiasa make conto ti bab ieu upami Anjeun hoyong.