Нэмэлт тайлбар

Энэ хэсэг нь хүүрнэл гэж уншиж болно гэхээсээ илүү, лавлагаа болгон ашиглах зорилготой юм.

  • Танилцуулга (Хэсэг 2.1)

Тэр энэ бүлэгт багтаж ороогүй байна ажиглагчдын нь нэг төрлийн угсаатны зүй юм. Дижитал зайд угсаатны зүйн талаар дэлгэрэнгүй үзнэ үү Boellstorff et al. (2012) болон холимог тоон болон физик орчинд угсаатны зүйн талаар дэлгэрэнгүй үзнэ үү Lane (2016) .

  • Big мэдээлэл (Хэсэг 2.2)

та өгөгдлийг repurposing үед та учирч болзошгүй бэрхшээлийг ойлгоход тусална хоёр сэтгэцийн заль мэх байдаг. Нэгдүгээрт, та асуудлын хамгийн тохиромжтой мэдээллийн санг төсөөлөхөд оролдож болно, та нар ашиглаж байгаа өгөгдөлд гэж харьцуулах хэрэгтэй. Тэд хэрхэн ижил төстэй байдаг бөгөөд тэдгээр нь өөр ямар байна вэ? Хэрэв та өөрийн өгөгдлийг өөрөө цуглуулж аваагүй бол, та хүсэж байна, юу юу хооронд ялгаа байх магадлалтай байна. Харин та эдгээр ялгаа нь бага, эсвэл томоохон байгаа бол шийдэх хэрэгтэй.

Хоёрдугаарт, хэн нэгэн бий болгож, ямар нэг шалтгааны улмаас өөрийн өгөгдлийг цуглуулж гэж санаж байна. Та өөрийн учир шалтгааныг ойлгохын тулд хичээх хэрэгтэй. буцах инженерийн Энэ нь ямар та repurposed өгөгдлийн аль асуудал, алдааг тодорхойлох тусалж чадна.

"Том мэдээллийн" -ийн нэг ч зөвшилцөлд тодорхойлолт байдаг боловч олон тодорхойлолт 3 VS анхаарч байгаа юм шиг: (жишээ нь, хэмжээ, янз бүрийн болон хурд Japec et al. (2015) ). Харин мэдээллийн шинж чанар дээр анхаарах илүү миний тодорхойлолт яагаад мэдээлэл бий болсон талаар илүү анхаардаг.

том мэдээллийн ангилал дотор төрийн захиргааны төв мэдээллийн миний оруулах жаахан ер бусын юм. Энэ хэргийг хийсэн Бусад орно Legewie (2015) , Connelly et al. (2016) болон Einav and Levin (2014) . Судалгааны төрийн захиргааны төв өгөгдлийн утгын талаар дэлгэрэнгүй үзнэ үү Card et al. (2010) , Taskforce (2012) болон Grusky, Smeeding, and Snipp (2015) .

Засгийн газар статистикийн тогтолцоо, нэн ялангуяа АНУ-ын тооллогын товчооны дотор талаас засаг захиргааны судалгааны үүднээс үзнэ үү Jarmin and O'Hara (2016) . Статистик Швед захиргааны бүртгэл судалгааны ном урт эмчилгээ үзнэ үү Wallgren and Wallgren (2007) .

бүлэгт би товчхон ийм нийгмийн хэвлэл мэдээллийн өгөгдлийн эх үүсвэр Ерөнхий Нийгмийн судалгаа (GSS) зэрэг Twitter зэрэг уламжлалт судалгаа өсчээ. Уламжлалт судалгаа, нийгмийн хэвлэл мэдээллийн мэдээ хооронд нарийвчилсан, анхааралтай харьцуулан үзнэ үү Schober et al. (2016) .

  • Том мэдээллийн нийтлэг шинж чанар (Хэсэг 2.3)

том мэдээллийн эдгээр 10 шинж чанар өөр өөр зохиогч нь янз бүрийн өөр өөр янз бүрийн тодорхойлсон байна. Энэ асуудлаар миний сэтгэлгээ нөлөөлсөн бичих нь: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) болон Goldstone and Lupyan (2016) .

Энэ бүлэгт би хугацааны тоон ул мөр гэж би боддог харьцангуй төвийг сахисан юм хэрэглэж байна. Дижитал ул мөр нь өөр нэг алдартай хугацааны тоон хөлийн мөр юм (Golder and Macy 2014) , харин Хал Abelson, Кен Ledeen, Харри Льюис гэх мэт (2008) онцлон нь илүү тохиромжтой цаг нь магадгүй дижитал хурууны хээ юм. Та мөр үүсгэх үед танд юу болж байгаа болон таны хөлийн ерөнхийдөө танд улбаатай байж чадахгүй байгаа юм мэдэж байна. Мөн таны дижитал ул мөр нь үнэн биш юм. Үнэндээ та ул мөр Хэрэв та аль талаар маш бага мэдлэгтэй байх бүх цаг гарч байна. Мөн эдгээр ул мөр тэдний дээр таны нэр байхгүй бол ч тэд ихэнхдээ танд буцааж холбоотой байж болох юм. үл үзэгдэх болон биечлэн тодорхойлох: Өөрөөр хэлбэл, тэд илүү хурууны хээ шиг байна.

Том

Яагаад том датасет асуудалтай статистик шинжилгээ үзүүлэх талаар дэлгэрэнгүй үзнэ үү Lin, Lucas, and Shmueli (2013) болон McFarland and McFarland (2015) . Эдгээр асуудлууд нь статистик ач холбогдолтой гэхээсээ илүү практик ач холбогдолтой анхаарах судлаачид хүргэж байх ёстой.

Үргэлж

хэлэлцэхдээ үргэлж дээр өгөгдөл, энэ нь чухал ач холбогдолтой та цаг хугацааны явцад яг ижил хүмүүс харьцуулах юм уу эсвэл та хүмүүсийн зарим нь өөрчлөгдөж бүлэг харьцуулж байгаа эсэхийг эсэхийг авч үзэх юм; Жишээ нь харж, Diaz et al. (2016) .

Төрийн бус реактив

Бус реактив арга хэмжээний тухай сонгодог ном юм Webb et al. (1966) . ном нь өмнөх өдрөөс нь жишээ нь дижитал нас, гэхдээ тэд ч гэрэлтүүлэх байна. Учир нь олон нийтийн хяналт байлцуулан тэдний зан үйлийг өөрчлөх хүмүүсийн жишээг үзнэ үү Penney (2016) болон Brayne (2014) .

Бүрэн бус

Рекорд холбоо талаар дэлгэрэнгүй үзнэ үү Dunn (1946) болон Fellegi and Sunter (1969) (түүхэн) болон Larsen and Winkler (2014) (орчин үеийн). Ийм мэдээллийг deduplication, жишээ нь тодорхойлох, нэр тохирсон адил хандаж бас нэр дор компьютерийн шинжлэх ухаан хөгжиж байна, илрүүлэх олшруулах, болон бичлэг илрүүлэх хуулбар (Elmagarmid, Ipeirotis, and Verykios 2007) . Биечлэн мэдээллийг тодорхойлох дамжуулах шаардаж болохгүй вэ уялдаа холбоог бүртгэх арга хадгалах ганцаардал бас байдаг (Schnell 2013) . Facebook-ийн бас нэг саналын зан нь тэдний бүртгэлийг холбох үргэлжлүүлнэ боловсруулсан байна; би 4-р бүлэгт талаар танд хэлж болно туршилт үнэлгээ хийж байна (Bond et al. 2012; Jones et al. 2013) .

Бүтцийг хүчинтэй байх талаар дэлгэрэнгүй үзнэ үү Shadish, Cook, and Campbell (2001) Бүлэг 3.

халдашгүй

AOL хайлт бүртгэлийн debacle талаар дэлгэрэнгүй үзнэ үү Ohm (2010) . Би туршилт тайлбарлах үед би аж ахуйн нэгж, 4-р бүлэгт Засгийн газар хамтран талаар зөвлөгөө санал болгож байна. Зохиогчид хэд хэдэн халдашгүй мэдээлэл дээр тулгуурладаг судалгааны талаар санаа зовж байгаагаа илэрхийлсэн байна үзнэ үү Huberman (2012) болон boyd and Crawford (2012) .

их сургуулийн судлаачид мэдээ хандах олж авах нэг сайн арга бол дадлага, эсвэл очиж судлаач зэрэг компанид ажиллах явдал юм. мэдээ хандалтыг идэвхжүүлэх гадна энэ үйл явц нь судлаач хэрхэн мэдээлэлд дүн шинжилгээ хийх нь чухал юм, бий болсон талаар илүү ихийг мэдэхийг туслах болно.

Төрийн бус төлөөлөгч

Төрийн бус төлөөлөх бүхэл бүтэн хүн амын тухай мэдэгдэл хийх гэж байгаа судлаачид, засгийн газрын хувьд гол асуудал юм. Энэ нь ихэвчлэн тэдний хэрэглэгчдэд чиглэсэн байгаа компаниудын хувьд асуудал бага юм. Статистик Нидерланд бизнесийн том өгөгдлийн бус төлөөлөх асуудлыг хэрхэн авч үздэг талаар дэлгэрэнгүй үзнэ үү Buelens et al. (2014) .

Бүлэг 3, би илүү их дэлгэрэнгүй дээж авах, тооцоо тайлбарлах болно. мэдээ бус төлөөлөгч нь тодорхой нөхцөлд юм ч тэд сайн тооцоо гаргах жигнэсэн болно.

явган

Системийн шилжилтийн гаднаас харахад их хэцүү юм. Гэсэн хэдий ч, MovieLens төсөл (илүү 4-р бүлэг хэлэлцсэн) нь эрдэм шинжилгээ, судалгааны бүлэг нь 15 гаруй жил ажиллуулж байна. Тиймийн тул, тэд баримтжуулж, болон системийн цаг хугацааны туршид хөгжсөөр ирсэн замаар яаж тухай мэдээллийг хуваалцаж байсан энэ нөлөөлж болох шинжилгээ (Harper and Konstan 2015) .

Эрдэмтдийн хэд хэдэн Twitter дэх шилжилтийн дээр анхаарлаа хандуулж байна: Liu, Kliman-Silver, and Mislove (2014) болон Tufekci (2014) .

Algorithmically будлиулсан

Би анх хугацааны "algorithmically будлиулсан" гэж хэлсэн үгийг Жон Kleinberg ашиглаж сонссон. Performativity цаана гол санаа нь зарим нэг нийгмийн шинжлэх ухааны онол "хөдөлгүүр үгүй биш камер" байдаг (Mackenzie 2008) . Өөрөөр хэлбэл, тэдгээр нь яг үнэндээ гэхээсээ илүү ертөнцийг хэлбэр зүгээр л авах.

Dirty

Засгийн газрын статистикийн байгууллагууд мэдээллийн цэвэрлэгээ, статистикийн мэдээлэл засаж гэж нэрлэдэг. De Waal, Puts, and Daas (2014) судалгаагаар мэдээллийг зориулан боловсруулсан статистик мэдээллийг засварлах арга техникийг тайлбарлах, ямар цар хүрээ нь том мэдээллийн эх сурвалжаас хэрэглэх, мөн байдаг нь шалгаж Puts, Daas, and Waal (2015) нь илүү ерөнхий үзэгчдийн хувьд мөн адил санаа зарим танилцуулна.

Twitter-д спам чиглэсэн судалгааны зарим жишээг Clark et al. (2016) болон Chu et al. (2012) . Эцэст нь хэлэхэд, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge үр дүнг тайлбарлах болно.

эмзэг

Ohm (2015) эмзэг, чухал мэдээллийг санаан дээр өмнө нь судалгаа хянаж, олон хүчин зүйл тест санал болгож байна. дөрвөн хүчин зүйл нь тэрээр санал болгож байна: хохирол учруулах магадлал; хохирол учруулах магадлал; нууц харилцаа нь илэрсэн; , эрсдэл байгаа эсэхийг олонхийн асуудлыг тусгасан.

  • Зүйлийг тоолох (Хэсэг 2.4.1)

Нью-Йорк хотод такси Фарбер-ын судалгааг өмнө нь судалгаанд үндэслэсэн Camerer et al. (1997) аялал эхлэх цаг бичиж драйверуудад ашиглагддаг цаасан аялал хуудас цаасан хэлбэрээр, эцсийн хугацаа, тасалбар нь гурван өөр ашиг сонирхол дээжийг ашиглаж байна. Тэдний цалин өндөр байсан өдрүүдэд бага ажилласан: Энэ өмнө нь судалгаа жолооч зорилтот эх үүсвэр байх шиг болохыг тогтоожээ.

Kossinets and Watts (2009) нийгмийн сүлжээнд homophily гарал үүсэл чиглэсэн байна. Үзнэ үү Wimmer and Lewis (2010) нэг асуудал Facebook мэдээллийг ашигласан нь өөр өөр арга барил юм.

Дараа дараагийн ажилд хаан болон түүний хамтрагчид цаашид БНХАУ-д онлайн цензур судалж байна (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . БНХАУ-д онлайн цензур хэмжих нь холбогдох арга үзнэ үү Bamman, O'Connor, and Smith (2012) . -Ийнхтэй адил статистик аргын талаар илүү нь King, Pan, and Roberts (2013) , 11 сая бичлэгүүдийг зүйлийг тооцох харж Hopkins and King (2010) . Хяналтанд байгаа сургалтын талаар дэлгэрэнгүй үзнэ үү James et al. (2013) (бага, техникийн) болон Hastie, Tibshirani, and Friedman (2009) (илүү техникийн).

  • Урьдчилан (Хэсэг 2.4.2)

Урьдчилсан аж үйлдвэрийн мэдээлэл, шинжлэх ухааны нэг том хэсэг юм (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Нийтлэг нийгмийн судлаачид хийж байгаа урьдчилан нэг төрлийн жишээ нь, хүн ам зүйн урьдчилан таамаглах юм Raftery et al. (2012) .

Google-ийн Ханиад чиг хандлагуудыг танилцуулах нь томуугийн тархалтыг nowcast хайлтын мэдээллийг ашиглах анхны төсөл биш юм. Ер нь, АНУ-ын судлаачид (Polgreen et al. 2008; Ginsberg et al. 2009) , Швед (Hulth, Rydevik, and Linde 2009) тодорхой хайлтын нэр томъёо (жишээ нь, "ханиадны") Нийгмийн эрүүл мэндийн үндэсний тандалт таамаглаж олсон байна Хэрэв өмнө нь мэдээлэл гарсан. Дараа нь олон олон төсөл, өвчний тандалт илрүүлэх дижитал ул мөр мэдээллийг ашиглах харж оролдсон байна Althouse et al. (2015) нь хянаж байна.

эрүүл мэндийн үр дүнг урьдчилан таамаглах дижитал ул мөр өгөгдлийг ашиглан гадна, бас сонгуулийн үр дүнг урьдчилан таамаглах Twitter мэдээллийг ашиглан ажил асар их байна; хянан үзнэ үү Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ч.. 7), болон Huberty (2015) .

Томуугийн тархалт таамаглах болон сонгууль дэлхийн үйл явдлын ямар нэгэн урьдчилан дижитал ул зарим төрлийн ашиглан хоёр жишээ юм урьдчилан Twitter мэдээллийг ашиглан хайлтын мэдээллийг ашиглах. Энэ ерөнхий бүтэцтэй байна судалгааны асар их тоо байна. Хүснэгт 2.5 бусад хэд хэдэн жишээг агуулдаг.

Хүснэгт 2.5: судалгааны хэсэгчилсэн жагсаалт зарим нэг үйл явдлыг урьдчилан таамаглах зарим тоон ул мөр ашигладаг.
Дижитал ул мөр Үр дүн ишлэл
Twitter АНУ-д кино Box албан орлого Asur and Huberman (2010)
логуудад хайлт хийх АНУ-д кино, дуу хөгжим, ном, видео тоглоом борлуулалт Goel et al. (2010)
Twitter Dow Jones Industrial Average (АНУ-ын хөрөнгийн зах зээл) Bollen, Mao, and Zeng (2011)
  • Ойролцоогоор туршилт (Хэсэг 2.4.3)

Сэтгүүл PS Улс төрийн шинжлэх ухааны том өгөгдөл, учир шалтгааны гаргалгаа, албан онол дээр симпозиум байсан, Clark and Golder (2015) хувь нэмэр тус бүр дүгнэн харуулж байна. АНУ-ын Шинжлэх ухааны үндэсний академийн сэтгүүл ажиллагаа учир шалтгааны гаргалгаа, том тоо нь симпозиум байсан бөгөөд Shiffrin (2016) хувь нэмэр тус бүр дүгнэн харуулж байна.

Байгалийн туршилтын хувьд Dunning (2012) маш сайн ном урт эмчилгээ болно. Байгалийн туршилтын журмаар Вьетнам төслийг сугалаанд ашиглах тухай илүү дэлгэрэнгүй үзнэ үү Berinsky and Chatfield (2015) . Дотор нь том мэдээллийн эх сурвалж нь байгалийн туршилт автоматаар олж оролдох машин сургалтын арга үзнэ үү Jensen et al. (2008) болон Sharma, Hofman, and Watts (2015) .

Таарах хувьд өөдрөг хянуулахаар үзнэ үү Stuart (2010) , мөн гутранги хянан үзнэ үү Sekhon (2009) . Тайралтаар нь ийм байдлаар тохируулах талаар дэлгэрэнгүй үзнэ үү Ho et al. (2007) . Таарах нь маш сайн эмчилгээ хангах ном үзнэ үү Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) болон Imbens and Rubin (2015) .