තවදුරටත් විස්තර විචාරය

මෙම කොටස, සැඳහුම ලෙස භාවිතා කිරීමට නිර්මාණය කර ඇති ආඛ්යානයන් ලෙස ගත කිරීමට වඩා ඇත.

  • හැඳින්වීම (වගන්තිය 2.1)

වන බව නිරීක්ෂණය එක් ආකාරයක මෙම පරිච්ඡේදයේ ඇතුළත් නොවේ හදනවා වේ. ඩිජිටල් අවකාශ හදනවා ගැන තවත් විස්තර සඳහා බලන්න Boellstorff et al. (2012) , සහ හදනවා වැඩි කිරීම සඳහා මිශ්ර ඩිජිටල් හා භෞතික අවකාශයක බලන්න Lane (2016) .

  • බිග් දත්ත (වගන්තිය 2.2)

ඔබ දත්ත repurposing කරන විට ඔබ ඔබ මුහුණ විය හැකි විය හැකි ගැටළු තේරුම් ගැනීමට හැකි බව, මානසික උපක්රම දෙකක් තියෙනවා. පළමුව, ඔබ ඔබේ ගැටලුව සඳහා ඉතා අනගි දත්ත සමුදාය සිතීම හා ඔබ භාවිතා කරන දත්ත සමුදාය වෙත සංසන්දනය කරන්න උත්සාහ කරන්න පුළුවන්. කොහොමද ඔවුන් සමාන වන අතර ඒවා කෙසේ වෙනස් වෙන්නේ කොහොමද? ඔබ ඔබේ දත්ත එකතු නොවේ නම්, ඔබට අවශ්ය දේ සහ ඔබ සතුව අතර වෙනසක් වීමට ඉඩ ඇත. එහෙත්, ඔබ මේ මතභේද සුලු හෝ ප්රධාන නම් තීරණය කිරීමට ඇති.

දෙවනුව, කෙනෙකු යම් හේතුවක් නිසා ඔබේ දත්ත නිර්මාණය හා එකතු බව මතක තබා ගන්න. ඔබ ඔවුන්ගේ තර්ක වටහා ගැනීමට උත්සාහ කළ යුතුයි. ආපසු-ඉංජිනේරු මේ ආකාරයේ ඔබේ repurposed දත්ත විය හැකි ගැටළු හා අගතීන් හඳුනා ගැනීමට උපකාර කළ හැකිය.

"විශාල දත්ත" කිසිදු එක් සම්මුතියක් අර්ථ ඇත, නමුත් බොහෝ අර්ථකථන 3 එදිරිව පිළිබඳ අවධානය යොමු කිරීමට පෙනේ: පරිමාව, විවිධත්වය, සහ ප්රවේගය (උදා, Japec et al. (2015) ). ඒ වෙනුවට එම දත්ත ලක්ෂණ කෙරෙහි අවධානය යොමු වඩා, මගේ අර්ථ දැක්වීම වඩාත් දත්ත නිර්මිතය ඇයි පිළිබඳව අවධානය යොමු කරයි.

විශාල දත්ත කාණ්ඩය තුළ රාජ්ය පරිපාලන දත්ත මගේ ඇතුලත් ටිකක් අසාමාන්ය වේ. මෙම නඩුව ඉදිරිපත් කර ඇති තවත් අය, ඇතුළත් Legewie (2015) , Connelly et al. (2016) , සහ Einav and Levin (2014) . පර්යේෂණ සඳහා රාජ්ය පරිපාලන දත්ත වටිනාකම ගැන තවත් විස්තර සඳහා, බලන්න Card et al. (2010) , Taskforce (2012) , සහ Grusky, Smeeding, and Snipp (2015) .

රජය සංඛ්යානමය ක්රමය, විශේෂයෙන් ම එක්සත් ජනපදය ජන සංගණන මණ්ඩලය තුල සිට පරිපාලන පර්යේෂණ දැක්ම සඳහා, බලන්න Jarmin and O'Hara (2016) . සංඛ්යාලේඛන ස්වීඩනය දී පරිපාලන වාර්තා පර්යේෂණ පොතක් දිග ප්රතිකාර සඳහා, බලන්න Wallgren and Wallgren (2007) .

එම පරිච්ඡේදයේ දී, මම කෙටියෙන් එවැනි ට්විටර් වැනි සමාජ මාධ්ය දත්ත මූලය එවැනි සාමාන්ය සමාජ සමීක්ෂණ (GSS) ලෙස සාම්ප්රදායික සමීක්ෂණ හා සසඳන. සාම්ප්රදායික සමීක්ෂණ හා සමාජ මාධ්ය දත්ත අතර පරිපූර්ණ සහ සන්සන්දනය සඳහා, බලන්න Schober et al. (2016) .

  • විශාල දත්ත පොදු ලක්ෂණ (වගන්තිය 2.3)

විශාල දත්ත මෙම ලක්ෂණ 10 කතෘන් විවිධ විසින් විවිධ ක්රම විවිධ විස්තර කර ඇත. මෙම කරුණු සම්බන්ධයෙන් මගේ චින්තනය බලපා ඇති බව ලිඛිතව ඇතුළත් වේ: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , සහ Goldstone and Lupyan (2016) .

මෙම පරිච්ඡේදයේ පුරා, මම සිතන සාපේක්ෂව උදාසීන යන වචනය ඩිජිටල් අංශු මාත්ර, භාවිතා කර ඇත. ඩිජිටල් අංශු මාත්ර සඳහා තවත් ජනප්රිය යෙදුමක් ඩිජිටල් පා සලකුනු වන්නේ (Golder and Macy 2014) , නමුත් හැල් Abelson, කෙන් Ledeen, සහ හැරී කී්රඩකයා ලෙස (2008) පෙන්වා, වඩාත් සුදුසු කාලීන බොහෝ විට ඩිජිටල් ඇඟිලි සලකුණු වේ. ඔබ පය තබා නිර්මාණය කරන විට, ඔබ කුමක් සිදු වන්නේ ද යන්න ගැන දැනුවත් බව සහ ඔබේ පා සටහන් සාමාන්යයෙන් පෞද්ගලිකව ඔබට ගන්නට නොහැකිය. එම ඔබේ ඩිජිටල් අංශු මාත්ර සඳහා සත්ය නොවේ. ඇත්ත වශයෙන්ම, ඔබ අංශු මාත්ර ඔබ ඉතා සුළු දැනුම ඇති පමණ සියලු කාලය පිට වෙනවා. ඒ වගේම, මේ අංශු මාත්ර ඔවුන් මත ඔබේ නම නැහැ වුවත්, ඔවුන් බොහෝ විට නැවත ඔබ වෙත සම්බන්ධ විය හැක. අදෘශ්යමාන හා පෞද්ගලිකව හඳුනා: වෙනත් වචනවලින් කිවහොත්, ඔවුන් වැඩි ඇඟිලි සලකුණු සමාන ය.

මහා

ගැටලු සහගත සංඛ්යා ලේඛන පරීක්ෂණ පිරිනැමිය ඇයි විශාල දත්ත කට්ටල, තවත් විස්තර සඳහා, බලන්න Lin, Lucas, and Shmueli (2013) හා McFarland and McFarland (2015) . මෙම ගැටළු පර්යේෂකයන් සංඛ්යාන වැදගත්කම වෙනුවට ප්රායෝගික වැදගත්කම පිළිබඳ අවධානය යොමු කිරීමට පොළඹවනු ඇත.

නිතර ම ක්රියාත්මක ව පවතී

දත්ත මත-සෑම විටම සාකච්ඡා කරන විට, එය ඔබේ කාලය පුරා හරියටම සමාන ජනතාව සමග සසඳා ඇත හෝ ඔබ සමහර අය වෙනස් පිරිසක් සංසන්දනය කර තිබේද යන්න සලකා බැලීම සඳහා වැදගත් ය; , උදාහරණයක් ලෙස බලන්න Diaz et al. (2016) .

නොවන ප්රතික්රියාශීලී

-ප්රතික්රියාශීලී නොවන පියවර පිළිබඳ සම්භාව්ය පොත Webb et al. (1966) . පොත පූර්ව-දිනය උදාහරණ ඩිජිටල් යුගයට, නමුත් ඔවුන් තවමත් ඒකාලෝක කර ඇත. නිසා මහජන නිරීක්ෂණ ඉදිරියේ ඔවුන්ගේ හැසිරීම වෙනස් ජනතාවගේ දැනගැනීම සඳහා, බලන්න Penney (2016) හා Brayne (2014) .

අසම්පූර්ණ

වාර්තා සම්බන්ධය ගැන තවත් විස්තර සඳහා, බලන්න Dunn (1946) හා Fellegi and Sunter (1969) (ඓතිහාසික) සහ Larsen and Winkler (2014) (නූතන). සමාන ළඟට ද හඳුනා ගැනීම අනුපිටපත්, එවැනි දත්ත deduplication, නිදසුනක් හඳුනා ගැනීම, නම ගැලපෙන ලෙස නම් යටතේ පරිගණක විද්යාව සංවර්ධනය සහ වාර්තා හඳුනාගැනීම අනුපිටපත් කර ඇත (Elmagarmid, Ipeirotis, and Verykios 2007) . තොරතුරු පෞද්ගලිකව හඳුනා සම්ප්රේෂණය අවශ්ය නොවන වාර්තා සම්බන්ධය පරීක්ෂා කරන ක්රම ආරක්ෂා පෞද්ගලිකත්වය ද පවතී (Schnell 2013) . ෆේස්බුක් ද ඡන්දය ප්රකාශ හැසිරීම ඔවුන්ගේ වාර්තා සම්බන්ධ කිරීමට ඉදිරියට සංවර්ධනය කර ඇති බවත්; මම මේ 4 වන පරිච්ඡේදය තුළ ගැන ඔබට කියන්නම් බව අත්හදා ඇගයීමට සිදු කරන ලදී (Bond et al. 2012; Jones et al. 2013) .

ඉදිකිරීමක් වලංගු ගැන තවත් විස්තර සඳහා, බලන්න Shadish, Cook, and Campbell (2001) , 3 වන පරිච්ඡේදය.

ඇද හැලුණු

මෙම AOL සෙවුම් ලොග අවනඩුව ගැන තවත් විස්තර සඳහා, බලන්න Ohm (2010) . මම අත්හදා බැලීම් විස්තර විට 4 වන පරිච්ඡේදය තුළ සමාගම් සහ ආන්ඩු සමග එක්ව ගැන උපදෙස් ලබා දී ඇත. කතුවරුන් ගණනාවක් බලන්න, ඇද හැලුණු දත්ත මත රඳා සිටින පර්යේෂණ ගැන අවධානය ප්රකාශයට පත්ව ඇත Huberman (2012) හා boyd and Crawford (2012) .

විශ්වවිද්යාලයීය පර්යේෂකයන් දත්ත ප්රවේශ ලබා ගැනීම සඳහා එක් හොඳ ක්රමයක් ලෙස සීමාවාසික හෝ පැමිණ හෝ පර්යේෂකයෙකු ලෙස සමාගම වැඩ කිරීමයි. දත්ත ප්රවේශ හැකියාව අමතරව, මෙම ක්රියාවලිය ද පර්යේෂක දත්ත නිර්මාණය කරන ආකාරය ගැන වැඩි විස්තර දැනගැනීම සඳහා විශ්ලේෂණය සඳහා වැදගත් වන උපකාරී වනු ඇත.

නොවන නියෝජිතයෙකු

නොවන නියොජිත සමස්ත ජනගහනය පිළිබඳ ප්රකාශ නිකුත් කිරීමට බලාපොරොත්තු වන පර්යේෂකයන්ට සහ ආන්ඩු ප්රධාන ප්රශ්නයක්. මෙම සාමාන්යයෙන් ඔවුන්ගේ භාවිතා කරන්නන් කෙරෙහි අවධානය යොමු කරන බව සමාගම් සඳහා අවධානය යොමු අඩු වේ. සංඛ්යාලේඛන නෙදර්ලන්තය ව්යාපාර නියොජිත නොවන විශාල දත්ත නිකුත් සලකන ආකාරය පිළිබඳ වැඩි විස්තර සඳහා, බලන්න Buelens et al. (2014) .

3 වන පරිච්ඡේදය, මම, වඩාත් සවිස්තරාත්මකව නියැදීම් හා තක්ෙසේරු විස්තර කරන්නම්. දත්ත නොවන නියෝජිතයෙකු වුවත්, යම් යම් කොන්දේසි යටතේ, ඔවුන් හොඳ ඇස්තමේන්තු නිෂ්පාදනය කිරීමට බර ගත හැක.

පාවෙන

පද්ධතිය ප්ලාවිතය පිටත සිට දැක, ඉතා දුෂ්කර ය. කෙසේ වෙතත්, MovieLens ව්යාපෘතිය (වැඩි 4 වන පරිච්ඡේදය සාකච්ඡා) ශාස්ත්රීය පර්යේෂණ කණ්ඩායමක් විසින් වසර 15 කට වැඩි කාලයක් පුරා ක්රියාත්මක කර ඇත. ඒ නිසා, ඔවුන් වාර්තා කිරීම සහ බෙදා හදා, කාලයක් පද්ධතිය පරිණාමය වී ඇත? මෙම විශ්ලේෂණය බලපෑමක් ඇති කළ ආකාරය පිළිබඳ තොරතුරු ඇත (Harper and Konstan 2015) .

විද්වතුන් රැසක් ට්විටර් දී ප්ලාවිතය අවධානය යොමුකර ඇති: Liu, Kliman-Silver, and Mislove (2014) හා Tufekci (2014) .

ඇල්ගොරිතම භාවිතයෙන් යුත්තේ කුමන වෙලාවේද

මෙම යෙදුම "ඇල්ගොරිතම භාවිතයෙන් යුත්තේ කුමන වෙලාවේද" කතාවක් ගැන ජෝන් Kleinberg විසින් භාවිතා මම මුලින්ම ආරංචි විය. Performativity හේතු වූ ප්රධාන අදහස සමහර සමාජ විද්යාව න්යායන් "කැමරා නැහැ එන්ජින්" බව ය (Mackenzie 2008) . ඒ ඒ අය ලෝකයේ හැඩගස්වා ඒක අල්ලා වෙනුවට, වේ.

අපිරිසිදු

රාජ්ය සංඛ්යා ලේඛන ආයතන දත්ත පිරිසිදු කිරීම, සංඛ්යාන දත්ත සංස්කරණය සිටිමු. De Waal, Puts, and Daas (2014) සමීක්ෂණ දත්ත සඳහා සංවර්ධනය සංඛ්යාන දත්ත සංස්කරණය ක්රම විස්තර හා ඔවුන් විශාල දත්ත මූලාශ්රයන් සහ අදාළ වන තාක් දුරට පරීක්ෂා Puts, Daas, and Waal (2015) වඩා පොදු ප්රේක්ෂක සඳහා එම අදහස් කිහිපයක් ඉදිරිපත් කරයි.

ට්විටර් දී ස්පෑම් අවධානය යොමු අධ්යනයන් සමහරක් උදාහරණ ලෙස, Clark et al. (2016) සහ Chu et al. (2012) . අවසාන වශයෙන්, Subrahmanian et al. (2016) මෙම ගුවන්ගත වී ට්විටර් බොට් අභියෝගතා ප්රතිඵල විස්තර කරයි.

සංවේදී

Ohm (2015) සංවේදී තොරතුරු යන අදහස මත මීට පෙර පර්යේෂණ සමාලෝචනය කොට, බහු-සාධකය ටෙස්ට් ඉදිරිපත් කරයි. ඔහු යෝජනා සාධක හතරක්: හානියක් සම්භාවිතාව; හානියක් සම්භාවිතාව; රහස්ය සම්බන්ධතාව පැමිණ; හා යන්න අවදානම බහුතරවාදී උත්සුකයන් පිලිබිඹු.

  • ඡන්ද ගණන් කිරීමේ දේවල් (වගන්තිය 2.4.1)

නිව් යෝර්ක් හි ටැක්සි ක ෆාබර් ගේ අධ්යයනය මගින් මීට පෙර අධ්යයනය මත පදනම් විය Camerer et al. (1997) කාලය, අවසන් කාලය, හා සාධාරණ ආරම්භ සංචාරය වාර්තා කිරීමට රියදුරන් විසින් භාවිතා කඩදාසි සංචාරය තහඩු-කඩදාසි ආකෘති විවිධ පහසුව සාම්පල තුනක් භාවිත කළ බව. ඔවුන්ගේ වැටුප් ඉහළ කොහෙද දිනවල ඔවුන් අඩු වැඩ: මෙම පෙර වූ රියදුරන් ඉලක්කය උපයන්නන් බවට පත් වුණා බව සොයාගෙන ඇත.

Kossinets and Watts (2009) , සමාජ ජාල homophily සම්භවය මෙහිදී අවධානය යොමු විය. බලන්න Wimmer and Lewis (2010) ෆේස්බුක් දත්ත යොදා ගන්නා එකම ප්රශ්නය වෙත වෙනස් ආකාරයකින් ළඟා සඳහා.

පසුව වැඩ, රජ හා සගයන් තවදුරටත් චීනයේ සමඟ අමුත්තන් වාරණයක් ගවේෂණය කර ඇත (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . චීනය සමඟ අමුත්තන් වාරණයක් මිනුම් කිරීමට අදාළ ප්රවේශය සඳහා, බලන්න Bamman, O'Connor, and Smith (2012) . භාවිතා එක් වැනි සංඛ්යානමය ක්රම ගැන තවත් විස්තර සඳහා King, Pan, and Roberts (2013) මිලියන 11 තනතුරු මනෝගතීන් තක්සේරු කිරීමට, බලන්න Hopkins and King (2010) . අධීක්ෂණය ඉගෙනුම් ගැන තවත් විස්තර සඳහා, බලන්න James et al. (2013) (අඩු තාක්ෂණික) සහ Hastie, Tibshirani, and Friedman (2009) (වැඩි තාක්ෂණික).

  • අනාවැකිකරණය (වගන්තිය 2.4.2)

ප්රක්ශේපණය කර්මාන්ත දත්ත විද්යා විශාල කොටසක් (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . පොදුවේ සමාජ පර්යේෂකයන් විසින් සිදු කළ බව පුරෝකථනය කිරීම එක් වර්ගය උදාහරණයක් ලෙස, ජනගහන අනාවැකි, වේ Raftery et al. (2012) .

ගූගල් උණ ප්රවණතා ඉන්ෆ්ලුවෙන්සා පැතිරීම nowcast සෙවුම් දත්ත භාවිතා කිරීමේ පළමු ව්යාපෘතිය වූයේ නැත. ඇත්ත වශයෙන්ම, එක්සත් ජනපදය තුල පර්යේෂකයන් (Polgreen et al. 2008; Ginsberg et al. 2009) සහ ස්වීඩනය (Hulth, Rydevik, and Linde 2009) ඇතැම් සෙවුම් පද බව සොයා ගෙන ඇත (උදා: "උණ") ජාතික මහජන සෞඛ්ය නිරීක්ෂණ අනාවැකි එය නිකුත් කරන ලදී පෙර දත්ත. ඉන් අනතුරුව බොහෝ දෙනෙක්, වෙනත් ව්යාපෘති බලන්න, රෝග ආවේක්ෂණ හඳුනාගැනීම සඳහා ඩිජිටල් හෝඩුවාවක් දත්ත භාවිතා කිරීමට උත්සාහ කර ඇති Althouse et al. (2015) සමාලෝචනය සඳහා.

සෞඛ්යය ප්රථිඵල අනාවැකි පළ ඩිජිටල් හෝඩුවාවක් දත්ත භාවිතා අමතරව, මැතිවරණ ප්රතිඵල අනාවැකි පළ ට්විටර් දත්ත භාවිතා වැඩ විශාල මුදලක් ඇති බවත්; විමර්ශන සඳහා බලන්න Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) . (Ch 7) සහ Huberty (2015) .

ඉන්ෆ්ලුවෙන්සා පැතිරීම දකින සහ මැතිවරණ ලෝකයේ අවස්ථාවට යම් ආකාරයක අනාවැකි පළ ඩිජිටල් හෝඩුවාවක් යම් ආකාරයක භාවිතා උදාහරණ දෙකම අනාවැකි පළ ට්විටර් දත්ත භාවිතා කිරීමට සෙවුම් දත්ත භාවිතා කිරීම. මෙම පොදු ව්යුහය ඇති බව පිළිබඳව අධ්යයනය කිරීමේ අතිවිශාල සංඛ්යාවක් ඉන්නවා. වගුව 2.5 වෙනත් උදාහරණ කිහිපයක් ඇතුලත් වේ.

වගුව 2.5: සමහර අවස්ථාව අනාවැකි පළ සමහර ඩිජිටල් හෝඩුවාවක් භාවිතා අධ්යයන අර්ධ ලැයිස්තුව.
ඩිජිටල් හෝඩුවාවක් ප්රතිඵලය සඳහනක්
ට්විටර් එක්සත් ජනපදය තුල චිත්රපට බොක්ස් ඔෆිස් ආදායම් Asur and Huberman (2010)
සොයන්න ලඝු-සටහන් එක්සත් ජනපදය තුල චිත්රපට, සංගීතය, පොත් පත්, සහ වීඩියෝ ක්රීඩා විකුණුම් Goel et al. (2010)
ට්විටර් ඩව් ජෝන්ස් කාර්මික සාමාන්යය (එක්සත් ජනපද කොටස් වෙලඳපොල) Bollen, Mao, and Zeng (2011)
  • ශූන්යයක් සන්නිකර්ෂණය පර්යේෂණ (වගන්තිය 2.4.3)

එම සඟරාව ප්රාදේශීය දේශපාලන විද්යාව විශාල දත්ත, සරළ, දෘෂ්යක, සහ විධිමත් න්යාය මත සම්මන්ත්රණයක් තිබූ අතර Clark and Golder (2015) එක් එක් දායකත්වය සාරාංශ කරයි. එම සඟරාව වැඩ කටයුතු ඇමරිකා එක්සත් ජනපදයේ ජාතික විද්යා ඇකඩමියේ පොදු අනුමානය විශ්වාසනීයත්වයක් හා මහා දත්ත මත සම්මන්ත්රණයක් තිබූ අතර Shiffrin (2016) එක් එක් දායකත්වය සාරාංශ කරයි.

ස්වභාවික පර්යේෂණ අනුව, Dunning (2012) විශිෂ්ට කෘතියක් දිග ප්රතිකාර සපයයි. ස්වභාවික අත්හදා ලෙස වියට්නාම් කෙටුම්පත ලොතරැයි භාවිතා තවත් විස්තර සඳහා, බලන්න Berinsky and Chatfield (2015) . විශාල දත්ත මූලාශ්රයන් ඇතුළත ස්වාභාවික පර්යේෂණ ස්වයංක්රීයව සොයා ගැනීමට උත්සාහ කරන යන්ත්රය ඉගෙනුම් ප්රවේශයන් සඳහා, බලන්න Jensen et al. (2008) හා Sharma, Hofman, and Watts (2015) .

ගැලපෙන අනුව, ශුභවාදී සමාලෝචනය සඳහා, බලන්න Stuart (2010) , සහ අසුභවාදී සමාලෝචනය සඳහා බලන්න Sekhon (2009) . කප්පාදු කාරුණික ලෙස හා ගැලපෙන වෙනස්වීම් ගැන තවත් විස්තර සඳහා, බලන්න Ho et al. (2007) . ගැලපෙන විශිෂ්ට ප්රතිකාර ලබා දෙන පොත් සඳහා, බලන්න Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , සහ Imbens and Rubin (2015) .