మరింత వ్యాఖ్యానం

ఈ విభాగం ఒక కధనం చదవబడుతుంది కాకుండా, ఒక సూచన వలె ఉపయోగించవచ్చు రూపొందించబడింది.

  • పరిచయం (విభాగము 2.1)

ఈ అధ్యాయంలో చేర్చబడలేదు గమనించి ఒక రకమైన శాస్త్రంతో ఉంది. డిజిటల్ ప్రదేశాల్లో మానవజాతి శాస్త్రంపై మరింత కొరకు చూడండి Boellstorff et al. (2012) , మరియు మిశ్రమ డిజిటల్ మరియు భౌతిక ప్రదేశం లో మానవజాతి శాస్త్రంపై మరింత చూడండి Lane (2016) .

  • బిగ్ డేటా (విభాగము 2.2)

మీరు డేటా repurposing చేసినప్పుడు, మీరు ఎదుర్కునే ఉండవచ్చు అవకాశం సమస్యలు అర్థం చేసుకోవడానికి చేసే రెండు మానసిక ఉపాయాలు ఉన్నాయి. మొదట, మీరు మీ సమస్య కోసం ఆదర్శ డేటాసెట్ ఊహించవచ్చు ప్రయత్నించండి మరియు మీరు ఉపయోగిస్తున్న డేటాసెట్ ఆ సరిపోల్చండి. ఎలా వారు పోలి ఉంటాయి మరియు వారు వివిధ ఎలా ఉంటాయి? మీరు మీ డేటా మిమ్మల్ని సేకరించడానికి లేదు ఉంటే, మీరు ఏమి మరియు మీరు కలిగి ఏమి మధ్య వ్యత్యాసం ఉండే అవకాశం. కానీ, మీరు ఈ తేడాలు చిన్న లేదా ప్రధాన ఉంటే నిర్ణయించుకుంటారు ఉంటుంది.

రెండవది, ఎవరైనా రూపొందించినవారు మరియు కొన్ని కారణం మీ డేటాను సేకరించిన గుర్తుంచుకోవాలి. మీరు వారి రీజనింగ్ అర్ధం ప్రయత్నించాలి. రివర్స్ ఇంజనీరింగ్ ఈ రకం మీ repurposed డేటాలోని సాధ్యం సమస్యలు మరియు పక్షపాతాలు గుర్తించడానికి సహాయపడుతుంది.

అక్కడ "పెద్ద డేటా" ఏ ఒక్క ఏకాభిప్రాయం నిర్వచనం, కానీ అనేక నిర్వచనాలు 3 Vs దృష్టి కనిపిస్తుంది: (ఉదా, వాల్యూమ్, వివిధ, మరియు వేగం Japec et al. (2015) ). అయితే డేటా లక్షణాలపై దృష్టి సారించకుండా, నా నిర్వచనం డేటా రూపొందించారు ఎందుకు పై దృష్టి పెడుతుంది.

పెద్ద డేటా వర్గం లోపల ప్రభుత్వం అడ్మినిస్ట్రేటివ్ డేటా యొక్క నా చేర్చడం ఒక బిట్ అసాధారణంగా ఉంది. ఈ సందర్భంలో తయారు చేసిన ఇతరులు, ఉన్నాయి Legewie (2015) , Connelly et al. (2016) , మరియు Einav and Levin (2014) . పరిశోధన కోసం ప్రభుత్వం అడ్మినిస్ట్రేటివ్ డేటా విలువ గురించి మరింత సమాచారం కోసం, చూడండి Card et al. (2010) , Taskforce (2012) , మరియు Grusky, Smeeding, and Snipp (2015) .

ప్రభుత్వం గణాంక వ్యవస్థ, ముఖ్యంగా US సెన్సస్ బ్యూరో లోపల నుండి పరిపాలనా పరిశోధన యొక్క ఒక వీక్షణ కోసం, చూడండి Jarmin and O'Hara (2016) . స్టాటిస్టిక్స్ స్వీడన్ పరిపాలనా రికార్డులు పరిశోధన యొక్క ఒక పుస్తకం పొడవు చికిత్స కోసం, చూడండి Wallgren and Wallgren (2007) .

అధ్యాయం లో, నేను సంక్షిప్తంగా సాధారణ సామాజిక సర్వే (GSS) ట్విట్టర్ వంటి సోషల్ మీడియా డేటాను మూలానికి సంబంధించి సంప్రదాయ సర్వే పోలిస్తే. సంప్రదాయ సర్వేలు మరియు సామాజిక మీడియా డేటాను మధ్య క్షుణ్ణంగా మరియు జాగ్రత్తగా పోలిక కోసం, చూడండి Schober et al. (2016) .

  • పెద్ద డేటా యొక్క సాధారణ లక్షణాలు (విభాగం 2.3)

పెద్ద డేటా ఈ 10 లక్షణాలు వివిధ రచయితలు వివిధ రకాలుగా వివిధ వివరించిన చేశారు. ఈ అంశాలపై నా ఆలోచన ప్రభావితం రాయడం ఉన్నాయి: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , మరియు Goldstone and Lupyan (2016) .

ఈ అధ్యాయం అంతటా, నేను సాపేక్షంగా తటస్థ భావిస్తున్నాను పదం డిజిటల్ జాడలను ఉపయోగించి. డిజిటల్ జాడలు కోసం మరొక ప్రముఖ పదం డిజిటల్ పాదముద్రలు ఉంది (Golder and Macy 2014) , కానీ హాల్ అబెల్సన్, కెన్ Ledeen మరియు హ్యారీ లూయిస్ వంటి (2008) , ఎత్తి చూపుతూ సరైన పదం బహుశా డిజిటల్ వేలిముద్రలు ఉంది. మీరు పాదముద్రలు రూపొందించినప్పుడు, మీరు ఏమి జరుగుతుందో మరియు మీ పాదముద్రలు సాధారణంగా వ్యక్తిగతంగా మీకు కనుగొనలేక పోవచ్చు తెలుసుకునే. అదే మీ డిజిటల్ జాడలు నిజం కాదు. నిజానికి, మీరు జాడలు మీరు చాలా తక్కువ జ్ఞానం కలిగి గురించి అన్ని సమయం వదిలేస్తున్నారు. మరియు ఈ జాడలు వాటిని మీ పేరు లేని అయినప్పటికీ, ఇవి తరచుగా మీరు తిరిగి లింక్ చేయవచ్చు. అదృశ్య మరియు వ్యక్తిగతంగా గుర్తించడం: ఇతర మాటలలో, వారు మరింత వేలిముద్రలు వంటివే.

బిగ్

ఎందుకు పెద్ద డేటాసెట్ సమస్యాత్మకం గణాంక రెండర్ పరీక్షలు మరింత కోసం, చూడండి Lin, Lucas, and Shmueli (2013) మరియు McFarland and McFarland (2015) . ఈ సమస్యలు గణాంక ప్రాముఖ్యత కాకుండా ప్రాయోగిక ప్రాముఖ్యత దృష్టి పరిశోధకులు దారి ఉండాలి.

ఎప్పుడూ

పరిగణించేటప్పుడు ఎప్పుడూ డేటా, అది ముఖ్యమైన మీరు కాలక్రమేణా ఖచ్చితమైన అదే ప్రజలు పోల్చడం లేదా మీరు ప్రజలు కొన్ని మారుతున్న సమూహం పోల్చడం లేదో లేదో పరిగణించాలి ఉంది; ఉదాహరణకు చూడండి, Diaz et al. (2016) .

ప్రతిచర్య లేని

కాని రియాక్టివ్ ప్రమాణాలను ఒక క్లాసిక్ పుస్తకం Webb et al. (1966) . ఉదాహరణలు పుస్తకం ముందే తేదీ లో డిజిటల్ వయస్సు, కానీ వారు ఇప్పటికీ ప్రకాశ ఉంటాయి. ఉదాహరణలు ఎందుకంటే సామూహిక నిఘా ఉనికిని వారి ప్రవర్తనను మార్చివేసిన ప్రజల కోసం, చూడండి Penney (2016) మరియు Brayne (2014) .

అసంపూర్ణ

రికార్డు లింకేజ్ మరింత కోసం, చూడండి Dunn (1946) మరియు Fellegi and Sunter (1969) (చారిత్రక) మరియు Larsen and Winkler (2014) (ఆధునిక). వంటి డేటా నకలు తీసివేసే, ఉదాహరణకు గుర్తింపు, పేరు మ్యాచింగ్ ఇలాంటి వద్దకు కూడా పేర్లతో కంప్యూటర్ సైన్స్ లో అభివృద్ధి చేయబడ్డాయి, గుర్తింపును నకిలీ, మరియు రికార్డు గుర్తింపును నకిలీ (Elmagarmid, Ipeirotis, and Verykios 2007) . గోప్యతా ఇది వ్యక్తిగతంగా గుర్తింపు సమాచారాన్ని ప్రసారం చేయటాన్ని అవసరం లేదు లింకేజ్ రికార్డ్ విధానాలు పరిరక్షించే కూడా ఉన్నాయి (Schnell 2013) . ఫేస్బుక్ కూడా ఓటింగ్ ప్రవర్తనకు వారి రికార్డులు లింక్ వెళ్లండి అభివృద్ధి చేసింది; ఈ నేను చాప్టర్ 4 గురించి మీరు చెప్పండి చేస్తాము ఒక ప్రయోగం విశ్లేషించడానికి జరిగింది (Bond et al. 2012; Jones et al. 2013) .

నిర్మాణం చెల్లుబాటును మరింత కోసం, చూడండి Shadish, Cook, and Campbell (2001) , అధ్యాయం 3.

అసాధ్యమైన

AOL సెర్చ్ లాగ్ ఓటమి మరింత కోసం, చూడండి Ohm (2010) . నేను ప్రయోగాలు వివరించినప్పుడు నేను కంపెనీలు మరియు అధ్యాయము 4 ప్రభుత్వాలు భాగస్వామ్యంతో గురించి సలహాలు ఇచ్చారు. రచయితల అనేక లభ్యంకాని డేటా ఆధారపడుతుంది పరిశోధన గురించి ఆందోళనలు వ్యక్తం చేశారు చూడటానికి Huberman (2012) మరియు boyd and Crawford (2012) .

విశ్వవిద్యాలయ పరిశోధకులు సమాచారాన్ని యాక్సెస్ సాధించటం కోసం ఒక మంచి మార్గం ఒక ఇంటర్న్ లేదా సందర్శించడం పరిశోధకుడు ఒక సంస్థ వద్ద పని ఉంది. డేటా యాక్సెస్ ఎనేబుల్ పాటు, ఈ ప్రక్రియ కూడా పరిశోధకుడు ఎలా విశ్లేషణకు ముఖ్యం ఇది, డేటా రూపొందించారు గురించి మరింత తెలుసుకోవడానికి సహాయపడుతుంది.

కాని ప్రతినిధి

కాని representativeness మొత్తం జనాభాకు గురించి ప్రకటనలు చేయాలనుకునే పరిశోధకులు, ప్రభుత్వాలకు పెద్ద సమస్య. ఈ సాధారణంగా వారి వినియోగదారులపై దృష్టి పనిచేసే సంస్థలకు ఆందోళన తక్కువ. గణాంకాలు నెదర్లాండ్స్ వ్యాపార పెద్ద డేటా కాని representativeness సమస్య భావిస్తుంది ఎలా గురించి మరింత తెలుసుకోవడానికి, చూడండి Buelens et al. (2014) .

భాగం 3 లో, నేను ఎక్కువగా వివరాలు నమూనా మరియు అంచనాలో వివరించడానికి చేస్తాము. డేటా కాని ప్రతినిధి, కొన్ని పరిస్థితుల్లో పోయినా, వారు మంచి అంచనాలు ఉత్పత్తి బరువు చేయవచ్చు.

కూరుకుపోయే

వ్యవస్థ చలనం బయట నుండి చూడటానికి చాలా కష్టం. అయితే, MovieLens ప్రాజెక్ట్ (చాప్టర్ 4 మరింత చర్చించారు) ఒక విద్యా పరిశోధనా బృందం కోసం కంటే ఎక్కువ 15 సంవత్సరాల అమలు చేయబడింది. అందువల్ల, వారు డాక్యుమెంట్ మరియు భాగస్వామ్యం వ్యవస్థ కాలానుగుణంగా మారుతూ ఉంది ఆ విధంగా మరియు ఎలా గురించి సమాచారాన్ని ఈ ప్రభావితం చేయవచ్చు విశ్లేషణ (Harper and Konstan 2015) .

పండితులు అనేక ట్విట్టర్ లో చలనం దృష్టి సారించాయి: Liu, Kliman-Silver, and Mislove (2014) మరియు Tufekci (2014) .

యాంత్రికంగా అయోమయానికి

నేను మొదటి పదం ఒక చర్చ జోన్ Kleinberg ఉపయోగించిన "యాంత్రికంగా అయోమయానికి" విన్నారు. Performativity వెనుక ప్రధాన ఆలోచన కొన్ని సామాజిక శాస్త్రం సిద్ధాంతాలు "ఇంజిన్లు కెమెరాలు" అని ఉంది (Mackenzie 2008) . అంటే, అవి నిజానికి ప్రపంచ ఆకృతిలో కాకుండా కేవలం అది పట్టుకుని.

డర్టీ

ప్రభుత్వ గణాంక సంస్థలు శుద్ధి డేటా, గణాంక డేటా సవరణ కాల్. De Waal, Puts, and Daas (2014) వర్ణించేందుకు సర్వే డేటా కోసం అభివృద్ధి గణాంక డేటా సవరణ పద్ధతులు మరియు ఇది మేరకు వారు పెద్ద డేటా మూలాల వరకు వర్తిస్తుంది, మరియు పరిశీలించడానికి Puts, Daas, and Waal (2015) ఒక సాధారణ ప్రేక్షకుల కోసం అదే ఆలోచనలు కొన్ని అందిస్తుంది.

ట్విట్టర్, స్పామ్ పై దృష్టి అధ్యయనాలు కొన్ని ఉదాహరణల కోసం Clark et al. (2016) మరియు Chu et al. (2012) . చివరగా, Subrahmanian et al. (2016) ది DARPA ట్విట్టర్ బొట్ ఛాలెంజ్ ఫలితాలు వివరిస్తుంది.

సున్నితమైన

Ohm (2015) సున్నితమైన సమాచారాన్ని భావనకు మునుపటి పరిశోధనలో సమీక్షిస్తుంది మరియు ఒక బహుళ కారకాల పరీక్ష అందిస్తుంది. అతను ప్రతిపాదించాడు నాలుగు అంశాలు ఉన్నాయి: హాని సంభావ్యత; హాని సంభావ్యత; ఒక రహస్య సంబంధాన్ని ఉనికిని; మరియు majoritarian ఆందోళనలు ప్రతిబింబిస్తాయి ప్రమాదం లేదో.

  • విషయాలు లెక్కింపు (విభాగం 2.4.1)

న్యూ యార్క్ లో టాక్సీలు ఐ అధ్యయనం చేసిన ముందస్తు అధ్యయనం ఆధారంగా Camerer et al. (1997) కాగితం యాత్ర ట్రిప్ ప్రారంభం సమయాన్ని నమోదు డ్రైవర్లు ఉపయోగించే షీట్లు కాగితం రూపాలు, ముగింపు సమయం, మరియు ఛార్జీల మూడు వేర్వేరు సౌలభ్యం నమూనాలను ఉపయోగించి ఉంటాడు. వారు ఎక్కడ తమ వేతనాలు అధికంగా ఉన్నాయి రోజులలో తక్కువ పని: ఈ ముందువి అధ్యయనం డ్రైవర్లు లక్ష్యం సంపాదించే అనిపించింది దొరకలేదు.

Kossinets and Watts (2009) లలో homophily యొక్క మూలాలపై దృష్టి కేంద్రీకరించింది. చూడండి Wimmer and Lewis (2010) Facebook నుండి డేటా ఉపయోగిస్తుంది దీనిలో అదే సమస్యకు వేరే విధానం కోసం.

తదుపరి పనిలో, కింగ్ మరియు సహచరులు మరింత చైనా లో ఆన్లైన్ సెన్సార్షిప్ అన్వేషించారు చేశారు (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . చైనా లో ఆన్లైన్ సెన్సార్షిప్ కొలిచే ఒక సంబంధిత విధానం కోసం, చూడండి Bamman, O'Connor, and Smith (2012) . లో ఉపయోగించే ఒక వంటి గణాంక పద్ధతులు మరింత కోసం King, Pan, and Roberts (2013) , 11 మిలియన్ పోస్ట్ సెంటిమెంట్ అంచనా చూడండి Hopkins and King (2010) . పర్యవేక్షక అభ్యాసంలో మరింత కోసం, చూడండి James et al. (2013) (తక్కువ సాంకేతిక) మరియు Hastie, Tibshirani, and Friedman (2009) (మరిన్ని టెక్నికల్).

  • ఫోర్కాస్టింగ్ (విభాగం 2.4.2)

ఫోర్కాస్టింగ్ పారిశ్రామిక ఉత్పత్తి సూచీ శాస్త్రం యొక్క ఒక పెద్ద భాగం (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . సాధారణంగా సామాజిక పరిశోధకులు జరుగు అంచనా యొక్క ఒక రకం ఉదాహరణకు, జనాభా అంచనా ఉన్నాయి Raftery et al. (2012) .

Google ఫ్లూ ట్రెండ్లులో ఇన్ఫ్లుఎంజా ప్రాబల్యం nowcast శోధన డేటాను ఉపయోగించడానికి మొదటి ప్రాజెక్ట్ కాదు. నిజానికి, యునైటెడ్ స్టేట్స్ లో పరిశోధకులు (Polgreen et al. 2008; Ginsberg et al. 2009) మరియు స్వీడన్ (Hulth, Rydevik, and Linde 2009) కొన్ని శోధన పదాలను (ఉదా, "ఫ్లూ") జాతీయ ప్రజారోగ్య నిఘా అంచనా కనుగొన్నారు అది ముందు డేటా విడుదలైంది. తదనంతరం అనేక ఇతర ప్రాజెక్టులు, వ్యాధి నిఘా గుర్తింపును కోసం డిజిటల్ గుర్తింపు డేటాను ఉపయోగించడానికి చూడటానికి ప్రయత్నించారు Althouse et al. (2015) ఒక సమీక్ష కోసం.

ఆరోగ్య ఫలితాలను అంచనా డిజిటల్ గుర్తింపు డేటాను ఉపయోగించి పాటు, అక్కడ కూడా ఎన్నికల ఫలితాలను అంచనా ట్విట్టర్ డేటా ఉపయోగించి పని ఒక భారీ మొత్తం ఉంది; సమీక్షలు చూడండి Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) మరియు Huberty (2015) .

ఇన్ఫ్లుఎంజా ప్రాబల్యం అంచనా వేయడం మరియు ఎన్నికలు రెండిటికీ ఉదాహరణలు కార్యక్రమంలో ప్రపంచంలోనే రకమైన అంచనా డిజిటల్ ట్రేస్ రకమైన ఉపయోగించి ఊహించడానికి ట్విట్టర్ డేటా ఉపయోగించి శోధన డేటా ఉపయోగించి. ఈ సాధారణ వ్యవస్థను కలిగి ఉంటుంది అధ్యయనాలు అపారమైన సంఖ్య. టేబుల్ 2.5 కొన్ని ఇతర ఉదాహరణలను పొందుపర్చింది.

టేబుల్ 2.5: అధ్యయనాలు పాక్షిక జాబితా కొన్ని ఈవెంట్ అంచనా కొన్ని డిజిటల్ ట్రేస్ ఉపయోగించండి.
డిజిటల్ ట్రేస్ ఫలితం citation
ట్విట్టర్ సంయుక్త చిత్రాలలో బాక్సాఫీసు ఆదాయం Asur and Huberman (2010)
శోధన లాగ్లను సంయుక్త లో సినిమాలు, సంగీతం, పుస్తకాలు మరియు వీడియో గేమ్స్ యొక్క సేల్స్ Goel et al. (2010)
ట్విట్టర్ డౌ జోన్స్ ఇండస్ట్రియల్ యావరేజ్ (US స్టాక్ మార్కెట్) Bollen, Mao, and Zeng (2011)
  • దాదాపు ప్రయోగాలు (విభాగం 2.4.3)

పత్రిక PS పొలిటికల్ సైన్స్ పెద్ద డేటా, కారణ అనుమితి మరియు క్రమబద్ధ సిద్ధాంతంలో ఒక సింపోజియంలో కలిగి, మరియు Clark and Golder (2015) ప్రతి సహకారం క్రింద ఇవ్వబడింది. అమెరికా సంయుక్త రాష్ట్రాలు సైన్సెస్ నేషనల్ అకాడమీ ఆఫ్ పత్రిక ప్రొసీడింగ్స్ కారణ అనుమితి మరియు పెద్ద డేటా ఒక సింపోజియంలో కలిగి, మరియు Shiffrin (2016) ప్రతి సహకారం క్రింద ఇవ్వబడింది.

సహజ ప్రయోగాలు పరంగా, Dunning (2012) ఒక అద్భుతమైన పుస్తకం పొడవు చికిత్స అందిస్తుంది. ఒక సహజ ప్రయోగం వియత్నాం డ్రాఫ్ట్ లాటరీ ఉపయోగించి గురించి మరింత సమాచారం కోసం, చూడండి Berinsky and Chatfield (2015) . స్వయంచాలకంగా లోపల పెద్ద డేటా మూలాల సహజ ప్రయోగాలు తెలుసుకుంటారు ప్రయత్నించే యంత్ర అభ్యాస విధానాలు కోసం, చూడండి Jensen et al. (2008) మరియు Sharma, Hofman, and Watts (2015) .

మ్యాచింగ్ పరంగా, ఒక ఆశావాద సమీక్ష కోసం, చూడండి Stuart (2010) , మరియు ఒక నిరాశావాద సమీక్ష కోసం చూడండి Sekhon (2009) . కత్తిరింపు ఒక రకమైన సరిపోలే మరింత కోసం, చూడండి Ho et al. (2007) . సరిపోలు యొక్క అద్భుతమైన చికిత్సలు అందించే పుస్తకాలు కోసం, చూడండి Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , మరియు Imbens and Rubin (2015) .