ytterligere kommentarer

Denne delen er utformet for å bli brukt som en referanse, i stedet for å bli lest som en fortelling.

  • Innledning (§ 5.1)

Mass samarbeid blander ideer fra statsborger vitenskap, crowdsourcing og kollektiv intelligens. Citizen vitenskap betyr vanligvis involverer "borgere" (dvs. ikke-forskere) i den vitenskapelige prosessen (Crain, Cooper, and Dickinson 2014) . Crowdsourcing betyr vanligvis tar et problem vanligvis løses innenfor en organisasjon og i stedet outsourcing den til en folkemengde (Howe 2009) . Kollektiv intelligens betyr vanligvis grupper av enkeltpersoner som opptrer kollektivt på måter som virker intelligent (Malone and Bernstein 2015) . Nielsen (2012) er en fantastisk bok-lengde innføring i kraft av masse samarbeid for vitenskapelig forskning.

Det finnes mange typer masse samarbeid som ikke passer pent inn i tre kategorier som jeg foreslått, og jeg tror tre fortjener spesiell oppmerksomhet fordi de kan være nyttig i samfunnsforskning på et tidspunkt. Et eksempel er prediksjon markeder, der deltakerne kjøper og varekontrakter som innløses basert på resultater som oppstår i verden (Wolfers and Zitzewitz 2004; Arrow et al. 2008) . Forutsi markeder er ofte brukt av bedrifter og regjeringer for prognoser, og forutsi markeder har også blitt brukt av sosiale forskere å forutsi replikerbarhet av publiserte studier i psykologi (Dreber et al. 2015) .

Et annet eksempel som ikke passer godt inn i min kategorisering ordningen er polymath prosjekt, der forskerne har samarbeidet ved hjelp av blogger og wikier for å påvise nye matematiske teoremer (Gowers and Nielsen 2009; Cranshaw and Kittur 2011; Nielsen 2012; Kloumann et al. 2016) . Den polymath prosjektet er på noen måter ligner på Netflix-prisen, men i renessansemenneske prosjektdeltakerne mer aktivt bygget på delløsninger andres.

Et tredje eksempel som ikke passer godt inn i min kategorisering ordningen er tidsavhengige mobilisert for eksempel Defense Advanced Research Projects Agency (DARPA) Network Challenge (dvs. Red Balloon Challenge). For mer om disse tidssensitive mobilisert se Pickard et al. (2011) , Tang et al. (2011) , og Rutherford et al. (2013) .

  • Menneskelig beregningen (punkt 5.2)

Begrepet "human beregning" kommer ut av arbeid utført av dataforskere, og forstå sammenhengen bak denne forskningen vil forbedre din evne til å plukke ut problemer som kan være mottakelig for det. For enkelte oppgaver, datamaskiner er utrolig kraftig med evner som langt overgår selv dyktige mennesker. For eksempel, i sjakk, kan datamaskiner slå selv de beste grand masters. Men-og dette er mindre verdsatt av samfunnsvitere-til andre oppgaver, datamaskiner er faktisk mye verre enn folk. Med andre ord, akkurat nå er du bedre enn selv de mest avanserte datamaskin på visse oppgaver som involverer behandling av bilder, video, lyd og tekst. Dermed-som ble illustrert med et fantastisk XKCD tegneserie-det er oppgaver som er lett for datamaskiner og vanskelig for folk, men det er også oppgaver som er vanskelig for datamaskiner og enkelt for folk (figur 5.13). IT-forskere som arbeider med disse hardt for-datamaskiner-lett-for-menneskelige oppgaver, derfor innså at de kunne inkludere mennesker i sin beregningsprosessen. Slik Luis von Ahn (2005) beskrev menneskets beregningen når han først innførte begrepet i sin avhandling: ". Et paradigme for å utnytte menneskelig prosessorkraft til å løse problemer som datamaskiner ennå ikke kan løse"

Figur 5.13: For noen oppgaver datamaskiner er fantastisk, over evne menneskelige eksperter. Men, for andre oppgaver, kan vanlige mennesker utkonkurrere selv avanserte datamaskiner systemer. Store problemer ved oppgaver som er vanskelig for datamaskiner og lett for mennesker er velegnet for human beregning. Brukes i henhold til vilkårene som er beskrevet her: http://xkcd.com/license.html

Figur 5.13: For noen oppgaver datamaskiner er fantastisk, over evne menneskelige eksperter. Men, for andre oppgaver, kan vanlige mennesker utkonkurrere selv avanserte datamaskiner systemer. Store problemer ved oppgaver som er vanskelig for datamaskiner og lett for mennesker er velegnet for human beregning. Brukes i henhold til vilkårene som er beskrevet her: http://xkcd.com/license.html

Ved denne definisjonen FoldIt-som jeg beskrev i avsnittet om åpne utlysninger-kan anses som en menneskelig beregning prosjekt. Jeg velger imidlertid å kategorisere FoldIt som en åpen samtale fordi det krever spesialisert kompetanse og det tar den beste løsningen bidratt stedet for å bruke en split-søke-kombinere strategi.

For en utmerket bok lengde behandling av menneskelig beregning, i den mest generelle betydningen av ordet, se Law and Ahn (2011) . Kapittel 3 i Law and Ahn (2011) har en interessant diskusjon av mer komplekse kombinerer trinn enn de som i dette kapittelet.

Begrepet "split-søke-kombinere" ble brukt av Wickham (2011) for å beskrive en strategi for statistisk databehandling, men det perfekt fanger prosessen med mange menneskelige beregnings prosjekter. Den split-søke-kombinere strategi er lik den MapReduce rammeverk utviklet hos Google (Dean and Ghemawat 2004; Dean and Ghemawat 2008) .

To smarte menneskelige beregnings prosjekter som jeg ikke har plass til å diskutere er ESP spill (Ahn and Dabbish 2004) og reCAPTCHA (Ahn et al. 2008) . Begge disse prosjektene funnet kreative måter å motivere deltakerne til å gi etikettene på bilder. Men begge disse prosjektene også reist etiske spørsmål fordi, i motsetning til Galaxy Zoo, fikk deltakerne i ESP spill og reCAPTCHA ikke vet hvordan deres data ble brukt (Lung 2012; Zittrain 2008) .

Inspirert av ESP Spillet har mange forskere forsøkt å utvikle andre "spill med et formål" (Ahn and Dabbish 2008) (dvs. "menneske-basert beregnings spill" (Pe-Than, Goh, and Lee 2015) ) som kan være brukes til å løse en rekke andre problemer. Hva disse "spillene med et formål" har til felles er at de prøver å gjøre de oppgavene som er involvert i menneskelig beregning fornøyelig. Således, mens ESP Spill deler samme split-søke-kombinere struktur med Galaxy Zoo, skiller den seg i hvordan deltakerne er motivert-moro vs. ønske om å hjelpe vitenskap.

Min beskrivelse av Galaxy Zoo trekker på Nielsen (2012) , Adams (2012) , Clery (2011) , og Hand (2010) , og min presentasjon av forskning mål av Galaxy Zoo ble forenklet. For mer om historien til galaksen klassifisering i astronomi og hvordan Galaxy Zoo fortsetter denne tradisjonen, se Masters (2012) og Marshall, Lintott, and Fletcher (2015) . Bygger på Galaxy Zoo, forskerne gjennomført Galaxy Zoo 2 som samlet inn mer enn 60 millioner mer komplekse morfologiske klassifikasjoner fra frivillige (Masters et al. 2011) . Videre, de forgrenet seg inn i problemer utenfor galaksen morfologi inkludert utforske overflaten på månen, søker etter planeter, og transkribere gamle dokumenter. Foreløpig er alle sine prosjekter samlet på www.zooniverse.org (Cox et al. 2015) . Ett av prosjektene-Snapshot Serengeti-gir bevis for at Galaxy Zoo-type bilde klassifiserings prosjekter kan også gjøres for miljøforskning (Swanson et al. 2016) .

For forskerne planlegger å bruke en mikro-oppgave arbeidsmarkedet (f.eks Amazon Mechanical Turk) for et menneske beregning prosjekt, Chandler, Paolacci, and Mueller (2013) og Wang, Ipeirotis, and Provost (2015) gir gode råd om oppgaven design og andre relaterte spørsmål.

Forskere er interessert i å lage det jeg har kalt andre generasjons menneskeberegningssystemer (for eksempel systemer som bruker menneskelige etiketter for å trene en maskinlæring modell) kan være interessert i Shamir et al. (2014) (for eksempel ved bruk av lyd) og Cheng and Bernstein (2015) . Dessuten kan disse prosjektene gjøres med åpne samtaler, der forskere konkurrerer om å lage maskinlæringsmodeller med størst prediktiv ytelse. For eksempel Galaxy Zoo teamet kjørte en åpen samtale og funnet en ny tilnærming som gjorde det bedre enn en utviklet i Banerji et al. (2010) ; se Dieleman, Willett, and Dambre (2015) for detaljer.

  • Åpne anrop (§ 5.3)

Åpne samtaler er ikke ny. Faktisk, datoer en av de mest kjente åpne utlysninger tilbake til 1714 da Storbritannias Stortinget opprettet The Lengdeprisen for alle som kan utvikle en måte å bestemme lengdegraden av et skip på havet. Problemet stabbet mange av de største vitenskapsmenn dagene, blant annet Isaac Newton, og vinner løsningen ble til slutt presentert av en clockmaker fra landsbygda som nærmet seg problemet på en annen måte fra forskere som ble fokusert på en løsning som liksom ville innebære astronomi (Sobel 1996) . Som dette eksemplet viser, en av grunnene til at åpne samtaler er tenkt å fungere så godt, er at de gir tilgang til mennesker med ulike perspektiver og ferdigheter (Boudreau and Lakhani 2013) . Se Hong and Page (2004) og Page (2008) for mer om verdien av mangfold i problemløsning.

Hver av de åpne samtale tilfeller i kapitlet krever litt mer forklaring på hvorfor det hører hjemme i denne kategorien. Først en måte som jeg skille mellom menneskelig beregning og åpen samtale prosjekter er om utgangen er et gjennomsnitt av alle løsningene (human beregning) eller den beste løsningen (åpen samtale). Netflix-prisen er litt vanskelig i denne sammenheng fordi den beste løsningen viste seg å være en sofistikert gjennomsnitt av individuelle løsninger, en nærmet kalles et ensemble løsning (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Fra perspektivet til Netflix, men alt de måtte gjøre var å plukke den beste løsningen.

For det andre, av noen definisjoner av menneskelig beregning (f.eks Von Ahn (2005) ), FoldIt bør betraktes som en menneskelig beregning prosjekt. Jeg velger imidlertid å kategorisere FoldIt som en åpen samtale fordi det krever spesialisert kompetanse og det tar den beste løsningen bidratt, heller enn å bruke en split-søke-kombinere strategi.

Endelig kunne man hevde at Peer-to-Patent er et eksempel på distribuerte datainnsamlingen. Jeg velger å ta det som en åpen samtale fordi den har en konkurranse-lignende struktur og kun de beste bidragene blir brukt (mens med distribuert datainnsamling, er mindre klart ideen om gode og dårlige bidrag).

For mer om Netflix-prisen, se Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , og Feuerverger, He, and Khatri (2012) . For mer om FoldIt se, Cooper et al. (2010) , Andersen et al. (2012) , og Khatib et al. (2011) ; min beskrivelse av FoldIt trekker på beskrivelser i Nielsen (2012) , Bohannon (2009) , og Hand (2010) . For mer om Peer-to-Patent, se Noveck (2006) , Bestor and Hamp (2010) , Ledford (2007) , og Noveck (2009) .

I likhet med resultatene av Glaeser et al. (2016) , Mayer-Schönberger and Cukier (2013) , kapittel 10 rapporter store gevinster i produktiviteten av boliger inspektører i New York når inspeksjoner blir guidet av prediktive modeller. I New York City, ble disse prediktive modeller bygget av byen ansatte, men i andre tilfeller kan man tenke seg at de kunne bli opprettet eller forbedres med åpne samtaler (f.eks Glaeser et al. (2016) ). Men en stor utfordring med prediktive modeller som brukes til å allokere ressurser er at modellene har potensial til å forsterke eksisterende skjevheter. Mange forskere allerede vet "søppel inn, søppel ut", og med prediktive modeller kan det være "skjevhet i, skjevhet ut.» Se Barocas and Selbst (2016) og O'Neil (2016) for mer om farene ved prediktive modeller bygget med forutinntatte treningsdata.

Et problem som kan hindre myndighetene i å bruke åpne konkurranser er at det krever data utgivelsen, som kan føre til brudd på personvernet. For mer om personvern og data utgivelse i åpne utlysninger se Narayanan, Huey, and Felten (2016) og diskusjonen i kapittel 6.

  • Distribuert datainnsamling (§ 5.4)

Min beskrivelse av eBird trekker på beskrivelser i Bhattacharjee (2005) og Robbins (2013) . For mer om hvordan forskere bruker statistiske modeller for å analysere eBird data se Hurlbert and Liang (2012) og Fink et al. (2010) . For mer om historien til borger vitenskap i ornothology, se Greenwood (2007) .

For mer om Malawi Journals Project, se Watkins and Swidler (2009) og Kaler, Watkins, and Angotti (2015) . Og for mer på et lignende prosjekt i Sør-Afrika, se Angotti and Sennott (2015) . For flere eksempler på forskning ved hjelp av data fra Malawi Journals Prosjekt se Kaler (2004) og Angotti et al. (2014) .

  • Designe din egen (§ 5.5)

Min tilnærming til å tilby design råd var induktiv, basert på eksempler på vellykkede og mislykkede massesamarbeidsprosjekter som jeg har hørt om. Det er også en strøm av forskning forsøker å bruke mer generelle sosialpsykologiske teorier for å designe nettsamfunn som er relevant for utformingen av massesamarbeidsprosjekter, se for eksempel, Kraut et al. (2012) .

Angå motiverende deltakere, er det faktisk ganske vanskelig å finne ut nøyaktig hvorfor folk delta i massesamarbeidsprosjekter (Nov, Arazy, and Anderson 2011; Cooper et al. 2010, Raddick et al. (2013) ; Tuite et al. 2011; Preist, Massung, and Coyle 2014) . Hvis du planlegger å motivere deltakerne betaling på et mikro-oppgave arbeidsmarkedet (f.eks Amazon Mechanical Turk) Kittur et al. (2013) gir noen råd.

Angå muliggjør overraskelse, for flere eksempler på uventede funn som kommer ut av Zoouniverse prosjekter, se Marshall, Lintott, and Fletcher (2015) .

Når det gjelder å være etisk, noen gode generelle introduksjoner til disse forholdene er Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) , og Zittrain (2008) . For spørsmål spesielt knyttet til juridiske problemer med publikum ansatte, se Felstiner (2011) . O'Connor (2013) tar for seg spørsmål om etisk forglemmelse av forskning når rollene som forskere og deltakere uskarphet. For spørsmål knyttet til deling av data samtidig beskytte participats i borger vitenskap prosjekter, se Bowser et al. (2014) . Både Purdam (2014) og Windt and Humphreys (2016) har en del diskusjon om etiske problemstillinger i distribuert datainnsamling. Til slutt erkjenne, de fleste prosjekter bidrag, men ikke gi forfatterskapet kreditt til deltakerne. I Foldit, er spillerne Foldit ofte oppført som forfatter (Cooper et al. 2010; Khatib et al. 2011) . Med andre åpne samtale prosjekter kan vinne bidragsyteren ofte skrive en artikkel som beskriver sine løsninger (for eksempel Bell, Koren, and Volinsky (2010) og Dieleman, Willett, and Dambre (2015) ). I Galaxy Zoo familie av prosjekter, er ekstremt aktive og viktige bidragsytere noen ganger invitert til å være medforfattere på papirer. For eksempel, Ivan Terentev og Tim Matorny, to Radio Galaxy Zoo deltakere fra Russland, var medforfattere på en av avisene som oppsto fra dette prosjektet (Banfield et al. 2016; Galaxy Zoo 2016) .