Forord

Denne bog begyndte i 2005 i en kælder ved Columbia University. På det tidspunkt var jeg en kandidatstuderende, og jeg kørte et online-eksperiment, der efterhånden ville blive min afhandling. Jeg vil fortælle alt om de videnskabelige dele af dette eksperiment i kapitel 4, men nu skal jeg fortælle dig noget, der ikke er i min afhandling eller i nogen af ​​mine papirer. Og det er noget, der grundlæggende ændrede, hvordan jeg tænker på forskning. En morgen, da jeg kom ind på min kælderkontor, opdagede jeg, at omkring 100 mennesker fra Brasilien havde deltog i mit eksperiment natten over. Denne enkle oplevelse havde en dyb indvirkning på mig. På det tidspunkt havde jeg venner, der kørte traditionelle laboratorieforsøg, og jeg vidste, hvor hårdt de måtte arbejde for at rekruttere, overvåge og betale folk for at deltage i disse eksperimenter; hvis de kunne køre 10 personer på en enkelt dag, var det gode fremskridt. Men med mit online eksperiment deltog 100 mennesker, mens jeg sov . At gøre din forskning mens du sover, kan lyde for godt til at være sandt, men det er det ikke. Ændringer i teknologi - især overgangen fra den analoge alder til den digitale tidsalder - betyder, at vi nu kan indsamle og analysere sociale data på nye måder. Denne bog handler om at gøre social forskning på disse nye måder.

Denne bog er for socialforskere, der ønsker at gøre mere datavidenskab, datalogikere, der ønsker at gøre mere samfundsvidenskab og enhver interesseret i hybridet af disse to felter. I betragtning af hvem denne bog er til, bør det selvfølgelig sige, at det ikke kun er for studerende og professorer. Selvom jeg for øjeblikket arbejder på et universitet (Princeton), har jeg også arbejdet i regeringen (på US Census Bureau) og i tech industrien (ved Microsoft Research), så jeg ved, at der er meget spændende forskning der sker uden for universiteter. Hvis du tænker på, hvad du laver som social forskning, så er denne bog til dig, uanset hvor du arbejder eller hvad slags teknikker du bruger i øjeblikket.

Som du måske har lagt mærke til allerede, er tonen i denne bog lidt anderledes end mange andre akademiske bøger. Det er forsætligt. Denne bog opstod fra et kandidat seminar om computervidenskabelig samfundsvidenskab, som jeg har undervist i Princeton i Sociologisk Institut siden 2007, og jeg vil gerne have det til at opfange nogle af energien og spændingen fra seminaret. Jeg vil især have denne bog at have tre karakteristika: Jeg vil have det til at være nyttigt, fremtidsorienteret og optimistisk.

Nyttigt : Mit mål er at skrive en bog, der er nyttigt for dig. Derfor skal jeg skrive i en åben, uformel og eksempeldrevet stil. Det er fordi det vigtigste, jeg vil formidle, er en bestemt måde at tænke på social forskning. Og min erfaring tyder på, at den bedste måde at formidle denne måde at tænke på er uformelt og med mange eksempler. I slutningen af ​​hvert kapitel har jeg også en sektion kaldet "Hvad skal du læse næste", der vil hjælpe dig med at overgå til mere detaljerede og tekniske aflæsninger om mange af de emner, jeg introducerer. Til sidst håber jeg, at denne bog vil hjælpe dig med at gøre forskning og evaluere andres forskning.

Fremtidsorienteret : Denne bog vil hjælpe dig med at gøre social forskning ved hjælp af de digitale systemer, der eksisterer i dag, og dem, der vil blive skabt i fremtiden. Jeg begyndte at lave denne type forskning i 2004, og siden da har jeg set mange ændringer, og jeg er sikker på, at du i løbet af din karriere også vil se mange ændringer. Tricket til at forblive relevant i lyset af forandringen er abstraktion . For eksempel vil dette ikke være en bog, der lærer dig præcis, hvordan du bruger Twitter API som det eksisterer i dag; I stedet skal det lære dig at lære af store datakilder (kapitel 2). Dette kommer ikke til at være en bog, der giver dig trinvise instruktioner til at køre eksperimenter på Amazon Mechanical Turk; I stedet skal det lære dig at designe og fortolke eksperimenter, der er afhængige af digital alder infrastruktur (kapitel 4). Gennem brugen af ​​abstraktion håber jeg, at dette vil være en tidløs bog om et rettidigt emne.

Optimistisk : De to samfund, som denne bog beskæftiger sig med - socialforskere og datalogikere - har meget forskellige baggrunde og interesser. Udover disse videnskabsrelaterede forskelle, som jeg taler om i bogen, har jeg også bemærket, at disse to samfund har forskellige stilarter. Dataforskere er generelt spændte; de har en tendens til at se glasset som halvt fyldt. Socialforskere er derimod generelt mere kritiske; de plejer at se glasset som halvtomt. I denne bog vil jeg vedtage en datavidenskabers optimistiske tone. Så når jeg præsenterer eksempler, vil jeg fortælle dig, hvad jeg elsker om disse eksempler. Og når jeg gør opmærksom på problemer med eksemplerne - og det vil jeg gøre, fordi ingen forskning er perfekt - jeg vil forsøge at påpege disse problemer på en måde, der er positiv og optimistisk. Jeg kommer ikke til at være kritisk for at være kritisk - jeg bliver kritisk, så jeg kan hjælpe dig med at skabe bedre forskning.

Vi er stadig i de tidlige dage af social forskning i den digitale tidsalder, men jeg har set nogle misforståelser, der er så almindelige, at det giver mening for mig at adressere dem her, i forordet. Fra datavidenskabsfolk har jeg set to almindelige misforståelser. Den første tænker på, at flere data automatisk løser problemer. Men for social forskning har det ikke været min erfaring. Faktisk, for social forskning, synes bedre data - i modsætning til flere data - at være mere nyttige. Den anden misforståelse, som jeg har set fra datavidenskabsfolk, tænker på, at samfundsvidenskab kun er en flok fancy snak, der er indpakket omkring sund fornuft. Selvfølgelig, som socialforsker - mere specifikt som en sociolog - er jeg ikke enig i det. Smarte mennesker har arbejdet hårdt for at forstå menneskelig adfærd i lang tid, og det virker uklogt at ignorere den visdom, der er ophobet fra denne indsats. Mit håb er, at denne bog vil give dig noget af den visdom på en måde, der er let at forstå.

Fra socialforskere har jeg også set to almindelige misforståelser. For det første har jeg set nogle mennesker afskrive hele ideen om social forskning ved hjælp af værktøjerne i den digitale tidsalder på grund af et par dårlige papirer. Hvis du læser denne bog, har du sikkert allerede læst en masse papirer, der bruger sociale medier på måder der er banale eller forkerte (eller begge). Jeg har også. Det ville imidlertid være en alvorlig fejl at konkludere på baggrund af disse eksempler, at al digital forskning i samfundet er dårlig. Faktisk har du sikkert også læst en masse papirer, der bruger undersøgelsesdata på måder, der er banale eller forkerte, men du afskriver ikke al forskning ved hjælp af undersøgelser. Det er fordi du ved, at der er stor forskning udført med undersøgelsesdata, og i denne bog vil jeg vise dig, at der også er stor forskning gjort med værktøjerne i den digitale tidsalder.

Den anden almindelige misforståelse, som jeg har set fra socialforskere, er at forvirre nutiden med fremtiden. Når vi vurderer social forskning i den digitale tidsalder - den forskning, jeg skal beskrive - er det vigtigt, at vi spørger to forskellige spørgsmål: "Hvor godt virker denne forskningsmiljø lige nu?" Og "Hvor godt vil denne stil af forskerarbejde i fremtiden? "Forskere er uddannet til at besvare det første spørgsmål, men for denne bog synes jeg det andet spørgsmål er vigtigere. Det vil sige, at selv om den sociale forskning i den digitale tidsalder endnu ikke har produceret massive, paradigmeskiftende intellektuelle bidrag, er forbedringsgraden af ​​digital-age-forskning utrolig hurtig. Det er denne forandringshastighed - mere end det nuværende niveau - hvilket gør digital aldersforskning så spændende for mig.

Selv om det sidste afsnit måske ser ud til at give dig mulige rigdom på en ubestemt tid i fremtiden, er mit mål ikke at sælge dig på nogen bestemt type forskning. Jeg ejer ikke egne aktier i Twitter, Facebook, Google, Microsoft, Apple eller noget andet teknologiselskab (selv om jeg af hensyn til fuldstændig offentliggørelse skal nævne, at jeg har arbejdet på eller modtaget forskningsfinansiering fra Microsoft, Google og Facebook). I hele bogen er mit mål derfor at forblive en troværdig fortæller og fortælle dig om alle de spændende nye ting, der er muligt, mens du leder dig væk fra et par fælder, som jeg har set andre falde ind i (og lejlighedsvis faldt i mig selv) .

Krydset mellem samfundsvidenskab og datalogi kaldes undertiden computational social science. Nogle anser dette for at være et teknisk område, men det vil ikke være en teknisk bog i traditionel forstand. For eksempel er der ingen ligninger i hovedteksten. Jeg valgte at skrive bogen på denne måde, fordi jeg ønskede at give et overblik over social forskning i den digitale tidsalder, herunder store datakilder, undersøgelser, eksperimenter, massesamarbejde og etik. Det viste sig at være umuligt at dække alle disse emner og give tekniske detaljer om hver enkelt. I stedet henvises til mere teknisk materiale i afsnittet "Hvad skal du læse næste" i slutningen af ​​hvert kapitel. Med andre ord er denne bog ikke designet til at lære dig at lave en bestemt beregning; Det er snarere designet til at ændre den måde, du tænker på social forskning.

Sådan bruger du denne bog i et kursus

Som jeg sagde tidligere, kom denne bog delvist ud af et kandidatseminar om computational samfundsvidenskab, som jeg har undervist siden 2007 i Princeton. Da du måske tænker på at bruge denne bog til at undervise i et kursus, troede jeg, at det kunne være nyttigt for mig at forklare, hvordan det voksede ud af mit kursus og hvordan jeg forestiller mig, at det bliver brugt i andre kurser.

I flere år lærte jeg mit kursus uden en bog; Jeg ville bare tildele en samling af artikler. Mens eleverne kunne lære af disse artikler, ledte artiklerne ikke alene til de konceptuelle ændringer, som jeg håbede at skabe. Så jeg ville tilbringe mesteparten af ​​tiden i klassen og give perspektiv, kontekst og rådgivning for at hjælpe eleverne med at se det store billede. Denne bog er mit forsøg på at nedskrive alt det perspektiv, sammenhæng og rådgivning på en måde, der ikke har nogen forudsætninger - hvad enten det er social videnskab eller datalogi.

I et semester-langt kursus, vil jeg anbefale parring denne bog med en række yderligere aflæsninger. For eksempel kan et sådant kursus bruge to uger på eksperimenter, og du kan parre kapitel 4 med aflæsninger om emner som forbehandlingens information i design og analyse af eksperimenter; statistiske og beregningsmæssige problemer, der rejses ved store A / B-tests hos virksomheder; udformning af eksperimenter specielt fokuseret på mekanismer og praktiske, videnskabelige og etiske spørgsmål i forbindelse med brug af deltagere fra online arbejdsmarkeder, såsom Amazon Mechanical Turk. Det kan også være parret med aflæsninger og aktiviteter relateret til programmering. Det rette valg mellem disse mange mulige parringer afhænger af de studerende i dit kursus (fx bachelor, master eller ph.d.), deres baggrund og deres mål.

Et semesterlængde kursus kan også omfatte ugentlige problemstillinger. Hvert kapitel har en række aktiviteter, der er mærket efter vanskeligheder: let ( let ), medium ( medium ), hårdt ( hårdt ), og meget hårdt ( meget hård ). Jeg har også mærket hvert problem med de færdigheder, det kræver: matematik ( kræver matematik ), kodning ( kræver kodning ) og dataindsamling ( dataindsamling ). Endelig har jeg mærket nogle af de aktiviteter, der er mine personlige favoritter ( min favorit ). Jeg håber, at inden for denne mangfoldige samling af aktiviteter finder du nogle der passer til dine elever.

For at hjælpe folk, der bruger denne bog i kurser, har jeg startet en samling af undervisningsmaterialer som pensum, dias, anbefalede parringer for hvert kapitel og løsninger på nogle aktiviteter. Du kan finde disse materialer - og bidrage til dem - på http://www.bitbybitbook.com.