Předmluva

Tato kniha začala v roce 2005 v suterénu na Columbijské univerzitě. V té době jsem byl absolventem studia a já jsem provozoval on-line experiment, který se nakonec stal mojí disertací. Řeknu vám všechno o vědeckých částech tohoto experimentu v kapitole 4, ale teď vám řeknu něco, co není v mé disertační práci nebo v žádném z mých článků. A to je něco, co zásadně změnilo myšlení o výzkumu. Jednoho rána, když jsem vstoupil do mé suterénní kanceláře, zjistil jsem, že se přes 100 lidí z Brazílie přes noc zúčastnilo mého experimentu. Tato jednoduchá zkušenost měla na mě hluboký účinek. V té době jsem měl přátele, kteří vedli tradiční laboratorní experimenty, a věděl jsem, jak těžké je, aby pracovali na náboru, dohledu a zaplacení lidí, aby se účastnili těchto experimentů; pokud by mohli běžet 10 lidí za jediný den, byl to dobrý pokrok. Při mém online experimentu se však během spánku zúčastnilo 100 lidí. Dělat výzkum během spánku může znít příliš dobře, než aby to byla pravda, ale není. Změny v technologii - konkrétně přechod od analogového věku k digitálnímu věku - znamenají, že nyní můžeme sdružovat a analyzovat sociální údaje novými způsoby. Tato kniha se týká sociálního výzkumu v těchto nových způsobech.

Tato kniha je určena společenským vědcům, kteří chtějí dělat více věd o datových datech, vědce v oblasti dat, kteří chtějí dělat více společenských věd, a každý, kdo se zajímá o hybrid těchto dvou oblastí. Vzhledem k tomu, kdo je tato kniha určena, mělo by být samozřejmé, že to není jen pro studenty a profesory. Přestože pracuji na univerzitě (Princeton), pracoval jsem také ve vládě (v americkém Úřadu pro sčítání lidu) av technologickém průmyslu (ve společnosti Microsoft Research), takže vím, že je spousta vzrušujícího výzkumu mimo vysoké školy. Pokud si myslíte, co děláte jako společenský výzkum, pak tato kniha je pro vás, bez ohledu na to, kde pracujete nebo jakou techniku ​​právě používáte.

Jak jste si možná všimli, tón této knihy se trochu liší od tónu mnoha dalších akademických knih. To je záměrné. Tato kniha vycházela z absolventského semináře o výpočetní společenské vědě, kterou jsem od roku 2007 učil na Princetonu v oddělení sociologie, a já bych rád, kdyby zachytil energii a vzrušení z tohoto semináře. Zejména chci, aby tato kniha měla tři charakteristiky: chci, aby byla užitečná, orientovaná na budoucnost a byla optimistická.

Užitečné : Mým cílem je napsat knihu, která vám pomůže. Proto budu psát v otevřeném, neformálním a příkladem řízeném stylu. To je proto, že nejdůležitější věc, kterou chci předložit, je určitý způsob myšlení o sociálním výzkumu. A moje zkušenost naznačuje, že nejlepším způsobem, jak předat tento způsob myšlení, je neformální a s mnoha příklady. Také na konci každé kapitoly mám sekci nazvanou "Co přečíst dál", která vám pomůže přejít na podrobnější a technické čtení o mnoha tématech, které uvedu. Nakonec doufám, že tato kniha vám pomůže jak při výzkumu, tak při hodnocení výzkumu ostatních.

Orientace na budoucnost : Tato kniha vám pomůže provést sociální výzkum pomocí digitálních systémů, které dnes existují, a těch, které budou vytvořeny v budoucnu. Začal jsem tento druh výzkumu v roce 2004 a od té doby jsem viděl mnoho změn a jsem si jistý, že v průběhu své kariéry uvidíte také mnoho změn. Trik, který zůstává relevantní tváří v tvář změnám, je abstrakce . Například to nebude kniha, která vás naučí přesně jak používat API Twitter, jak to dnes existuje; místo toho vás naučí naučit se z velkých zdrojů dat (kapitola 2). Nebude to kniha, která vám poskytuje podrobné pokyny pro spouštění experimentů na Amazon Mechanical Turk; místo toho vás naučí navrhnout a interpretovat experimenty, které se opírají o infrastrukturu digitálního věku (kapitola 4). Prostřednictvím abstrakce doufám, že to bude nadčasová kniha o aktuálním tématu.

Optimistický : Dvě komunity, kterých se tato kniha zabývá - sociální vědci a vědci v oblasti informací - mají velmi odlišné zázemí a zájmy. Vedle těchto vědeckých rozdílů, o nichž jsem v knize mluvil, jsem si také všiml, že tyto dvě komunity mají různé styly. Vědci v oblasti dat jsou obecně nadšeni; mají tendenci vidět sklo jako napůl plné. Sociální vědci jsou na druhé straně obecně kritičtější; mají tendenci vidět, že sklo je napůl prázdné. V této knize se chystám přijmout optimistický tón datového vědce. Takže když uvedu příklady, chci vám říct, co miluji o těchto příkladech. A když ukážeme problémy s příklady - a udělám to proto, že žádný výzkum není dokonalý - budu se snažit poukázat na tyto problémy způsobem, který je pozitivní a optimistický. Nebudu kritičtí kvůli kritice - budu kritický, abych vám mohl pomoci vytvořit lepší výzkum.

Jsme stále v počátcích společenského výzkumu v digitálním věku, ale viděl jsem některé nedorozumění, které jsou tak běžné, že mi to dává smysl oslovit je zde v předmluvě. Od datových vědců jsem viděl dvě běžné nedorozumění. První je, že více dat automaticky řeší problémy. Pro společenský výzkum to ale nebyla moje zkušenost. Ve skutečnosti, pro sociální výzkum, lepší data - na rozdíl od více dat - se zdají být užitečnější. Druhé nedorozumění, které jsem vidělo od vědců v oblasti informací, je, že společenská věda je jen spousta fantazijních řečí zabalených kolem zdravého rozumu. Samozřejmě, jako sociální vědec - konkrétněji jako sociolog - s tím nesouhlasím. Chytří lidé tvrdě pracují na tom, aby chápali lidské chování po dlouhou dobu, a zdá se být nerozumné ignorovat moudrost, která se z tohoto úsilí shromáždila. Doufám, že tato kniha vám nabídne nějakou moudrost způsobem, který je snadno pochopitelný.

Od sociálních vědců jsem také viděl dvě běžné nedorozumění. Nejprve jsem viděl, že někteří lidé odpisují celou myšlenku sociálního výzkumu pomocí nástrojů digitálního věku kvůli několika špatným dokumentům. Pokud čtete tuto knihu, pravděpodobně jste již přečetli spoustu papírů, které používají údaje o sociálních médiích způsobem, který je banální nebo špatný (nebo oba). Mám taky. Bylo by však velkou chybou vyvodit z těchto příkladů, že veškerý sociální výzkum digitálního věku je špatný. Ve skutečnosti jste pravděpodobně také četli hromadu papírů, které používají údaje z průzkumu způsobem, který je banální nebo špatný, ale nepoužíváte všechny průzkumy pomocí průzkumů. Je to proto, že víte, že se provádí velký výzkum s údaji z průzkumů, a v této knize vám ukážeme, že je zde také velký výzkum provedený pomocí nástrojů digitálního věku.

Druhé časté nedorozumění, které jsem viděl od sociálních vědců, je zmást přítomnost s budoucností. Když hodnotíme společenský výzkum v digitálním věku - výzkum, který budu popisovat - je důležité, abychom se zeptali na dvě zřetelné otázky: "Jak dobře funguje tento styl výzkumu právě teď?" A "Jak dobře bude tento styl výzkumné práce v budoucnosti? "Výzkumní pracovníci jsou vyškoleni, aby odpověděli na první otázku, ale pro tuto knihu si myslím, že druhá otázka je důležitější. To znamená, že i když sociální výzkum v digitálním věku dosud nevytvořil masivní intelektuální příspěvky, které mění paradigma, míra zlepšování výzkumu digitálního věku je neuvěřitelně rychlá. Právě tato míra změn - více než současná úroveň - dělá z výzkumu digitálního věku tak vzrušující pro mě.

Přestože se zdá, že tento poslední odstavec vám v budoucnosti nabídne potenciální bohatství, nemám v úmyslu prodávat vás na nějakém konkrétním typu výzkumu. Osobně nemám vlastní akcie ve službě Twitter, Facebook, Google, Microsoft, Apple nebo jinou technologickou společnost (i když pro úplné zveřejnění bych se měl zmínit o tom, že jsem pracoval na společnosti Microsoft, Google a Facebook). V celé knize proto mým cílem je zůstat důvěryhodným vypravěčem, který vám říká o všech vzrušujících nových věcech, které jsou možné, a zároveň vás vedou pryč od několika pasáží, které jsem viděl, že ostatní spadají do (a někdy spadli do sebe) .

Křižovatka společenských věd a datové vědy je někdy nazývána výpočetní společenskou vědou. Někteří to považují za technickou oblast, ale v tradičním smyslu to nebude technická kniha. Například v hlavním textu neexistují žádné rovnice. Rozhodla jsem se napsat knihu tímto způsobem, protože jsem chtěla poskytnout komplexní pohled na sociální výzkum v digitálním věku, včetně velkých zdrojů dat, průzkumů, experimentů, masové spolupráce a etiky. Ukázalo se, že je nemožné pokrýt všechna tato témata a poskytnout technické podrobnosti o každém z nich. Místo toho jsou ukazatele na technický materiál uvedeny v části "Co přečíst další" na konci každé kapitoly. Jinými slovy, tato kniha není navržena tak, aby vás naučila jak provádět nějaké konkrétní výpočty; spíše je navržena tak, aby změnila způsob, jakým myslíte na sociální výzkum.

Jak používat tuto knihu v kurzu

Jak jsem již řekl, tato kniha se zčásti objevila z absolventského semináře o výpočetní společenské vědě, kterou jsem od roku 2007 učil v Princetonu. Protože možná budete přemýšlet o tom, že tuto knihu využijete k výuce kurzu, myslela jsem si, že by mohlo být pro mě užitečné vysvětlit, jak vyrostlo z mého kurzu a jak si myslím, že je používán v jiných kurzech.

Několik let jsem učil svůj kurz bez knihy; Jen jsem přiřadil sbírku článků. Zatímco se studenti mohli z těchto článků poučit, samotné články nevedly k koncepčním změnám, které jsem doufal, že vytvoří. Takže jsem strávil většinu času ve třídě poskytující perspektivu, kontext a rady, abych pomohl studentům vidět velký obrázek. Tato kniha je můj pokus o zapisování všech těchto perspektiv, kontextu a rady způsobem, který nemá žádné předpoklady - pokud jde o společenskou vědu nebo vědu o datech.

V semestru dlouhém kurzu bych doporučil spárovat tuto knihu s řadou dodatečných čtení. Takový kurz by například mohl trvat dva týdny na pokusech a mohl byste spárovat kapitolu 4 s údaji o tématech, jako je role informací před léčbou při návrhu a analýze experimentů; statistické a výpočetní otázky vznesené rozsáhlými testy A / B u firem; návrh experimentů specificky zaměřených na mechanismy; a praktické, vědecké a etické otázky související s využíváním účastníků z online trhů práce, jako je například Amazon Mechanical Turk. Mohlo by být také spárováno s četbami a činnostmi souvisejícími s programováním. Vhodná volba mezi těmito řadami možných párování závisí na studentech ve vašem kurzu (např. Vysokoškolské, magisterské nebo doktorské), jejich pozadí a jejich cíle.

Semestrální kurz by mohl obsahovat také týdenní sady problémů. Každá kapitola obsahuje různé aktivity označené stupněm obtížnosti: snadné ( snadný ), střední ( střední ), tvrdý ( tvrdý ) a velmi těžké ( velmi obtížné ). Také jsem označil každý problém dovednostmi, které vyžaduje: matematika ( vyžaduje matematiku ), kódování ( vyžaduje kódování ) a shromažďování údajů ( sběr dat ). Nakonec jsem označil několik aktivit, které jsou mé osobní oblíbené ( můj oblíbený ). Doufám, že v rámci této rozmanité sbírky aktivit najdete některé, které jsou vhodné pro vaše studenty.

Abych pomohl lidem, kteří tuto knihu používají v kurzech, jsem zahájil sbírku učebních materiálů, jako jsou osnovy, diapozitivy, doporučené párování pro každou kapitolu a řešení některých činností. Tyto materiály můžete najít - a přispívat k nim - na adrese http://www.bitbybitbook.com.