Hvordan Twitter gir forskere et vindu til menneskelig lykke og helse

Siden sin offentlige lansering 10 år siden, har Twitter blitt brukt som en sosial nettverk plattform blant venner, en chat-tjeneste for smarttelefonbrukere og et salgsfremmende verktøy for bedrifter og politikere.

Men det har også vært en uvurderlig kilde til data for forskere og forskere - som meg selv - som vil studere hvordan mennesker føler og fungerer innenfor komplekse sosiale systemer.

Ved å analysere tweets har vi vært i stand til å observere og samle data om de sosiale interaksjonene til millioner av mennesker "i naturen" utenfor kontrollerte laboratorieforsøk.

Det har gjort det mulig for oss å utvikle verktøy for overvåking av kollektive følelser av store befolkninger, Finn lykkeligste steder i USA og mye mer.

Så hvordan, for eksempel, ble Twitter blitt en unik ressurs for beregningsmessige samfunnsvitenskapere? Og hva har det tillatt oss å oppdage?


innerself abonnere grafikk


Twitters største gave til forskere

I juli 15, 2006, Twittr (som det var så kjent) offentlig lansert som en "mobiltjeneste som hjelper vennegrupper til å sprette tilfeldige tanker rundt med SMS." Muligheten til å sende gratis 140-tegn gruppetekster kjørte mange tidlige brukere (selv inkludert) for å bruke plattformen.

Med tiden, antall brukere eksploderte: fra 20 millioner i 2009 til 200 millioner i 2012 og 310 millioner i dag. I stedet for å kommunisere direkte med venner, ville brukerne bare fortelle sine følgere hvordan de følte seg, svare på nyheter positivt eller negativt, eller sprekk vitser.

For forskere har Twitters største gave gitt stor mengde åpne data. Twitter var et av de første store sosiale nettverkene for å levere datasampler gjennom noe som kalles Application Programming Interfaces (APIer), som gjør det mulig for forskere å spørre Twitter for bestemte typer tweets (f.eks. Tweets som inneholder bestemte ord), samt informasjon om brukere .

Dette førte til en eksplosjon av forskningsprosjekter som utnytter disse dataene. I dag produserer et Google Scholar-søk etter "Twitter" seks millioner treff, sammenlignet med fem millioner for "Facebook." Forskjellen er spesielt slående gitt at Facebook har grovt fem ganger så mange brukere som Twitter (og er to år eldre).

Twitters sjenerøse datapolicy førte uten tvil til noen gode gratis publisitet for selskapet, da interessante vitenskapelige studier ble hentet av de vanlige media.

Studerer lykke og helse

Med tradisjonelle folketalldata sakte og kostbart å samle, kan åpne datafeeds som Twitter ha potensial til å gi et realtidsvindu for å se endringer i store populasjoner.

Universitetet i Vermont er Computational Story Lab ble grunnlagt i 2006 og studerer problemer på tvers av anvendt matematikk, sosiologi og fysikk. Siden 2008 har Story Lab samlet inn milliarder tweets gjennom Twitter's "Gardenhose" feed, en API som streamer en tilfeldig prøve av 10 prosent av alle offentlige tweets i sanntid.

Jeg tilbrakte tre år på Computational Story Lab og var heldig å være en del av mange interessante studier ved hjelp av disse dataene. For eksempel utviklet vi en hedonometer som måler Twittersphereens lykke i sanntid. Ved å fokusere på geolocated tweets sendt fra smartphones, kunne vi kart de lykkeligste stedene i USA. Kanskje overraskende fant vi Hawaii å være den lykkeligste staten og vin-voksende Napa den lykkeligste byen for 2013. 

Et kart over 13 millioner geolokerte amerikanske tweets fra 2013, farget med lykke, med rød indikerende lykke og blå indikasjon på tristhet. PLOS ONE, Forfatter gittEt kart over 13 millioner geolokerte amerikanske tweets fra 2013, farget med lykke, med rød indikerende lykke og blå indikasjon på tristhet. PLoS ONE, Forfatter gitt.Disse studiene hadde dypere applikasjoner: Korrelering av Twitter-ordbruk med demografi bidro til å forstå underliggende sosioøkonomiske mønstre i byer. For eksempel kan vi koble ordbruk med helsemessige faktorer som fedme, så vi bygde en lexicocalorimeter å måle "caloric content" av sosiale medier innlegg. Tweets fra en bestemt region som nevnte høy-kalori matvarer økte "kaloriinnholdet" i den regionen, mens tweets som nevnte treningsaktiviteter, reduserte vår beregning. Vi fant at dette enkle tiltaket korrelerer med andre helse og velvære beregninger. Med andre ord, tweets var i stand til å gi oss et øyeblikksbilde, på et bestemt tidspunkt, av den generelle helsen til en by eller en region.

Ved hjelp av rikdom av Twitter-data har vi også kunnet se folks daglige bevegelsesmønstre i enestående detalj. Forståelse for menneskelig mobilitetsmønster har i sin tur kapasiteten til å transformere sykdomsmodellering, åpne opp det nye feltet av digital epidemiologi.

For andre studier så vi på om reisende uttrykker større lykke på Twitter enn de som bor hjemme (svar: de gjør) og hvis lykkelige individer har en tendens til å holde seg sammen i et sosialt nettverk (igjen gjør de). Faktisk, positivitet ser ut til å bli bakt inn i selve språket, i den forstand at vi har mer positive ord enn negative ord. Dette var ikke tilfelle bare på Twitter, men på tvers av forskjellige medier (for eksempel bøker, filmer og aviser) og språk.

Disse studiene - og tusenvis av andre som dem fra hele verden - var bare mulig takket være Twitter.

De neste 10 årene

Så hva kan vi forvente å lære av Twitter i løpet av de neste 10-årene?

Noen av de mest spennende arbeidene innebærer for tiden å koble sosiale medier data med matematiske modeller for å forutsi populasjonsnivå fenomener som sykdomsutbrudd. Forskere har allerede hatt en viss suksess i å øke sykdomsmodeller med Twitter-data for å prognostisere influensa, spesielt FluOutlook plattform utviklet av Northeastern University og Institute for Scientific Interchange.

Fortsatt er det fortsatt en rekke utfordringer. Sosiale medier data lider av et svært lavt "signal-til-støy forhold". Med andre ord, de tweets som er relevante for en bestemt studie, blir ofte druknet ut av irrelevant "støy".

Derfor må vi kontinuerlig være bevisst på hva som er blitt kalt "stor data hubris"Når vi utvikler nye metoder og ikke er overbevisste om resultatene våre. Forbundet med dette bør være målet å produsere tolkbare "glassboks" -spådommer fra disse dataene (i motsetning til "black-box" -spådommer, hvor algoritmen er skjult eller ikke klart).

Sosiale medier data blir ofte (ganske) kritisert for å være en liten, ikke representativ prøve av den bredere befolkningen. En av de store utfordringene for forskere er å finne ut hvordan man skal regne for slike skjeve data i statistiske modeller. Samtidig som flere mennesker bruker sosiale medier hvert år, må vi fortsette å prøve å forstå forspillene i disse dataene. For eksempel har dataene fortsatt en tendens til å overrepresentere yngre personer på bekostning av eldre befolkninger.

Først etter å ha utviklet bedre bias-korreksjonsmetoder, vil forskerne kunne gjøre helt sikre forutsetninger fra tweets.

Om forfatteren

Lewis Mitchell, foreleser i anvendt matematikk, University of Adelaide

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.

Relaterte bøker

at InnerSelf Market og Amazon