Hvordan dine venner på Twitter kan gi deg bort din anonymitet

Når du surfer på Internett, sporer online annonsører nesten hvert nettsted du besøker, samle en mengde informasjon om dine vaner og preferanser. Når du besøker et nyhetsnettsted, ser de kanskje deg som fan av basketball, opera og mysterium romaner, og velg deretter annonser tilpasset din smak.

Annonsører bruker denne informasjonen til å lage svært personlige opplevelser, men de vet vanligvis ikke nøyaktig hvem du er. De observerer bare din digitale sti, ikke din identitet selv, og så kan du føle at du har beholdt en viss grad av anonymitet.

Men i et papir jeg coauthored med Ansh Shukla, Sharad Goel og Arvind Narayanan, viser vi at disse anonyme nettleserpostene faktisk kan knyttes tilbake til virkelige identiteter.

For å teste vår tilnærming, bygget vi et nettsted hvor folk kunne donere sin nettleserhistorie for denne studien. Vi prøvde da å se om vi kunne koble historiene tilbake til deres Twitter-profiler ved å bruke bare offentlig tilgjengelige data. Sytti og to prosent av personer som vi forsøkte å deanonymisere ble korrekt identifisert som toppkandidaten i søkeresultatene, og 81 prosent var blant de beste 15 kandidatene.

personvern2 2 8Skjermbilder av deanonymiseringsnettstedet.

Dette er etter vår kunnskap den største demonstrasjonen av deanonymisering til dags dato, siden den plukker den riktige brukeren ut av hundrevis av millioner av mulige Twitter-brukere. I tillegg krever vår metode bare at en person klikker på koblingene som vises i deres sosiale medier, ikke at de legger inn noe innhold - så selv de som er forsiktige med det de deler på internett, er fortsatt sårbare overfor dette angrepet.


innerself abonnere grafikk


Hvordan fungerer det

På et høyt nivå er vår tilnærming basert på en enkel observasjon. Hver person har et svært særegent sosialt nettverk, som består av familie og venner fra skole, arbeid og ulike stadier av livet. Som følge av dette er settet av lenker i dine Facebook- og Twitter-feeds svært særpreget. Hvis du klikker på disse koblingene, blir et fortellingsmerke i nettlesingsloggen din.

Ved å se på settet av nettsider som en person har besøkt, var vi i stand til å plukke ut lignende sosiale medier, og ga en liste over kandidater som sannsynligvis genererte nettleserloggen. På denne måten kan vi knytte en persons virkelige identitet til det nesten fullstendige settet av lenker de har besøkt, inkludert linker som aldri ble lagt ut på noen sosiale medier.

Gjennomføring av denne strategien innebærer to sentrale utfordringer. Den første er teoretisk: Hvordan kvantifiserer du hvordan lignende en bestemt sosiale media-feed er til en gitt nettleserhistorikk? En enkel måte er å måle brøkdelene av koblinger i nettlesingsloggen som også vises i feedet. Dette fungerer rimelig bra i praksis, men det overstiger likhet for store strømmer, siden de bare inneholder flere koblinger. Vi tar i stedet en alternativ tilnærming. Vi stiller en stilisert, probabilistisk modell av nettleseradferd, og beregner deretter sannsynligheten for at en bruker med den sosiale media-strømmen genererte den observerte nettlesingsloggen. Da velger vi sosial media feed som er mest sannsynlig.

Den andre utfordringen innebærer å identifisere de mest liknende feeds i sanntid. Her vender vi oss til Twitter, siden Twitter-feeder (i motsetning til Facebook) er stort sett offentlige. Men selv om feeds er offentlige, kan vi ikke bare lage en lokal kopi av Twitter som vi kan kjøre våre spørsmål på. I stedet bruker vi en rekke teknikker for å dramatisk redusere søkeområdet. Vi kombinerer deretter caching-teknikker med etterspørselsnettverkskreker for å konstruere strømmen til de mest lovende kandidatene. På dette reduserte kandidatsettet bruker vi likhetstiltaket for å produsere de endelige resultatene. Gitt en nettlesingshistorikk, kan vi typisk utføre hele denne prosessen på under 60 sekunder.

Vår metode er mer nøyaktig for folk som søker Twitter mer aktivt. Nitti prosent av deltakerne som hadde klikket på 100 eller flere lenker på Twitter, kunne matches med deres identitet.

Mange bedrifter har sporingsressursene til å utføre et angrep som dette, selv uten samtykke fra deltaker. Vi forsøkte å deanonymisere hver av eksperimentdeltakerne våre, bare ved hjelp av delene av deres nettlesingshistorier som var synlige for bestemte sporingsselskaper (fordi selskapene har trackers på disse sidene). Vi fant at flere selskaper hadde ressurser for å identifisere deltakere nøyaktig.

personvern 2 8Andre deanonymiseringsstudier

Flere andre studier har brukt offentlig tilgjengelige fotavtrykk for å deanonymisere sensitive data.

Kanskje den mest kjente studien langs disse linjene ble utført av Latanya Sweeney ved Harvard University i 2002. Hun oppdaget det 87 prosent av amerikanerne var unikt identifisert basert på en kombinasjon av postnummer, kjønn og fødselsdato. Disse tre attributter var tilgjengelige i både offentlig velgeregistreringsdata (som hun kjøpte for US $ 20) og anonyme medisinske data (som var utbredt, fordi folk trodde at dataene var anonyme). Ved å koble disse datakildene, fant hun legemidlene til guvernøren i Massachusetts.

I 2006, Netflix løp en konkurranse for å forbedre kvaliteten på film anbefalinger. De ga ut et anonymisert datasett av folks filmkarakterer, og tilbød $ 1 millioner til laget som kunne forbedre sin anbefalingsalgoritme med 10 prosent. Datavitenskapere Arvind Narayanan og Vitaly Shmatikov la merke til at filmene folk så på, var veldig særegne, og de fleste i datasettet var unikt identifiserbare basert på en liten delmengde av deres filmer. Med andre ord, basert på Netflix-filmvalg og IMDB-vurderinger, var forskerne i stand til å bestemme hvem de Netflix-brukerne faktisk var.

Med økningen av sosiale medier deler flere og flere personer informasjon som virker uskyldig, men avslører faktisk mye personlig informasjon. En studie ledet av Michal Kosinski ved University of Cambridge brukes Facebook liker å forutsi folkens seksuell orientering, politiske synspunkter og personlighetstrekk.

Et annet lag, ledet av Gilbert Wondracek ved Wien University of Technology, bygget en "deanonymiseringsmaskin" som fant ut hvilke grupper folk var en del av på det sosiale nettverket Xing, og brukte det for å finne ut hvem de var - siden gruppene du er en del av, er ofte nok til å identifisere unikt du.

Hva du kan gjøre

De fleste av disse angrepene er vanskelige å forsvare seg mot, med mindre du slutter å bruke internett eller delta i det offentlige liv.

Selv om du slutter å bruke internett, kan selskapene fortsatt samle inn data på deg. Hvis flere av vennene dine laster opp telefonkontakter til Facebook, og nummeret ditt er i alle kontaktlister, kan Facebook gjøre spådommer om deg, selv om du ikke bruker tjenesten deres.

Den beste måten å forsvare seg mot deanonymiseringsalgoritmer som vår, er å begrense settet av mennesker som har tilgang til dine anonyme nettleserdata. Nettleserutvidelser som Ghostery blokkere tredjeparts trackers. Det betyr at selv om firmaet hvis nettsted du besøker, vet at du besøker dem, vil annonseringsselskapene som viser annonser på siden, ikke kunne samle nettleserdataene dine og samle det på flere nettsteder.

Hvis du er en webmaster, kan du beskytte brukerne ved å la dem bla gjennom nettstedet ditt ved hjelp av HTTPS. Ved å bruke HTTP kan angriperne få nettleserloggen ved å snuse nettverkstrafikk, som lar dem utføre dette angrepet. Mange nettsteder har allerede byttet til HTTPS; da vi gjentok vårt deanonymiseringseksperiment fra et nettverkssikkerhetssnuser, kunne bare 31 prosent av deltakerne deanonymiseres.

Det er imidlertid svært lite du kan gjøre for å beskytte deg mot deanonymiseringsangrep generelt, og kanskje det beste forløpet er å justere forventningene dine. Ingenting er privat i denne digitale tidsalderen.

Om forfatteren

Jessica Su, Ph.D. Student ved Stanford, Stanford University

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.

Relaterte bøker

at InnerSelf Market og Amazon