Hvordan Cambridge Analytics Facebook Targeting Model virkelig fungerteHvor nøyaktig kan du bli profilert på nettet? Andrew Krasovitckii / Shutterstock.com

Forskeren som arbeider i sentrum av Facebook-Cambridge Analytica data analyse og politisk annonsering opprørt har avslørt at hans metode fungerte mye som den ene Netflix bruker til å anbefale filmer.

I en e-post til meg forklarte Cambridge Universitets akademiker Aleksandr Kogan hvordan hans statistiske modell behandlet Facebook-data for Cambridge Analytica. Nøyaktigheten han hevder tyder på at det fungerer så vel som etablerte valgmåter for velgerer basert på demografi som rase, alder og kjønn.

Hvis bekreftet, ville Kogans konto bety at den digitale modelleringen Cambridge Analytica ble brukt neppe den virtuelle krystallkulen noen har hevdet. Likevel gir tallene Kogan også vise hva er - og ikke - faktisk mulig by kombinere personlige data med maskinlæring for politiske endringer.

Når det gjelder en viktig offentlig bekymring, tyder Kogans tall på at informasjon om brukernes personligheter eller "psycho"Var bare en beskjeden del av hvordan modellen målrettede borgere. Det var ikke en personlighetsmodell strengt tatt, men heller en som kokte ned demografi, sosial påvirkning, personlighet og alt annet i en stor korrelert klump. Denne oppkvikk-all-the-correlation-and-call-it-personality-tilnærmingen ser ut til å ha skapt et verdifullt kampanjeverktøy, selv om produktet som selges, ikke var helt som det var fakturert.


innerself abonnere grafikk


Løftet om personlighetsmålretting

I kølvandet på de åpenbaringene som Trump-kampanjen konsulenter Cambridge Analytica brukte data fra 50 millioner Facebook-brukere for å målrette digital politisk annonsering under 2016 USAs presidentvalg, har Facebook tapte milliarder i aksjemarkedsverdi, regjeringer på begge sider av Atlanterhavet ha åpnet undersøkelser, og en nascent sosial bevegelse anroper brukerne til #DeleteFacebook.

Men et sentralt spørsmål har vært ubesvart: Var Cambridge Analytica virkelig i stand til effektivt å målrette kampanjemeldinger til borgere basert på deres personlighetskarakteristikker - eller til og med deres "indre demoner, "Som et firma whistleblower påstått?

Hvis noen ville vite hva Cambridge Analytica gjorde med sin massive trove av Facebook-data, ville det være Aleksandr Kogan og Joseph Chancellor. Det var deres oppstart Global Science Research som samlet profilinformasjon fra 270,000 Facebook-brukere og titalls millioner av sine venner bruker en personlighets test app kalt "thisisyourdigitallife."

En del av min egen forskning fokuserer på forståelse maskinlæring metoder, og min kommende bok diskuterer hvordan digitale firmaer bruker anbefalingsmodeller for å bygge publikum. Jeg hadde en anelse om hvordan Kogan og kanslerens modell fungerte.

Så jeg sendte Kogan til å spørre. Kogan er fortsatt en forsker ved Cambridge University; hans samarbeidspartner Kansler jobber nå på Facebook. I en bemerkelsesverdig visning av faglig høflighet, svarte Kogan.

Hans svar krever litt utpakking, og litt bakgrunn.

Fra Netflix-prisen til "psykometri"

Tilbake i 2006, da det fortsatt var et DVD-by-post selskap, tilbød Netflix a belønning på $ 1 millioner til alle som utviklet en bedre måte å lage spådommer om brukernes filmrangering enn selskapet allerede hadde. En overraskende toppkonkurrent var en uavhengig programvareutvikler ved hjelp av pseudonymet Simon Funk, hvis grunnleggende tilnærming var til slutt innlemmet i alle topplagets oppføringer. Funk tilpasset en teknikk kalt "singulær verdi dekomponering, "Kondensere brukeres rangeringer av filmer til en serie av faktorer eller komponenter - I hovedsak et sett av utledte kategorier, rangert etter betydning. Som Funk forklart i et blogginnlegg,

"For eksempel kan en kategori representere actionfilmer, med filmer med mye action øverst og tregfilmer nederst, og tilsvarende brukere som liker actionfilmer øverst, og de som foretrekker sakte filmer på bunn."

Faktorer er kunstige kategorier, som ikke alltid er som de kategoriene menneskene ville komme opp med. De viktigste faktor i Funks tidlige Netflix-modell ble definert av brukere som elsket filmer som "Pearl Harbor" og "The Wedding Planner", mens de også hater filmer som "Lost in Translation" eller "Det uplettede sinnets evige solskinn". Hans modell viste hvordan maskinlæring kan finne sammenhenger mellom grupper av folk og grupper av filmer, som menneskene selv aldri ville få øye på.

Funks generelle tilnærming brukte 50 eller 100 viktigste faktorer for både brukere og filmer for å gjøre en anstendig gjetning på hvordan hver bruker ville rangere hver film. Denne metoden, ofte kalt dimensjonsreduksjon eller matrisefaktorisering, var ikke ny. Statsvitenskapelige forskere hadde vist det lignende teknikker ved bruk av hovedoppropsstemme data kunne forutsi stemmer av medlemmer av kongressen med 90 prosent nøyaktighet. I psykologien er "Big Five"Modellen hadde også blitt brukt til å forutsi atferd ved å sammenkoble personlighetsspørsmål som pleide å bli besvart på samme måte.

Likevel, Funks modell var et stort fremskritt: Det tillot teknikken å fungere godt med store datasett, selv de med mye manglende data - som Netflix datasettet, hvor en typisk bruker bare har vurdert noen få dusin filmer ut av tusenvis i selskapets bibliotek. Mer enn et tiår etter at Netflix-prisen ble avsluttet, SVD-baserte metodereller relaterte modeller for implisitte data, er fortsatt verktøyet til valg for mange nettsteder for å forutsi hva brukerne vil lese, se eller kjøpe.

Disse modellene kan også forutsi andre ting.

Facebook vet om du er republikansk

I 2013 publiserte universitetsforskerne Michal Kosinski, David Stillwell og Thore Graepel en artikkel om predictive power av Facebook data, ved hjelp av informasjon samlet gjennom en online personlighetstest. Deres første analyse var nesten identisk med den som ble brukt på Netflix-prisen, ved å bruke SVD til å kategorisere både brukere og ting de "likte" i topp 100-faktorene.

Papiret viste at en faktor modell laget med brukernes Facebook "liker" alene var 95 prosent nøyaktig Ved å skille mellom svarte og hvite respondenter, var 93 prosent nøyaktig for å skille menn fra kvinner, og 88 prosent nøyaktig for å skille mellom personer som identifiserte seg som homofile menn fra menn som identifiseres som rett. Det kan til og med skille mellom republikanerne fra demokratenes 85 prosent av tiden. Det var også nyttig, men ikke så nøyaktig, for forutsi brukernes score på "Big Five" personlighetstesten.

Det var offentlig ramaskrik som svar; i løpet av uker hadde Facebook hatt gjort brukernes liker privat som standard.

Kogan og kansler, også forskere fra Cambridge University, begynte å bruke Facebook-data til valgmålretting som en del av et samarbeid med Cambridge Analytics foreldrefirma SCL. Kogan inviterte Kosinski og Stillwell til å bli med på sitt prosjekt, men det trente ikke ut. Kosinski mistenkte angivelig at Kogan og kansler kunne ha omvendt utviklet Facebook "liker" -modellen for Cambridge Analytica. Kogan nektet dette og sa sitt prosjekt "bygget alle våre modeller bruker våre egne data, samlet ved hjelp av vår egen programvare. "

Hva gjorde Kogan og kansler faktisk?

Etter hvert som jeg fulgte utviklingen i historien, ble det klart at Kogan og kansler hadde samlet inn mye av sine egne data gjennom denne appelsinlæringen. De kunne sikkert ha bygget en prediktiv SVD-modell som den som ble omtalt i Kosinski og Stillwells publiserte forskning.

Så sendte jeg email til Kogan for å spørre om det var det han hadde gjort. Litt til min overraskelse skrev han tilbake.

"Vi brukte ikke nøyaktig SVD," skrev han og noterte at SVD kan slite når noen brukere har mange flere "liker" enn andre. I stedet forklarte Kogan: "Teknikken var noe vi faktisk utviklet oss selv ... Det er ikke noe som er i det offentlige." Uten å gå inn i detaljer, beskriver Kogan sin metode som "et multi-trinn Samtidig forekomst nærme seg."

Hans budskap fortsatte imidlertid med å bekrefte at hans tilnærming likte SVD eller andre matrisefaktoriseringsmetoder, som i Netflix-prisen konkurransen, og Kosinki-Stillwell-Graepel Facebook-modellen. Dimensjonalitetsreduksjon av Facebook-data var kjernen i modellen.

Hvor nøyaktig var det?

Kogan foreslo at den nøyaktige modellen som brukes, spiller ingen rolle, men hva som betyr noe er nøyaktigheten av sine spådommer. Ifølge Kogan var "korrelasjonen mellom forventede og faktiske score ... rundt [30 prosent] for alle personlighetsdimensjonene." Til sammenligning handler en persons tidligere Big Five-poeng om 70 til 80 prosent nøyaktig i å forutsi sine poeng når de tar testen på nytt.

Kogans nøyaktighetskrav kan selvfølgelig ikke kontrolleres uavhengig av hverandre. Og alle som er midt i en slik profilert skandale kan ha incitament til å undergrave sitt bidrag. I hans utseende på CNN, Forklarte Kogan for en stadig mer utrolig Anderson Cooper at faktisk modellene egentlig ikke hadde virket veldig bra.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan svarer på spørsmål om CNN.

Faktisk virker nøyaktigheten Kogan påstander litt lav, men trolig. Kosinski, Stillwell og Graepel rapporterte sammenlignbare eller litt bedre resultater, som har flere andre akademiske studier bruker digitale fotavtrykk for å forutsi personlighet (selv om noen av disse studiene hadde mer data enn bare Facebook "liker"). Det er overraskende at Kogan og kansler ville gå i trøbbel med å designe sin egen proprietære modell hvis det ikke er så nøyaktig at det ikke er like nøyaktig.

Det er imidlertid viktig at modellens nøyaktighet på personlighetsresultater gjør det mulig å sammenligne Kogans resultater med annen forskning. Utgitte modeller med tilsvarende nøyaktighet i å forutse personlighet er alle mye mer nøyaktige ved å gjette demografi og politiske variabler.

Den lignende Kosinski-Stillwell-Graepel SVD-modellen var for eksempel 85-prosent nøyaktig i gjetningspartietilknytning, selv uten å bruke annen profilinformasjon enn andre. Kogans modell hadde tilsvarende eller bedre nøyaktighet. Å legge til enda en liten mengde informasjon om venner eller brukernes demografi vil trolig øke denne nøyaktigheten over 90-prosent. Gjetninger om kjønn, rase, seksuell orientering og andre egenskaper vil trolig være mer enn 90 prosent nøyaktig også.

Kritisk ville disse gjetningene være spesielt bra for de mest aktive Facebook-brukerne - menneskene modellen var primært brukt til å målrette. Brukere med mindre aktivitet å analysere er sannsynligvis ikke på Facebook mye uansett.

Når psykografi er for det meste demografi

Å vite hvordan modellen er bygget bidrar til å forklare Cambridge Analytics tilsynelatende motstridende uttalelser om rollen - eller mangel på sådan - Personlighet profilering og psykografi spilte i sin modellering. De er alle teknisk konsistente med hva Kogan beskriver.

En modell som Kogan ville gi estimater for hver variabel som er tilgjengelig på en hvilken som helst gruppe brukere. Det betyr at det ville automatisk anslå de store fem personlighetspoengene for hver velger. Men disse personlighetsscore er utgangen av modellen, ikke inngangen. Hele modellen vet at visse Facebook-liker, og bestemte brukere, pleier å være gruppert sammen.

Med denne modellen kunne Cambridge Analytica si at det var å identifisere personer med lav åpenhet for erfaring og høy nevrotisme. Men den samme modellen, med nøyaktig samme forutsigelser for hver bruker, kan like nøyaktig hevde å være å identifisere mindre utdannede eldre republikanske menn.

Kogans informasjon bidrar også til å forklare forvirringen om Cambridge Analytica faktisk slettet sin trove av Facebook-data, når modeller bygges ut fra dataene synes å fortsatt være sirkulerende, Og selv blir videreutviklet.

Den ConversationHele punktet i en dimensjonsreduksjonsmodell er å matematisk representere dataene i enklere form. Det er som om Cambridge Analytica tok et meget høyoppløselig fotografi, endret størrelsen til å være mindre, og deretter slettet originalen. Bildet eksisterer fortsatt - og så lenge Cambridge Analytics modeller eksisterer, gjør dataene også effektivt.

Om forfatteren

Matthew Hindman, lektor i media og offentlige anliggender, George Washington University

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.

Relaterte bøker

at InnerSelf Market og Amazon