En grunn Noen vitenskapelige studier kan være feil

Det er en replikabilitetskrise i vitenskap - uidentifiserte "falske positive" er gjennomsyrer selv våre toppforskningstider.

En falsk positiv er et krav om at en effekt eksisterer når det faktisk ikke er tilfelle. Ingen vet hvilken andel publiserte papirer inneholder slike feilaktige eller overdrevne resultater, men det er viser at andelen ikke er liten.

Epidemiologen John Ioannidis ga den beste forklaringen til dette fenomenet i et kjent papir i 2005, med tittelen "Hvorfor de fleste publiserte forskningsresultater er falske”. En av grunnene til at Ioannidis ga for så mange falske resultater har kommet for å bli kalt "p hacking ", som oppstår fra trykkforskerne føler seg for å oppnå statistisk betydning.

Hva er statistisk betydning?

For å trekke konklusjoner fra data, er forskere vanligvis avhengige av betydningstesting. Enkelt sagt betyr dette at du beregner "p verdi ", som er sannsynligheten for resultater som vår, hvis det virkelig ikke er noen effekt. Hvis p verdien er tilstrekkelig liten, er resultatet erklært å være statistisk signifikant.

Tradisjonelt, a p verdien av mindre enn .05 er kriteriet for betydning. Hvis du rapporterer en p<.05, sannsynligvis vil leserne tro at du har funnet en reell effekt. Kanskje er det faktisk ingen effekt, og du har rapportert om en falsk positiv.


innerself abonnere grafikk


Mange tidsskrifter vil kun publisere studier som kan rapportere en eller flere statistisk signifikante effekter. Graduate studenter lærer raskt å oppnå den mytiske p

Dette trykket for å oppnå pp hacking.

Lokket av p hacking

Å illustrere p hacking, her er et hypotetisk eksempel.

Bruce har nylig fullført en PhD og har landet et prestisjefylt stipend for å bli med i et av de beste forskerteamene i sitt felt. Hans første forsøk går ikke bra ut, men Bruce forfiner raskt prosedyrene og driver en annen studie. Dette ser mer lovende ut, men gir fortsatt ikke en p verdi mindre enn .05.

Overbevist om at han er på noe, samler Bruce flere data. Han bestemmer seg for å slippe noen av resultatene, som så tydelig ut.

Han merker da at en av hans tiltak gir et klarere bilde, så han fokuserer på det. Noen få tweaks og Bruce identifiserer endelig en litt overraskende, men veldig interessant effekt som oppnår p

Bruce prøvde så hardt for å finne effekten som han visste lurte et sted. Han følte også presset til å treffe p

Det er bare en fangst: det var faktisk ingen effekt. Til tross for det statistisk signifikante resultatet har Bruce publisert en falsk positiv.

Bruce følte at han brukte sin vitenskapelige innsikt for å avsløre lurkingeffekten da han tok ulike skritt etter å ha startet studiet:

  • Han samlet inn flere data.
  • Han falt noen data som virket avvikende.
  • Han droppet noen av sine tiltak og fokuserte på det mest lovende.
  • Han analyserte dataene litt annerledes og gjorde noen få andre tilpasninger.

Problemet er at alle disse valgene ble gjort etter ser dataene. Bruce kan, ubevisst, ha vært kirsebærpicking - velge og justere til han oppnådde det unnvikende pp

Statistikere har et ordtak: Hvis du torterer dataene nok, vil de bekjenne. Valg og tweaks gjort etter å ha sett dataene er tvilsom forskningspraksis. Å bruke disse, bevisst eller ikke, for å oppnå det riktige statistiske resultatet er p hacking, som er en viktig årsak til at publiserte, statistisk signifikante resultater kan være falske positiver.

Hvilken andel av publiserte resultater er feil?

Dette er et godt spørsmål, og en fiendishly vanskelig. Ingen vet svaret, som sannsynligvis vil være annerledes i ulike forskningsfelt.

En stor og imponerende innsats for å svare på spørsmålet om sosial og kognitiv psykologi ble publisert i 2015. Ledet av Brian Nosek og hans kolleger på Center for Open Science, the Replikasjonsprosjekt: Psykologi (RP: P) hadde 100 forskergrupper rundt om i verden, utfører hver nøye replikering av et av 100 publiserte resultater. Alt i alt, omtrent 40 repliserte ganske bra, mens i rundt 60-tilfeller oppnådde replikasjonsstudiene mindre eller mindre mindre effekter.

100 RP: P replikasjonsstudiene rapporterte effekter som i gjennomsnitt bare var halvparten av effektene rapportert av de opprinnelige studiene. De nøye utførte replikasjonene gir sannsynligvis mer nøyaktige estimater enn muligens p hacked originale studier, slik at vi kunne konkludere med at de opprinnelige studiene overvurderte virkelige effekter med en gjennomsnittlig faktor på to. Det er alarmerende!

Hvordan unngå p hacking

Den beste måten å unngå p hacking er å unngå å gjøre noen valg eller tweaks etter å ha sett dataene. Med andre ord, unngå tvilsom forskningspraksis. I de fleste tilfeller er den beste måten å gjøre dette på å bruke Forhåndsregistrering.

Preregistrering krever at du i forveien utarbeider en detaljert forskningsplan, inkludert den statistiske analysen som skal brukes på dataene. Deretter forordner du planen, med datostempel, på Open Science Framework eller noen andre online register.

Deretter gjennomføre studien, analysere dataene i samsvar med planen og rapportere resultatene, uansett hva de er. Leserne kan sjekke forhåndsregistrerte planer og dermed være sikre på at analysen ble spesifisert på forhånd, og ikke p hacket. Forhåndsregistrering er en utfordrende ny ide for mange forskere, men sannsynligvis vil være veien for fremtiden.

Estimering i stedet for p verdier

Fristelsen til p hack er en av de store ulempene med å stole på p verdier. En annen er at pheller som å si at det finnes en effekt eller ikke.

Men verden er ikke svart og hvit. For å gjenkjenne de mange nyanser av grå er det mye bedre å bruke anslag snarere enn p verdier. Målet med estimeringen er å estimere størrelsen på en effekt - som kan være liten eller stor, null eller til og med negativ. Når det gjelder estimering, er et falskt positivt resultat et estimat som er større eller mye større enn den virkelige verdien av en effekt.

La oss ta en hypotetisk studie om effekten av terapi. Studien kan for eksempel anslå at terapi gir en gjennomsnittlig reduksjon i 7-punkt i angst. Anta at vi beregner fra våre data a konfidensintervall - En rekke usikkerheter hver side av vårt beste estimat - av [4, 10]. Dette forteller oss at vårt estimat av 7 er mest sannsynlig innenfor omtrent 3 poeng på angstskalaen for den virkelige effekten - den sanne, gjennomsnittlige fordelen av terapien.

Med andre ord angir konfidensintervallet hvor nøyaktig vårt estimat er. Å vite et slikt estimat og konfidensintervall er mye mer informativt enn noen p verdi.

Jeg refererer til estimering som en av de "nye statistikkene". Teknikkene selv er ikke nye, men bruk av dem som den viktigste måten å trekke konklusjoner fra data ville for mange forskere være nytt, og et stort skritt fremover. Det vil også bidra til å unngå forvrengninger forårsaket av p hacking.

Om forfatteren

Geoff Cumming, Emeritus Professor, La Trobe University

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.

Relaterte bøker:

at InnerSelf Market og Amazon