En grunn til at noen vitenskapelige studier kan være feil

: By Geoff Cumming, La Trobe University

Takk for besøket InnerSelf.com, der det er 20,000 + livsendrende artikler som fremmer "Nye holdninger og nye muligheter." Alle artikler er oversatt til 30+ språk. Bli medlem! til InnerSelf Magazine, utgitt ukentlig, og Marie T Russells Daily Inspiration. InnerSelf Magazine har blitt utgitt siden 1985.

bryte

En grunn Noen vitenskapelige studier kan være feil

Det er en replikabilitetskrise i vitenskap - uidentifiserte "falske positive" er gjennomsyrer selv våre toppforskningstider.

En falsk positiv er et krav om at en effekt eksisterer når det faktisk ikke er tilfelle. Ingen vet hvilken andel publiserte papirer inneholder slike feilaktige eller overdrevne resultater, men det er viser at andelen ikke er liten.

Epidemiologen John Ioannidis ga den beste forklaringen til dette fenomenet i et kjent papir i 2005, med tittelen "Hvorfor de fleste publiserte forskningsresultater er falske”. En av grunnene til at Ioannidis ga for så mange falske resultater har kommet for å bli kalt "p hacking ", som oppstår fra trykkforskerne føler seg for å oppnå statistisk betydning.

Hva er statistisk betydning?

For å trekke konklusjoner fra data, er forskere vanligvis avhengige av betydningstesting. Enkelt sagt betyr dette at du beregner "p verdi ", som er sannsynligheten for resultater som vår, hvis det virkelig ikke er noen effekt. Hvis p verdien er tilstrekkelig liten, er resultatet erklært å være statistisk signifikant.

Tradisjonelt, a p verdien av mindre enn .05 er kriteriet for betydning. Hvis du rapporterer en p<.05, sannsynligvis vil leserne tro at du har funnet en reell effekt. Kanskje er det faktisk ingen effekt, og du har rapportert om en falsk positiv.

Mange tidsskrifter vil kun publisere studier som kan rapportere en eller flere statistisk signifikante effekter. Graduate studenter lærer raskt å oppnå den mytiske p

Dette trykket for å oppnå pp hacking.

Lokket av p hacking

Å illustrere p hacking, her er et hypotetisk eksempel.

Bruce har nylig fullført en PhD og har landet et prestisjefylt stipend for å bli med i et av de beste forskerteamene i sitt felt. Hans første forsøk går ikke bra ut, men Bruce forfiner raskt prosedyrene og driver en annen studie. Dette ser mer lovende ut, men gir fortsatt ikke en p verdi mindre enn .05.

Overbevist om at han er på noe, samler Bruce flere data. Han bestemmer seg for å slippe noen av resultatene, som så tydelig ut.

Han merker da at en av hans tiltak gir et klarere bilde, så han fokuserer på det. Noen få tweaks og Bruce identifiserer endelig en litt overraskende, men veldig interessant effekt som oppnår p

Bruce prøvde så hardt for å finne effekten som han visste lurte et sted. Han følte også presset til å treffe p

Det er bare en fangst: det var faktisk ingen effekt. Til tross for det statistisk signifikante resultatet har Bruce publisert en falsk positiv.

Bruce følte at han brukte sin vitenskapelige innsikt for å avsløre lurkingeffekten da han tok ulike skritt etter å ha startet studiet:

Han samlet inn flere data.
Han falt noen data som virket avvikende.
Han droppet noen av sine tiltak og fokuserte på det mest lovende.
Han analyserte dataene litt annerledes og gjorde noen få andre tilpasninger.

Problemet er at alle disse valgene ble gjort etter ser dataene. Bruce kan, ubevisst, ha vært kirsebærpicking - velge og justere til han oppnådde det unnvikende pp

Statistikere har et ordtak: Hvis du torterer dataene nok, vil de bekjenne. Valg og tweaks gjort etter å ha sett dataene er tvilsom forskningspraksis. Å bruke disse, bevisst eller ikke, for å oppnå det riktige statistiske resultatet er p hacking, som er en viktig årsak til at publiserte, statistisk signifikante resultater kan være falske positiver.

Hvilken andel av publiserte resultater er feil?

Dette er et godt spørsmål, og en fiendishly vanskelig. Ingen vet svaret, som sannsynligvis vil være annerledes i ulike forskningsfelt.

En stor og imponerende innsats for å svare på spørsmålet om sosial og kognitiv psykologi ble publisert i 2015. Ledet av Brian Nosek og hans kolleger på Center for Open Science, the Replikasjonsprosjekt: Psykologi (RP: P) hadde 100 forskergrupper rundt om i verden, utfører hver nøye replikering av et av 100 publiserte resultater. Alt i alt, omtrent 40 repliserte ganske bra, mens i rundt 60-tilfeller oppnådde replikasjonsstudiene mindre eller mindre mindre effekter.

100 RP: P replikasjonsstudiene rapporterte effekter som i gjennomsnitt bare var halvparten av effektene rapportert av de opprinnelige studiene. De nøye utførte replikasjonene gir sannsynligvis mer nøyaktige estimater enn muligens p hacked originale studier, slik at vi kunne konkludere med at de opprinnelige studiene overvurderte virkelige effekter med en gjennomsnittlig faktor på to. Det er alarmerende!

Hvordan unngå p hacking

Den beste måten å unngå p hacking er å unngå å gjøre noen valg eller tweaks etter å ha sett dataene. Med andre ord, unngå tvilsom forskningspraksis. I de fleste tilfeller er den beste måten å gjøre dette på å bruke Forhåndsregistrering.

Preregistrering krever at du i forveien utarbeider en detaljert forskningsplan, inkludert den statistiske analysen som skal brukes på dataene. Deretter forordner du planen, med datostempel, på Open Science Framework eller noen andre online register.

Deretter gjennomføre studien, analysere dataene i samsvar med planen og rapportere resultatene, uansett hva de er. Leserne kan sjekke forhåndsregistrerte planer og dermed være sikre på at analysen ble spesifisert på forhånd, og ikke p hacket. Forhåndsregistrering er en utfordrende ny ide for mange forskere, men sannsynligvis vil være veien for fremtiden.

Estimering i stedet for p verdier

Fristelsen til p hack er en av de store ulempene med å stole på p verdier. En annen er at pheller som å si at det finnes en effekt eller ikke.

Men verden er ikke svart og hvit. For å gjenkjenne de mange nyanser av grå er det mye bedre å bruke anslag snarere enn p verdier. Målet med estimeringen er å estimere størrelsen på en effekt - som kan være liten eller stor, null eller til og med negativ. Når det gjelder estimering, er et falskt positivt resultat et estimat som er større eller mye større enn den virkelige verdien av en effekt.

La oss ta en hypotetisk studie om effekten av terapi. Studien kan for eksempel anslå at terapi gir en gjennomsnittlig reduksjon i 7-punkt i angst. Anta at vi beregner fra våre data a konfidensintervall - En rekke usikkerheter hver side av vårt beste estimat - av [4, 10]. Dette forteller oss at vårt estimat av 7 er mest sannsynlig innenfor omtrent 3 poeng på angstskalaen for den virkelige effekten - den sanne, gjennomsnittlige fordelen av terapien.

Med andre ord angir konfidensintervallet hvor nøyaktig vårt estimat er. Å vite et slikt estimat og konfidensintervall er mye mer informativt enn noen p verdi.

Jeg refererer til estimering som en av de "nye statistikkene". Teknikkene selv er ikke nye, men bruk av dem som den viktigste måten å trekke konklusjoner fra data ville for mange forskere være nytt, og et stort skritt fremover. Det vil også bidra til å unngå forvrengninger forårsaket av p hacking.

Om forfatteren

Geoff Cumming, Emeritus Professor, La Trobe University

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.

Relaterte bøker:

at InnerSelf Market og Amazon

bryte

Takk for besøket InnerSelf.com, der det er 20,000 + livsendrende artikler som fremmer "Nye holdninger og nye muligheter." Alle artikler er oversatt til 30+ språk. Bli medlem! til InnerSelf Magazine, utgitt ukentlig, og Marie T Russells Daily Inspiration. InnerSelf Magazine har blitt utgitt siden 1985.

Tilgjengelige språk

følg InnerSelf på

InnerSelf forfattere

en mann som bøyer seg ned for å se nøye på en skulptur på en benk

InnerSelfs daglige inspirasjon: 17. april 2024

David Samson, University of Toronto

The Daily Inspiration er en kort melding for å sette tonen for dagen. Den er lenket til en lengre artikkel for ytterligere innsikt og...

Slutt å være mellommannen i familie (og venners) saker

Jude Bijou

Noen av våre største følelsesmessige utfordringer kommer fra familiedynamikk. Det er en sjelden situasjon der alle i familien kommer overens. Hvis du…

Hvordan rødbeter kan øke helsen din og kanskje kjærlighetslivet ditt

Lauren Ball og Emily Burch

Hva med rødbetens andre tilsynelatende helsefordeler – fra å redusere blodtrykket til å forbedre den daglige treningen? Her er hva...

Hvordan din barndom påvirker ditt kjærlighetsliv: The Role of Attachment Theory

InnerSelf Staff

Å tenke gjennom din egen tilknytningshistorie og forventninger til relasjoner kan være en flott mulighet for selvrefleksjon, men det er...

Hvorfor "Gentleman"-arketypen fortsetter å fengsle i moderne medier

Jayden Greenwell-Barnden, University of Western Australia

Netflixs nye drama viser at vi fortsatt tiltrekkes av konseptet "gentlemen". Psykologi forklarer hvorfor.

MEST LES

Undergraver landlig hvit harme demokratiet?

Thomas F. Schaller, University of Maryland

Hvorfor landlige hvite amerikaneres harme er en trussel mot demokratiet...

Perma-resepten: Fem trinn til varig velvære

Ben Gibson og Victoria Ruby-Granger, De Montfort University

Fem-trinns velværemodellen som virkelig fungerer – og psykologien bak...

bilde av en kvinne på en sti i et åpent felt og holder en koffert

Du blir berørt av dine forfedres traumer!

Peter A. Levine

Marerittaktige traumer kan overføres over flere generasjoner. Faktisk hadde disse implisitte minneengrammene en dyp innvirkning på livet mitt,...

Avduking av de skjulte grunnene til at barn ler

Carlo Valerio Bellieni, Università di Siena

Hvorfor ler barn? Det er ikke alltid fordi de er glade...

Ung mann spiller gitar mens han har på seg hjelm dekket av elektroder som måler hjerneaktivitet

Fra praksis til ytelse: Vitenskapen om kreativ flyt

John Kounios og Yvette Kounios

Hjerneskanninger av Philly jazzmusikere avslører hemmeligheter for å nå kreativ flyt...

Pet Paradox: Hvordan deling av et rom påvirker søvnen

Brian N. Chin, Trinity College

Kan det å dele soverom med kjæledyrene dine hindre deg i å få en god natts søvn?

SISTE

InnerSelfs daglige inspirasjon: 17. april 2024

The Daily Inspiration er en kort melding for å sette tonen for dagen. Den er lenket til en lengre artikkel for ytterligere innsikt og...

Slutt å være mellommannen i familie (og venners) saker

Noen av våre største følelsesmessige utfordringer kommer fra familiedynamikk. Det er en sjelden situasjon der alle i familien kommer overens. Hvis du…