Hjem Forskning Bort fra statistisk signifikans og p-verdier i forskningen?

Forskning

Bort fra statistisk signifikans og p-verdier i forskningen?

13.01.2020

1486

bort fra statistisk signifikans i forskningen — Bør vi gå bort fra å snakke om statistisk signifikans i forskningen? Ja, mener flere forskere.

Siden datamaskinene ble raskere enn oss mennesker i matematikk, har statistikk vært én av flere metoder i vitenskapelig forskning. I dag brukes statistikk, og herunder begreper som statistisk signifikans, hver dag verden rundt for å teste hypoteser, utforske sammenhenger og – ideelt sett – for å bidra med funn som kan bedre samfunnet vi lever i.

Statistikk har vært og er fremdeles til nytte i forskningen, også i forskning på psykisk helse og behandling av psykiske helseplager. Imidlertid kan uvettig bruk av statistikk også skade dem den er ment å hjelpe. Dette kan skje som følge av en rekke faktorer, slik som fagfeltets vesen, strukturelle omstendigheter rundt forskerne, svak metodekunnskap, samt forskningsfeil og forskningsjuks.

I denne artikkelen skal jeg komme inn på flere utfordringer ved forskningen, slik disse omtales av forskere selv og slik det nylig har fremkommet i det offentlige ordskiftet. Dette omfatter, men er ikke begrenset til: fokus på statistisk signifikans og P-verdier («probability values») i statistikken, mangel på reproduserbarhet i forskningen, samt konsekvenser av systemer og strukturer som forskerne jobber under.

Språklig tåkelegging

Det kan være vanskelig å vite hva som er god og pålitelig forskning. Statistikken er full av begreper og uttrykk som kan lede oss inn i tåkeprat og konklusjoner med svakt belegg, dersom de nødvendige, statistiske forkunnskapene ikke er på plass. Ord som “effekt” og “statistisk signifikant” kan fremstå nærmest som gudegitte og selvforklarende konsepter.

Om ”funnet er statistisk signifikant”, må det jo bety at “forskning viser” at resultatene er sanne, må det ikke?

Mon det.

Gjennom alle de valgene som tas underveis i forskningsprosessen, kan “sannheten” ha blitt konstruert, enten bevisst eller ubevisst. Intensjonen bak forskningen kan være god, men det betyr ikke at resultatet blir godt. Og sannheten – den kan være langt fra sannheten.

Et farvel til «statistisk signifikans»?

I mai i 2019 publiserte det vitenskapelig tidsskriftet The American Statistician et temanummer der blant annet bruken av P-verdier og det relaterte begrepet “statistisk signifikant” ble kraftig kritisert.

I følge flere av forskerne som bidro til temanummeret, er det på høy tid å forkaste begrepet “statistisk signifikans”, som sammen med P-verdier, anses å kunne verne mot feilslutninger i hypotesetesting.

Jeg skal komme tilbake til denne kritikken, men for folk som ikke jobber med statistikk, er det på sin plass med en kort beskrivelse av “statistisk signifikans” og P-verdier.

Statistisk signifikans og P-verdier

“Statistisk signifikans” omtales i forbindelse med signifikanstesting av nullhypoteser. En forsker kan for eksempel anta at det er en sammenheng mellom bruk av nevroleptika og reduksjon i psykotiske symptomer. Nullhypotesen er da at det ikke finnes noen slik sammenheng.

Dersom forskeren gjør en statistisk test for å undersøke nullhypotesen, og får en P-verdi som er lavere enn 0.05 (som betyr 5 prosent), kan han forkaste nullhypotesen, og trekke den slutningen at det finnes en sammenheng (en effekt) mellom bruk av nevroleptika og reduksjon i symptomer. Sammenhengen forstås som “statistisk signifikant”, altså rimelig sannsynlig, men med en viss margin for å ha trukket feil slutning. P-verdien representerer denne feilmarginen, altså er den et uttrykk for statistisk usikkerhet forbundet med det aktuelle funnet.

Falske dikotomier

Et problem er imidlertid at “statistisk signifikans” i blant forstås dikotomisk, som en representasjon av at det enten er en reell effekt (en P-verdi under 0.05) eller ingen effekt (en P-verdi over 0.05). Denne typen slutninger er feilaktige, ettersom P-verdien handler om statistisk usikkerhet, og ikke er et mål på sannhet.

Det finnes heller ingen godt fundert begrunnelse for at grenseverdien for hva som regnes som rimelig pålitelig – altså såkalt “statistisk signifikant” – skal være 5 prosent. Dette er en vilkårlig grense – en tommelfingerregel. Terskelen kunne like gjerne vært 1 prosent, eller en promille.

Dette er det da også en rekke forskere som mener, nemlig at det bør settes høyere krav til at et funn skal kunne kalles “statistisk signifikant”. Flere mener også at det må oppgis effektstørrelser (altså tall på størrelsen til en effekt) og konfidensintervaller (altså usikkerhet rundt gjennomsnittet), dersom P-verdier rapporteres.

Sistnevnte er dog noe mange forskere allerede gjør, og spørsmålet blir derfor: Er et strengere signifikansnivå, samt rapportering av flere statistiske størrelser, tilstrekkelig for å sikre en mer pålitelig og anvendelig forskning?

En demning mot flommen av statistisk signifikans

I artikkelen «What have we (not) learnt from millions of scientific papers with P-values?» skriver John Ionnidis at å følge denne typen forslag, vil fungere som en demning mot flommen av “statistisk signifikans”, men at det ikke vil løse problemet knyttet til skjevhet i hvilke resultater som velges ut og fremheves.

Med tanke på at vitenskapelige tidsskrifter favoriserer statistisk signifikante funn, kan forskere bevisst eller ubevisst falle for fristelsen til å bedrive p-fisking, eller p-hacking, som handler om tendensen til å lete etter, velge ut, og vektlegge resultater som er statistisk signifikante. P-verdiene som publiseres blir dermed et resultat av en mengde valg som tas underveis i forskningsprosessen, og som ikke redegjøres tilstrekkelig for.

Den eneste direkte beskyttelsen mot slik seleksjon av resultater, er å gjøre bruk av forskningspraksiser som lar seg reprodusere, skriver Ionnidis.

Han påpeker at dette innebærer mer grundige beskrivelser av valg og fremgangsmåte i studiedesign og hypoteseutvikling, samt at forskeren på forhånd – altså før studien igangsettes – bør spesifisere og redegjøre for planlagt metode og analyse.

Ingen standarder i forskningen?

Påstanden om at forskningen ikke er så troverdig som mange tror, er dog langt fra ny, noe også politikere er oppmerksomme på.

I oktober i fjor var det allikevel flere som satte kaffen i vrangstrupen da Fremskrittspartiets stortingspolitiker Jon Helgheim twitret at “Det finnes ingen standarder for hva som er reell forskning og ikke”. Forskere kan nok være åpne for seg i mellom å diskutere og kritisere forskningens iboende vesen, men når noen utenfra gjør det, er ikke kritikken like enkel å svelge.

Forskerforbundet svarte Helgheim med en lang twittertråd, der de blant annet sa at “Et kvalitetskriterium i forskning er at forskningsresultatene skal være reproduserbare, altså at det må være mulig for en forsker som anvender de samme metodene på et tilsvarende materiale, å komme frem til lignende resultater”, samt at “I en tid hvor tilliten til vitenskapen er under press, fortjener forskerne å ha våre fremste folkevalgte i ryggen”.

At det skal eksistere “fake science”, gir antakelig enda sterkere frykt enn at det eksisterer “fake news”. For om vi ikke kan stole på forskerne, hvem kan vi stole på da? Bør vi ikke bare ha tillit?

Etterprøvbarhet og reproduserbarhet

Litt kritisk søkelys må også forskningen kunne tåle, uansett hva som er kritikerens ståsted eller politiske motivasjon. Det sier Ivan Oransky til Forskerforum, som i årets første utgave nettopp setter forskningens kredibilitet på agendaen. I artikkelen “Et oppgjør med forskningen”, spør Forskerforum om Helgheim ikke egentlig har litt rett?

Flere av dem som uttaler seg i artikkelen, er til dels enige i Helgheims kritikk. En av disse er lege og redaktør i helsenettstedet Medscape, Ivan Oransky, som var med å grunnlegge Retraction Watch – en blogg som loggfører antallet forskningsartikler som tilbakekalles på grunnlag av forskningsfeil eller -juks.

I følge Oransky er påstanden om at “forskningen er selvkorrigerende” en sannhet med modifikasjoner, fordi systemene og insentivstrukturene omkring forskningen gjør selvkorrigering vanskelig. Forskere bedømmes i stor grad på bakgrunn av hvor mye- og i hvilke tidsskrifter de har publisert, så konseptet “publish or perish” (publiser eller forsvinn) er reelt.

“Av noen millioner artikler som blir publisert hvert år, er det kun 1400 tilbakekallelser. Det er åpenbart at det burde være flere”, sier Oransky til Forskerforum.

Systemiske problemer og ulike forhold

Også Paul E. Smaldino, som forsker på forskningens iboende vesen, og som sammen med Richard McElreath har skrevet forskningsartikkelen “The natural selection of bad science”, mener at kvaliteten på forskningen må bli bedre.

Til Forskerforum sier Smaldino at “Systemet omkring publisering av forskningsfunn produserer folk som maksimerer utbyttet og kan systemet”, og at publiseringer som vinner frem er “forskning med svak forklaringskraft, som ikke nødvendigvis lar seg reprodusere”.

Blant de norske kildene som intervjues, er Øyvind Molberg, som leder forskningsgruppen for revmatologi ved Rikshospitalet. Han mener at problemet med manglende reproduserbarhet er alvorlig innen medisin og psykologi, der behovet for å kunne forutse forløp og sette inn gode tiltak på riktig tidspunkt, er vesentlig.

“Så mye som 50-60 prosent av forskning som er publisert innen medisin kan ikke reproduseres”, sier Molberg, og peker på to årsaker til dette: Én årsak er de problematiske, strukturelle forholdene omkring forskningen, slik som kortsiktig økonomisk finansiering, som bidrar til mangel på studier som går over lang nok tid. En annen årsak er vanskene med å få til like forhold, når det forskes på mennesker, som tross alt er forskjellige.

Psykisk smerte er meningsbærende

Her er det på sin plass å påpeke at psykiske helseutfordringer, oftere enn somatiske sykdommer, er meningsbærende for den som strever.

Det betyr at når enkeltmenneskers eksistensielle problemer reduseres til gjennomsnittsestimater i behandlingsforskningen, og konsepter som “effekt” og “randomiserte kontrollerte forsøk” blir den hellige gral, er det stor fare for å utvikle reduksjonistiske hjelpesystemer. Standardiserte forløp kan da medføre at medmenneskelighet og menneskerettigheter overkjøres.

Blant annet av denne grunn er det maktpåliggende å snakke om statistikkens utfordringer i behandlingsforskningen. Dette inkluderer også problematiske sider ved forskning som gjør bruk av den såkalte gullstandarden for forskningsmetoder innen kliniske studier, nemlig randomiserte kontrollerte forsøk.

Evidensbasert praksis under press

I forskningsartikkelen “The evidence-based group-level symptom-reduction model as the organizing principle for mental health care: time for change?”, som ble publisert i tidsskriftet World Psychiatry i januar 2019, problematiserer Van Os og kolleger evidensgrunnlaget som innholdet i – og organiseringen av – psykiske helsetjenester hviler på.

De peker på at psykiske helsetjenester er sterkt påvirket av synet på psykiske helseutfordringer som diagnostiserbare lidelser, samt troen på at slike «lidelser» kan behandles av spesialister, ved å følge evidensbaserte retningslinjer for klinisk praksis.

Den evidensbaserte symptomreduksjonsmodellen er riktignok under press, skriver Van Os og kolleger, og understreker at det er gode grunner til dette:

For det første er modellen frakoblet enkeltpersoners behov, idet evidensbasert praksis fremmer retningslinjer for symptomreduksjon på gruppenivå, ikke på individnivå.

Modellen ignorerer dessuten det faktum at mentale helseproblemer ikke uten videre lar seg skille i enkeltstående diagnoser, men snarere har en overlappende natur.

En tredje årsak er at modellen overestimerer bidraget som de tekniske aspektene av behandlingen gir, sammenliknet med de relasjonelle og mer ritualistiske sidene ved omsorgen.

Sist, men ikke minst, kritiseres modellen for å underestimere hvorvidt og i så fall hvordan evidensbasert praksis lar seg overføre fra gruppenivå til individnivå.

Den gjennomsnittlige pasienten?

Med bakgrunn i det jeg til nå har skrevet, bør det være opplagt at også forskning på behandling for mennesker som strever psykisk, har sine utfordringer.

Konklusjoner som gjøres på bakgrunn av gjennomsnittsverdier for en gruppe mennesker som kan ha mer eller mindre til felles, vil i beste fall ha gyldighet nettopp for den gjennomsnittlige pasienten. Spørsmålet er om den pasienten finnes.

Mer substansielt er problemet at “god effekt” på gruppenivå ikke uten videre er det samme som “god behandling” for den enkelte. Og “god behandling” i et systemperspektiv er heller ikke nødvendigvis synonymt med “god hjelp” i et individperspektiv.

Er det potensiale i Bayesiske metoder?

Selv om det kan virke rimelig å trekke konklusjoner basert på statistiske størrelser, så er det et faktum at vi mennesker – selv om vi kan ha mye til felles – er forskjellige.

Dersom forskningen bedre skal kunne ta høyde for dette, trengs det mer enn en strengere grenseverdi for hva som kalles «statistisk signifikant».

En mulighet som fremheves av enkelte forskere, er å gå bort fra bruk av frekventistiske, statistiske metoder, som hviler på signifikanstesting av nullhypoteser. Bruk av det som kalles Bayesiske metoder vil kanskje være et bedre alternativ. Hvorvidt bruk av Bayesiske metoder vil kunne bidra til å bedre kvaliteten på forskningen generelt, eller på behandlingsforskningen spesielt, vil fremtiden vise. Dette kommer jeg tilbake til i en senere bloggpost.

Konklusjon

Uansett er det viktig å lese forskning med kritisk blikk, og ikke legge seg flat for statistisk signifikante størrelser. At et funn er “statistisk signifikant”, betyr nemlig ikke at det er substansielt betydningsfullt.

Kilder:

Spesialnummer av The American Statistician: “Statistical Inference in the 21st Century: A World Beyond p < 0.05”. Volume 73, 2019. Her finner du Editorial.

Kjær Vidnes (2020) “Gjør vi oss fortjent til tilliten?” Artikkel i Forskerforum nr 1, årgang 52, side 12–17

Van Os et al. (2019) “The evidence-based group-level symptom-reduction model as the organizing principle for mental health care: time for change?” I World Psychiatry nr 18 side 88–96