Studiens primära utfallsmått
Utfallsmått är de variabler vi använder för att mäta resultaten i en studie.
Olika sorters mätskalor
Vad gäller hur en mätvariabels tänkbara värden förhåller sig till varandra, skiljer man vanligen mellan olika sorters skalor:
Nominalskala
En nominalskala består av kategorier som saknar rangordning. Baslinjekaraktäristika som kön, etniciteter eller geografisk hemvist är exempel på sådana kategorier.
Ordinalskala
En ordinalskala består av kategorier som har rangordning. De saknar dock relativ storhet såtillvida att avståndet mellan dem inte kan anses vara konstant. Exempelvis är, vid bestämning av en ordinal variabel, sex mer än fem och sju är mer än sex, men det finns ingen grund för att säga att avståndet mellan fem och sex är samma som mellan sex och sju. Detta är karaktäristiskt för symptomskattnings-skalor.
Intervallskala
Med en intervallskala kan avståndet mellan kategorierna definieras numeriskt. Ett vanligt exempel är temperaturmätning enligt Celsius. Trots den numeriska relationen kan man inte säga att tolv grader är dubbelt så mycket som sex grader, eftersom skalan saknar absolut nollpunkt.
Kvotskala
En kvotskala skiljer sig från en intervallskala såtillvida att det finns en absolut nollpunkt, med vilket menas att innebörden av noll är naturligt bestämt. Temperaturmätning enligt Kelvin nyttjar en kvotskala. I ett sådant fall kan vi meningsfullt säga att tolv är dubbelt så mycket som sex. Flertalet fysiologiska mätvärden har en naturlig nollpunkt (exempelvis puls, blodtryck, blodsocker)
Utfallsvariablers formella egenskaper
Om utfallsvariabeln är en så kallad binär variabel finns det två tänkbara utfall. Sådana utfallsvariabler är mycket vanliga. Exempelvis kategoriseras patienter ofta som ”responders” och ”non-responders”. Binära variabler kan uppfattas som nominala eller ordinala. Eftersom en sådan variabel endast har ett skalsteg, anses det dock oproblematiskt att anta att alla skalsteg är lika stora.
En fördel med binära utfall är att de förenklar imputation av saknade data. Som tidigare nämnts kan man ibland kategorisera patienter med saknade data som non-responders i en komposit, binär endpoint.
Definitionen av en responder vilar på en absolut gräns på en ordinal- eller kvotskala (exempelvis om en responder måste ha en symptom-score under fem eller ett systoliskt blodtryck under 130 mmHg). En vanlig kritik mot responder-definitioner är att man genom dikotomiseringen inte utnyttjar all tillgänglig information om utfallsvariabeln.
Ordinala utfallsmått är tämligen vanliga, men igenkänns inte alltid som sådana. Exempelvis är symptomskattningsskalor ordinala, vilket diskuteras vidare nedan. Ett utfallsmått kan även vara ordinalt såtillvida att patienterna i studien rankas avseende status på en ordinalskala, varvid fördelningen jämförs mellan armar.
Blodtryck nämndes som exempel på en utfallsvariabel baserad på en kvotskala. Sådana variabler utnyttjar summan av den insamlade informationen mer effektivt än en motsvarande binär responder-endpoint. Hantering av saknade data kan dock vara mindre självklar än vid ett binärt utfallsmått. Därutöver tenderar frågor att uppstå om statistiskt säkerställda skillnader är kliniskt relevanta, då små skillnader kan etableras om studien är stor nog.
Utfallsvariabler förspecificeras på olika sätt med avseende på tidpunkt för bestämning i relation till baslinjen. Exempelvis kan mätningen specificeras:
-
Vid en given uppföljningstid, exempelvis vid 30 dagar eller 48 veckor efter baslinjen (uppföljningstid definierad från baslinjen snarare än från avslutad behandling är att föredra för att undvika att händelser efter baslinjen påverkar den förspecificerade utvärderingen).
-
Som andel patienter med en viss händelse fram till en given tidpunkt.
-
Som det mest extrema värdet under en viss observationstid (exempelvis ”Best Objective Response” i cancerstudier, som motsvarar största tumörkrympning innan tumörprogression).
-
Som den integrerade arean under en kurva (AUC) där effektvariabeln beskrivs som en funktion av tid.
En vanlig definition av utfallsvariabeln som skiljer sig fundamentalt från de ovan listade, är när det som mäts är tid till en händelse.
Tidsberoende utfallsvariabler analyseras vanligen i termer av ”hasardkvoter” som genereras i en regressionsmodell. Med hasardkvot avses kvoten av den momentana risken för utfallet i respektive studiearm. Matematiskt är detta inte samma som relativ risk. Hasardkvoten kan dock förstås som en approximation av relativ risk över tid.
Då den primära utfallsvariabeln utgör tid till en händelse, definieras ofta tidpunkten för bestämning utifrån att ett visst totalt antal händelser skall ha inträffat i studien. Detta innebär att en viss andel av de rekryterade patienterna, vid den primära analysen, inte drabbats av en händelse. Det förblir således oklart om/när dessa patienter kommer att drabbas av en sådan. Andelen av de rekryterade patienterna som haft en händelse vid ett givet analystillfälle kallas för ”datamognad”.
Då det är sällsynt att alla patienter i en studie randomiseras samma dag, kommer uppföljningstiden för patienterna vid tidpunkt för en given analys generellt att variera. Antalet patienter som är under uppföljning vid en viss tidpunkt kommer att minska med ökande tid från baslinjen.
Uppföljningstiden i analysen för patienter som ännu inte haft en händelse, beräknas fram till ett visst datum (vanligen den sista tidpunkt då det etablerades att patienten inte haft händelsen). När uppföljningen av en patient avbryts vid en viss tidpunkt i analysen, kallas detta för ”censurering”.
Om orsaken till censurering inte är oberoende av risken för det utfall som mäts, så kan censurering orsaka bias. Av detta skäl skiljer man mellan ”administrativ” och ”icke-administrativ” censurering.
Administrativ censurering
Administrativ censurering inträffar när patienter som är under uppföljning enligt protokoll inte haft en händelse vid tidpunkten för analysen. Sådan censurering kan ofta anses oberoende av risken för utfallet, och förväntas då inte orsaka bias.
Icke-administrativ eller ”informativ” censurering
Icke-administrativ eller ”informativ” censurering orsakas av interkurrenta händelser. Därför kan informativ censurering resultera i bias.
Ett vanligt exempel på icke-administrativ censurering är då patienten lämnar studien och inte medger vidare uppföljning. Det är oftast inte orimligt att patienter som avbryter studiedeltagande systematiskt skiljer sig från de som kvarstår i studien, avseende risken för det utfall som mäts.
Icke-administrativ censurering förekommer dock ibland i enlighet med protokoll, och relaterar då till andra typer av interkurrenta händelser. Exempelvis specificerar FDA’s regler för analys av progressionsfri överlevnad i cancerstudier, att patienter som påbörjar en ny, icke-protokollspecificerad cancerbehandling innan en progressionshändelse, skall censureras i analysen.
Censureringar kan resultera i bias
Vid bedömning av tidsberoende utfall, är det avgörande att förstå implikationerna av censurering i termer av eventuellt bias, inklusive i vilken riktning detta kan tänkas verka (för eller emot testbehandlingen).
En jämförelse av baslinjekaraktäristika hos patienter som censurerats icke-administrativt, och sådana som inte censurerats eller som censurerats administrativt, kan ge viss information om huruvida censureringar kan tänkas samvariera med prognos.
Sensitivitetsanalyser, där man modellerar olika antaganden, är ofta värdefulla då de ger en bild av hur pass avvikande de censurerade patienternas (okända) prognos kan vara, utan att studiens fundamentala slutsatser påverkas.
En komposit mätvariabel är vanligen binär, såtillvida den definierar en sammansatt tillstånd/händelse som endera inträffat eller inte inträffat. Om endera delkomponenter inträffar, så har komposithändelsen inträffat.
När man mäter tid till händelse för ett komposit utfall, så kan samma patient inte ha mer än ett av den sammansatta utfallsvariabelns element i samma analys. Detta kallas för ”competing risks”. Exempelvis, om mätvariabeln är andel patienter som avlidit, fått hjärtinfarkt eller hospitaliserats på grund av annan försämring, så räknas endast den första av dessa händelser för en given patient i analysen av tid till (komposit) händelse.
I sådana fall är det av intresse hur studiebehandlingen hanteras enligt protokoll då en händelse inträffat. I en kardiovaskulärstudie kommer studiebehandlingen vanligen att fortsätta efter en hospitaliseringshändelse. Detta medger att studiebehandlingens effekt på de andra delkomponenterna kan utvärderas som sekundära utfall oberoende av den komposita primära utfallsvariabeln.
I fallet progressionsfri överlevnad i cancerstudier, där variabeln är sammansatt av protokolldefinierad sjukdomsprogression och död, avslutas studiebehandlingen vanligen vid en progressionshändelse, då detta indikerar att tumören inte längre svarar på behandlingen, och vidare behandling således inte är förenad med nytta.
Om man avslutar behandling mot hjärtsvikt vid hospitalisering, kommer man inte att erhålla ett relevant estimat för behandlingens effekt på överlevnad, då fortsatt behandling efter hospitalisering ofta kommer att vara relevant i kliniken.
Skillnaden mellan dessa två scenarier pekar på betydelsen av att definiera relevanta estimander vid studiedesign, med hänsyn till den situation som studeras, och behandlingens farmakologiska egenskaper.
Interimsanalyser och final analys
Det är vanligt att man förspecificerar analyser vid ett flertal tillfällen. Den sista planerade analysen kallas för final analys. Detta innebär inte nödvändigtvis att slutgiltigt status avseende utfallsvariabeln bestämts för alla patienter; snarare avses att vid denna analys upphör den systematiska utvärderingen av utfallet.
Analyser innan den finala analysen, kallas för interimsanalyser. Sådana kan göras med olika syften, exempelvis med avseende på futilitet vad gäller studiens möjlighet att visa effekt, eller för att göra en omestimering av studiestorleken (det är väsentligt att detta görs på ett sådant sätt att typ 1-felkontrollen inte förloras).
Interimsanalyser är dock ofta typ 1-felskyddade, och därmed en direkt del av studiens hypotesprövningsalgoritm. Ett protokoll kan specificera att en studie förkastar nollhypotesen redan vid en interimsanalys om p-värdet underskrider det tröskelvärde som allokerats till den aktuella analysen.
I sådana fall kan interimsanalysen komma att utgöra den ”inferentiella” analysen – det vill säga den analys på vilken den primära slutsatsen av studien vilar. Denna omständighet väcker ibland förvirring, särskilt i de fall då den finala analysen inte är statistiskt signifikant.
Detta scenario bör generellt tolkas så, att effekten troligtvis inte är särskilt övertygande avseende storlek, eller vad gäller dess homogenitet i den studerade populationen. Den finala analysen ogiltigförklarar dock inte förkastandet av nollhypotesen i den tidigare, inferentiella analysen (det vill säga att studien förblir en statistiskt ”positiv” studie).
Även i fall där interimsanalyser är typ 1-felskyddade så kan de innebära andra problem. Exempelvis finns det risk att kunskap om effektstorlek, eller om allokering av behandlingar, sprids till patienter, prövare i studien, eller till personal som driver studien, och därmed påverkar resultaten i resten av studien. Därför bör man vara försiktig med att använda interimsanalyser i konfirmerande studier.
Hur presenteras utfallsmåtten
Med ”punktestimat” avses det räknevärde som används för att skatta en utfallsvariabel. Detta estimat kan exempelvis vara ett medelvärde, ett medianvärde eller en hasardkvot. Resultat av mätningar i kliniska studier presenteras vanligen som ett punktestimat tillsammans med ett mått på osäkerheten i estimatet.
Om mätningen är primär utfallsvariabel presenteras därutöver ett p-värde. Om p-värdet är lägre än den förspecificerade beslutsgränsen beskrivs studieresultatet som ”statistiskt signifikant”. Detta uttrycks ibland så att studien är statistiskt ”positiv”.
Osäkerheten i mätvärdet representeras ofta av ett (vanligen 95 %) konfidensintervall (motsvarar ett p-värde på 0.05). Ett p-värde som är statistiskt signifikant speglas i en studie designad för att visa överlägsenhet, av ett motsvarande konfidensintervall som inte omfattar noll eller ingen skillnad (se nedan vad gäller non-inferiority studier).
Analogt med hur vi inte kan förstå p-värdet som sannolikheten för att en effekt finns (se ovan), är det inte korrekt att tolka ett konfidensintervall som det intervall inom vilket det sanna värdet med en viss sannolikhet ligger.
Konfidensintervallets definition är inte helt enkel för icke-statistikern. En variant är följande: ett X-procentigt konfidensintervall är så konstruerat att om man kunde göra experimentet ett oändligt antal gånger, och beräknade ett konfidensintervall för varje experiment, så skulle X procent av intervallen täcka det sanna värdet.