Statistik 1

Emnet statistik har med den nye reform i gymnasiet fået en mere fremhævet position end hidtil, og har derfor fortjent at blive præsenteret. Jeg takker flere virksomheder fordi jeg måtte besøge dem, og de ville fortælle mig, hvordan statistik anvendes hos dem. Det har været meget lærerigt! Stoffet strækker sig over flere sider, så jeg har lavet et lille navigationspanel nedenfor. Der er ikke nogen systematisk rækkefølge i de matematiske emner. I stedet er de præsenteret i den rækkefølge de naturligt optrådte.


Virksomheder og institutioner

  1. Danmarks Statistik
  2. TNS Gallup
  3. Novo Nordisk
  4. Tryg Forsikring

Matematiske temaer og personer

  1. Stikprøver
  2. Variansanalyse
  3. Poisson fordelingen
  4. Poisson Processer
  5. Den sammensatte Poisson-fordeling og ruin modeller


Statistik er et emne, som vi alle bliver præsenteret for utallige gange i det daglige, mere eller mindre ubevidst. Mange diskussioner og beslutninger tager udgangspunkt i statistikker: Er bivirkninger ved et medicinsk præparat markante, så produktet skal forbydes, skal man screene for brystkræft, skal man sætte ekstra ind mod kriminaliteten, skal man lette på skatten for at få flere i arbejde etc. Virksomheder benytter statistiske analyser til at finde ud af, hvordan de bedst benytter deres reklamepenge til at få deres produkter gjort kendte. TV-stationerne laver seeranalyser, for at afgøre hvilke programmer, som skal anbringes hvornår på sendefladen. I sportens verden bruger man statistik til at gøre sporten interessant: Hvem er den mest scorende, den med flest assists etc. Politikerne lader sig påvirke af meningsmålinger i deres valg af lovforslag ... vores moderne samfund er gennemsyret af statistik! Men statistik er også nødvendig i forbindelse med videnskabelige afhandlinger. Er forsøgsresultaterne statistisk signifikante? Kan konklusionerne i afhandlingen stå for en nærmere statistisk analyse? Hvor stor er usikkerheden på målingerne?

 

Danmarks statistik

I efteråret 2005 havde jeg den glæde at besøge Danmarks Statistik (DST), som har til huse på Sejrøgade 11, København Ø. En venlig Senior Adviser bød mig velkommen, og fortalte mig om institutionens historie, formål og daglige funktion.

Danmarks Statistik har i skrivende stund (efterår 2005) omkring 570 ansatte. Institutionens historie går tilbage til 1850, hvor de første opgaver bestod i at foretage folketællinger. I takt med samfundets udvikling og internationalisering er opgaverne udvidet på en lang række områder. Som man kan læse på DST's hjemmeside har DST i dag følgende mission:

Danmarks Statistik udarbejder upartisk statistik om samfundet som grundlag for demokratiet og samfundsøkonomien

DST bidrager med sin statistik til viden, debat, analyser, forskning, planlægning og beslutninger hos de vigtigste brugere, som er:

  • Befolkningen
  • Statens og kommunernes politikere og administration
  • Erhvervslivet og organisationerne
  • Forskerne
  • Pressen og medierne
  • EU, FN, OECD, IMF og andre internationale organisationer

DSTs vision er følgende:

Vi vil øge Danmarks Statistiks værdi for samfundet ved løbende at forbedre brugervenligheden og kvaliteten

At Danmarks Statistik har deres fokus rettet mod brugerne understreges også af, at næsten al dens statistik er stillet gratis til rådighed via institutionens fremragende hjemmeside.

DST har en Styrelse, som har det overordnede ansvar. Styrelsen består af 7 personer, heraf Rigsstatistikeren og repræsentanter fra erhverslivet, Dansk Industri, Universitetet, amtet etc.
 


Det er vigtigt at bemærke, at Danmarks Statistik stort set kun beskæftiger sig med statistik på hele populationer. Kun i meget begrænset omfang foretages stikprøver. Kommunale, amtslige og statslige institutioner har pligt til at indberette om diverse forhold til brug i statistikkerne. Det samme er tilfældet for de fleste private erhvervsvirksomheder. Så alle data står i princippet til rådighed! I visse andre lande, herunder USA, har man af rent principielle grunde valgt ikke at have den meget strenge indberetningspligt, som man har i Danmark. Amerikanske statsborgere er for eksempel ikke registreret med et CPR-nummer eller lignende, som kan identificere dem. En ulempe ved denne øgede "borgerlige frihed" er, at man med års mellemrum må foretage folketællinger. Det samme er tilfældet på en lang række andre områder i det amerikanske samfund, og for at få et overblik over samfundets udvikling er man derfor ofte nødsaget til at benytte stikprøver i de statistiske undersøgelser. Men sådan er det som sagt ikke i Danmark!

Nedenstående figur illustrerer det statistiske informationssystem i Danmark:
 

 

Det er vigtigt, at forstå, at Danmarks Statistik ikke drager konklusioner - de præsenterer statistiske data, som folk kan bruge ... Trods det meget omfattende statistiske materiale, som står til rådighed for DST, er der dog en række begrænsninger for, hvordan informationen kan udnyttes. Du kan læse mere herom på DSTs hjemmeside under punktet Om Danmarks Statistik og underpunktet Lovgivning og Datasikkerhed (www.dst.dk/OmDS/Lovgivning.aspx). Man kan ikke trække data ud om enkeltindivider (mikrodata). Data præsenteres altid i en tabel (makrodata). Der er altså begrænsninger på, hvorledes man kan kombinere data på kryds og tværs i de statistikker, som DST leverer. Er man forsker, kan man dog få udvidede muligheder, men stadig under kontrollerede forhold.

Figuren ovenfor illustrer, hvordan data er repræsenteret i en slags Matrix. I eksemplet har man repræsenteret nogle data for kvinder i alderen fra 0 til 96 år, i en række kommuner i årene fra 2000 til 2005. Man kan da trække en sub-matrix ud for at studere den, her er det data for kvinder i alderen fra 48 til 72 år, fra kommunerne x, y og z, fra årene 2001 - 2002. I andre tilfælde vil der være flere end tre variable, så man må tænke på en kasse med flere end tre dimensioner. Det er sådan det fungerer i Statistikbanken på DSTs hjemmeside, og man kan få de valgte data vist i forskellige formater, herunder for eksempel i et Excel Regneark, hvorfra, man kan bearbejde data. En indikation af, at DST sætter brugervenligheden i højsædet, også for den almindelige borger!  

 

TNS Gallup

I Påskeferien 2006 var jeg igen i Hovedstaden og havde fået arrangeret et møde hos Gallup på Masnedøgade 22-26 i København Ø. Jeg blev mødt af en meget velforberedt Lasse Hjorth Madsen, og jeg blev hurtig klar over, at jeg havde fået fat i den rette person. Lasse kunne i detaljer forklare mig om Gallups arbejde og mission, ligesom han havde en god forståelse af den matematik, som er involveret i emnet.

TNS Gallup på Masnedøgade i København Ø
 

Lad mig starte med at forklare om Gallups historie: TNS Gallup i København blev grundlagt i 1939 i Danmark. Den legendariske reklamemand Haagen Wahl Asmussen havde fulgt Gallups virke i USA, og efter et møde med grundlæggeren fik han retten til at bruge Gallups navn i Danmark. Siden har Gallup lavet tusindvis af undersøgelser, lige fra prognoser for folketingsvalg til undersøgelser af danskernes TV-vaner. Man kan mod betaling bestille undersøgelser hos Gallup. I den ene bygning på hovedafdelingen på Masnedøgade sidder en række interviewere, typisk studerende, som ringer folk op. At ringe folk op er en af de metoder Gallup benytter sig af. Andre metoder er brug af Internettet, hvor man har rekrutteret en række personer, som besvarer spørgeundersøgelser mod at deltage i konkurrencer. Hvis der er tale om TV-seer-undersøgelser, så kan der være placeret noget elektronik på nogle udvalgte personers TV-apparater, og her registreres, hvilke programmer, der bliver set. Undertiden benytter man sig også af undersøgelser, hvor folk spørges af personinterviewere, men denne metode benyttes ikke så meget mere. Hvad angår meningsmålinger til folketinget, så skelner Gallup mellem prognoser, som gennemføres dagen før et folketingsvalg, og Gallup Politisk Indeks, som er månedlige opinionsmålinger, og som bliver bragt i Berlingske Tidende. Ved udarbejdelse af prognoser benyttes ikke en ny stikprøve, men et panel af personer, som Gallup før har talt med. Fordelen er, at man her kender til repræsentativiteten af gruppen og nemmere kan korrigere for eventuelle skævheder. Man er dog opmærksom på ikke at forstyrre de samme respondenter igen og igen. De løbende opinionsmålinger foretages derimod via friske stikprøver. Telefonnumrene er baseret på basis af tilfældige tal.  

 

Stikprøver

Som observeret af den opmærksomme læser er der en klar forskel på, hvordan Danmarks Statistik og fx Gallup arbejder. Danmarks Statistik arbejder med hele populationer, mens Gallup må nøjes med stikprøver. Med stikprøver forsøger man at udtale sig om hele populationen på baggrund af et meget begrænset udvalg af populationen. Det giver automatisk en række usikkerhedsmomenter. Lad os et øjeblik antage, at alle personerne i stikprøven er helt tilfældigt udvalgte. Selv i det tilfælde vil der være en usikkerhed på stikprøvens resultat.

Lad os for eksempel antage, at man ønsker at kende befolkningens holdning til et eller andet spørgsmål, og at det rigtige (ukendte) svar er 40% JA. Da kan det forekomme, at stikprøven viser 39%, 36% eller sågar 52% JA. I princippet kunne man endda være så uheldig at have udvalgt personer, som alle svarer JA eller alle svarer NEJ, så JA-andelen i stikprøven enten ville vise 100% eller 0%. Det er dog ikke særligt sandsynligt, hvis stikprøven blot har en vis størrelse. Men det er en mulighed, så man kan altså ikke sige noget som helst med sikkerhed udfra resultatet af en stikprøve. Imidlertid kan man øge stikprøvens pålidelighed ved at sørge for, at den har en vis størrelse: Hvis man spørger få personer, så kan store afvigelser fra det forventede og rigtige nemt indtræffe. Men spørger man mange, så vil tilfældighederne udjævnes efter de Store tals lov ... Med andre ord: Jo større en tilfældig stikprøve er, jo bedre kan man stole på den.

Den fordeling som beskriver situationen her er den såkaldte Hypergeometriske fordeling. Den anvendes, når man foretager et antal udtrækninger uden tilbagelægning ud fra en endelig population og betragter antallet af "successer". Hvis vi som her har at gøre med en ret lille stikprøve og en stor population, har det ikke stor betydning om vi antager at det er udtrækning med tilbagelægning, og i det tilfælde får vi den velkendte Binomialfordeling. Imidlertid kræver det et ret stort arbejde at beregne de præcise sandsynligheder for denne fordeling. Heldigvis er normalfordelingen en meget fin approksimation til binomialfordelingen under visse omstændigheder. Lad os i det følgende antage, at den rigtige JA-andel er p. Da kan man vise, at hvis stikprøvens størrelse n er så stor, at følgende er opfyldt:

så gælder der om den binomialfordelte stokastiske variable X , der angiver antal Ja-svar ud af en stikprøve på n, at  

approksimativt er standardnormalfordelt. Det betyder, at man under disse omstændigheder har, at

Dette skal fortolkes på følgende måde: Hvis den rigtige Ja-svar-andel er p og stikprøvens størrelse er n, så er sandsynligheden ca. 95% for, at JA-andelen højst afviger med usikkerheden

fra den rigtige JA-andel. Figuren nedenfor viser for henholdsvis p = 40% og p = 5%, indirekte hvor meget usikkerheden d varierer som funktion af stikprøvens størrelse n.

 

 

Hvis den rigtige andel af JA-svar er 40% er usikkerheden altså ca. 4 procentpoint, hvis stikprøven har en størrelse på 600. I 95% af udtrækningerne af en stikprøve vil det altså gælde, at JA-svar-andelen vil ligge mellem 36% og 44%. Men øges stikprøvens størrelse til 2400 vil usikkerheden reduceres til ca. 2 procentpoint! Hvis derimod den rigtige JA-andel er 5% så vil usikkerhederne ved stikprøver på 600 og 2400 være henholdsvis ca. 1,75 procentpoint og ca. 0,9 procentpoint. Figuren viser, at man ikke får meget ekstra sikkerhed ud af at interviewe mere end 1000-1500 personer - marginalnytten aftager nemlig kraftigt med antallet af udspurgte personer. Det er årsagen til, at man ofte benytter stikprøver i størrelsen 1000-1500.

Der er faktisk en meget større fare ved stikprøveundersøgelser: Hvis undersøgelsen er skæv eller har bias, så kan resultatet nemt være meget upålideligt, selvom stikprøven er stor. Et klassisk eksempel er det fra præsidentvalget i USA i 1936. Magasinet Literary Digest havde i deres opinionsundersøgelse anvendt den største stikprøve nogensinde: 2,4 million!! Men de havde begået en alvorlig fejltagelse: Bladet havde sendt spørgsmål ud til 10 millioner mennesker med posten. Navnene kom fra telefonbøger og fra medlemslister fra klubber. Denne metode havde en tendens til at frasortere de fattige. Dengang havde kun ca. 1/4 af befolkningen for eksempel telefon. Grunden til, at den grove fejl først viste sig ved dette valg var, at valgene før 1936 havde fulgt de politiske holdninger mere end de økonomiske linjer ... Stikprøven var således ikke repræsentativ! Læren af dette er, at når en stikprøve er skæv, så hjælper det ikke at tage en større stikprøve. Det vil blot gentage fejltagelsen i større målestok!

Mulige skævheder er noget, som Gallup er meget opmærksom på i sine målinger. Når man ringer rundt til tilfældigt udvalgte telefonnumre, er det oftest kvinder, som tager telefonen. Derfor udvælger man en tilfældig person i husstanden, fx ved at bede om at tale med den som sidst havde fødselsdag. Man gør desuden det, at man korrigerer færdige undersøgelser for skævheder for køn, alder, etc. Hermed menes, at hvis man for eksempel har fået for mange yngre med i undersøgelsen, så vægter man de ældres svar højere ...

Gallup foretager som sagt mange andre undersøgelser end blot opinionsundersøgelser til forlketingsvalg. Et godt eksempel er Berlingske Tidende, som bestilte en undersøgelse hos Gallup om folks vaner hvad angår konfirmationsfester. Den blev bragt í bladet den 25. februar 2006. Der blev blandt andet spurgt:

Hvor meget har I brugt/vil I bruge på konfirmationsgaven?

Beløb Andel
Under 1.000 kr. 20 pct.
1.000 - 2.000 kr. 21 pct.
2.000 - 4.000 kr. 25 pct.
4.000 - 6.000 kr. 18 pct.
Over 6.000 kr. 13 pct.

 

GeoGebra fil til simulering af meningsmålinger og stikprøver

Nedenfor kan downloades en GeoGebra fil, som kan bruges både på Windows maskiner og på Mac maskiner. Det kræver, at man har installeret det gratis software GeoGebra. Har man det ikke allerede, kan det downloades fra følgende side: https://www.geogebra.org/download, hvor det anbefales at hente GeoGebra Classic 5. Filen kan benyttes til at simulere meningsmålinger og stikprøver mere generelt.

  (GeoGebra fil til simulering af meningsmålinger)

Når filen åbnes, ser det således ud:

Programmet fungerer på følgende måde: Man spørger et antal personer (stikprøvestørrelsen) om et spørgsmål, hvorpå der kun er to svar - ja eller nej. Det kan være om den spurgte stemmer på socialdemokraterne eller ej, eller det kan være om personen stemmer ja eller nej til EU, etc. Lidt utraditionelt antager vi, at man kender ja-procenten for hele populationen (basissandsynligheden). Meningen er da at undersøge, hvor meget ja-procenten i stikprøver af en given størrelse afviger fra ja-procenten for hele populationen. Idéen er at få en fornemmelse for, hvor meget man kan stole på en stikprøve. For at gøre det mere overskueligt kan man også foretage mange stikprøver på en gang og studere fordelingen af ja-procenterne i stikprøverne.

Modellen har som forudsætning, at stikprøvestørrelsen er meget lille i forhold til populationens størrelse. Det vil også være tilfældet i så godt som alle praktiske anvendelser af stikprøver. For folk, som kender begrebet: Stikprøven er med tilbagelægning.

Programmet kan også bruges til for eksempel at simulere 100 kast med en terning, med henblik på at undersøge, hvor mange seksere der kom ud. Ved i et hug at gentage dette basiseksperiment et antal gange (antal stikprøver), kan man få en fornemmelse af, hvor forskelligt basiseksperimentet kan falde ud.

En pædagogisk anvendelse i en gymnasieklasse kunne være følgende:

  1. Eleverne sætter Antal stikprøver til 1 og vælger en stikprøvestørrelse på for eksempel 400 og en basissandsynlighed på 30%. Der klikkes nu gentagne gange på knappen Udfør måling for at indse, hvor forskelligt meningsmålingen kan falde ud i forhold til det antaget kendte "rigtige svar" for hele populationen, altså basissandsynligheden.
  2. Proceduren under punkt a) gentages, blot med en anden stikprøvestørrelse, for at få en fornemmelse af hvad stikprøvestørrelsen har af betydning for udfaldet af stikprøven i forhold til det "rigtige svar". Afprøv for eksempel stikprøvestørrelser på 100 og 1500.
  3. Nu gider man ikke længere lave en stikprøve ad gangen, men lader computeren foretage et antal stikprøver på én gang. Vælg for eksempel en stikprøvestørrelse på 400 og antallet af stikprøver til 1000. Prøv at gentage målingen. Hvad registrerer du? Sæt nu antallet af stikprøver op til 20000. Tryk gentagne gange på Udfør måling. Hvad ser man nu? Kender du de Store tals lov?

 

Novo Nordisk

Det tredje sted på min vej var Novo Nordisk, en af de mest dynamiske og succesrige danske virksomheder, som også gør sig på det globale marked. Novo Nordisk har i høj grad brug for statistikere, herunder biostatistikere, til at analysere om firmaets produkter lever op til diverse bestemmelser. Og disse bestemmelser er vokset meget på det seneste: man skal godtgøre, at lægemidlet har en virkning, og at det ikke har uheldige bivirkninger. Dette er ingenlunde let, da patienter reagerer meget forskelligt på lægemidlerne. Derfor er Novo Nordisk vel den danske virksomhed med flest statistikere ansat: i skrivende stund (juni 2006) ca. 40 statistikere og ca. 15 tilhørende programmører.  

Novo Nordisk hovedsæde i Bagsværd ved København
 

Der er forskellige myndighedskontroller, som Novo Nordisk skal igennem, før et produkt kan lanceres på det relevante marked. I USA er der FDA (Food and Drug Administration), I EU har man EMEA, som er en EU-kontrol, en paraplyorganisation for de forskellige lande).

Novo Nordisk produkter er først og fremmest forskellige insulin-præparater, men hertil kommer væksthormoner, bløder-produkter og hormoner til kvinder i overgangsalderen.

Lad mig i det følgende beskrive en typisk arbejdsgang for statistikerne hos Novo Nordisk, som det blev beskrevet for mig under mit besøg: Derefter vil jeg levere en beskrivelse af et Diabetes studium, som en ansat hos Novo Nordisk har udarbejdet for mig efter mit besøg. En stor tak til statistikeren B.B.R. for ulejligheden med at give os et glimrende indblik i arbejdsgangen og overvejelserne hos Novo!

Før data
Protokol skrives af development scientist, under vejledning fra statistikere. Formål med undersøgelsen prædefineres.

Studiet igangsættes (varer mellem 2 mdr. og 12 mdr.)
Data opsamles og renses. Statistikere laver en detaljeret statistisk analyseplan (SAP). Mens SAP udarbejdes, indløber de sidste undersøgelsesdata. I denne fase er alt blindet, både for de personer, som deltager i forsøgene og for statistikerne.

Data Base Release (DBR)
Der holdes et formelt møde for medicinsk ansvarlige, data managere, statistikere og clinical reporting. Hvis data er rene, så brydes behandlingskoden, dvs. det afsløres, hvem, der har fået hvilken medicin.

Statistisk analyse fra SAP
Nu afblindes fuldstændigt. Der laves en statistisk analyse fra SAP. Herefter holdes et resultatmøde. Clinical reporting skriver en rapport, med input fra statistikere.

 

Diabetes

Sukkersyge, eller diabetes, er en betegnelse for flere sygdomme. Fælles for patienter med diabetes er, at deres evne til at producere insulin er nedsat eller helt forsvundet. Insulin er et hormon, der hos raske produceres i bugspytkirtlen. Det er livsvigtigt, fordi kroppen har brug for insulin for at transportere sukker fra blodet ind i cellerne. Sukker er kroppens vigtigste brændstof, og det er derfor essentielt at sukkeret kommer fra blodet over i cellerne. Symptomer hos patienter med diabetes kan bl.a. være:

  • Hyppig vandladning
  • Ekstrem tørst
  • Vægttab
  • Træthed
  • Sår, der ikke heler
  • Hyppige infektioner

Fælles for patienter med diabetes er også, at de har forhøjet blodsukker. Forhøjet blodsukker over længere perioder er forbundet med en øget risiko for diverse hjerte/kar sygdomme samt andre komplikationer. Hvis blodsukkeret er for højt, vil sukkeret binde sig til de røde blodlegemer. Ved at måle procenten af røde blodlegemer med bundet sukker fås en indikation af det gennemsnitlige blodsukkerniveau over levetiden for røde blodlegemer (2-3 måneder). Dette kan måles ved en såkaldt HbA1ctest. For at holde blodsukkeret nede på et niveau nær det normale vil diabetes patienter typisk tage insulin 3-4 gange dagligt: Dels i forbindelse med hovedmåltiderne, og dels som forberedelse til natten. Insulin er et protein, der relativt hurtigt bliver nedbrudt i mave-tarm systemet. Derfor kan insulin ikke tages som en pille, men må f.eks. injiceres i vævet under huden, for derefter at blive absorberet i blodet. Herfra transporteres insulinet videre rundt i kroppen og ud til cellerne, hvor det vil formidle øget sukkeroptagelse.

 

Udvikling af lægemidler

Udvikling af et nyt lægemiddel er en langvarig affære. Det tager i gennemsnit ca. 10 år fra et potentielt virksomt stof bliver opdaget, til et evt. lægemiddel er godkendt og klar til salg. Dette skyldes dels, at forskning er en uforudsigelig proces, hvor overraskende egenskaber ved stoffet pludseligt kan ændre forventningerne til stoffets potentiale, og dels de meget høje krav som sundhedsmyndighederne rundt om i verden stiller til dokumentationen af stoffets virkning og eventuelle bivirkninger. Først er basal forskning nødvendig for at sikre, at stoffet har den forventede virkningsmekanisme i forhold til indikationen (sygdommen), og derefter må en foretrukken version af stoffet vælges ud, mens back-up kandidater stadig undersøges sideløbende. Herefter skal det så besluttes, om stoffets potentiale kan retfærdiggøre en egentlig udvikling, om det er muligt at producere det i en formulering, der kan anvendes til medicin, om produktion i store mængder kan lade sig gøre osv. Besluttes det at tage stoffet videre til egentlig udvikling, startes en mængde forsøg for at sikre at stoffet ikke har utilsigtede bivirkninger, og for at undersøge hvilke doser der kan være terapeutisk relevante. Først her starter de kliniske studier, dvs. studier i mennesker.

De kliniske studier er delt op i 4 faser, hvor fase 1 typisk består af studier, hvor raske frivillige får enkelte, lave doser af stoffet samt farmakologiske studier, der har til hensigt at beskrive stoffets virkningsmekanisme i kroppen. Dernæst udføres studier til bestemmelse af terapeutisk relevante doser (fase 2), og endeligt begynder de egentlige behandlingsstudier, hvor stoffets gives til patienter i en situation svarende til en sædvanlig behandlingssituation, hvor effekten og sikkerheden af behandlingen monitoreres tæt (fase 3). Når og hvis stoffet er undersøgt tilstrækkeligt til at en ansøgning om godkendelse kan sendes til sundhedsmyndighederne, vil der stadigvæk blive lavet studier – dels for at skaffe information, som kan være relevant med hensyn til stoffets sikkerhed i specielle populationer, f.eks. hos børn, hos gravide, hos astmatikere og lign. eller med henblik på markedsføring (fase 4).

 

Statistikerens rolle i udvikling af lægemidler

I alle aspekter af udvikling af lægemidler er der brug for statistisk ekspertise: Klassifikation af molekyler, screening af effekt, stabilitetstest af stoffer, optimering, proceskontrol og kvalitetskontrol i produktionen, toksikologiske studier, kliniske studier og sundhedsøkonomiske analyser. Hos Novo Nordisk a/s er der to store statistikafdelinger: Biostatistics, der hovedsageligt arbejder med kliniske studier, og Statistics, der hovedsageligt arbejder med kvalitetskontrol i udviklingen og produktionen af stofferne. Novo Nordisk a/s er Danmarks største private arbejdsplads for statistikere, med pt. ca. 50 ansatte statistikere.
 

Kliniske studier

Formålet med at lave kliniske studier er at måle effekten af det kommende lægemiddel. Men hvad menes der egentlig med ”effekten”? Effekten af en given behandling defineres som forskellen mellem hvad der skete med en patient som resultat af behandlingen, og hvad der ville være sket, hvis behandlingen ikke var givet. I sagens natur kan man ikke både give og ikke give en behandling til samme patient på samme tid, og dermed måle den konkrete effekt.

I fase 3 kliniske studier, hvor behandlingen typisk skal følges over en længere periode vil det ikke være muligt først at give behandling i en periode, for derefter ikke at give behandling i en lige så lang periode. Her kan sygdommen påvirkes/forværres af, at tiden går, af årstiderne og lignende, og disse effekter vil være umulige at skille fra en egentlig behandlings effekt. Derfor sammenligner man to grupper af patienter, der får hver sin behandling. Den ene gruppe får den nye behandling, mens den anden gruppe f.eks. får en placebo behandling, dvs. de behandles med et ikke-aktivt stof, som f.eks. kalktabletter, injektioner med saltvand og lign.

Ved studier af diabetes patienter, om hvem det er velkendt, at de vil lide skade uden behandling, er det naturligvis uetisk at sammenligne en ny behandling med placebo. Her vil sammenligningsbehandlingen i stedet være en ’standard’ behandling, som allerede findes på markedet.
 

Et klinisk studie – et eksempel

Er behandling med en ny insulin (NovoMix30) lige så god som den eksisterende insulin (Mixtard30)? Det er måske svært at se formålet med at introducere en ny behandling, der ’kun’ er ligeså god som, ikke værre end, den eksisterende. Men som effekt mål haves typisk kun en målbar parameter, her HbA1c, hvor den samlede egentlige effekt reelt er et mere nuanceret billeder, der ikke nødvendigvis er målbart. I det konkrete eksempel vides at den nye insulin, NovoMix30 absorberes hurtigere i blodet, og dermed kan patienterne injicere deres insulin umiddelbart før de sætter sig til bords, hvorimod den eksisterende insulin (Mixtard30) har en noget langsommere absorption, og derfor skal tages ca. ½ time før måltidet. Det lyder måske ikke af nogen væsentlig forskel, men i en stresset hverdag lykkes det ikke altid at få planlagt sine måltider helt præcist. Dels kan det føles som en stor lettelse i hverdagen ikke at behøve denne detaljerede planlægning, og dels kan det i det lange løb give bedre kontrol af blodsukkeret og dermed mindre risiko for langtidskomplikationerne ved at have diabetes.

I studiet er inkluderet 268 patienter med diabetes. Det er vigtigt at være opmærksom på at de 268 ikke vil være tilfældige repræsentanter for diabetikere. Dels stilles en række krav til deres sygdom, andre sygdomme og lign., dels skal de frivilligt melde sig som deltagere i studiet. For at sikre at patienterne i de to behandlingsgrupper er så ens som muligt, randomiseres de til behandling. Dvs. for hver patient trækkes lod, om hvorvidt vedkommende skal have den ene eller den anden behandling. Patienterne bruger nu enten Novomix30 eller Mixtard30 som deres daglige behandling i 2 år. Løbende, dvs. efter  0, 3, 6, 12, 18 og 24 måneder, får de målt HbA1c, som mål for deres blodsukkerkontrol. Patienternes individuelle HbA1c målinger over tid er vist i Figur 1.

Figur 1. Individuelle HbA1c målinger mod tid. For patienter der modtog standard behandlingen ovenfor og for patienter der modtog den nye behandling nederst.

En lav værdi af HbA1c hos en patient svarer til lavt blodsukker de sidste 2-3 måneder og dermed en god behandling. Tilsyneladende giver det en gavnlig effekt at deltage i studiet – i hvert fald ser HbA1c værdierne ud til at falde svagt i starten af studiet, men effekten aftager tilsyneladende mod slutningen af studiet. Spørgsmålet: ”Er behandling med en ny insulin (NovoMix30) lige så god som den eksisterende insulin (Mixtard30)?” må være mere konkret, for at kunne besvares ved hjælp af data. F.eks. ”Er Novomix30 og Mixtard30 sammenlignelige mht. HbA1C efter 2 års behandling?” For at kunne svare på dette spørgsmål, skal vi bruge forskellen mellem de to behandlinger, og i Figur 2 er de estimerede forskelle i HbA1c vist over tid.

Nu mangler vi bare en definition af hvad der menes med ’sammenlignelige’. Egentlig ville vi gerne kunne sige at de to behandlinger resulterer i samme HbA1c. Men kun med uendeligt mange patienter til rådighed, kan vi udtale os præcist om forskellen. Med kun 268 patienter kan vi kun sige at forskellen i HbA1c efter 2 år er estimeret til 0.23%, og at den sande forskel i HbA1c med 95% sandsynlighed vil ligge imellem 0% og 0.47%. Men det er også tilstrækkeligt, fordi vi på forhånd har aftalt med sundhedsmyndighederne, at hvis vi kan vise, at forskellen med 95% sandsynlighed er mindre end 0.6%, så er den ikke klinisk relevant og vi kan erklære at NovoMix30 er ikke-værre (non-inferior) i forhold til Mixtard30, altså at den nye insulin, NovoMix30, er lige så god som den eksisterende insulin, Mixtard30. I Figur 2 er de beregnede forskelle i HbA1c mellem NovoMix30 og Mixtard30 tegnet ind for 0, 3, 6, 12, 18 og 24 måneder. Efter 2 år er også tegnet ind, hvor stor forskellen med 95% sandsynlighed højst vil blive. Endeligt er grænsen for hvad, der er en klinisk relevant forskel (0.6%), tegnet ind.

Figur 2. Den estimerede forskel mellem HbA1c for NovoMix30 og Mixtard30 over tid. Ved 24 måneder er markeret hvor høj den ’sande’ forskel med 95% sandsynlighed kan blive.

Konklusion: Vi kan sige, at hos de 268 patienter der deltog i studiet, er NovoMix30 lige så god som Mixtard30 mht. til blodsukkerkontrol målt som HbA1c efter 2 års behandling. Det vi gerne vil sige er, at Novomix30 er lige så god som Mixtard30 mht blodsukkerkontrol målt som HbA1c efter 2 års behandling for alle diabetikere. Men, patienterne i studiet er ikke tilfældige repræsentanter for diabetikere, men en udvalgt delmængde af diabetikere, der skal opfylde en række kriterier for at være med i studiet. At der trækkes lod om hver patients behandling, er afgørende for, at studiet har nogen som helst værdi! Man kan ikke generalisere til alle diabetikere og sige, at efter 24 måneder på Novomix30 vil man forvente en HbA1c på 8.4%. Men fordi de to grupper er helt tilfældige delmængder af samme, relativt store gruppe af diabetikere, er det rimeligt at forvente, at forskellen mellem effekten af de to behandlinger vil være den samme, hvis man tager en anden gruppe af diabetikere, med andre karakteristika, f.eks. fra et andet land, med en anden vægt, med en kortere historie med diabetes o.lign. Det er altså ikke effekten af de to behandlinger man kan sige noget generelt om, men forskellen mellem effekten af de to behandlinger. Effekten af Novomix30 er med 95% sandsynlighed, ikke mere end 0.6% forskellig fra effekten af Mixtard30, når vi betragter blodsukkerkontrollen målt som HbA1c efter 2 års behandling.

 

Referencer

Ovenstående er i høj grad inspireret af nedenstående bog, der indeholder megen anden nyttig information om statistiske problemstillinger i forbindelse med udvikling af lægemidler:

Stephen Senn (1997). Statistical Issues in Drug Development, Statistics in Practice, West Sussex: John Wiley and Son Ltd.

Eksemplet med insulin er beskrevet nøje i nedenstående artikel:

B-O. Boehm, J.A. Vaz, L. Brøndsted and Phillip D. Home (2004). Long-term efficacy and safety of biphasic insulin aspart in patients with type 2 diabetes. European Journal of Internal Medicine, 15, 496-502.

 

Variansanalyse

Emnet variansanalyse dækker over en avanceret metode til at vurdere varianserne i en serie af forsøg, med henblik på at bekræfte eller afvise en hypotese under et givent signifikansniveau a. Variansanalyse finder stor anvendelse indenfor biostatistik, og er derfor en af de mest anvendte statistiske metoder hos Novo Nordisk. I det følgende vil jeg beskrive metoden lidt mere præcist, om end stadig i brede vendinger:
 


 

Som figuren ovenfor viser, så har man at gøre med en række behandlinger, i alt k. Den stokastiske variabel Yij repræsenterer den i'te observation i den j'te behandling. For hver behandling udtages en stikprøve, som svarer til en søjle i den øverste del af skemaet. Stikprøvens størrelse for den j'te behandling betegnes nj, og stikprøvens middelværdi med:

Den sande (oftest ukendte) middelværdi for behandlingen betegnes mj. En mulighed er nu at teste for, om alle de sande middelværdier er ens. Der findes også metoder, hvor man tester for, om udvalgte par af middelværdier er ens.

Nedenfor en række størrelser: Dels kan man studere middelværdierne af de enkelte stikprøver, dels kan man beregne den totale middelværdi, som er middelværdien af samtlige stikprøver. Dernæst kan man betragte tre forskellige kvadratsummer, der som bekendt beskriver, hvordan data varierer. I tredje linje har vi behandlingskvadratsummen, som involverer stikprøvernes middelværdier set i relation til den totale middelværdi. Den anden kvadratsum er fejlkvadratsummen, som involverer de enkelte observationer i en stikprøve set i relation til stikprøvens middelværdi. Den tredje kvadratsum er totalkvadratsummen, der involverer de enkelte observationer i samtlige stikprøver set i relation til den totale middelværdi.


 

Man kan vise, at hvis alle de stokastiske variable Yij er normalfordelte og uafhængige og har samme varians s2 for alle j, og hvis alle de sande middelværdier er ens, så har

en såkaldt F-fordeling med k-1 og  n-k frihedsgrader. Dette kan bruges til at teste om middelværdierne under et givent signifikansniveau a er ens. For rigtigt at forstå principperne bag variansanalyse vil det være hensigtsmæssigt med et eksempel.
 

Eksempel
Det er ofte hævdet, at rygeres fysik er dårligere end ikke-rygeres. Et mål for dette kunne for eksempel være antal hjerteslag pr. minut under hvile. I den følgende undersøgelse har man målt et antal personers hjerteslag, fordelt på ikke-rygere (IR),  lette rygere (LR),  medium rygere (MR) og stor-rygere (SR). Seks rygere i hver kategori. Resultatet af undersøgelsen fremgår af nedenstående diagram.
 



Men hvordan skal man tolke variationerne i antal hjerteslag pr. minut hos deltagerne i de forskellige kategorier? Er variationerne store nok til at retfærdiggøre en konklusion, der siger, at antal hjerteslag pr. minut er afhængig af, hvor meget eller lidt personerne ryger? Man har måske en fornemmelse for, at dette er tilfældet, men for at afgøre det mere sikkert, må man ty til variansanalyse! Vi skal ikke gå i detaljer hermed, blot oplyse, at  man med en valgt signifikansniveau på 5% kan afvise hypotesen om at middelværdierne er ens. Rygningen har altså tilsyneladende en betydning for antal hjerteslag pr. minut og dermed den fysiske formåen ...
 

Ronald A. Fisher

Englænderen Ronald A. Fisher (1890-1962) er en af de betydeligste pionerer indenfor statistikken, hvis udvikling først for alvor tog fart i det 20. århundrede. Han blev født i 1890 i en forstad til London. Matematisk set var han hurtigt udviklet og havde en speciel evne til at visualisere komplicerede problemstillinger i hovedet, en evne som nogle tror han udviklede for at kompensere for sit medfødte dårlige syn - et handicap også i øvrigt senere skulle diskvalificere ham fra militærtjeneste i 1. verdenskrig. I 1912 dimitterede Fisher med udmærkelse fra Cambridge University, hvor han læste matematik og astronomi. Han blev på Cambridge endnu et år for at fortsætte studier i astronomi, fysik og for at studere The Theory of Errors. Forbindelsen mellem astronomi og statistik daterer sig tilbage til Carl. F. Gauss, som formulerede love for observationsfejl og normalfordelingen på baggrund af sin analyse af astronomiske observationer. I sine studenterår udviste Fisher endvidere en stor interesse for genetik og Darwins udviklingslære. I 1919 blev Fisher ansat på Rothamsted Experimental Station nær Harpenden i Herfordshire, et landbrugsforskningsinstitut, hvor man blandt andet studerede udbyttet på forskellige jordtyper. Her var Fisher i sit es og han udviklede og anvendte en række nye statististiske metoder. En af dem var at indføre tilfældighed i udvælgelsen af stikprøver, for at modvirke bias eller skævhed i undersøgelsen. En endnu vigtigere præstation af Fisher var, at han udviklede en statistisk metode i forbindelse med forsøg, hvor mere end en størrelse bliver varieret ad gangen. Eksperimenterne bestod af en række delforsøg, hvor de enkelte delforsøg afveg fra hinanden på forskellige punkter. Han havde dermed skabt det nye og meget vigtige anvendelsesområde af statistikken, betegnet variansanalyse (ANOVA). I 1933 blev Fisher Galton Professor of Eugenics ved University College, London. Fra 1943 til 1957 var han Arthur Balfour Professor of Genetics ved Cambridge University. Endelig skal det nævnes, at Ronald A. Fisher i 1921 indførte metoden, der går under navnet maximum likelihood estimation, som er en fundamental del af ethvert nutidigt kursus i statistik. Fisher udgav en del værker, hvoraf kan nævnes hans Statistical Methods for Research Workers, som udkom i 1925 og som blev trykt i mere end 50 år! I 1930 udkom hans bog The Genetical Theory of Natural Selection, hvori han beskrev teorier om gendominans og fitness. I 1956 opsummerede han sit statistiske arbejde i Statistical Methods and Scientific Inference. I 1952 blev han slået til ridder af England, og han tilbragte sin sidste tid i Australien og døde i Adelaide den 29. juli, 1962.

 

Note

Nedenfor kan du downloade en note om Statistik i pdf-format til brug i for eksempel Matematik C i gymnasiet.

For hjælp til at downloade klik her. For information om pdf format og brug af Adobe Reader klik her.

 Statistik (1024 kB)

 

Links

www.dst.dk  (Danmarks Statistik)
www.gallup.dk  (Gallup)
www.novonordisk.dk  (Novo Nordisk)
R. A. Fisher Digital Archive  (En masse digitalt materiale af Fisher) 

Fremragende databanker på dansk udover Danmarks Statistik:

www.sst.dk  (Sundhedsstyrelsens hjemmeside. Kig for eksempel under Indberetning og statistik > Sundhedsdata. Direkte link)

www.surveybanken.aau.dk  (Aalborg Universitet har indsamlet resultaterne af en række spørgeundersøgelser blandt danskerne. Emner som politik, ulighed, miljø, religion etc. Direkte link til SurveyBanken)

www.politi.dk  (Politiets hjemmeside. Kig under punktet Statistik. Direkte link)