Bayes' fantastiske formel

Ved siden af sit virke som teolog og præst i 1700-tallet's England arbejdede briten Thomas Bayes med matematik. På trods af, at han aldrig på noget tidspunkt publicerede en eneste matematisk artikel, mens han levede, skulle Thomas Bayes ende med at lægge navn til en formel, som har gjort hans navn udødelig. Den formel, som i dag benævnes Bayes' formel, har vist sig at have talrige anvendelser, og selve tankegangen bag den startede endda en hel gren af statistikken i form af Bayesiansk statistik. Formlen fik i begyndelsen af 1980'erne en form for generalisation ved indførelsen af de såkaldte Bayesianske netværk. Disse netværk finder i dag anvendelser på områder som beslutningsteori, risikoanalyse, sikkerhedsvurderinger, diagnostisering af sygdomme, kunstig intelligens, identifikation i retsvidenskab og meget andet.

  1. En historisk optakt
  2. Thomas Bayes
  3. Pierre-Simon Laplace
  4. Bayes' formel
  5. Bayes' formel på odds form
  6. En e-bog om emnet
  7. Test for sygdom
  8. Monty Hall problemet
  9. Bayes i retsvidenskab
  10. Bayesianske netværk
  11. AgenaRisk og HUGIN Expert
  12. Links
  13. Litteratur


 

1. En historisk optakt

Den italienske matematiker Gerolamo Cardano (1501-1576) havde i 1500-tallet og matematikerne Pierre de Fermat (1601-1165), Blaise Pascal (1623-1662) og Christian Huygens (1629-1695) havde i 1600-tallet leveret bidrag til den gryende sandsynlighedsregning. Der var mest tale om at bestemme sandsynligheder ud fra kombinatorik. Ofte handlede det om sandsynligheder i spil, fx kast med terninger eller at bestemme forventede værdier for gevinster ved mange spil. Efterhånden begyndte man at studere mere komplekse problemstillinger såsom at "kvantificere usikkerhed". Ved at forestille sig gentagne udtrækninger med tilbagelægning fra en urne med 3000 hvide og 2000 sorte kugler, formulerede schweizeren Jacob Bernouilli (1654-1705) de Store tals lov. I det konkrete eksempel siger de store tals lov løst sagt, at fordelingen af de udtrukne sorte og hvide kugler vil nærme sig til den forventede fordeling, dvs. 3/5 hvide kugler og 2/5 sorte kugler, når antallet af udtrækninger går mod uendelig. Dette vigtige resultat figurerer i hans værk Ars conjectandi. En anden meget vigtig skikkelse i denne periode er den geniale franske hugenot Abraham de Moivre (1667-1754). Efter tilbagekaldelsen af Nantes-ediktet i 1685 blev livet svært for protestanter i Frankrig. Også for den unge de Moivre, der sad i fransk fængsel i over to år. Efter løsladelsen flygtede han til London og forblev i England resten af sit liv. I sin bog Doctrine of Chances fra 1761 løser han talrige sandsynlighedsteoretiske opgaver. Bogen indeholder også anvendelser i forsikringsteori: livrenter (annuiteter). De Moivre gjorde en del brug af uendelige rækker. Blandt hans største resultater er et specialtilfælde af, hvad vi i dag vil kalde en approximation af binomialfordelingen med en normalfordeling.

Ingen af de ovenfor nævnte matematikere tog det sidste skridt, som ofte er nødvendig for at teorien finder praktisk anvendelse, nemlig statistisk inferens: At drage konklusioner på baggrund af udfaldene af en lang række forsøg. Det var Thomas Bayes (1701?-1761) og senere Pierre-Simon Laplace (1749-1827) som først forsøgte at give et svar på opgaven med at bestemme en sandsynlighed ud fra observerede frekvenser.  

 

2. Thomas Bayes

Der er store huller i den historiske viden om englænderen Thomas Bayes (1701?-1761), født i London. Man ved dog, at han i 1719 blev optaget på University of Edinburgh, hvor han studerede logik og teologi. Selv om Bayes må have studeret matematik på et tidspunkt er der imidlertid ikke noget sikkert vidnesbyrd om, at det foregik på universitetet i Edinburgh. Thomas var søn af Jushua Bayes og Anne Carpenter. Faderen blev i 1694 præsteviet som Nonformist i en kirke i byen Holborn omkring 40 km fra London. Som sin fader blev Thomas præsteviet som Nonconformist. I begyndelsen assisterede han sin far i Holborn, før han omkring 1733 blev han indsat som præst i en presbyteriansk kirke i Tunbridge Wells, små 60 km sydøst for London.

Man kender ikke noget billede, som med sikkerhed forestiller Thomas Bayes. Således er det tvivlsomt, om ovenstående billede gør det. Alligevel har jeg valgt at vise det, da det ofte bliver vist i forbindelse med Bayes – første gang i en bog fra 1936.


Thomas Bayes publicerede på intet tidspunkt artikler i matematik mens han levede, men han må have gjort sig bemærket i dette felt, for i 1742 blev han udnævnt som Fellow of the Royal Society. I 1763, knap tre år efter Bayes' død, sendte vennen Richard Price en artikel forfattet af Bayes til Royal Society. Artiklen med titlen An Essay towards solving a Problem in the Doctrine of Chances blev optaget i Philosophical Transactions of the Royal Society of London. Bayes' artikel kan findes på Internet Archive (archive.org):

An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S.

https://archive.org/details/philtrans09948070

Som tilfældet er for mange historiske matematiske artikler, er Bayes artikel ikke speciel let at læse og forstå. Kilderne [3] og [5] er dog til god hjælp i forsøget på at forstå, hvad der foregår. Løst fortalt forestiller Bayes sig et vandret kvadratisk bord, hvorpå der først kastes en kugle. Alle landingspositioner på kvadratet antages lige sandsynlige. Iagttageren ved ikke hvor den første kugle A lander. Derefter kastes en ny kugle B i alt n gange på bordet og i hvert tilfælde vedtager man at forsøget "lykkes", hvis kuglen B lander til højre for kugle A. Ud af de n "basisforsøg" vil nogle naturligt nok lykkes, mens andre vil mislykkes. Hvis man havde kendt basissandsynligheden x for at lande til højre for kugle A, vil antallet af successer være bestemt af binomialfordelingen, som i øvrigt var kendt på den tid. Men iagttageren kender jo ikke denne basissandsynlighed! Bayes stillede sig herefter den "omvendte opgave", nemlig at vurdere basissandsynligheden ud fra, hvor mange gange basiseksperimentet lykkedes.  Da problemet er kontinuert, giver det ikke mening at spørge om den betingede sandsynlighed for at basissandsynligheden x har en bestemt værdi, givet at basiseksperimentet er lykkedes lad os sige p ≤ n gange. I stedet giver det mening at bestemme den betingede sandsynlighed for at basissandsynligheden befinder sig i et bestemt interval r < x < s, givet at basiseksperimentet lykkedes p gange. Sagt med moderne notation: P(r < x < s| X = p) ønskes bestemt, hvor X er den stokastiske variabel, som angiver antallet af gange basiseksperimentet lykkes. Bayes oversatte sandsynligheden - som de Moivre tiudligere havde gjort - til arealbetragtninger, der så igen giver anledning til integraler. Vi skal ikke gå mere i detaljer med det her. Interesserede henvises til [3] og [5]. Det skal bemærkes, at Bayes ikke direkte formulerede den formel, som vi kender som Bayes' formel, men han anvendte altså "inverse argumenter", som svarer til det.

Det paradoksale er, at den artikel, som har gjort hans navn udødeligt her mere end 250 år efter hans død, ikke efterlod noget særligt indtryk hos hans samtidige.

 

3. Pierre-Simon Laplace

Franskmanden Pierre-Simon Laplace (1749-1827) er en af de største franske matematikere og naturvidenskabsfolk gennem tiderne. Han gjorde sig især gældende indenfor Himmel-mekanikken (Celestial Mechanics), hvor han med Newtons gravitationslov udarbejdede metoder til bestemmelse af himmellegemernes bevægelse. Det andet store område, hvor Laplace leverede banebrydende bidrag, var indenfor sandsynlighedsregning og statistik.  

Som en af Frankrigs absolut største matematikere og naturvidenskabsmænd har Pierre-Simon Laplace naturligt fået plads på Eiffeltårnets kant sammen med 71 andre videnskabsmænd. Han er undertiden blevet betegnet "Frankrigs Newton". Klik på de to billeder for en forstørrelse.

Fra 1772 til 1781 publicerede Laplace fire artikler i sandsynlighedsregning. På side 623 i den anden artikel med titlen "Mémoire sur la probabilité des causes par les événemens" fra 1774 formulerede Laplace følgende princip:

Si un évènement peut être produit par un nombre n de causes diffèrentes, les probabilités de l'existence de ces causes prises de l'évènement, sont entre elles comme les probabilités de l'évènement prises de ces causes, et la probabilité de l'existence de chacune d'elles, est égale à la probabilité de l'évènement prise de cette cause, diviseé par la somme de toutes les probabilités de l'évènement prises de chacune de ces causes.

som kan oversættes til:

Hvis en hændelse kan være produceret ved n forskellige årsager, så er sandsynlighederne for disse årsager givet hændelsen i forhold til hinanden som sandsynlighederne for hændelsen givet årsagerne, og sandsynligheden for eksistensen af hver af disse er lig med sandsynligheden for hændelsen givet denne årsag, divideret med summen af alle sandsynlighederne for hændelsen givet hver af disse årsager.

Stiegler giver i [3] side 102-103 følgende oversættelse af teksten, blot her med andre symboler:

hvor E1,E2, ... , En , er de n årsager og H er hændelsen, der betragtes. Det er den nuværende Bayes' formel for tilfældet, hvor alle årsagerne har samme a priori sandsynlighed: P(Ci) = 1/n. Laplace havde altså fat i invers sandsynlighed! Alt tyder på, at Laplace ikke kendte til Bayes' artikel før omkring 1780. I 1812 publicerede Laplace det måske mest betydningsfulde værk om sandsynlighedsregning og statistik, der nogensinde er skrevet. I anden udgave af 1814 giver Laplace den nutidige og generelle udgave af Bayes' formel, som er:

Et andet af Laplace' store resultater er formuleringen og beviset for den centrale grænseværdisætning.

 

4. Bayes' formel

Lad os forlade det historiske her og behandle Bayes' formel på en mere nutidig måde. Vi vil være mere uformelle for at få et bedre flow i fremstillingen. En mere stringent behandling med definitioner m.m. kan findes i min e-bog i næste afsnit. Det skal dog nævnes, at vi arbejder med hændelser og sandsynligheder derfor. Sandsynligheden for en hændelse A betegnes P(A). Man indfører den betingede sandsynlighed for hændelsen A givet hændelsen B, betegnet P(A|B) , som følgende forhold:

Det giver mening, for hvis man modtager informationen, at B er indtruffet, så "indskrænkes fokus" til mængden B (se figuren næste side). Sandsynligheden for at A også indtræffer, er derfor sandsynligheden for fællesmængden for A og B, dvs. P(AB), og den sættes i forhold til sandsynligheden for B.
 


 

Ganger vi med P(B)  på begge sider i definitionen, fås:

Venstresiden er uændret, hvis vi bytter rundt på hændelserne A og B. Derfor er højresiden det også. Vi har dermed:

som er den simple udgave af Bayes' formel. At en formel, der ligger så tæt op ad selve definitionen af betinget sandsynlighed, skal vise sig at få så enorm en betydning i udviklingen af en gren af sandsynlighedsregningen, kan virke næsten mirakuløst. Hvad formlen gør er at sammenknytte en betinget sandsynlighed med dens inverse betingede sandsynlighed!
 


 

Den version af Bayes' formel, som vi normalt kender, er den, hvor man har foretaget en klassedeling af udfaldsrummet U (se figur ovenfor), dvs. har en række indbyrdes disjunkte mængder A1, A2, ... , An , hvis foreningsmængde er hele U. Da vil A1B, A2B, ... , AnB være en klassedeling af B, hvorfor vi har:

som også betegnes totalsandsynligheden. Udskifter vi P(B) i den simple udgave af Bayes' formel med dette udtryk (og lader Ak spille rollen af A) fås den almindelige udgave af Bayes' formel:

Vi skal senere se på en tredje udgave af Bayes' formel.

 

5. Bayes' formel på odds form

Bayes' formel har mange ansigter. Blandt andet eksisterer den i en udgave, hvori der indgår odds, hvorfor den betegnes Bayes' formel på odds form. Lad H og E være to hændelser. Da gælder:

hvor et c påhæftet en hændelse hentyder til den komplementære hændelse, der ikke overraskende har sandsynligheden P(Hc) = 1 − P(H). Man udleder nemt denne udgave af Bayes' formel ved at benytte den simple udgave af Bayes' formel til at finde udtryk for henholdsvis P(H|E) og P(Hc|E) og efterfølgende dividere og reducere. Detaljerne overlades til læseren. I afsnit 9 skal vi se, hvordan denne udgave af Bayes formel bruges i retsvidenskab.

 

6. En e-bog om emnet

Jeg har skrevet en e-bog om emnet med titlen Sandsynlighedsregning - Bayes' formel og Bayesianske netværk. Målgruppen er især gymnasiet. Intentionen er at den skal kunne bruges til projekter, herunder SRP opgaver, samt til forløb i sandsynlighedsregning/statistik.  
 


NB! Noten fra november er opgraderet ganske kraftigt, med ca. 30 sider til nu 112 sider. Blandt andet er der kommet et nyt afsnit til med arvelighedslære og et andet afsnit om "Weight-of-evidence formlen".
 

Pædagogisk set

  • Emnet har en passende sværhedsgrad. Alt efter elevens/klassens niveau kan man stoppe flere steder i teorien og stadig få et afsluttet forløb ud af det.
  • Emnet involverer algebra, som er så stor en mangelvare i gymnasiet i dag. Her i form af mængdealgebra og Venn diagrammer.
  • Vil øge elevernes evne til at tænke deduktivt: Givet informationen, er sandsynligheden for … Forståelse for begrebet uafhængighed.
  • Emnet er interessant og fyldt med overraskende resultater/paradokser.
  • Der er masser af anvendelser og det endda i forskellige fag.
  • Velegnet til mundtlig eksamen.

 

 

7. Test for sygdom

Vi skal i det følgende kigge på anvendelser af Bayes' formel. En meget illustrativt et af slagsen er test for sygdom. Et screeningsprogram for en given sygdom sættes i gang for en større persongruppe, uden at der er tale om forudgående symptomer. En given person herfra får oplyst, at dennes test viser positiv. Det vides, at 1 ud af 1000 indbyggere i befolkningen har sygdommen. Som det er tilfældet for alle mulige andre testmetoder, er den pågældende ikke perfekt: I 2% af testene fås en falsk-positiv og i 5% af tilfældene en falsk-negativ test. Hvad er sandsynligheden for at personen rent faktisk har sygdommen? 

Løsning: Der er to ting i spil her: Om personen har sygdommen eller ej samt om testen viser positiv eller negativ. Vi indfører de to hændelser:

T :  "Testen viser positiv"
S :  "Personen har sygdommen"

Oplysningen om falsk-positiv giver os umiddelbart: P(T|Sc) = 0,02, hvorimod P(Tc|Sc) = 0,98 fås ved at trække førstnævnte sandsynlighed fra 1. De andre sandsynligheder overlades til læseren. Vores opgave er at bestemme sandsynligheden for, at personen har sygdommen, men med viden om at testen er positiv. Vi skal med andre ord beregne den betingede sandsynlighed P(S|T). Det er oplagt at benytte Bayes' formel (4) i tilfældet med klasseinddelingen U = SSc af  U.

Resultatet er nok overraskende for de fleste. Her har personen fået at vide, at testen er positiv og at kun 1 ud af hver 1000 personer har sygdommen. Alligevel er sandsynligheden for at have sygdommen, med den nye viden om at testen er positiv, mindre end 5%! Det er godt nyt. Der skal nye undersøgelser til for at afklare, om personen rent faktisk har sygdommen!

Man kan få et indblik i, hvad der er årsagen til den lave sandsynlighed ved at tegne et hændelsestræ. Lad os sige, at vi ønsker at udregne, hvordan situationen vil se ud for en by på 100000 indbyggere, hvor alt foregår gennemsnitligt efter sandsynlighederne. Vi starter med at dele ud i to grene, alt efter om personen har sygdommen eller ej. I den forbindelse ser vi, at 0,001 ∙ 100000 = 100  har sygdommen, hvorimod der er 0,999 ∙ 100000 = 99900, som ikke har sygdommen. Vi videreinddeler nu i grene efter om personen har en positiv eller negativ test. Her anvendes de betingede sandsynligheder. For eksempel vil der være 0,95 ∙ 100 = 95, som både har sygdommen og tester positiv.

Vi bemærker, at der er ganske mange personer, som tester positive, men ikke har syg­dom­men. En lille procent af et stort tal, her 2% af 99900, giver i dette tilfælde et pænt stort tal. Det er årsagen til den over­ras­ken­de lille chance for at have sygdommen, selv om man tester positiv. Der er 95 ud af de 95 + 1998 = 2093, der tester positive, som har sygdommen, en andel på 95/(95 + 1998) = 0,045 = 4,5%.

 

8. Monty Hall problemet

I et TV show skal en spiller åbne én ud af tre døre og får som præmie det, der står bag døren. Bag en af dørene står hovedpræmien, som er en splinterny Cadillac, mens der bag de andre to døre befinder sig en ged. I første omgang bliver spilleren bedt om at vælge en dør uden at åbne den. Studieværten ved bag hvilken dør hovedpræmien befinder sig og vælger blandt de to ikke-valgte døre at åbne en, som skjuler en ged. Derefter får spilleren valget mellem at åbne den dør, denne valgte i første omgang, eller at skifte til den anden uåbnede dør og åbne den. Hvad bør spilleren vælge at gøre?

 

 

 

Lad os præcisere:

1)  Studieværten åbner altid en dør, som skjuler en ged.
2)  Studieværten åbner aldrig den dør, spilleren har valgt.
3)  Hvis studieværten kan åbne mere end én dør uden at overtræde de to første regler, så vælger studieværten sin dør tilfældigt.    

Ifølge artiklen [8] går dette berømte problem mindst tilbage til 1959, hvor Martin Gardner havde en version af opgaven i sin klumme i Scientific American. Siden er opgaven dukket op diverse steder. Versionen, som florerer i dag, er navngivet efter en vært fra et gammelt amerikansk TV show. Han brugte kunstnernavnet Monty Hall. Det hævdes at problemet tiltrak langt flere breve og kommentarer end noget andet problem. Da Marilyn vos Savant gav sin i øvrigt rigtige løsning i hendes klumme i magasinet Parade, afstedkom det korrespondance med vrede læsere, som mente hendes løsning var forkert. Skænderiet endte endda med at blive omtalt på forsiden af New York Times. Som en ekspert i kognitionsvidenskab udtrykte (oversat):

Intet andet statistisk problem kommer bare tæt på at narre alle folk hele tiden, som dette problem gør. Problemet er specielt interessant på grund af dets specifikke art, dets reproducerbarhed og dets immunitet overfor højere uddannelse.

Lad os analyse problemet. Ikke overraskende involverer det betinget sandsynlighed. For det første kan vi uden indskrænkning antage, at spilleren vælger dør nr. 1. Dør nummeret er nemlig ikke vigtigt; det er derimod placeringen af Cadillacen i forhold til den valgte dør og også hvilken dør værten vælger at åbne i forhold hertil. Lad os definere følgende hændelser, idet i er et helt tal fra 1 til 3:

Ci :  Cadillac'en er bag dør nr. i        Vi  :  Værten vælger at åbne dør nummer i
 


 

Lad os sige, at værten vælger at åbne dør nr. 3. Vi ønsker at bestemme sandsynligheden for at spilleren vinder Cadillac'en, hvis denne skifter dør. Det svarer til at bestemme den betingede sandsynlighed P(C2|V3) . Vi kan bruge Bayes' formel til at udregne den ønskede sandsynlighed. Detaljerne kan du finde i min e-bog.
 


 

Situationen kan også beskrives i et hændelsestræ:
 

 

En alternativ måde at gennemføre udregningen af  den søgte betingede sandsynlighed på, er ved at farve de kasser gule, der svarer til at værten åbner dør nr. 3. De har en samlet sandsynlighed på 1/6 + 1/3 . Af de stier, som fører til de gule kasser, er det den nederste, som svarer til at Cadillac'en er bag dør nr. 2. Det har en sandsynlighed på 1/3. Vi har dermed følgende:

Det har vist sig, at langt de fleste opgaveløsere mener, at sandsynligheden for at vinde Cadillac'en er lige stor, hvad enten spilleren bliver ved sit førstevalg eller skifter dør. De pågældende mener ikke, at værtens handling ændrer på noget. Men det er forkert! Ved sin handling giver han faktisk spilleren noget information. Værten kunne jo ikke åbne dør 1, som spilleren startede med at vælge, heller ikke selv om der var en ged bag den. Med dør nr. 2 ved man derimod ikke, om værten fravalgte at åbne den, fordi Cadillac'en var bag den eller hun blot valgte dør nr. 3, fordi hun valgte tilfældigt mellem dør 2 og dør 3. Situationerne er altså ikke symmetriske. Informationen gør det mere sandsynligt, at Cadillac'en befinder sig bag dør nr. 2.  

En helt anden ting er, at de personer, som har deltaget i spillet, i stor udstrækning har valgt ikke at skifte dør. Årsagen er psykologisk. Det føles simpelthen mere ærgerligt at skifte standpunkt og se, at man skulle være blevet ved sit førstevalg, end at blive ved sit førstevalg og se, at man skulle have skiftet. Denne psykologiske mekanisme har endda vist sig at fungere på tværs af kulturer.    

I [8] gives flere varianter af Monty Hall problemet, nogle endda med flere spillere eller flere døre. I opgavesektionen kan du finde en variant.

 

9. Bayes i retsvidenskab

Bayes' formel har også haft sit indtog i retsvidenskab. Det er der adskillige eksempler på allerede i 90'erne. Det er ikke altid foregået uproblematisk. Faktisk har matematik mødt megen modstand i dommer- og advokatkredse. Her føler man, at man mister kontrollen over sagerne, hvilket man til dels godt kan forstå. Problemet er imidlertid, at der også i argumentationen i retssalene foregår brud på de alment logiske regler, og her er det Bayes' formel, som sætter det klareste spotlight på problemet. Der findes flere typiske fejlslutninger i retssalene, hvoraf det mest kendte er anklagerens fejlslutning (Prosecutor's Fallacy).
 

Anklagerens fejlslutning

Lad os for eksempel antage, at der er fundet blod på et gerningssted foruden offerets eget blod. Kun 1% af befolkningen har den pågældende blodtype. En mistænkt er anholdt, og han har netop denne blodtype.
 

Der er 1% chance for at tiltalte ville have samme blodtype, hvis han var uskyldig.

 ⇓

Der er 1% chance for at tiltalte er uskyldig.

 ⇓

Der er 99% sandsynlighed for at tiltalte er skyldig.


Analyse: Hypotesen H og viden E er følgende hændelser:

E : Anklagedes blodtype matcher blodet fra gerningsstedet
H : Anklagede var ikke på gerningsstedet

Den første implikation er faktisk korrekt, men den anden er forkert, og derfor bryder argumentationen sammen. Anklageren tror at første udsagn svarer til P(H|E) - eller også fordrejer han situationen bevidst! Første udsagn er derimod P(E|H). På engelsk går forvekslingen under betegnelsen the fallacy of the transposed conditional eller i denne sammenhæng: The Prosecutors Fallacy. Anklageren får altså vendt rundt på hændelserne i den betingede sandsynlighed. Vi kan dog godt forsøge at vurdere den "omvendte betingede sandsynlighed", nemlig ved at anvende Bayes' formel. Hertil får vi brug for a priori sandsynligheden P(H). I fraværet af anden viden, antager vi, at alle 5000 mandlige indbyggere i den lille by er mistænkte, og at de er lige sandsynlige gerningsmænd. Sidstnævnte kan naturligvis diskuteres; man kan eventuelt indskrænke til et bestemt aldersinterval. Foreløbig gør vi det dog simpelt. Sandsynligheden for at tiltalte var på gerningsstedet er dermed 1/5000, og sandsynligheden for at han ikke var der, fås ved at trække første sandsynlighed fra 1:  P(H) = 1/5000 og P(Hc) = 4999/5000 . Vi får af Bayes' formel:

og dermed


Altså en sandsynlighed på blot 2,0% for, at anklagede er den skyldige, ikke 99%!

 ◼

Advarsel! Det er vigtigt at gøre sig klart, at når man siger, at sandsynligheden for den pågældende blodtype er 0,01, betyder det IKKE, at der vil være præcist 0,01 x 5000 = 50 mænd med blodtypen i byen med de 5000 mandlige indbyggere. Der kan sagtens være 55 eller 48 med blodtypen. Hver person vil have en sandsynlighed på 0,01 for at have blodtypen, uafhængig af en eventuel viden om blodtypen hos andre personer i byen (som ikke er i familie med pågældende person). Det er altså lidt ligesom at slå med terninger. Når man angiver en sandsynlighed på 0,01 for en blodtype, så er den jo tilvejebragt ud fra en stikprøve – man har ikke spurgt/undersøgt samtlige indbyggere. Måske er stikprøven endda taget i et naboområde med nogenlunde den samme befolkningssammensætning. Når vi nedenfor tegner mænd er der derfor udelukkende tale om gennemsnitsbetragtninger.
 

En hurtig og overfladisk udgave af anklagerens fejlslutning kan formuleres således: Lad os sige, at der er fundet DNA på gerningsstedet, formodet fra gerningsmanden, og at det eneste man ved om gerningsmanden er, at der er tale om en dansker. Lad os endvidere antage, at retsmedicinere har fundet frem til, at sandsynligheden for at en anden end den skyldige skulle have den samme DNA-profil er som 1 ud af 1 mio. i den danske befolkning. Anklagerens fejlslutning vil da kunne formuleres således: Der er 1/1000000 = 0,000001 sandsynlighed for at den tiltalte er uskyldig, altså er sandsynligheden for, at denne er skyldig lig med 0.999999.   
 

 

Som det imidlertid fremgår af figuren vil der udover gerningsmanden (på figuren tegnet med rødt) i gennemsnit være ca. 5 andre personer med samme DNA-profil i Danmark (på figuren tegnet med blåt). Den korrekte sandsynlighed er altså ca. 1/6. Man kan naturligvis have illustreret det samme med et hændelsestræ i stil med hvad vi gjorde i afsnittene Test for sygdom og Monty Hall problemet ovenfor.

Det skal dog tilføjes, at ovenståede problemstilling er meget simplificeret. Som oftest har alle personer ikke den samme sandsynlighed for at være den skyldige. Det kan skyldes alder, køn, bopæl, etc. Vi har desuden gået ud fra, at der ikke er andet end DNA-beviser i sagen. Matematikken viser dog, at man skal passe på, når man argumenterer.

Anklagerens fejlslutning er meget nærliggende og begås ikke bare af advokater, dommere og jurymedlemmer, men også af eksperter i et svagt og uopmærksomt øjeblik. Det er dermed et alvorligt problem for retssikkerheden, når beviserne overvejende er af statistisk art! I Sally Clark-sagen i England blev der begået flere fejl, herunder sandsynligvis anklagerens fejlslutning. Takket være den britiske advokat Marylin Stowe, som følte der var noget galt, blev sagen gen-optaget og Sally Clark blev frifundet efter tre års fængselsophold. I kølvandet på sagen gennemgik den britiske rigsadvokat flere hundrede andre sager. Det førte til løsladelse af to tidligere dømte, hvis sag lignede Sally Clarks!

 

Forsvarerens fejlslutning

Ligesom anklageren bevidst eller ubevidst kan finde på at bruge et falsk argument i retssalen, så kan også forsvareren gøre det. I dette tilfælde naturligvis talende til fordel for tiltalte. Typisk prøver forsvareren at få fjernet et bevis fra sagen under henvisning til, at det er en bagatel, og det ikke har nogen særlig betydning for sagen. Sjovt nok kan forsvareren i samme eksempel med blodtype som ovenfor under anklagerens fejlslutning finde på at fremdrage den korrekte lære af blodtype-beviset, nemlig at der kun er godt 2 procent sandsynlighed for, at tiltalte er skyldig. Forsvareren forlanger herefter blodtype-beviset taget ud af sagen med den begrundelse, at beviset ikke får hans klient til at fremstå som skyldig med en særlig stor sandsynlighed. Sandsynligheden taler for, at der er ca. 50 andre i byen med samme blodtype. Men det sidste er misvisende af to grunde: For det første har blodtypebeviset øget hans sandsynlighed for at være den skyldige ganske betragteligt fra ca. 1 ud af 5000 til ca. 1 ud af 50! For det andet vil der som regel altid være anden baggrundsinformation, som betyder, at alle de ca. 50 personer i byen med samme blodtype ikke er lige sandsynlige som gerningsmand. Måske er nogle meget gamle, måske kører en i rullestol, etc. Så andre beviser eller baggrundsviden kan indsnævre feltet yderligere. Der er altså absolut ingen grund til at tage blodtype-beviset ud af sagen. På en måde er forsvarerens fejlslutning (Defendant's Fallacy) ikke en egentlig "fejlslutning", men snarere en misvisende argumentation. Anklagerens fejlslutning er derimod af mere fundamental art. Det er en logisk fejlslutning, hvor der byttes rundt på hændelserne i en betinget sandsynlighed!


Betydningen af beviser - Bayes-faktoren

I underafsnittet anklagerens fejlslutning ovenfor så vi, hvordan man kan bruges Bayes' formel til at udregne sandsynligheden for, at tiltalte ikke var på gerningsstedet, givet evidensen E. Evidensen var der, at tiltaltes blodtype matchede blodtypen fundet på gerningsstedet. I dette underafsnit vil vi se, hvordan vi kunne have regnet opgaven på en alternativ måde, nemlig ved hjælp af Bayes' formel på Odds form fra afsnit 5.

Før vi vidste noget om, at tiltaltes blodtype matcher blodtypen på gerningsstedet, havde vi de såkaldte a priori odds for uskyld, som er den sidste brøk på højre side i formlen. Den kaldes undertiden også for forhånds odds for uskyld. Den er her lig med 4999, svarende til, at personen har odds 4999 til 1 for at være uskyldig. For at få de opdaterede odds efter oplysningen om, at blodtyperne matcher, ganger vi med Bayes-faktoren for uskyld, som er den første brøk på højre side i formlen. Bayes-faktoren er her lig med 1/100. Vi får dermed a posteriori odds til 49,99, svarende til, at der nu kun er odds 49,99 til 1 for, at tiltalte er uskyldig. Bayes-faktoren opdaterer således odds for uskyld: odds er blevet 100 gange så små. Bemærk, at det ikke betyder, at det er 100 gange så lidt sandsynligt, at tiltalte er uskyldig! Der er tale om odds. For at oversætte odds til sandsynligheder, må man løse en ligning:

Det er den samme sandsynlighed for uskyld, som vi fik ovenfor. Hvorfor benytter man så Bayes' formel på Odds form, når man ikke får sandsynligheden direkte? Der er to grunde: For det første angiver Bayes-faktoren på simpel måde betydningen af beviset: Med oplysningen om at der er blodtype match, er odds for uskyld blevet 100 gange så små. For det andet har Bayes-faktoren den store fordel, at det er nemt at tilføje betydningen af flere beviser lige efter hinanden, da man blot ganger Bayes-faktoren for det nye bevis på de hidtidige odds. Metoden er i e-bogen eksemplificeret i tilfældet med "Adams-sagen" i eksempel 41. Der er faktisk også en vigtig tredje grund til at anvende Bayes' formel på Odds form: Man adskiller her bevisernes betydning fra a priori odds! Dette kan man godt lide i juridiske kredse, eftersom man gerne vil overlade det til nævningene at vurdere a priori odds. Der kan læses meget mere om dette aspekt i e-bogen. Bayes-faktoren kaldes i øvrigt også for likelihood-kvotienten eller på engelsk likelihood Ratio, forkortet LR.

NB! Havde man ovenfor ladet hændelsen H stå for, at tiltalte var på gerningsstedet - hvilket vi sidestiller med, at tiltalte er skyldig - så havde vi fået en Bayes-faktor for skyld på 100. Faktoren fortæller altså, at fremkomsten af viden om blodtype match, har øget tiltaltes odds for skyld med en faktor 100.

 

Unikheds fejlslutningen

Vi kan formulere en anden fejlslutning i samme kontekst som ovenfor. Givet et land med en population af størrelse n. Antag at sandsynligheden for, at en anden person har samme DNA-profil, som den sigtede, er mindre end 1/n. Fejlslutningen, som på engelsk går under navnet Uniqueness fallacy, består i at konkludere, at når den forventede værdi for en anden person med samme DNA-profil er mindre end 1, så eksisterer en sådan anden person ikke. Ifølge [9] var der i den britiske retssag R. v. Gary Adams en match-sandsynlighed på 1 ud af 27 mio. og dommeren skal have konkluderet:

... I should think that there are not more than 27 million males in the United Kingdom, which means that it is unique.

En sådan konklusion er naturligvis falsk. Der er netop tale om forventede værdier, hvorfor afvigelser nemt kan forekomme, særligt når der som her er tale om et meget lille antal (her 1). En anvendelse af binomialformlen vil vise, at der er en ikke ubetydelig chance for at der er mindst en anden person med samme DNA-profil i befolkningen.

Der er diverse andre fejlslutninger i retssalen, herunder også forsvarerens fejlslutning. Den er beskrevet i min ebog ovenfor. En serie af andre fejlslutninger kan også findes i Norman Fenton og Martin Neils artikel [10], som kan findes online.

 

 

 

 

 

10. Bayesianske netværk

I begyndelsen af 1980'erne introducerede Judea Pearl, forsker i computer science og statistik fra University of California, Los Angeles, nogle specielle netværk. Formålet var, at man skulle blive i stand til at repræsentere sandsynligheder for tro eller overbevisning (Beliefs) lokalt i netværket, så det tilsammen udgør et logisk sammenhængende hele. Man skulle så kunne sende "meddelelser" igennem netværket (belief propagation). Pearls banebrydende arbejde blev i øvrigt i 2011 belønnet med den prestigefyldte A. M. Turing Award "For fundamental contributions to artificial intelligence through the development of a calculus for probabilistic and causal reasoning". Et Bayesiansk netværk (BN) er løst sagt en orienteret acyklisk graf med tilhørende knudepunktstabeller (Node Probability Table). I sidstnævnte står de betingede sandsynligheder, som knytter en knude sammen med dens forældreknuder. Lad os straks kigge på et eksempel, som blev præsenteret i artiklen [11] af Lauritzen og Spiegelhalter (se næste afsnit). De engelske betegnelser er blot oversat til dansk.

 

Knudepunktstabellerne er som følger:

 

 

NB! Det skal nævnes, at du i e-bogen i afsnit 5 kan finde mere præcise definitioner af Bayesianske netværk, ligesom jeg også der har givet et eksempel på, hvordan man ved hjælp af kædereglen og andet godt kan bestemme den simultane sandsynlighedsfordeling og de marginale sandsynligheder. Foruden det demonstreres det, hvordan man matematisk kan bestemme de opdaterede marginale sandsynligheder efter tilføjelse af evidens til en knude.

 

 

11. AgenaRisk og HUGIN Expert

At regne manuelt i et Bayesiansk netværk er halsløs gerning, med mindre netværket som her kun indeholder ganske få knuder. Heldigvis er der matematikere, der har udviklet algoritmer, som kan foretage beregningerne. Det er en meget mere kompleks opgave, end man skulle tro. Det har været interessant at erfare, at Aalborg Universitet her har spillet en vigtig rolle. Steffen L. Lauritzen skrev således i 1988 sammen med englænderen David J. Spiegelhalter en videnskabelig artikel (se [11]), som betød en milepæl i udviklingen af algoritmer til beregning i et BN. Også Finn V. Jensen og andre fra Aalborg Universitet har leveret vigtige bidrag. I 1989 dannede en gruppe af forskere fra Aalborg Universitet firmaet HUGIN Expert A/S. Firmaet er en succesfuld historie, hvor teoretisk matematik og datalogi har skabt arbejdspladser og værdi i det private erhvervsliv til glæde for Danmark. Bayesianske netværk har et bredt anvendelsesfelt, som indikeret på figuren nedenfor. På firmaets hjemmeside www.hugin.com kan man se eksempler på, hvilke typer problemer firmaet løser for deres kunder. Firmaets navn er opkaldt efter den ene af to ravne, som i den nordiske mytologi satte sig på Odins skulder for at bringe nyt fra verden.

 

 

Et andet firma som siden er kommet er det britiske AgenaRisk, ledet af Norman Fenton og Martin Neil fra Queen Mary, University of London. Udover ivrigt at forsøge at udbrede kendskabet til Bayesianske netværk og levere konsulenthjælp til firmaer på ligefod med HUGIN Expert, har Norman Fenton også specialiseret sig i anvendelser af Bayes' teori i forbindelse med retsvidenskab. Han er således i en række tilfælde blevet anvendt som ekspert i retssager, hvor beviserne er af overvejende statistisk art. Meningen er at undgå de typiske fejlslutninger, som omtalt tidligere i dette dokument. Firmaets hjemmeside er www.agenarisk.com.

Vi kan for eksempel vælge at repræsentere det bayesianske netværk Asia fra forrige afsnit i programmet AgenaRisk. I videoen længere nede på siden kan du nærmere se, hvordan man gør. Bemærk, at hvis man klikker på skærmbilledet, så fås en lettere forstørret udgave, hvor man bedre kan se detaljerne!

 

 

Hvis man markerer alle knuderne og dobbeltklikker på det markerede, får man de marginale sandsynligheder for hver knude. Med de marginale sandsynligheder for en knude menes sandsynligheden for, at den stokastiske variabel, som repræsenterer knuden, antager hver af dens mulige værdier (her yes eller no) - uanset hvilke værdier de stokastiske variable for de øvrige knuder antager. Der er altså ikke tale om betingede sandsynligheder. Man kan løst sagt sige, at der er tale om en form for "midling" over alle de mulige værdier, som de stokastiske variable for de øvrige knuder kan antage. Hvordan det præcist er defineret, kan ses i afsnit 10 i e-bogen ovenfor.   

 

 

Vi kan nu tilføje evidens til en knude ved at højreklikke på den og vælge hvilken værdi den tilhørende stokastiske variabel antager. Nedenfor har vi for eksempel tilføjet den evidens, at patienten har været i Asien ved at højreklikke på knuden "Har været i Asien?" og vælge Enter Observation > Scenario > yes i kontekstmenuen. Tilsvarende har vi tilføjet den evidens, at patienten har vejrtrækningsproblemer ved at højreklikke på knuden "Har vejrtrækningsbesvær?" at vælge Enter Observation > Scenario > yes. Ved hver af disse to handlinger ændres de marginale sandsynligheder i hver af de øvrige knuder sig, fordi der er kommet ny viden til. I knuden "Har været i Asien?" er de marginale sandsynligheder naturligvis ændret til 100% for yes og 0% for no. Tilsvarende med knuden "Har vejrtrækningsbesvær?".

 

 

Vi kan umiddelbart se nytten af det omtalte Bayesianske netværk, derved, at vi med viden om, at patienten har været i Asien og at denne har vejrtrækningsbesvær, til at konkludere at sandsynligheden for at patienten fx lider af bronkitis er forøget fra 45% til over 81%! Forudsætningen for at disse sandsynligheder er rigtige eller rimelige hænger naturligvis på, at det anvendte BN med dens mange knudepunktstabeller er fornftigt, dvs. at det kan bruges til at beskrive den aktuelle situation. Heri ligger den store kunst, nemlig at kunne designe et fornuftigt BN. Norman Fenton giver i sin bog Risk Assessment and Decision Analysis with Bayesian Networks en række værktøjer og metoder til at konstruere fornuftige netværk.

 

Video tutorial

Du kan ved at klikke på knappen herunder se en video, der varer 12-13 minutter og handler om at bruge den gratis version af programmet AgenaRisk til at foretage eksperimenter i nogle Bayesianske netværk. Først konstrueres et lille simpelt BN i form af en test for sygdom (jf. afsnit 7 ovenfor), hvorefter der tilføjes evidens til en knude for at se hvilken betydning det har på de marginale sandsynligheder i netværket. Endelig studeres et diagnosticeringsprogram kaldet Asia.

 

 

12. Links

https://bayesian.org/bayes  (International Society for Bayesian Analysis)
http://singapore.cs.ucla.edu/LECTURE/lecture_sec1.htm  (Judea Pearl: The Art and Science of Cause and Effect)
http://bayes.cs.ucla.edu/BOOK-2K/causality2-epilogue.pdf  (Fremragende artikel af Judea Pearl: The Art and Science of Cause and Effect)
https://math.la.asu.edu/~jtaylor/teaching/Spring2014/MAT394/
lectures/MAT394_lectures.pdf
 (Fin artikel af Jay Taylor: Forensic DNA Analysis)
http://www.eecs.qmul.ac.uk/~norman/papers/likelihood_ratio.pdf  (N. Fenton, Martin Neil. On Limiting the use of Bayes in presenting Forensic Evidence)
http://i.cs.hku.hk/cisc/forensics/papers/BayesianNetwork.pdf  (Michael Kwan, m.fl.: Computer Forensics using Bayesian Network: A Case Study)
https://www.math.leidenuniv.nl/scripties/vanWamelenMaster.pdf  (J. J. van Wemelen: Bayesian Networks in Forensic DNA Analysis)
http://gbi.agrsci.dk/~ejo/NaturensVerden/bayes.html  (Bedre beslutninger med Bayesianske netværk. Spændedende anvendelse af BN i dansk landbrug)

 

 

13. Litteratur

[1]

Norman Fenton, Martin Neil. Risk Assessment and Decision Analysis with Bayesian Networks. CRC Press, 2013.

[2]

James V. Stone. Bayes' Rule - A Tutorial Introduction to Bayesian Analysis. Septel Press. First Edition, 2013.

[3]

Stephen M. Stigler. The History of Statistics - The Measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, 1986.

[4]

Roger Hahn. Pierre Simon Laplace 1749-1827 - A Determined Scientist. Harvard University Press, 2005.

[5] Victor J. Katz. A History of Mathematics - An Introduction. Third Edition. Addison Wesley, 2009.
[6] Anders Hald. History of Probability and Statistics and Their Applications before 1750. John Wiley & Sons, 2003 (opr. 1990).  
[7]

Anders Hald. A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713 to 1935. Københavns Universitet 2004.

[8]

Stephen Lucas, Jason Rosenhouse, Andrew Schepler. The Monty Hall Problem, Reconsidered. Mathematics Magazine, Vol 82, No. 5, Dec. 2009, side 332-342.

[9]

David J. Balding. Christopher D. Steele. Weight-of-Evidence for Forensics DNA Profiles. Second Edition, John Wiley & Sons, 2015.

[10]

Norman Fenton, Martin Neil. Avoiding Probabilistic Reasoning Fallacies in Legal Practice using Bayesian Networks. (link)

[11]

Steffen L. Lauritzen, David J. Spiegelhalter. Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. Journal of the Royal Statistical Society, Series B (Methodological), Vol. 50, No. 2 (1988), pp. 157-224.

[12]

Ian W. Evett, Bruce S. Weir. Interpreting DNA Evidence: Statistical Genetics for Forensic Scientists.  Ukendt forlag.

  

 

Opdateret 07.03.18