Sådan estimeres det rigtige antal COVID-19 tilfælde

Når testen ramper op i USA, er et af de vigtigste spørgsmål, som vi begynder at møde,: Hvordan bruger vi resultaterne af disse test til at estimere den faktiske andel af befolkningen, der er inficeret med COVID-19? Denne information er af flere grunde kritisk, hvoraf den mest presserende er at identificere antallet af ICU-senge, der skal stilles til rådighed i de kommende dage og uger. Denne artikel foreslår en simpel, men kraftig Bayesian-model til beregning af andelen inficerede individer i en population, kun givet (1) antallet af administrerede test, (2) antallet af positive testresultater og (3) størrelsen af ​​befolkningen for hvem test var tilgængelig.

Ansvarsfraskrivelse: Formålet med dette stykke er at udvikle en enkel, men udvidelig model til opnåelse af skøn over andelen inficerede individer i betragtning af disse tre oplysninger. Dette betyder, at der pr. Definition vil være forenkling af antagelser, hvoraf mange kan lempes ved at udvide modellen på en ret ligetil måde. Vi frigiver koden, der blev brugt til at generere alle resultaterne med håb om, at folk kan bygge videre på denne model for at inkorporere mere realistiske, datadrevne antagelser.

Et simpelt eksempel

Lad os bruge et simpelt eksempel til at illustrere, hvorfor dette problem er ikke-trivielt. For at gøre matematikken let, formoder vi, at 1.000 mennesker blev testet for COVID-19 i New York City, og 100 af disse test var positive. Hvad kan dette fortælle os om den rigtige andel inficerede individer i byen? Kan vi sige, at baseret på denne begrænsede stikprøve, at den forventede andel inficerede individer udgør 10% af byens befolkning? Det afhænger af, hvordan disse personer blev testet. Hvis 1.000 individer blev stoppet tilfældigt på gaden, og hele befolkningen i byen havde lige adgang til testfaciliteterne, ville ja - 10% være et rimeligt skøn. Dette er dog langt fra den situation, vi er i lige nu.

På grund af manglen på test tillader hver by i USA kun test for de personer, der udviser symptomer på COVID-19, dvs. at tests ikke administreres tilfældigt. Men ikke alle personer med symptomer på COVID-19 har denne virus - faktisk er symptomerne på COVID-19 næsten identiske med influenza. Derudover testes ikke alle personer med symptomer. Men trods disse komplikationer, kunne vi stadig håbe på at komme med et skøn over andelen af ​​personer med COVID-19? For at opsummere er de vigtigste begrænsninger, som vi er nødt til at indarbejde i vores model, som følger:

  • Tests administreres kun til dem med symptomer
  • Symptomerne på COVID-19 og influenza er identiske
  • Ikke alle personer med symptomer får COVID-19-testen

Fortæller antallet af test alene noget om COVID-19-infektionshastigheden?

For at hjælpe med at opbygge gradvist til en mere kompleks model senere i indlægget, lad os antage, at vi kun ved to ting:

  • Antal administrerede COVID-19-test
  • Befolkningsstørrelse med adgang til testene

Med andre ord ved vi, hvor mange test der blev taget, men ikke om disse test var positive for COVID-19. At håbe at estimere brøkdelen af ​​befolkningen med COVID-19 uden at vide, hvor mange test der faktisk var positive til COVID-19, kan virke latterligt. Og det ville være, hvis disse test blev administreret tilfældigt. Som vi tidligere har sagt, er disse test kun givet til individuelle, der udviser influenzalignende symptomer, som i det mindste delvist kan tilskrives COVID-19. Lad os nu forestille os, at disse influenzalignende symptomer kun kunne tilskrives COVID-19 og ingen anden sygdom. Antag, at der derefter blev indgivet 100 test for COVID-19 i en befolkning på 1.000 mennesker med adgang til disse test. Kan dette fortælle os noget om brøkdelen af ​​befolkningen med COVID-19? Svaret er ja - det fortæller os, at mindst 10% af denne befolkning har COVID-19. Uden at vide, hvilke test der var positive, kan vi allerede få et meget nyttigt stykke information - den nederste grænse på infektionshastigheden!

Lad os tage det et skridt videre. Vi ved, at influenzalignende symptomer ikke nødvendigvis betyder, at man har COVID-19. Det kan også betyde, at de bare har influenza. Lad os tage en forenkling af antagelsen om, at influenzalignende symptomer kun kan tilskrives enten COVID-19 eller influenza. Da andelen af ​​befolkningen med influenza på en given del af året er en historisk godt studeret statistik, og der er ingen grund til at tro, at det er noget andet nu end hvad det var før, kan vi bruge disse oplysninger i vores model. Hvordan ville vores tidligere estimat af den nedre grænse på COVID-19-andelen ændres, hvis vi for eksempel antager, at 10% af befolkningen på et givet tidspunkt har influenza (som et eksempel). Måske kan du finde ud af det selv, men lad os nu i stedet gå videre og begynde at opbygge vores model, der formelt inkorporerer den forventede andel influenzainfektioner og udføre posterior inferens for at finde svaret på den måde. Denne model giver os derefter mulighed for senere at inkorporere de observerede testresultater (ud over det observerede antal test), hvor resultatet ikke længere kunne opnås med papir og blyant.

Model 1: Ignorering af testresultater

Hvis vi antager, at influenzalignende symptomer kun kan komme fra enten COVID-19 eller influenza, ønsker vi at modellere følgende sandsynlighedsfordeling:

De tre variabler sympatiske (har individet et influenzalignende symptom?), Influenza (har individet influenza) og covid (har individet COVID-19) er binære variabler. Der er fleksibilitet i, hvordan vi tildeler sandsynligheder til denne distribution, for eksempel baseret på historiske data for at observere sandsynligheden for at udvise symptomer i nærvær af en af ​​sygdommen. Da formålet med dette indlæg er at illustrere modellen, vil vi gøre yderligere forenkling af antagelser og sige, at den enkelte vil have influenzalignende symptomer med 100% sandsynlighed, hvis de enten har influenza eller COVID-19, hvilket i det væsentlige gør ovennævnte fordeling deterministisk . Dette mister ikke nogen generelitet, da denne sandsynlighedsfordeling let kunne udvides til at modellere flere sygdomme og deres respektive sandsynlighed for at fremkalde symptomer. Fortæl os om at nedskrive den fælles fordeling, der inkorporerer de tidligere under hver sygdom:

Bemærk, at herfra vil vi bruge korthormerne s (symptomer), f (influenza), c (COVID-19) til kompaktitet. I ovenstående model står p_f og p_c for de forudgående sandsynlighedsparametre for influenza og COVID-19 respektfuldt (dvs. de parametriserer de respektive Bernoulli-fordelinger). Bemærk, at disse sandsynligheder svarer til den forventede andel af befolkningen med de underliggende sygdomme, så vi kan fortolke dem som sådan. En central antagelse i ovenstående model er, at sandsynligheden for at have influenza og COVID-19 er uafhængig. I praksis er dette sandsynligvis ikke helt korrekt, da for eksempel personer, der er tilbøjelige til infektioner, eller ældre personer kan være mere tilbøjelige til at få begge kontrakter. Denne afhængighed kan også indarbejdes i modellen, men vil blive ignoreret i vores eksempler.

BEMÆRK: Det er vigtigt at skelne mellem sandsynligheden for at pådrage sig en sygdom (som influenza eller COVID-19) med sandsynligheden for, at en tilfældig person trukket fra befolkningen allerede vil have sygdommen. Disse vil generelt ikke være ens. I vores model er vi interesseret i sidstnævnte.

Bemærk, at hvis vi udfører posterior inferens i ovennævnte model, ville vores posteriors effektivt være punktestimater for disse proportioner, da både f og c er Bernoulli-fordelte binære variabler. Da vi også ønsker at visualisere usikkerheden omkring den estimerede befolkningsandel, vil vi også medtage en forudgående andel af COVID-19:

Den forudgående andel af dem, der er inficeret med COVID-19, er en kontinuerlig fordeling over et [0,1] interval. Da andelen af ​​dem, der er inficeret med influenza (p_f), er noget, der kan estimeres ud fra historiske data, betinges vi med et punktestimat for denne andel (vi udfører et back-of-the-konvoluttestimat af p_f senere i posten ). På samme tid kan vi indstille den forudgående andel af COVID-19 til at være stort set uinformativ. Bemærk, at der er en række måder at specificere uinformative forudgående, afhængigt af sandsynlighedsfunktionen, men til illustration vil vi blot bruge en ensartet fordeling over [0,1] -intervallet, der specificerer, at alle proportioner af COVID-19 er lige sandsynlige.

For at forenkle fællesfordelingen skal vi marginalisere de binære influenza- og covidvariabler. Det giver os følgende distribution:

Til illustration evalueres ovennævnte ledfordeling for tilfældet, når der er symptomer (s = 1). Resultatet er meget intuitivt - symptomerne er til stede, når individerne enten har influenza eller COVID-19.

Posterior over andelen af ​​COVID-19 tilfælde

Hvis individerne blev testet tilfældigt, og vi observerede, hvilken af ​​de testede, der havde symptomerne, ville vi være sikre på at antage en iid antagelse over vores observationer (uafhængig og identisk fordelt) ved hjælp af sandsynlighedsfunktionen (sandsynlighed for symptom), som vi udledte tidligere:

Som nævnt ovenfor kan vi imidlertid ikke tage en iid antagelse over individerne, da de, der får prøverne, ikke er valgt tilfældigt; kun dem med symptomer bliver testet. Så i stedet for hvad vi vil gøre er at danne en sandsynlighed for antallet af test og bruge det observerede antal test for at opnå en posterior over andelen af ​​COVID-19 i befolkningen.

Husk, at test kun administreres, hvis den enkelte udviser symptomer. I den ideelle verden, hvor uendelige test var tilgængelige, ville antallet af test, der blev udført i en population, være antallet af dem, der udviser symptomer. Dette er langt fra sandt i vores nuværende situation, hvor antallet af test er begrænset. Det betyder, at hvis der blev administreret 100 test, er antallet af personer med symptomer i befolkningen mindst 100. Men der kan godt være 200 eller 300 eller flere personer med symptomer, der aldrig testes. Det betyder, at når vi observerer et givet antal tests, der administreres til populationen, observerer vi faktisk den nedre grænse for antallet af symptomer i denne population. Vi kan formalisere dette med en marginal af binomialfordelingen (k = antal hoveder = antal symptomer, N = antal forsøg = populationsstørrelse :)

hvor N_s er antallet af personer med symptomer (tilfældig variabel), N_t er antallet af test, der er administreret (observeret), og N_p er størrelsen på befolkningen med adgang til test. Vi kan nu udføre posterior inferens over andelen af ​​befolkningen med COVID-19:

For at gøre det resulterende posterior let at visualisere, lad os antage, at populationen med adgang til testene er 100 personer (N_p = 100), og antallet af administrerede tests er 30 (N_t = 30). For at komme i gang, lad os også indstille andelen af ​​personer med influenza til 0 (p_f = 0,0). Efter at have udført inferens er den posterior over andelen af ​​individer med COVID-19 som følger:

Posterior densitet

Ovenstående tæthed fortæller os, at andelen af ​​befolkningen med COVID-19 er mindst 30%. Dette giver naturligvis mening, da vores model antager, at symptomer kun kan opstå fra enten COVID-19 eller influenza, og andelen af ​​befolkningen med influenza er 0,0. Da kun personer med symptomerne testes, og der blev indgivet 30 test i populationen af ​​100, betyder det, at mindst 30% af befolkningen har COVID-19. Vi behøvede ikke at se den bagerste for at vide, at det ville resultere.

Lad os nu antage, at 10% af befolkningen til enhver tid har influenza (p_f = 0,10). Når vi udfører posterior inferens igen, opnår vi følgende posterior over andelen af ​​individerne med COVID-19:

Posterior densitet

Måske ser vi som forventet, at når vi antager, at 10% af befolkningen har influenza, fortæller den bageste nu, at den forventede andel af befolkningen med COVID-19 er mindst 20% (ned fra 30%). Dette er igen intuitivt og forventet - da vi ikke længere kan forvente, at alle testede har COVID-19, da testning udføres, når man enten har influenza eller COVID-19. Bemærk, at som den bageste fortæller os intet om den øvre grænse for andelen af ​​COVID-19 sager; for det bliver vi nødt til at kende resultaterne af disse test.

Model 2: Inkluderer testresultater

Vi ønsker nu at udvide ovenstående model til at inkorporere testresultaterne. Alt, hvad vi har brug for at tilføje, er sandsynligheden for, at en person tester positiv. Sandsynligheden for en positiv COVID-19-test afhænger kun af, om de er inficeret med COVID-19. Vi kan udtrykke dette med følgende sandsynlighed:

hvor ⊕ er en binær tilfældig variabel, der er lig med 1, når personen tester positivt for COVID-19 og 0 ellers. Denne model kan inkorporere testens følsomhed og specificitet. Uden tab af generalitet for at forenkle illustreringen af ​​modellen vil vi dog modellere dette deterministisk: en test er positiv, hvis personen er inficeret med COVID-19 og tester negativt, hvis de ikke er inficeret med den.

Når vi indarbejder sandsynligheden for en positiv test i vores fælles sandsynlighed ovenfra, opnår vi følgende:

Som før kan vi forenkle ovenstående ved at integrere de binære variabler f og c. Efter marginalisering ser den resulterende fælles fordeling således ud:

Denne fordeling modellerer sandsynligheden for, at et enkelt individ har symptomerne (eller ingen symptomer) og tester positivt for COVID-19 (eller tester negativt). Bemærk, at ovenstående distribution har en meget intuitiv fortolkning:

  • sandsynlighed for at have et symptom og teste negativt for COVID-19 er sandsynligheden for, at den enkelte ikke har COVID-19, mens han har influenza
  • sandsynlighed for at have et symptom og at teste positivt for COVID-19 er sandsynligheden for, at den enkelte har influenza eller både influenza og COVID-19.
  • sandsynlighed for ikke at have nogen symptomer er sandsynligheden for, at den enkelte hverken har influenza eller COVID-19.

Da den eneste observation, vi har, er det samlede antal antallet af test og antallet af positive testresultater, er vi nødt til at udlede en fordeling over disse tællinger for at gøre det lettere at inkorporere disse observationer. Vi kan fortolke ovennævnte fælles fordeling som en kategorisk fordeling over disse 4 gensidigt eksklusive resultater. Vi kan således bruge den multinomiale distribution til at modellere de samlede tællinger over disse resultater:

For at gøre udtrykkene mere læsbare og mere tolkbare, foretager vi følgende variable substitutioner:

hvor N_⊕ er det samlede antal mennesker, der havde symptomer, og som har COVID-19 (vi kender ikke dette antal, da ikke alle blev testet), N_⊖ er det samlede antal, der havde symptomer, og som ikke har COVID-19 (igen, vi kender ikke dette antal), N_s er det samlede antal mennesker, der havde symptomer (dvs. N_⊕ + N_⊖ = N_s) (vi ved det heller ikke, da ikke alle med symptomer tager testen) og N_p er størrelsen på den population, der havde adgang til testen (inklusive dem, der ikke blev testet). Dette giver os mulighed for at udtrykke vores multinomiale distribution igen som følger:

Husk, at vi faktisk ikke kender hverken N_⊕, N_⊖ eller N_s, da vi ikke tester alle de personer i befolkningen, der har symptomer. Vi ved imidlertid noget om disse tællinger, nemlig at N_⊕ + N_⊖ = N_s> N_t, hvor tilbagekaldelse N_t er det samlede antal test, der administreres i populationen. Så N_t og N_p er de eneste observerede variabler i vores tilfælde. Som med vores enklere model tidligere, kan vi udtrykke denne observation via en marginal over den multinomiale distribution:

hvor N_t, ⊕ og N_t, ⊖ er det samlede observerede antal mennesker, der blev testet positivt og negativt for COVID-19 respektfuldt. Vi kan bruge denne observationssandsynlighed kombineret med den forudgående fordeling over p_c (andel af befolkningen med COVID-19) til at opnå den bageste over p_c:

BEMÆRK: Da vi er interesseret i at estimere andelen af ​​personer, der er inficeret med COVID-19 lige nu, er det kritisk, at det tidsrum, som disse test er opnået til, er kort nok til at sikre, at nogle af de testede endnu ikke har tid til at komme sig. Hvis det tidsvindue, hvor disse tællinger opnås, er for langt, ville det opnåede skøn over den inficerede andel af befolkningen ikke længere nøjagtigt afspejle andelen af ​​de inficerede lige nu, da mange af de testede allerede var kommet sig. Da test for nylig begyndte (~ to uger går), som er inden for området for både inkubation og gendannelsestider for både influenza og COVID-19, kan vi overveje estimaterne af den inficerede andel til at tilnærme sig den sande andel af dette øjeblik.

BEMÆRK: Kritisk modellerer vi heller ikke den hastighed, hvormed virussen spreder sig i befolkningen i løbet af den tidstest, der finder sted. Dette kan også indarbejdes i modellen.

Simuleringer

Bemærk om implementering: Da problemet er lavdimensionelt, udfører vi inferencer ved hjælp af simpel kvadratur. Selvom det stadig er langsomt i nogle regimer, er fordelen, at inferensen er nøjagtig.

For at illustrere modellens generelle opførsel er det nyttigt at overveje ekstreme eller næsten ekstreme regimer. Nedenfor giver vi eksempler på model posteriors i en række interessante COVID-19 testregimer.

Eksempel 1: Nogle tests, ALLE negative

Antag, at i en population af 100 blev 10 individer givet COVID-19-testen, og alle testede dem negative. Lad os antage, at influenza i den generelle befolkning er meget sjælden, dvs. p_f er meget lille. Den bageste for dette regime er nedenfor:

Dette forventes: da test kun administreres til dem med symptomer, og COVID-19-testresultaterne alle er negative, er den bageste del af andelen af ​​COVID-19 tilfælde i befolkningen lav.

Hvad ville der ske, hvis influenza var markant mere almindelig i befolkningen? Forøgelse af værdien af ​​p_f til 20% opnår vi følgende posterior over andelen af ​​COVID-19-infektioner:

Dette kan virke meget uintuitivt i starten. Modellen mener nu, at COVID-19 er mere sandsynligt i befolkningen, på trods af at influenza nu er mere almindelig, og på trods af at alle COVID-19-test var negative! Hvad sker der?

Det kommer igen til det faktum, at enkeltpersoner ikke testes tilfældigt. I en population med en betydelig tilstedeværelse af influenza ville de med symptomer (og dermed de testede) være mere tilbøjelige til at have influenza i stedet for COVID-19. Disse tests giver således signifikant mindre information om COVID-19, hvilket resulterer i højere varians i estimatet af forekomsten af ​​COVID-19.

Eksempel 2: Nogle tests, ALLE positive

Lad os antage, at 10 individer fik en COVID-19-test i en befolkning på 100 og alle testede positive. Lad os igen antage, at influenza i den generelle befolkning er meget sjælden, dvs. p_f er meget lille. Da kun symptomatiske individer tager testen (og da influenza er sjælden), forventer vi, at mindst 10% af befolkningen har COVID-19.

Bemærk, at vi ikke kan sige noget ud over det, da antallet af individer med symptomer kan være større end antallet af administrerede test. Den bageste i dette regime afspejler denne intuition:

Bemærk, at dette muligvis ikke synes helt intuitivt, når du først ser på testresultaterne og ser, at de alle var positive som i dette eksempel. Man kan forestille sig, at den bageste skal afspejle dette på lignende måde som situationen, hvor alle test var negative som i det foregående eksempel, hvor den bageste toppe var omkring 0. Hvorfor asymmetrien? Hvorfor topper denne posterior ikke omkring, hvor 100% af befolkningen har COVID-19, da den toppede omkring 0%, når alle testresultater var negative?

Den observerede asymmetri kommer endnu en gang ned på, at individerne ikke testes tilfældigt. Da testene kun administreres til dem med symptomer (og i vores første eksempel antages influenza at være sjælden), kan det antages, at personer, der får testene, meget sandsynligt har COVID-19. Men da hvert testresultat var negativt i det første eksempel, på trods af at de testede sandsynligvis havde COVID-19, bruger modellen denne information som et stærkt signal til korrekt at opdatere sin tro på, at COVID-19 skal være sjælden.

På den anden side, som i dette eksempel, når modellen observerer, at de af de testede, alle testede positive for COVID-19, er disse observationer allerede i tråd med den forudgående og tjener ikke til at opdatere modellenes tro ud over regnskabsmæssigt for kendsgerning, at mindst 10% af befolkningen skal have COVID-19.

Eksempel 3: Nogle tests, BLANDEDE positive + negativer

Lad os nu udvide det forrige eksempel ved kun at introducere en negativ test til de 10 allerede positive tilfælde. Den bageste er nedenfor:

Den bageste står nu korrekt for det faktum, at brøkdelen af ​​befolkningen med COVID-19 ikke længere kan være 100%. Tilføjelse af endnu en negativ test (10 positive, 2 negative i alt):

Bemærk, at som forventet placerer den bageste nu mindre masse på de højere andele af COVID-19.

Dette kan igen virke noget uintuitivt. Ved blot at se på testresultaterne (10 positive, 2 negative), kunne vi forvente, at den anslåede andel af COVID-19-infektioner i befolkningen ligger et sted omkring 80%. Ovennævnte posteriors tilstand er imidlertid omkring 20% ​​- et meget stort hul. Hvordan er det muligt?

Inden vi starter denne diskussion, lad os se på det næste eksempel, hvor antallet af tests øges, mens andelen af ​​positive tests til negative test forbliver omtrent det samme. Vi vil vende tilbage til dette spørgsmål i det næste eksempel.

Eksempel 4: MANGE test, BLANDET positive + negativer

Antag, at ud af 100 test var 80 nu positive og 20 negative. Andelen af ​​positive tests er 80%, omtrent det samme som det foregående eksempel. Bemærk, at i det bageste nedenfor er tilstanden nu på nøjagtigt 80%.

Antag nu, at ud af 100 test var 40 positive og 10 negative. Andelen af ​​positive tests er igen 80%. Den bageste er nedenfor:

Bemærk, at tilstanden nu er omkring 40%.

Hvordan forklarer vi det faktum, at trods det faktum, at andelen af ​​positive og negative testresultater forbliver den samme, ligger den anslåede andel af befolkningen med COVID-19 mellem 20% og 80%?

Dette kommer endnu en gang til det faktum, at test ikke administreres tilfældigt. Hvis for eksempel tests blev administreret tilfældigt, forventer vi, at fraktionen af ​​observerede positive COVID-19-test blandt de testede var et objektivt skøn over den sande andel COVID-19 i befolkningen. Når testene kun administreres til dem med symptomer, forventer vi, at vi ville have en større sandsynlighed for at finde positive COVID-19 tilfælde blandt de testede. Det betyder, at når antallet af test er mindre end befolkningsstørrelsen, vil positive COVID-19 tilfælde overrepræsenteres blandt de testede i forhold til befolkningen som helhed. Følgelig ville en posterior produceret af en model, der tager dette i betragtning (som vores model gør) give et skøn over andelen af ​​COVID-19 tilfælde i befolkningen, der er lavere end andelen blandt dem, der er testet.

Hvad ville der nu ske, hvis influenza nu var mere udbredt i befolkningen? Lad os gå tilbage til det tidligere eksempel, hvor ud af befolkningen på 100 testede 8 personer positive og 2 testede negative. Ud over det tilfælde, hvor influenza er meget sjælden (som vi illustrerede i det foregående eksempel), lad os overveje det tilfælde, hvor influenza nu er 10% af befolkningen:

Den orange kurve er det forrige resultat, hvor influenza var sjælden. Den blå kurve er den bageste antagelse af, at influenza er 10% af befolkningen, men med det samme antal testresultater: 8 positive og 2 negativer. Hvad fortæller dette os nu?

Når vi ved, at influenza er meget sjælden, forventer vi, at alle, der bliver testet, grundlæggende allerede har COVID-19. Så modellen forventer, at COVID-19 er meget overrepræsenteret i prøven af ​​mennesker, der får testen. Det betyder, at selv at observere 2 negativer giver modellen et stærkt signal om, at COVID-19 skal være sjældent. Dette er grunden til, at den bageste er ganske skarp og topper ca. 20% af COVID-19. Når vi ved nu, at influenza faktisk er ret udbredt, er modellen ikke længere næsten sikker på, at de testede testes på grund af COVID-19; mange af de testede er nu testet, fordi de har influenza. Som et resultat bliver modellen markant mindre selvsikker i sit skøn over COVID-19-andelen, hvilket afspejles i den højere varians af den bageste.

New York City COVID-19 casestudie

Lad os nu prøve at køre posterior slutning med denne model ved hjælp af testdata fra den virkelige verden fra New York City. Men først en ansvarsfraskrivelse:

Ansvarsfraskrivelse: Selvom vi bruger reelle statistikker for antallet af administrerede test og antallet af positive COVID-19-test, er der andre parametre, der er tilnærmet til illustration. Disse inkluderer: andelen af ​​influenzatilfælde i befolkningen, specificiteten / følsomheden af ​​COVID-19-testen (eller test, da der er flere), sandsynligheden for at udvise symptomer i betragtning af COVID-19-infektionen, størrelsen på befolkningen med adgang til testene (vi bruger befolkningen i New York City som en tilnærmelse), og der kan være andre. Disse er ikke afbrydere, når man forsøger at implementere denne model i praksis, da der er måder at få mere nøjagtige versioner af disse parametre.

CDC rapporterer, at influenza i USA resulterer i cirka 9 til 45 millioner sygdomme hvert år [1]. Dette interval kan indarbejdes i vores model via en tidligere, men da vores nuværende model er afhængig af et punktestimat for andelen af ​​influenzatilfælde, bruger vi 25 millioner som dette punktestimat. Vi er imidlertid ikke interesseret i det samlede antal sager over et år. Vores model kræver, at man kender en brøkdel af befolkningen med influenza i den tid COVID-19-test finder sted. For at gøre det nemt, lad os antage, at det meste af COVID-19-test fandt sted i løbet af denne forløbne måned og omtrentlige det samlede antal influenzatilfælde i denne periode med 25 millioner / 12 måneder, normaliseret af USAs befolkning (hvilket giver pi_f = 0,6%).

Til sammenligning udfører vi også slutning, hvis vi antager, at influenza er sjælden (indstiller pi_f til næsten 0). Nedenfor er de to resulterende posterior distributioner:

Som vi ser, modellerer prævalensen af ​​influenza i befolkningen en betydelig indflydelse på den bageste. Årsagen til, at der er mere masse på højere andele af COVID-19, når influenza er modelleret, er den samme som den, vi gav i vores eksempel 1 ovenfor. At have negative COVID-19 testresultater er mindre informativt, når modellen forventer, at flere mennesker bliver testet til at være negative i starten, da influenzaen snarere end COVID-19 alene kan bidrage til, hvorfor nogle mennesker bliver testet.

Lad os nu prøve at besvare det centrale spørgsmål: hvad kan vi sige om andelen af ​​COVID-19 i befolkningen? Nedenfor beregner vi den kumulative fordelingsfunktion (CDF) for den bageste, der giver sandsynligheden for, at brøkdelen af ​​mennesker med COVID-19 er lavere end en tærskel.

Fra CDF ovenfor kan vi se, at vi med 95% tillid kunne konkludere, at mindre end eller lig med ca. 74% af befolkningen (med adgang til disse test) har COVID-19. Vær dog opmærksom på, at denne tillid kun gælder, så længe vi er sikre på modellen og dens parametre, som som vi tidligere sagde for det meste er bageste-af-konvoluttestimater og tilnærmelser med det formål at illustrere modellens opførsel. Denne konklusion er ikke beregnet til at blive taget som et faktisk skøn for at være tillid til, men som et eksempel på, hvordan man kunne nå frem til denne konklusion, hvis modellen parametriseres nøjagtigt.

Hvad kan der gøres for at gøre modellen mere sikker?

Desværre er ovenstående skøn alt for bredt til at være meget informativ. Det er et interessant spørgsmål at forestille sig, hvordan den bageste kan ændre sig, hvis antallet af test øges. Vi har selvfølgelig ingen måde at vide, hvad andelen af ​​positive testresultater ville være, når antallet af tests øges. Dog kun med det formål at illustrere dens virkning kunne vi antage en simpel antagelse om, at andelen af ​​positive testresultater forbliver den samme. Hvis antallet af tests blev tredoblet, ville den bageste se ud som følger:

Dette illustrerer igen den noget uintuitive karakter af resultaterne forårsaget af den ikke-tilfældige administration af testene og understreger betydningen af ​​modellering. Selv når andelen af ​​positive testresultater forbliver den samme, resulterer tredobling af antallet af tests i et skøn for den forventede andel COVID-19-infektioner, der er omtrent halvdelen af ​​det foregående skøn!

En anden måde at mindske variansen i den bageste ville være at gennemføre et antal antal tilfældige tests i befolkningen. Den oprindelige årsag til, at kun de med symptomerne testes, var fordi der kun er et begrænset antal test, og disse test skal fordeles effektivt, så de med COVID-19 hurtigt kan identificeres. Det er dog muligt, at udførelse af et endnu lille antal tilfældige test faktisk kunne øge kvaliteten af ​​vores estimater af udbredelsen af ​​COVID-19 betydeligt, hvilket derfor kan være mere informativt, når vi hjælper med at planlægge logistikken for svaret. Dette kunne endda gøres på gruppeniveau, hvor prøver fra flere individer blandes sammen - dette minimerer antallet af tests, mens det stadig gør det muligt at nå frem til et skøn over en populationsniveauudbredelse.

VIGTIG BEMÆRK: du kan observere, hvad der ser ud til at være en tilstand i fordelingen med ca. 5% af COVID-19-andelen. Dette er ikke en reel tilstand, men snarere en artefakt af at have et sparsomt støttegitter, over hvilket der udføres inferens (25 punkter langs [0,1] -intervallet). Årsagen til et så sparsomt gitter er den lange inferensstid i regimer, hvor befolkningen er stor (da kvadratur skal udføres over en større understøtning), som i dette eksempel. Inferenstiden kan forbedres med MCMC-baseret inferens eller gennem forskellige tilnærmelser til den bageste, som begge ligger uden for vores efterforskning. For at fremskynde inferensen skalerer vi de observerede tællinger (population og antal positive / negative testresultater) med en faktor 3.000. Dette har den virkning, at posteriorerne er mindre “skarpe”, men generelt bevarer den generelle form for fordelingen. Vi håber, at folk, der er interesseret i at udforske denne model, kan udvikle mere effektive inferensalgoritmer til denne model, så den kan køres uden at nedskalere input.

Konklusion

Vores hovedmål bag denne udforskning var at foreslå en enkel, men praktisk model, der kan bruges til at hjælpe med at forstå omfanget af infektionen med COVID-19 i en befolkning som helhed og kun stole på statistikkerne fra de administrerede test såvel som statistikken på influenzaudbredelse. Den vigtigste afhentning her bør være, at estimering af denne andel ikke er triviel, og resultaterne er ofte ikke intuitive, så man skal være omhyggelig med at modellere testprocessen. Hovedmålet var at indføre en praktisk model snarere end at opnå nøjagtige skøn over den aktuelle tilstand af COVID-19-infektioner. For at bruge den i praksis skal modellen parametriseres med mere nøjagtige skøn over:

  • andelen af ​​influenza og andre sygdomme, der resulterer i influenzalignende symptomer inden for det tidsrum, som COVID-19-test fandt sted
  • størrelsen på befolkningen med adgang til testene
  • følsomhed og specificitet af COVID-19 testen

Bemærk, at modellen let kan udvides til at inkorporere andre sygdomme ud over influenza, så længe vi kan stole på skøn over deres tilbøjelighed i befolkningen. Givet nøjagtige estimater af ovenstående kunne modellen anvendes til en lang række befolkninger, fra lokale distrikter, til stater, til hele nationer.

Vi håber inderligt, at denne model kan være nyttig, i det mindste som et yderligere referencepunkt, til dem, der har til opgave at få den kritiske mission at mobilisere de nødvendige ressourcer (såsom ICU-senge) som reaktion på krisen og i sidste ende minimere antallet af unødvendige dødsfald.

Kode

https://github.com/igorlabutov/bayesian-model-covid-19-proportion

Kontakt os

Hvis du har spørgsmål eller kommentarer, så kontakt os på:

Vi ser frem til din feedback.