Articles

Estimation de la tendance quotidienne de la taille de la population infectée par le COVID-19 à Wuhan

La propagation du COVID-19 en dehors de la province du Hubei est relativement contrôlée étant donné les ressources médicales adéquates. Nous utilisons le nombre rapporté en dehors de Hubei car il s’agit d’une représentation assez précise de la situation épidémique réelle. Dans cette étude de modélisation, nous estimons d’abord la taille de l’épidémie à Wuhan du 10 janvier au 5 avril 2020, en nous basant sur les cas confirmés en dehors de la province du Hubei qui ont quitté Wuhan avant le 23 janvier 2020. Comme certains cas confirmés n’ont pas d’information sur leur visite antérieure à Wuhan, nous ajustons le nombre de cas importés après avoir pris en compte ces valeurs manquantes. Nous calculons ensuite le taux de déclaration à Wuhan du 20 janvier au 5 avril 2020. Enfin, nous estimons la date à laquelle le premier patient a été infecté.

Données

Les données extraites des dossiers accessibles au public des commissions provinciales et municipales de la santé en Chine et des ministères de la santé d’autres pays comprennent des informations détaillées pour 10 940 cas confirmés en dehors de la province de Hubei. Un tableau supplémentaire dans les matériaux supplémentaires présente ces sites web de manière plus détaillée . Les informations sur les cas confirmés comprennent la région, le sexe, l’âge, la date d’apparition des symptômes, la date de confirmation, les antécédents de voyage ou de résidence à Wuhan, et la date de départ de Wuhan. Nous affichons les caractéristiques démographiques de ces patients dans le tableau 1. Parmi les 7500 patients pour lesquels on dispose de données sur le sexe, 3509 (46,8%) sont des femmes. L’âge moyen des patients est de 44,48 ans et l’âge médian de 44 ans. Le plus jeune patient confirmé en dehors de la province du Hubei n’avait que 5 jours tandis que le plus âgé a 97 ans (voir tableau 1).

Tableau 1 Caractéristiques démographiques des patients atteints de COVID-19 en dehors de la province du Hubei

Nous affichons les données épidémiologiques catégorisées par la date de confirmation dans le tableau 2. Un cas importé signifie un patient qui s’était rendu à Wuhan et qui a été détecté en dehors de la province de Hubei. Un cas local est un cas confirmé qui ne s’est pas rendu à Wuhan. Sur un total de 10 940 cas, 6903 (63,1%) disposent de ces informations épidémiologiques. Le nombre de cas importés a atteint son pic le 29 janvier 2020, et la quatrième colonne du tableau 2 montre que la proportion de cas importés diminue au fil du temps. Cela pourrait refléter l’effet des mesures de confinement prises dans la province de Hubei pour contrôler l’épidémie de COVID-19 . Pendant ce temps, le nombre quotidien de cas locaux est supérieur à 300 du 2 février au 7 février 2020, ce qui indique que les infections parmi les résidents locaux devraient être une préoccupation majeure pour les autorités en dehors de la province de Hubei.

Tableau 2 Données sur les patients catégorisées par la date de confirmation

La dernière colonne du tableau 2 répertorie la durée moyenne entre l’apparition des symptômes et la confirmation pour les patients confirmés chaque jour. La durée médiane de tous les cas est de 5 jours, et la moyenne est de 5,54 jours. En général, la période de détection a diminué au cours de la première semaine après le 20 janvier 2020, mais a augmenté depuis. Les améliorations de la vitesse et de la capacité de détection pourraient être à l’origine de la baisse initiale, et la hausse pourrait être due à un dépistage plus approfondi, conduisant à la détection de patients présentant des symptômes légers qui, autrement, ne se rendraient pas dans les hôpitaux.

Assomptions

La méthode proposée repose sur les hypothèses suivantes :

  1. 1)

    Entre le 10 janvier et le 23 janvier 2020, la proportion quotidienne moyenne de départs de Wuhan est p.

  2. 2)

    Il existe une fenêtre de d = d1 + d2 jours entre l’infection et la détection, comprenant une période d’incubation de d1 jours et un délai de d2 jours entre l’apparition des symptômes et la détection.

  3. 3)

    Les patients ne peuvent pas voyager d jours après l’infection.

  4. 4)

    La proportion de cas importés chez les patients sans information est la même que la proportion observée chaque jour.

  5. 5)

    Les durées de voyage sont suffisamment longues pour qu’un patient voyageur infecté à Wuhan développe des symptômes et soit détecté dans d’autres endroits plutôt qu’après son retour à Wuhan.

  6. 6)

    Tous les voyageurs quittant Wuhan, y compris les passagers en transfert, ont le même risque d’infection que les résidents locaux.

  7. 7)

    Le voyage est indépendant du risque d’exposition au COVID-19 ou du statut d’infection.

  8. 8)

    Les récupérations ne sont pas considérées dans cette méthode.

Les hypothèses 1 à 4 sont utilisées explicitement dans la section Méthodes. Elles constituent des hypothèses fondamentales pour notre modèle statistique. D’autres hypothèses pourraient également affecter le résultat de notre modèle, et nous faisons quelques remarques sur nos hypothèses.

  1. a)

    Le 10 janvier 2020 est le début de la ruée vers le voyage du Nouvel An chinois, et le 23 janvier 2020, est la date du verrouillage de Wuhan . Dans le total de 10 940 cas, la date de départ de Wuhan de seulement 131 (1,2%) cas ne sont pas dans cette période. Ils sont exclus de notre analyse.

  2. b)

    Si la véritable proportion moyenne quotidienne de départ de Wuhan est plus grande que le p supposé, cette violation de l’hypothèse 1 pourrait conduire à une surestimation du nombre de cas à Wuhan.

  3. c)

    Si le temps moyen entre l’infection et la détection est plus long que l’hypothèse d jours, cette violation de l’hypothèse 2 entraînerait une surestimation.

  4. d)

    Si les voyageurs ont un risque d’infection plus faible que les résidents de Wuhan, cette violation de l’hypothèse 6 entraînerait une sous-estimation.

  5. e)

    Si les personnes infectées sont moins susceptibles de voyager en raison des conditions sanitaires, cette violation de l’hypothèse 7 entraînerait une sous-estimation.

Dans l’annexe supplémentaire A, nous effectuons l’analyse de sensibilité sur l’effet de certaines des violations sur nos résultats.

Notations

Laissons le jour t0 désigner la date d’infection du tout premier cas. Soit Nt le nombre cumulatif de cas qui devraient être confirmés à Wuhan au jour t. D’autres notations de notre modèle sont définies dans le tableau 3.

Tableau 3 Notations pour notre modèle

Les nombres Tt, It, et Lt sont les données observées utilisées dans notre modèle, tc, r, et K sont les paramètres qui déterminent comment Nt change au fil du temps.

Modèle

La tendance de croissance de la taille Nt de la population infectée est déterminée par l’équation différentielle ordinaire suivante :

$$ \frac{d{N}_t}{dt}=\frac{r}{K}{N}_t\left(K-{N}_t\right),\kern0.5em r>0,K>0, $$
(1)

où K est la taille de la population qui sont sensibles au COVID-19 à Wuhan, et r est une constante qui contrôle le taux de croissance de Nt. Il s’agit de la version modifiée du célèbre modèle SIR en épidémiologie. Dans l’équation (1), le taux de croissance de Nt est proportionnel au produit de Nt et du nombre K – Nt de personnes sensibles mais pas encore infectées. Il s’agit d’un modèle raisonnable pour la transmission d’une épidémie. Au début de l’épidémie, lorsque Nt est petit, les gens connaissent peu COVID-19, Nt croît à un taux exponentiel r. Lorsque Nt devient plus grand, des mesures de confinement sont prises pour le contrôler, le taux de croissance de Nt ralentit, ce qui donne une courbe sigmoïde de Nt. Des explications détaillées du modèle (1) sont données dans l’annexe supplémentaire B. Le modèle (1) a une solution analytique,

$$ {N}_t=\frac{K}{1+{e}^{-r\left(t-{t}_c\right)}}=K{f}_t, $$
(2)

où \( {f}_t=\frac{1}{1+{e}^{-r\left(t-{t}_c\right)}} \), et la dérivée \( \frac{d{N}_t}{dt} \) est maximisée à t = tc, \( \frac{r}{2}=\frac{d\log {N}_{t_c}}{dt} \) est le taux de croissance de logNt au temps tc, K est un paramètre à estimer.

Estimation

Nous utilisons les données sur les cas confirmés qui ont quitté Wuhan entre le 10 janvier et le 23 janvier 2020, pour estimer K. Selon l’hypothèse 2, les cas infectés le jour t seront détectés le jour t + d, de sorte que le nombre de cas infectés à Wuhan est de Nt + d le jour t. Si t0 ≤ t ≤ t0 + d, il ne devrait y avoir aucun cas confirmé. Si t0 + d < t ≤ t0 + 2d, les cas importés le jour t sont infectés à Wuhan le jour t – d. Il y a Nt cas infectés à Wuhan le jour t – d, donc le nombre de cas importés xt le jour t suit une distribution binomiale (Nt, p), où p est la probabilité quotidienne moyenne supposée de quitter Wuhan entre le 10 janvier et le 23 janvier 2020. Si t > t0 + 2d, selon l’hypothèse 3, Nt – d patients ne sont pas en mesure de voyager, xt suit une distribution binomiale (Nt – Nt – d, p). Soit Xt le nombre cumulé de cas importés au jour t, alors

$$ {X}_t=\sum \limits_{k=1}^t{x}_k\sim \mathrm{Binomial}\left(\sum \limits_{k=t-d+1}^t{N}_k,p\right),\kern0.75em t\ge {t}_0+2d. $$
(3)

D’après les équations (2) et (3), \( {X}_t\sim \mathrm{Binomial}\left(K\sum \limits_{k=t-d+1}^t{f}_k,p\right) \). L’estimation du paramètre \( \hat{K} \) est dérivée en maximisant la fonction de vraisemblance

$$ l(K)=\left(\genfrac{}{}{0pt}{}{K\sum \limits_{k=t-d+1}^t{f}_k}{X_t}\right){p}^{X_t}{\left(1-p\right)}^{K\sum \limits_{k=t-d+1}^t{f}_k-{X}_t}. $$
(4)

Les limites inférieure et supérieure de l’intervalle de confiance à 95% \( \left \) sont des valeurs telles que la fonction de distribution cumulative \( F(K)={\sum}_{x=0}^{X_t}l(K) \) est égale à 0,975 et 0,025, respectivement. Le taux de déclaration est le nombre cumulé de cas déclarés à Wuhan au jour t divisé par notre nombre estimé \( \hat{N_t} \). L’estimation de la date t0 de première infection est obtenue en résolvant l’équation \( {N}_{t_0}=1. \)

La détermination du nombre de cas importés xt joue un rôle crucial dans la procédure de modélisation. Notez que tous les cas n’ont pas des enregistrements clairs sur l’historique des voyages ou de la résidence à Wuhan, nous devons imputer les valeurs manquantes. Sous l’hypothèse 4, la proportion de cas importés dans les patients Ut sans information est la même que la proportion observée \( \frac{I_k}{I_k+{L}_k} \). Par conséquent,

$$ {x}_t={I}_t+{U}_t\times \frac{I_k}{I_k+{L}_k}={T}_k\times \frac{I_k}{I_k+{L}_k}. $$
(5)

La proportion quotidienne moyenne de sortie de Wuhan entre le 10 janvier et le 23 janvier 2020 est estimée être le rapport entre le volume quotidien de voyageurs et la population de Wuhan (14 millions). On estime que plus de 5 millions de personnes quitteront Wuhan en raison de la fête du printemps et de l’épidémie . Ce chiffre est mentionné par le maire de Wuhan lors d’une conférence de presse. Nous supposons que ces passagers ont quitté Wuhan entre le début de la ruée vers le Nouvel An chinois, le 10 janvier 2020, et le verrouillage de la ville de Wuhan, le 23 janvier 2020. Pendant la période d’affluence, 34 % des passagers ont parcouru plus de 300 km. Les grandes villes situées en dehors de la province du Hubei sont généralement à plus de 300 km de Wuhan. Cela signifie qu’en moyenne, la probabilité quotidienne p de voyager de Wuhan vers des lieux situés en dehors de la province du Hubei serait de 5 × 0,34/14/14 = 0,009. Li et al. ont estimé que la période d’incubation moyenne de 425 patients atteints de COVID-19 était de 5,2 jours (IC 95 % : 4,1-7,0) . Le délai moyen entre l’apparition des symptômes et la détection calculé à partir de nos données est de 5,54 jours, nous choisissons donc d = d1 + d2 = 11 jours. Le 29 janvier 2020, le nombre maximal de cas importés a été atteint. Comme xt a une distribution binomiale (Nt – Nt – d, p) avec p constant, Nt – Nt – d atteint également son maximum à t= 29 janvier 2020. D’après la fonction logistique (2), tc est le point médian de t et de t – d, soit \( t-\frac{d}{2}= \) 24 janvier 2020, c’est-à-dire peu après le verrouillage de la ville de Wuhan . Wu et al. ont estimé le temps de doublement de l’épidémie à 6,4 jours (IC 95 % : 5,8-7,1) à partir du 25 janvier 2020. À partir de ce résultat, nous estimons que \( \frac{r}{2}=\frac{d\log {N}_{t_c}}{dt}=\frac{\ln 2}{6,4}=0,1 \). En utilisant ces valeurs pour les paramètres p, d, tc, et r, nous pouvons dériver l’estimation du maximum de vraisemblance \( \hat{K}=51\ 273, \) avec IC 95% : 49 844-52 734.