Cuando comenzó la pandemia tuvimos largas conversaciones con mi mentor, J. Sunil Rao, acerca de la situación. Las conversaciones fueron interesantes y enriquecedoras por la diferencia de opiniones y porque solemos oírnos el uno al otro con mucho respeto. El caso es que decidimos hacer algo en vez de quedarnos solo discutiendo.
Hay un tema que me ha interesado por años y es el de los sesgos en las publicaciones científicas. De hecho, una de mis publicaciones favoritas es la de John Ioannidis llamada ¿Por qué la mayoría de resultados de investigación publicados son falsos?1 Es uno de los artículos científicos más citados de la historia y va en contra de la mayoría de los otros artículos científicos, así que el contraste es, por decir lo menos, interesante.
Uniendo estos dos asuntos, COVID-19 y sesgo en publicaciones académicas, a Sunil se le ocurrió que podríamos utilizar un resultado reciente de Isaiah Andrews y Maximilian Kasy sobre cómo corregir el sesgo en las publicaciones científicas para corregir también el sesgo en la detección de COVID-19.2 El resultado fue un artículo bastante esclarecedor publicado en el Journal of Theoretical Biology, con una corrección al sesgo en el muestreo de COVID-19 que resultó siendo muy fácil de implementar.3 El resumen del artículo, traducido al español, dice lo siguiente:
Las pruebas de COVID-19 se han convertido en la forma habitual de estimar la prevalencia, cosa que luego pasa a influir en la toma de decisiones en salud pública para contener y mitigar la propagación de la enfermedad. Los diseños muestrales usados suelen estar sesgados porque no reflejan la realidad de la población. Por ejemplo, es más probable que individuos con síntomas fuertes reciban la prueba en comparación con individuos con individuos que no presenten síntomas. Esta situación resulta en estimaciones sesgadas de prevalencia (demasiado altas). Las correcciones posteriores al muestreo no siempre son posibles. Presentamos aquí una metodología sencilla para la corrección del sesgo, derivada y adaptada de una corrección para sesgo en publicaciones en estudios de meta-análisis. La metodología es lo suficientemente general para permitir una amplia variedad de modificación que la haga más útil en la práctica. La implementación es fácilmente realizable utilizando tan solo la información ya recolectada. Por medio de un ejemplo y de dos bases de datos reales mostramos que las correcciones al sesgo pueden aportar reducciones dramáticas en el error de estimación.
La idea del artículo es sencilla: dada la emergencia, las pruebas de COVID-19 se han hecho principalmente a personas que al menos sospechan que pudieran haber tenido la enfermedad y estas pruebas se han tomado como una muestra a partir de la cual se está infiriendo la prevalencia. Por lo tanto, la prevalencia está altamente sobreestimada. Esto hace necesaria una corrección.
El modelo
Lo que sigue es intenso en notación matemática, aunque los conceptos son bastante sencillos. Como puede ser de provecho para cierta parte del análisis de la situación actual, voy a presentar los resultados más importantes aquí.
Considérese una población de tamaño . puede dividirse en subconjuntos de la siguiente manera:
- el subconjunto de individuos asintomáticos no infectados,
- el subconjunto de individuos asintomáticos infectados,
- el subconjunto de individuos sintomáticos no infectados y
- el subconjunto de individuos sintomáticos infectados.
Llamaremos a esta partición de la población. Cada uno de estos subconjuntos tendrá proporciones dadas por el vector , cuyas componentes corresponden respectivamente a los cuatro subconjuntos mencionados de la partición , y satisfacen que .
Definimos también una variable aleatoria que tomará valores en el conjunto de índices , y que, condicionada a , seleccionará un elemento de la partición de acuerdo a una distribución categórica en el intervalo cuya densidad es:
Así las cosas, el subíndice representa la sintomatología: indica presencia de síntomas, y , ausencia de síntomas; y el superíndice alude a la prevalencia: se refiere al grupo de los infectados, e , al de los no infectados.4 Con un pequeño abuso de terminología, nos referiremos a los elementos de como categorías o como subconjuntos de la partición .
Bajo esta notación, la proporción de individuos con sintomatología está dada por
Y la proporción de prevalencia, está dada por
,
luego la proporción de no infectados es . Note también que representa la probabilidad condicional de estar infectado dado que estemos considerando la categoría de síntomas.
Ahora introducimos una variable aleatoria que tomará el valor con probabilidad o el valor con probabilidad . Consideraremos una sucesión de variables aleatorias independientes con la misma distribución de . Observe que el subíndice de esta sucesión apunta a que estamos considerando cada uno de los individuos de la población. Así, si el individuo pertenece al grupo , entonces , que ocurre con probabildad , nos dirá que el individuo fue probado para COVID-19 (o lo que es lo mismo, seleccionado para la muestra). De esta manera, el tamaño de la muestra estará dado por .
En resumen, para tenemos las siguientes cantidades definidas:
- es la probabilidad de estar en la categoría y tener una prueba de COVID-19.
- es la probabilidad de que un individuo infectado en la categoría reciba una prueba de COVID-19.
- es la probabilidad condicional de estar infectado dado .
- es la proporción real de personas con sintomatología .
Además, tenemos los siguientes órdenes:
La intuición detrás de tales órdenes es que los individuos sintomáticos tienen mayor probabilidad de recibir la prueba que los asintomáticos (2), mayor probabilidad de hacer la prueba a individuos contagiados que los asintomáticos (3), mayor probabilidad condicional de estar infectados dentro de su grupo de sintomáticos que los asintomáticos (4) y son un grupo más pequeño que el de los asintomáticos (5).
Note que en (*) solo dimos la distribución categórica poblacional . Su contraparte muestral es la distribución condicional y que por simplicidad notaremos sencillamente . La densidad de esta distribución muestral es entonces:
,
donde la primera igualdad no es más que convención de notación y la segunda se obtiene a partir del teorema de Bayes. Observe que el numerador del cociente en la última igualdad, , es precisamente por definición ; y como es una variable aleatoria Bernoulli, el denominador es el valor esperado . Finalmente, por (*), . Por lo tanto obtenemos:
Suponiendo que no hay error en las pruebas (ausencia de falsos positivos y negativos), sabemos la cantidad exacta de personas infectadas en la muestra. Incluso, bajo un procedimiento similar al anterior, podemos saber a qué categoría pertenecen. Por lo tanto, para igual a ó ,
Si (6) y (7) fueran estimadores insesgados, serían respectivamente y . Es decir, el cociente que multiplica a cada uno de los términos a la derecha de las ecuaciones (6) y (7) es el sesgo que contiene la muestra. En otras palabras, con (6) obtenemos el estimador sesgado de la cantidad de personas que se han realizado la prueba; y con (7), el estimador sesgado de la proporción de prevalencia para cada . Entonces el estimador total sesgado de individuos que recibieron la prueba es
y el estimador total sesgado de prevalencia es
Corrección del sesgo
Definidas las cosas de esta manera, corregir el sesgo en las ecuaciones (6) y (7) se vuelve bastante sencillo: lo único que debe hacerse es multiplicar el lado derecho de cada una de estas ecuaciones por el inverso del cociente que aparece en ellas. Específicamente, la corrección del sesgo estaría dada por , donde
.
Así, si por ejemplo remplazamos por , obtendremos la corrección del sesgo para el total de pruebas; y si lo remplazamos por , obtendremos la corrección para la prevalencia para cada uno de los dos grupos de sintomatología. Por lo tanto, el total corregido de prevalencia está dado por
.
El numerador a la derecha de la ecuación (10) puede estimarse fácilmente como , donde es el tamaño de la muestra y es el total de la población. Sin embargo, el denominador es un poco más complejo porque no tenemos suficiente información. ¿Cómo estimarlo?
Como ya aprendimos que la proporción de individuos muestreados es y también sabemos que la mayoría de personas a quienes se le realiza la prueba son sintomáticas, dada la urgencia de la situación. Por lo tanto, es un buen estimador de la proporción real de sintomáticos . Adicionalmente, como la mayoría de personas sintomáticas tienen el virus, y la mayoría de ellos recibieron la prueba, tenemos que .
Trivialmente se obtiene entonces que la proporción corregida de asintomáticos es . Sin embargo, tenemos muy poca información de la prevalencia entre los asintomáticos. Así que la mejor forma de estimarla es utilizar el llamado principio de la razón insuficiente de Bernoulli.5 Según este principio, en ausencia de conocimiento que nos condujera a hacerlo de otra forma, es necesario asignar probabilidades iguales a los eventos. El principio de la razón insuficiente solo es un caso particular del principio de máxima entropía de Jaynes, según el cual «sobre la base de información parcial, debemos utilizar la distribución de máxima entropía, sujeta al conocimiento que tengamos. Esta es la única asignación insesgada que podemos hacer».6
¿Qué significa lo anterior para nuestro análisis? Que en ausencia de mejor conocimiento, lo mejor que podemos hacer es generar un número aleatorio conforme a una distribución uniforme en el intervalo . Ahora, si tenemos alguna información sobre los asintomáticos con la enfermedad en la muestra sesgada, entonces podemos hacer la proporción de la prevalencia dentro de esta categoría particular dada por la muestra sesgada: .
En cualquiera de los dos casos anteriores, la estimación de prevalencia entre asintomáticos estará dada por .
En resumen, para nuestro caso con solo las dos categorías de asintomáticos, , y de sintomáticos, , la corrección en el estimador queda dada de la siguiente forma:
- Sintomáticos: .
- Asintomáticos: .
- Sintomáticos con el virus: .
- Asintomáticos con el virus: .
Ejemplo
El ejemplo a continuación ilustrará cómo funciona en la práctica el modelo bajo cuatro diferentes protocolos de muestreo. El ejemplo proviene de un artículo de Poletti et al con datos reales tomados de Lombardía, Italia, que fue uno de los grandes focos de la enfermedad en la primera oleada.7
En una muestra de individuos se identificaron infectados con pruebas de PCR. Además de estos, se identificaron infecciones con ensayos serológicos. Es decir, el total de individuos infectados fue . Dentro del total de infectados, eran sintomáticos (). Puesto que desde nuestra perspectiva solo nos interesa la detección por PCR, no contaremos las detecciones por ensayos serológicos. Sin embargo, sí usaremos el hecho de que de los casos fueron sintomáticos, asumiendo que el mismo porcentaje se mantiene para los infectados detectados por PCR. Es decir, en nuestro caso la prevalencia verdadera es ; y entre los infectados, serán sintomáticos. Los restantes serán infectados asintomáticos.
Protocolo de muestreo 1. La muestra está compuesta por individuos infectados y sintomáticos. En este caso, el estimador sesgado de prevalencia es . El estimador corregido será . Y esta será también la corrección para . Entonces y, tomando la media de obtenemos . Por lo tanto, la corrección de prevalencia total es , que sigue siendo alta pero corrige grandemente los efectos de una muestra demasiado mala.
Protocolo de muestro 2. La muestra está compuesta por individuos. Entre estos, () son infectados sintomáticos, y () son asintomáticos. Suponemos además que la muestra tiene asintomáticos positivos para el virus. De manera que el estimador sesgado de prevalencia es . En este caso, . Ahora, y tomando como , obtenemos que . Por lo tanto, la prevalencia total corregida es , que resulta bastante cercana a la real .
Protocolo de muestreo 3. En este escenario tenemos sintomáticos y asintomáticos. Suponemos que la muestra tiene individuos infectados y asintomáticos. El estimador sesgado es . Sin embargo, y . En este caso, , donde . Por lo tanto, el estimador corregido de prevalencia es .
Protocolo de muestro 4. Esta es una muestra verdaderamente aleatoria, es decir, como debería ser una muestra ideal. Digamos que . Entre estos, son sintomáticos y positivos. Por lo tanto, son asintomáticos. Dentro del grupo de asintomáticos, supondremos que están infectados. El estimador sesgado es entonces que, por supuesto, corresponde a la prevalencia real. En este caso, la corrección funcionará de la siguiente manera: . Entonces y . Por lo tanto, la prevalencia total estimada será . Es decir que la corrección no es mala pero, por razones obvias, no funciona tan bien como la muestra aleatoria.
Notas
- Ioannidis J. Why Most Published Research Findings Are False. PLoS Med. 2005 Aug; 2(8): e124. ↩
- Andrews, I., Kasy, M., 2019. Identification of and correction for publication bias. Am. Econ. Rev. 109 (8), 2766–2794. ↩
- Díaz-Pachón D.A., Rao J.S. A simple correction for COVID-19 sampling bias. J. Theor. Biol. 512 (2021) 110556. Una versión pre-publicada del artículo puede encontrarse aquí. ↩
- En el artículo consideramos que podría haber más de dos síntomas o grados de síntomas (, para ), pero aquí, para simplificar la explicación, solo consideraremos las dos posibilidades mencionadas: presencia o ausencia de ellos. ↩
- Dembski, W.A., Marks, R.J., II, 2009. Bernoulli’s principle of insufficient reason and conservation of information in computer search. In: Proc. of the 2009 IEEE International Conference on Systems, Man, and Cybernetics. San Antonio, TX. pp. 2647–2652. ↩
- Jaynes, E.T., 1957. Information theory and statistical mechanics. Phys. Rev. 106 (4), 620–630. Véase también Díaz-Pachón, D.A., Marks II., R.J., 2020. Generalized Active Information: Extensions to Unbounded Domains. BIO-Complexity 2020 (3), 1–6. ↩
- Poletti, P., Tirani, M., Cereda, D., Trentini, F., Guzzetta, G., Sabatino, G., Marziano, V., Castrofino, A., Grosso, F., del Castillo, G., Piccarreta, R., ATS Lombardy COVID-19 Task Force, A. Andreassi, A. Melegaro, M. Gramegna, M. Ajelli, and S. Merler., 2020. Probability of symptoms and critical disease after SARS-CoV-2 infection. Pre-impresión.↩
Debe estar conectado para enviar un comentario.