Una corrección simple para el sesgo muestral en COVID-19

Cuando comenzó la pandemia tuvimos largas conversaciones con mi mentor, J. Sunil Rao, acerca de la situación. Las conversaciones fueron interesantes y enriquecedoras por la diferencia de opiniones y porque solemos oírnos el uno al otro con mucho respeto. El caso es que decidimos hacer algo en vez de quedarnos solo discutiendo.

Hay un tema que me ha interesado por años y es el de los sesgos en las publicaciones científicas. De hecho, una de mis publicaciones favoritas es la de John Ioannidis llamada ¿Por qué la mayoría de resultados de investigación publicados son falsos?1 Es uno de los artículos científicos más citados de la historia y va en contra de la mayoría de los otros artículos científicos, así que el contraste es, por decir lo menos, interesante.

Uniendo estos dos asuntos, COVID-19 y sesgo en publicaciones académicas, a Sunil se le ocurrió que podríamos utilizar un resultado reciente de Isaiah Andrews y Maximilian Kasy sobre cómo corregir el sesgo en las publicaciones científicas para corregir también el sesgo en la detección de COVID-19.2 El resultado fue un artículo bastante esclarecedor publicado en el Journal of Theoretical Biology, con una corrección al sesgo en el muestreo de COVID-19 que resultó siendo muy fácil de implementar.3 El resumen del artículo, traducido al español, dice lo siguiente:

Las pruebas de COVID-19 se han convertido en la forma habitual de estimar la prevalencia, cosa que luego pasa a influir en la toma de decisiones en salud pública para contener y mitigar la propagación de la enfermedad. Los diseños muestrales usados suelen estar sesgados porque no reflejan la realidad de la población. Por ejemplo, es más probable que individuos con síntomas fuertes reciban la prueba en comparación con individuos con individuos que no presenten síntomas. Esta situación resulta en estimaciones sesgadas de prevalencia (demasiado altas). Las correcciones posteriores al muestreo no siempre son posibles. Presentamos aquí una metodología sencilla para la corrección del sesgo, derivada y adaptada de una corrección para sesgo en publicaciones en estudios de meta-análisis. La metodología es lo suficientemente general para permitir una amplia variedad de modificación que la haga más útil en la práctica. La implementación es fácilmente realizable utilizando tan solo la información ya recolectada. Por medio de un ejemplo y de dos bases de datos reales mostramos que las correcciones al sesgo pueden aportar reducciones dramáticas en el error de estimación.

La idea del artículo es sencilla: dada la emergencia, las pruebas de COVID-19 se han hecho principalmente a personas que al menos sospechan que pudieran haber tenido la enfermedad y estas pruebas se han tomado como una muestra a partir de la cual se está infiriendo la prevalencia. Por lo tanto, la prevalencia está altamente sobreestimada. Esto hace necesaria una corrección.

El modelo

Lo que sigue es intenso en notación matemática, aunque los conceptos son bastante sencillos. Como puede ser de provecho para cierta parte del análisis de la situación actual, voy a presentar los resultados más importantes aquí.

Considérese una población P de tamaño N. P puede dividirse en 4 subconjuntos de la siguiente manera:

  • el subconjunto de individuos asintomáticos no infectados,
  • el subconjunto de individuos asintomáticos infectados,
  • el subconjunto de individuos sintomáticos no infectados y
  • el subconjunto de individuos sintomáticos infectados.

Llamaremos \mathcal P a esta partición de la población. Cada uno de estos subconjuntos tendrá proporciones dadas por el vector \mathbf p^* = \left( p_1^{(0)}, p_1^{(1)}, p_2^{(0)}, p_2^{(1)} \right), cuyas componentes corresponden respectivamente a los cuatro subconjuntos mencionados de la partición \mathcal P, y satisfacen que p_1^{(0)} + p_1^{(1)} + p_2^{(0)} + p_2^{(1)} = 1.

Definimos también una variable aleatoria S^* que tomará valores en el conjunto de índices \mathbf I := \left\{1^{(0)}, 1^{(1)}, 2^{(0)}, 2^{(1)} \right\}, y que, condicionada a \mathbf p^*, seleccionará un elemento de la partición \mathcal P de acuerdo a una distribución categórica en el intervalo (0,1) cuya densidad es:

f_{S^*} \left(s^{(i)} \mid \mathbf p^* \right) = p_s^{(i)}. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{(*)}

Así las cosas, el subíndice s \in \{1,2\} representa la sintomatología: s=1 indica presencia de síntomas, y s = 2, ausencia de síntomas; y el superíndice i \in \{0,1\} alude a la prevalencia: i = 1 se refiere al grupo de los infectados, e i=0, al de los no infectados.4 Con un pequeño abuso de terminología, nos referiremos a los elementos de \mathbf I como categorías o como subconjuntos de la partición \mathcal P.

Bajo esta notación, la proporción de individuos con sintomatología s está dada por

p_s = p_s^{(0)} + p_s^{(1)}. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{(1)}

Y la proporción de prevalencia, está dada por

p_1^{(1)} + p_2^{(1)} \ \ \ \ \ \ \ \ \ \          ,

luego la proporción de no infectados es 1 - p_1^{(1)} - p_2^{(1)}. Note también que p_s^{(1)}/p_s representa la probabilidad condicional de estar infectado dado que estemos considerando la categoría s de síntomas.

Ahora introducimos una variable aleatoria T que tomará el valor 1 con probabilidad p(S^*) o el valor 0 con probabilidad 1 - p(S^*). Consideraremos una sucesión de variables aleatorias independientes T_1,\ldots, T_N con la misma distribución de T. Observe que el subíndice de esta sucesión apunta a que estamos considerando cada uno de los individuos de la población. Así, si el individuo j pertenece al grupo s^*, entonces T_j=1, que ocurre con probabildad p(s^*), nos dirá que el individuo j fue probado para COVID-19 (o lo que es lo mismo, seleccionado para la muestra).  De esta manera, el tamaño de la muestra estará dado por N_T = \sum_{j=1}^N T_j.  

En resumen, para m \in \{1,2\} tenemos las siguientes cantidades definidas:

  • p(m) es la probabilidad de estar en la categoría m y tener una prueba de COVID-19.
  • p(m^{(1)}) es la probabilidad de que un individuo infectado en la categoría m reciba una prueba de COVID-19.
  • p_m^{(1)}/p_m es la probabilidad condicional de estar infectado dado m.
  • p_m es la proporción real de personas con sintomatología m.

Además, tenemos los siguientes órdenes:

p(1) \leq p(2), \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  \text{(2)}

p \left(1^{(1)} \right)  \leq p \left(2^{(1)} \right), \ \ \ \ \ \ \ \ \ \text{(3)}

\frac{p_1^{(1)}}{p_1} \leq \frac{p_2^{(1)}}{p_2}, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \  \text{(4)}

p_1 \geq p_2. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \text{(5)}

La intuición detrás de tales órdenes es que los individuos sintomáticos tienen mayor probabilidad de recibir la prueba que los asintomáticos (2), mayor probabilidad de hacer la prueba a individuos contagiados que los asintomáticos (3), mayor probabilidad condicional de estar infectados dentro de su grupo de sintomáticos que los asintomáticos (4) y son un grupo más pequeño que el de los asintomáticos (5).

Note que en (*) solo dimos la distribución categórica poblacional (S^* \mid \mathbf p^*). Su contraparte muestral es la distribución condicional  (S^* \mid \mathbf p^*, T = 1) y que por simplicidad notaremos sencillamente (S \mid \mathbf p). La densidad de esta distribución muestral es entonces:

f_{S | \mathbf p}(s | \vec p) = f_{S^*| \mathbf p^*, T}\left(s | \vec p, 1\right) =  \frac{P\left[ T=1 | S^* = s, \mathbf p^* = \vec p \right]}{P\left[ T=1 | \mathbf p^* = \vec p \right]} f_{S^*|\mathbf p^*}\left( s |\vec p \right),

donde la primera igualdad no es más que convención de notación y la segunda se obtiene a partir del teorema de Bayes. Observe que el numerador del cociente en la última igualdad, P\left[ T=1 | S^* = s, \mathbf p^* = \vec p \right], es precisamente por definición p(s); y como T es una variable aleatoria Bernoulli, el denominador es el valor esperado E[p(S^*) | \textbf p^* = \vec p]. Finalmente, por (*), f_{S^*|\mathbf p^*}\left( s |\vec p \right) = p_s. Por lo tanto obtenemos:

f_{S | \mathbf p}(s | \vec p) = \frac{p (s)}{E[p(S^*) | \textbf p^* = \vec p]} p_s. \ \ \ \ \ \ \ \ \ \ \ \ \ \text{(6)}

Suponiendo que no hay error en las pruebas (ausencia de falsos positivos y negativos), sabemos la cantidad exacta de personas infectadas en la muestra. Incluso, bajo un procedimiento similar al anterior, podemos saber a qué categoría pertenecen. Por lo tanto, para s igual a 1 ó 2,

f_{S| \textbf p} \left( s^{(1)}| \vec p \right) =  \frac{p \left(s^{(1)} \right)}{E[p(S^*) | \textbf p^* = \vec p]} p_s^{(1)}. \ \ \ \ \ \ \ \ \ \ \ \ \text{(7)}

Si (6) y (7) fueran estimadores insesgados, serían respectivamente p_s y p_s^{(1)}. Es decir, el cociente que multiplica a cada uno de los términos a la derecha de las ecuaciones (6) y (7) es el sesgo que contiene la muestra. En otras palabras, con (6) obtenemos el estimador sesgado de la cantidad de personas que se han realizado la prueba; y con (7), el estimador sesgado de la proporción de prevalencia para cada s. Entonces el estimador total sesgado de individuos que recibieron la prueba es

 \frac{p (1)}{E[p(S^*) | \textbf p^* = \vec p]} p_1 +  \frac{p (2)}{E[p(S^*) | \textbf p^* = \vec p]} p_2, \ \ \ \ \ \ \ \ \ \ \text{(8)}

y el estimador total sesgado de prevalencia es

\frac{p \left(1^{(1)} \right)}{E[p(S^*) | \textbf p^* = \vec p]} p_1^{(1)} + \frac{p \left(2^{(1)} \right)}{E[p(S^*) | \textbf p^* = \vec p]} p_2^{(1)}. \ \ \ \ \ \ \ \ \text{(9)}

Corrección del sesgo

Definidas las cosas de esta manera, corregir el sesgo en las ecuaciones (6) y (7) se vuelve bastante sencillo: lo único que debe hacerse es multiplicar el lado derecho de cada una de estas ecuaciones por el inverso del cociente que aparece en ellas. Específicamente, la corrección del sesgo estaría dada por C(x) f_{S | \textbf p}(x | \vec p), donde

C(x) = \frac{P\left[ T=1 | \textbf p^* = \vec p \right]}{p(x)} \ \ \ \ \ \ \ \ \ \ \ \text{(10)}.

Así, si por ejemplo remplazamos x por s, obtendremos la corrección del sesgo para el total de pruebas; y si lo remplazamos por s^{(1)}, obtendremos la corrección para la prevalencia para cada uno de los dos grupos de sintomatología. Por lo tanto, el total corregido de prevalencia está dado por

\frac{P\left[ T=1 \mid \mathbf p^* = \vec p \right]}{p\left(1^{(1)}\right)} f_{S \mid \mathbf p}\left(1^{(1)} \mid \vec p \right) + \frac{P\left[ T=1 \mid \mathbf p^* = \vec p \right]}{p\left(2^{(1)}\right)}f_{S \mid \mathbf p}\left(2^{(1)} | \vec p\right).

El numerador a la derecha de la ecuación (10) puede estimarse fácilmente como N_T/N, donde N_T es el tamaño de la muestra y N es el total de la población. Sin embargo, el denominador es un poco más complejo porque no tenemos suficiente información. ¿Cómo estimarlo?

Como ya aprendimos que la proporción de individuos muestreados es N_T/N y también sabemos que la mayoría de personas a quienes se le realiza la prueba son sintomáticas, dada la urgencia de la situación. Por lo tanto, \tilde p_2 = (N_T/N)  f_{S \mid \textbf p}(2 \mid \vec p) es un buen estimador de la proporción real de sintomáticos s=2. Adicionalmente, como la mayoría de personas sintomáticas tienen el virus, y la mayoría de ellos recibieron la prueba, tenemos que \tilde p_2^{(1)} \approx \tilde p_2.

Trivialmente se obtiene entonces que la proporción corregida de asintomáticos es \tilde p_1 = 1 - \tilde p_2. Sin embargo, tenemos muy poca información de la prevalencia entre los asintomáticos. Así que la mejor forma de estimarla es utilizar el llamado principio de la razón insuficiente de Bernoulli.5 Según este principio, en ausencia de conocimiento que nos condujera a hacerlo de otra forma, es necesario asignar probabilidades iguales a los eventos. El principio de la razón insuficiente solo es un caso particular del principio de máxima entropía de Jaynes, según el cual «sobre la base de información parcial, debemos utilizar la distribución de máxima entropía, sujeta al conocimiento que tengamos. Esta es la única asignación insesgada que podemos hacer».6

¿Qué significa lo anterior para nuestro análisis? Que en ausencia de mejor conocimiento, lo mejor que podemos hacer es generar un número aleatorio u conforme a una distribución uniforme en el intervalo (0,1). Ahora, si tenemos alguna información sobre los asintomáticos con la enfermedad en la muestra sesgada, entonces podemos hacer u la proporción de la prevalencia dentro de esta categoría particular dada por la muestra sesgada: u = f_{S| \textbf p} \left( 1^{(1)}| \vec p \right) /f_{S | \textbf p}(1 | \vec p).

En cualquiera de los dos casos anteriores, la estimación de prevalencia entre asintomáticos estará dada por \tilde p_1^{(1)} = u\tilde p_1.

En resumen, para nuestro caso con solo las dos categorías de asintomáticos, s=1, y de sintomáticos, s=2, la corrección en el estimador queda dada de la siguiente forma:

  • Sintomáticos: \tilde p_2 = (N_T/N)  f_{S | \textbf p}(2 | \vec p).
  • Asintomáticos: \tilde p_1 = 1 - \tilde p_2.
  • Sintomáticos con el virus: \tilde p_2^{(1)} \approx \tilde p_2.
  • Asintomáticos con el virus: \tilde p_1^{(1)} = u\tilde p_1.

Ejemplo

El ejemplo a continuación ilustrará cómo funciona en la práctica el modelo bajo cuatro diferentes protocolos de muestreo. El ejemplo proviene de un artículo de Poletti et al con datos reales tomados de Lombardía, Italia, que fue uno de los grandes focos de la enfermedad en la primera oleada.7

En una muestra de 5824 individuos se identificaron 932 infectados con pruebas de PCR. Además de estos, se identificaron 1892 infecciones con ensayos serológicos. Es decir, el total de individuos infectados fue 2824. Dentro del total de infectados, 876 eran sintomáticos (31\%). Puesto que desde nuestra perspectiva solo nos interesa la detección por PCR, no contaremos las detecciones por ensayos serológicos. Sin embargo, sí usaremos el hecho de que 31\% de los casos fueron sintomáticos, asumiendo que el mismo porcentaje se mantiene para los 932 infectados detectados por PCR. Es decir, en nuestro caso la prevalencia verdadera es 932 / 5824 = 0.16; y entre los infectados, 0.31(932) = 289 serán sintomáticos. Los restantes 932 - 289 = 643 serán infectados asintomáticos.

Protocolo de muestreo 1. La muestra está compuesta por 289 individuos infectados y sintomáticos. En este caso, el estimador sesgado de prevalencia es 1. El estimador corregido será \tilde p_2 = (N_T/N)1 = 289/5824 \approx 0.05. Y esta será también la corrección para  \tilde p_2^{(1)}. Entonces \tilde p_1 = 1 - \tilde p_2 = 0.95 y, tomando la media de u obtenemos \tilde p_1^{(1)} = 0.5(0.95) = 0.475. Por lo tanto, la corrección de prevalencia total es \tilde p_1^{(1)} + \tilde p_2^{(1)} = 0.475 + 0.05 = 0.525, que sigue siendo alta pero corrige grandemente los efectos de una muestra demasiado mala.

Protocolo de muestro 2. La muestra está compuesta por 384 individuos. Entre estos,  289 (75\%) son infectados sintomáticos, y 95 (25\%) son asintomáticos. Suponemos además que la muestra tiene 95(643/5824) \approx 10 asintomáticos positivos para el virus. De manera que el estimador sesgado de prevalencia es (289  + 10)/384 \approx 0.78. En este caso, \tilde p_2^{(1)} = \tilde p_2 = (384/5824)0.75 \approx 0.049. Ahora, \tilde p_1 = 1 - \tilde p_2 = 0.951 y tomando u como  10/95 \approx 0.105, obtenemos que p_1^{(1)} = 0.105(0.951) \approx 0.1. Por lo tanto, la prevalencia total corregida es  0.1 +0.049 = 0.149, que resulta bastante cercana a la real 0.16.

Protocolo de muestreo 3. En este escenario tenemos 289 sintomáticos y 289 asintomáticos. Suponemos que la muestra tiene 289(643/5824) \approx 32 individuos infectados y asintomáticos. El estimador sesgado es (289 + 32)/578 \approx 0.55. Sin embargo, \tilde p_2^{(1)} = \tilde p_2 = (578/5824)0.5 \approx 0.05 y \tilde p_1 = 0.95. En este caso,  \tilde p_1^{(1)} = (32/289)0.95 \approx 0.105, donde u = 32/289. Por lo tanto, el estimador corregido de prevalencia es 0.105 + 0.05 = 0.11.

Protocolo de muestro 4. Esta es una muestra verdaderamente aleatoria, es decir, como debería ser una muestra ideal. Digamos que  N_T = 600. Entre estos, 600(289/5824) \approx 30 son sintomáticos y positivos. Por lo tanto, 570 son asintomáticos. Dentro del grupo de asintomáticos, supondremos que 600(643/5824) \approx 66 están infectados. El estimador sesgado es entonces (66+30)/600 = 0.16 que, por supuesto, corresponde a la prevalencia real. En este caso, la corrección funcionará de la siguiente manera: p_2^{(1)} = p_2 = (600/5824)0.95 \approx 0.098. Entonces \tilde p_1 = 1- \tilde p_2 = 0.902 y p_1^{(1)} = (66/570)(0.902) \approx 0.1044. Por lo tanto, la prevalencia total estimada será 0.1044 + 0.098 = 0.2024. Es decir que la corrección no es mala pero, por razones obvias, no funciona tan bien como la muestra aleatoria.

Notas

  1. Ioannidis J. Why Most Published Research Findings Are False. PLoS Med. 2005 Aug; 2(8): e124.
  2. Andrews, I., Kasy, M., 2019. Identification of and correction for publication bias. Am. Econ. Rev. 109 (8), 2766–2794.
  3. Díaz-Pachón D.A., Rao J.S. A simple correction for COVID-19 sampling bias. J. Theor. Biol. 512 (2021) 110556. Una versión pre-publicada del artículo puede encontrarse aquí.
  4. En el artículo consideramos que podría haber más de dos síntomas o grados de síntomas (s =\{1, \ldots, M\}, para M \geq 2), pero aquí, para simplificar la explicación, solo consideraremos las dos posibilidades mencionadas: presencia o ausencia de ellos.
  5. Dembski, W.A., Marks, R.J., II, 2009. Bernoulli’s principle of insufficient reason and conservation of information in computer search. In: Proc. of the 2009 IEEE International Conference on Systems, Man, and Cybernetics. San Antonio, TX. pp. 2647–2652.
  6. Jaynes, E.T., 1957. Information theory and statistical mechanics. Phys. Rev. 106 (4), 620–630. Véase también Díaz-Pachón, D.A., Marks II., R.J., 2020. Generalized Active Information: Extensions to Unbounded Domains. BIO-Complexity 2020 (3), 1–6.
  7. Poletti, P., Tirani, M., Cereda, D., Trentini, F., Guzzetta, G., Sabatino, G., Marziano, V., Castrofino, A., Grosso, F., del Castillo, G., Piccarreta, R., ATS Lombardy COVID-19 Task Force, A. Andreassi, A. Melegaro, M. Gramegna, M. Ajelli, and S. Merler., 2020. Probability of symptoms and critical disease after SARS-CoV-2 infection. Pre-impresión.

Aleatoriedad en matemáticas

Este es un escrito sobre matemáticas sin una sola ecuación. Se siente raro. Es una idea sencilla que me viene dando vueltas ya hace tiempos y hoy mientras estudiaba volvió a mi cabeza:

No hay nada en la teoría formal (es decir, la teoría de integración o teoría de la medida) que trate la aleatoriedad como una entidad abstracta separada de otras. Menos aún en tratamientos menos rigurosos como los de los primeros cursos de pregrado en probabilidad.

Formalmente, una variable aleatoria es tan solo una función medible, la probabilidad es solo una medida finita, la esperanza de una variable aleatoria (finita o no) es la medida de una función medible (en un espacio que se llama L1) y la varianza «es» la medida del cuadrado de una función medible (que vive en un espacio llamado L2).

La aleatoriedad que le asociamos no está en la matemática, sino en nuestra imaginación. La situación es tan clara que prácticamente todos los nombres de conceptos importantes en probabilidad, tienen un transfondo físico. Ejemplos: medida, momento, centro de masa, densidad, ley, equilibrio, etcétera).

No quiero decir con esto que la aleatoriedad no exista (y menos que el azar no exista). Esa es harina de otro costal. Lo que quiero decir es que a la matemática le da la misma si lo que se mide es azar, volumen, distancia, riqueza o lo que se nos ocurra. La presencia o ausencia de estocasticidad en la teoría está en nuestra mente, no en la matemática. Y eso sí me parece muy interesante.

Versiones no indistinguibles de procesos estocásticos

Esta entrada tiene por objeto mostrar un contraejemplo de dos procesos estocásticos tales que uno es versión del otro, pero no son indistinguibles. La mayoría de elementos de esta entrada se encuentran en el libro de Flemming y Harrington, Counting Processes and Survival Analysis (Wiley, 2005, pp. 16, 326-327).

Cuando definimos un proceso estocástico como en la entrada anterior y \Gamma=\mathbb R^+, se dice que la variable está indexada en el tiempo, y se define un camino aleatorio como la función X(\cdot,\omega):\mathbb R^+\rightarrow\mathbb R. Es decir, para cada elemento \omega\in\Omega, vemos cómo se comporta el proceso a medida que el tiempo va avanzando. Toda propiedad que adjudiquemos al proceso estocástico X, en realidad es una propiedad en un conjunto A\subset\Omega tal que A tiene probabilidad 1.

Ahora, dos variables aleatorias X,Y se dicen equivalentes si \textbf P[X\neq Y]=0, donde el evento \{X\neq Y\} está definido como

\{\omega\in\Omega: X(\omega)\neq Y(\omega)\}.

Quiere esto decir que las variables aleatorias son equivalentes si difieren a lo más en un conjunto de probabilidad nula.

Decimos que el proceso X es una versión del proceso Y si

\forall t\in\mathbb R^+,\ \ \textbf P[\omega\in\Omega:X_t(\omega)\neq Y_t(\omega)]=0,

es decir, el proceso X es una versión de Y si, dado un tiempo t\in\Gamma, se tiene que X_t y Y_t son variables aleatorias equivalentes.

Es posible imponer una restricción más fuerte: Decimos que dos procesos X, Y son indistinguibles si

\textbf P[\omega\in\Omega:\forall t\in\mathbb R^+, X_t(\omega)\neq Y_t(\omega)]=0,

es decir, los procesos son indistinguibles cuando los caminos aleatorios son iguales casi ciertamente (con probabilidad 1).

La diferencia entre versiones de procesos y procesos indistinguibles radica en que en el primer caso el cuantificador se encuentra fuera de la probabilidad, mientras que en el segundo caso es parte del evento de interés. Más aún, es claro que si los procesos X, Y son indistinguibles, entonces uno es una versión del otro. Sin embargo, es menos claro que si X, Y son versiones el uno del otro, entonces los dos procesos son indistinguibles. De hecho, no es cierto en general y se requiere la condición adicional de que los dos procesos sean continuos por derecha o los dos sean continuos por izquierda:

Teorema: Sean dos procesos X, Y ambos continuos por derecha. Se tiene que si X es versión de Y, entonces X, Y son procesos indistinguibles.

Demostración: Considérese \mathbb Q, el conjunto de los racionales. Para cada q\in\mathbb Q, tenemos que

\textbf P[\omega\in\Omega:X_q(\omega)\neq Y_q(\omega)]=0.

Si definimos N\subset\Omega como

N=\bigcup_{q\in\mathbb Q}\{\omega\in\Omega: X_q(\omega)\neq Y_q(\omega)\},

entonces \textbf P[N]=0. Considérense los caminos aleatorios de \omega en X y en Y. Como los dos procesos son continuos por derecha, para todo t\in\mathbb R^+, existe una sucesión de racionales \{q_n\} que decrece a t. De modo que, por la continuidad por derecha,

X_t(\omega)=\lim_{n\rightarrow\infty}X_{q_n}(\omega)=\lim_{n\rightarrow\infty}Y_{q_n}(\omega)=Y_t(\omega).

El teorema anterior también se cumple si la condición de continuidad por derecha se remplaza por la de continuidad por izquierda y su demostración es análoga. Dado el resultado, surge entonces el interés por un contraejemplo: ¿cuándo un par de procesos estocásticos X,Y son versiones el uno del otro pero no son indistinguibles? A continuación construimos dicho contraejemplo:

Ejemplo: Sea \Omega=[0,1], \mathcal B los conjuntos de Borel de \Omega y \textbf P la medida de Lebesgue en dicho espacio muestral. Definimos el proceso Y=\{Y_t(\omega):t\in[0,\infty)\} de la siguiente manera:

Y_t(\omega)=1      si t-\lfloor t\rfloor=\omega,

Y_t(\omega)=0      en otro caso,

donde \lfloor t\rfloor es la parte entera de t.   Entonces puede verse que para un \omega dado, el camino Y_t(\omega) tiene discontinuidades contables. Sin embargo, para t fijo, casi todos los caminos Y_t(\omega) son continuos en t, pues Y es continuo para todo \omega\neq\omega_t=t-\lfloor t\rfloor.

Si ahora definimos el proceso cero X_t=0, para todo t y todo \omega, entonces para todo t fijo tenemos que \textbf P[\omega\in\Omega:X_t(\omega)=Y_t(\omega)]=1, pero la probabilidad del conjunto en el que los caminos coinciden es cero.

Variables aleatorias, elementos aleatorios y procesos estocásticos

En términos simples, una variable aleatoria X es una función que va del espacio muestral \Omega a los reales \mathbb R; es decir, X:\Omega\rightarrow\mathbb R. Sin embargo, esta definición carece de ciertos atributos importantes y se requiere una formulación más precisa.

Supongamos entonces un espacio de probabilidad (\Omega,\mathcal F,\textbf P). Un elemento aleatorio en un espacio medible (E,\mathcal E) es una función medible Z que va del espacio de probabilidad al espacio medible:

\{Z\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal E,

donde

\{Z\in A\}:= \{\omega\in\Omega: Z(\omega)\in A\}=:Z^{-1}A.

Así las cosas, una variable aleatoria W es simplemente un caso particular de un elemento aleatorio en el que el conjunto de llegada son los reales \mathbb R (dotados con la \sigma-álgebra de Borel \mathcal B). Es decir,

\{W\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal B.

Ahora, un proceso estocástico en los reales es una familia de variables aleatorias X=\{X_t:t\in\Gamma\}, indexadas en el conjunto \Gamma, donde cada X_t está definida en el mismo espacio de probabilidad (\Omega,\mathcal F,\textbf P). Algunos ejemplos caen bien:

  1. Una variable aleatoria es un caso particular de un proceso estocástico, tal vez el más sencillo, en el que \Gamma está compuesto por un único elemento, digamos \Gamma=\{1\}.
  2. Un véctor aleatorio (X_1,\ldots,X_k) también es un proceso estocástico en el cual \Gamma=\{1,\ldots,k\}.
  3. Si \Gamma=\mathbb N, entonces X es sencillamente una sucesión (infinita) de variables aleatorias.
  4. Si \Gamma=R, entonces X es un proceso estocástico continuo en el tiempo, como es el caso del movimiento browniano (cuya descripción matemática es obra de Einstein en el primero de sus tres grandes artículos en 1905).
  5. Si \Gamma=\mathbb Z^d, entonces X es un campo aleatorio discreto.

Otros ejemplos adicionales pueden encontrarse en las notas del curso de procesos estocásticos de Cosma Shalizi. Nótese que los tres primeros casos son comunes en la práctica de la probabilidad y la estadística desde etapas tempranas. Las variables aleatorias son el objeto básico de estudio de la probabilidad, los vectores aleatorios (sucesiones finitas) son comunes en la inferencia estadística y las propiedades asintóticas se construyen con sucesiones infinitas de variables aleatorias.

Vida antes de la Tierra

Vía Max Andrews supe de este preprint en el arXiv que me pareció interesantísimo: Life Before Earth. Más allá de los nombres y credenciales que aparecen en el texto, Alexei Sharov y Richard Gordon, no tengo ni idea quiénes son los autores. El artículo llama inmediatamente la atención porque dice que la vida debió originarse hace más o menos 9700 millones de años en las cuentas más alegres (suponiendo que la complejidad genética es solo exponencial); es decir, alrededor de 2 veces la edad de la Tierra.  Pero que si se tiene en cuenta la existencia de efectos potenciales hiperexponenciales, el origen podría ir más para atrás en el tiempo hasta hace 13750 millones de años, es decir, hace aproximadamente 3 veces la edad de la Tierra y prácticamente en el inicio de la Vía Láctea.

El artículo no es tanto sobre cómo se originó la vida, sino sobre una regresión lineal en escala logarítmica al pasado. Es decir, a partir de la complejidad presente retrocede en el tiempo para ver cuándo se dio el origen de la vida.

Sugiere que la vida puede haber comenzado con elementos heredables únicos que serían funcionalmente equivalentes a un nucleótido y que, eliminando redundancias en la funcionalidad de los nucleótidos, se espera que la complejidad genética haya incrementado exponencialmente desde su inicio hasta ahora (¡una suposición fuertísima la del crecimiento exponencial!). Atribuye semejante velocidad de crecimiento a 3 factores principalmente: (1) Cooperación genética, (2) duplicación genética con su consiguiente especialización y (3) surgimiento de nichos funcionales nuevos asociados con los genes existentes.

Dentro de las implicaciones que tiene tan antigua fecha para el origen de la vida, mencionan los autores las siguientes:

(1) Que desde la formación de algún par de bases genéticas (AT o CG) hasta el surgimiento de la primera bacteria pasaron 5000 millones de años.

(2) Que el ambiente en el cual la vida llegó a desarrollarse hasta un estado procariota (como las bacterias) pudo haber sido muy diferente al supuesto en la Tierra.

(3) Que no había vida inteligente en el universo antes de que apareciera en la Tierra, lo cual echa por el piso cualquier hipótesis de panspermia dirigida por extraterrestres, como la de Francis Crick.

(4) Que, obviamente, hubo panspermia.

(5) Que replicar experimentalmente el origen de la vida quizás necesite emular muchos eventos raros acumulados.

(6) Que la famosa ecuación de Drake para adivinar la cantidad de civilizaciones en el universo probablemente está errada (por el punto 3).

Contrario a Ray Kurzweil y su tesis de las máquinas espirituales, dice el artículo que no estamos llegando al punto de una «singularidad tecnológica». Es decir, el punto en que las máquinas se reproduzcan solas y remplacen a los seres humanos. Más bien, pasará que la tecnología se usará para producir cada vez más «mejoras» en los humanos, como incrementar la inteligencia y la memoria, o hacer una especie de nube de almacenamiento con los cerebros de todos o varias personas. Sin embargo, dice que la complejidad funcional de la civilización humana también crece exponencialmente y se dobla más o menos cada 20 años. Reconoce que es difícil mejorar ese tiempo de 20 años por situaciones como el decrecimiento de la población en los países desarrollados, incremento del desempleo, problemas ambientales no resueltos y las amenazas de guerra, entre otros.

El artículo concluye con un llamado a mirar el asunto desde la «disciplina creciente de la biosemiótica, en la cual los organismos se consideran ‘agentes’ activos». Significa esto que no solo debe considerarse la información à la Shannon, sino que debe considerarse el contenido semántico de esa información (digamos, un subconjunto mucho más reducido y específico de la información de Shannon. Lo cual me recuerda la razón por la que Kolmogorov inventó la teoría de recursión: porque la sola improbabilidad de los eventos que pueden ocurrir con un alfabeto no le permitía diferenciar si algunos de ellos poseían contenido semántico). Por eso hace un llamado a considerar de nuevo en la ciencia los objetivos y los significados. O sea, considerar la existencia de teleología, una posición que poca recepción tiene desde el neodarwinismo porque resultaría contradictoria a este, pero que está siendo requerida a gritos por la ciencia en este momento, a mi juicio, porque es innegable en que el contenido semántico de la información genética están presentes  los «objetivos y significados» necesarios para la realización de los procesos biológicos. Por es cierra diciendo que debe considerarse la evolución desde esta nueva perspectiva de información con significado.

Un artículo muy estimulante y altamente provocador.

Variables aleatorias uniformes en bolas abiertas en el infinito

El siguiente es el Lema 3 en un viejo artículo de Mathew Penrose que estoy estudiando.

Suponga que \textbf X(d) y \textbf Y(d) son variables aleatorias independientes y uniformemente distribuidas en la bola B(0,1) en d dimensiones. Entonces

1.

\lim_{d\rightarrow\infty}\textbf P[|\textbf X(d)|>3/4]=1

2.

\lim_{d\rightarrow\infty}(\sup {\textbf P[|\textbf X(d)-x|\leq1]:x\in\mathbb R^d,|x|\geq 3/4})=0

3.

\lim_{d\rightarrow\infty}\textbf P[|\textbf X(d)-\textbf Y(d)|\leq1]=0.

Prueba:

El número 1 es trivial, pero demostrémoslo aquí en aras de hacer el ejercicio completo:

\textbf P[|\textbf X(d)|>3/4]=1-\textbf P[|\textbf X(d)|\leq3/4]

=1-\frac{\pi_d(3/4)^d}{\pi_d}

=1-(3/4)^d

que tiende a 1 cuando d\rightarrow\infty . Aquí \pi_d es el volumen de la bola de radio 1 en d dimensiones.

Para demostrar el número 2, nótese que

|\textbf X(d)-x|^2=|x|^2+|\textbf X(d)|^2-2|\textbf X(d)\cdot x| .

Por la parte 1, es suficiente probar que |\textbf X(d)\cdot x| converge a 0 en probabilidad y uniformemente en \{x:3/4\leq |x|\leq 2\}. Escríbase \textbf X(d) en coordenadas, como (X^1(d), X^2(d),\ldots,X^d(d)) y x=\{x^1,\ldots,x^d\}. Por simetría (la bola unitaria es igual en todas las direcciones), puede suponerse que x es colineal a e_1=\{1,0,\ldots,0\}, luego \textbf X(d)\cdot x tiene la misma distribución que X^1(d)x^1 y por lo tanto también la misma distribución que |x|X^1(d). De nuevo, por simetría, las componentes de \textbf X(d) tienen todas la misma distribución (así no sean independientes unas de otras); así que, usando el hecho de que la suma de los cuadrados de las componentes es 1, obtenemos que \textbf E[|X^1(d)|^2]\leq 1/d , de modo que X^1(d) converge a 0 en L^2  y, por lo tanto, también en probabilidad.

El número 3 es consecuencia directa del número 1 y el número 2.

LaTeX en gmail y en chat de gmail

Gracias a mi amigo Juan Pablo Sáenz, supe de este post en el que mencionan un par de plug-ins para gmail que hacen mucho más agradable la vida de quienes solemos enviar ecuaciones en los correos electrónicos o quisiéramos añadirlas en el chat de gmail.

El primero y más fácil de usar es un script de Greasemonkey para Firefox llamado TexTheWorld. Tiene la ventaja de que funciona fácil tanto en el correo como en el chat. Otra gran ventaja es que aun si la contraparte no tiene el plug-in instalado, ella puede ver el texto compilado en \LaTeX mientras tenga HTML en el cliente del correo.

El segundo se llama GmailTex. Y debo decir que me pareció engorrosísimo ponerlo a funcionar porque, aparte del plug-in, pide instalar las fuentes usando un motor que se llama MathJax, al que después de instalado se le debe corregir una cosa por dentro para que compile el texto de \LaTeX. GmailTex tiene además un subscript para el chat de gmail y  otro subscript para páginas que contegan código \LaTeX mas no lo compilen (como arXiv)… pero yo no logré poner a andar ninguno de esos dos subscripts. En fin, dada la incomodidad y la dificultad de la instalación, la única ventaja que tiene este plug-in sobre el primero es que funciona para otros browsers diferentes a Firefox (aunque aún no para Safari, tristemente).

***

Esta entrada me hace entender cómo se han de sentir los profesores y padres cuando nos cuentan a las nuevas generaciones (me di por quinceañero yo) que a ellos les tocaba programar en tarjetas perforadas. En poco tiempo diré a mis estudiantes: «Por allá cuando yo hice mi doctorado, no se podía añadir ecuaciones de \LaTeX en el chat ni en los correos». Entonces mis estudiantes me devolverán una mirada perpleja y el más atrevido me dirá: «¿O sea que aparte de entender la matemática en un correo a usted le tocaba decifrar todo ese código fuente de \LaTeX? ¡Uy, profe, qué mamera!».

Matemáticos políticos

A raíz del coyuntural momento que vive Colombia, hace pocos días escribí en facebook y en twitter cuánto me alegraba que dos matemáticos, uno de ellos profesor del departamento de estadística de la Universidad Nacional de Colombia (donde yo estudié), puedieran llegar a ser presidente y vice-presidente del país, casi ciertamente esperaría yo. Me refiero, claro, a Antanas Mockus y Sergio Fajardo. Después de un interesante cruce de comentarios con mi colega y viejo amigo Ricardo Pachón, él me sugirió hacer una entrada en este blog con la información que conseguimos en unas búsquedas rápidas por google. Esta entrada es resultado de eso.

Me señaló Pachón a un presidente indio llamado Radhakrishnan (confieso que copié y pegué el nombre de wikipedia, a mi la dislexia digital no me daría para escribir eso sin equivocarme). Él en realidad no fue matemático. La anécdota está más bien por el lado de haberse cruzado con el gran Ramanujan alguna vez. El genio fue a pedir la bendición del presidente antes de irse a Cambridge a estudiar porque una diosa, decía Ramanujan, le había dicho en un sueño que así lo hiciera. Radhakrishnan fue un filósofo y profundo erudito en religiones comparadas, además del primer vice-presidente (1957-1962) y segundo presidente de la India  (1962-1967).

Luego la búsqueda me llevó a James Abraham Garfield, presidente número 20 de Estados Unidos. Quizás el dato más interesante sobre este gato (usted me perdonará la redundancia, yo no tengo la culpa de que así se llame) está en una demostración muy original que hizo del teorema de Pitágoras. Cuatro meses después de haber asumido el poder, alguien le disparó. Pero no se engañe, a él no lo mataron las balas. Lo mataron los médicos cochinos que lo atendieron: lntentaron extraerle la bala sin lavarse las manos, le infectaron la herida y por eso murió. El estudio forense mostró que la sola bala no habría podido matarlo.

Párrafo al margen. Una pregunta: ¿Alguien podría decirme si después de la revolución francesa ha habido algún país con más magnicidios presidenciales que Estados Unidos? Feo deporte ese de andar matando o intentando matar presidentes: rápidamente se me vienen a la cabeza Lincoln, Garfield, Kenneddy y casi Reagan; debe haber más pero no soy nada experto en historia gringa. No es que uno como colombiano tenga mucha autoridad moral, claro, pero en general en mi país los mataban era de candidatos, no de presidentes: Gaitán, Galán, Pizarro, Jaramillo Ossa y Gómez Hurtado (quien no era candidato cuando lo mataron pero ya lo había sido) se me vienen rápido a la mente. Feo deporte ese también, obvio.

Volviendo a los matemáticos presidentes, encontramos un enlace con varios nombres interesantes para destacar:

Corazón Aquino, presidente de Filipinas (1986-1992). Hizo un minor en matemáticas, fue la primera mujer elegida democráticamente en su país.

Alberto Fujimori, presidente de Perú (1990-2000), viejo conocido en América Latina. Estudió ingeniería agrícola en la Universidad Agraria La Molina, posteriormente estudió física en la Universidad de Estrasburgo (Francia) y finalmente hizo una maestría en matemáticas en la Universidad Wisconsin-Milwaukee. Sería interesante conocer en qué área profundizó pero la verdad no tengo idea. En cuanto a su política, si se ha de mencionar algo bueno, sería el casi exterminio de Sendero Luminoso, la guerrilla peruana (todavía recuerdo el día de la captura de Abimael Guzmán Reynoso… yo también tuve perubólica). Fujimori cayó en fuertes extremos dictatoriales como clausurar el Congreso del Perú y tuvo grandes líos de derechos humanos por los que hoy purga una condena en su país. Comenzó siendo un gran ejemplo de las luchas contra las guerrillas y llevó alguna prosperidad económica,  pero terminó hundido en escándalos de corrupción y de ejecuciones extrajudiciales. ¡No sea mal pensado, lector,  estamos hablando de matemáticos, no de abogados de más al norte!

Lee Hsien Loong, actual primer ministro de Singapur. Un tipo brillante con otro de esos nombres impronunciables. Estudió matemáticas en el afamadísimo Trinity College de la Universidad de Cambridge, donde se graduó con honores y con una profundización en ciencia computacional. Después hizo una maestría en administración pública en Harvard. Como dato curioso, el salario de Loong es el más alto entre todos los presidentes del mundo, llega casi a los US$3 millones.

Paul Painlevé, dos veces primer ministro de Francia (1917, 1925). Quizás el más productivo en términos matemáticos de todos los mencionados. Su investigación se dio en las ecuaciones diferenciales y hasta hay unas funciones con su nombre: los trascendentes de Painlevé, que recientemente se han usado en la mecánica estadística, sería interesante explorar esa parte. En la década de los veinte del siglo pasado, Painlevé comenzó a estudiar la nueva teoría de la relatividad general de Einstein. Propuso un sistema de coordenadas especial para la métrica de Schwarzschild. Se sabe que alguna vez en Berlín Painlevé se encontró con Einstein, allí hablaron sobre paz y políica internacional, pero no discutieron nada sobe matemáticas.

Éamon de Valera, presidente de Irlanda (1959-1973). Fue profesor de matemáticas antes de la independencia de Irlanda.

Además de estos presidentes, el enlace menciona a los siguientes matemáticos políticos en altos rangos:

George Saitoti, vice-presidente de Kenya (1989-1997, 1999-2002) y futuro candidato presidencial del mismo país, según él lo ha manifestado. Tiene un PhD en topología algebraica de la Universidad de Warwick en Inglaterra.

Simeon DeWitt, el primer graduado de matemáticas de Rutgers, fue asesor militar de George Washington.

Ralph Abernathy, la mano derecha de Martin Luther King Jr., se graduó matemático con honores de la Univesidad Estatal de Alabama.

William J. Perry, antiguo secretario de defensa de Estados Unidos, obtuvo su maestría en Stanford y su doctorado en matemáticas de la Universidad Estatal de Pennsylvania. Su orientador de tesis en la maestría fue el gran George Polya.

Seguramente hay más nombres, pero estos fueron los que encontré. Si usted sabe de más y quiere compartirlos deje su comentario, por favor.

Cómo generar una función del mismo orden y otros pensamientos sobre la revisión de pares

La academia tiene cosas curiosas. Por ejemplo uno de los tesoros guardados en más alta estima por la ciencia moderna es la identidad secreta de los pares que evalúan los artículos que los otras personas escriben. Lo de la identidad secreta puede hacerlos sonar a emocionantes súper héroes pero para los autores de artículos neófitos, como yo, sus comentarios suelen ser casi otro problema de investigación que ameritaría una tesis aparte. Mi comentario va a que, por más secreto que sea el proceso, dada la naturaleza de mi investigación, tengo un grupo bien cerrado de personas (tres) que, creo, pudieron ser los posibles referees de uno de mis papers.

No sé cómo tomarán las correcciones los autores senior de artículos científicos, pero en mi caso cada comentario de los referees en uno solo de mis papers es como si fuera una estocada y me alborota la gastritis. Al comienzo no fue así, creí que podía resolver sus cuatro correcciones principales fácilmente (las otras, que hubo más, eran de estilo y typos); pero con el correr de los días, al ver que no entiendo sus apreciaciones y cuando las entiendo no sé cómo solucionarlas, mi percepción se está convirtiendo rápidamente en que la corrección no es cosa sencilla. O tal vez sí y me estoy dejando abrumar.

La verdad a mí jamás se me habrían ocurrido esas correcciones que me hicieron así que de veras agradezco que me las hayan hecho evidentes. Pero duele un poco en el ego por varias razones que no mencionaré. Una amiga, quien tiende a ver las cosas siempre por el lado positivo, me planteó una idea diferente para solucionar parte de mi dilema interno de sentirme minúsculo: «Míralo por el otro lado —me dijo—: existen pocas personas en el mundo que pueden corregir lo que tú haces». Esa percepción es interesante porque me resuelve en mucho el golpe al ego (y lo acepto, ese me dolió bastante)… la cosa es que el ego arreglado no me soluciona el problema matemático, lo que necesito resolver para ver mi artículo publicado :-/.

En fin, con base en eso quiero aquí mostrar un argumento muy simple de dos funciones del mismo orden: Sean g(x)=\frac{x-1-\log x}{x} y f(x)=\frac{(x-1)^2}{2}. El referee dice que las dos funciones son del mismo orden cuando x\rightarrow1, cosa que es fácilmente verificable, como procederé a mostrar. Decir que las dos funciones son del mismo orden cerca de 1 es decir \lim_{x\rightarrow1}g(x)/f(x)=K, donde K es una constante diferente de 0. La razón es que si K se va para infinito en el límite entonces g crece más rápido que f y si K va para cero en el límite entonces f crece más rápido que g. Entonces, por definición de las dos funciones, tenemos que

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}\frac{2(x-1-\log x)}{x(x-1)^2}.

Ahora, llámeme superficial pero, como numerador y denominador van para 0 cuando x va para 1, la herramienta que yo uso para determinar este tipo de afirmaciones es la nunca bien ponderada pero siempre útil regla de L’Hopital, de la cual obtenemos:

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}g'(x)/f'(x)=\lim_{x\rightarrow1}\frac{2(1-1/x)}{(x-1)^2+2x(x-1)}.

Y esa última igualdad se puede re-escribir menos feo así:

\lim_{x\rightarrow1}\frac{2(x-1)}{x(x-1)^2+2x^2(x-1)}.

Luego, podemos volver a aplicar L’Hopital:

\lim_{x\rightarrow1}\frac{2}{(x-1)^2+2x(x-1)+4x(x-1)+2x^2}.

Y al final el límite es 2/2=1. La pregunta que me surge —la que inspira esta entrada— es cómo el señor referee encontró f(x) (sobre todo porque la encontró de tal manera que perjudica lo que quiero hacer con g(x)). Una vez tengo f(x) mostrar que las dos son del mismo orden cerca de 1 es fácil, pero ¿cómo encontrar f(x) originalmente? No lo he intentado pero la idea de «delvolverse» usando integración me suena un poco muy esotérica, la verdad.

Idealizaciones en el infinito

Esta entrada no tiene nada que ver con hipótesis del continuo ni nada de esas cosas. Tan apasionante como pueda resultar su estudio, no es el tema que me interesa tocar en este momento. El objetivo es más mundano, más terreno: un intento de responder a una pregunta que me han hecho varias veces: ¿Cuál es la idea de trabajar con sistemas infinitos de objetos matemáticos? Objetos matemáticos aquí no tiene un significado claro, pueden ser dimensiones, funciones o cualquier otro concepto matemático o al menos matematizable.

La pregunta parece natural. De hecho, en la estadística son muy conocidos los métodos que permiten la reducción en las dimensiones de la información para hacer más manejable su estudio; tal es el caso del análisis de componentes principales. Así las cosas, ¿cuál es la intención de los matemáticos cuando quieren trabajar con sistemas infinitos?

Pues la primera respuesta es el interés puramente teórico. Tomemos el ejemplo de la cantidad de dimensiones. Suponga que usted sabe que cierto modelo, teorema o resultado en movimiento de partículas, por decir algún área, se cumple en dimensiones 1 y 2. La pregunta sobre cómo extender el resultado al caso de dimensiones mayores es absolutamente natural. Como dice Grimmett en su conocido libro Percolation (una de las frases que aparecen a la derecha de este blog): «Los matemáticos tienen considerable talento en el arte de la generalización». Las aplicaciones quizás vengan después, pero realmente esa no tiende a ser una preocupación del teórico. Mi orientador me dijo alguna vez de manera muy graciosa que el matemático que investiga pensando en las aplicaciones es como quien se pone a pensar en la sobrepoblación mundial durante su noche de bodas.

La segunda razón la voy a trascribir de unas notas excelentes de Hans-Otto Georgii et al sobre mecánica estadística tituladas The random geometry of equilibrium phases (p. 11):

As all systems in nature are finite, one may wonder why we consider here systems with infinitely many constituents. The answer is that sharp results for bulk quantities can only be obtained when we make the idealization to an infinite system. The thermodynamic limit eliminates finite size effects (which are always present but which are not always relevant for certain phenomena) and it is only in the thermodynamic limit of inifinite volume that we can get a clean and precise picture of realistic phenomena such as phase transitions or phase coexistence. This is a consequence of the general probabilistic principle of large numbers. In this sense, infinite systems serve as an idealized approximation to very large finite systems.

Aunque Georgii hace alusión al límite termodinámico, pues está hablando de mecánica estadística, la idea se puede extrapolar en general a toda la matemática: Cuando los sistemas finitos son muy grandes, es mejor tratarlos como si fueran infinitos porque las respuestas van a ser muy aproximadas a la realidad y mucho más fáciles de obtener (por los teoremas límite en el caso de la probabilidad) que estudiar cada uno de los elementos en el sistema finito. Precisamente cuando se está trabajando con sistemas finitos grandes hay dos situaciones: Primero, puede ser que los recursos computacionales sean insuficientes para la labor (créalo o no, la computación sigue bastante colgada para algunas aplicaciones interesantes, tema sobre el cual podría escribir una entrada posterior). Pero aun si no son insuficientes, las aproximaciones por teorema central del límite y por las leyes de los grandes números —en el caso de la probabilidad— son tan exactas que mal vale la pena el esfuerzo y el gasto de evaluar cada elemento del sistema por separado.

En resumen y para terminar, encuentro dos razones principales: la primera, absolutamente válida para el matemático, es el interés natural en generalizar los resultados o encontrar propiedades en «el inifinito»; tal es el caso de las dimensiones (vea por ejemplo tres artículos de Matthew Penrose aquí, aquí y aquí, todos relacionados con «grandes dimensiones»). Y la segunda razón, de interés para la ciencia, es porque tales resultados suelen ser excelentes aproximaciones de los grandes sistemas finitos en estudio, como en la mecánica estadística que tan bien explica Georgii.