Versiones no indistinguibles de procesos estocásticos

Esta entrada tiene por objeto mostrar un contraejemplo de dos procesos estocásticos tales que uno es versión del otro, pero no son indistinguibles. La mayoría de elementos de esta entrada se encuentran en el libro de Flemming y Harrington, Counting Processes and Survival Analysis (Wiley, 2005, pp. 16, 326-327).

Cuando definimos un proceso estocástico como en la entrada anterior y \Gamma=\mathbb R^+, se dice que la variable está indexada en el tiempo, y se define un camino aleatorio como la función X(\cdot,\omega):\mathbb R^+\rightarrow\mathbb R. Es decir, para cada elemento \omega\in\Omega, vemos cómo se comporta el proceso a medida que el tiempo va avanzando. Toda propiedad que adjudiquemos al proceso estocástico X, en realidad es una propiedad en un conjunto A\subset\Omega tal que A tiene probabilidad 1.

Ahora, dos variables aleatorias X,Y se dicen equivalentes si \textbf P[X\neq Y]=0, donde el evento \{X\neq Y\} está definido como

\{\omega\in\Omega: X(\omega)\neq Y(\omega)\}.

Quiere esto decir que las variables aleatorias son equivalentes si difieren a lo más en un conjunto de probabilidad nula.

Decimos que el proceso X es una versión del proceso Y si

\forall t\in\mathbb R^+,\ \ \textbf P[\omega\in\Omega:X_t(\omega)\neq Y_t(\omega)]=0,

es decir, el proceso X es una versión de Y si, dado un tiempo t\in\Gamma, se tiene que X_t y Y_t son variables aleatorias equivalentes.

Es posible imponer una restricción más fuerte: Decimos que dos procesos X, Y son indistinguibles si

\textbf P[\omega\in\Omega:\forall t\in\mathbb R^+, X_t(\omega)\neq Y_t(\omega)]=0,

es decir, los procesos son indistinguibles cuando los caminos aleatorios son iguales casi ciertamente (con probabilidad 1).

La diferencia entre versiones de procesos y procesos indistinguibles radica en que en el primer caso el cuantificador se encuentra fuera de la probabilidad, mientras que en el segundo caso es parte del evento de interés. Más aún, es claro que si los procesos X, Y son indistinguibles, entonces uno es una versión del otro. Sin embargo, es menos claro que si X, Y son versiones el uno del otro, entonces los dos procesos son indistinguibles. De hecho, no es cierto en general y se requiere la condición adicional de que los dos procesos sean continuos por derecha o los dos sean continuos por izquierda:

Teorema: Sean dos procesos X, Y ambos continuos por derecha. Se tiene que si X es versión de Y, entonces X, Y son procesos indistinguibles.

Demostración: Considérese \mathbb Q, el conjunto de los racionales. Para cada q\in\mathbb Q, tenemos que

\textbf P[\omega\in\Omega:X_q(\omega)\neq Y_q(\omega)]=0.

Si definimos N\subset\Omega como

N=\bigcup_{q\in\mathbb Q}\{\omega\in\Omega: X_q(\omega)\neq Y_q(\omega)\},

entonces \textbf P[N]=0. Considérense los caminos aleatorios de \omega en X y en Y. Como los dos procesos son continuos por derecha, para todo t\in\mathbb R^+, existe una sucesión de racionales \{q_n\} que decrece a t. De modo que, por la continuidad por derecha,

X_t(\omega)=\lim_{n\rightarrow\infty}X_{q_n}(\omega)=\lim_{n\rightarrow\infty}Y_{q_n}(\omega)=Y_t(\omega).

El teorema anterior también se cumple si la condición de continuidad por derecha se remplaza por la de continuidad por izquierda y su demostración es análoga. Dado el resultado, surge entonces el interés por un contraejemplo: ¿cuándo un par de procesos estocásticos X,Y son versiones el uno del otro pero no son indistinguibles? A continuación construimos dicho contraejemplo:

Ejemplo: Sea \Omega=[0,1], \mathcal B los conjuntos de Borel de \Omega y \textbf P la medida de Lebesgue en dicho espacio muestral. Definimos el proceso Y=\{Y_t(\omega):t\in[0,\infty)\} de la siguiente manera:

Y_t(\omega)=1      si t-\lfloor t\rfloor=\omega,

Y_t(\omega)=0      en otro caso,

donde \lfloor t\rfloor es la parte entera de t.   Entonces puede verse que para un \omega dado, el camino Y_t(\omega) tiene discontinuidades contables. Sin embargo, para t fijo, casi todos los caminos Y_t(\omega) son continuos en t, pues Y es continuo para todo \omega\neq\omega_t=t-\lfloor t\rfloor.

Si ahora definimos el proceso cero X_t=0, para todo t y todo \omega, entonces para todo t fijo tenemos que \textbf P[\omega\in\Omega:X_t(\omega)=Y_t(\omega)]=1, pero la probabilidad del conjunto en el que los caminos coinciden es cero.

Anuncios

Variables aleatorias, elementos aleatorios y procesos estocásticos

En términos simples, una variable aleatoria X es una función que va del espacio muestral \Omega a los reales \mathbb R; es decir, X:\Omega\rightarrow\mathbb R. Sin embargo, esta definición carece de ciertos atributos importantes y se requiere una formulación más precisa.

Supongamos entonces un espacio de probabilidad (\Omega,\mathcal F,\textbf P). Un elemento aleatorio en un espacio medible (E,\mathcal E) es una función medible Z que va del espacio de probabilidad al espacio medible:

\{Z\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal E,

donde

\{Z\in A\}:= \{\omega\in\Omega: Z(\omega)\in A\}=:Z^{-1}A.

Así las cosas, una variable aleatoria W es simplemente un caso particular de un elemento aleatorio en el que el conjunto de llegada son los reales \mathbb R (dotados con la \sigma-álgebra de Borel \mathcal B). Es decir,

\{W\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal B.

Ahora, un proceso estocástico en los reales es una familia de variables aleatorias X=\{X_t:t\in\Gamma\}, indexadas en el conjunto \Gamma, donde cada X_t está definida en el mismo espacio de probabilidad (\Omega,\mathcal F,\textbf P). Algunos ejemplos caen bien:

  1. Una variable aleatoria es un caso particular de un proceso estocástico, tal vez el más sencillo, en el que \Gamma está compuesto por un único elemento, digamos \Gamma=\{1\}.
  2. Un véctor aleatorio (X_1,\ldots,X_k) también es un proceso estocástico en el cual \Gamma=\{1,\ldots,k\}.
  3. Si \Gamma=\mathbb N, entonces X es sencillamente una sucesión (infinita) de variables aleatorias.
  4. Si \Gamma=R, entonces X es un proceso estocástico continuo en el tiempo, como es el caso del movimiento browniano (cuya descripción matemática es obra de Einstein en el primero de sus tres grandes artículos en 1905).
  5. Si \Gamma=\mathbb Z^d, entonces X es un campo aleatorio discreto.

Otros ejemplos adicionales pueden encontrarse en las notas del curso de procesos estocásticos de Cosma Shalizi. Nótese que los tres primeros casos son comunes en la práctica de la probabilidad y la estadística desde etapas tempranas. Las variables aleatorias son el objeto básico de estudio de la probabilidad, los vectores aleatorios (sucesiones finitas) son comunes en la inferencia estadística y las propiedades asintóticas se construyen con sucesiones infinitas de variables aleatorias.

Cómo generar una función del mismo orden y otros pensamientos sobre la revisión de pares

La academia tiene cosas curiosas. Por ejemplo uno de los tesoros guardados en más alta estima por la ciencia moderna es la identidad secreta de los pares que evalúan los artículos que los otras personas escriben. Lo de la identidad secreta puede hacerlos sonar a emocionantes súper héroes pero para los autores de artículos neófitos, como yo, sus comentarios suelen ser casi otro problema de investigación que ameritaría una tesis aparte. Mi comentario va a que, por más secreto que sea el proceso, dada la naturaleza de mi investigación, tengo un grupo bien cerrado de personas (tres) que, creo, pudieron ser los posibles referees de uno de mis papers.

No sé cómo tomarán las correcciones los autores senior de artículos científicos, pero en mi caso cada comentario de los referees en uno solo de mis papers es como si fuera una estocada y me alborota la gastritis. Al comienzo no fue así, creí que podía resolver sus cuatro correcciones principales fácilmente (las otras, que hubo más, eran de estilo y typos); pero con el correr de los días, al ver que no entiendo sus apreciaciones y cuando las entiendo no sé cómo solucionarlas, mi percepción se está convirtiendo rápidamente en que la corrección no es cosa sencilla. O tal vez sí y me estoy dejando abrumar.

La verdad a mí jamás se me habrían ocurrido esas correcciones que me hicieron así que de veras agradezco que me las hayan hecho evidentes. Pero duele un poco en el ego por varias razones que no mencionaré. Una amiga, quien tiende a ver las cosas siempre por el lado positivo, me planteó una idea diferente para solucionar parte de mi dilema interno de sentirme minúsculo: «Míralo por el otro lado —me dijo—: existen pocas personas en el mundo que pueden corregir lo que tú haces». Esa percepción es interesante porque me resuelve en mucho el golpe al ego (y lo acepto, ese me dolió bastante)… la cosa es que el ego arreglado no me soluciona el problema matemático, lo que necesito resolver para ver mi artículo publicado :-/.

En fin, con base en eso quiero aquí mostrar un argumento muy simple de dos funciones del mismo orden: Sean g(x)=\frac{x-1-\log x}{x} y f(x)=\frac{(x-1)^2}{2}. El referee dice que las dos funciones son del mismo orden cuando x\rightarrow1, cosa que es fácilmente verificable, como procederé a mostrar. Decir que las dos funciones son del mismo orden cerca de 1 es decir \lim_{x\rightarrow1}g(x)/f(x)=K, donde K es una constante diferente de 0. La razón es que si K se va para infinito en el límite entonces g crece más rápido que f y si K va para cero en el límite entonces f crece más rápido que g. Entonces, por definición de las dos funciones, tenemos que

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}\frac{2(x-1-\log x)}{x(x-1)^2}.

Ahora, llámeme superficial pero, como numerador y denominador van para 0 cuando x va para 1, la herramienta que yo uso para determinar este tipo de afirmaciones es la nunca bien ponderada pero siempre útil regla de L’Hopital, de la cual obtenemos:

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}g'(x)/f'(x)=\lim_{x\rightarrow1}\frac{2(1-1/x)}{(x-1)^2+2x(x-1)}.

Y esa última igualdad se puede re-escribir menos feo así:

\lim_{x\rightarrow1}\frac{2(x-1)}{x(x-1)^2+2x^2(x-1)}.

Luego, podemos volver a aplicar L’Hopital:

\lim_{x\rightarrow1}\frac{2}{(x-1)^2+2x(x-1)+4x(x-1)+2x^2}.

Y al final el límite es 2/2=1. La pregunta que me surge —la que inspira esta entrada— es cómo el señor referee encontró f(x) (sobre todo porque la encontró de tal manera que perjudica lo que quiero hacer con g(x)). Una vez tengo f(x) mostrar que las dos son del mismo orden cerca de 1 es fácil, pero ¿cómo encontrar f(x) originalmente? No lo he intentado pero la idea de «delvolverse» usando integración me suena un poco muy esotérica, la verdad.

La diferencia de dos variables aleatorias iid fuertemente aperiódicas es aperiódica

El objetivo de esta entrada es probar exactamente lo que aparece en el título. De hecho, es en ese caso donde puede verse la importancia de la aperiodicidad fuerte. Aunque no me demoré tanto como otras veces para entender el resultado (poco menos de una hora, lo cual es todo un record), me pareció que es muy elegante el argumento y por esas dos razones lo presento aquí bajo la misma etiqueta de «simples pero demoradas». Vale la pena añadir que todos los argumentos siguen siendo tomados del libro Coupling, Stationarity and Regeneration (Springer, 2000)

Vamos a repasar primero las definiciones de aperiodicidad y aperiodicidad fuerte que se dieron en la entrada anterior.

Sea X una variable aleatoria que toma finitos valores en los enteros. Se dice que X es fuertemente aperiódica si existe h con las siguientes dos propiedades

\textbf{P}(X=h)>0

\gcd\{n\in\mathbb{Z}:\textbf{P}(X=n+h)>0\}=1,

donde \gcd es notación de máximo común divisor. Además, se dice que X es aperiódica si

\gcd\{n:\mathbb{Z}:\textbf{P}(X=n)>0\}=1.

En aquella entrada se vio que la aperiodicidad fuerte implica la aperiodicidad a secas pero lo contrario no siempre es cierto: para verlo considere una v.a. Y que toma valores solo en -1 y 1. Defina ahora Y' independiente de Y aunque con igual distribución, se tiene entonces que la variable aleatoria Y-Y' no es nisiquiera aperiódica. En los dos casos anteriores el lector puede hacer la prueba por sí mismo (siempre había querido decir eso :-P). Esa es la razón por la cual se necesita la aperiodicidad fuerte pues la diferencia de dos v.a. iid fuertemente aperiódicas sí es aperiódica. Y ese es precisamente el resultado que se buscará probar aquí:

Note primero que los conjuntos \{n\in\mathbb{Z}:\textbf{P}(X=n+h)>0\} y \{n\in\mathbb{Z}:\textbf{P}(X-h=n)>0\} son idénticos, luego se tiene directamente de las dos definiciones anteriores que si X es aperiódica, fuerte, X-h es aperiódica:

\gcd\{n\in\mathbb{Z}:\textbf{P}(X-h=n)>0\}=1.

Como X-h es aperiódica, existe una constante c tal que X-h es aperiódica en \{X-h\leq c\}. Es decir, se puede tomar un c lo suficientemente grande para que

\gcd\{n\in\mathbb{Z}:\textbf{P}(X-h=n,\vert X-h\vert\leq c)>0\}=1    (1)

Sea X' una variable independiente de X pero con la misma distribución. La prueba de que la diferencia es aperiódica tiene tres pasos:

\textbf{P}(X-X'=n)

\geq\textbf{P}(X-X'=n,\vert X-X'\vert\leq c)

\geq\textbf{P}(X-h=n,\vert X-h\vert\leq c,X'=h)

=\textbf{P}(X-h=n,\vert X-h\vert\leq c)\textbf{P}(X'=h).

Por definición de aperiodicidad fuerte, \textbf{P}(X'=h)>0. Con eso en mente y por  (1) se tiene que X-X' es aperiódica.

Ese fue el punto en el que me quedé parado la hora. Al fin y al cabo, dada la definición de aperiodicidad, yo buscaba una prueba que usara más explícitamente las propiedades del máximo común divisor de un conjunto. Pero la cosa era más sencilla y mucho más elegante: por  la última igualdad si \textbf{P}(X'=h)>0 entonces \textbf{P}(X-X'=n)>0 cuando \textbf{P}(X-h=n,\vert X-h\vert\leq c)>0. Es decir, el conjunto \{n\in\mathbb{Z}:\textbf{P}(X-h=n,\vert X-h\vert\leq c)>0\} está contenido en \{n\in\mathbb{Z}:\textbf{P}(X-X'=n)>0\}. Pero por (1) sabemos que el primer conjunto tiene máximo común divisor 1, luego el segundo también tiene máximo común divisor 1 porque contiene al primero. Eso prueba muy elegantemente el resultado.

La aperiodicidad fuerte implica la aperiodicidad

He notado una cosa con aquellas demostraciones que no me salen rápido y con los conceptos que no logro entender en el primer intento: una vez los comprendo son más claros para mí que los que sí entendí en el primer momento. Creo yo que esto se debe a que me toca esforzarme por ver más propiedades en definiciones y condiciones a las cuales no atiendo cuando capto con prontitud la utilidad inmediata (la que me permite entender el paso siguiente en la demostración). Eso me recuerda una entrada del blog de Terry Tao (enlace a la derecha) en donde decía que las matemáticas son más que el proceso diáfano y directo (¡!) que se suele ver en los artículos y libros; en realidad artículos y libros, con sus demostraciones organizadas y claras, son el resultado de muchos caminos que no llevaron a nada y tal vez de mucho desorden en el intento por encontrar un orden para el resultado. Pero esa exploración de caminos, por más inútil que termine siendo a la demostración particular, despeja el panorama en cuanto a lo que abarcan los conceptos en cuestión. Ahí veo yo una tremenda utilidad.

Digo esto porque mientras analizaba las propiedades de las suposiciones en la proposición que hoy quiero demostrar, debí analizar múltiples caminos que, aun cuando no sirvieron de nada para la demostración, sí me permitieron entender el concepto de aperiodicidad fuerte, la suposición básica para probar el pequeño resultado en esta entrada. Confieso que no tenía claridad sobre el concepto, de modo que su análisis, incluso por aquellos caminos que no condujeron a nada práctico en la prueba, me sirvió para despejar mis dudas. De todas maneras, acá presento la prueba directa, no los intentos fallidos de demostración.

Finalmente, y antes de entrar en materia, como mi letra es tan ilegible me acostumbre a estudiar escribiendo directamente en LaTeX. Por eso puedo pegar el texto directamente en el blog sin necesidad de volverlo a escribir. Así, pues, he aquí el enunciado y la prueba:

Sea X una variable aleatoria que toma finitos valores en los enteros. Se dice que X es fuertemente aperiódica si existe h con las siguientes dos propiedades

\textbf{P}(X=h)>0

\gcd\{n\in\mathbb{Z}:\textbf{P}(X=n+h)>0\}=1,

donde \gcd es notación de máximo común divisor. Además, se dice que X es aperiódica si

\gcd\{n:\mathbb{Z}:\textbf{P}(X=n)>0\}=1.

Pruebe que la aperidicidad fuerte implica la aperiodicidad.

Sea A=\{n\in\mathbb{Z}:\textbf{P}(X=n+h)>0\} y B=\{n:\mathbb{Z}:\textbf{P}(X=n)>0\}. Es claro que n\in A\Leftrightarrow n+h\in B. Con esto en mente, partamos el problema en casos:

Como \textbf{P}(X=h)>0, se tiene que 0\in A, pero A\neq \{0\} pues en ese caso A no tendría máximo común divisor, luego A\neq\emptyset y tiene más de un elemento.

Supóngase que, sin pérdida de generalidad, todos los elementos de A son no negativos. Tome el mínimo elemento positivo de A  y llámelo m. Asumiendo, otra vez sin pérdida de generalidad, que h>0 entonces \min B=h pues h<m+h (si h es negativo el argumento se vuelve más engorroso, no más complicado), luego \gcd B=h', donde h' es un entero tal que 1\leq h'\leq h (además h sería divisible por h').

Pero h' debe ser igual a 1 pues si no lo fuera, para todo n\in A, se tendría que n+h, que está en B, es divisible por h', luego n sería divisible por h' y \gcd A\geq h', una contradicción.

Adición del 26 de octubre:

¿Cómo explicar en palabras la diferencia entre aperiodicidad fuerte y aperiodicidad a secas?

Máximo de las probabilidades de transición

Hace tiempo empecé el estudio del libro Coupling Stationarity and Regeneration de Thorisson (Springer, 2000). Ya he hablado sobre ese libro en entradas anteriores (por ejemplo aquí) y hasta aparece como uno de mis recomendados en la columna a la derecha de este blog. La verdad es que he estudiado diversas partes del libro por aparte según necesidad, pero la idea de estudiarlo completo y en orden me surgió precisamente por lo bien escrito y por lo útiles que resultan en mi área los conceptos que él aplica: resulta que los acoplamientos son de las herramientas más fuertes que puede tener un probabilista a su disposición.

No es posible para mí leer de chorro un texto de matemáticas, como si fuera una novela, y entender claramente sus conceptos. Por ello mi lectura de estos libros es absolutamente lenta, pues mi interés al leer y estudiar así es entender cada detalle expuesto en el libro. A veces paso días enteros intentando entender un solo renglón de una demostración, pero como al fin y al cabo estudio por la sola satisfacción de entender a fondo los temas –y con la esperanza de poder usarlos más adelante en mi propia investigación–, me parece que vale la pena el esfuerzo.

Dicho lo anterior, debo reconocer que soy demasiado psicorígido: no entender una sola línea me impide continuar estudiando, no puedo avanzar mientras no haya logrado entender cada paso. Si además usted suma mis obvias limitaciones intelectuales, entenderá por qué me demoro tanto cuando estudio libros o artículos. Permítame añadir que esta no es la mejor estrategia de estudio en la universidad: llenar todos los huecos en un tema no es útil a la hora de estudiar para un examen en el que usted sabe qué cosas le van a preguntar, qué cosas no le van a preguntar y sabe además que el reloj está corriendo en su contra. Para ser sincero, la verdad tampoco estoy muy seguro de que esta idea sea útil en la vida investigativa, pero al menos me divierte estudiar así… me siento bien conmigo mismo por lo que en mi psicorigidez considero honestidad intelectual.

Precisamente con las pequeñas y elementales demostraciones de ese tipo, me surgió la idea de una nueva categoría de entradas en el blog: demostraciones simples que me demoro en hacer. La idea provino de una afirmación muy sencilla que me demoré tres días en probar y con la cual quiero inaugurar esta etiqueta en el blog. Ciertamente en varias ocasiones no podré proporcionar algunos detalles que debo dar por supuestos, pero por lo menos intentaré generar enlaces a Internet con la información pertinente. Aquí va el problema en mención:

Sea Z una cadena de Markov a tiempo discreto con matriz de transición P, y espacio de estados  E finito, P_{ij}^n es la probabilidad de pasar del estado i al estado j en n pasos. Muestre que \max_{i\in E}P_{ij}^n es no creciente en n y que \min_{i\in E}P_{ij}^n es no decreciente en n.

La solución es demasiado fácil: para todo i,j\in E se tiene que

P_{ij}^{n+1}=\sum_{k\in E}P_{ik}P_{kj}^n

pero como P_{kj}^n\leq\max_{i\in E}P_{ij}^n, tenemos que

P_{ij}^{n+1}\leq\sum_{k\in E}P_{ik}\max_{i\in E}P_{ij}^n

Finalmente, por la definición de matriz de transición, sabemos que \sum_{k\in E}P_{ik}=1, luego obtenemos

P_{ij}^{n+1}\leq\max_{i\in E}P_{ij}^n.

Como lo anterior es válido para todo i,j\in E y como E es finito, entonces se tiene que, en particular,

\max_{i\in E}P_{ij}^{n+1}\leq\max_{i\in E}P_{ij}^n,

lo cual prueba el resultado. La prueba con el mínimo es análoga luego no se presenta acá.

¿Por qué me demoré tanto? Porque ataqué el problema por dos lados y me casé con esas dos ideas, que aunque verdaderas, no me llevaron a ningún lado; por un lado usé:

P_{ij}^{n+1}=\sum_{k\in E}P_{ik}^nP_{kj};

por otro lado, el hecho de que como la suma es sobre términos no negativos, se tiene que

P_{ij}^{n+1}\geq P_{ik}^nP_{kj}, para todo k\in E.

El problema siempre es que la desigualdad anterior estaba en el sentido contrario. Pero como me casé con esa idea no podía ver la respuesta. Tal vez la moraleja, sobre todo con estas demostraciones simples, es que si la prueba no viene rápido a la mente, se deben intentar otros caminos, no casarse con una única forma de hacer las cosas.

Para terminar ahora ando mostrando otro de estos resultados obvios; apenas lo pruebe haré una entrada sobre él en este blog bajo esta misma categoría El resultado es el siguiente:

Dada una variable aleatoria X que toma finitos valores en los enteros, se dice que es fuertemente aperiódica si satisface que existe h\in\mathbb{Z} tal que:

\textbf{P}[X=h]>0 y \gcd\{n\in\mathbb{N}:\textbf{P}[X=n+h]>0\}=1.

Se dice que la variable es aperiódica (así, a secas) si

\gcd\{n\in\mathbb{N}:\textbf{P}[X=n]>0\}=1.

Lo que hay por probar es lo obvio: que la aperiodicidad fuerte implica la aperiodicidad. Son esas cosas obvias en las que casi siempre me demoro… estoy en esas, cuando la resuelva la publico acá.