Versiones no indistinguibles de procesos estocásticos

Esta entrada tiene por objeto mostrar un contraejemplo de dos procesos estocásticos tales que uno es versión del otro, pero no son indistinguibles. La mayoría de elementos de esta entrada se encuentran en el libro de Flemming y Harrington, Counting Processes and Survival Analysis (Wiley, 2005, pp. 16, 326-327).

Cuando definimos un proceso estocástico como en la entrada anterior y \Gamma=\mathbb R^+, se dice que la variable está indexada en el tiempo, y se define un camino aleatorio como la función X(\cdot,\omega):\mathbb R^+\rightarrow\mathbb R. Es decir, para cada elemento \omega\in\Omega, vemos cómo se comporta el proceso a medida que el tiempo va avanzando. Toda propiedad que adjudiquemos al proceso estocástico X, en realidad es una propiedad en un conjunto A\subset\Omega tal que A tiene probabilidad 1.

Ahora, dos variables aleatorias X,Y se dicen equivalentes si \textbf P[X\neq Y]=0, donde el evento \{X\neq Y\} está definido como

\{\omega\in\Omega: X(\omega)\neq Y(\omega)\}.

Quiere esto decir que las variables aleatorias son equivalentes si difieren a lo más en un conjunto de probabilidad nula.

Decimos que el proceso X es una versión del proceso Y si

\forall t\in\mathbb R^+,\ \ \textbf P[\omega\in\Omega:X_t(\omega)\neq Y_t(\omega)]=0,

es decir, el proceso X es una versión de Y si, dado un tiempo t\in\Gamma, se tiene que X_t y Y_t son variables aleatorias equivalentes.

Es posible imponer una restricción más fuerte: Decimos que dos procesos X, Y son indistinguibles si

\textbf P[\omega\in\Omega:\forall t\in\mathbb R^+, X_t(\omega)\neq Y_t(\omega)]=0,

es decir, los procesos son indistinguibles cuando los caminos aleatorios son iguales casi ciertamente (con probabilidad 1).

La diferencia entre versiones de procesos y procesos indistinguibles radica en que en el primer caso el cuantificador se encuentra fuera de la probabilidad, mientras que en el segundo caso es parte del evento de interés. Más aún, es claro que si los procesos X, Y son indistinguibles, entonces uno es una versión del otro. Sin embargo, es menos claro que si X, Y son versiones el uno del otro, entonces los dos procesos son indistinguibles. De hecho, no es cierto en general y se requiere la condición adicional de que los dos procesos sean continuos por derecha o los dos sean continuos por izquierda:

Teorema: Sean dos procesos X, Y ambos continuos por derecha. Se tiene que si X es versión de Y, entonces X, Y son procesos indistinguibles.

Demostración: Considérese \mathbb Q, el conjunto de los racionales. Para cada q\in\mathbb Q, tenemos que

\textbf P[\omega\in\Omega:X_q(\omega)\neq Y_q(\omega)]=0.

Si definimos N\subset\Omega como

N=\bigcup_{q\in\mathbb Q}\{\omega\in\Omega: X_q(\omega)\neq Y_q(\omega)\},

entonces \textbf P[N]=0. Considérense los caminos aleatorios de \omega en X y en Y. Como los dos procesos son continuos por derecha, para todo t\in\mathbb R^+, existe una sucesión de racionales \{q_n\} que decrece a t. De modo que, por la continuidad por derecha,

X_t(\omega)=\lim_{n\rightarrow\infty}X_{q_n}(\omega)=\lim_{n\rightarrow\infty}Y_{q_n}(\omega)=Y_t(\omega).

El teorema anterior también se cumple si la condición de continuidad por derecha se remplaza por la de continuidad por izquierda y su demostración es análoga. Dado el resultado, surge entonces el interés por un contraejemplo: ¿cuándo un par de procesos estocásticos X,Y son versiones el uno del otro pero no son indistinguibles? A continuación construimos dicho contraejemplo:

Ejemplo: Sea \Omega=[0,1], \mathcal B los conjuntos de Borel de \Omega y \textbf P la medida de Lebesgue en dicho espacio muestral. Definimos el proceso Y=\{Y_t(\omega):t\in[0,\infty)\} de la siguiente manera:

Y_t(\omega)=1      si t-\lfloor t\rfloor=\omega,

Y_t(\omega)=0      en otro caso,

donde \lfloor t\rfloor es la parte entera de t.   Entonces puede verse que para un \omega dado, el camino Y_t(\omega) tiene discontinuidades contables. Sin embargo, para t fijo, casi todos los caminos Y_t(\omega) son continuos en t, pues Y es continuo para todo \omega\neq\omega_t=t-\lfloor t\rfloor.

Si ahora definimos el proceso cero X_t=0, para todo t y todo \omega, entonces para todo t fijo tenemos que \textbf P[\omega\in\Omega:X_t(\omega)=Y_t(\omega)]=1, pero la probabilidad del conjunto en el que los caminos coinciden es cero.

Variables aleatorias, elementos aleatorios y procesos estocásticos

En términos simples, una variable aleatoria X es una función que va del espacio muestral \Omega a los reales \mathbb R; es decir, X:\Omega\rightarrow\mathbb R. Sin embargo, esta definición carece de ciertos atributos importantes y se requiere una formulación más precisa.

Supongamos entonces un espacio de probabilidad (\Omega,\mathcal F,\textbf P). Un elemento aleatorio en un espacio medible (E,\mathcal E) es una función medible Z que va del espacio de probabilidad al espacio medible:

\{Z\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal E,

donde

\{Z\in A\}:= \{\omega\in\Omega: Z(\omega)\in A\}=:Z^{-1}A.

Así las cosas, una variable aleatoria W es simplemente un caso particular de un elemento aleatorio en el que el conjunto de llegada son los reales \mathbb R (dotados con la \sigma-álgebra de Borel \mathcal B). Es decir,

\{W\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal B.

Ahora, un proceso estocástico en los reales es una familia de variables aleatorias X=\{X_t:t\in\Gamma\}, indexadas en el conjunto \Gamma, donde cada X_t está definida en el mismo espacio de probabilidad (\Omega,\mathcal F,\textbf P). Algunos ejemplos caen bien:

  1. Una variable aleatoria es un caso particular de un proceso estocástico, tal vez el más sencillo, en el que \Gamma está compuesto por un único elemento, digamos \Gamma=\{1\}.
  2. Un véctor aleatorio (X_1,\ldots,X_k) también es un proceso estocástico en el cual \Gamma=\{1,\ldots,k\}.
  3. Si \Gamma=\mathbb N, entonces X es sencillamente una sucesión (infinita) de variables aleatorias.
  4. Si \Gamma=R, entonces X es un proceso estocástico continuo en el tiempo, como es el caso del movimiento browniano (cuya descripción matemática es obra de Einstein en el primero de sus tres grandes artículos en 1905).
  5. Si \Gamma=\mathbb Z^d, entonces X es un campo aleatorio discreto.

Otros ejemplos adicionales pueden encontrarse en las notas del curso de procesos estocásticos de Cosma Shalizi. Nótese que los tres primeros casos son comunes en la práctica de la probabilidad y la estadística desde etapas tempranas. Las variables aleatorias son el objeto básico de estudio de la probabilidad, los vectores aleatorios (sucesiones finitas) son comunes en la inferencia estadística y las propiedades asintóticas se construyen con sucesiones infinitas de variables aleatorias.

Variables aleatorias uniformes en bolas abiertas en el infinito

El siguiente es el Lema 3 en un viejo artículo de Mathew Penrose que estoy estudiando.

Suponga que \textbf X(d) y \textbf Y(d) son variables aleatorias independientes y uniformemente distribuidas en la bola B(0,1) en d dimensiones. Entonces

1.

\lim_{d\rightarrow\infty}\textbf P[|\textbf X(d)|>3/4]=1

2.

\lim_{d\rightarrow\infty}(\sup {\textbf P[|\textbf X(d)-x|\leq1]:x\in\mathbb R^d,|x|\geq 3/4})=0

3.

\lim_{d\rightarrow\infty}\textbf P[|\textbf X(d)-\textbf Y(d)|\leq1]=0.

Prueba:

El número 1 es trivial, pero demostrémoslo aquí en aras de hacer el ejercicio completo:

\textbf P[|\textbf X(d)|>3/4]=1-\textbf P[|\textbf X(d)|\leq3/4]

=1-\frac{\pi_d(3/4)^d}{\pi_d}

=1-(3/4)^d

que tiende a 1 cuando d\rightarrow\infty . Aquí \pi_d es el volumen de la bola de radio 1 en d dimensiones.

Para demostrar el número 2, nótese que

|\textbf X(d)-x|^2=|x|^2+|\textbf X(d)|^2-2|\textbf X(d)\cdot x| .

Por la parte 1, es suficiente probar que |\textbf X(d)\cdot x| converge a 0 en probabilidad y uniformemente en \{x:3/4\leq |x|\leq 2\}. Escríbase \textbf X(d) en coordenadas, como (X^1(d), X^2(d),\ldots,X^d(d)) y x=\{x^1,\ldots,x^d\}. Por simetría (la bola unitaria es igual en todas las direcciones), puede suponerse que x es colineal a e_1=\{1,0,\ldots,0\}, luego \textbf X(d)\cdot x tiene la misma distribución que X^1(d)x^1 y por lo tanto también la misma distribución que |x|X^1(d). De nuevo, por simetría, las componentes de \textbf X(d) tienen todas la misma distribución (así no sean independientes unas de otras); así que, usando el hecho de que la suma de los cuadrados de las componentes es 1, obtenemos que \textbf E[|X^1(d)|^2]\leq 1/d , de modo que X^1(d) converge a 0 en L^2  y, por lo tanto, también en probabilidad.

El número 3 es consecuencia directa del número 1 y el número 2.

Cómo generar una función del mismo orden y otros pensamientos sobre la revisión de pares

La academia tiene cosas curiosas. Por ejemplo uno de los tesoros guardados en más alta estima por la ciencia moderna es la identidad secreta de los pares que evalúan los artículos que los otras personas escriben. Lo de la identidad secreta puede hacerlos sonar a emocionantes súper héroes pero para los autores de artículos neófitos, como yo, sus comentarios suelen ser casi otro problema de investigación que ameritaría una tesis aparte. Mi comentario va a que, por más secreto que sea el proceso, dada la naturaleza de mi investigación, tengo un grupo bien cerrado de personas (tres) que, creo, pudieron ser los posibles referees de uno de mis papers.

No sé cómo tomarán las correcciones los autores senior de artículos científicos, pero en mi caso cada comentario de los referees en uno solo de mis papers es como si fuera una estocada y me alborota la gastritis. Al comienzo no fue así, creí que podía resolver sus cuatro correcciones principales fácilmente (las otras, que hubo más, eran de estilo y typos); pero con el correr de los días, al ver que no entiendo sus apreciaciones y cuando las entiendo no sé cómo solucionarlas, mi percepción se está convirtiendo rápidamente en que la corrección no es cosa sencilla. O tal vez sí y me estoy dejando abrumar.

La verdad a mí jamás se me habrían ocurrido esas correcciones que me hicieron así que de veras agradezco que me las hayan hecho evidentes. Pero duele un poco en el ego por varias razones que no mencionaré. Una amiga, quien tiende a ver las cosas siempre por el lado positivo, me planteó una idea diferente para solucionar parte de mi dilema interno de sentirme minúsculo: «Míralo por el otro lado —me dijo—: existen pocas personas en el mundo que pueden corregir lo que tú haces». Esa percepción es interesante porque me resuelve en mucho el golpe al ego (y lo acepto, ese me dolió bastante)… la cosa es que el ego arreglado no me soluciona el problema matemático, lo que necesito resolver para ver mi artículo publicado :-/.

En fin, con base en eso quiero aquí mostrar un argumento muy simple de dos funciones del mismo orden: Sean g(x)=\frac{x-1-\log x}{x} y f(x)=\frac{(x-1)^2}{2}. El referee dice que las dos funciones son del mismo orden cuando x\rightarrow1, cosa que es fácilmente verificable, como procederé a mostrar. Decir que las dos funciones son del mismo orden cerca de 1 es decir \lim_{x\rightarrow1}g(x)/f(x)=K, donde K es una constante diferente de 0. La razón es que si K se va para infinito en el límite entonces g crece más rápido que f y si K va para cero en el límite entonces f crece más rápido que g. Entonces, por definición de las dos funciones, tenemos que

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}\frac{2(x-1-\log x)}{x(x-1)^2}.

Ahora, llámeme superficial pero, como numerador y denominador van para 0 cuando x va para 1, la herramienta que yo uso para determinar este tipo de afirmaciones es la nunca bien ponderada pero siempre útil regla de L’Hopital, de la cual obtenemos:

\lim_{x\rightarrow1}g(x)/f(x)=\lim_{x\rightarrow1}g'(x)/f'(x)=\lim_{x\rightarrow1}\frac{2(1-1/x)}{(x-1)^2+2x(x-1)}.

Y esa última igualdad se puede re-escribir menos feo así:

\lim_{x\rightarrow1}\frac{2(x-1)}{x(x-1)^2+2x^2(x-1)}.

Luego, podemos volver a aplicar L’Hopital:

\lim_{x\rightarrow1}\frac{2}{(x-1)^2+2x(x-1)+4x(x-1)+2x^2}.

Y al final el límite es 2/2=1. La pregunta que me surge —la que inspira esta entrada— es cómo el señor referee encontró f(x) (sobre todo porque la encontró de tal manera que perjudica lo que quiero hacer con g(x)). Una vez tengo f(x) mostrar que las dos son del mismo orden cerca de 1 es fácil, pero ¿cómo encontrar f(x) originalmente? No lo he intentado pero la idea de «delvolverse» usando integración me suena un poco muy esotérica, la verdad.

Idealizaciones en el infinito

Esta entrada no tiene nada que ver con hipótesis del continuo ni nada de esas cosas. Tan apasionante como pueda resultar su estudio, no es el tema que me interesa tocar en este momento. El objetivo es más mundano, más terreno: un intento de responder a una pregunta que me han hecho varias veces: ¿Cuál es la idea de trabajar con sistemas infinitos de objetos matemáticos? Objetos matemáticos aquí no tiene un significado claro, pueden ser dimensiones, funciones o cualquier otro concepto matemático o al menos matematizable.

La pregunta parece natural. De hecho, en la estadística son muy conocidos los métodos que permiten la reducción en las dimensiones de la información para hacer más manejable su estudio; tal es el caso del análisis de componentes principales. Así las cosas, ¿cuál es la intención de los matemáticos cuando quieren trabajar con sistemas infinitos?

Pues la primera respuesta es el interés puramente teórico. Tomemos el ejemplo de la cantidad de dimensiones. Suponga que usted sabe que cierto modelo, teorema o resultado en movimiento de partículas, por decir algún área, se cumple en dimensiones 1 y 2. La pregunta sobre cómo extender el resultado al caso de dimensiones mayores es absolutamente natural. Como dice Grimmett en su conocido libro Percolation (una de las frases que aparecen a la derecha de este blog): «Los matemáticos tienen considerable talento en el arte de la generalización». Las aplicaciones quizás vengan después, pero realmente esa no tiende a ser una preocupación del teórico. Mi orientador me dijo alguna vez de manera muy graciosa que el matemático que investiga pensando en las aplicaciones es como quien se pone a pensar en la sobrepoblación mundial durante su noche de bodas.

La segunda razón la voy a trascribir de unas notas excelentes de Hans-Otto Georgii et al sobre mecánica estadística tituladas The random geometry of equilibrium phases (p. 11):

As all systems in nature are finite, one may wonder why we consider here systems with infinitely many constituents. The answer is that sharp results for bulk quantities can only be obtained when we make the idealization to an infinite system. The thermodynamic limit eliminates finite size effects (which are always present but which are not always relevant for certain phenomena) and it is only in the thermodynamic limit of inifinite volume that we can get a clean and precise picture of realistic phenomena such as phase transitions or phase coexistence. This is a consequence of the general probabilistic principle of large numbers. In this sense, infinite systems serve as an idealized approximation to very large finite systems.

Aunque Georgii hace alusión al límite termodinámico, pues está hablando de mecánica estadística, la idea se puede extrapolar en general a toda la matemática: Cuando los sistemas finitos son muy grandes, es mejor tratarlos como si fueran infinitos porque las respuestas van a ser muy aproximadas a la realidad y mucho más fáciles de obtener (por los teoremas límite en el caso de la probabilidad) que estudiar cada uno de los elementos en el sistema finito. Precisamente cuando se está trabajando con sistemas finitos grandes hay dos situaciones: Primero, puede ser que los recursos computacionales sean insuficientes para la labor (créalo o no, la computación sigue bastante colgada para algunas aplicaciones interesantes, tema sobre el cual podría escribir una entrada posterior). Pero aun si no son insuficientes, las aproximaciones por teorema central del límite y por las leyes de los grandes números —en el caso de la probabilidad— son tan exactas que mal vale la pena el esfuerzo y el gasto de evaluar cada elemento del sistema por separado.

En resumen y para terminar, encuentro dos razones principales: la primera, absolutamente válida para el matemático, es el interés natural en generalizar los resultados o encontrar propiedades en «el inifinito»; tal es el caso de las dimensiones (vea por ejemplo tres artículos de Matthew Penrose aquí, aquí y aquí, todos relacionados con «grandes dimensiones»). Y la segunda razón, de interés para la ciencia, es porque tales resultados suelen ser excelentes aproximaciones de los grandes sistemas finitos en estudio, como en la mecánica estadística que tan bien explica Georgii.

Las matemáticas de Portafolio

Yo no sé si pensar que el periódico de finanzas más importante de Colombia no sabe calcular un porcentaje (un error de buena fe) o, peor aun, que se equivoca de mala fe para engañar incautos y no dejar tan mal a la banca. La noticia tiene que ver con los horrorosos incrementos en los cobros de los servicios por uso de tarjetas crédito y débito en Colombia.

Alguien podría decirme que es un simple error de digitación o un pequeño error de cálculo, a todos nos ocurren. Pero no. Fueron muchos errores semejantes en el mismo artículo, lo cual conduce a descartar de plano el error de digitación. Véamoslos:

1. «Occidente subió 15 por ciento la tarifa para la reposición por deterioro de una tarjeta de crédito: de 8500 pesos pasó a 10000».

Entonces el incremento fue de 1500, pero 1500 / 8500 es un poco más de 0,1764. Luego el incremento es 17,64 %, no 15 % como dice la noticia.

2. «Por el mismo concepto, Colpatria pasó de 2700 pesos a cobrar 11480 pesos, un incremento de 76 por ciento».

Entonces el incremento es de 11480 – 2700 = 8780, luego el incremento es de 8780. Como 8780 / 2700 es un poco más que 3,25, el incremento fue 325 %. ¡Qué robo! Muchísimo más que el tal 76% declarado por el periódico que, de cualquier forma, ya es descarado.

3. «Un avance en efectivo por cajero en Bancolombia costaba hace ocho meses 3500 pesos, ahora vale 5000, un aumento de 30 por ciento».

Otra vez: el incremento fue de 1500. Como 1500 / 3500 = 0,428, el incremento es 42,8%… casi 50% más que lo declarado por Portafolio.

4. «Colpatria que debitaba 3200 pesos por un avance en cajeros de su propia red, ahora cobra 5000 pesos, 36 por ciento más».

Aquí el incremento es de 1800. Es decir, el incremento es 56,25%, no 36% como reza el artículo.

5. «De los más dramáticos por ese concepto está el aumento de la cuota de manejo de tarjeta débito de Citibank, cuyo valor estaba en 7000 pesos y pasó a ser de 16000 pesos; subió 56,25 por ciento».

Como 16000 – 7000 = 9000 y 9000 / 7000 es aproximadamente 1,285 el aumento corresponde al 128,5% más del doble de lo que enuncia el artículo y, otra vez, un completo robo.

En medio de los dos males, yo hasta preferiría pensar que fue un error de ignorancia y no de mala fe para proteger a los bancos si no fuera porque coincidencialmente, en el mismo artículo, a la hora de hablar de los descuentos que hizo uno de los bancos sí fueron más generosos. Dice la noticia:

«También bajó la reposición por pérdida de la tarjeta de crédito en el Banco Caja Social, cuyo costo el año pasado era de 17632 pesos y ahora es de 15080 pesos, es decir, 17 por ciento menos».

La cosa ahí es que 17 632 – 15 080 = 2 552, que es un poco menos del 14.5% de los 17 632 originales, no el supuesta 17% que pregona el periódico. Los bancos son un mal necesario y es obvio que algo deben ganar, pero es que como dice un tío mío: ¡Todo pa’dentro no se puede, hola!