Versiones no indistinguibles de procesos estocásticos

Esta entrada tiene por objeto mostrar un contraejemplo de dos procesos estocásticos tales que uno es versión del otro, pero no son indistinguibles. La mayoría de elementos de esta entrada se encuentran en el libro de Flemming y Harrington, Counting Processes and Survival Analysis (Wiley, 2005, pp. 16, 326-327).

Cuando definimos un proceso estocástico como en la entrada anterior y \Gamma=\mathbb R^+, se dice que la variable está indexada en el tiempo, y se define un camino aleatorio como la función X(\cdot,\omega):\mathbb R^+\rightarrow\mathbb R. Es decir, para cada elemento \omega\in\Omega, vemos cómo se comporta el proceso a medida que el tiempo va avanzando. Toda propiedad que adjudiquemos al proceso estocástico X, en realidad es una propiedad en un conjunto A\subset\Omega tal que A tiene probabilidad 1.

Ahora, dos variables aleatorias X,Y se dicen equivalentes si \textbf P[X\neq Y]=0, donde el evento \{X\neq Y\} está definido como

\{\omega\in\Omega: X(\omega)\neq Y(\omega)\}.

Quiere esto decir que las variables aleatorias son equivalentes si difieren a lo más en un conjunto de probabilidad nula.

Decimos que el proceso X es una versión del proceso Y si

\forall t\in\mathbb R^+,\ \ \textbf P[\omega\in\Omega:X_t(\omega)\neq Y_t(\omega)]=0,

es decir, el proceso X es una versión de Y si, dado un tiempo t\in\Gamma, se tiene que X_t y Y_t son variables aleatorias equivalentes.

Es posible imponer una restricción más fuerte: Decimos que dos procesos X, Y son indistinguibles si

\textbf P[\omega\in\Omega:\forall t\in\mathbb R^+, X_t(\omega)\neq Y_t(\omega)]=0,

es decir, los procesos son indistinguibles cuando los caminos aleatorios son iguales casi ciertamente (con probabilidad 1).

La diferencia entre versiones de procesos y procesos indistinguibles radica en que en el primer caso el cuantificador se encuentra fuera de la probabilidad, mientras que en el segundo caso es parte del evento de interés. Más aún, es claro que si los procesos X, Y son indistinguibles, entonces uno es una versión del otro. Sin embargo, es menos claro que si X, Y son versiones el uno del otro, entonces los dos procesos son indistinguibles. De hecho, no es cierto en general y se requiere la condición adicional de que los dos procesos sean continuos por derecha o los dos sean continuos por izquierda:

Teorema: Sean dos procesos X, Y ambos continuos por derecha. Se tiene que si X es versión de Y, entonces X, Y son procesos indistinguibles.

Demostración: Considérese \mathbb Q, el conjunto de los racionales. Para cada q\in\mathbb Q, tenemos que

\textbf P[\omega\in\Omega:X_q(\omega)\neq Y_q(\omega)]=0.

Si definimos N\subset\Omega como

N=\bigcup_{q\in\mathbb Q}\{\omega\in\Omega: X_q(\omega)\neq Y_q(\omega)\},

entonces \textbf P[N]=0. Considérense los caminos aleatorios de \omega en X y en Y. Como los dos procesos son continuos por derecha, para todo t\in\mathbb R^+, existe una sucesión de racionales \{q_n\} que decrece a t. De modo que, por la continuidad por derecha,

X_t(\omega)=\lim_{n\rightarrow\infty}X_{q_n}(\omega)=\lim_{n\rightarrow\infty}Y_{q_n}(\omega)=Y_t(\omega).

El teorema anterior también se cumple si la condición de continuidad por derecha se remplaza por la de continuidad por izquierda y su demostración es análoga. Dado el resultado, surge entonces el interés por un contraejemplo: ¿cuándo un par de procesos estocásticos X,Y son versiones el uno del otro pero no son indistinguibles? A continuación construimos dicho contraejemplo:

Ejemplo: Sea \Omega=[0,1], \mathcal B los conjuntos de Borel de \Omega y \textbf P la medida de Lebesgue en dicho espacio muestral. Definimos el proceso Y=\{Y_t(\omega):t\in[0,\infty)\} de la siguiente manera:

Y_t(\omega)=1      si t-\lfloor t\rfloor=\omega,

Y_t(\omega)=0      en otro caso,

donde \lfloor t\rfloor es la parte entera de t.   Entonces puede verse que para un \omega dado, el camino Y_t(\omega) tiene discontinuidades contables. Sin embargo, para t fijo, casi todos los caminos Y_t(\omega) son continuos en t, pues Y es continuo para todo \omega\neq\omega_t=t-\lfloor t\rfloor.

Si ahora definimos el proceso cero X_t=0, para todo t y todo \omega, entonces para todo t fijo tenemos que \textbf P[\omega\in\Omega:X_t(\omega)=Y_t(\omega)]=1, pero la probabilidad del conjunto en el que los caminos coinciden es cero.

Variables aleatorias, elementos aleatorios y procesos estocásticos

En términos simples, una variable aleatoria X es una función que va del espacio muestral \Omega a los reales \mathbb R; es decir, X:\Omega\rightarrow\mathbb R. Sin embargo, esta definición carece de ciertos atributos importantes y se requiere una formulación más precisa.

Supongamos entonces un espacio de probabilidad (\Omega,\mathcal F,\textbf P). Un elemento aleatorio en un espacio medible (E,\mathcal E) es una función medible Z que va del espacio de probabilidad al espacio medible:

\{Z\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal E,

donde

\{Z\in A\}:= \{\omega\in\Omega: Z(\omega)\in A\}=:Z^{-1}A.

Así las cosas, una variable aleatoria W es simplemente un caso particular de un elemento aleatorio en el que el conjunto de llegada son los reales \mathbb R (dotados con la \sigma-álgebra de Borel \mathcal B). Es decir,

\{W\in A\}\in\mathcal F,\ \ \ \ \ \ \ A\in\mathcal B.

Ahora, un proceso estocástico en los reales es una familia de variables aleatorias X=\{X_t:t\in\Gamma\}, indexadas en el conjunto \Gamma, donde cada X_t está definida en el mismo espacio de probabilidad (\Omega,\mathcal F,\textbf P). Algunos ejemplos caen bien:

  1. Una variable aleatoria es un caso particular de un proceso estocástico, tal vez el más sencillo, en el que \Gamma está compuesto por un único elemento, digamos \Gamma=\{1\}.
  2. Un véctor aleatorio (X_1,\ldots,X_k) también es un proceso estocástico en el cual \Gamma=\{1,\ldots,k\}.
  3. Si \Gamma=\mathbb N, entonces X es sencillamente una sucesión (infinita) de variables aleatorias.
  4. Si \Gamma=R, entonces X es un proceso estocástico continuo en el tiempo, como es el caso del movimiento browniano (cuya descripción matemática es obra de Einstein en el primero de sus tres grandes artículos en 1905).
  5. Si \Gamma=\mathbb Z^d, entonces X es un campo aleatorio discreto.

Otros ejemplos adicionales pueden encontrarse en las notas del curso de procesos estocásticos de Cosma Shalizi. Nótese que los tres primeros casos son comunes en la práctica de la probabilidad y la estadística desde etapas tempranas. Las variables aleatorias son el objeto básico de estudio de la probabilidad, los vectores aleatorios (sucesiones finitas) son comunes en la inferencia estadística y las propiedades asintóticas se construyen con sucesiones infinitas de variables aleatorias.

Introducción al matrimonio estable de Poisson y Lebesgue con apetitos aleatorios

Figura 1

Figura 1

Como hace días no escribo nada por estar tan concentrado en mi tesis, decidí hacer una entrada con la introducción formal al tema. Aquí va.

En un post anterior introduje en términos simples el matrimonio de Poisson y Lebesgue con apetitos aleatorios. Ahora voy a intentar hacer una definición más formal, con base en la descripción dada por los autores originales del modelo. No hay desarrollos nuevos aquí, solo una generalización simple. Tal vez en entradas siguientes introduzca algunos aspectos originales de mi investigación. Por ahora quiero es introducir el objeto de estudio.

Aquí y aquí se consideró el siguiente modelo, la única diferencia acorde con nuestros intereses radica en la aleatorización del parámetro llamado apetito,  que en el modelo original era constante.

Para preservar la notación original, sea \Xi  un conjunto discreto de puntos en \mathbb{R}^d con d\geq1. Los elementos \xi\in\Xi se llaman centros y los elementos x\in\mathbb{R}^d se llaman sitios. El apetito aleatorio es una variable aleatoria (v.a.) no negativa \alpha con ley F, independiente de los centros.  Tómese ahora una sucesión de v.a. i.i.d. no negativas. \left\{\alpha_i\right\} distribuidas como \alpha.

La función \psi:\mathbb{R}^d\rightarrow\Xi\cup\left\{\infty,\Delta\right\} se llamará asignación, donde \psi^{-1}(\Delta) es el conjunto de sitios equidistantes de dos centros diferentes, de modo que \mathcal{L}[\psi^{-1}(\Delta)]=0 porque \Xi es un conjunto discreto . \psi tendrá la propiedad que \mathcal{L}[\psi^{-1}(\xi)]\leq\alpha_{\xi}, para todo \xi\in\Xi donde \alpha_\xi es el apetito del centro \xi y \mathcal{L}(\cdot) es la medida de Lebesgue (volumen) de un conjunto de puntos en \mathbb{R}^d. El territorio de un centro \xi es el conjunto de sitios dados por \psi^{-1}(\xi). Diremos que el centro está satisfecho si \mathcal L[\psi^{-1}(\xi)]=\alpha_\xi e insatisfecho si la medida de Lebesgue del territorio  \xi es estrictamente menor que \alpha_\xi. Diremos que un sitio x es reclamado si \psi(x)\in\Xi, y no reclamado si \psi(x)=\infty lo cual quiere decir que el sitio x no fue reclamado por centro alguno. Adicionalmente, llamaremos \mathcal{C} a la clausura de los sitios reclamados, tal como fue hecho aquí.

Ahora, sea \xi un centro y sea x un sitio con \psi(x)\notin\left\{\xi,\Delta\right\}. Decimos que x desea a \xi cuando \left|x-\xi\right|<\left|x-\psi(x)\right| o cuando x es no reclamado, donde \left|\cdot\right| es la norma euclideana. Y decimos que \xi codicia a x cuando \left|x-\xi\right|<\left|x'-\xi\right| para algún x'\in\psi^{-1}(\xi) o cuando \xi no está satisfecho. Llamaremos a la pareja (x,\xi)  inestable para la asignación \psi si x desea a \xi y además \xi codicia a x. La asignación será estable si no hay parejas inestables.

Las Figuras 1 y 2 en esta entrada muestran el caso de un conjunto de puntos en un subconjunto finito de \mathbb R^2. Para el mismo conjunto de centros se tienen dos apetitos (constante para cada una de las figuras) donde el segundo es mayor que el primero. Las figuras son cortesía de Marcelo Freire… las mías para apetitos aleatorios, no las he hecho :-/

Figura 2

Figura 2

Ciencia-matemáticas, epistemología-ontología

Recuerdo que en mi anterior blog hice una entrada relacionada con las diferencias y las fuertes discusiones entre físicos y matemáticos. Los físicos nos acusan de ser extremadamente complicados y los matemáticos los acusamos a ellos de ser absolutamente relajados. Esas diferencias siempre van a existir y tenemos que aprender a convivir con ellas. Nada que hacer. Las ideas surgieron luego de leer la introducción del libro sobre grafos aleatorios de Richard Durrett, Random Graph Dynamics (CUP, 2006).

Por aquellos días también estaba leyendo algunos artículos en filosofía de la ciencia relacionados con el problema de demarcación: la falta de criterios para decidir si algo encaja dentro de la categoría de ciencia o no. Larry Laudan fue probablemente el filósofo de la ciencia que mayor énfasis hizo en el problema. Sin ser creacionista fue un muy fuerte crítico de Michael Ruse, filósofo de la ciencia y defensor del evolucionismo darwinista, por los argumentos del segundo en el histórico juicio de Arkansas de los 80 contra el creacionismo. Laudan criticaba que Ruse usó argumentos de demarcación a sabiendas de que ellos eran falsos. Por ejemplo, solía decirse que lo científico era lo observable o lo repetible, pero muchas cosas que hoy conocemos como ciencia no son ni una cosa ni la otra. Eso ocurre con cada una de las posibles demarcaciones y siempre se tiene uno de dos problemas: o el criterio restringe demasiado la labor científica o se vuelve permisivo y empieza a involucrar cosas que no se quieren ahí dentro.

También en aquella época terminé leyendo La estructura de las revoluciones científicas de Thomas Kuhn (FCE, 2005) y ahí fue la acabose. Palabras más, palabras menos, Kuhn muestra mediante un análisis histórico que la ciencia se define de acuerdo al paradigma de moda y que los cambios de paradigma se producen por rompimiento generacional, no por demostraciones hechas que confirmen el cambio de paradigma. Es decir, visto así, el asunto es completamente subjetivo.

La consideración de esas tres cosas me llevó a una conclusión que considero importante (no pretendo ser el primero en haber razonado de esta manera, seguramente muchos ya lo han considerado antes y más formalmente). Dadas las distintas naturalezas del quehacer matemático y científico, somos llevados a una dualidad epistemológica-ontológica:

La matemática por su forma de proceder y con su lógica nos proporciona certezas epistemológicas sobre conceptos (no quiero usar la palabra entidades) si no inexistentes al menos de cuestionable ontología. Esto porque los conceptos matemáticos son abstracciones, como todo el mundo sabe. Y aun si se logran traducir a conceptos de ontología menos cuestionable como la realidad física, puede ser que esa certeza epistemológica del abstracto se transforme en un tremendo error ontológico al dar dicho paso. Para hacer clara la idea anterior permítame explicarlo con un ejemplo real: el cosmólogo Stephen Hawking adelantó estudios en los 90 con el fin de acabar con la idea del Big Bang, pretendía hacerlo innecesario (tal vez en otra entrada me refiera a las motivaciones de los científicos y su papel en la ciencia); toda la matemática en su razonamiento funcionó perfectamente en el terreno de los números complejos, no había error en ella, y así Hawking cumplía su cometido; el problema era cuando se aterrizaba la matemática a la realidad física, cuando los números complejos se volvían a los reales, porque estaba considerando el tiempo —que solo puede ser real—, retornaba al mismo universo finito del Big Bang. Otro caso similar sucedió con la llamada cosmología del plasma, cuya motivación también era acabar con el Big Bang, en ella todo funcionaba matemáticamente bien pero debía suponerse el no cumplimiento de las leyes de la termodinámica (¡!).

Por el otro lado están las ciencias, en ellas el caso es completamente opuesto: nunca vamos a tener certeza epistemológica de conceptos con ontología clara o al menos no tan dudosa. La disminución en la certeza epistemológica es producto de la naturaleza inferencial o inductiva de las ciencias experimentales (en el mejor de los casos), diferente a la deductiva de las matemáticas. El incremento en la certeza ontológica se da porque usualmente trata realidades físicas y químicas difícilmente cuestionables. Siguiendo con el Big Bang, sabemos que nuestro universo es real pero, como también se vio en el párrafo anterior, sabemos que la matemática es insuficiente (y su método puede ser demasiado restrictivo); los modelos hechos deben tener coherencia matemática, pero deben ir más allá de ella y no violar cosas tan claras en su aterrizaje a la realidad como las leyes de la termodinámica. Ahora, estoy siendo demasiado benévolo pues en este caso el modelo sobre el origen del universo es matematizable. Pero, ¿qué pasa en otras situaciones donde lo único que se tiene es la repetición del evento y a lo máximo que se llega es a una posible inferencia estadística, digamos, de una diferencia de medias? He ahí donde mi punto de la certeza epistemológica cobra más fuerza: las conclusiones a las que se llega por inferencia o inducción en el mundo real son mucho más débiles que las alcanzadas por deducción (en negrilla porque no dudo de la fortaleza de la inducción en matemáticas, pero en fuera de las matemáticas es menos fuerte)… los matemáticos no tenemos el problema de que los teoremas sean más o menos ciertos con condiciones como la temperatura.

Hay pues una dualidad en este sentido entre ciencia-matemática y epistemología-ontología. Las matemáticas proporcionan un nivel de certeza epistemológica que no proporciona ninguna otra herramienta pero se queda ontológicamente corta en cuanto a la realidad física. La ciencia, que abarca la realidad física, se queda corta en la ceteza epistemológica… a tal punto que su interpretación de dicha realidad depende, como mostró Kuhn, del paradigma de moda. Me queda un mal sabor.