Versiones no indistinguibles de procesos estocásticos

Esta entrada tiene por objeto mostrar un contraejemplo de dos procesos estocásticos tales que uno es versión del otro, pero no son indistinguibles. La mayoría de elementos de esta entrada se encuentran en el libro de Flemming y Harrington, Counting Processes and Survival Analysis (Wiley, 2005, pp. 16, 326-327).

Cuando definimos un proceso estocástico como en la entrada anterior y \Gamma=\mathbb R^+, se dice que la variable está indexada en el tiempo, y se define un camino aleatorio como la función X(\cdot,\omega):\mathbb R^+\rightarrow\mathbb R. Es decir, para cada elemento \omega\in\Omega, vemos cómo se comporta el proceso a medida que el tiempo va avanzando. Toda propiedad que adjudiquemos al proceso estocástico X, en realidad es una propiedad en un conjunto A\subset\Omega tal que A tiene probabilidad 1.

Ahora, dos variables aleatorias X,Y se dicen equivalentes si \textbf P[X\neq Y]=0, donde el evento \{X\neq Y\} está definido como

\{\omega\in\Omega: X(\omega)\neq Y(\omega)\}.

Quiere esto decir que las variables aleatorias son equivalentes si difieren a lo más en un conjunto de probabilidad nula.

Decimos que el proceso X es una versión del proceso Y si

\forall t\in\mathbb R^+,\ \ \textbf P[\omega\in\Omega:X_t(\omega)\neq Y_t(\omega)]=0,

es decir, el proceso X es una versión de Y si, dado un tiempo t\in\Gamma, se tiene que X_t y Y_t son variables aleatorias equivalentes.

Es posible imponer una restricción más fuerte: Decimos que dos procesos X, Y son indistinguibles si

\textbf P[\omega\in\Omega:\forall t\in\mathbb R^+, X_t(\omega)\neq Y_t(\omega)]=0,

es decir, los procesos son indistinguibles cuando los caminos aleatorios son iguales casi ciertamente (con probabilidad 1).

La diferencia entre versiones de procesos y procesos indistinguibles radica en que en el primer caso el cuantificador se encuentra fuera de la probabilidad, mientras que en el segundo caso es parte del evento de interés. Más aún, es claro que si los procesos X, Y son indistinguibles, entonces uno es una versión del otro. Sin embargo, es menos claro que si X, Y son versiones el uno del otro, entonces los dos procesos son indistinguibles. De hecho, no es cierto en general y se requiere la condición adicional de que los dos procesos sean continuos por derecha o los dos sean continuos por izquierda:

Teorema: Sean dos procesos X, Y ambos continuos por derecha. Se tiene que si X es versión de Y, entonces X, Y son procesos indistinguibles.

Demostración: Considérese \mathbb Q, el conjunto de los racionales. Para cada q\in\mathbb Q, tenemos que

\textbf P[\omega\in\Omega:X_q(\omega)\neq Y_q(\omega)]=0.

Si definimos N\subset\Omega como

N=\bigcup_{q\in\mathbb Q}\{\omega\in\Omega: X_q(\omega)\neq Y_q(\omega)\},

entonces \textbf P[N]=0. Considérense los caminos aleatorios de \omega en X y en Y. Como los dos procesos son continuos por derecha, para todo t\in\mathbb R^+, existe una sucesión de racionales \{q_n\} que decrece a t. De modo que, por la continuidad por derecha,

X_t(\omega)=\lim_{n\rightarrow\infty}X_{q_n}(\omega)=\lim_{n\rightarrow\infty}Y_{q_n}(\omega)=Y_t(\omega).

El teorema anterior también se cumple si la condición de continuidad por derecha se remplaza por la de continuidad por izquierda y su demostración es análoga. Dado el resultado, surge entonces el interés por un contraejemplo: ¿cuándo un par de procesos estocásticos X,Y son versiones el uno del otro pero no son indistinguibles? A continuación construimos dicho contraejemplo:

Ejemplo: Sea \Omega=[0,1], \mathcal B los conjuntos de Borel de \Omega y \textbf P la medida de Lebesgue en dicho espacio muestral. Definimos el proceso Y=\{Y_t(\omega):t\in[0,\infty)\} de la siguiente manera:

Y_t(\omega)=1      si t-\lfloor t\rfloor=\omega,

Y_t(\omega)=0      en otro caso,

donde \lfloor t\rfloor es la parte entera de t.   Entonces puede verse que para un \omega dado, el camino Y_t(\omega) tiene discontinuidades contables. Sin embargo, para t fijo, casi todos los caminos Y_t(\omega) son continuos en t, pues Y es continuo para todo \omega\neq\omega_t=t-\lfloor t\rfloor.

Si ahora definimos el proceso cero X_t=0, para todo t y todo \omega, entonces para todo t fijo tenemos que \textbf P[\omega\in\Omega:X_t(\omega)=Y_t(\omega)]=1, pero la probabilidad del conjunto en el que los caminos coinciden es cero.

Anuncios

¿Contradicción probabilística a nivel cuántico?

Hace días –de hecho meses– tenía ganas de hacer esta entrada sobre las contradicciones a las que llevaría un experimento cuántico, la había demorado porque me daba pereza hacer el gráfico. Es un caso que vi en el libro Coupling, Stationarity and Regeneration (pp 27-32, Springer, 2000) de Hermann Thorisson, tal vez el libro mejor escrito en probabilidad avanzada que haya visto hasta ahora.

El experimento

Se quiere medir la polarización de partículas (fotones) enviadas por pares por un material (calcio). Se envía un fotón a la izquierda y el otro a la derecha; en cada dirección en que se envían los fotones se ubica un dispositivo de medición de la polarización y cada una de las mediciones se lleva a cabo cuando una partícula atraviesa el dispositivo. La polarización toma valores en el conjunto \{1,-1\} y depende del ángulo ortogonal a la dirección del movimiento.

0. Cuando los dispositivos de medición se alinean en la misma dirección, digamos 0\textdegree, la medición es la misma a ambos lados.

1. Cuando el dispositivo de la izquierda se inclina 30\textdegree  y el de la derecha se deja en 0\textdegree, las mediciones coinciden 3/4 del total de veces.

2. Cuando el dispositivo de la izquierda vuelve a 0\textdegree y el de la derecha se inclina a -30\textdegree, las medidas coinciden 3/4 del total de veces.

3. Cuando el dispositivo de la izquierda se ubica en 30\textdegree y el de la derecha en -30\textdegree, las mediciones coinciden 1/4 del total de veces.

La gráfica a continuación muestra las configuraciones anteriores: el cuadrado es el calcio, las líneas punteadas son los fotones enviados y las líneas con flechas son los dispositivos ubicados en la dirección que aparece abajo de cada uno.

La contradicción

Con base en el experimento planteado parece obvio definir el siguiente modelo: Considere un par de fotones y sea

X= “La polarización de la partícula de la izquierda en la dirección 0 grados” o, de manera equivalente,

X= “La polarización de la partícula de la derecha en la dirección 0 grados”.

Y= “La polarización de la partícula de la izquierda en la dirección 30 grados”.

Z= “La polarización de la partícula de la derecha en la dirección -30 grados”.

Al interpretar las frecuencias relativas como probabilidades, obtenemos:

\textbf P[X=Y]=\textbf P[X=Z]=3/4         (1)

y

\textbf P[Y=Z]=1/4.         (2)

Con un poco de probabilidad elemental se tiene:

\textbf P[Y=Z]

\geq \textbf P[Y=Z,X=Z]

=\textbf P[Y=X,X=Z]

 =\textbf P[Y=X]-\textbf P[Y=X,X\neq Z]

\geq\textbf P[Y=X]-\textbf P[X\neq Z]

= \textbf P[Y=X]+\textbf P[X=Z]-1.

Es decir,

\textbf P[Y=Z]\geq\textbf P[Y=X]+\textbf P[X=Z]-1.       (3)

Remplazando las ecuaciones (1) y (2) en (3), obtenemos:

1/4\geq3/4+3/4-1=2/4=1/2

O sea, 1/4\geq1/2, una contradicción.

Probabilidad en términos cuánticos

La cosa, desde el punto de vista probabilístico, se pone color de hormiga porque no hay contradicción usando la probabilidad como en la física cuántica:

\textbf P[Y=X]=\textbf P[X=Z]=(\cos30)(\cos30)=3/4,

\textbf P[Y=Z]=(\cos60)(\cos60)=1/4.

Nótese que el ángulo que se forma por las inclinaciones de los dos dispositivos es el que define el ángulo con que aquí se mide la probabilidad.

Contradicción superada al nivel de la observación

Sucede que en X, Y y Z la polarización se tomó como una propiedad intrínseca de las partículas, como si existiese simultáneamente cuando no se le está midiendo, es decir, independiente del mundo macro. ¿Qué pasa si en su lugar la definimos en términos de las observaciones (las mediciones)? En ese caso desaparece la contradicción.

Dejando de lado la configuración trivial donde los dispositivos se encuentran en posición paralela, tenemos tres configuraciones de experimentos.

Consideremos la configuración 1. Sean

X_1= “La polarización observada de la partícula a la derecha en la dirección 0 grados”,
Y_1= “La polarización observada de la partícula a la izquierda en la dirección 30 grados”.

En el experimento, además de que las mediciones son iguales 3/4 de las veces, también se registró que -1 y 1 se observan en proprociones idénticas a los dos lados. Entonces si se especifica la distribución conjunta de X_1 y Y_1 como

\textbf P[X_1=-1,Y_1=-1]=3/8

\textbf P[X_1=1,Y_1=1]=3/8

\textbf P[X_1=-1,Y_1=1]=1/8

\textbf P[X_1=1,Y_1=-1]=1/8,

dicha distribución conjunta concuerda con las frecuencias relativas puesto que

\textbf P[Y_1=-1]=\textbf P[X_1=-1, Y_1=-1]+\textbf P[X_1=1,Y_1=-1] (particionando Y_1 en X_1)

=3/8+1/8
= 1/2;

usando el mismo razonamiento,

\textbf P[X_1=-1]=\textbf P[X_1=-1,Y_1=-1]+\textbf P[X_1=-1,Y_1=1] (particionando X_1 en Y_1)

= 3/8+1/8
=1/2;

es decir, está la proporción idéntica que se acabó de mencionar. Y además, claramente,

\textbf P[X_1=Y_1]=\textbf P[X_1=-1,Y_1=-1]+\textbf P[X_1=1,Y_1=1]

= 3/8 + 3/8
= 3/4.

Ahora consideremos la configuración 2. Sean

X_2 = “La polarización observada de la partícula a la izquierda en la dirección 0 grados”,
Y_2 = “La polarización observada de la partícula a la derecha en la dirección -30 grados”.

Si X_2 y Y_2 tienen la misma distribución conjunta que X_1 y Y_1, volvemos a obtener que las probabilidades concuerdan con las frecuencias relativas:

\textbf P[Y_2=-1]=\textbf P[X_2=-1]=1/2

\textbf P[X_2=Y_2]=3/4.

Y por último, consideremos la configuración 3: Sean

Y_3 = “La polarización observada de la partícula a la izquierda en la dirección 30 grados”.
Z_3 = “La polarización observada de la partícula a la derecha en la dirección -30 grados ”.

Ahora las medidas concuerdan solo 1/4 de las veces, pero todavía se registra la misma proporción de 1 y -1 a los dos lados. Si se especifica la distribución conjunta de Y_3 y Z_3 como

\textbf P[Y_3=-1,Z_3=-1]=1/8

\textbf P[Y_3=1,Z_3=1]=1/8

\textbf P[Y_3=-1,Z_3=1]=3/8

\textbf P[Y_3=1,Z_3=-1]=3/8,

las frecuencias relativas concuerdan con las dadas:

\textbf P[Y_3=-1]=\textbf P[Z_3=-1]=1/2,

\textbf P[Y_3=Z_3]=1/4.

Luego a nivel de las observaciones se ha resuelto la situación. Es cuando asumimos que la polarización es una propiedad intrínseca de las partículas que caemos en contradicciones, cuando suponemos que la polarización es independiente de la observación.

¿Es suficiente la probabilidad en el mundo micro?

La contradicción anterior parece decirnos entonces que la polarización existe solo por la interacción con el mundo macro (al medirse). Lo anterior sugiere que la realidad no existe más allá de las observaciones si es que el problema no radica en la probabilidad como la conocemos.

Y es en esa condición final donde surgen las escuelas de pensamiento: Hay quienes dicen que la probabilidad clásica, la de los axiomas de Kolmogorov, se queda corta. Sugieren que debería remplazarse por la probabilidad cuántica, de axiomas más generales que los de Kolmogorov. Algo así como la superposición de la relatividad de Einstein sobre la mecánica de Newton. Como vimos, al aplicar la probabilidad cuántica, no hay contradicciones si se supone que la polarización es una propiedad inherente a las partículas, independiente del mundo macro.

Pero, analiza Thorisson, de los axiomas de la probabilidad, solo la aditividad contable sería el axioma a cuestionar (el tercer axioma según el enlace); sin embargo, como solo hay finitos posibles resultados en el experimento, ese no parece ser el problema pues ella aplicaría sin inconvenientes. Dice Thorisson : «Puesto que de otra forma los axiomas de Kolmogorov reflejan propiedades de frecuencias relativas, es difícil tragarse el cuento de que no debieran aplicar. Y así, no sorprende que haya otros intentos por salir de la contradicción» Y culmina con lo siguiente:

Detrás del intento… por crear un modelo hay varias suposiciones implícitas. Una de esas suposiciones es que medir la polarización en una dirección particular no afecta la polarización en las otras direcciones. En otras palabras, no se permite la interacción entre los mundos micro y macro. Permitir una interacción local no es un crimen serio contra las ideas físicas, pero resulta que se necesita una interacción no local para salir de la contradicción. No local quiere decir, por ejemplo, que la configuración experimental de la izquierda afecta la polarización de la partícula medida a la derecha. No es fácil de aceptar, pero para un einsteniano realista esto es más fácil que tener que descartar los axiomas de Kolmogorov, cosa muy cercana a negar que 2+2=4 [p. 31, énfasis en el original, traducción mía].

¿Cuál es más probable?

En la anterior entrada interesante de este blog presentaba el famoso problema del cumpleaños, cuya respuesta puede ser un poco contraintuitiva. Hay quienes llaman a este problema del cumpleaños paradoja pero yo no lo considero así, el resultado simplemente es algo desconcertante pero no veo una situación de paradoja. En mi concepción personal –y puedo estar errado– una paradoja es una situación en la que se pueden presentar varias respuestas aparentemente verdaderas. Ya habrá tiempo para discutir algunas de ellas en este blog. En esta entrada quiero discutir otro evento donde se presenta una situación similar a la anterior:

Un mazo de 52 cartas se revuelve y las cartas se voltean una a la vez hasta cuando aparezca el primer as. ¿Es más probable que la siguiente carta después del primer as sea un as de picas o un dos de diamantes?

Aunque intuitivamente la mayoría estaríamos inclinados a pensar que es más probable el dos de bastos (al fin y al cabo, dice la intuición, el primer as en salir podría ser el de picas), vamos a mostrar que la probabilidad es la misma en los dos casos.

Lo primero que necesitamos saber es cuántos de los 52! posibles órdenes tienen al as de espadas inmediatamente después del primer as. Para esto suponga primero que la baraja que contiene todas las cartas menos el as de espadas se ordena de todas las formas posibles, entonces el total de formas distintas de organizar el mazo es 51!. Una vez se tienen cada uno de esos posibles órdenes, nótese que solo hay un lugar donde puede ir el as de espadas para satisfacer nuestro caso: debajo del primer as en la baraja. Es decir, el total de casos son 51!\times1=51!. Luego la probabilidad de que el as de espadas esté después del primer as es

\frac{51!}{52!}=\frac{1}{52}.

Ahora, ¿cuál es la probabilidad de que la carta siguiente al primer as sea el dos de diamantes? Si se utiliza el argumento anterior, se llegará a la conclusión de que es exactamente la misma: \frac{1}{52}. Como en la baraja hay exactamente 52 cartas, sin contar los comodines (hay 4 pintas de 13 cartas cada una), este resultado nos dice que la probabilidad de cualquier carta después del primer as es la misma. Por ejemplo, la probabilidad de que la carta siguiente al primer as sea 4 de tréboles es igual a la probabilidad de que la primera carta extraída al azar sea el 4 de tréboles; es decir, en los dos casos la distribución de probabilidad es uniforme.

El problema del cumpleaños

En mi lista de amigos de facebook tengo 162 amigos de los cuales 4 cumplen años el próximo miércoles, pasado mañana. ¿Sorprendente? Aunque puede parecerlo a simple vista, un argumento probabilístico muy simple mostrará que no lo es tanto. Vamos a responder la siguiente pregunta:

¿Cuál es la probabilidad de que al menos dos personas cumplan el mismo día en un grupo de n personas si cada persona tiene la misma probabilidad de cumplir en cualquier día del año (1/365)?

Sea p_n la probabilidad de que en un grupo de n personas, no haya dos que cumplan el mismo día. Entonces la primera persona puede cumplir en cualquiera de los 365 días del año (365/365). La segunda persona puede cumplir en cualquier día, excepto el día en que cumplió la primera persona \frac{365-1}{365}. El tercero puede cumplir cualquier día del año, excepto en los dos días en que cumplieron las dos primeras \frac{365-2}{365}. Y así sucesivamente hasta el n-ésimo que puede cumplir en cualquier día excepto en los n-1 días en los que ya han cumplido las otras personas: \frac{365-(n-1)}{365}. Es decir,

p_n=1\times\frac{365-1}{365}\times\frac{365-2}{365}\times\cdots\times\frac{365-(n-1)}{365}.

Si definimos n!=1\times2\times3\times\cdots\times n, entonces podemos entender ese n! como la cantidad de permutaciones de n elementos. O sea, la cantidad de formas diferentes en que se pueden organizar n elementos. Entonces 365!=365\times364\times\cdots\times1. Y note además que

\frac{365!}{(365-n)!}=365\times 364\times [365-(n-1)].

Con esas consideraciones, podemos reescribir p_n como sigue:

p_n=\frac{3651}{365^n(365-n)!}.

Esa es la probabilidad que estábamos buscando.

Pero el caso curioso no está ahí. La razón por la cual el resultado es interesante es la siguiente: suponga que n=23. Entonces obtenemos que la probabilidad de que al menos dos personas, entre esas 23, cumplan el mismo día es:

1-p_{23}=1-\frac{365!}{365^{23}342!}\approx0.507.

Es decir, la probabilidad de que en un grupo de 23 personas al menos dos cumplan el mismo día es mayor que la probabilidad de obtener cara en un lanzamiento de una moneda honesta.