Deducción de las fórmulas para la incertidumbre

De Laplace

(Diferencias entre revisiones)

última version al 11:43 24 mar 2010

Contenido

1 Error estadístico
- 1.1 Extensión al caso de datos con diferentes errores
2 Error de una función de una variable
3 Funciones de varias variables. Importancia de la independencia

1 Error estadístico

En otros artículos se enuncian las expresiones para, dado un conjunto de medidas $x i$ de una misma magnitud $x$ , establecer qué valor le asignamos a la medida y a su error como

$\overline{x} = \frac{1}{n}\sum_i x_i = \frac{S_x}{S}$ $E_x = 2\sqrt{\frac{\sum_i(x_i-\overline{x})^2}{n(n-1)}} = 2\sqrt{\frac{SS_{xx}-S_x^2}{S^2(S-1)}} = 2\sqrt{\frac{S_{XX}}{S(S-1)}}$

con $X_i=x_i-\overline{x}$ la variable relativa a la media.

La justificación de estas fórmulas proviene de una hipótesis básica: que existe una cierta distribución para las distintas medidas.

Supongamos que hacemos muchas medidas de esta magnitud y vamos clasificando los resultados según la frecuencia con que aparece cada valor. Cuando el número de medidas tiende a infinito obtenemos lo que se llama la función de distribución,

p (x)

.

Esta función nos permite obtener la probabilidad de un resultado concreto, de un intervalo de valores, o la probabilidad para una variable $A$ , función de $x$ .

Dada la función de distribución de la variable $x$ , $p (x)$ , el valor esperado (para entendernos, el promedio) de la variable $A (x)$ viene dado por

$\langle A(x) \rangle = \int A(x) p(x) dx$

que, en palabras, significa que el promedio de $A$ no es más que la suma de todos los valores, teniendo en cuenta que algunos valores de $x$ aparecen más a menudo que otros.

Las funciones de distribución, $p (x)$ , pueden ser de diferentes tipos, pero la más común es la llamada distribución gaussiana, con forma de campana, como la curva continua de la figura anterior.

Dada la función de distribución de una magnitud, dos son sus características principales:

Media: o esperanza. Equivale a la media aritmética de los resultados, cuando el número de medidas tiende a infinito. Para una distribución gaussiana, la media corresponde al valor de $x$ para el máximo de la campana. Representaremos la media de la distribución como

$\langle x \rangle = \alpha$

Varianza: Se define como

$\sigma^2 = \left\langle(x-\alpha)^2\right\rangle$

y da una medida de la dispersión de los datos alrededor del valor medio, esto es, de la anchura de la distribución.

Para ser más precisos, la raíz de la varianza se denomina la desviación cuadrática media,

σ

, y, para una distribución gaussiana, es igual a la mitad de la anchura de la campana, medida a una altura

e - 1 / 2 = 0.61

$ del máximo.

Para el caso de una distribución gaussiana, si tomamos una banda de anchura $2σ$ alrededor de la media, la probabilidad de que nuestras medidas queden dentro de este intervalo es de un 95.5%. Se entiende entonces que, adoptando el criterio del 95% para la banda de error, una muy buena aproximación para el error de una cierta cantidad es

$A = \langle A \rangle \pm 2\sigma_A$

Como criterio supondremos que, dado un conjunto de datos, que suponemos que sigue una cierta distribución de probabilidad, el valor “real” de la medida es la media de la distribución correspondiente.

El problema que surge es que la media de la distribución (y la desviación cuadrática media) sólo se conoce tras infinitas medidas, lo cual la hace inalcanzable.

Se trata entonces de, con un número finito de datos, hallar la mejor aproximación posible a la media.

Una forma de obtenerla es mediante el método de mínimos cuadrados. Cuando se consideran infinitas medidas, se verifica que la cantidad

$\chi^2(a) = \sum_{i=1}^\infty (x_i-a)^2$

es mínima cuando $a = α$ , esto es, para la media de la distribución. La idea es mantener esta expresión para un número finito de datos. La mejor estimación para la media de la distribución será aquel valor de $a$ que haga mínima la cantidad

$\chi^2(a) = \sum_{i=1}^n (x_i-a)^2$

Podemos interpretar este resultado gráficamente. Supongamos que anotamos las diferentes medidas como alturas en una escala. Se trata de hallar un valor que sea la mejor aproximación a todos los datos. Para cada valor tomamos la diferencia entre la medida y este valor. Será una cierta cantidad, que podemos considerar el error de cada dato individual. Elevándola al cuadrado (para que sea siempre positiva) y sumando para todos los datos, el valor mínimo nos dará la mejor aproximación simultánea a todos los datos, aunque puede que no coincida con ninguna de las medidas.

Aplicando la fórmula para el mínimo de una función tenemos

$0 = \frac{\mathrm{d}\chi^2}{\mathrm{d}a} =-2\sum_i (x_i -a) = -2(S_x - a S)$

donde hemos separado los dos sumandos y sacado factor común. El valor óptimo será entonces

$a = \frac{S_x}{S} = \frac{1}{n}\sum_i x_i = \overline{x}$

esto es, la media aritmética. Esto está en perfecto acuerdo con la idea de que la media de la distribución coincide con la media aritmética cuando el número de medidas tiende a infinito.

Para hallar el error de esta estimación, partimos de que si tenemos un conjunto de medidas independientes entre sí, se verifica que la varianza de la suma es la suma de las varianzas

$\sigma^2_{x+y+\cdots} = \sigma^2_x + \sigma^2_y$

por lo que

$\sigma^2_{\overline{x}} = \frac{1}{n^2}\sum_i \sigma_{x_i}^2 = \frac{n\sigma_x}{n^2}= \frac{\sigma_x^2}{n}$

donde $\sigma^2_x$ es la varianza de la distribución de los datos, que también debemos estimar.

Para hallar la aproximación a la varianza, puede hacerse un razonamiento similar al de la media, pero ligeramente más complicado. Sabemos que, en el límite de infinitas medidas, la varianza verifica

$\sigma^2 = \lim_{n\to\infty} \sum_i\frac{(x_i-\alpha)^2}{n}$

Si intentamos extender esta fórmula a un número finito de datos, debemos tener en cuenta que la propia media aritmética está sometida a error, de forma que la mejor aproximación a la varianza de los datos es

$\sigma^2 = \frac{\sum_i(x_i-\overline{x})^2}{n-1} = \frac{S_{XX}}{S-1} = \frac{SS_{xx}-S_x^2}{S(S-1)}$

La razón de que aparezca $n - 1$ en lugar de $n$ en el denominador se debe precisamente a que $\overline{x}$ es una aproximación a la verdadera media de la distribución y no coincide exactamente con ella.

La estimación de la varianza de la media será entonces

$\sigma^2_{\overline{x}} = \frac{\sigma^2}{n} = \frac{\sum_i(x_i-\overline{x})^2}{n(n-1)} = \frac{S_{XX}}{S(S-1)} = \frac{SS_{xx}-S_x^2}{S^2(S-1)}$

La aproximación a la desviación cuadrática media será la raíz de esta cantidad, por lo que la mejor aproximación a la magnitud y su error será

$x = \overline{x}\pm 2 s_{\overline{x}}$

que es la expresión que aparece en el artículo correspondiente.

1.1 Extensión al caso de datos con diferentes errores

Las fórmulas anteriores presuponen que todas las medidas pertenecen a la misma distribución y por tanto están sujetas al mismo error. Sin embargo, puede ocurrir que tengamos una serie de datos con errores diferentes y aun así estemos interesados en hallar la mejor aproximación a la media.

En este caso, al método de mínimos cuadrados aun es aplicable, pero la función que debemos minimizar es

$\chi^2 = \sum_i \frac{(x_i-a)^2}{E_i^2}$

siendo $E i$ el error del dato $i$ . La interpretación de esta modificación es simple: tenemos más en cuenta aquellos datos que tienen menos error, mientras que los que tienen un error más grande aportan una contribución pequeña al sumatorio.

En la figura, $\overline{x}'$ representa la media que obtendríamos si consideramos todos los datos con el mismo error, mientras que $\overline{x}$ sería el resultado si se tiene en cuenta que los valores superiores son más inciertos que los inferiores.

La formula corregida para la media sigue siendo

$\overline{x} = \frac{S_x}{S}$

pero donde ahora los sumatorios valen

$S = \sum_i \frac{1}{E_i^2}\qquad S_x = \sum_i \frac{x_i}{E_i^2}$

2 Error de una función de una variable

En otro artículo se enuncia que si tenemos una variable $x$ cuya medida y error son de la forma

$x = x_0 \pm E_x$

y queremos calcular, a partir de ella, una función $y = f (x)$ , asignamos como valor de la función a $y 0 = f (x 0)$ y, como error,

$E_y = \left|\frac{\mathrm{d}f}{\mathrm{d}x}\right| E_x$

Para explicar esta expresión partimos, de que, con un 95% de probabilidad $x$ está comprendida en el intervalo

$x \in \left(x_0 - E_x, x_0 + E_x\right)$

Por tanto, $y = f (x)$ tendrá la misma probabilidad de encontrarse en el intervalo

$y= f(x)\in \left(f(x_0-E_x), f(x_0+E_x)\right)$

Sin embargo, como comentamos antes, no resulta una banda centrada en $f (x 0)$

En la mayoría de los casos, no obstante, se cumple que el error es una cantidad pequeña y podemos hacer el desarrollo en serie de Taylor en torno al punto $x 0$ . En este caso, sí resulta una banda simétrica. Aplicando esta función a los extremos del intervalo resulta aproximadamente

$f(x_0+E_x) \simeq f(x_0) + E_x \frac{\mathrm{d}f}{\mathrm{d}x}(x_0) + \cdots$ $f(x_0-E_x) \simeq f(x_0) - E_x \frac{\mathrm{d}f}{\mathrm{d}x}(x_0) + \cdots$

siendo el punto medio del intervalo

$y_0 = \frac{1}{2}\left(f(x_0+E_x)+f(x_0-E_x)\right) = f(x_0)$

y siendo el error la mitad de la distancia entre los extremos del intervalo de $f (x)$

$E_y = \frac{1}{2}\left|f(x_0+E_x)-f(x_0-E_x)\right| = \left|\frac{\mathrm{d}f}{\mathrm{d}x}\right| E_x$

que es la expresión que dimos antes.

Si ocurre que esta derivada es nula o el error es muy grande, habrá que retener más términos en el desarrollo en serie de Taylor o recurrir a la expresión original, admitiendo una barra de error asimétrica.

3 Funciones de varias variables. Importancia de la independencia

Para deducir la fórmula que nos da el error de una función de varias variables, es necesario hacer hipótesis adicionales.

Si tenemos una función de dos variables $z = f (x, y)$ no nos basta con conocer los valores medios de $x$ e $y$ y los errores respectivos. Necesitamos además saber si estas variables son independientes o no.

Cuando tenemos dos variables, definimos una función de probabilidad conjunta $p (x, y)$ que nos da la probabilidad de obtener simultáneamente los valores $x$ e $y$ .

Consideremos que dada la función de distribución, representamos en una gráfica la curva que nos da un 95% de probabilidad de obtener un valor de $(x, y)$ próximo al valor “real”. En la mayoría de los casos obtendremos una curva aproximadamente elíptica.

Supongamos las dos distribuciones de probabilidad de las figuras. En ambos casos las bandas de error de $x$ e $y$ , por separado, son las mismas. Sin embargo, en un caso es probable que se obtenga el punto $P$ , mientras que en el otro caso no. La diferencia entre ambos casos es la dependencia entre $x$ e $y$ , esto es, el hecho que la probabilidad de los valores de $y$ dependen de lo que se haya obtenido para $x$ .


$r_{xy}=0\,$	$r_{xy}\neq 0$

Para medir la dependencia entre las dos variables se define la covarianza

$\sigma_{xy} = \left\langle(x-\langle x\rangle)(y-\langle y\rangle)\right\rangle$

y, a partir de esta, la correlación entre las dos variables

$r_{xy} = \frac{\sigma_{xy}}{\sigma_{x}\sigma_{y}}$

Este coeficiente está comprendido en el intervalo $( - 1,1)$ . Un valor nulo indica que las dos variables son independientes. El valor de $y$ no depende en absoluto del valor de $x$ , y la curva del 95% se convierte en una elipse “horizontal”. Si $r = + 1$ las dos variables están absolutamente correlacionadas. Dado $x$ tenemos determinado completamente el valor de $y$ y la elipse se reduce a una recta oblicua.

Suponiendo que disponemos de alguna manera de medir la covarianza o la correlación entre dos variables, podemos determinar el error de una función de ambas como sigue:

En primer lugar consideramos de nuevo la serie de Taylor en torno al valor medido de $x$ e $y$ , en este caso aplicando la fórmula para dos variables

$f(x,y) \simeq f(x_0,y_0) + (x-x_0) \frac{\partial f}{\partial x} + (y-y_0) \frac{\partial f}{\partial y}$

El valor medio de esta cantidad es simplemente

$\left\langle f(x,y)\right\rangle \simeq f(x_0,y_0)$

mientras que la varianza nos da

$\left\langle(f(x,y)-f(x_0,y_0))^2\right\rangle = \langle (x-x_0)^2 \rangle \left(\frac{\partial f}{\partial x}\right)^2 + 2\langle (x-x_0)(y-y_0) \rangle \left(\frac{\partial f}{\partial x}\right)\left(\frac{\partial f}{\partial y}\right)+ \langle (y-y_0)^2 \rangle \left(\frac{\partial f}{\partial y}\right)^2$

esto es

$\sigma_z = \sqrt{\sigma_x^2 \left(\frac{\partial f}{\partial x}\right)^2 + 2\sigma_{xy} \left(\frac{\partial f}{\partial x}\right)\left(\frac{\partial f}{\partial y}\right) + \sigma_y^2 \left(\frac{\partial f}{\partial y}\right)^2}$

Introduciendo la proporcionalidad entre los errores y la desviación cuadrática media, así como la correlación nos queda finalmente la expresión completa

$E_z = \sqrt{\left(\frac{\partial f}{\partial x}\right)^2 E_x^2+ 2\left(\frac{\partial f}{\partial x}\right)\left(\frac{\partial f}{\partial y}\right) E_xE_y r_{xy} + \left(\frac{\partial f}{\partial y}\right)^2E_y^2}$

En el caso particular de que $x$ e $y$ sean independientes, $r x y = 0$ y la expresión se reduce a la habitual:

$E_z = \sqrt{\left(\frac{\partial f}{\partial x}\right)^2 E_x^2 + \left(\frac{\partial f}{\partial y}\right)^2E_y^2}$

La extensión es inmediata al caso de más de dos variables, añadiendo las demás derivadas y términos cruzados.

Como ilustración trivial del problema de la independencia, consideremos la función

$z = x^2 = x{\cdot}x$

Si calculamos el error aplicando la fórmula de la derivada para una variable nos queda

E z = 2 x E x

pero si se nos ocurriera hacerlo como la derivada de un producto y aplicáramos la fórmula que presupone variables independientes resultaría

$E_z = \sqrt{x^2 E_x^2 + x^2 E_x^2} = \sqrt{2}x E_x$

que es una expresión incorrecta.

En este caso es evidente el fallo, porque sabemos que las variables que se multiplican son la misma, pero en muchos casos, no es nada evidente la presencia de una correlación entre dos de las variables que aparecen en una función. En otro artículo se ve un ejemplo para las rectas de mejor ajuste.

La presencia de correlaciones afecta también al cálculo del error de una magnitud medida repetidas veces ya que la media aritmética

$\overline{x} = \frac{1}{n}(x_1 + x_2 + \cdots)$

es en sí misma una función de varias variables y si éstas no son independientes, esto es, si el proceso de una de las medidas afecta al resto, ya la fórmula para el error de la media pasa a ser incorrecta.

@@ Línea 130: / Línea 130: @@
 <center><math>x \in \left(x_0 - E_x, x_0 + E_x\right)</math></center>
+[[Imagen:Errorfuncion1v.png|right]]
 Por tanto, <math>y=f(x)</math> tendrá la misma probabilidad de encontrarse en el intervalo
@@ Línea 167: / Línea 169: @@
 Supongamos las dos distribuciones de probabilidad de las figuras. En ambos casos las bandas de error de <math>x</math> e <math>y</math>, por separado, son las mismas. Sin embargo, en un caso es probable que se obtenga el punto <math>P</math>, mientras que en el otro caso no. La diferencia entre ambos casos es la dependencia entre <math>x</math> e <math>y</math>, esto es, el hecho que la probabilidad de los valores de <math>y</math> dependen de lo que se haya obtenido para <math>x</math>.
+{|class="bordeado"
+|-
+| [[Imagen:correlacion01.png]]
+| [[Imagen:correlacion02.png]]
+|-
+| <math>r_{xy}=0\,</math>
+| <math>r_{xy}\neq 0</math>
+|-
+|}
 Para medir la dependencia entre las dos variables se define la ''covarianza''

Deducción de las fórmulas para la incertidumbre

De Laplace

última version al 11:43 24 mar 2010

Contenido

1 Error estadístico

1.1 Extensión al caso de datos con diferentes errores

2 Error de una función de una variable

3 Funciones de varias variables. Importancia de la independencia

Herramientas:

Buscar

Vistas

Herramientas

Herramientas personales

Navegación

SEARCH

TOOLBOX

LANGUAGES