Deducción de las fórmulas para la incertidumbre
De Laplace
(→Extensión al caso de datos con diferentes errores) |
(→Funciones de varias variables. Importancia de la independencia) |
||
(Una edición intermedia no se muestra.) | |||
Línea 130: | Línea 130: | ||
<center><math>x \in \left(x_0 - E_x, x_0 + E_x\right)</math></center> | <center><math>x \in \left(x_0 - E_x, x_0 + E_x\right)</math></center> | ||
+ | |||
+ | [[Imagen:Errorfuncion1v.png|right]] | ||
Por tanto, <math>y=f(x)</math> tendrá la misma probabilidad de encontrarse en el intervalo | Por tanto, <math>y=f(x)</math> tendrá la misma probabilidad de encontrarse en el intervalo | ||
Línea 167: | Línea 169: | ||
Supongamos las dos distribuciones de probabilidad de las figuras. En ambos casos las bandas de error de <math>x</math> e <math>y</math>, por separado, son las mismas. Sin embargo, en un caso es probable que se obtenga el punto <math>P</math>, mientras que en el otro caso no. La diferencia entre ambos casos es la dependencia entre <math>x</math> e <math>y</math>, esto es, el hecho que la probabilidad de los valores de <math>y</math> dependen de lo que se haya obtenido para <math>x</math>. | Supongamos las dos distribuciones de probabilidad de las figuras. En ambos casos las bandas de error de <math>x</math> e <math>y</math>, por separado, son las mismas. Sin embargo, en un caso es probable que se obtenga el punto <math>P</math>, mientras que en el otro caso no. La diferencia entre ambos casos es la dependencia entre <math>x</math> e <math>y</math>, esto es, el hecho que la probabilidad de los valores de <math>y</math> dependen de lo que se haya obtenido para <math>x</math>. | ||
+ | |||
+ | {|class="bordeado" | ||
+ | |- | ||
+ | | [[Imagen:correlacion01.png]] | ||
+ | | [[Imagen:correlacion02.png]] | ||
+ | |- | ||
+ | | <math>r_{xy}=0\,</math> | ||
+ | | <math>r_{xy}\neq 0</math> | ||
+ | |- | ||
+ | |} | ||
Para medir la dependencia entre las dos variables se define la ''covarianza'' | Para medir la dependencia entre las dos variables se define la ''covarianza'' |
última version al 10:43 24 mar 2010
Contenido |
1 Error estadístico
En otros artículos se enuncian las expresiones para, dado un conjunto de medidas xi de una misma magnitud x, establecer qué valor le asignamos a la medida y a su error como
con la variable relativa a la media.
La justificación de estas fórmulas proviene de una hipótesis básica: que existe una cierta distribución para las distintas medidas.
Supongamos que hacemos muchas medidas de esta magnitud y vamos clasificando los resultados según la frecuencia con que aparece cada valor. Cuando el número de medidas tiende a infinito obtenemos lo que se llama la función de distribución, p(x).Esta función nos permite obtener la probabilidad de un resultado concreto, de un intervalo de valores, o la probabilidad para una variable A, función de x.
Dada la función de distribución de la variable x, p(x), el valor esperado (para entendernos, el promedio) de la variable A(x) viene dado por
que, en palabras, significa que el promedio de A no es más que la suma de todos los valores, teniendo en cuenta que algunos valores de x aparecen más a menudo que otros.
Las funciones de distribución, p(x), pueden ser de diferentes tipos, pero la más común es la llamada distribución gaussiana, con forma de campana, como la curva continua de la figura anterior.
Dada la función de distribución de una magnitud, dos son sus características principales:
- Media
- o esperanza. Equivale a la media aritmética de los resultados, cuando el número de medidas tiende a infinito. Para una distribución gaussiana, la media corresponde al valor de x para el máximo de la campana. Representaremos la media de la distribución como
- Varianza
- Se define como
- y da una medida de la dispersión de los datos alrededor del valor medio, esto es, de la anchura de la distribución.
- Para ser más precisos, la raíz de la varianza se denomina la desviación cuadrática media, σ, y, para una distribución gaussiana, es igual a la mitad de la anchura de la campana, medida a una altura e − 1 / 2 = 0.61$ del máximo.
Para el caso de una distribución gaussiana, si tomamos una banda de anchura 2σ alrededor de la media, la probabilidad de que nuestras medidas queden dentro de este intervalo es de un 95.5%. Se entiende entonces que, adoptando el criterio del 95% para la banda de error, una muy buena aproximación para el error de una cierta cantidad es
Como criterio supondremos que, dado un conjunto de datos, que suponemos que sigue una cierta distribución de probabilidad, el valor “real” de la medida es la media de la distribución correspondiente.
El problema que surge es que la media de la distribución (y la desviación cuadrática media) sólo se conoce tras infinitas medidas, lo cual la hace inalcanzable.
Se trata entonces de, con un número finito de datos, hallar la mejor aproximación posible a la media.
Una forma de obtenerla es mediante el método de mínimos cuadrados. Cuando se consideran infinitas medidas, se verifica que la cantidad
es mínima cuando a = α, esto es, para la media de la distribución. La idea es mantener esta expresión para un número finito de datos. La mejor estimación para la media de la distribución será aquel valor de a que haga mínima la cantidad
Aplicando la fórmula para el mínimo de una función tenemos
donde hemos separado los dos sumandos y sacado factor común. El valor óptimo será entonces
esto es, la media aritmética. Esto está en perfecto acuerdo con la idea de que la media de la distribución coincide con la media aritmética cuando el número de medidas tiende a infinito.
Para hallar el error de esta estimación, partimos de que si tenemos un conjunto de medidas independientes entre sí, se verifica que la varianza de la suma es la suma de las varianzas
por lo que
donde es la varianza de la distribución de los datos, que también debemos estimar.
Para hallar la aproximación a la varianza, puede hacerse un razonamiento similar al de la media, pero ligeramente más complicado. Sabemos que, en el límite de infinitas medidas, la varianza verifica
Si intentamos extender esta fórmula a un número finito de datos, debemos tener en cuenta que la propia media aritmética está sometida a error, de forma que la mejor aproximación a la varianza de los datos es
La razón de que aparezca n − 1 en lugar de n en el denominador se debe precisamente a que es una aproximación a la verdadera media de la distribución y no coincide exactamente con ella.
La estimación de la varianza de la media será entonces
La aproximación a la desviación cuadrática media será la raíz de esta cantidad, por lo que la mejor aproximación a la magnitud y su error será
que es la expresión que aparece en el artículo correspondiente.
1.1 Extensión al caso de datos con diferentes errores
Las fórmulas anteriores presuponen que todas las medidas pertenecen a la misma distribución y por tanto están sujetas al mismo error. Sin embargo, puede ocurrir que tengamos una serie de datos con errores diferentes y aun así estemos interesados en hallar la mejor aproximación a la media.
En este caso, al método de mínimos cuadrados aun es aplicable, pero la función que debemos minimizar es
siendo Ei el error del dato i. La interpretación de esta modificación es simple: tenemos más en cuenta aquellos datos que tienen menos error, mientras que los que tienen un error más grande aportan una contribución pequeña al sumatorio.
En la figura, representa la media que obtendríamos si consideramos todos los datos con el mismo error, mientras que sería el resultado si se tiene en cuenta que los valores superiores son más inciertos que los inferiores.
La formula corregida para la media sigue siendo
pero donde ahora los sumatorios valen
2 Error de una función de una variable
En otro artículo se enuncia que si tenemos una variable x cuya medida y error son de la forma
y queremos calcular, a partir de ella, una función y = f(x), asignamos como valor de la función a y0 = f(x0) y, como error,
Para explicar esta expresión partimos, de que, con un 95% de probabilidad x está comprendida en el intervalo
Por tanto, y = f(x) tendrá la misma probabilidad de encontrarse en el intervalo
Sin embargo, como comentamos antes, no resulta una banda centrada en f(x0)
En la mayoría de los casos, no obstante, se cumple que el error es una cantidad pequeña y podemos hacer el desarrollo en serie de Taylor en torno al punto x0. En este caso, sí resulta una banda simétrica. Aplicando esta función a los extremos del intervalo resulta aproximadamente
siendo el punto medio del intervalo
y siendo el error la mitad de la distancia entre los extremos del intervalo de f(x)
que es la expresión que dimos antes.
Si ocurre que esta derivada es nula o el error es muy grande, habrá que retener más términos en el desarrollo en serie de Taylor o recurrir a la expresión original, admitiendo una barra de error asimétrica.
3 Funciones de varias variables. Importancia de la independencia
Para deducir la fórmula que nos da el error de una función de varias variables, es necesario hacer hipótesis adicionales.
Si tenemos una función de dos variables z = f(x,y) no nos basta con conocer los valores medios de $x$ e $y$ y los errores respectivos. Necesitamos además saber si estas variables son independientes o no.
Cuando tenemos dos variables, definimos una función de probabilidad conjunta p(x,y) que nos da la probabilidad de obtener simultáneamente los valores x e y.
Consideremos que dada la función de distribución, representamos en una gráfica la curva que nos da un 95% de probabilidad de obtener un valor de (x,y) próximo al valor “real”. En la mayoría de los casos obtendremos una curva aproximadamente elíptica.
Supongamos las dos distribuciones de probabilidad de las figuras. En ambos casos las bandas de error de x e y, por separado, son las mismas. Sin embargo, en un caso es probable que se obtenga el punto P, mientras que en el otro caso no. La diferencia entre ambos casos es la dependencia entre x e y, esto es, el hecho que la probabilidad de los valores de y dependen de lo que se haya obtenido para x.
Para medir la dependencia entre las dos variables se define la covarianza
y, a partir de esta, la correlación entre las dos variables
Este coeficiente está comprendido en el intervalo ( − 1,1). Un valor nulo indica que las dos variables son independientes. El valor de y no depende en absoluto del valor de x, y la curva del 95% se convierte en una elipse “horizontal”. Si r = + 1 las dos variables están absolutamente correlacionadas. Dado x tenemos determinado completamente el valor de y y la elipse se reduce a una recta oblicua.
Suponiendo que disponemos de alguna manera de medir la covarianza o la correlación entre dos variables, podemos determinar el error de una función de ambas como sigue:
En primer lugar consideramos de nuevo la serie de Taylor en torno al valor medido de x e y, en este caso aplicando la fórmula para dos variables
El valor medio de esta cantidad es simplemente
mientras que la varianza nos da
esto es
Introduciendo la proporcionalidad entre los errores y la desviación cuadrática media, así como la correlación nos queda finalmente la expresión completa
En el caso particular de que x e y sean independientes, rxy = 0 y la expresión se reduce a la habitual:
La extensión es inmediata al caso de más de dos variables, añadiendo las demás derivadas y términos cruzados.
Como ilustración trivial del problema de la independencia, consideremos la función
Si calculamos el error aplicando la fórmula de la derivada para una variable nos queda
pero si se nos ocurriera hacerlo como la derivada de un producto y aplicáramos la fórmula que presupone variables independientes resultaría
que es una expresión incorrecta.
En este caso es evidente el fallo, porque sabemos que las variables que se multiplican son la misma, pero en muchos casos, no es nada evidente la presencia de una correlación entre dos de las variables que aparecen en una función. En otro artículo se ve un ejemplo para las rectas de mejor ajuste.
La presencia de correlaciones afecta también al cálculo del error de una magnitud medida repetidas veces ya que la media aritmética
es en sí misma una función de varias variables y si éstas no son independientes, esto es, si el proceso de una de las medidas afecta al resto, ya la fórmula para el error de la media pasa a ser incorrecta.