Concepto
La inferencia estadística es la colección de técnicas que permiten formular inferencias inductivas acerca de una característica de una determinada población sobre la base de la información que contiene la muestra observada, y que proporcionan una medida del riesgo de estas.
Pues bien, expuesta la anterior definición, trabajar con la muestra al completo y de forma exhaustiva no es fácil ni cómodo. Ello se puede comprobar sin más que imaginarse un listado de páginas y páginas sobre alturas de los habitantes de una determinada localidad para tratar de determinar (a partir de ellas) la altura media de los habitantes de dicha localidad (el parámetro sobre el cual se quieren llevar a cabo las inferencias).
¿No sería mejor “condensar” toda la información que contienen las variables muestrales acerca del parámetro objeto de estimación (muchas variables aleatorias) en una sola, cuyo manejo es más sencillo y más cómodo? Obviamente, la respuesta es afirmativa. Pues bien:
- 1. A cualquier función de las variables muestrales se le denomina estadístico.
- 2. Si dicha función es susceptible de ser utilizada para estimar el parámetro en el que se tiene interés, se denomina estimador, y si el parámetro se denota por θ su estimador se denota por .
Por consiguiente, un estimador es una función de las variables muestrales que se utiliza, para hacernos una idea sobre el valor del parámetro objeto de estudio. Es completamente lógico que sea una función (una especie de compendio) de las variables muestrales, porque actúa como “representante” del conjunto de estas. Al resultado que se obtiene del estimador cuando se le introduce la información muestral se le denomina estimación del parámetro θ.
El buen estimador
Ahora la pregunta es la siguiente: ¿Cualquier función de las variables muestrales es un buen estimador del θ? O en otros términos, ¿qué se le debe exigir a un estimador para que sea considerado un buen estimador?
El primero de los requisitos que se le deben exigir a un buen estimador es que recoja toda la información que contiene la muestra acerca del parámetro. Si en el proceso de paso de la laboriosidad de trabajar con toda la muestra (que contiene una determinada información sobre el parámetro) a la comodidad de trabajar con una sola variable (el estimador), se pierde parte de la información que contiene la muestra acerca del parámetro, el proceso no habrá merecido la pena. Ahora bien, si el estimador (rápido y cómodo) recoge toda la información que la muestra (lentitud e incomodidad) contiene acerca del parámetro, la utilización de este estimador puede considerarse una decisión inteligente. Pues bien, a este tipo de estimadores que recogen toda la información que contiene la muestra acerca del parámetro objeto de estimación se les denomina estimadores suficientes. En realidad, el término “estimador suficiente” debe entenderse como que, para hacerse una idea sobre el parámetro en cuestión, es suficiente con observar el estimador, puesto que la observación posterior de la muestra, una vez conocido el valor del estimador, no aporta información adicional alguna sobre el valor del parámetro. En términos más formales: una vez conocido el valor del estimador, la distribución de probabilidad conjunta de las variables muestrales no depende del parámetro; entonces, ¿que información va a aportar la muestra sobre el parámetro, si una vez conocido el valor del estimador, su distribución de probabilidad ya no depende del parámetro? Evidentemente, ninguna.
A modo de ejemplo, considérense el parámetro “altura media de los habitantes de una determinada localidad” y el estimador “media aritmética de las alturas observadas en la muestra”. Una vez conocido el valor de la media muestral de alturas, la observación de los valores muestrales (alturas de los individuos seleccionados en la muestra) nos podrá decir acerca del valor de la altura media de los habitantes de la localidad en cuestión. Nos permitirá observar características como la variabilidad de los valores muestrales (una determinada media muestral puede darse con mucha o poca variabilidad de los valores muestrales), si su distribución es o no asimétrica, etc. Pero no nos dará información adicional sobre el valor medio de las alturas de los habitantes de la localidad en cuestión.
Información de Fisher
¿Y cómo medir la información que contiene una muestra acerca de un parámetro? ¿Y como saber si un estimador contiene la misma información que la muestra acerca del parámetro en cuestión? La respuesta no es obvia, y excede el ámbito de este texto, pero a continuación se muestran las expresiones que dan respuesta a ambas preguntas.
Se denomina cantidad de información de Fisher que contiene una muestra a la siguiente expresión:
donde L denota la función de verosimilitud (véase verosimilitud) del parámetro θ a la luz de la muestra X.
Como la información de Fisher es una medida de información aditiva, y en el muestreo aleatorio simple (que es el habitual en el ámbito inferencial) todas las variables muestrales contienen la misma información acerca del parámetro de interés, en la práctica lo que se suele hacer es calcular la información sobre el parámetro θ que contiene una única variable muestral y, posteriormente se multiplica por n, el número de variables muestrales:
También en la práctica, para determinar si un estimador es o no suficiente (para estimar un determinado parámetro), se recurre al Criterio de Factorización de Fisher-Neymann, que se formula en los siguientes términos: “La condición necesaria y suficiente para que un estadístico sea suficiente es que la función de verosimilitud del parámetro se pueda descomponer en dos funciones: una dependiente del parámetro y de la muestra, a través del estadístico, y otra independiente del parámetro”
Estimador insesgado y estimador sesgado
Otras propiedades relevantes que debe cumplir un estimador para ser calificado de buen estimador son la insesgadez o ausencia de sesgo, la eficiencia o reducida variabilidad y la consistencia o comportamiento probabilístico del estimador a medida que aumenta el tamaño de la muestra.
Se dice que un estimador es insesgado (centrado) si su valor esperado coincide con el parámetro a estimar.
Por el contrario, si el estimador será sesgado (no centrado), siendo b(θ) la cuantía del sesgo (bias en inglés, de ahí que se represente por una b). Normalmente, el sesgo depende del parámetro; de ahí que se denote como b(θ).
Para entender mejor el concepto de insesgadez, imaginemos una diana en cuyo centro está el parámetro a estimar. El estimador hará las funciones de una pistola que se carga con balas que son las distintas muestras de un determinado tamaño susceptibles de ser seleccionadas en el proceso de muestro llevado a cabo. Pues bien, si el estimador es insesgado o centrado, al introducirle las balas (muestras) y dispararlo proporcionará estimaciones que pueden estar todas ellas centradas en torno al verdadero valor del parámetro, representado gráficamente por una estrella, (Figuras 1 y 2) o no (Figura 3). Lógicamente, atendiendo al criterio de insesgadez, desearemos estimadores que proporcionen estimaciones como las de las Figuras 1 y 2, y no como las de la Figura 3.
Se dice que un estimador es asintóticamente insesgado si, teniendo sesgo, este tiende a anularse a medida que aumenta el tamaño de la muestra:
Obviamente, en caso de no disponer de estimadores insesgados se desea que sean asintóticamente insesgados.
Céntrese ahora la atención en las Figuras 1 y 2. Ambas corresponden a estimadores insesgados del parámetro θ, pero las estimaciones del primer estimador (Figura 1) están menos dispersas en torno al verdadero valor del parámetro que las proporcionadas por el estimador 2 (Figura 2). Pues bien, se dice que un estimador insesgado es más eficiente que otro (también insesgado) si la variabilidad de sus estimaciones en torno a su valor medio es menor que las de ese otro. Lo dicho se puede generalizar al caso en que ambos estimadores tengan el mismo sesgo.
Dado que no parece muy efectivo el tener que comparar la varianza de un determinado estimador (insesgado o con un determinado sesgo) con la de todos los posibles estimadores del parámetro en cuestión (también insesgados o del mismo sesgo), ahora la pregunta es: ¿Cómo saber si el estimador que estamos manejando tiene la menor varianza posible de entre todos los estimadores insesgados o de un determinado sesgo? La respuesta a efectos prácticos viene de la mano de la denominada Cota de Frechet-Cramer-Rao (CFCR). Si la varianza del estimador en cuestión coincide con la CFCR, entonces podremos encontrar estimadores (insesgados o del sesgo considerado) con la misma varianza que él, pero no con una varianza inferior. Solo queda, pues, definir la CFCR. La CFCR se define como:
y en caso de estimadores insesgados coincide el inverso de la cantidad de información de Fisher:
Si un estimador tiene como varianza la CFCR se denomina eficiente absoluto, si bien, en la realidad, se le suele denominar simplemente eficiente.
No obstante, se ha de realizar una matización a este respecto. Es posible encontrar un estimador insesgado (o de un determinado sesgo) que tenga la menor varianza entre los de su clase, pero cuya varianza sea mayor que la CFCR. Evidentemente, dicho estimador será eficiente absoluto aunque su varianza no alcance la CFCR. El alcanzar dicha cota es una condición suficiente de eficiencia absoluta, pero no necesaria.
Igual que en el caso de la insesgadez, en caso de no disponer de un estimador eficiente absoluto, el second best será la disposición de un estimador asintóticamente eficiente absoluto, esto es, con menor varianza que sus contendientes a medida que aumenta el tamaño de la muestra. De nuevo, bastará con que se verifique que
Si un estimador tiene como varianza la CFCR, se denomina eficiente absoluto, si bien, en la realidad, se le suele denominar simplemente eficiente.
No obstante, se ha de realizar una matización a este respecto. Es posible encontrar un estimador insesgado (o de un determinado sesgo) que tenga la menor varianza entre los de su clase pero cuya varianza sea mayor que la CFCR. Evidentemente, dicho estimador será eficiente absoluto aunque su varianza no alcance la CFCR. El alcanzar dicha cota es una condición suficiente de eficiencia absoluta, pero no necesaria.
Igual que en el caso de la insesgadez, en caso de no disponer de un estimador eficiente absoluto, el second best será la disposición de un estimador asintóticamente eficiente absoluto, esto es, con menor varianza que sus contendientes a medida que aumenta el tamaño de la muestra. De nuevo, bastará con que se verifique que
si bien esta no es una condición necesaria.
En caso de disponer de dos estimadores insesgados o del mismo sesgo, la elección entre ellos está clara: el de menor varianza o, lo que es lo mismo, el más eficiente de los dos. Sin embargo, si uno tiene mayor sesgo y el otro menor varianza, o uno tiene menor sesgo y el otro mayor varianza, la decisión resulta más complicada. En estos casos, se suele elegir el que menor error cuadrático medio tenga, siendo el error cuadrático medio la suma de los “defectos” de un estimador (variabilidad y sesgo, este último al cuadrado para estar en igualdad de condiciones con la varianza).
Este criterio, es, en general, ciertamente aceptable, pero presenta alguna deficiencia. Tal es el caso de un estimador con sesgo grande con una varianza pequeña cuyo error cuadrático medio sea menor que el de otro con mucha varianza pero poco sesgo. En este caso, la elección del primer estimador nos condenaría a cometer un importante error de estimación (Figura 3), mientras que la elección del segundo nos daría algunas posibilidades de que la estimación se situase “cerca” del valor del parámetro de interés.
Dicho lo anterior, centrémonos ahora en el comportamiento del estimador a medida que aumenta el tamaño de la muestra. Si para un estimador dado, se aumenta progresivamente el tamaño de la muestra, se esperará que, a partir de un determinado tamaño de muestra sea muy raro que el error de estimación cometido supere un determinado ε > 0. En otras palabras, se esperará que converja en probabilidad a θ:
O lo que es lo mismo, por el Teorema de Tchebycheff, se esperará que la varianza y el sesgo (si es que lo tuviese) del estimador tiendan a cero a medida que el tamaño de la muestra tiende a infinito. Pues bien, a los estimadores que verifican esta circunstancia se les denomina estimadores consistentes.
Recuerde que...
- • El primero de los requisitos que se le deben exigir a un buen estimador es que recoja toda la información que contiene la muestra acerca del parámetro.
- • Los estimadores que recogen toda la información que contiene la muestra acerca del parámetro objeto de estimación se les denomina estimadores suficientes.
- • El criterio de factorización de Fisher-Neymann dice que la condición necesaria y suficiente para que un estadístico sea suficiente es que la función de verosimilitud del parámetro se pueda descomponer en dos funciones: una dependiente del parámetro y de la muestra, a través del estadístico, y otra independiente del parámetro.
- • Para ser calificado de buen estimador son características importantes la insesgadez o ausencia de sesgo, la eficiencia o reducida variabilidad y la consistencia o comportamiento probabilístico del estimador a medida que aumenta el tamaño de la muestra.
- • Un estimador es asintóticamente insesgado si, teniendo sesgo, este tiende a anularse a medida que aumenta el tamaño de la muestra.