Introducción
A modo introductorio, y evitando cualquier tipo de formalismo no necesario, el problema que aborda la inferencia estadística es la comprensión de la naturaleza de una determinada característica de una población. Por ejemplo, se puede tener interés en el conocimiento de la altura media de los habitantes de una determinada provincia española. Ello exigiría examinar todos y cada uno de los elementos de dicha población (los habitantes de dicha provincia) y medir la característica objeto de estudio (altura) en cada uno de ellos (dichas mediciones constituirían la población de alturas en la provincia en cuestión). Este procedimiento, exacto y denominado censo, resulta inabordable en la investigación particular por diferentes motivos, siendo el principal de ellos de carácter económico.
La solución a este problema es realizar una “biopsia” de la población, centrando la atención en la característica objeto de estudio, de tal manera que dicha “biopsia” sea una representación a escala de dicha población. En términos estadísticos, esta solución se traduce en tomar una muestra de la característica a estudiar en dicha población, que represente, con la mayor fidelidad posible, el comportamiento de la característica en dicha población.
Por ejemplo, si en una población hay 1.000 bolas del mismo tamaño, 750 blancas y 250 negras, una muestra perfectamente representativa de la población deberá contener las tres cuartas partes de las bolas de color blanco y la cuarta parte restante de color negro (Figura 1).
¿En la realidad se consigue esto? La respuesta es negativa; en la realidad las muestras no son representaciones perfectas o idílicas de la población. Así, en el ejemplo de las bolas, una posible muestra de tamaño 100 podría tener 78 bolas blancas y 22 bolas negras. Es más, como en la realidad no se conoce la realidad poblacional, ni siquiera puede saberse de antemano si una muestra es o no representativa. Entonces, ¿cómo se garantiza la representatividad de la muestra y, por consiguiente, la validez del proceso inferencial? Esta es una buena pregunta, y la respuesta es la siguiente: las desviaciones respecto de la “perfecta representatividad” que se atribuyen al proceso de muestreo no invalidan las actuaciones inferenciales siempre y cuando dichas desviaciones tengan carácter aleatorio, es decir, sean debidas al azar. Por tanto, el azar se encargará de proporcionar una muestra con la representatividad deseada a efectos inferenciales.
En consecuencia, para que la muestra pueda calificarse de representativa, la selección de los elementos de la población de los cuales se tomará información sobre la característica de interés debe ser realizada en condiciones de azar. A las muestras tomadas de esta manera se les denomina muestras probabilísticas o aleatorias. Si además cada muestra de tamaño n tomada de la población tiene la misma probabilidad de ser seleccionada en el proceso de muestreo, la muestra se denominará aleatoria simple (m.a.s.). Este tipo de muestras son las normalmente utilizadas en los procesos inferenciales. Ahora la pregunta es: ¿cómo se obtienen en la práctica las muestras aleatorias simples? Pues bien, para su obtención se suele recurrir a una tabla de números aleatorios mediante el siguiente procedimiento:
- 1) Se enumeran los miembros de la población de 1 a N.
- 2) Se elige de forma arbitraria un lugar en la tabla de números aleatorios. Por ejemplo: fila 3, columna 5.
- 3) Avanzando por filas o por columnas se seleccionan los n números distintos contados a partir del seleccionado.
Esta forma de proceder (a través de muestras aleatorias) permitirá conocer, en términos de probabilidad, el error que se comete al utilizar la muestra como reflejo de la población.
En resumen, el azar garantiza la representatividad de la muestra. Obviamente, cuanto mayor sea el tamaño de esta, mayor será su representatividad pues más información se tendrá acerca de la característica poblacional objeto de estudio.
Una vez en disposición de una muestra aleatoria simple de la característica objeto de estudio en la población de interés, las aseveraciones relativas al comportamiento de la característica en la población se harán en base a la información contenida en la muestra. O en otras palabras, se generalizaran los resultados muestrales al ámbito poblacional. Este procedimiento se denomina “inferencia” y, lógicamente, no está exento de riesgos, porque, por muy representativa que sea la muestra, nunca comprende el total de elementos de la población. Dichos riesgos, sin embargo, se pueden medir en términos de probabilidad.
Retomando el ejemplo de las alturas, una vez que se ha tomado la muestra aleatoria de alturas de la provincia en cuestión, como esta se supone una fiel representación a escala de las alturas de los habitantes de la provincia, se calcularía su altura media (media muestral) y se elevaría el valor de esta a categoría poblacional. La “validez” de la inferencia realizada puede medirse en términos probabilísticos, es decir, por ejemplo, puede calcularse la probabilidad de que, para una muestra del tamaño de la nuestra, la altura media muestral se aleje más de un determinado número de centímetros de la altura media de la población.
Concepto
Dicho lo anterior, ya estamos en condiciones de dar una definición del término “inferencia estadística”: es la colección de técnicas que permiten formular inferencias inductivas acerca de una característica de una determinada población sobre la base de la información que contiene la muestra observada, y que proporcionan una medida del riesgo de estas.
Elementos fundamentales
También estamos en condiciones de enumerar sus cuatro elementos fundamentales:
- — La población en la cual se pretende estudiar la característica de interés y el procedimiento científico que se utiliza para muestrear la población.
- — La muestra y su análisis descriptivo.
- — Las inferencias estadísticas que resulten del análisis descriptivo de la muestra.
- — La probabilidad de que las inferencias realizadas sean correctas.
Estimación y contrastación
Merece la pena recalcar que, sea cual sea el procedimiento de muestreo, los principios de la inferencia estadística son comunes para todos ellos. Sin embargo, para que un problema de inferencia estadística esté bien formulado tiene que incluir el procedimiento de muestreo con el que se obtienen las observaciones. Y es que las propiedades de los estimadores dependen de su distribución de probabilidad y esta depende, a su vez, del procedimiento de muestreo. Por consiguiente, la formación de estimadores no es una operación independiente del procedimiento de muestreo que se adopte.
El conjunto de técnicas que permiten formular inferencias inductivas sobre una característica de una determinada población puede ser dividido en dos grandes bloques: estimación y contrastación. El primero, a su vez puede particionarse en dos sub-bloques: estimación puntual y estimación por intervalos.
La diferencia básica entre estimación y contrastación es que en la estimación no se sabe nada del parámetro objeto de interés (en el ejemplo que se viene arrastrando, la altura media de los habitantes de la provincia en cuestión), y se formula una propuesta en base a la información que proporciona la muestra. Dicha propuesta, que se denomina estimación, puede ser puntual (la altura media es 1,72 metros) o venir dada en forma de intervalo (está entre 1,68 y 1,72 metros). En este último caso, más conservador, el intervalo viene acompañado de una medida de la confianza que se tiene en que el verdadero valor del parámetro esté incluido en el intervalo proporcionado. Por ello, a este tipo de intervalos se les denomina intervalos de confianza.
En el caso de la contrastación de hipótesis se formula una conjetura acerca del parámetro de interés (la altura media es 1,70 metros), denominada hipótesis nula, que se contrastará frente a otra conjetura o hipótesis alternativa (la altura media es 1,75 metros, o menor de 1,70 metros, o mayor que 1,70 metros, o entre 1,75 y 1,80 metros, o es distinta de 1,70 metros), y la información muestral nos llevará a rechazarla o no con el apoyo de una regla de decisión o contraste. Evidentemente, la conjetura no tiene por qué referirse únicamente al valor de algún parámetro.
En resumen, en la inferencia por estimación no se conoce nada acerca del valor del parámetro poblacional de interés y se acude a la muestra para obtener una estimación puntual o por intervalos del mismo. Por el contrario, en la contrastación de hipótesis, se dispone de una conjetura o hipótesis nula que se desea enfrentar a otra alternativa, y será la información muestral la encargada de mantener la hipótesis nula o rechazarla a favor de la alternativa. Obviamente, a la hora de realizar un contraste de hipótesis existen riesgos de cometer error (se rechaza la hipótesis nula siendo cierta o se mantiene la hipótesis nula siendo falsa). En este sentido, un buen contraste tendrá en cuenta este hecho y tratará de que los errores sean lo más pequeños posible.
Para finalizar, en muchas situaciones la característica observada no tiene un carácter cuantitativo, como la altura de los habitantes de la provincia en cuestión. Tales situaciones, donde lo que se observa tiene un carácter cualitativo (como opuesto a cuantitativo) son harto frecuentes en las Ciencias Sociales en general y en las encuestas de mercado en particular. Por ejemplo, al evaluar las preferencias de un consumidor respecto a un tipo de pan, estas se adhieren a una escala numérica significativa, incluso si se le pidiese al consumidor que las califique de 1 (muy negativas) a 5 (muy positivas), puesto que la escala es arbitraria. En términos más sencillos, los números 1, 2, 3, 4 y 5 no tienen ningún significado físico más allá de informar que un número mayor representa una mayor preferencia por el tipo de pan en cuestión que un número menor. Se trata pues de una escala ordinal, donde los números representan un orden, pero solo eso.
En otras ocasiones, también muy frecuentes, las observaciones solo pueden definirse sobre una escala nominal. Así ocurre cuando la característica de interés es el sexo (varón o mujer), la situación de una persona en el mercado laboral (inactivo, ocupado, parado), etc.
Pues bien, estas situaciones se abordan a través de procedimientos inferenciales que no se encuentran sujetos a la forma de la distribución de la población de interés y en las que la característica objeto de estudio no tiene por qué ser necesariamente de tipo cuantitativo. El conjunto de tales métodos, denominados no paramétricos o libres de la distribución, constituye el cuerpo de la inferencia no paramétrica.
Recuerde que...
- • Se dan cuatro elementos fundamentales: la población y el procedimiento científico, La muestra y su análisis descriptivo, las inferencias estadísticas y probabilidad de que las inferencias sean correctas.
- • Para que un problema de inferencia estadística esté bien formulado debe incluir el procedimiento de muestreo con el que se obtienen las observaciones.
- • El conjunto de técnicas está dividido en dos grandes bloques: estimación y contrastación.
- • La estimación se divide en: estimación puntual y estimación por intervalos.