Concepto
Posiblemente el problema central dentro del análisis estadístico de datos sea la reducción de la dimensionalidad. Las principales técnicas de reducción de la dimensión tienen por objetivo final condensar la información de un conjunto de variables en un nuevo conjunto de variables (de menor número que el anterior), con el menor coste de información posible.
Técnicas de reducción de la dimensión
1. Análisis por componentes principales
El análisis de componentes principales es un procedimiento matemático que transforma un conjunto de variables correlacionadas en un conjunto menor de variables no correlacionadas, denominadas componentes principales. Esta técnica de reducción de la dimensión eminentemente exploratoria es, posiblemente, una de las más utilizadas en el análisis de datos multivariante. Además, este tipo de análisis también es utilizado cuando el investigador pretende agrupar en unidades semejantes sus datos. La técnica eminentemente exploratoria debe servir al investigador a tener una primera versión de los datos a tratar. Sus objetivos principales (recogidos en la mayoría de la literatura especializada) son:
- - Reducir la dimensión del conjunto de datos.
- - Identificar las nuevas variables subyacentes.
El primero de los objetivos no tiene por qué cumplirse en cualquier análisis de los datos, podemos encontrarnos ante un escenario en que no sea posible reducir la dimensión, debido al número de variables, o bien esta reducción no dé una solución óptima. Respecto al segundo objetivo podemos encontrarnos ante nuevas variables pero que no sean significativas, en cualquier caso, la determinación de estas componentes principales puede tener otras aplicaciones. Debemos tener en cuenta que, si bien se trata de una técnica de reducción de la dimensión, no se pueden eliminar las variables originales, debido a que las mismas son necesarias para evaluar las nuevas variables creadas. Estas nuevas variables, denominadas componentes principales, deben cumplir una serie de requisitos, enumerados a continuación por orden de importancia:
- - No estén incorreladas.
- - Las componentes principales expliquen la mayor parte de la variabilidad de los datos.
2. Análisis factorial
Dentro de las técnicas multivariantes de análisis de datos, el análisis factorial constituye una de las de mayor aplicación, en buena medida propiciada por su implementación en la mayoría de los softwares comerciales estadísticos.
El objetivo fundamental del análisis factorial consiste en definir la estructura subyacente en una matriz de datos. Así, analiza la estructura de interrelaciones entre un gran número de variables y una serie de dimensiones subyacentes, denominadas factores. Con este planteamiento se obtiene una reducción de los datos, esta técnica considera todas las variables de manera simultánea, y se puede abordar desde la óptica exploratoria o confirmatoria, en función de la existencia o no de una base teórica previa. Como en el caso anterior, la delimitación del número de factores a seleccionar resulta la tarea más importante a tener en cuenta. Entre los principales métodos podemos destacar los siguientes:
- - Criterio de raíz latente.
- - Criterio a priori.
- - Criterio de porcentaje de la varianza.
- - Criterio de contraste de caída.
- - Heterogeneidad de la muestra.
Finalmente, una vez seleccionados los factores, la rotación de los factores es una herramienta importantísima a la hora de su interpretación. Por medio de la rotación se redistribuye la varianza de los primeros factores a los últimos para lograr un patrón más simple y teóricamente más significativo. Fundamentalmente, existen dos métodos de rotación, a saber:
- - Rotación ortogonal.
- - Rotación oblicua.
3. Análisis multidimensional
Las técnicas de análisis multidimensional o escalado multidimensional, son una generalización de las componentes principales para los casos en que, en lugar de disponer de una matriz de observaciones, se dispone de una matriz de distancias; por tanto, es un análisis complementario a las componentes principales.
El análisis multidimensional permite al investigador determinar las dimensiones subyacentes claves en las evaluaciones de los objetos de estudio. Este tipo de análisis, también conocido como elaboración de mapas perceptuales, permite al investigador determinar la imagen percibida relativa de un conjunto de objetos, por medio de la transformación de las opiniones de los individuos en distancias representadas en un espacio multidimensional, por tanto, este análisis se basa en las comparaciones entre objetos, suponiendo que cada tipo de objeto posee dimensiones objetivas y subjetivas.
Debe quedar claro, no obstante, que la interpretación de las dimensiones muchas veces se convierte más en un arte que en una ciencia; por ello, se recomienda prudencia por parte de los investigadores a la hora de realizar la interpretación de los mismos.
4. Análisis de correspondencias
El análisis de correspondencias permite representar la información por medio de tablas de contingencia, en ellas se recogen las frecuencias absolutas de las variables. Sería un análisis equivalente al método de componentes principales, pero para atributos o variables cualitativas. Por tanto, su aplicación está muy generalizada debido a que, cada vez con mayor frecuencia, se recurre al estudio de variable de tipo cualitativo, lo que supone que esta técnica asuma una mayor importancia dentro de las técnicas de reducción de la dimensión.
Recuerde que...
- • El análisis de componentes principales es un procedimiento matemático que transforma un conjunto de variables correlacionadas en un conjunto menor de variables no correlacionadas.
- • El objetivo fundamental del análisis factorial consiste en definir la estructura subyacente en una matriz de datos.
- • El análisis multidimensional permite al investigador determinar las dimensiones subyacentes claves en las evaluaciones de los objetos de estudio.
- • El análisis de correspondencias permite representar la información por medio de tablas de contingencia, en ellas se recogen las frecuencias absolutas de las variables.