Concepto
La mayoría de las poblaciones contiene subgrupos que muestran características similares, en este tipo de relaciones se basan las técnicas de clasificación, que tratan de crear grupos de individuos en base a una serie de características comunes. El investigador será, por tanto, capaz de realizar una serie de estructuras básicas con los datos, basadas en las relaciones de independencia de los individuos.
Principales técnicas de clasificación
De entre las técnicas de clasificación más usuales debido a la versatilidad de aplicación, encontramos el análisis cluster y el análisis discriminante.
1. Análisis Cluster
Conocido también como análisis de conglomerados, tiene como objetivo final agrupar objetos basándose en las características que poseen. Los conglomerados que resulten de la clasificación deben tener un alto grado de homogeneidad interna y un alto grado de heterogeneidad externa. Si la clasificación es correcta, cuando se realice la representación gráfica de los mismos, los elementos de un mismo conglomerado deben estar muy próximos y alejados del resto de los valores pertenecientes a otros conglomerados. Es utilizado fundamentalmente como una técnica exploratoria, debido a que no tiene bases estadísticas sobre las cuales deducir inferencias estadísticas para una población a partir de una muestra. Existen dos tipos de conglomerados: jerárquicos y no jerárquicos. Los conglomerados jerárquicos son de mayor utilización, y en todo proceso se debe tener en cuenta el método de agrupación. Los principales métodos son los siguientes:
- - Vinculación inter-grupos
- - Vinculación intra-grupos
- - Vecino más próximo
- - Vecino más lejano
- - Agrupación de centroides
- - Agrupación de medianas
- - Método de Ward
Una vez determinado el método de agrupación, se debe calcular la distancia utilizada. Para realizar este método, las más conocidas son las siguientes: distancia euclídea, distancia euclídea al cuadrado, coseno, correlación de Pearson y Chebychev, entre otras.
2. Análisis Discriminante
Es conocido en algunos manuales como análisis de clasificación. El investigador parte de una serie de poblaciones de las que obtiene una serie de observaciones, y tratará de determinar la procedencia de cada una de las observaciones asociándola a una de las poblaciones. El análisis discriminante debe proporcionar un esquema de clasificación que permita al investigador predecir la población de la que es más probable que tenga que venir una determinada observación. El análisis discriminante es la técnica apropiada cuando la variable dependiente es categórica, y las variables independientes son métricas. Si la técnica es aplicada a más de dos grupos, es conocida como análisis discriminante múltiple. Nos centraremos en la clasificación en dos poblaciones: existen diversas reglas de establecer el análisis discriminante, aunque en la mayoría de las ocasiones estos procedimientos son equivalentes, su aplicación se utiliza en la discriminación para dos poblaciones normales multivariadas. Las principales reglas son:
- - La regla de verosimilitud
- - La regla de función discriminante lineal
- - La regla de distancia de Mahalanobis
- - La regla de probabilidad posterior
En realidad, en la práctica estas reglas son de reducida aplicabilidad, al no conocer los parámetros poblacionales de cada una de las muestras, por tanto, estos parámetros se deben estimar a partir de muestras de estas poblaciones. En estos casos se utilizan las siguientes estimaciones:
- - Estimación de las probabilidades de una clasificación correcta
- - Estimación por restitución
- - Estimación a partir de datos propuestos
- - Estimación de validación cruzada
Recuerde que...
- • Técnicas de clasificación: Análisis Cluster y Análisis Discriminante.
- • El Análisis Cluster tiene como objetivo final agrupar objetos basándose en las características que poseen.
- • El Análisis Discriminante: De una serie de observaciones, se trata de determinar la procedencia de cada una de ellas asociándola a una de las poblaciones.