Concepto
Llamaremos datos atípicos a aquellas observaciones significativamente diferentes al resto de los datos. En una serie de datos, por ejemplo, la presión sistólica de seis individuos son los siguientes: 134, 136, 145, 138, 152 y 218, podemos suponer que el último de los datos puede considerarse como un dato atípico u outlier.
Más formalmente, el término se refiere a una observación que parece ser incompatible con el resto de los datos relativos a un modelo asumido. Tales observaciones extremas pueden estar reflejando alguna alteración en la característica medida, o bien pueden ser el resultado de un error en la medición o tabulación de los datos. Este tipo de datos debe ser tratado y analizado por separado al resto de los datos.
Las consecuencias de una observación atípica dentro del conjunto de los datos puede ser importante, llegando a distorsionar medidas características de la distribución como la media o la desviación típica.
Tratamiento de outlier
La caracterización de este tipo de datos suele ser sencilla, debido a la disparidad que presentan con el resto de las observaciones. Existen diversos procedimientos para la detección de outlier, en gran parte la aplicación de uno u otro método no suele ser excluyente y, en la mayoría de ocasiones, se recomienda la utilización de diversos métodos y posterior comparación de los resultados. La aplicación de uno u otro método muchas veces está condicionada por la forma y distribución de los datos; en definitiva, no existe un único método aplicable en cada caso. Así, el problema de detección de outlier se convierte en una de las principales cuestiones a tratar dentro del análisis de datos.
La distancia de un determinado valor (por ejemplo, la distancia euclídea y la de Mahalanobis) al valor promedio de la serie constituye uno de los procedimientos más usuales de la caracterización de datos atípicos, que unida a la representación gráfica de los mismos nos puede dar información de la composición de los datos.
Para tratar la heterogeneidad producida por una serie se suelen utilizar dos procedimientos:
- — Utilización de estimadores robustos, los cuales son diseñados para el trabajo con este tipo de datos y no le afecta en gran medida su presencia.
- — Realizar una detección de los datos atípicos y posteriormente realizar una limpieza de los mismos, eliminando de la serie de datos todos los puntos sospechosos, para trabajar con series libres de outlier. Este puede ser un procedimiento iterativo, ya que una vez limpiada la serie, se procederá a realizar una nueva búsqueda de atípicos, pero en este caso los valores se ajustarán mucho más, debido a la anterior eliminación de algunos datos distorsionantes.
La dimensión de trabajo constituye otro de los principales problemas a tener en cuenta. Así, la detección univariante no identificará como datos atípicos a muchos datos que serían considerados outlier por los métodos multivariantes. Veremos a continuación los principales procedimientos, teniendo en cuenta la dimensión de los mismos:
- — Detección univariante. La perspectiva univariante selecciona como datos atípicos aquellos casos que están fuera de unos determinados rangos fijados a priori. La principal dificultad radica en la determinación de ese umbral, que depende del tamaño de la muestra o la procedencia de los datos. Aunque no existe una pauta general, se consideran atípicos los valores una vez estandarizados superiores a 2,5 el valor promedio para muestras pequeñas; cuando se incrementa el tamaño muestral (normalmente a partir de 100 observaciones), se amplían a 3 o 4 veces. De todas formas, el investigador debe tener en cuenta que, si maneja datos donde la mayoría se encuentran fuera de ese rango, debe replantearse los límites, el tratamiento de los mismos, su calidad, etc.
- — Detección bivariante. Además de la detección anterior, pueden evaluarse conjuntamente pares de números. Generalmente, para ayudar al aislamiento de los datos atípicos suele llevarse a cabo la representación gráfica de los mismos y el trazado de una elipse que determinará los valores a incluir, el tamaño varía y nunca debe ser inferior al 50 % de los datos.
- — Detección Multivariante: La tercera perspectiva para identificar casos atípicos implica una evaluación multivariante de los mismos, que, de entre todos los métodos posibles para la detección, la distancia D2 de Mahalanobis parece la de mayor aplicación.
Recuerde que...
- • Son datos atípicos a aquellas observaciones significativamente diferentes al resto de los datos.
- • Las consecuencias de una observación atípica dentro del conjunto de los datos puede ser importante, llegando a distorsionar medidas características de la distribución como la media o la desviación típica.
- • Existen diversos procedimientos para la detección de outlier, en gran parte la aplicación de uno u otro método no suele ser excluyente y, en la mayoría de ocasiones, se recomienda la utilización de diversos métodos y posterior comparación de los resultados.
- • La detección univariante no identificará como datos atípicos a muchos datos que son considerados outlier por los métodos multivariantes.