Concepto
Cuando se pretende estudiar la influencia estadística entre dos variables observadas se recurre frecuentemente al análisis de regresión simple, sobre todo el lineal. Sin embargo, cuando están involucradas más de dos variables, las relaciones entre ellas pueden ser complejas, incluyendo efectos directos e indirectos, estructuras de correlación múltiple difíciles de recoger en modelos sencillos, o existencia de variables latentes, es decir, no observadas pero que se reflejan en otras variables sí observadas y son responsables de la asociación entre estas últimas. En estos casos, las técnicas estadísticas clásicas se han mostrado poco eficaces para recoger la estructura de la relación entre las variables.
Por ello, se han desarrollado una serie de modelos estadísticos enfocados a la descripción de las relaciones entre todas las variables implicadas en el fenómeno bajo estudio, teniendo en cuenta la estructura de covarianzas existente. Desde el trabajo pionero de Sewall Wright en 1932 sobre las relaciones de tamaño entre mediciones óseas, que introdujo la técnica del path analysis (o análisis de trayectorias) o los sistemas de ecuaciones lineales en varias variables hasta el análisis factorial confirmatorio o la regresión por mínimos cuadrados parciales, todos ellos se engloban bajo el nombre común de modelos de ecuaciones estructurales (Structural Equations Models, SEM) o modelos de estructura de covarianza (Covariance Structure Models, CSM).
De forma simplificada, un modelo de ecuaciones estructurales se representa mediante un diagrama de trayectorias y un sistema de ecuaciones. El primero sirve como representación simplificada del modelo e indica las características de las variables y las relaciones entre ellas.
En ellos, las variables observables se representan mediante rectángulos y las latentes mediante elipses. Las flechas indican las relaciones causales entre las variables, por lo que las variables dependientes (o endógenas) son aquéllas que reciben al menos una flecha, mientras que se consideran independientes (o exógenas) aquéllas de las que solo salen flechas. También es posible que existan flechas bidireccionales, indicando la correlación entre dos variables en las que no se asume relación de causalidad. Aunque no existe una unanimidad total sobre la forma de designar las variables, sí está bastante extendida la siguiente notación:
- — Las variables latentes se expresan como ηi si son endógenas o ξi si son exógenas.
- — Las variables observadas se describen como Yi si son endógenas y Xi si son exógenas.
- — Los errores de medida se designan como єi si están asociados a variables endógenas y δi si se refieren a variables exógenas.
- — Para las variables latentes se puede incluir un término de perturbación, denotado como ζi, que incluya los efectos de variables omitidas, posibles errores de medida y el error aleatorio asociado al proceso especificado. La varianza de dichos términos de perturbación se simboliza mediante ψi y la posible covarianza entre dos términos de perturbación i y j se denota por ψij.
- — El coeficiente de regresión entre la variable latente j y la variable observada i se designa como λij.
- — El coeficiente de regresión entre una variable latente exógena ξj y otra endógena ηi se simboliza como γij.
- — El coeficiente de regresión desde la variable latente endógena ηj hasta la latente endógena ηi se designa mediante βij.
- — Por último, se representa como Фij la correlación entre dos variables latentes.
Esta representación gráfica del modelo tiene su contrapartida mediante un sistema de ecuaciones que recoge las relaciones asumidas entre las variables. Todo modelo de ecuaciones estructurales está formado por dos submodelos:
- a) El estructural, que recoge la relación entre las variables latentes,
η= Bη + ΓX + ζ
donde η es la matriz de variables latentes endógenas, B es la matriz de coeficientes de regresión entre dichas variables, Г la de coeficientes entre variables exógenas y endógenas, X la matriz de variables latentes exógenas y ζ representa la matriz de coeficientes residuales.
- b) El submodelo de medida, que recoge la relación entre las variables latentes y las observadas,
Y = ΛX η + є
X = ΛY ξ + δ
donde X e Y representan las variables observadas exógenas y endógenas respectivamente, η y ξ son las matrices de factores latentes exógenos y endógenos, ΛX y ΛY las respectivas matrices de coeficientes de regresión y en є y δ se recogen los errores de medida.
Fases en la estimación de modelos de ecuaciones estructurales
El objetivo general de los modelos de ecuaciones estructurales consiste en intentar reproducir la matriz de varianzas-covarianzas observadas a partir de la asociada al modelo con la menor discrepancia posible. Para ello, la metodología de trabajo consta de varias etapas sucesivas.
Especificación del modelo
El primer paso consiste en la selección de las variables analizadas y las relaciones entre ellas. Este está determinado por la teoría subyacente al modelo y que debe especificar el investigador. Por ello, estos modelos se denominan confirmatorios, proporcionando evidencia empírica que pueda apoyar, o no, las relaciones asumidas a priori.
En esta fase se debe especificar qué parámetros del modelo se consideran libres y deben ser estimados y cuáles se consideran fijos, a los que se les asigna un determinado valor, usualmente cero. También se determinan los supuestos estadísticos del modelo, básicamente la distribución conjunta, que en la mayoría de los casos se considera normal multivariante, y el comportamiento de los errores de medida o perturbaciones, siendo habitual que se asuma que son de esperanza nula y la incorrelación entre los factores exógenos y los términos de perturbación y errores de medida.
Identificación del modelo
En esta fase se debe determinar si el modelo está identificado, es decir, si existe una solución única para cada uno de los parámetros libres, por lo que pueden ser estimados. Para ello, se debe garantizar que cada parámetro puede ser expresado como función de varianzas y covarianzas muestrales y que el número de estos es menor que el número de ecuaciones (condición que se resume exigiendo que el valor de los grados de libertad, diferencia entre número de ecuaciones y parámetros libres, sea positivo).
Una regla necesaria pero no suficiente, es que el número de parámetros libres, t, cumpla la desigualdad
donde p es el número de variables del modelo, tanto latentes como observadas. Adicionalmente, en función de las características concretas del modelo que se tenga, se han desarrollado otras reglas específicas, recogidas en la bibliografía especializada.
Estimación del modelo
Asumiendo que el modelo está identificado, se deben estimar los parámetros libres. Esta estimación está basada en procedimientos iterativos que buscan ajustar los valores de los parámetros para minimizar las diferencias entre las varianzas-covarianzas observadas y las reproducidas por el modelo mediante diversos tipos de funciones de ajuste. Los métodos de estimación más empleados son máxima verosimilitud (maximum likelihood o ML), mínimos cuadrados no ponderados (unweighted least squares o ULS), mínimos cuadrados ponderados (weighted least squares o WLS), mínimos cuadrados generalizados (generalised least squares o GLS) o mínimos cuadrados parciales (partial least squares o PLS).
Diagnóstico del modelo
Tras la estimación, se debe efectuar una evaluación del modelo propuesto que permita determinar si este describe de forma apropiada al fenómeno estudiado. En este caso, los tests de bondad de ajuste permiten decidir si las diferencias entre la matriz de varianzas-covarianzas del modelo y la muestral se pueden atribuir al azar o si son producto de la inadecuación del modelo.
Para ello, la prueba más utilizada es una transformación del mínimo de la función de ajuste, denominado estadístico x2, que sigue una distribución chi-cuadrado con los mismos grados de libertad que el modelo y que conforme aumenta su valor indica un peor ajuste entre modelo y datos. Sin embargo, resulta arriesgado decidir sobre la adecuación del modelo con un solo criterio. Por ello, es frecuente utilizar otros índices de ajuste como el GFI (Goodness of Fit Index), el AGFI (Adjusted Goodness of Fit Index), el RMSEA (Root Mean Square Error of Aproximation), índices basados en criterios de información como el de Akaike (AIC) o el bayesiano (BIC) o, en diagnósticos más detallados, los contrastes de razón de verosimilitudes, los de los multiplicadores de Lagrange, el test de Wald, etc.
Re-especificación del modelo e interpretación de resultados
Tras la fase de diagnóstico, el modelo puede ser re-especificado eliminando aquellas relaciones que no sean significativas, obteniendo una versión más parsimoniosa, con menos parámetros, y más clara del modelo que permita comprender mejor el fenómeno bajo estudio.
Para la interpretación de resultados, hay que tener en cuenta que, como ya se ha comentado, estos modelos son confirmatorios, por lo que los valores estimados deben considerarse como cuantificaciones de las relaciones asumidas a priori. Así, estos modelos no sirven para descubrir relaciones entre variables y, si las relaciones no son significativas, solo se puede concluir que estas no están corroboradas por la información muestral, pudiendo deberse a deficiencias en la teoría subyacente, a la mala especificación del modelo o al proceso de recogida de información, por lo que los resultados deben ser siempre interpretados con cuidado.
Software para modelos de ecuaciones estructurales
Durante la segunda mitad del siglo XX se desarrollaron los fundamentos estadísticos de los modelos de ecuaciones estructurales, resolviendo los numerosos problemas que conlleva su estimación. Sin embargo, su popularidad actual sería difícilmente entendible sin el desarrollo de software específico, que ha facilitado su expansión y su aplicabilidad en numerosos ámbitos de las ciencias sociales.
En este campo, existen paquetes estadísticos diseñados exclusivamente para ajustar este tipo de modelos, entre los que destacan por su amplia utilización AMOS, vinculado al software SPSS, EQS o M-PLUS. Quizás el más extendido sea el paquete Lisrel, diseñado por Karl Jöreskog en 1975, que supuso el inicio de la expansión de estos modelos y sigue siendo un referente en la materia. De hecho, en muchos círculos hablar de modelos Lisrel es equivalente a modelos de ecuaciones estructurales.
También se ha desarrollado software específico para casos concretos de modelos de ecuaciones estructurales, como pueden ser SmartPLS, LVPLS, PLS-Graph, PLS-GUI o SPAD-PLS para el caso de path analysis mediante mínimos cuadrados parciales.
Por último, también existen módulos específicos para estimar modelos de ecuaciones estructurales dentro de los grandes paquetes estadísticos y lenguajes de programación, como SAS, Stata, Systat, Statistica, S-plus, R o Matlab entre otros.
Recuerde que...
- • El objetivo general de los modelos de ecuaciones estructurales consiste en intentar reproducir la matriz de varianzas-covarianzas observadas a partir de la asociada al modelo con la menor discrepancia posible.
- • Destacan como modelos de ecuaciones estructurales: la técnica del path analysis (o análisis de trayectorias) los sistemas de ecuaciones lineales en varias variables hasta el análisis factorial confirmatorio o la regresión por mínimos cuadrados parciales, todos ellos se engloban bajo el nombre común de modelos de ecuaciones estructurales
- • La popularidad de estos modelos sería difícilmente entendible sin el desarrollo de software específico, que ha facilitado su expansión y su aplicabilidad en numerosos ámbitos de las ciencias sociales.
- • La interpretación de resultados hay que tener en cuenta que estos modelos son confirmatorios, por lo que los valores estimados deben considerarse como cuantificaciones de las relaciones asumidas a priori.