En esta cuarta entrega, vamos a pasar del modelo de dos variables correlacionadas a un modelo de regresión en el que una se postula como causa de la otra.
La especificación gráfica se muestra en la Figura 4.1.
Figura 4.1. Modelo de regresión entre dos variables latentes
Como puede apreciarse, la Figura 4.1 es una pequeña variación de la Figura 3.1. Las ecuaciones son las mismas, salvo que ahora la relación entre Z1 y Z2 es planteada como causal. Esto indica que existe covarianza entre las dos variables (como en la Figura 3.1), pero ahora esa covariación se produce porque hay una dependencia entre ambas. Variaciones en Z1 influyen en Z2, pero variaciones en Z2 no influyen en Z1.
La relación entre Z1 y Z2, de este modo, debe ser planteada así:
Todas estas expresiones representan la relación de dependencia entre Z1 y Z2, asumiendo (como hemos hecho hasta ahora) que el error ε1 es ruido blanco y que Cov(ε1Z1)=0.
Como vimos en el tercer capítulo, a través de las covarianzas observadas podemos llegar a esta expresión:
que escalando a 1 las variables latentes y especificando una covarianza nula entre los errores observables, se simplifica a:
Por tanto, realmente la estimación de la covarianza entre las variables latentes es la misma aunque el modelo pase de ser «correlacional» a «causal»
Para estimar el coeficiente estructural Gamma1 (,) que es el que muestra el peso que tiene la causa Z1 sobre el efecto Z2, sólo necesitamos conocer Var(Z1), que como hemos comentado ya en anteriores capítulos, depende del observable z1:
Usando una escala unitaria, vemos que Var(Z1)=Var(z1)-Var(e1), es decir, la varianza de la variable latente depende de nuestra especificación de la fiabilidad del observable. A medida que la fiabilidad aumenta, Var(e1) disminuye, con lo que Var(Z1) aumenta, y disminuye. Y, de manera opuesta, a medida que la fiabilidad disminuye, Var(e1) aumenta, con lo que Var(Z1) disminuye, y
aumenta.
Por tanto, si la fiabilidad es perfecta (100%), Var(Z1)=Var(z1), y el coeficiente de regresión (coeficiente estructural) se estima sin sesgo. Sin embargo, si la fiabilidad no es perfecta (<100%), se produce un inflado de la varianza observable por lo que hay que «corregir» la varianza de la variable latente. De este modo, la estimación del coeficiente depende de la especificación de la fiabilidad de z1, es decir, de la varianza del observable que actúa como causa.
Ejemplo con Stata
Vamos a realizar un ejemplo empleando la misma matriz de covarianzas que en la Figura 3.1, y con fiabilidades perfectas, sin error de medida en los observables.
/*Generamos la matriz de covarianzas deseada*/ matrix D=(2, .8 \ .8, 1) /*Creamos 400 observaciones para cada una de las variables z1 y z2*/ corr2data z1 z2, n(400) cov(D) /*Realizamos un rápido descriptivo de las variables*/ sum /* Analizamos la normalidad univariante y multivariante*/ swilk z1 z2 mvtest normality z1 z2 /* Hacemos una regresión lineal simple y luego una regresión sin término constante*/ regress z2 z1 regress y2 z1, no constant /*Especificamos el modelo SEM con las restricciones sobre las medias, varianzas y parámetros deseados*/ sem (Z2 <- _cons@0, ) (Z2@1 -> z2, ) (z1 <- _cons@0, ) (z2 <- _cons@0, ) (Z1 -> Z2, ) (Z1@1 -> z1, ), latent(Z2 Z1 ) cov( e.z1@0 e.z2@0 Z1@2) means( Z1@0) nocapslatent |
Los resultados que provee Stata son sencillos de interpretar. En la Figura 4.2 vemos los estadísticos descriptivos de las variables observables, ambas con media cero y con varianzas 2 y 1, respectivamente. Los datos se han generado para que esas variables estén normalmente distribuidas, tal y como muestra el test de Shapiro-Wilk, y además multivariantemente distribuidas, como indica el test de Doornik-Hansen. Veremos más adelante la importancia de estos aspectos de las distribución.
Figura 4.2. Estadísticos descriptivos y test de normalidad de los observables
En la Figura 4.3 hemos realizado una regresión lineal simple entre los observables. En el primer caso se estima también un término constante, pero vemos que es cero (o prácticamente cero debido a la inherente variabilidad muestral). Recordemos que tenemos las variables estandarizadas, y como explicamos en su momento esto hace que el término constante o intercept en los modelos de regresión sea cero. El coeficiente de regresión estimado es 0.4. De interés también es el valor de 0.6817, que es el cociente entre la suma de cuadrados de los residuos (SS) y los grados de libertad (df). Como los datos están centrados sobre la media, la suma de cuadrados de los residuos dividido por el tamaño de la muestra menos 1 (n-1) es similar a la varianza del error. Como hay 398 grados de libertad, ese valor es de 0.6817 es prácticamente idéntico al de la varianza del error: 0.68, que es precisamente el resultado que obtenemos cuando no estimamos el término constante y sumamos un grado de libertad adicional. Esa diferencia en el denominador (dividir por los grados de libertad o dividir por n-1) es la diferencia entre el «Adj R-squared» y el «R-squared», que son medidas de la capacidad explicativa del modelo. Así, a mayor varianza de error, menor «R-squared», es decir, menos varianza de la variable dependiente explica nuestro modelo. Por ahora, es lo que necesitamos saber.
Figura 4.3. Regresión lineal simple entre los observables
En la Figura 4.4. testamos el modelo SEM. Ahora no empleamos la estimación por mínimos cuadrados ordinarios como en el anterior análisis, sino la de máxima verosimilitud. Consideramos las fiabilidades de los observables como perfectas, por lo que no existe varianza de error para z1 y para z2. Esto nos lleva a una estimación prácticamente idéntica. El coeficiente estructural es 0.4, y la varianza de error de Z2 es 0.6783
Figura 4.4. Modelo de regresión SEM con fiabilidades perfectas
Pero la real utilidad de SEM proviene cuando tenemos en cuenta los errores de medida. En este caso, fijamos la fiabilidad al 90% en ambos observables, z1 y z2.
/*Especificamos el mismo modelo SEM anterior, pero con fiabilidades al 90%*/ sem (Z2 <- _cons@0, ) (Z2@1 -> z2, ) (z1 <- _cons@0, ) (z2 <- _cons@0, ) (Z1 -> Z2, ) (Z1@1 -> z1, ), latent(Z2 Z1 ) cov( e.z1@0.2 e.z2@0.1 Z1@1.8) means( Z1@0) nocapslatent |
Y ya los resultados cambian de manera ostensible (Figura 4.5). Ahora el coeficiente de regresión es 0.44 y no 0.4, y la varianza de error de Z2 es de 0.54 y no 0.68. Es decir, teniendo en cuenta que existe el error de medida, hemos estimado un modelo en el que el tamaño del efecto es mayor (cómo influye Z1 sobre Z2) y la capacidad explicativa del modelo es mejor. Si no hubiésemos tenido en cuenta el error de medida, las estimaciones habrían estado sesgadas (el tamaño de efecto se habría atenuado).
Figura 4.5. Modelo de regresión SEM con fiabilidad del 90% en los observables
Rápidamente se puede comprobar que se cumplen las fórmulas que planteábamos al inicio. En el caso de fiabilidades perfectas:
Y en el caso de que la fiabilidad es del 90% en los observables:
Cambio en la fiabilidad de la variable dependiente
Aunque los cambios en la fiabilidad del observable exógeno afectan a la estimación del coeficiente de regresión, no ocurre lo mismo con la fiabilidad del observable endógeno, es decir, de la variable dependiente. De este modo, el tamaño de efecto o coeficiente estructural no depende de la calidad de la medición de la variable dependiente.
Sin embargo, la fiabilidad del observable de la latente que actúa como efecto sí que influye en la estimación de la varianza de error de la variable latente. Un poco de manejo de las ecuaciones que hemos visto lo ilustra sin problema:
No obstante, hemos de indicar también que las fiabilidades de los observables no afectan a la covarianza entre las variables latentes Cov(Z1Z2), siempre y cuando la Cov(e1e2)=0.
Conclusión
Pasar de un modelo correlacional a uno casual implica realizar unas asunciones cualitativas sobre la especificación del modelo en el que unas variables latentes influyen sobre otras. No olvidemos, asimismo, que los modelos de variables latentes correlacionadas también son modelos causales en el sentido de que la variable latente causa variación en los observables. Sin embargo, el uso común de «modelo causal» es cuando esa relación de causalidad se establece entre variables latentes.
En este post hemos visto la importancia de considerar la fiabilidad de los indicadores observables, y como la especificación de ésta en la variable que actúa como causa afecta a la estimación del coeficiente estructural (parámetro de regresión) y a la varianza explicada por el modelo. Las fiabilidades no afectan a la covariación entre las latentes, pero sí que la fiabilidad de la variable endógena incide en la estimación de su varianza de error.
De este modo, queda patente la gran relevancia que tiene la especificación de los errores de medida a la hora de interpretar los resultados de cualquier modelo de investigación.