(#365). BÁSICOS DE ECUACIONES ESTRUCTURALES (V): MATRIZ DE DATOS BRUTOS

[MONOTEMA] En esta quinta entrega, vamos a explicar en qué consiste la matriz de datos brutos que debemos emplear como entrada para realizar los análisis, que no es más que la matriz de covarianzas entre todos los observables de la muestra. Esa matriz se suele denominar como S.

El profesor Leslie A. Hayduk, explica perfectamente en su libro de 1987 cómo se construye esa matriz (pp. 62-63). Lo que quizá llame la atención a los estudiantes es que esa matriz de entrada no es una matriz de n x m, es decir casos en filas y m variables en columnas, que es el tipo de disposición habitual para realizar un análisis de regresión por mínimos cuadrados, por ejemplo, donde debemos especificar las puntuaciones de cada caso en cada variable.

Aquí no es así. Y no lo es porque, como ya hemos explicado en capítulos anteriores, las relaciones entre los coeficientes de los modelos se pueden obtener a partir de las covarianzas directamente. Obviamente, las covarianzas se construyen desde los datos individuales, pero no necesitamos especificarlos en SEM.

Si partimos de una matriz X de n filas y m columnas (casos x variables), podemos construir la matríz X’X, donde X’ es la transpuesta de X. La matriz X’ es de dimensión m x n. De este modo, la matriz resultante es una matriz de m x m, es decir, una matriz cuadrada donde sólo hay relaciones entre las variables observables.

Esas relaciones son relaciones de covarianza cuando se divide esa matriz resultante por n, es decir, S=Cov(X’X)=(X’X)/n. Eso es así porque recordemos que los datos estaban tomados en desviaciones sobre la media, y que por tanto la multiplicación de las dos matrices da una suma de cuadrados. La matriz S es simétrica, y en la diagonal están las varianzas de los observables.

Ejemplo con Stata

Vamos a realizar una entrada manual de datos en Stata a través de una matriz de 3 casos x 2 variables, muy sencillo por tanto.

/*Generamos la matriz, primero metiendo las filas y después las columnas*/
matrix input X = (3,2\1,0\0,1)
/*Le pedimos un listado para asegurarnos que los datos están como queremos*/
matrix list X
/*Calculamos la matriz traspuesta*/
mat Xtraspuesta=X’
/*Le pedimos un listado para asegurarnos que los datos están como queremos*/
matrix list Xtraspuesta
/*Multiplicamos ambas matrices, y nos da una suma de cuadrados*/
mat sumcuad=X’*X
/*Le pedimos un listado para asegurarnos que los datos están como queremos*/
matrix list sumcuad
/*Dividimos la suma de cuadrados por el tamaño de la muestra (3 casos)*/
mat covar=sumcuad/3
/*Y le pedimos un listado para ver la matriz de covarianzas, que es la matriz S de datos brutos*/
matrix list covar

De este modo, por muy grande que sea el número de casos, nuestra matriz de datos brutos siempre tendrá el tamaño de m x m variables observables.

Dos cosas importantes a considerar son: (1) Los datos de entrada están en desviaciones con respecto a la media. Es decir, los vectores de datos el ejemplo con Stata [3,1,0] y [2,0,1] son datos en desviaciones sobre la media. Si no lo están, basta con hacer ese cálculo previo para seguir con el procedimiento indicado; (2) De momento no vamos a considerar ni la posibilidad de incluir en la matriz de entrada los valores medios, ni la ocurrencia de casos perdidos (ambos temas de índole más avanzado).

El efecto del tamaño de muestra

Aunque usemos una matriz de covarianzas, el tamaño de la muestra, es decir, el número de casos, es fundamental. Quizá se pueda pensar que el tamaño muestral no importa si dos matrices de covarianzas son iguales cuando provienen de muestras de tamaño diferente (lo que puede suceder perfectamente).

Pero sí que importa, porque esas covarianzas estarán mejor estimadas si provienen de muestras más grandes. Para comprobar empíricamente esta cuestión, vamos a ejecutar el siguiente código:

/* Borrramos lo anterior */
clear
/* Generamos una muestra aleatoria Normal (500 casos) con media 0 y varianza=1*/
drawnorm x1, n(500)
/* Ahora dividimos la muestra en 10 grupos diferentes*/
gen g1=1 in 1/50
gen g2=2 in 51/100
gen g3=3 in 101/150
gen g4=4 in 151/200
gen g5=5 in 201/250
gen g6=6 in 251/300
gen g7=7 in 301/350
gen g8=8 in 351/400
gen g9=9 in 401/450
gen g10=10 in 451/500
/* Generamos la desviación típica para cada uno de los grupos*/
egen SD = sd(x1), by(g1 g2 g3 g4 g5 g6 g7 g8 g9 g10)
/* Convertimos esas desviaciones típicas en varianzas*/
gen varianza=SD*SD
/* Listamos el primer valor de cada grupo, generando las 10 varianzas diferentes*/
list var in 1
list var in 51
list var in 101
list var in 151
list var in 201
list var in 251
list var in 301
list var in 351
list var in 401
list var in 451
/* Obtenemos la varianza de la muestra de 500 casos y así podemos compararla con las obtenidas para las submuestras*/
sum x1, detail

Lo que hemos hecho es un simple ejercicio de simulación donde podemos ver que, siempre que corremos el código, la varianza de la muestra de 500 casos es muy cercana a 1. Sin embargo, en los 10 subgrupos esa varianza puede oscilar mucho, pudiendo obtener varianzas muy cercanas pero también muy lejanas a 1.

Por tanto, aunque la varianza de la población sea realmente 1, escoger muestras pequeñas puede hacer que algunas varianzas (y también covarianzas) de la matriz S disten mucho de su valor real, lo que a su vez puede distorsionar la comparación que ha de hacerse con la matriz implicada por el modelo (que explicaremos en capítulos posteriores).

Conclusión

La matriz de entrada en SEM es una matriz cuadrada de covarianzas de las variables observables, donde en la diagonal están las varianzas,y que además es simétrica. Esa matriz se denomina S, y está sujeta a la inherente variabilidad muestral.

Tamaños de muestra pequeños pueden distorsionar de forma importante esta matriz, por lo que aunque el número de casos no esté explícitamente expresado en S, es fundamental para que S sea válida. Es cierto que, en algunas ocasiones SEM puede funcionar bien con muestras relativamente pequeñas, pero probablemente sea arriesgarse demasiado.

Todos los posts relacionados




(#358). BÁSICOS DE ECUACIONES ESTRUCTURALES (IV): REGRESIÓN LINEAL SIMPLE CON FIABILIDADES DIVERSAS

[MONOTEMA] En esta cuarta entrega, vamos a pasar del modelo de dos variables correlacionadas a un modelo de regresión en el que una se postula como causa de la otra.

La especificación gráfica se muestra en la Figura 4.1.

Figura 4.1. Modelo de regresión entre dos variables latentes

Como puede apreciarse, la Figura 4.1 es una pequeña variación de la Figura 3.1. Las ecuaciones son las mismas, salvo que ahora la relación entre Z1 y Z2 es planteada como causal. Esto indica que existe covarianza entre las dos variables (como en la Figura 3.1), pero ahora esa covariación se produce porque hay una dependencia entre ambas. Variaciones en Z1 influyen en Z2, pero variaciones en Z2 no influyen en Z1.

La relación entre Z1 y Z2, de este modo, debe ser planteada así:

Todas estas expresiones representan la relación de dependencia entre Z1 y Z2, asumiendo (como hemos hecho hasta ahora) que el error ε1 es ruido blanco y que Cov(ε1Z1)=0.

Como vimos en el tercer capítulo, a través de las covarianzas observadas podemos llegar a esta expresión:

que escalando a 1 las variables latentes y especificando una covarianza nula entre los errores observables, se simplifica a:

Por tanto, realmente la estimación de la covarianza entre las variables latentes es la misma aunque el modelo pase de ser “correlacional” a “causal”

Para estimar el coeficiente estructural Gamma1 (,) que es el que muestra el peso que tiene la causa Z1 sobre el efecto Z2, sólo necesitamos conocer Var(Z1), que como hemos comentado ya en anteriores capítulos, depende del observable z1:

Usando una escala unitaria, vemos que Var(Z1)=Var(z1)-Var(e1), es decir, la varianza de la variable latente depende de nuestra especificación de la fiabilidad del observable. A medida que la fiabilidad aumenta, Var(e1) disminuye, con lo que Var(Z1) aumenta, y disminuye. Y, de manera opuesta, a medida que la fiabilidad disminuye, Var(e1) aumenta, con lo que Var(Z1) disminuye, y aumenta.

Por tanto, si la fiabilidad es perfecta (100%), Var(Z1)=Var(z1), y el coeficiente de regresión (coeficiente estructural) se estima sin sesgo. Sin embargo, si la fiabilidad no es perfecta (<100%), se produce un inflado de la varianza observable por lo que hay que “corregir” la varianza de la variable latente. De este modo, la estimación del coeficiente depende de la especificación de la fiabilidad de z1, es decir, de la varianza del observable que actúa como causa.

Ejemplo con Stata

Vamos a realizar un ejemplo empleando la misma matriz de covarianzas que en la  Figura 3.1, y con fiabilidades perfectas, sin error de medida en los observables.

/*Generamos la matriz de covarianzas deseada*/
matrix D=(2, .8 \ .8, 1)
/*Creamos 400 observaciones para cada una de las variables z1 y z2*/
corr2data z1 z2, n(400) cov(D)
/*Realizamos un rápido descriptivo de las variables*/
sum
/* Analizamos la normalidad univariante y multivariante*/
swilk z1 z2
mvtest normality z1 z2
/* Hacemos una regresión lineal simple y luego una regresión sin término constante*/
regress z2 z1
regress y2 z1, no constant
/*Especificamos el modelo SEM con las restricciones sobre las medias, varianzas y parámetros deseados*/
sem (Z2 <- _cons@0, ) (Z2@1 -> z2, ) (z1 <- _cons@0, ) (z2 <- _cons@0, ) (Z1 -> Z2, ) (Z1@1 -> z1, ), latent(Z2 Z1 ) cov( e.z1@0 e.z2@0 Z1@2) means( Z1@0) nocapslatent

Los resultados que provee Stata son sencillos de interpretar. En la Figura 4.2 vemos los estadísticos descriptivos de las variables observables, ambas con media cero y con varianzas 2 y 1, respectivamente. Los datos se han generado para que esas variables estén normalmente distribuidas, tal y como muestra el test de Shapiro-Wilk, y además multivariantemente distribuidas, como indica el test de Doornik-Hansen. Veremos más adelante la importancia de estos aspectos de las distribución.

Figura4.2

Figura 4.2. Estadísticos descriptivos y test de normalidad de los observables

En la Figura 4.3 hemos realizado una regresión lineal simple entre los observables. En el primer caso se estima también un término constante, pero vemos que es cero (o prácticamente cero debido a la inherente variabilidad muestral). Recordemos que tenemos las variables estandarizadas, y como explicamos en su momento esto hace que el término constante o intercept en los modelos de regresión sea cero. El coeficiente de regresión estimado es 0.4. De interés también es el valor de 0.6817, que es el cociente entre la suma de cuadrados de los residuos (SS) y los grados de libertad (df). Como los datos están centrados sobre la media, la suma de cuadrados de los residuos dividido por el tamaño de la muestra menos 1 (n-1) es similar a la varianza del error. Como hay 398 grados de libertad, ese valor es de 0.6817 es prácticamente idéntico al de la varianza del error: 0.68, que es precisamente el resultado que obtenemos cuando no estimamos el término constante y sumamos un grado de libertad adicional. Esa diferencia en el denominador (dividir por los grados de libertad o dividir por n-1) es la diferencia entre el “Adj R-squared” y el “R-squared”, que son medidas de la capacidad explicativa del modelo. Así, a mayor varianza de error, menor “R-squared”, es decir, menos varianza de la variable dependiente explica nuestro modelo. Por ahora, es lo que necesitamos saber.

Figura4.3

Figura 4.3. Regresión lineal simple entre los observables

En la Figura 4.4. testamos el modelo SEM. Ahora no empleamos la estimación por mínimos cuadrados ordinarios como en el anterior análisis, sino la de máxima verosimilitud. Consideramos las fiabilidades de los observables como perfectas, por lo que no existe varianza de error para z1 y para z2. Esto nos lleva a una estimación prácticamente idéntica. El coeficiente estructural es 0.4, y la varianza de error de Z2 es 0.6783

Figura4.4

Figura 4.4. Modelo de regresión SEM con fiabilidades perfectas

Pero la real utilidad de SEM proviene cuando tenemos en cuenta los errores de medida. En este caso, fijamos la fiabilidad al 90% en ambos observables, z1 y z2.

/*Especificamos el mismo modelo SEM anterior, pero con fiabilidades al 90%*/
sem (Z2 <- _cons@0, ) (Z2@1 -> z2, ) (z1 <- _cons@0, ) (z2 <- _cons@0, ) (Z1 -> Z2, ) (Z1@1 -> z1, ), latent(Z2 Z1 ) cov( e.z1@0.2 e.z2@0.1 Z1@1.8) means( Z1@0) nocapslatent

Y ya los resultados cambian de manera ostensible (Figura 4.5). Ahora el coeficiente de regresión es 0.44 y no 0.4, y la varianza de error de Z2 es de 0.54 y no 0.68. Es decir, teniendo en cuenta que existe el error de medida, hemos estimado un modelo en el que el tamaño del efecto es mayor (cómo influye Z1 sobre Z2) y la capacidad explicativa del modelo es mejor. Si no hubiésemos tenido en cuenta el error de medida, las estimaciones habrían estado sesgadas (el tamaño de efecto se habría atenuado).

Figura4.5

Figura 4.5. Modelo de regresión SEM con fiabilidad del 90% en los observables

Rápidamente se puede comprobar que se cumplen las fórmulas que planteábamos al inicio. En el caso de fiabilidades perfectas:

Y en el caso de que la fiabilidad es del 90% en los observables:

Cambio en la fiabilidad de la variable dependiente

Aunque los cambios en la fiabilidad del observable exógeno afectan a la estimación del coeficiente de regresión, no ocurre lo mismo con la fiabilidad del observable endógeno, es decir, de la variable dependiente. De este modo, el tamaño de efecto o coeficiente estructural no depende de la calidad de la medición de la variable dependiente.

Sin embargo, la fiabilidad del observable de la latente que actúa como efecto sí que influye en la estimación de la varianza de error de la variable latente. Un poco de manejo de las ecuaciones que hemos visto lo ilustra sin problema:

No obstante, hemos de indicar también que las fiabilidades de los observables no afectan a la covarianza entre las variables latentes Cov(Z1Z2), siempre y cuando la Cov(e1e2)=0.

Conclusión

Pasar de un modelo correlacional a uno casual implica realizar unas asunciones cualitativas sobre la especificación del modelo en el que unas variables latentes influyen sobre otras. No olvidemos, asimismo, que los modelos de variables latentes correlacionadas también son modelos causales en el sentido de que la variable latente causa variación en los observables. Sin embargo, el uso común de “modelo causal” es cuando esa relación de causalidad se establece entre variables latentes.

En este post hemos visto la importancia de considerar la fiabilidad de los indicadores observables, y como la especificación de ésta en la variable que actúa como causa afecta a la estimación del coeficiente estructural (parámetro de regresión) y a la varianza explicada por el modelo. Las fiabilidades no afectan a la covariación entre las latentes, pero sí que la fiabilidad de la variable endógena incide en la estimación de su varianza de error.

De este modo, queda patente la gran relevancia que tiene la especificación de los errores de medida a la hora de interpretar los resultados de cualquier modelo de investigación. 

Todos los posts relacionados




(#354). BÁSICOS DE ECUACIONES ESTRUCTURALES (III): COVARIANZA Y CORRELACIÓN ENTRE VARIABLES LATENTES

[MONOTEMA] En este tercera entrega de nuestra introducción a SEM, vamos ir avanzando en el modelo simple de variable latente e indicador, planteando un modelo en el que deseamos saber la covarianza entre 2 variables latentes Z1 y Z2.

Para ello, partimos de esta representación gráfica (Figura 3.1), en el que ya conocemos toda la notación y su significado, y donde estamos interesados en hallar  Cov(Z1Z2) y su correlación r(Z1Z2). Recordemos que la correlación es simplemente una covarianza estandarizada, es decir:

Figura 3.1. Modelo de dos variables latentes y dos indicadores sin covariación de errores

Como bien sabemos, sólo observamos z1 y z2, y no las variables latentes, pero podemos conocer Cov(Z1Z2) a partir de la información del modelo. Para ello, practicamos un poco de álgebra.

Cov(z1z2)=E[(z1-E(z1))(z2-E(z2))]=E(z1z2)

ya que los datos están en desviaciones respecto a la media.

Ahora sustimos el valor de z1 y z2 por la ecuación que implican, es decir:

Cov(z1z2)= E[(b1Z1+e1)(b2Z2+e2)]=E(b1b2Z1Z2+b1Z1e2+b2Z2e1+e1e2)

Dado que la esperanza de una suma es la suma de las esperanzas, y sacando fuera las constantes, tenemos:

Cov(z1z2)=b1b2E(Z1Z2)+b1E(Z1e1)+b2E(Z2e1)+E(e1e2)

Y, por tanto:

Cov(z1z2)=b1b2Cov(Z1Z2)+ b1Cov(Z1e1)+b2Cov(Z2e1)+Cov(e1e2)

Como en las asunciones básicas de la ecuación de medición suponemos que el error es ruido blanco y que no está asociado a la variable latente (ver capítulo 2), entonces cov(Ze)=0, y la ecuación anterior se simplifica a:

Cov(z1z2)=b1b2Cov(Z1Z2)+Cov(e1e2)

Y si reordenamos:

Cov(Z1Z2)= [Cov(z1z2)- Cov(e1e2)]/b1b2

De este modo, la covarianza entre las variables latentes depende de la covarianza observada de los datos y de si existe covarianza entre los errores. Ya que, tal y como indicamos, solemos escalar el observable como la variable latente, entonces b1=b2=1, la covarianza entre las variables latentes depende, básicamente, de si especificamos que los errores covarían. Sin embargo, por la propia definición de ruido blanco, tanto e1 y e2 no deben estar asociados, son errores aleatorios en la medición de sus respectivas variables latentes.

Covarianzas entre los errores

Cabe la posibilidad, no obstante, de que pensemos que puede haber algún factor que sistemáticamente afecta a los observables, y que no hemos tenido en cuenta. Ese es, precisamente el significado de la covariación de errores, cuyo esquema se muestra en la Figura 3.2.

Figura 3.2. Modelo de dos variables latentes y dos indicadores con covariación de errores

Es evidente que la covarianza entre las variables latentes va a decrecer con el incremento de la covarianza entre los errores.

Equivalencia con una nueva variable latente

La Figura 3.2 es equivalente a la que mostramos a continuación (Figura 3.3), donde se ha sustituido la covarianza entre los errores por una nueva variable latente M que afecta a los indicadores observables.

Figura 3.3. Modelo equivalente de dos variables latentes y dos indicadores con covariación de errores

Partiendo de las siguientes expresiones:

z1=b1Z1+m1M+e1

z2=b2Z2+m2M+e2

y considerando siempre un escalamiento unitario, es decir, b1=b2=m1=m2=1, llegamos a:

Cov(Z1Z2)= Cov(z1z2)- Cov(Z1M)-Cov(Z2M)-Var(M)

Así, para que haya equivalencia, y mirando las Figuras 3.2 y 3.3:

Cov(e1e2)= Cov(Z1M)+Cov(Z2M)+Var(M)

Es decir, especificar una covariación de errores es equivalente a incluir una nueva variable latente que cause variación en ambos indicadores, y cuyas restricciones de covarianza tienen que ser las especificadas en la ecuación anterior. Dado que, en algunos casos podremos suponer que Cov(ZM)=0, entonces: Cov(e1e2)= Var(M), por lo que realmente podemos ver que especificar una covariación entre errores de los observables es equivalente a admitir que existe una variable latente que afecta a ambos errores por igual, y que cuya varianza es la covarianza de los errores.

Estimación con Stata

Aunque todavía es muy pronto para entender las programaciones de SEM con LISREL y Stata, podemos ir haciendo ya algunos análisis para, simplemente, comprobar a nivel numérico qué sucede con los ejemplos descritos. Insisto en que más adelante explicaré con detalle los códigos, pero ahora lo importante es manejar ejemplos numéricos con lo que acabamos de exponer.

Vamos a crear dos observables z1 y z2, normalmente distribuidos y con 400 casos cada uno. Esas variables tendrán media=0 y varianza 2 y 1, respectivamente. La covarianza entre los observables será de 0.8.

Además, vamos a tomar un valor de fiabilidad del 90%, por lo que la varianza de error de ambos indicadores será un 10% de la varianza observable. Escalaremos unitariamente las variables latentes, y ya podremos estimar el modelo.

/*Generamos la matriz de covarianzas deseada*/
matrix D=(2, .8 \ .8, 1)
/*Creamos 400 observaciones para cada una de las variables z1 y z2*/
corr2data z1 z2, n(400) cov(D)
/*Especificamos el modelo SEM con las restricciones sobre las medias, varianzas y parámetros deseadas*/
sem (Z1@1 -> z1, ) (z1 <- _cons@0, ) (Z2@1 -> z2, ) (z2 <- _cons@0, ), covstruct(_lexogenous, diagonal) latent(Z1 Z2 ) cov( Z1@1.8 Z1*Z2 e.z1@0.2 Z2@0.9 e.z2@0.1) nocapslatent

Como puede verse en la salida de Stata, Cov(Z1Z2)=0.80 con un intervalo de confianza al 95% IC95%= (0.72 ; 0.88). Por tanto, la covarianza entre las variables latentes tiene el valor que esperábamos, ya que es el valor de la covarianza entre los observables, porque hemos especificado que la covarianza entre los errores sea cero.

Sin embargo la correlación entre las variables latentes no es r=0.57 como sí que lo es entre las variables observables, sino r=0.63, ya que las varianzas de las variable latentes son menores que las observables y, por ende, la correlación resultante es mayor. Por tanto, el error de medida ha atenuado el verdadero valor de la correlación, y esto es un tema muy a tener en cuenta en posteriores análisis.

Si ahora planteamos en el modelo que existe una covariación entre los errores: Cov(e1e2)=0.25, entonces podemos programar el siguiente modelo:

/*Especificamos el modelo SEM con las restricciones sobre las medias, varianzas y parámetros deseadas, añadiendo la covarianza entre los errores como un valor fijo*/
sem (Z1@1 -> z1, ) (z1 <- _cons@0, ) (Z2@1 -> z2, ) (z2 <- _cons@0, ), covstruct(_lexogenous, diagonal) latent(Z1 Z2 ) cov( Z1@1.8 Z1*Z2 e.z1@0.2 e.z1*e.z2@0.25 Z2@0.9 e.z2@0.1) nocapslatent

Vemos que Cov(Z1Z2)=0.55, IC95%=(0.47 ; 0.63), es decir, y como era de esperar la covarianza de las variables latentes se reduce (pasa de 0.80 a 0.55).en la cantidad de la varianza de error de los observales (0.25)

La correlación r=0.43, que es menor que la correlación estimada cuando no existía covarianza entre los errores.

Conclusión

La covarianza y correlación entre variables latentes depende de la estructura de errores de los observables que planteemos en el modelo. No tener en cuenta la fiabilidad de los datos atenúa el coeficiente de correlación entre las variables de interés, que recordemos no son los observables sino las variables latentes.

Considerar además una covarianza de error, reduce la covarianza entre las latentes, y también el coeficiente de correlación.

Todos los posts relacionados




(#353). BÁSICOS DE ECUACIONES ESTRUCTURALES (II): VARIABLES LATENTES Y FIABILIDAD

[MONOTEMA] En este segundo paso en nuestra introducción a conceptos básicos de SEM, vamos  a explicar el concepto de variable latente y las implicaciones que tiene para la partición de la varianza observable, lo que a su vez nos llevará a discutir sobre la fiabilidad de los datos.

Variable latente

Una variable latente Z es, por definición, no observable directamente, por lo que se manifiesta a través de algún observable z, que usualmente es llamado indicador. Es fácil deducir la siguiente ecuación:

z=bZ+e

donde b es el coeficiente estructural (a veces llamado “peso”) que define la escala del observable con respecto a la variable latente, y e es el error inherente a tener una observación que puede ser una simplificación de Z (porque es un término muy abstracto y complejo de aproximar), o porque, por ejemplo, haya errores de codificación o de registro en la recogida de datos. Este último hecho es esencial para entender qué significa que exista un error de medida y nos hace ver que todas las variables que manejemos pueden considerarse latentes porque, aunque sean variables aparentemente sencillas  (ej. sexo, edad), siempre pueden estar sujetas a error en el proceso de recogida y preparación de los datos.

Ahora podemos tomar esperanzas y varianzas para ver qué ocurre con la ecuación anterior:

E(z)=bE(Z)+E(e); 0=b(0)+0

Var(z)=b2Var(Z)+Var(e)

Si estamos manejando ya datos en desviaciones con respecto a la media como hablamos en el capítulo 1, no nos deben sorprender esos resultados.

La forma de representar gráficamente esta relación sigue unas normas muy sencillas. Con círculos u ovoides se representan las variables latentes y con cuadrados o rectángulos los indicadores observables. La relación entre esas variables viene determinada por flechas que tienen un sentido causal, es decir, apuntan desde la causa hasta el efecto, desde donde se produce el cambio hasta donde se manifiesta dicho cambio (ver Figura 2.1).

Figura1

Figura 2.1. Esquema básico de variable latente y observable

Como se aprecia en la Figura 2.1, el error e es también una variable latente, porque realmente no lo observamos, pero sabemos que existe. Y el sentido de las flechas es capital; ambas variables latentes afectan causalmente al indicador observable, ya que el cambio en ellas se manifiesta en un cambio en el indicador.

Así, si el error se mantiene constante y Z crece, también crece z en función del peso que tenga b. Y si Z se mantiene constante, z puede variar en la medida que lo haga el error de medición. Ese error de medición hemos supuesto que es ruido blanco, es decir, se considera aleatorio, por lo que no sesga el observable, sino que cuando se realizan muchas medidas, los errores se compensan, y de ahí que su esperanza matemática sea cero.

Aunque parezca una asunción fuerte, realmente no lo es. Si sospechamos que existe algún tipo de error sistemático en lugar de aleatorio siempre se puede incorporar al modelo. Por ejemplo, si z es la edad que medimos en una muestra de consumidores, es posible que el error e no sea aleatorio porque haya un grupo de personas que digan a la baja su edad (sesgo de presentación favorable). Pero este hecho se puede fácilmente modelar en SEM, de la siguiente manera (Figura 2.2.):

Figura 2

Figura 2.2. Esquema básico de variable latente y observable con un sesgo sistemático

De este modo, la ecuación quedaría así:

Var(z)=b2Var(Z)+m2Var(M)+Var(e)

Es decir, hemos introducido una nueva variable latente M, que influye con un peso m en el observable z, y que tiene en cuenta el sesgo producido por la presentación favorable. Así, seguiríamos manteniendo e como ruido blanco, y tendríamos un modelo que contemplar una causa adicional a la variación del observable z.

Fiabilidad

Pero estamos todavía muy al comienzo de la andadura en SEM, y debemos ir resolviendo las cuestiones más sencillas antes de las más complejas.

Volvamos, por tanto, a la ecuación básica:

Var(z)=b2Var(Z)+Var(e)

Hemos partido la varianza observable en la varianza real Var(Z) más la varianza de error Var(e). Recordemos que las varianzas siempre son positivas.

Si Var(e)=0, significa que la varianza observable es igual a la varianza de error, siempre que se midan en la misma escala, es decir, b=1. Por medir en la misma escala nos referimos a que si estamos midiendo la variable latente está en metros, el indicador observable lo vamos a medir en metros, o si está en una escala de 0 a 10, el observable lo vamos a medir en una escala de 0 a 10. Es algo muy recomendable que escalemos siempre con b=1, ya que esto nos evita de cometer muchos errores innecesarios.

De este modo, si Var(e)=0, los datos son totalmente fiables, en el sentido de que no hay error de medida, por tanto la fiabilidad es del 100%. Pero claro, una de las ventajas de SEM es que nos permite ser prudentes y admitir en nuestro modelo que puede haber algún error de medida que haga que la fiabilidad no sea del 100%.

¿Pero cómo se mide la fiabilidad cuando hay error de medida? Es sencillo, porque depende únicamente del tamaño relativo de la varianza de error. 

Fiabilidad=1-(Var(e)/Var(z))

O en porcentaje:

Fiabilidad=(1-(Var(e)/Var(z)))100

Por tanto, a medida que la varianza de error se incrementa disminuye la fiabilidad. Es evidente que son preferibles fiabilidades altas, porque en el grado en que la fiabilidad sea más baja la varianza observable Var(z) será más alta, es decir, se produce un inflado de la varianza de los datos que luego tiene efectos notables en la estimación de los coeficientes estructurales del modelo, produciendo una atenuación de los mismos (el efecto estimado es menor que el real, por lo que hay un sesgo). Con SEM podemos tener en cuenta esos errores de medida y obtener coeficientes insesgados con fiabilidades diferentes del 100%, y esta es otra de la grandes ventajas de esta metodología.

La relación que existe entre el cociente Var(e)/Var(z) y la fiabilidad se muestra en la Figura 2.3.

Figura 3

Figura 2.3. Fiabilidad en función del tamaño relativo de la varianza de error

 Para obtener esa figura hemos empleado el siguiente código de Stata:

/*Generamos una variable con 100 observaciones cuyos valores van del 1 al 100*/
set obs 100
/*Llamamos a esa variable Var_e que hace referencia los distintos valores a la varianza de error que vamos a simular*/
generate Var_e= _n
/*Ahora generamos un valor constante para la varianza observable Var_z=100*/
gen Var_z=100
/*El siguiente paso es construir la variable Fiabilidad, en función de la varianza de error y la varianza observable*/
gen Fiabilidad=1-(Var_e/Var_z)
/*Ahora generamos una nueva variable con el cociente entre ambas varianzas, con el fin de poder realizar un gráfico que nos permita ver cómo cambia la fiabilidad en función del valor de este nueva expresión.*/
gen Cociente_entre_varianzas= Var_e/ Var_z
/*Por último generamos un gráfico bidimensional donde podemos ver que la fiabilidad disminuye linealmente con el incremento del cociente de varianzas, es decir, con el aumento relativo de la varianza de error*/
twoway (line Fiabilidad Cociente_entre_varianzas, lcolor(magenta) lwidth(thick)), xtitle(Var(e)/Var(z)) xscale(line) xlabel(, grid)

Por tanto, para fijar la fiabilidad del indicador observable sólo hay que escoger el porcentaje de la varianza observada que constituye la varianza de error. Así, si por ejemplo Var(z)=5, y la fiabilidad es fijada al 90%, entonces Var(e)/Var(z)=0.10, por lo que la Var(e) debe fijarse a 0.05, es decir, un 10% de la varianza del indicador observable.

Conclusión

Hemos visto que es muy atractivo poder considerar a todas las variables que manejamos en nuestros modelos teóricos como latentes, incluso en los casos más sencillos donde esas variables no sean abstracciones psicológicas, sino variables claramente definidas y cuantificables.

Esto permite especificar errores de medida, que no son más que el tamaño relativo de la varianza de error, y de este modo indicar la fiabilidad de las mediciones, realizando (como veremos posteriormente) diferentes simulaciones con respecto a cómo variarían los resultados ante fiabilidades distintas.

Todos los posts relacionados