Skip to content

Ciencia sin miedo

José A. Martínez

Menu
  • Sobre mí
  • Blog
  • Papers
  • Impacto
  • Libros
  • CONGRESOS
  • Dirección
  • Apariciones en podcast
  • Proyectos
  • Revisor
  • Productividad en baloncesto
  • CALIDAD AIRE
  • STARS FOR WORKERS
  • PROMETEO GRID
  • MUSEO 1980-2011
Menu

BÁSICOS DE ECUACIONES ESTRUCTURALES (I): COVARIANZAS Y DESVIACIONES SOBRE LA MEDIA

Publicada el 30 de diciembre de 201823 de marzo de 2025 por martinezjose

Comenzamos una serie de entradas sobre una introducción práctica a los modelos de ecuaciones estructurales, en la que emplearemos los programas LISREL y Stata para estimar modelos sencillos, que pretenden ser una guía para estudiantes que comienzan a adentrarse en esta temática.

Para ello, necesitamos primeramente abordar varios aspectos de la idiosincrasia de esta metodología, con el fin de entender paso a paso qué estamos haciendo.

En este post inicial, vamos a explicar por qué se emplean covarianzas como input, y que debemos interpretar los datos en desviaciones sobre la media, y no en su naturaleza bruta.

La ecuación básica

Partimos de la siguiente ecuación básica, en la que relacionamos linealmente la variable aleatoria X con la variable aleatoria Y, mediante los parámetros (constantes) a y b.

Y=a + bX

Tomando esperanzas y varianzas, tenemos:

E(Y)=a+bE(X)

Var(Y)=b2Var(X)

El parámetro b, por tanto, es un coeficiente estructural que representa el cambio en Y cuando X cambia. En el caso de tomar esperanzas:

E(Y)-a=bE(X)

es decir, a simplemente es un parámetro de escala que modifica el valor esperado de Y.

Al tomar varianzas desaparece el parámetro a (la varianza de una constante es cero), por lo que obtenemos también una relación entre Y y X, pero esta vez sin la necesidad de conocer ese parámetro de escala.

Es fácil comprobar que si, por ejemplo, a=0 y b=2, para n=5, tenemos que x=[0,1,2,3,4] e y=[0,2,4,6,8], entonces la varianza de Y es 4 veces (b2) la varianza de X.

Asimismo, podemos expresar la relación entre Y e X a nivel de covarianzas con un poco de álgebra:

Por tanto:

De este modo, sabiendo las varianzas y covarianzas de X e Y podemos cuantificar el parámetro b, que es el que mide el peso de la asociación entre X e Y, o el tamaño del efecto si estamos usando terminología causal.

Ya tenemos una pista de por qué los modelos de ecuaciones estructurales se llaman también modelos de estructuras de covarianza (recordemos que una varianza no es más que la covarianza de una variable consigo misma).

Tomar desviaciones sobre la media

Lo que un investigador quiere al final no es solamente saber cuál es la relación entre las varianzas de dos variables, sino principalmente qué sucede en Y cuando X cambia en una unidad. Esto es básico para hacer predicciones sobre datos individuales.

Como hemos visto, para eso necesitamos conocer el parámetro a, y ese parámetro no aparece en las relaciones de covarianza. Pero esto no es un problema si interpretamos los datos en desviaciones sobre la media.

E(Y-E(Y))=a + bE(X-E(X))

0=a+0

Es decir, necesariamente a=0.

Por tanto, al tomar los datos en desviaciones sobre la media nos hemos quitado «el problema» del parámetro de escala. Y eso no es todo, podemos comprobar que las relaciones de covarianza no cambian.

De este modo, podemos seguir conociendo el parámetro estructural b a partir de únicamente las covarianzas cuando los datos están en desviaciones sobre la media. Ese parámetro b es exactamente el mismo que se habría obtenido con los datos brutos y la estimación de a, pero la interpretación cuando no se conoce a es en términos de desviaciones sobre la media, que al fin y al cabo no deja de ser una pequeña reparametrización de las variables originales, unos simples cambios de escala.

Simulación con Stata

El siguiente código en Stata nos proporciona una prueba empírica de lo que hemos explicado. Abrimos un fichero «Do-file», copiamos el código y lo ejecutamos en un archivo .dta del programa que previamente hemos abierto en blanco.

/*Generamos una variable X Normal de media=10 y con varianza=1, con 100 observaciones*/
drawnorm X, n(100) means(10)
/*Ahora generamos dos variables Y(Y1,Y2), que son una combinación lineal de X, con igual pendiente (b1=b2=2), pero con diferente escala (a1=100, a2=0)*/
gen Y1=100+2*X
gen Y2=0+2*X
/*Ahora calculamos la media de todas las variables generadas*/
egen Xmean=mean( X)
egen Y1mean=mean(Y1)
egen Y2mean=mean(Y2)
/*Y entonces generamos las nuevas variables en desviaciones sobre sus medias*/
gen Xdif=X-Xmean
gen Y1dif=Y1-Y1mean
gen Y2dif=Y2-Y2mean
/*Una vez generadas todas las variables, pasamos a realizar un análisis de regresión lineal, donde podemos ver en los resultados que los parámetros se estiman correctamente, es decir, b1=b2=2, a1=100, a2=0*/
regress Y1 X
regress Y2 X
/*Ya hacemos los mismo pero ahora empleando las desviaciones sobre las medias.
Comprobamos que b1=b2=2, aunque el parámetro de escala a1=a2=0*/
regress Y1dif Xdif
regress Y2dif Xdif
/*Por tanto, usando los datos en desviaciones sobre la media, la estimación del efecto b es idéntico aunque el parámetro de escala (ordenada en el origen) sea diferente. De este modo, los coeficientes estructurales son estimados correctamente por medio de las covarianzas, independientemente del valorde la ordenada en el origen*/

Conclusión

Los modelos de ecuaciones estructurales emplean las covarianzas entre las variables como datos de entrada. La relación entre las covarianzas permite la estimación de los coeficientes estructurales, que son idénticos a si se hubieran computado empleando los datos brutos (de cada observación) tomados en desviaciones sobre la media.

Es decir, no necesitamos conocer los datos de cada observación, sólo las covarianzas entre las variables. Sin embargo, si queremos emplear esos coeficientes estimados para realizar predicciones individuales, hemos de tener en cuenta que habrá que hacerlo considerando que los datos de las variables están en desviaciones sobre sus medias.

Obviamente, realizar predicciones individuales tomando a=0 es un error, porque no conocemos a (aunque más adelante veremos que se puede estimar, pero eso es un tema más avanzado).

Category: METODOLOGÍA DE INVESTIGACIÓN

Navegación de entradas

← SUPLEMENTACIÓN CON CAFEÍNA Y RENDIMIENTO EN FUERZA Y POTENCIA
NEUROPSICOLOGÍA DEL COMPORTAMIENTO DEL CONSUMIDOR →

ENTRADAS RECIENTES

  • DESCLASIFICACIÓN DE LA CIA: EFECTO DE LA RADIOFRECUENCIA SOBRE LA HORMONA DE CRECIMIENTO EN RATAS
  • MEDIACIÓN Y MODERACIÓN: PROCESS VS MODELOS DE ECUACIONES ESTRUCTURALES
  • COLORES MENOS SATURADOS PARA QUE EL PRODUCTO PAREZCA MÁS SOSTENIBLE
  • LA REGULACIÓN SOBRE ETIQUETADO Y PUBLICIDAD DE PRODUCTOS AZUCARADOS FUNCIONA EN CHILE
  • ANTENAS DE TELEFONÍA MÓVIL Y ELA

Temáticas del blog

  • BALONCESTO Y RENDIMIENTO DEPORTIVO
  • FÍSICA Y BIOLOGÍA
  • FRAUDE Y EXPLOTACIÓN LABORAL
  • MARKETING Y MANAGEMENT
  • METODOLOGÍA DE INVESTIGACIÓN
  • SALUD Y MEDIO AMBIENTE
  • BALONCESTO Y RENDIMIENTO DEPORTIVO
  • FÍSICA Y BIOLOGÍA
  • FRAUDE Y EXPLOTACIÓN LABORAL
  • MARKETING Y MANAGEMENT
  • METODOLOGÍA DE INVESTIGACIÓN
  • SALUD Y MEDIO AMBIENTE

  • Países al servicio de empresas: 30/06/2019
  • Contaminación electromagnética: efectos sobre la salud e intereses económicos: 19/06/2018
  • Historia de la empresa Alta Gracia Apparel: 08/01/2018
  • Gobiernos contra personas. Los agentes 2,4-D, 2,4,5-T: The Poison Papers: 05/10/2017
  • Disulfuro de carbono: Viscosa, el silencio de la industria: 26/09/2017
  • El efecto placebo: 24/07/2017
  • Glifosato: El veneno mortal de Monsanto: 27/06/2017
  • La historia no contada de Nike. El verdadero rostro de la globalización: 16/05/2017
  • El informe (2016/2140(INI)): El oscuro silencio de las marcas: 02/05/2017
  • La pérdida de identidad: Naming Rights; ¿se puede vender todo?: 07/03/2017
  • Sugargate: El imperio del oro blanco: 30/01/2017
  • Control social y manipulación de masas: 19/12/2016
  • Lo que la industria textil esconde: 23/11/2016

© 2025 Ciencia sin miedo | Funciona con Minimalist Blog Tema para WordPress