(#384). MEJOR UN SÓLO ITEM QUE VARIOS PARA MEDIR ACTITUDES

[REVISIÓN DE ARTÍCULO] En este artículo publicado en el Journal of Advertising Research, los autores analizan los resultados de 189 estudios en el ámbito de la publicidad para concluir que las medidas de un sólo ítem son equivalentes a las de múltiples ítemes.

Como indican los autores, un gran número de académicos apuesta por medir los constructos con múltiples ítemes, en una especie de ritual que a veces carece de la reflexión adecuada sobre lo que realmente se está midiendo. Añadir ítemes con el fin de analizar su consistencia interna (como medida de fiabilidad) es perjudicial si ello perjudica a la propia validez de la medición. Y como bien sabemos los investigadores aplicados, agrandar las encuestas con baterías de preguntas interminables trae consecuencias desastrosas.

Por tanto, ¿por qué realizar 4 o 5 preguntas parecidas para medir un concepto que sería claramente indicado con una sóla? Los autores repasan posturas en la literatura que así lo atestiguan. Si el constructo es unidimensional (y en realidad un concepto complejo se puede desgranar unidimensionalmente) y hay cierta concreción respecto a lo que se está evaluando, las medidas de un sólo ítem son perfectamente adecuadas.

“Estoy satisfecho con este producto”, sería un indicador válido de la satisfacción. ¿Por qué entonces apabullar con una batería de ítemes del estilo: “me gusta este producto”, “el producto me hace feliz”, “el producto ha superado mis expectativas”….?

Es cierto que los autores también identifican críticas al respecto. Al fin y al cabo, el nivel de concreción de un constructo es difícil de discernir. La satisfacción del consumidor, por ejemplo, puede tener un significado diferente para cada participante en un estudio. Pero eso es consustancial con cualquier concepto psicológico similar, como la percepción de calidad, el valor percibido, la confianza, etc. Los autores no comentan esta apreciación, simplemente se ciñen a que el atributo evaluado posea un significado singular y no ambiguo.

Metodología

Los investigadores examinaron los resultados de 8 metanálisis, representando a 189 estudios con casi 40000 participantes.

Para cada metanálisis, los autores calculaban los tamaños de efecto encontrados en la relación entre las variables independientes y dependientes, y los dividían en función de si habían empleado un sólo ítem o escalas multi-ítem.

Resultados e implicaciones

Los resultados se muestran en la siguiente tabla:

b384_2Como puede observarse, sólo en un metanálisis los resultados fueron significativos (los tamaños de efecto entre ambos procedimientos diferían). Los autores también encontraron que la longitud de las escalas multi-ítem tampoco influía en los resultados.

Por tanto, medir las actitudes de los consumidores con un sólo ítem produce resultados análogos a medir con varios ítemes, pero tiene la ventaja de disminuir los costes de recogida de datos y producir una menor amenaza a la validez de estos.

Limitaciones/Comentarios

No sólo en el ámbito del marketing, sino también en la campo más especializado de la metodología en ciencias sociales hay voces que se han alzado en contra del aparente sinsentido de medir un constructo con varios indicadores cuando se podría hacer perfectamente con uno. Leslie Hayduk lo lleva defendiendo en el ámbito de las ecuaciones estructurales desde hace décadas (1 o 2 indicadores por variable latente)

Cualquiera que haya diseñado cuestionarios y hecho trabajo de campo sabe que las encuestas crean automáticamente rechazo, y que no es lo mismo responder a una encuesta de 5 preguntas que a una de 25. Si se define bien el concepto latente a través de un observable, no hay necesidad de marear al encuestado con diferentes formas de decir lo mismo. Es más, la validez es muy probable que se vea amenazada por diferentes sesgos (aquiescencia, cansancio, aprendizaje…).

Quizá la limitación más importante de este estudio reside en la propia comparación que hacen los autores. Si emplear múltiples ítemes afecta a la validez de los resultados, no se pueden usar estos entonces como criterio para comparar con las medidas de un sólo ítem. Y si se admite la validez de ambas aproximaciones, entonces habría que asumir que todos los sesgos anteriormente mencionados relacionados con cuestionarios largos no son relevantes. Y este es un asunto importante que los autores no mencionan, pero que pone un poco en cuestión la calidad de este artículo.

LEE EL ARTÍCULO ORIGINAL AQUÍ

Ang, L. & Eisend, M. (2017). Single versus multiple measurement of attitudes. A meta-analysis of advertising studies validates the single-item measure approach. Journal of Advertising Research, doi: 10.2501/JAR-2017-001

Indicadores de calidad de la revista*

  Impact Factor (2014) Cuartil Categoría
Thomson-Reuters (JCR) 2.328 Q2 BUSINESS
Scimago (SJR) 0.87 Q1 COMMUNICATION

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados




(#380). ÍNDICES APROXIMADOS FLEXIBLES EN ECUACIONES ESTRUCTURALES

[REVISIÓN DE ARTÍCULO] En este artículo publicado en el Journal of the Academy of Marketing Science, los autores proponen desterrar definitivamente los umbrales para índices aproximados en ecuaciones estructurales, y a cambio emplear una perspectiva flexible, basada en los resultados de simulaciones para las condiciones de cada modelo especificado.

Esos índices aproximados no son test estadísticos como tal, porque su distribución es desconocida bajo la hipótesis nula, y los valores de corte se toman como criterio para decidir acerca de la validez del modelo.

Sin embargo, y como indican los autores, existe literatura convincente que especifica que tomar esos criterios de corte sin considerar las características propias de cada modelo (tamaño de muestra, grados de libertad, número de indicadores, etc.) puede producir resultados que contaminen esa capacidad de los índices aproximados para identificar modelos correctos y rechazar falsos.

Lo que plantean los autores es construir distribuciones empíricas para una multitud de formas de modelos de ecuaciones estructurales, y a través de esa distribución empírica (tras realizar cientos de simulaciones), reportar unos índices aproximados con criterios de corte flexibles para cada caso.

Un “no” a la chi-cuadrado

Los autores se posicionan claramente en contra respecto a las visiones de la idoneidad de confiar únicamente en el ajusto vía test de la chi-cuadrado, como hemos visto en otras entradas del blog. Para ellos, las limitaciones de la chi-cuadrado asociadas a su sensibilidad al tamaño de la muestra es motivo más que suficiente para no considerarla como índice de ajuste.

Los autores, sin embargo, argumentan también que el tamaño de la muestra, el tamaño del modelo, el modelo demedida, el tipo de modelo, y la normalidad de la distribución de datos afectan también a los índices aproximados. Esa es la razón por la cual no deben establecer criterios de corte univeresales.

Metodología

Los autores realizan 3 estudios de simulación Monte Carlo, pero lo hacen sólo con modelos de análisis factorial confirmatorio (CFA). Y esto es importante, porque aunque enfatizan que el CFA es más empleado que el resto de modelos causales, están obviando una parte esencial de la utilidad de SEM, la que para algunos autores como Leslie Hayduk es la principal.

Así, los autores configuraron 13851 modelos de CFA con diferentes combinaciones de cargas factoriales, tamaños de muestra, número de variables latentes e indicadores, así como la desviación de la normalidad.

Resultados e implicaciones

Los autores apuestan por el SRMR (como primera opción), CFI, TLI y RMSEA como segunda, en un enfoque de combinación de varios índices ya que todos tienes limitaciones. Concretamente, recomiendan el uso del SRMR (más sensible a la mala especifiación en el modelo estructural), junto a uno de los otros 3 mencionados (más sensibles a la especifiación en el modelo de medida).

Así, cualquier investigador interesado en esta propuesta puede emplear la web www.flexiblecutoffs.org, y especificar los datos de su propio modelo, obteniendo unas recomedaciones sobre los valores de corte de los índices aproximados comentados.

Limitaciones/Comentarios

Los autores reconocen que su propuesta no es sobre la idoneidad de los índices aproximados, sino sobre la estipulación de criterios de corte universales. Es decir, las limitaciones de cada índice aproximado siguen estando ahí, independientemente de que se adopte esta perspectiva flexible.

Sin embargo, es interesante el recorrido que hacen por la literatura que argumenta que los índices aproximados se ven afectados por características del modelo que no están relacionadas con la mala especificación. Su primer estudio, también ofrece resultados consistentes con este hecho.

Los autores separan el modelo de medida del modelo estructural pero no discuten el hecho de que en ambos se especifican relaciones causales. Por tanto, incluso un CFA tiene relaciones causales explicitadas en la relación entre las variables latentes y sus observables. Desde ese punto de vista, la distinción puede resultar engañosa y ocultar problemas mayores, como que los investigadores separen ambos modelos (en el típico test en 2 pasos, primero CFA y luego el modelo causal entre variables latentes), cuando el planteamiento de un modelo es global, integrando la medición observable junto con la causalidad entre latentes.

En definitiva, una propuesta relevante que puede ayudar a investigadores a interpretar mejor los análisis factoriales confirmatorios, pero que obvia el papel del test de la chi-cuadrado al considerarlo muy limitado por su dependencia al tamaño muestral, lo que choca con otras posturas ya comentadas en este blog.

LEE EL ARTÍCULO AQUÍ

Niemand, T. & Mai, R. (2018). Flexible cutoff values for fit indices in the evaluation of structural equation models. Journal of the Academy of Marketing Science, doi:10.1007/s11747-018-0602-9.

Indicadores de calidad de la revista*

  Impact Factor (2017) Cuartil Categoría
Thomson-Reuters (JCR) 8.488 Q1 BUSINESS
Scimago (SJR) 4.614 Q1 MARKETING

* Es simplemente un indicador aproximado para valorar la calidad de la publicación

Todos los posts relacionados