ArticlePDF Available

Effect size: a conceptual review and applications with the ViSta statistical system

Authors:

Abstract and Figures

Effect size (ES) is a necessary complement to the statistical hypothesis testing, however, researchers rarely report ES in their papers. This work provides a conceptual review of the ES estimates for the difference between two means, taking into account the most important algorithms and their interpretation. We also provide a guide to the freely available and easy-to-use ViSta statistical software to compute ES. We hope this paper contributes to the diffusion of ES methods and encourages its use among researchers in Psychology.
Content may be subject to copyright.
Revista Latinoamericana de Psicología
2008, volumen 40, No 3, 425-439
ABSTRACT
Effect size (ES) is a necessary complement to the statistical hypothesis testing, however,
researchers rarely report ES in their papers. This work provides a conceptual review of the ES
estimates for the difference between two means, taking into account the most important
algorithms and their interpretation. We also provide a guide to the freely available and easy-to-
use ViSta statistical software to compute ES. We hope this paper contributes to the diffusion of
ES methods and encourages its use among researchers in Psychology.
Key words: effect size, mean, free software, ViSta
RESUMEN
La estimación del tamaño del efecto (TE) se considera actualmente como un complemento
necesario a las pruebas de hipótesis, no obstante, su uso se encuentra aún poco extendido entre
los investigadores en Psicología. Este trabajo ofrece una revisión teórica de las estimaciones del
TE para el caso de la diferencia entre dos medias, considerando los algoritmos más importantes
1 Correspondencia: NURIA CORTADA DE KOHAN, Salguero 1692, 8-A, CP 1425, Buenos Aires, Argentina. Tel. 54-011-4824-
1753. Correo electrónico: ncortada@psi.uba.ar
Continúa
TAMAÑO DEL EFECTO: REVISIÓN TEÓRICA Y APLICACIONES
CON EL SISTEMA ESTADÍSTICO ViSta
RUBÉN L EDESMA
CONICET/Universidad Nacional de Mar del Plata, Argentina
GUILLERMO M ACBETH
CONICET/Instituto de Investigaciones Psicológicas de la Universidad del Salvador, Argentina
y
NURIA CORTADA DE KOHAN1
Universidad de Buenos Aires, Argentina
426 LEDESMA, MACBETH Y CORTADA
INTRODUCCIÓN
El tamaño del efecto (TE): definición e
importancia
La investigación psicológica se interesa por
detectar la ocurrencia de ciertos fenómenos
poblacionales mediante el análisis de una colec-
ción de datos muestrales (Cohen, 1988; citado
por Kohan, 1994). Para lograr tal conocimiento se
vale de un procedimiento lógico-estadístico que
permite decidir, con cierto margen de error, si es
posible sostener o no la ocurrencia poblacional
del fenómeno bajo estudio. Lo que interesa saber
es, por ejemplo, si un tratamiento novedoso A es
mejor que un tratamiento clásico B para la recu-
peración de personas que padecen algún trastor-
no. Resulta pertinente estudiar si los pacientes
tratados con A mejoran más que los tratados con
B y la medida en que tal diferencia se presenta en
la población, más allá de lo que se observa en la
muestra que el investigador conoce.
El tamaño del efecto (TE) se define como el
grado de generalidad que posee esa superiori-
dad de A sobre B en la población de la que se
obtuvo la muestra estudiada. De esta manera, el
TE se refiere a la magnitud de un efecto que es,
en este ejemplo, la diferencia entre un tratamien-
to nuevo A y otro clásico B. Si A es realmente
mejor que B, interesa saber en qué medida se
espera este fenómeno en la población (Cohen,
1992b). No es suficiente saber que la mejoría
media lograda con A es mayor que la mejoría
media lograda con B en un experimento particu-
lar. Se necesita saber, además, hasta dónde se
puede generalizar este hallazgo cuando se tie-
nen en cuenta las limitaciones del experimento.
La cantidad reducida de personas que participa-
ron del estudio, el máximo riesgo que se acepta
correr en la generalización y los errores de
medición de la mejoría, entre otras, son las
limitaciones del experimento que restringen la
posibilidad de afirmar la superioridad de A sobre
B para la población de la que se obtuvieron las
personas que participaron del estudio.
En síntesis, no es suficiente con identificar la
ocurrencia de cierto efecto, se requiere
adicionalmente determinar su magnitud o tama-
ño (Cohen, 1990, 1992a). Con tal propósito se
han desarrollado diversas técnicas formales que
permiten cuantificar el TE para diversas pruebas
estadísticas habituales en la investigación psico-
lógica como son, por ejemplo, la prueba t, el
análisis correlacional r, y el análisis de varianza,
entre otras (Cohen, 1988). Estas técnicas de
estimación del TE poseen interés práctico en
Psicología, no sólo como complemento necesa-
rio a la pruebas de hipótesis, sino también por-
que ofrecen una métrica común sobre la cual
integrar los resultados de la investigación en
estudios de meta-análisis (Anderson, 1999;
Macbeth, citado por Kohan & Razumiejczyk, en
prensa). Este interés ha llevado a la American
Psychological Association (APA) a alentar su
uso entre los investigadores en Psicología
(Thompson, 1998) y también a que las publica-
ciones periódicas soliciten, cada vez más, no
solo estadísticas, sino también sus TE (Hunter &
Schmidt, 2004).
No obstante el interés asociado con estas
técnicas, en la práctica su uso sigue siendo poco
habitual entre los investigadores, quienes se
y su interpretación. Complementariamente, se presenta y describe un nuevo programa para el
cálculo del TE dentro del sistema ViSta. Este programa es simple de utilizar y se encuentra
disponible de forma gratuita. Se espera que el trabajo contribuya a difundir estos procedimien-
tos y aliente su uso entre los investigadores en Psicología.
Palabras clave: tamaño del efecto, medias, software libre, ViSta
427TAMAÑO DEL EFECTO EN ViSta
muestran más proclives a informar sólo los valo-
res de significación de las pruebas estadísticas,
es decir, el valor convencional de α fijado en
0,01 ó 0,05 (Cohen, 1990, 1994; citado por
Kohan, 2006). Una cuestión añadida y que no
contribuye a modificar esta práctica, es que los
programas más populares no siempre incluyen
la estimación del TE entre sus opciones de
análisis. Así, resulta clara la conveniencia de
insistir en la difusión de estas metodologías,
tanto como facilitar el acceso a las tecnologías
informáticas necesarias para su aplicación.
En este contexto, se presenta en lo que sigue
una revisión teórica de las estimaciones del TE
para el caso de la diferencia entre dos medias.
Esta revisión incluye una presentación de los
algoritmos más comunes, su cálculo y su inter-
pretación. Luego, se introduce y describe un
procedimiento para estimar el TE mediante el
programa ViSta The Visual Statistics System
(Young, 1996). Se espera que el trabajo contri-
buya a una mayor difusión de estas metodologías
y aliente su uso entre los investigadores en
Psicología.
ESTIMACIONES DEL TE: EL CASO DE LA
DIFERENCIA ENTRE DOS MEDIAS
Para calcular el TE que surge de la diferencia
entre dos medias, se emplean habitualmente tres
procedimientos que se conocen como delta de
Glass, d de Cohen y g de Hedges (Grissom &
Kim, 2005). A estos algoritmos se agregan la
conversión de d en r, que es la medida más
común en la investigación psicológica actual y
el estadístico CL (Common Language Effect Size
Statistic), menos conocido pero que también
puede resultar de utilidad. Mediante estos
estimadores se calcula el grado de generalidad
poblacional de un efecto, a partir de la diferencia
que se observa entre dos medias muestrales. La
preferencia por una u otra depende de ciertas
condiciones vinculadas a los supuestos de las
distribuciones y a las propiedades del diseño de
investigación.
La delta de Glass
Pretende estudiar el efecto de la manipulación
de la variable independiente X sobre la variable
dependiente Y. Para ello se conforman dos grupos
homogéneos de participantes. El grupo experi-
mental recibe la manipulación de X mientras que el
grupo control no la recibe. Se comparan la media
de Y en el grupo experimental (Yc) con la media de
Y en el grupo control (Ye) para saber si se generó
entre ambas una diferencia d (Ecuación 1).
(1)
La diferencia d entre las medias de ambos
grupos que genera la Ecuación 1 no es una
medida estable y homogénea porque depende,
entre otras condiciones, de la unidad de medida
de la escala que se aplique para medir la variable
dependiente. No es lo mismo una escala que
puntúa de 1 a 10, que otra escala que puntúa, por
ejemplo, de 1 a 100. Esta diferencia bruta d
resulta demasiado libre como para obtener de
ella alguna información útil, por lo que conviene
uniformarla de algún modo que facilite su mane-
jo. Su comportamiento se vuelve más informati-
vo si se trata esta medida como un puntaje Z, es
decir, cuando se la estandariza. La Ecuación 2
presenta la diferencia d estandarizada, lo que
equivale a dividirla por el desvío estándar del
grupo control (Sc).
(2)
El desvío estándar Sc de la Ecuación 2 se
ajusta mejor con n – 1 en el denominador, tal
como se indica en la Ecuación 3. El término nc se
refiere al tamaño del grupo control.
(3)
La diferencia estandarizada entre medias
muestrales de la Ecuación 2 es un estimador del
parámetro poblacional delta, atribuido a Gene
d = Ye – Yc
Ye – Yc
d =
Sc
1
)(
=
F
FF
F
Q
<<
6
428 LEDESMA, MACBETH Y CORTADA
Glass (Glass, McGaw & Smith, 1981), que se
representa con la letra mayúscula griega en la
Ecuación 4.
(4)
Los valores de µe y µc se refieren a las respec-
tivas medias poblacionales de la variable depen-
diente Y en los grupos experimental y control. La
sigma con subíndice c (σc) se refiere al desvío
estándar poblacional del grupo control. La
poblacional de la Ecuación 4 es el parámetro que
se pretende conocer mediante el cálculo del esta-
dístico muestral de la Ecuación 2. La escala dentro
de la que se mueve la es la de los puntajes Z, es
decir, cada unidad es un desvío estándar. Su
interpretación se refiere a la distancia estandarizada
que la manipulación de la variable independiente
X generó en la variable dependiente Y. Por ejem-
plo, si = 1, se interpreta que la media del grupo
experimental (esto es, en condición de manipula-
ción de X) se encuentra a 1 desvío estándar de la
media del grupo control, es decir, la primera
supera aproximadamente al 84% del grupo con-
trol (porque el área bajo la curva normal que
corresponde a una Z = 1 de la distribución
estandarizada de µc es de p = 0,84022).
La g de Hedges
La delta de Glass pondera la diferencia entre
los grupos mediante el desvío estándar del grupo
control Sc, como se indica en el denominador de
la Ecuación 2. Sin embargo, la diferencia bruta
entre las medias del numerador depende de la
variabilidad de los dos grupos. De esta manera, la
delta de Glass es poco sensible a las diferencias de
variabilidad (por ejemplo, desvío estándar,
varianza) entre los grupos experimental y control.
Este conservadurismo puede generar sesgos en la
estimación del TE cuando la variabilidad resulta
heterogénea entre los grupos. Es por ello que
Hedges propuso cambiar el desvío estándar del
grupo experimental Sc que se presenta en el
denominador de la Ecuación 2, por otro desvío
estándar que mida la variabilidad conjunta de
ambos grupos (Grissom & Kim, 2005). Esta
medida de variabilidad unificada Su es un nuevo
desvío estándar que se obtiene de combinar los
datos de los grupos experimental y control en
una única medida que no asume la igualdad de
varianzas. El desvío estándar unificado Su se
obtiene mediante los cómputos de la Ecuación 5.
(5)
El desvío estándar unificado Su permite que
tanto la variabilidad interna de cada grupo (S2e,
S2c), como el tamaño de los grupos (ne, nc)
participen en la estimación del TE. Esta medida
resulta menos sesgada que la delta de Glass
cuando no se asume la igualdad de varianzas. El
empleo del desvío estándar unificado Su para el
cálculo del TE, cuando se comparan dos grupos
independientes, se conoce como la g de Hedges.
Su cómputo se presenta en la Ecuación 6.
(6)
La g de Hedges es un estimador de la corres-
pondiente g poblacional gpob que se indica en la
Ecuación 7.
(7)
Tanto la delta de Glass, como la g de Hedges,
presentan un sesgo positivo, es decir, una
sobreestimación del TE que puede corregirse
mediante un ajuste propuesto por el mismo
Hedges. La g ajustada gajust se obtiene mediante
la Ecuación 8.
(8)
A mayor cantidad de grados de libertad gl,
menor ajuste se necesita para lograr una estima-
ción menos sesgada del TE, tal como se deduce
de la ubicación de los gl en los cómputos de la
Ecuación 8.
F
FH
σ
µ
µ
=
2
)1()1( 22
+
+
=
F
H
FFHH
X
QQ
6Q6Q
6
X
FH
6
<<
J
=
σ
µ
µ
F
H
SRE
J
=
= 14
3
1JO
JJ
DMXVW
429TAMAÑO DEL EFECTO EN ViSta
La d de Cohen
El estimador del TE propuesto por Cohen
(1988, 1992a, 1994) es similar a la g de Hedges,
aunque presenta un mayor sesgo cuando no se
asume la igualdad de varianzas. El denominador
de la g de Hedges que se presenta en la Ecuación
5, emplea el artificio de n – 1 (es decir, ne + nc -
2) para lograr una mejor aproximación del valor
muestral del desvío estándar unificado Su al
valor poblacional del desvío estándar unificado
σ. Se ha demostrado que mediante este artificio
se logra una mejor aproximación estadística a
los valores poblacionales, que mediante el uso
de n. Sin embargo, si las condiciones de variabi-
lidad controlada que se proponen lograr los
diseños experimentales son adecuadas, ambos
artificios resultan equivalentes. Es por ello que
bajo el supuesto del control ideal de todas las
fuentes de variabilidad ajenas a la manipulación
de la variable independiente X, se considera que
el empleo de la n en el denominador del desvío
estándar resulta pertinente. La d de Cohen, en-
tonces, emplea este artificio para el cálculo del
TE. El desvío estándar de la d de Cohen es, como
ocurre con la g de Hedges que se presenta en las
Ecuaciones 5 y 6, una medida que combina los
desvíos estándar de los dos grupos, aunque la d
no emplea el artificio de n – 1.
La d de Cohen (1988) es una de las medidas
más empleadas en las publicaciones especializa-
das para el cálculo del TE y en los estudios meta-
analíticos (Anderson, 1999; Hunter & Schmidt,
2004). Su cómputo se presenta en la Ecuación 9.
(9)
El desvío estándar unificado Su en la d de
Cohen, sin embargo, no es idéntico al de la g de
Hedges de la Ecuación 5, porque el primero
emplea sólo la n, es decir, no incluye la correc-
ción de n – 1.
La relación entre estas tres medidas del TE
depende de la variabilidad interna de cada gru-
po. Cuanto más se aproximen los grupos experi-
mental y control a la normalidad y homogeneidad,
más se acercarán al ideal de = gpob = gajust = d. Esta
situación ideal resulta, sin embargo, poco posible
debido a las variaciones que genera el error de
muestreo, entendido como el conjunto de diferen-
cias que se observan entre diversas muestras
aleatorias obtenidas de una misma población
(Hunter & Schmidt, 2004). Es poco probable que
Se = Sc y, por lo tanto, que ambas medidas sean
iguales a la sigma unificada poblacional σu.
Interpretación de las estimaciones del tamaño
del efecto
El significado del TE no se obtiene mecáni-
camente (Cohen, 1990). Si bien su unidad de
medida es la de los desvíos estándar, su interpre-
tación depende de la manera en que se relaciona
con otros criterios relevantes del razonamiento
estadístico (Gigerenzer, 1993; Krueger, 2001;
Thompson, 1998). Un mismo TE puede tener
diferentes significados prácticos porque depen-
de del problema específico que se esté evaluan-
do. Uno de los aspectos más relevantes para la
interpretación del TE es su relación con el poder
estadístico (Cohen, 1988), entendido como la
probabilidad que posee una prueba de obtener
resultados significativos. Formalmente, el poder
o potencia (power) se define como 1 – β, siendo
β la probabilidad de aceptar erróneamente la
hipótesis nula (Cohen, 1992a). A su vez, el
poder estadístico es una función matemática que
depende del tamaño de la muestra (n), del nivel
de significación estadística α (p valor) y del TE.
De esta manera, el TE ha sido entendido como
un complemento necesario para el análisis de los
datos empíricos en la prueba de hipótesis tradi-
cional (Cortina & Dunlap, 1997).
En relación con este procedimiento clásico
de la prueba de hipótesis, la hipótesis nula sos-
tiene que el TE es igual a cero (Cohen, 1988,
1994). El alejamiento del TE de cero implica el
rechazo de la hipótesis nula, por lo cual su
magnitud crece junto con el poder de la prueba
de significación estadística que se esté emplean-
do. A mayor TE, mayor poder, es decir, menor
X
FH
6
<<
G
=
430 LEDESMA, MACBETH Y CORTADA
probabilidad de cometer un error de tipo II. La
consideración del TE en el contexto de la prueba
de hipótesis es una manera de controlar tanto el
valor de α (probabilidad de cometer un error de
tipo I), como el valor de β (probabilidad de
cometer un error de tipo II). De esta manera,
cuanto mayor sea el TE, menor resulta el tamaño
de la muestra que se necesita para detectar la
ocurrencia poblacional de un fenómeno.
El tamaño del efecto en términos de
correlación
La forma más universal del TE es r, entendi-
da como correlación biserial entre una variable
independiente binaria X y una variable depen-
diente numérica o escalar Y (Cohen, 1988). La X
adquiere sólo dos valores, por ejemplo 1 y 0,
según la pertenencia del participante al grupo
experimental (X = 1) o al grupo control (X = 0).
Los valores de Y dependen, en cambio, de la
escala de medición que se aplique. La estima-
ción del TE mediante r tienen varias ventajas
sobre los anteriores estimadores, entre las que se
destaca su mayor facilidad de interpretación.
Esta ventaja se debe a la condición acotada de la
escala de r. La correlación es siempre un número
decimal que fluctúa entre 0 y 1, a diferencia de
las otras medidas del TE que se comportan como
un puntaje Z. Por ello, es útil convertir estimadores
como la d de Cohen a r. Esta conversión facilita,
además, la posterior realización de estudios meta-
analíticos. Cohen (1988) propone la fórmula de
la Ecuación 10 para convertir la d en r.
(10)
Los valores de p y q corresponden a las
proporciones de sujetos que pertenecen a los
grupos experimental y control, respectivamen-
te. Es decir que la proporción p es equivalente al
cociente que surge de dividir la cantidad de
sujetos que incluye el grupo experimental ne por
la cantidad total de sujetos n (grupo experimen-
tal ne + grupo control nc). Es decir, p = ne / n. La
proporción de sujetos que pertenecen al grupo
control es q = nc / n. De esta manera, la propor-
ción q es el complemento de p, por lo cual q = 1
- p. Cuando el tamaño de ambos grupos es
idéntico (ne = nc), el valor del término (1 / pq)
resulta igual a 4, es decir 1 / (0,5 x 0,5) = 1/ 0,25
= 4. De esta manera, la Ecuación 10 puede
abreviarse cuando los grupos experimental y
control poseen el mismo tamaño. La Ecuación
11 propuesta por Cohen (1988) resume este
caso.
(11)
Cuánto mayor sea la discrepancia entre p y q,
es decir, entre el tamaño de los grupos experi-
mental y control, mayor será el valor del deno-
minador en la Ecuación 10, por lo cual menor
será la correlación r.
Para interpretar el TE mediante r se debe
considerar que a mayor TE, mayor r. Se infiere
que cuanto mayor es el valor de r, mayor es la
magnitud del efecto que la manipulación de la
variable independiente X generó sobre la varia-
ble dependiente Y. A mayor valor de d (y mayor
homogeneidad de tamaño entre los grupos),
mayor correlación biserial entre X e Y. Suponga-
mos el ejemplo que se reproduce con mayor
detalle en el apartado de descripción del progra-
ma. En él, se realiza un experimento con dos
grupos de similar tamaño, con 21 sujetos que
recibieron una manipulación experimental y 23
sujetos que no recibieron ninguna manipulación
y el TE obtenido para la diferencia estandarizada
entre medias resulta de d = 0,691. Reemplazan-
do los valores correspondientes en la Ecuación
10 obtenemos:
)/1(
2STG
G
U+
=
4
2+
=
G
G
U
326,0
119,2
691,0
)249,0/1(477,0
691,0
)523,0477,0/1(691,0
691,0
2==
+
=
×+
=
U
326,0
115,2
691,0
477,4
691,0
4477,0
691,0
4691,0
691,0
2==
+
=
+
=U
La Ecuación 11, que asume la homogenei-
dad del tamaño de los grupos, también arroja
una r de 0,326 porque la diferencia de la n entre
ambos es muy pequeña (p q 0,5).
431TAMAÑO DEL EFECTO EN ViSta
Nótese que el término de mayor peso en estas
fórmulas de conversión es el tamaño del efecto
d. De esta manera, a mayor TE, mayor r, es decir
mayor proximidad de r a 1. Si en el caso ilustrado
elimináramos del grupo control un aparente
outlier presente en los datos, la d ascendería de
0,691 a 0,922 y se obtendría una r aún mayor
con la Ecuación 10:
La proporción p se obtiene de 21/43 = 0,488
y la proporción q se obtiene de 22/43 = 0,512,
por lo cual el valor de pq resulta de 0,488 x
0,512 = 0,2498 0,25. En este caso, la diferen-
cia de tamaño entre los grupos experimental y
control es tan pequeña que el valor de r resulta
equivalente según las Ecuaciones 10 y 11. El
valor hallado de r = 0,419 indica una buena
correlación entre la manipulación de X y las
variaciones de Y. De esta manera, la conversión
de d a r permite interpretar el TE en términos de
correlación.
Tablas para la interpretación del tamaño del
efecto
Cohen (1988) ha proporcionado una colec-
ción de tablas para la interpretación del TE en las
pruebas estadísticas más usadas en la investiga-
ción psicológica, tales como t, r, χ2, F, etc. Estas
tablas presentan dos variedades: a) algunas sir-
ven para calcular el poder de una prueba estadís-
tica en un análisis post hoc, es decir, luego de
concluida la investigación; y b) otras se aplican
para calcular el tamaño de muestra (n) necesario
para detectar un TE determinado durante la
planificación de un estudio, es decir, antes de la
investigación (Citado por Kohan & Macbeth,
2008, en prensa). Las tablas que ofrece Cohen
(1988) para el primer caso informan los valores
aproximados del poder de la prueba para dife-
rentes tamaños de la muestra n y diferentes
valores del TE. En la Tabla 1 se resumen algunos
valores del poder de la prueba t ofrecidos por
Cohen para el caso de un criterio de significa-
ción de α = 0,05 en la comparación de dos
grupos independientes. Los diversos TE (d) ob-
tenidos se indican en las columnas y los diferen-
tes tamaños de (n) se indican en las filas.
419,0
202,2
922,0
)25,0/1(85,0
922,0
)512,0488,0/1(922,0
922,0
2==
+
=
×+
=
U
TABLA 1
Poder (1-
β
) de la prueba t bilateral para un p valor de 0,05 (Cohen, 1988)
D
n 0,30 0,50 0,70 0,80 1 1,20
1 0,10 0,18 0,31 0,39 0,56 0,71
30 0,21 0,47 0,76 0,86 0,97 *
50 0,32 0,70 0,93 0,98 * *
72 0,43 0,85 0,99 * * *
100 0,56 0,94 * * * *
* poder > 0,995
La Tabla 1 es una versión abreviada de la
tabla ofrecida por Cohen (1988, pp. 36) para la
estimación del poder de la prueba t bilateral con
un p valor de 0,05 para la comparación de dos
grupos independientes.
Para ilustrar el funcionamiento de esta tabla,
Cohen propone un ejemplo en el que se compa-
ran dos grupos de ratas en un experimento sobre
aprendizaje. El grupo experimental fue someti-
do a una sesión de aprendizaje mientras que el
432 LEDESMA, MACBETH Y CORTADA
grupo control no recibió ningún tratamiento. Se
midió el número de ensayos necesarios para
obtener éxito sostenido en una determinada
tarea. Se encontró que las diferencias entre el
grupo control y el grupo experimental arroja-
ron una estimación del TE equivalente a d =
0,50; con una n = 30 para cada grupo. El poder
de la prueba estadística aplicada es, según la
Tabla 1, equivalente a 0,47. Esto significa que
la probabilidad de detectar un TE de 0,50 con
un p valor de 0,05 mediante una prueba t
bilateral es menor a 1/2. Si el tamaño del efecto
resulta, en cambio, de mayor magnitud, enton-
ces el poder aumenta.
Por ejemplo, si la d asciende de 0,50 a 0,70,
manteniendo constante el resto de las condicio-
nes, entonces el poder de la prueba corresponde
a 0,76. Esto indicaría que la prueba t posee, en tal
caso, una probabilidad bastante alta de detectar
el TE especificado. El poder de la prueba aumen-
ta junto con el tamaño de los grupos y, simultá-
neamente, a medida que aumenta la diferencia d
entre el grupo experimental y el grupo control.
En general, a mayor TE y mayor tamaño de la
muestra, mayor poder estadístico posee la prue-
ba que se emplee para una hipótesis.
La segunda variedad de tablas ofrecidas por
Cohen para interpretar el TE se relaciona con el
cálculo del tamaño de la muestra que se necesita
para detectar un determinado efecto. Estas tablas
se emplean durante la planificación de un estu-
dio. La Tabla 2 presenta una versión abreviada
de la tabla ofrecida por Cohen (1988, pp. 55)
para el cálculo del tamaño de la muestra que se
necesita para detectar diferentes TE (d) según el
poder estadístico de la prueba t bilateral con un
p valor de 0,05. Por ejemplo, para detectar una
diferencia estandarizada entre las medias del
grupo experimental y control equivalente a una
d = 0,50 con un poder de 0,80, se necesitan 64
casos por grupo. Si se espera que la diferencia
entre los grupos resulte aún mayor, por ejemplo
de d = 0,80, entonces se necesitarán menos
casos, 26 por grupo según se indica en la Tabla
2. Con sólo 12 casos por grupo se podrá detectar
una diferencia d = 1,20.
TABLA 2
Tamaño de muestra (n) necesario para detectar diferentes TE (d) mediante prueba t
(Cohen, 1988)
D
poder 0,10 0,20 0,50 0,80 1,20
0,25 332 84 14 6 4
0,50 769 193 32 13 7
0,70 1235 310 50 20 10
0,80 1571 393 64 26 12
0,90 2102 526 85 34 16
De la misma manera, en caso de anticipar
una diferencia menor entre ambos grupos equi-
valente, por ejemplo, a una d = 0,20, se necesi-
tarán 393 casos por grupo para que la prueba t
bilateral (con un p valor de 0,05) tenga un poder
o probabilidad de 0,80 de detectarla. En general,
a mayor poder, se necesita mayor cantidad de
casos y, a mayor TE, menor cantidad.
433TAMAÑO DEL EFECTO EN ViSta
El estadístico CL como una vía más simple de
interpretación del TE
McGraw y Wong (1992) proponen otro mé-
todo de estimación del TE para el caso de la
diferencia entre dos medias provenientes de
muestras independientes: el estadístico CL
(Common Language Effect Size). Los autores
argumentan que es un estadístico más simple de
interpretar que los anteriores, ya que se expresa
la magnitud de la diferencia en términos de un
valor de probabilidad. En particular, estima la
probabilidad de obtener un valor de diferencias
entre medias mayor que cero en una distribución
normal cuya media es la diferencia observada
entre ambas medias (Valera-Espín & Sánchez-
Meca, 1997). Para su cálculo, debe obtenerse
primero:
(12)
Posteriormente se busca en la distribución
normal tipificada la probabilidad de un valor
menor al obtenido en la formula anterior. En el
ejemplo supuesto y descrito en el próximo apar-
tado del software, esto sería:
Que se interpretaría fácilmente como: el 74%
de las veces un sujeto extraído al azar del grupo
Experimental obtendrá un valor mayor que un
sujeto extraído al azar del grupo Control. Esta
conversión del TE a un valor de probabilidad
podría aplicarse también a otras formas
estandarizadas de estimación de TE, como el
estadístico d de Cohen, para proporcionar una
forma más universal de interpretación.
CÁLCULO DEL TE CON EL PROGRAMA
ViSta
ViSta “The Visual Statistics System”
ViSta es un programa estadístico creado por
el Profesor Forrest W. Young de la Universidad
de Carolina del Norte en Chapel Hill (Young,
1996). Diseñado originalmente como entorno
para desarrollar técnicas de visualización de
datos, en la actualidad puede considerarse un
sistema estadístico completo, ya que ofrece ca-
pacidades de edición, transformación y análisis
de datos (Molina-Ibañez, Ledesma, Valero-Mora
& Young, 2005). ViSta es un sistema escrito en
lenguaje LispStat (Tierney, 1990) que ha sido
pensado como software abierto y extensible,
esto significa que proporciona acceso al código
fuente y herramientas de programación para que
los usuarios avanzados puedan expandir o mo-
dificar las capacidades de análisis del programa.
Se presenta en este artículo la anexión de funcio-
nes básicas de estimación del TE a un módulo ya
existente en ViSta para la comparación de me-
dias.
Ejemplo de uso de ViSta
La Figura 1 muestra una imagen parcial de
ViSta con un conjunto de datos apropiados para
ilustrar el cálculo del TE. Este archivo de datos
se encuentra en la librería de datos de ViSta y
corresponde a un ejemplo tomado de Moore y
McCabe (1993). Los datos pertenecen a un
estudio que examina cómo una nueva tarea
dirigida puede ayudar a los estudiantes a mejorar
sus habilidades de lectura. Los dos grupos co-
rresponden a estudiantes que han recibido la
tarea (grupo experimental; ne = 21) y estudiantes
que no la han recibido (grupo control; nc = 23).
La variable dependiente en este caso es la
puntación en un Test de Lectura, etiquetada en la
22
F
H
F
H
66
<<
=+
=
651,0
63,1401,11
55,39 51,48
22 =
+
==, y p(Z < 6,651) = .743
434 LEDESMA, MACBETH Y CORTADA
imagen con el nombre Puntajes. Este tipo de
archivo de datos puede crearse en ViSta usando
el editor de datos o también importarse en forma-
to texto.
En ViSta la estimación del TE se realiza
automáticamente cuando se aplica el comando
de contrastación de medias para muestras inde-
pendientes. Por su naturaleza, este análisis solo
admite datos de entrada con una variable inde-
pendiente binaria –dos grupos de compara-
ción– y una variable dependiente numérica,
como los datos del ejemplo. Luego de ejecutar
este comando, ViSta proporciona salidas numé-
ricas en formato de texto (Reports) y salidas en
formato gráfico para explorar visualmente los
resultados del análisis.
La Tabla 3 muestra el informe con los resul-
tados estadísticos básicos de la prueba de com-
paración de medias para los datos del ejemplo.
Figura 1. Imagen parcial de ViSta con la
planilla de datos del ejemplo
La primera parte incluye información descripti-
va (tamaño de los grupos, medias, desvíos
estándar, etc.), mientras que la segunda parte
muestra las diferentes formas de estimación del
TE, incluyendo la d de Cohen (0,691), la g de
Hedges (0,684), la delta de Glass (0,580), la
conversión de d a r (0,326) y el estadístico CL
(0,687). Por último, se presentan los resultados
de la prueba t y de la prueba de homogeneidad
de varianzas. Esta última parece indicar una
diferencia significativa entre las varianzas de
ambos grupos, y la consiguiente necesidad de
una inspección más detallada y directa de los
datos. Con este fin, puede ser conveniente utili-
zar los gráficos que ViSta proporciona para
realizar un análisis exploratorio.
Para este caso, la Figura 2 muestra un ejem-
plo del tipo de gráficos que se pueden generar en
ViSta y su posible utilidad como complemento
en el cálculo del TE. Dicha figura presenta
diferentes imágenes de un gráfico de puntos,
diamantes y cajas (dot, diamond and box plot).
La primera imagen (arriba a la izquierda) mues-
tra el gráfico de puntos –representando los par-
ticipantes de cada grupo– y las medias de ambos
grupos unidas por una línea. Este gráfico permi-
te apreciar la diferencia entre las medias y tam-
bién visualizar un aparente outlier o caso atípico
en el grupo control. El segundo gráfico (arriba a
la derecha) es un esquema de las distribuciones
basado en las medias y desvíos estándar de cada
grupo. Se añaden al gráfico anterior dos diaman-
tes como indicadores de la variabilidad de los
grupos. Aquí, los extremos de cada diamante se
fijan en un desvío por encima y por debajo de la
media de cada grupo. El tercer gráfico (abajo a
la izquierda) también es un esquema de las
distribuciones, aunque éste se basa en medidas
de posición. Se trata de un gráfico de cajas (box
plot) donde la línea central corresponde a la
mediana, las cajas están definidas por los cuartiles
uno y tres, y las líneas de los extremos represen-
tan los percentiles 10 y 90, respectivamente. Por
último, el gráfico ubicado abajo a la derecha es
una superposición de todos los anteriores.
435TAMAÑO DEL EFECTO EN ViSta
TABLA 3
Ejemplo de salida en formato de listado numérico (Report)
La información gráfica anterior sugiere la
existencia de una diferencia entre las medias a
favor del grupo experimental, pero también per-
mite detectar cierta heterogeneidad en las varianzas
y un aparente outlier en el grupo control, cuestio-
nes que se deben tener en cuenta al momento de
la comparación. Considerando que el outlier pue-
de afectar la media del grupo control y contribuir
a la heterogeneidad de las varianzas, el analista
podría razonablemente estar interesado en reali-
zar el análisis nuevamente, eliminando el outlier
de los datos. La eliminación de casos atípicos se
justifica, en ocasiones, por el incumplimiento de
criterios de inclusión en el reclutamiento de los
participantes que conforman la muestra, o bien
por errores en el ingreso de datos (Miller, 1993).
Este tipo de operaciones (selección, eliminación
de participantes, etc.) puede realizarse de modo
sencillo en ViSta utilizando un Panel de Selec-
ción. Así, la aplicación de los análisis, en este caso
el cálculo del TE, resulta más dinámica e interactiva
para el usuario.
436 LEDESMA, MACBETH Y CORTADA
La tabla 4 muestra los resultados del aná-
lisis luego de proceder con dicha elimina-
ción. Se observan cambios en las estimaciones
del TE, así como un resultado más satisfacto-
rio en el Test de homogeneidad de varianzas.
En síntesis, el ejemplo permite ilustrar que el
Gráfico con las medias de los grupos y
los sujetos representados como puntos Gráfico con las medias de los grupos
y un ‘diamante’ representando la
variabilidad
Gráfico de cajas con las medianas de
ambos grupos conectadas Gráfico de puntos, diamantes y cajas
para ambos grupos.
TE puede calcularse de modo sencillo en
ViSta, con la ventaja añadida de que el usua-
rio también pude interactuar con el resto de
las opciones del programa, tales como obte-
ner salidas gráficas, seleccionar o eliminar
participantes, etc.
Figura 2. Ejemplos de gráficos generales en ViSta.
437TAMAÑO DEL EFECTO EN ViSta
COMENTARIOS FINALES
El TE se ha planteado como un complemento
necesario a las pruebas de hipótesis (Cohen,
1988). El TE permite una apreciación más direc-
ta de la magnitud de los fenómenos en estudio y
ofrece una interpretación más adecuada de los
resultados. Además, resulta un elemento nece-
sario para la integración de diversos resultados
mediante el Meta-Análisis (Hunter & Schmidt,
TABLA 4
Nueva salida de resultados luego de la eliminación de un posible outlier en el grupo control
2004; Macbeth et al., en prensa). De ahí las
recomendaciones de los expertos y de las nor-
mas editoriales de las revistas especializadas que
promueven con un énfasis creciente el empleo
de estas técnicas.
No obstante, su uso se encuentra aún poco
extendido en la práctica, lo cual podría explicar-
se, en parte, por desconocimiento y, en parte,
porque los programas estadísticos más popula-
438 LEDESMA, MACBETH Y CORTADA
res no lo incluyen claramente entre sus opciones
de análisis. Es curioso, por ejemplo, que muchos
manuales de estadística en Psicología no incor-
poren este tema entre sus contenidos básicos,
siendo que su cálculo e interpretación resultan
relativamente sencillos. Aquí puede verse, tam-
bién, el énfasis en las pruebas de hipótesis y los
valores de significación tradicionales de 0,01 y
0,05.
En este contexto, el presente trabajo intenta
contribuir a los esfuerzos realizados por institucio-
nes como la APA por difundir y animar el uso del
TE entre los investigadores en Psicología. Con tal
propósito, se proporciona aquí una implementación
informática simple de usar y de libre acceso, que
se acopla al programa estadístico ViSta.
En cuanto a la disponibilidad y funciona-
miento de esta implementación informática, el
usuario interesado simplemente debe: a) Instalar
la versión 6.4 de ViSta, y b) Instalar el programa
ViSta-ES, que añade las opciones de estimación
del TE en ViSta. Ambos programas pueden en-
contrarse en la dirección URL: www.mdp.edu.ar/
psicologia/vista/ Por último, quienes estén intere-
sados en una revisión general de las capacidades
y funcionamiento de ViSta pueden consultar a
Molina-Ibañez, Ledesma, Valero-Mora y Young
(2005).
REFERENCIAS
Anderson, G. (1999). The Role of Meta-Analysis in the Significance Test Controversy. European Psychologist, 4(2), 75-82.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Second Edition. Hillsdate, NJ: LEA.
Cohen, J. (1990). Things I Have Learned (So Far). American Psychologist, 45(12), 1304-1312.
Cohen, J. (1992a). A Power Primer. Psychological Bulletin, 112(1), 155-159.
Cohen, J. (1992b). Fuzzy Methodology. Psychological Bulletin, 112(3), 409-410.
Cohen, J. (1994). The Earth Is Round (p<.05). American Psychologist, 49(12), 997-1003.
Kohan, N. (1994). Diseño Estadístico. Buenos Aires: Eudeba.
Kohan, N. (2006). El Tamaño del Efecto en la Investigación Psicológica. Ponencia presentada en el Primer Encuentro de Evaluación
Psicológica y Educativa. Córdoba: Universidad Nacional de Córdoba.
Kohan, N. & Macbeth, G. (en prensa). El Tamaño del Efecto en la Investigación Psicológica. Revista de Psicología UCA.
Cortina, J.M. & Dunlap, W.P. (1997). On the Logic and Purpose of Significance Testing. Psychological Methods, 2(2), 161-172.
Gigerenzer, G. (1993). The Superego, the Ego, and the Id in Statistical Reasoning. En G. Keren & C. Lewis (Eds.), A Handbook for
Data Analysis in the Behavioral Sciences: Methodological Issues (pp. 311-339). Hillsdale, NJ: LEA.
Glass, G.V., McGaw, B. & Smith, M.L. (1981). Meta-Analysis in Social Research. Thousand Oaks, CA: Sage.
Grissom, R.J. & Kim, J.J. (2005). Effect Sizes for Research. A Broad Practical Approach. Mahwah, NJ: LEA.
Hunter, J.E. & Schmidt, F.L. (2004). Methods of Meta-Analysis. Correcting Error and Bias in Research Findings. Second Edition.
Thousand Oaks, CA: Sage.
Krueger, J. (2001). Null Hypothesis Significance Testing. On the Survival of a Flawed Method. American Psychologist, 56(1), 16-
26.
Kohan, N. & Razumiejczyk, E. (en prensa). El Meta-Análisis: la Integración de los Resultados Científicos. Evaluar.
McGraw, K. y Wong, S. (1992). A common language effect size statistic. Psychological Bulletin, 111, 361-365.
Miller, J.N. (1993). Outliers in Experimental Data and Their Treatment. Analyst, 118, 455-461.
439TAMAÑO DEL EFECTO EN ViSta
Molina-Ibañez, J.G., Ledesma, R., Valero-Mora, P. & Young, F.W. (2005). A Video Tour through ViSta 6.4, a Visual Statistical System
based on Lisp-Stat. Journal of Statistical Software, 13(8), 1-10.
Moore, D.S. & McCabe, G.P. (1993). Introduction to the Practice of Statistics. Second Edition. New York: W.H. Freeman & Company.
Thompson, B. (1998). Statistical Significance and Effect Size Reporting: Portrait of a Possible Future. Research in the Schools, 5(2),
33-38.
Tierney, L. (1990). Lisp-Stat An Object-Oriented Environment for Statistical Computing and Dynamic Graphics. NY: John Wiley
& Sons.
Valera-Espín, A. y Sánchez-Meca, J. (1997) Pruebas de significación y magnitud del efecto: Reflexiones y propuestas. Anales de
psicología, 13, 1, 85-90
Young, F.W. (1996). ViSta: The Visual Statistics System. UNC L.L. Thurstone Psychometric Laboratory, Research Memorandum
94-1.
Recibido: Abril de 2007
Aceptación final: Octubre de 2008
.
... For the case of two distributions compatible with normality and homoscedasticity assumptions, the most adequate ESMs are Cohen's d, Hedges' g and Glass' delta (Hess & Kromrey, 2004). These measures are specifically recommended for such cases because they depend on the mean and standard deviation (Ledesma, Macbeth & Cortada de Kohan, 2008). Their use is limited by the violation of normality and variance homogeneity assumptions (Grissom & Kim, 2005). ...
... In some other cases, commercial packages include some effect size estimators, but mainly for parametric distributions. An important free software that calculates many measures of effect size for two groups of observations is the ES-calc plug-in developed in the environment of ViSta, the Visual Statistics Software (Ledesma et al., 2008(Ledesma et al., , 2009Young, 1996;Young, Valero-Mora & Friendly, 2006). This useful program includes parametric measures like Cohen's d, Hedges' g, and Glass' delta among other alternatives, but also non-parametric methods like the estimator of Cliff's Delta. ...
... The specific contribution of this work is the free availability of a friendly software that facilitates the visualization and interpretation of the effect size for non-parametric comparisons of two groups of observations. The interpretation tips and graphical representations that complement the numerical results are probably interesting features of the CDC program when compared with other calculators like the Es-calc for ViSta (Ledesma et al., 2008(Ledesma et al., , 2009 and the discussed macro for SAS (Hogarty & Kromrey, 1999). ...
Article
Full-text available
The Cliff's Delta statistic is a non-parametric effect size measure that quantifies the amount of difference between two groups of observations beyond p-values interpretation. This measure can be understood as a useful complementary analysis for the corresponding hypothesis testing. During the last two decades the use of effect size measures has been strongly encouraged by methodologists and leading institutions of behavioral sciences. The aim of this contribution is to introduce the Cliff's Delta Calculator software that performs such analysis and offers some interpretation tips. Differences and similarities with the parametric case are analysed and illustrated. The implementation of this free program is fully described and compared with other calculators. Alternative algorithmic approaches are mathematically analysed and a basic linear algebra proof of its equivalence is formally presented. Two worked examples in cognitive psychology are commented. A visual interpretation of Cliff's Delta is suggested. Availability, installation and applications of the program are presented and discussed.
... meaning that it is correct to reject the null hypothesis that the variances are equal. The effect size (η 2 ), proportion of total variation attributable to a factor or, the magnitude of difference between one time or another [40], which produces the interaction between the test time and the programme application is .099. Finally, a t-test was conducted on the mean differences to check if there were any differences between the experimental group and the control group pre-test and post-test (Table IV). ...
Article
Full-text available
Nowadays, digital culture affects all levels of society. However, differences exist between individuals, commonly named as the “digital divide,” which impedes the equal access to the benefits of new technologies. The Usability and Accessibility (UA) module is a core, first-semester module during the first year of the Multimedia Engineering degree at the University of Alicante. The UA module’s main objective is to provide students with the necessary concepts and tools to design and develop products with usability and accessibility features, thus achieving end products that are more usable and accessible, regardless of the end users’ status, ability or situation. This paper presents a new learning methodology aimed at making students become everyday users of their own digital products. Daily use of these products improves the UA learning process, since students can appreciate their accessibility and usability in everyday life conditions for a better understanding of how their own design decisions affect potential users. A non-equivalent control group design with pre- and post-test control groups was used to test the research hypothesis. The results of this study showed a significant improvement in their academic performance compared to the control group.
... The observed power is 0.989, rejecting the null hypothesis of equality of means. The effect size (η 2 ), proportion of total variability attributable to a factor (Gardner, 2003), or the magnitude of the difference between one time and another (Ledesma et al., 2008), resulting from the interaction between the time of the assessment and the implementation of the program is 0.105. ...
Article
Full-text available
Gamification methods adapt the mechanics of games to educational environments for the improvement of the teaching-learning process. Serious games play an important role as tools for gamification, in particular in the context of software engineering courses because of the idiosyncratic nature of the topic. However, the studies on the improvement of student performance resulting from the use of gamification and serious games in courses with different contexts are not conclusive. More empirical research is thus needed to obtain reliable results on the effectiveness, benefits and drawbacks. The overall objective of this work is to study the benefits generated by serious games in the teaching-learning process of Computer Engineering degrees, analyzing the impact on the motivation and student satisfaction, as well as on the learning outcomes and results finally achieved. To this end, an intervention is proposed in the subject of Computer Architecture based on two components covering theoretical and practical sessions. In the theoretical sessions, a serious game experience using Kahoot has been introduced, complementing the master classes and class exercises. For the practical sessions, the development of projects with groups of students has been proposed, whose results in terms of computer performance can be compared through a competition (hackathon). Evaluation of the serious game-based intervention has been approached in terms of student satisfaction and motivation, as well as improved academic performance. In order to assess student satisfaction, surveys have been used to assess the effect on student motivation and satisfaction. For the evaluation of academic performance, a comparative analysis between an experimental and a control group has been carried out, noting a slight increase in the experimental group students’ marks.
... The relatively modern 40 concept of the knowledge society, however, refers to a society 41 in which knowledge, rather than manual work, raw materials, development [5]. The knowledge society demands certain skills 44 from its citizens so that they can function in the complex web of 45 knowledge, technology, communication, and cooperation that 46 has replaced the traditional monodisciplinary professions. The 47 business world's awareness of this, as well as their quest for 48 maximum worker performance, has fostered research on the 49 skills characteristic of the most successful employees. ...
Article
Interdisciplinary projects in industry typically require collaboration between professionals from various fields. However, this relationship is not generally addressed in the training offered by university programs, which often ignore this interdisciplinary approach. This paper offers an example of interdisciplinary interaction through joint laboratory activities in the curricula of two very different degree programs, Multimedia Engineering and Teacher Training in Primary Education. The programs’ students formed an interdisciplinary team of multimedia engineers and trainee teachers to develop a Web product for children's cognitive development. The complexity of the task required students to engage in close, strong interdisciplinary cooperation and communication; in turn they benefited from the synergy offered by collaborative work. The results of this study, presented from the perspective of the multimedia engineering students, demonstrate a significant increase in their academic performance compared to the control group. The study shows that university studies can incorporate an interdisciplinary perspective to engineering education without the need to introduce a specific course on the topic, thus avoiding further demands on the curriculum schedule.
Chapter
Where do new ideas come from? What is social intelligence? Why do social scientists perform mindless statistical rituals? This vital book is about rethinking rationality as adaptive thinking: to understand how minds cope with their environments, both ecological and social. The author proposes and illustrates a bold new research program that investigates the psychology of rationality, introducing the concepts of ecological, bounded, and social rationality. His path-breaking collection takes research on thinking, social intelligence, creativity, and decision-making out of an ethereal world where the laws of logic and probability reign, and places it into our real world of human behavior and interaction. This book is accessibly written for general readers with an interest in psychology, cognitive science, economics, sociology, philosophy, artificial intelligence, and animal behavior. It also teaches a practical audience, such as physicians, AIDS counselors, and experts in criminal law, how to understand and communicate uncertainties and risks.
Article
After 4 decades of severe criticism, the ritual of null hypothesis significance testing - mechanical dichotomous decisions around a sacred .05 criterion - still persists. This article reviews the problems with this practice, including its near-universal misinterpretation of p as the probability that H0s false, the misinterpretation that its complement is the probability of successful replication, and the mistaken assumption that if one rejects H0 one thereby affirms the theory that led to the test. Exploratory data analysis and the use of graphic methods, a steady improvement in and a movement toward standardization in measurement, an emphasis on estimating effect sizes using confidence intervals, and the informed use of available statistical methods is suggested. For generalization, psychologists must finally rely, as has been done in all the older sciences, on replication.
Book
The goal of this book is to inform a broad readership about a variety of measures and estimators of effect sizes for research, their proper applications and interpretations, and their limitations. Its focus is on analyzing post-research results. The book provides an evenhanded account of controversial issues in the field, such as the role of significance testing. Consistent with the trend toward greater use of robust statistical methods, the book pays much attention to the statistical assumptions of the methods and to robust measures of effect size.
Article
This review summarizes critically the approaches available to the treatment of suspect outlying results in sets of experimental measurements. It covers the use of parametric methods such as the Dixon test (with comments on the problems of multiple outliers); the application of non-parametric statistics based on the median to by-pass outlier problems; and the application of robust statistical methods, which down-weight the importance of outliers. The extension of these approaches to outliers occurring in regression problems is also surveyed.