ArticlePDF Available

Análisis psicométricos de ítems de una prueba diagnóstico sobre estadística descriptiva utilizando el modelo de Rasch: Psychometric Analysis of Diagnosis Test Items Using the Rasch Model

Authors:

Abstract and Figures

Este trabajo presenta la construcción de un banco de ítems, que permita aplicar y evaluar de manera precisa y equilibrada aptitudes cognitivas (conceptos, razonamiento, identificación, análisis) específicas del dominio de la asignatura de probabilidad y estadística, de la licenciatura de ingeniería civil en una universidad pública. Se invitó a tres profesores como expertos del área de estudio para validar el contenido de los ítems propuestos. Se aplico un cuestionario de 34 ítems a una muestra de 167 alumnos de tercer semestre en donde las respuestas se codificaron dicotómicamente. Los análisis realizados son la confiabilidad y validez del cuestionario, también se verificó la unidimensionalidad de la escala por medio del análisis exploratorio, y se evaluó la habilidad de los alumnos y la dificultad del ítem analizado por el modelo de Rasch. Dentro de los resultados obtenidos, se eliminaron los ítems que no cumplían con la discriminación y con el modelo; permaneciendo 10 ítems. Se evaluó el índice de separación de los ítems es 4.35 y la fiabilidad de los ´ítems 0.95; se considera que estos valores son adecuados. Por otro lado, los índices de separación de las personas 1.06 y el índice de fiabilidad de las personas 0.53, no son muy adecuados. Con los parámetros obtenidos se destaca que se deben mejorar las estrategias de enseñanza.
Content may be subject to copyright.
Revista digital
Matem´
atica, Educaci ´
on e Internet
https://revistas.tec.ac.cr/index.php/matematica
Vol 23, No 2. Marzo, 2023 Agosto, 2023 ISSN 1659 -0643
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn ´
ostico sobre
estad´
ıstica descriptiva utilizando el modelo de Rasch
|Psychometric Analysis of Diagnosis Test Items Using the Rasch Model |
Ma. Eugenia Canut D´
ıaz Velarde
marucanut@gmail.com
FES Acatl´
an-UNAM
M´
exico, CDMX
Ingrid Torres-Ramos
ingrid-tr@ciencias.unam.mx
FES Acatl´
an- UNAM
M´
exico, CDMX
Recibido: 2 mayo 2022 Aceptado: 5 diciembre 2022
Resumen: Este trabajo presenta la construcci ´
on de un banco de ´
ıtems, que permita aplicar y evaluar de
manera precisa y equilibrada aptitudes cognitivas (conceptos, razonamiento, identificaci´
on, an´
alisis)
espec´
ıficas del dominio de la asignatura de probabilidad y estad´
ıstica, de la licenciatura de ingenier´
ıa
civil en una universidad p´
ublica. Se invit´
o a tres profesores como expertos del ´
area de estudio para
validar el contenido de los ´
ıtems propuestos. Se aplic´
o un cuestionario de 34 ´
ıtems a una muestra de
167 alumnos de tercer semestre en donde las respuestas se codificaron dicot´
omicamente. Los an´
alisis
realizados son la confiabilidad y validez del cuestionario, tambi´
en se verific´
o la unidimensionalidad
de la escala por medio del an´
alisis exploratorio, y se evalu´
o la habilidad de los alumnos y la dificultad
del ´
ıtem analizado por el modelo de Rasch. Dentro de los resultados obtenidos, se eliminaron los
´
ıtems que no cumpl´
ıan con la discriminaci´
on y con el modelo; permaneciendo 10 ´
ıtems. Se evalu´
o el
´
ındice de separaci´
on de los ´
ıtems es 4.35 y la fiabilidad de los ´
ıtems 0.95; se considera que estos valores
son adecuados. Por otro lado, los ´
ındices de separaci´
on de las personas 1.06 y el ´
ındice de fiabilidad
de las personas 0.53, no son muy adecuados. Con los par´
ametros obtenidos se destaca que se deben
mejorar las estrategias de ense˜
nanza.
Palabras Clave: Modelo de Rasch, Teor´
ıa Cl´
asica del Test (TCT), Teor´
ıa de la Respuesta al ´
ıtem (TRI),
Winstep.
Abstract:
The aim of this study is to do a bank of elements, which allows to apply and evaluate in a precise and
balanced way cognitive aptitudes (concepts, reasoning, identification, analysis) specific to the domain
of the subject of probability and statistics, of the civil engineering degree in a public university. Three
professors were invited as experts in the study area to validate the content of the proposed articles.
A 34-item questionnaire was administered to a total number of 167 students in their 2nd year of Civil
Engineering where the responses were coded dichotomously. The analyzes carried out are the relia-
bility and validity of the questionnaire, the unidimensionality of the scale was also verified through
exploratory analysis, and the ability of the students and the difficulty of the item analyzed by the
Rasch model were evaluated. Within the results obtained, the elements that did not comply with the
discrimination and with the model were eliminated; remaining 10 items. The separation index for the
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
2Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
items was 4.35 while their reliability was 0.95. Therefore, these values are considered to be adequate.
On the other hand, the separation indices of 1.06 people and the reliability index of 0.53 people are
not very adequate. With the parameters obtained, it is highlighted that teaching strategies should be
improved. Therefore, these values were considered appropriate. Additionally, the separation index
for people was 1.06 while the reliability index was 0.53. These values are not really appropriate. The
parameters that were obtained underline the importance of improving learning strategies.
Keywords: Rasch Model, Classical Test Theory (CTT), Item Response Theory (IRT), Winsteps.
1. Introducci ´
on
En una universidad p´
ublica de M´
exico se imparte la carrera de ingenier´
ıa civil y en su programa de
estudios incluye la asignatura de probabilidad y estad´
ıstica, ubicada en el tercer semestre, en ella se
observ´
o que los alumnos presentan una baja acreditaci´
on de la materia, por lo que se pregunt´
o si los
ex´
amenes tienen una medici´
on correcta del objetivo general. En la universidad p´
ublica por lo general
se realizan ex´
amenes parciales que son realizados por cada profesor que imparte la materia, sin que
se tenga un consenso de los temas revisados lo que ocasiona que el estudiante le d´
e importancia a
los temas de acuerdo con el punto de vista del profesor, y no respecto a los temas propuestos de la
asignatura, por lo que no se generaliza un dominio real de los conceptos. En el ´
ambito universitario el
examen es el instrumento m´
as utilizado para medir conocimientos curriculares, lo que conlleva a que
el profesor de la materia es qui´
en establece los criterios y procedimientos de la calificaci´
on. De modo
que la asignaci´
on de puntaciones est´
a sujeta a fuentes de variabilidad que no siempre son atribuibles
al nivel de competencia de los alumnos, [27].
Esto motivo el inter´
es por desarrollar herramientas de medici´
on calibradas que aporten objetividad a
la evaluaci´
on a fin de proporcionar una estimaci´
on adecuada del nivel de dominio con el fin de ubicar
a cada uno de los estudiantes en un nivel de acuerdo con la calificaci´
on obtenida. Dependiendo del
nivel que obtengan se pueden hacer recomendaciones de talleres que cubran las necesidades de la
asignatura.
Los resultados de este tipo de clasificaci´
on son fuente de informaci´
on importante para la carrera,
dado que los profesores pueden afinar el contenido de la materia en el aula y sirve de orientaci´
on a
los estudiantes, con prioridad y ´
enfasis en las debilidades detectadas.
La evaluaci´
on de los conocimientos es un elemento constitutivo del proceso de ense ˜
nanza-aprendizaje,
genera evidencia de las habilidades y conocimientos de la asignatura de acuerdo con los objetivos es-
tablecidos en un programa, de tal forma que permite tomar decisiones en el contexto educativo al
contar con informaci´
on confiable. De acuerdo con Scriven [29], la evaluaci´
on es el acto o proceso cog-
nitivo por el cual se establece una afirmaci´
on respecto de la calidad, valor o importancia de cierta
entidad. Sin embargo, la medici´
on es asignar n ´
umeros y evaluar es hacer un juicio integral de las
cualidades de un objeto de inter´
es. Es as´
ı, que tanto la evaluaci´
on como la medici´
on son constructos
complementarios, debido a que el resultado obtenido de la medici´
on es un insumo de la evaluaci´
on y
un juicio evaluativo que permite dar sentido y significado al dato de una medici´
on. Se tienen dos tipos
de evaluaciones educativas, identificadas: la primera es llamada a gran escala la cual es dise˜
nada y
administrada por el sistema educativo cuyo objetivo es la informaci´
on v´
alida y confiable para la pol´
ıti-
ca educativa de un distrito, regi´
on o pa´
ıs; la segunda es la evaluaci´
on del aula que es suministrada
por el profesor que construye los reactivos, sit ´
ua el ejercicio en el momento que es necesario, asigna
los puntos o la calificaci´
on, decide como informar y usar la informaci´
on.
Para la construcci ´
on del ´
ıtem se requiere tener evidencias de la validez de contenido que se funda-
mentan y respaldan las interpretaciones que se tienen de las puntuaciones del test. El prop´
osito de
esta secci´
on es el an´
alisis de la variable y las dimensiones que lo componen para ser medidos emp´
ıri-
camente. Por ello que se hace necesario realizar un juicio de expertos que genere una tabla de especi-
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Validez y confiabilidad 3
ficaciones que ayuda a delimitar y definir el dominio de conocimiento del instrumento de evaluaci´
on.
La tabla de especificaciones logra la planificaci´
on sistem´
atica, otorga orden y da orientaci´
on en la se-
lecci´
on de los contenidos que constituyan una muestra representativa de los aprendizajes relevantes.
Para definir el contenido de la variable y sus dimensiones se analiz´
o el programa de la asignatura, en
el que se hizo una revisi´
on de los contenidos principales. Los expertos evaluaron la representatividad
de la informaci´
on para cada dominio.
La construcci´
on de los ´
ıtems se realiz´
o mediante juicio de expertos con el apoyo de la tabla de especi-
ficaciones basada en el programa de asignatura sobre el tema de estad´
ıstica descriptiva utilizando los
dominios: clasificaci´
on de variables, niveles de medici´
on, distribuci´
on de frecuencias, tipos de gr´
afi-
cas, medidas de tendencia central y medidas de variabilidad.
De acuerdo a lo expuesto anteriormente, el objetivo de esta investigaci´
on es contar con un banco de
´
ıtems, que apoya la construcci´
on de test basado en la necesidad de la evaluaci´
on de manera precisa y
equilibrada en las aptitudes cognitivas (conceptos, razonamiento, identificaci´
on y an´
alisis). Se utiliz´
o
el modelo de Rasch con el fin de analizar las propiedades psicom´
etricas de los reactivos y detectar
la capacidad de los ´
ıtems en medir diferentes niveles de habilidad, que proporciona un an´
alisis de-
tallado de los patrones de las respuestas individuales de los estudiantes que refleja los procesos de
razonamiento.
El modelo de Rasch, ha sido utilizado para evaluar pruebas estandarizadas a nivel internacional como
es el caso la prueba de PISA por su nombre en ingl´
es Programm for International Student Assessment,
desarrollado por la Organizaci´
on para la Cooperaci´
on y el Desarrollo Econ´
omico (OCDE). A conti-
nuaci´
on se dar´
an algunas aplicaciones del modelo de Rasch en distintas ´
areas de investigaci´
on: en [28]
realizan una investigaci´
on para el ´
area de educaci´
on en la construcci´
on y validaci´
on de una prueba
de comprensi´
on de lectura; en [14] se lleva a cabo la calibraci´
on de una prueba de qu´
ımica, en el
que se logr´
o un buen ajuste del modelo con 10 reactivos de un total de 12 para una muestra de 219
alumnos, mostrando que la prueba tiene diferentes ´
ındices de dificultad; en [8] se estudia la adapta-
ci´
on de un grupo de reactivos y la conformaci´
on de un banco de ´
ıtems (BI) que permita evaluar de
manera precisa y objetiva algunas aptitudes cognitivas espec´
ıficas (razonamiento verbal, num´
erico y
espacial) y generar un indicador general de inteligencia; en [9] realizaron una investigaci´
on acerca de
la evaluaci´
on de las propiedades de medici´
on del inventario de discapacidad auditiva para ancianos
(HHIE), utilizando el an´
alisis de Rasch para 25 ´
ıtems acompa˜
nado con una escala de respuesta de 3
punto, aplicado a 380 adultos con p´
erdida auditiva. Dentro de sus resultados encontraron una alta
confiabilidad de separaci´
on de personas, sin embargo, la escala mostr´
o un mal ajuste al modelo de
Rasch y no fue unidimensional. En general, se pueden encontrar diversas aplicaciones del modelo de
Rasch en la literatura cient´
ıfica.
2. Validez y confiabilidad
Los ´
ıtems son la base con lo que se construye el test, cada uno de ellos ha de coadyuvar a que el test
constituya un buen instrumento de medida, es decir, que sea confiable y v´
alido. Por ello los an´
alisis
de los ´
ıtems que son propuestos est´
an en conexi´
on con estas dos propiedades psicom´
etricas b´
asicas
que son fundamentales de una buena medici´
on, [1,15,23].
El concepto tradicional de validez referencia a una tautolog´
ıa, al indicar un instrumento es v´
alido si
mide lo que con ´
el se pretende medir. A partir del final del siglo XX, Messick [17,18] define la validez
como el grado de propiedad de las inferencias e interpretaciones derivadas de los puntajes de los
test, incluyendo las consecuencias sociales que se derivan de la aplicaci´
on del instrumento. Tambi´
en,
considera que es un concepto unitario que recolecta diferentes tipos de evidencias de contenido, pre-
dictivas y constructo que se usan de acuerdo con los prop´
ositos y usos de los instrumentos, todas esas
evidencias contribuyen a la validez de constructo.
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
4Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
Nunnally y Bernstein en [23] se˜
nalan que un instrumento es confiable si al ser aplicado en las mismas
condiciones a los mismos sujetos se producen los mismos resultados con respecto a precisi´
on, con-
sistencia y estabilidad en repeticiones. Uno de los indicadores que con mayor frecuencia se utilizan
en psicom´
etrica es el ´
ındice de discriminaci´
on, que es medido por la correlaci´
on ´
ıtem-total y el Alfa
de Cronbach en la Teor´
ıa Cl´
asica del Test (TCT), la cantidad de error de medici´
on, y el tama˜
no de la
funci´
on de informaci´
on en la Teor´
ıa de la Respuesta ´
Item (TRI) y el modelo de Rasch, [15,21,25].
2.1. An´
alisis de ´ıtems
Existen diferentes tipos de m´
etodos y modelos que se utilizan para analizar los ´
ıtems que conforman
al test, tales como:
An´
alisis de factores exploratorio y confirmatorio
Teor´
ıa Cl´
asica de los Tests (TCT)
Teor´
ıa de Respuesta a los ´
Items (TRI)
Modelo de Rasch
Teor´
ıa G (Generalizabilidad)
En el enfoque cl´
asico uno de los aspectos esenciales es estudiar los par´
ametros de un test, se inicia
por analizar los ´
ıtems como elementos que deben estar en conformidad para conseguir el resultado
final buscado. Al constructor del test le corresponde escoger los mejores´
ıtems de entre un conjunto de
ellos mucho mayor del que ser´
ıa necesario para que el test final resulte adecuado. Es decir, el an ´
alisis
de los ´
ıtems permite al psic´
ometra decidir cuales ´
ıtems son pertinentes y cu´
ales no, en funci´
on de la
finalidad y objetivo de medida del test total.
El an´
alisis de los ´
ıtems depende del modelo te´
orico a partir del cual se hubiese construido el test,
[3]. Bajo la perspectiva de la TCT se analizan las caracter´
ısticas (dificultad, discriminaci´
on, an´
alisis
de los distractores, fiabilidad, validez y dimensionalidad) m´
as relevantes de los ´
ıtems que afectan las
propiedades del test, [21].
3. Modelos de la teor´ıa de respuesta a los ´ıtems
La TCT y TRI tienen como objetivo estimar el error que cometemos al medir ciertas variables de na-
turaleza psicol´
ogica. Ello lo consiguen mediante la formulaci´
on de un modelo matem´
atico que, como
todo modelo se asienta en una serie de hip´
otesis. De acuerdo con Mu˜
niz [20] la TRI surge como un
nuevo enfoque en la teor´
ıa de las pruebas que permite superar algunas de las limitaciones de la TCT.
El modelo de TCT y los de TRI son funciones matem´
aticas que pretenden explicar y predecir, las res-
puestas de las personas a un test. La TCT explica la puntuaci´
on observada en un test (en el sistema
real) como la suma de la puntuaci´
on verdadera m´
as el error de medida (X=V+ϵ). El objetivo
principal de la TRI, como en la TCT, seguir´
a siendo estimar el verdadero nivel de habilidad del exa-
minado.
Existen dos diferencias esenciales entre ambos modelos: 1) la unidad de an´
alisis en el modelo cl´
asico
es el test (Xes la puntuaci´
on observada en el test), en tanto que la unidad de an´
alisis en la TRI es el
´
ıtem; 2) la TRI incorpora t´
erminos al modelo que describen las caracter´
ısticas de los ´
ıtems, es decir,
las respuestas de los examinados a los ´
ıtems van a estar explicadas no solo por su nivel de habilidad,
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Modelo de Rasch 5
sino por las caracter´
ısticas psicom´
etricas de los ´
ıtems. Estas dos diferencias proporcionar´
an ventajas
a la TRI sobre la TCT en el an´
alisis de los ´
ıtems y en la construcci´
on de test.
Para Mu˜
niz, [20], los modelos de TRI asumen que los datos sobre los que se aplicar´
an los modelos,
esto es, las respuestas a los test cumplen dos supuestos: independencia local y unidimensionalidad.
El supuesto de unidimensionalidad se˜
nala que la respuesta del examinado al ´
ıtem este determinado
por una ´
unica variable, denominada generalmente como rasgo latente. Por su parte el supuesto de
independencia local exige que la probabilidad de responder correctamente a un ´
ıtem es independiente
de la probabilidad de responder correctamente a cualquier otro.
La TRI establece la relaci´
on que existe entre la escala de aptitud o habilidad de los sujetos evaluados,
y la probabilidad de acertar correctamente un ´
ıtem. El modelo TRI se representa por medio de la
funci´
on log´
ıstica de la Curva Caracter´
ıstica de los ´
Items (CCI).
Pi(θs) = ci+ (1 ci)eDai(θsbi)
1 + eDai(θsbi)
=ci+1ci
1 + eDai(θsbi)con i= 1, . . . , n
(1)
donde Pi(θs)es la probabilidad de que la persona sresponda correctamente el ´
ıtem i,D > 0es una
constante, usualmente se le asigna el valor de 1.7 (para buscar semejanza con la funci´
on de distribu-
ci´
on normal); θses el valor del constructo o rasgo que se desea estimar en cada examinado, aies el
par´
ametro de discriminaci´
on, bies el par´
ametro de dificultad y cies la probabilidad de acertar el ´
ıtem.
4. Modelo de Rasch
El an´
alisis de Rasch es un modelo propuesto por el matem´
atico dan´
es del mismo nombre en el a˜
no
1960, se aplic´
o por primera vez para la medici´
on de la inteligencia de los soldados daneses y ha sido
utilizado de manera muy extensa en distintas ´
areas para medir resultados educativos [16] y otros
fen´
omenos en el ´
ambito econ´
omico. As´
ı como en ´
areas de inteligencia, capacidades y rasgos perso-
nales no observables directamente (lo que se considera variable latente). Este tipo de variables son
medidas a trav´
es de las respuestas de los individuos ante distintas preguntas formuladas en un test
(´
ıtems). Wilson [32], se˜
nala que este modelo es un referente para la construcci´
on de un instrumento
que ayuda a medir la variable de inter´
es.
Rasch como modelo de an´
alisis establece la probabilidad de respuesta de una persona ante un est´
ımu-
lo dado, en t´
erminos de la diferencia entre la medida del rasgo de una persona y la medida del est´
ımu-
lo utilizado. Se trata de un modelo estoc´
astico (no determinista) donde la medida del rasgo de una
persona y la medida del est´
ımulo aplicado, quedan ubicadas en una misma escala lineal con un origen
com ´
un. La variable de inter´
es es la diferencia de ambas medidas, esto es, que se establece la medida
del rasgo de la persona de manera independiente del conjunto de personas a las que se somete. El
rigor es la diferencia de medida de rasgo y medida de est´
ımulo que es independiente del instrumen-
to o de la poblaci´
on. Por ´
ultimo, el modelo requiere que la variable sea unidimensional, ordenada
e inclusiva [31], a partir de una serie de puntuaciones obtenidas para distintos ´
ıtems por diferentes
individuos.
Los ´
ıtems que componen al test son evaluados de acuerdo con las propiedades psicom´
etricas de un
instrumento en relaci´
on con las propiedades espec´
ıficas de cada ´
ıtem que componen al test, [19]. Las
puntuaciones que se obtienen de las pruebas vienen dadas en funci´
on de los ´
ıtems y de las perso-
nas que contestan los mismos. Es as´
ı como el modelo da informaci´
on acerca de la capacidad de una
persona porque se centra en la dificultad de los ´
ıtems, m´
as que la cantidad de ´
ıtems que son contesta-
dos correctamente por cada participante. Por ello, se refiere a que la habilidad de una persona queda
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
6Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
establecida al interactuar con la dificultad del ´
ıtem y obtener una puntuaci´
on para cada sujeto en la
medida, [12].
Los fundamentos del modelo de Rasch son:
El atributo que se desea medir puede representarse en una ´
unica dimensi ´
on en la que se situar´
ıan
conjuntamente las personas y los ´
ıtems.
El nivel de la persona en el atributo (habilidad) y la dificultad del ´
ıtem determinan la probabi-
lidad de que la respuesta sea correcta.
Este modelo supone que la probabilidad de acertar el ´
ıtem es cero, ci= 0, el par´
ametro de discrimina-
ci´
on es la constante uno para todos los ´
ıtems, ai= 1 yD= 1. Aplicando estos supuestos a la ecuaci´
on
1y despejando el termino θsbise tiene
θsbi=ln Pi(θs)
1Pi(θs)con i= 1, . . . , n
donde Pi(θs)es la probabilidad de que la persona sresponda correctamente el ´
ıtem i,θses el nivel de
habilidad (conocimiento) de la persona s, y bies el nivel de dificultad del ´
ıtem i. Expresado en pala-
bras, la ecuaci´
on indica que la probabilidad de una respuesta correcta es una funci´
on de la diferencia
en el atributo entre el nivel de la persona, θs, y el nivel de dificultad del ´
ıtem, bi.
As´
ı, cuando una persona responde a un ´
ıtem equivalente a su umbral de competencia, tendr´
a la misma
probabilidad de una respuesta correcta y de una respuesta incorrecta. En este caso, la dificultad del
´
ıtem es equivalente al nivel de competencia de la persona, θsbi= 0. Si la competencia del sujeto
es mayor que la requerida por el ´
ıtem, θsbi>0, la probabilidad de una respuesta correcta ser´
a
mayor que la de una respuesta incorrecta. Por el contrario, si la competencia del sujeto es menor que
la requerida por el ´
ıtem, θsbi<0, la probabilidad de una respuesta correcta ser´
a menor que la de
una respuesta incorrecta.
El Modelo de Rasch requiere que los ´
ıtems tengan un valor constante e igual en el par´
ametro de
discriminaci´
on, ai= 1, es decir que es igual para todos los ´
ıtems. En [10], se se ˜
nala que en este modelo
los ´
ıtems deben encontrarse en datos intervalares, para su an´
alisis y evaluar as´
ı varias caracter´
ısticas
como: el nivel de ajuste del modelo, la dificultad y el orden jer´
arquico de los ´
ıtems, la fiabilidad de
las personas e ´
ıtem, los ´
ındices de separaci´
on y el funcionamiento diferencial del ´
ıtem (DIF, por sus
siglas en ingl´
es). En [24], se comenta que los datos emp´
ıricos deben sujetarse al modelo propuesto,
para evaluar estas caracter´
ısticas. Por ello el ajuste del ´
ıtem se refiere a que tan bien un reactivo mide el
constructo de inter´
es como se menciona en [4] y se cuantifica mediante medidas de infit y outfit, lo que
permite asegurar que el instrumento pueda evaluar de forma correcta el constructo que pretende. De
ah´
ı que los par´
ametros estad´
ısticos permiten identificar el grado de relaci´
on que existe entre el patr´
on
de respuestas observadas y las expectativas establecidas por el modelo. De tal forma que los ´
ındices
determinan si los par´
ametros estimados de los ´
ıtems pueden ser considerados como un resumen del
patr´
on de repuesta observado.
La jerarquizaci´
on de los ´
ıtems consiste en el ordenamiento de los mismos en niveles de dificultad
(del m´
as f´
acil al m´
as dif´
ıcil). Este ordenamiento de ´
ıtems es un principio fundamental de la edici´
on
dado que nos permite determinar si un alumno posee mayor o menor habilidad con respecto a otro,
[4]. Si el ´
ıtem no est´
a en escala logit y ordenado de manera jer´
arquica, las puntuaciones obtenidas
por un alumno en el test pueden ser enga˜
nosas. El contar con un orden jer´
arquico de los ´
ıtems nos
permite identificar ´
ıtems redundantes o niveles de dificultad no cubiertos que disminuyen la precisi´
on
y la eficacia del instrumento. La precisi´
on de la medida y de los ´
ındices de separaci´
on de personas
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Metodolog´
ıa 7
depende de que tan bien los ´
ıtems del instrumento permitan diferenciar los niveles de habilidad y de
lo bien que el instrumento puede diferenciar a las personas en la medida.
El an´
alisis de Rasch ofrece estad´
ısticas de fiabilidad y separaci´
on para los ´
ıtems y las personas. En [13],
Linacre se˜
nala que la fiabilidad significa el grado de reproducibilidad de las habilidades relativas o de
las dificultades estimadas. El hecho que se tenga un ´
ındice alto en fiabilidad para personas nos indica
que existe una alta probabilidad de que las personas identificadas por el test tengan alta habilidad y
que existen otras que no las tienen. De manera semejante, alta fiabilidad en los ´
ıtems significa que los
´
ıtems establecidos como de alta dificultad tienen realmente alta dificultad.
El ´
ındice de separaci´
on indica el n ´
umero de diferentes estratos de rendimiento que la prueba puede
identificar [33]. El DIF puede ser conceptualizado como el hecho de que la respuesta a un ´
ıtem est´
a
sujeta a cambios en funci´
on de diferentes grupos de personas, [7]. En otras palabras, un ´
ıtem presenta
DIF cuando la probabilidad de respuesta correcta no depende ´
unicamente del nivel de la persona en
el rasgo intencionadamente medido por el test, [4].
5. Metodolog´ıa
Es una investigaci´
on referida a estudios exploratorios, en el que se pretende examinar el nivel de
conocimientos de alumnos de la materia probabilidad y estad´
ıstica de la licenciatura de ingenier´
ıa
civil, en b ´
usqueda de evidencias te´
oricas y emp´
ıricas de confiabilidad y validez del instrumento.
Primera fase: construcci´
on ´
ıtems.
La validaci´
on de ´
ıtems se realiz´
o mediante juicio de expertos, en el que se utiliz´
o una tabla de espe-
cificaciones, a partir del programa de la asignatura de la materia de probabilidad y estad´
ıstica como
marco de referencia para una evaluaci´
on, se espera que a trav´
es de ´
esta se pueda obtener una clara
definici´
on del constructo u objeto de medida. Esto permite responder claramente a la pregunta de qu´
e
se debe evaluar, y nos gu´
ıa a la pregunta del c´
omo hacerlo.
Se defini´
o el constructo u objeto de medida, es decir, puso en pr´
actica su significado con el objetivo de
realizar el proceso de evaluaci´
on. Esto significa que se puedan tomar decisiones sobre el modo en que
ser´
a entendido y observado en la situaci´
on evaluativa, y delimitar la extensi´
on que se espera abarcar
con la evaluaci´
on. Para lograr esto se trabaj´
o con un grupo de tres especialistas en la materia, quie-
nes a partir del conocimiento de la materia y de la poblaci´
on describieron los contenidos y procesos
representados en los ´
ıtems. El proceso s´
olo se realiz´
o para la parte de estad´
ıstica descriptiva.
Estas decisiones formulan el marco de especificaciones, que funcionar´
a como puente entre el referente
y el instrumento o dispositivo con el que se levantar´
a la informaci´
on acerca de los alumnos evalua-
dos. En la tabla de especificaciones, se consideraron los dominios conceptuales en el siguiente orden:
escalas de medida, distribuci´
on de frecuencias, tipos de gr´
aficas, medidas de tendencia central y me-
didas de variabilidad. Los tres objetivos de aprendizajes indicados son: comprensi´
on (capacidad de
adquirir, reflexionar, identificar la informaci´
on referente al tema, es decir, se busca una comprensi´
on
b´
asica de hechos); saber o reproducci´
on (aplicaci´
on en el que se hace uso del conocimiento, permite
resolver problemas mediante la aplicaci´
on de una secuencia de acciones); saber hacer o aplicaci´
on
(examina con detalle y descompone la informaci´
on en partes identificando los motivos o causas).
Los 34 ´
ıtems propuestos que conforman el instrumento se organizaron considerando que el bloque
de comprensi´
on tiene una representatividad del 20 % con un total de 7 ´
ıtems, el bloque de aplicaci´
on
contiene 45 % con 15 ´
ıtems y el ´
ultimo bloque de an´
alisis abarca un 35 % con 12 ´
ıtems con lo que se
obtuvo un total de 34 ´
ıtems propuestos.
Los indicadores utilizados son:
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
8Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
1. Identificar en una variable si es num´
erica o categ´
orica.
2. Si la variable es num´
erica identificar si es discreta o continua.
3. En una variable categ´
orica (m´
etrica) tipos de operaciones b´
asicas a utilizar.
4. Clasificaci´
on de una variable en escalas de medida (nominal, jer´
arquico, intervalos y raz´
on).
5. Identificar tipos de gr´
aficos para variables categ´
oricas y num´
ericas.
6. Pasos para realizar una tabla de distribuci´
on de frecuencias.
7. Identificar las medidas de tendencia central en datos agrupado y no agrupados.
Segunda fase: estructura de la prueba.
La prueba se estructur´
o con base al contenido especificado con reactivos de opci´
on m ´
ultiple, es decir,
se plantea una pregunta (problema) con 4 alternativas de respuestas, d´
onde s´
olo una es correcta. Se
utilizaron 34 ´
ıtems con este formato de pregunta.
Tercera fase: aplicaci´
on de la prueba.
Evaluaci´
on de conocimientos, se decidi´
o realizar la prueba a la mitad del semestre, momento en el
que los cuatro grupos tienen estudiados el tema a evaluar, considerando el programa de estudio de
la materia. El cuestionario se aplic´
o en l´
ınea utilizando la plataforma de Moodle, en la que se abri´
o
un espacio dedicado al proceso de evaluaci´
on con un total de 167 alumnos, cada estudiante contaba
con dos horas para contestar.
Cuarta fase: recolecci´
on y preparaci´
on de la informaci´
on.
Se llev´
o a cabo la recolecci´
on y preparaci´
on de la informaci´
on obtenida del cuestionario. Los datos
recogidos se revisaron y ordenaron para ser examinados en los programas de SPSS 26 (en donde se
analiz´
o la confiabilidad y validez) y Winsteps (para estudiar el modelo de Rasch).
Quinta fase: an´
alisis de informaci´
on.
Se realiz´
o el an´
alisis de la informaci´
on y se dio una interpretaci´
on.
6. Resultados
El ´
ındice de dificultad de un ´
ıtem es un indicador de la dificultad de este. La clasificaci´
on de la difi-
cultad de los ´
ıtems se presenta en la Tabla 1.
El coeficiente de fiabilidad es un indicador global de la precisi´
on con el que, el test est´
a midiendo
una determinada variable. Eval´
ua en que grado los ´
ıtems de un test convergen, es decir que est´
an
interrelacionados, se refiere a la consistencia interna, se mide a trav´
es del Coeficiente alfa de Cronbach
se obtuvo al utilizar el SPSS 26, a los 34 ´
ıtems propuestos, Tabla 2.
La clasificaci´
on del ´
ındice de discriminaci´
on del ´
ıtem, de acuerdo al TCT, se obtuvo cuales ´
ıtem dis-
tinguen entre los estudiantes que conocen sobre el tema y el que no, Tabla 3.
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Resultados 9
Tabla 1: ´
Indice de dificultad del ´
ıtem. Elaboraci´
on propia basada en el an´
alisis
computacional.
´
Item Rango Categor´
ıa
P1; P6; P19; P27; P30; P31; P32 ID <0.25 Muy dif´
ıcil
P4; P10; P13; P15; P16; P20; P21; P23; P26; P28;
P29; P33
0.25 <ID <45 Dif´
ıcil
P3; P8; P24; P25; P26 0.45 <ID <0.55 Normal
P2; P7; P9; P11; P14; P18; P22 0.55 <ID <0.75 F´
acil
P5; P12; P17; P34 ID >0.75 Muy F´
acil
Tabla 2: Estad´
ısticas de fiabilidad. Elaboraci´
on propia basada en el an´
alisis compu-
tacional.
Alfa de Cronbach N´
umero de elementos
.667 34
Tabla 3: ´
Indice de discriminaci´
on del ´
ıtem. Elaboraci´
on propia basada en el an´
alisis
computacional.
´
Items Valores Interpretaci ´
on
P1; P9; P12; P19; P20; P29;
P33; P34; P31
Menores que 0.10 ´
Item carece de utilidad para
discriminar
P7; P15; P17; P18; P22; P23 0.10 0.19 ´
Item l´
ımite, se debe mejorar
P2; P4; P5; P10; P13; P14;
P16; P27; P28; P30; P32
0.20 0.29 ´
Item discrimina poco
P3; P6; P11; P21; P24; P25;
P26
0.30 0.39 ´
Item discrimina bien
P8 Mayor o igual que 0.40 ´
Item discrimina muy bien
Tabla 4: Estad´
ısticas de fiabilidad. Elaboraci´
on propia basada en el an´
alisis compu-
tacional.
Alfa de Cronbach N´
umero de elementos
.740 22
En algunos de los ´
ıtems, la correlaci´
on con el total del test (´
ındice de discriminaci´
on) era baja, por lo
que se decidi´
o eliminarlos, obteniendo as´
ı alfa de Cronbach de .740 con 22 ´
ıtems, Tabla 4.
Se continu´
o con el an´
alisis factorial exploratorio, con el prop´
osito de tener evidencias de la validez
asociada a la estructura factorial y analizar en que grado razonable, se cumple el supuesto de unidi-
mensionalidad.
Se utilizo el programa SPSS 26, para realizar un An´
alisis factorial utilizando la extracci´
on de compo-
nentes principales (ACP), y con rotaci´
on de varimax. El ´
ındice de medida de adecuaci´
on muestral
Kaiser-Meyer-Olkin (KMO) obtenido fue de .683 con un valor de significancia de .00, por que se pro-
cedi´
o a realizar el an´
alisis factorial.
En la Tabla 5, se presenta la varianza total explicada. Se observa que se tiene aproximadamente un
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
10 Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
22.658 %de la varianza total es explicada por el primer componente. El segundo componente tiene
s´
olo un 10.970 %, el tercero 10.261 %.
Tabla 5: Varianza total explicada. Elaboraci´
on propia basada en el an´
alisis compu-
tacional.
Valores propios iniciales Sumas de cargas al cuadrado de la
extracci´
on
Componente Total Varianza
( %)
Acumulado
( %)
Total Varianza
( %)
Acumulado
( %)
1 2.492 22.658 22.658 2.492 22.658 22.658
2 1.207 10.970 33.628
3 1.129 10.261 43.889
4 1.055 9.594 53.483
5.936 8.511 61.994
6.893 8.114 70.108
7.841 7.649 77.756
8.760 6.905 84.661
9.667 6.062 90.723
10 .562 5.112 95.835
11 .458 4.165 100
En la Figura 1, se presenta el gr´
afico de sedimentaci´
on del instrumento. Se puede observar que con
este criterio el n´
umero de factores se representan por el punto en el que se presenta un cambio im-
portante en la trayectoria de la ca´
ıda de la pendiente. Cattell, citado en [6], expone que se consideren
todos aquellos factores situados antes de este punto. En el gr´
afico se observa la existencia de un solo
componente.
1 2 3 4 5 6 7 8 9 10 11
0
0.5
1
1.5
2
2.5
3
N´
umero de componente
Autovalor
Gr´
afico de sedimentaci´
on
Figura 1: Gr´
afico de sedimentaci´
on. Elaboraci´
on propia basada en el an´
alisis
computacional.
7. Aplicaci ´
on del modelo de Rasch
El estudio se realiz´
o a partir de las respuestas obtenidas de 34 ´
ıtems aplicados a 167 estudiantes. Se
anularon los ´
ıtems de las personas que no cumpl´
ıan con las expectativas del modelo, obtenido un
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Aplicaci´
on del modelo de Rasch 11
total de 10 ´
ıtem y 168 individuos. Realizando nuevamente el an´
alisis computacional, Winsteps, a la
base obtenida. En la Tabla 6, se presentan las estad´
ısticas de confiabilidad tanto para personas como
para los ´
ıtems obtenidos aplicando el modelo de Rasch, de acuerdo con el modelo, la medida de
confiabilidad de los examinados indica que tan consistentes son los resultados, es decir, si al mismo
grupo de examinados se les aplicara otro conjunto de ´
ıtems del mismo universo, al que pertenece
el conjunto que se analiza, se obtendr´
ıan los mismos resultados. Para el examen de estad´
ıstica 2020,
la confiabilidad de las personas fue 0.53 que es un valor que se considera bajo para la prueba de
diagn´
ostico.
En cuanto a la confiabilidad de los ´
ıtems, indica que tan consistentes son las estimaciones del par´
ame-
tro de dificultad en el mismo conjunto de ´
ıtems. Para este caso, el valor de la confiabilidad de los ´
ıtems
es de .95, lo cual indica que las estimaciones de Rasch son muy consistentes.
Tabla 6: Estimaci´
on de Rasch. Elaboraci´
on propia basada en el an´
alisis compu-
tacional.
N´
umero de ´
Indice de confiabilidad de ´
Indice de separaci´
on de
casos ´
ıtems personas ´
ıtems personas ´
ıtems
167 10 0.53 0.95 1.06 4.35
En la Figura 2, se observa el an´
alisis de ´
ıtems obtenido en el modelo de Rasch, se tiene como medida
el ´
ındice Infit MNSQ que se calcula con las medias cuadr´
aticas sin estandarizaci´
on, Wright y Linacre
en [34] proponen como valores aceptables de Infit MNSQ los valores ubicados entre 0.8 y 1.2.
En la columna Infit ZSTD se aprecian los valores estandarizados, estad´
ıgrafo de media cuadr´
atica de
los residuales representados en logaritmo natural. Los valores que toma se ubican entre el rango -2
a +2, los valores est´
an en el intervalo de l´
ogitos aceptable para determinar ajuste razonable tanto en
examinados como en personas, se puede observar que los datos est´
an dentro del intervalo.
Figura 2: Estad´
ıstica del ´
ıtem. Elaboraci´
on propia resultante del an´
alisis compu-
tacional.
El estad´
ıgrafo outfit, es una mediada cuadr´
atica no ponderada sensible a los comportamientos extre-
mos no esperados en los patrones de respuesta. Se mide en los mismos t´
erminos del infit, como se
observa outfit MNSQ, el item P2 se encuentra en el l´
ımite del valor 1.2 pero outfit ZSTD, se encuen-
tra entre el intervalo de -2 a +2. Measure, es la calibraci´
on de la dificultad del reactivo expresada en
l´
ogitos. El ´
ıtem P27 result´
o ser el m´
as dif´
ıcil, con una dificultad de 1.34, en escala logit, seguido de P6
con dificultad de 1.20 y el ´
ıtem m´
as f´
acil es P2 con valor de -1.43 en la escala logit.
Estos mismos datos se pueden observar en la Figura 3a. Este mapa se compone de dos grandes histo-
gramas (graficados de forma vertical). El lado izquierdo presenta el histograma de la distribuci´
on de
habilidades de las personas. El lado derecho presenta el histograma de la distribuci´
on de dificultades
de los ´
ıtems. Los dos histogramas comparten el eje de valores (l´
ınea quebrada vertical), gen´
ericamen-
te los resultados se presentan en l´
ogitos, [5]. Distribuci´
on de personas o el mapa de personas (lado
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
12 Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
izquierdo) presenta las puntuaciones ordenadas de forma jer´
arquica. En la parte superior se ubican
las personas de mayor habilidad y en la parte inferior se ubican las personas de menor habilidad.
Distribuci´
on de ´
ıtems. El mapa de ´
ıtems (lado derecho) presenta las dificultades de forma jer´
arquica.
En este mapa se debe tener una consideraci´
on adicional, los ´
ıtems P27 y P6 son los m´
as dif´
ıciles y los
´
ıtems P2 y P11 son los m´
as f´
aciles, en el promedio (M) tenemos los ´
ıtems P28, P26, P3. Los ´
ıtems que
est´
an a una desviaci´
on est´
andar por arriba del promedio es P21, P10 junto P13. Los ´
ıtems que se ubican
uno al lado del otro, como es el caso de los ´
ıtems P10 y P13 en la Figura 1, son ´
ıtems que tienen similar
grado de dificultad. Estos ´
ıtems proporcionan poca informaci´
on adicional en relaci´
on al desempe˜
no
de las personas. El mapa de ´
ıtems permite interpretaciones basadas en criterio de dificultad.
En la Figura 3a, se representa el mapa de las personas y su ubicaci´
on de acuerdo a la escala de logitos
en la que se puede ver las personas con nivel de habilidad m´
as alto, ubicadas en + 3 logitos y son los
que tienen la probabilidad de contestar correctamente todos los ´
ıtems, que corresponde a las personas
125, 128 y 144, es decir que existe que hay 1.79% de las personas que poseen una habilidad superior a
1.34 l´
ogitos del ´
ıtem que result´
o ser el m´
as dif´
ıcil, y los que se encontraron en el nivel de habilidad (θ)
m´
as bajo, que tienen una alta probabilidad de fallar todos los ´
ıtems son las personas 49 y 52 ubicados
en - 3 l´
ogitos. Las personas que se ubicaron en una escala promedio (M) con θ= 0 son 9.58 % del
total de alumnos.
MEASURE PERSON - MAP - ITEM
<more>|<rare>
3 .+
|
|
|
|
|
|
|
|
|
2 +
|
|
T | T
## |
|
|
| P27
| P6
|
1 .### +
|
| s
|
s |
|
| P21
|
|
| P10 P13
|
0 #### +M
| P28
| P26
|
| P3
.########## M|
|
|
| s
|
-1 .###### +
|
| P11
|
| P2
s |
|
| T
|
|
-2 +
|
|
|
|
|
T |
|
|
|
-3 .+
<less> | <freq>
EACH " # " IS 4: EACH " ." IS 1 TO 3
####
.#####
.#####
.
(a) Distribuci´
on de personas-´
ıtems
MEASURE ITEM - MAP - PERSON
<rare> | <more>
3 + 125 128 144
|
|
|
|
| 111 133
|
|
|
|
2 +
|
|
T | T
| 114 121 124 126 127 129 142 58
|
|
X |
X |
|
1 + 106 108 112 132 135 137 138 140
143 146 167 59 79 97
|
s |
|
| s
| 100 109 113 115 122 141 147 159
16 26 46 69 7 93 94 98
X |
|
XX |
|
0 M + 1 103 116 117 13 139 145 148 163
2 37 56 64 74 90 92
X |
X |
|
X |
| M 101 104 105 107 11 110 119 120
134 149 150 152 153 154 157 158
160 161 165 166 18 22 38 40 45
53 61 62 63 65 66 67 73 77 78
8 80 82 85 86 87 96
|
|
s |
|
-1 + 10 123 130 14 151 155 17 24 35 36
4 41 44 47 55 68 70 71 72 76 81
83 88 9 91 95 99
|
X |
|
X |
| s
| 102 118 12 131 15 162 164 19 20 21
25 29 30 31 33 43 48 50 57 6 75
84 89
T |
|
|
-2 +
|
|
|
|
| 156 23 27 28 3 32 34 39 42 5 51 54
60
| T
|
|
|
-3 + 49 52
< freq > | < less >
(b) Distribuci´
on de ´
ıtems-personas
Figura 3: Mapa de la distribuci´
on de la persona y el ´
ıtems. Elaboraci´
on propia
resultante del an´
alisis computacional.
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Conclusiones y recomendaciones 13
8. Conclusiones y recomendaciones
Se evalu´
o las propiedades psicom´
etricas de un instrumento de medida para el ´
area de estad´
ıstica
de la materia Probabilidad y Estad´
ıstica de la carrera de Ingenier´
ıa Civil, en el que participaron los
profesores que imparten la materia, con la idea de lograr un instrumento que sea justo, en el grado
de dificultad respecto al tipo de conocimiento que se requiere; es decir que se mida la habilidad del
alumno ubicado en una escala que permita tener una comparaci´
on entre la habilidad del alumno y la
dificultad de los ´
ıtem utilizados a la hora de emitir una respuesta de los mismos. De manera que se
puedan tomar decisiones adecuadas para el mejoramiento del aprendizaje. Utilizando la metodolog´
ıa
utilizada fue Teor´
ıa Cl´
asica del Test (TCT) y el modelo de Rasch (TRI).
Utilizando la TCT, se permiti ´
o reconocer que entre los ´
ıtems propuestos hay, un 44 % no discriminan
entre los alumnos que saben de los que no saben. Los ´
ıtems que discriminan poco son un 32 %, con
solo 24 % que discriminan adecuadamente.
La confiabilidad del cuestionario obtenida con el alfa de Cronbach, con los 34 ´
ıtems es de .667. Tenien-
do 34 % de los ´
ıtems entre muy f´
aciles y f´
aciles y hay 56% de ´
ıtems se encuentran entre muy dif´
ıciles
y dif´
ıciles y un 10 % que resultaron tener una dificultad media. Al eliminar ´
ıtems que no discriminan,
se mantuvieron 22 ´
ıtems y la confiabilidad del cuestionario con el alfa de Cronbach, aumento a .774.
Como parte del an´
alisis de las propiedades psicom´
etricas del cuestionario, se utiliz´
o el modelo de
Rasch, que permite asegurar que los par´
ametros de las personas y de los ´
ıtems se expresen en las
mismas unidades (medici´
on conjunta), ajustar los datos al modelo demostrando qu´
e personas son
independientes de los ´
ıtems administrados (objetividad espec´
ıfica), y que la escala presenta propie-
dades de intervalo (propiedades de medida) como es el tipo logit, [30]. Para utilizar el modelo se
realiz´
o el an´
alisis factorial para probar la unidimensionalidad y con ella se obtuvo 22.658 % de la
varianza total es explicada por el primer componente que conten´
ıa 10 ´
ıtems. Tambi´
en se produce evi-
dencia de que los ´
ıtems miden el constructo inter´
es y que los alumnos poseen las habilidades que
mide el instrumento.
De los 22 ´
ıtems preseleccionados, se desecharon 12 que no cumpl´
ıan con las especificaciones del mo-
delo y se aplic´
o el an´
alisis Rasch a los 10 ´
ıtems restantes. Se obtuvieron niveles de ajuste adecuado
para los 10 ´
ıtems, tanto para el ´
ındice Infit MNSQ como para el outfit MNSQ.
PTMEA se refiere a la correlaci´
on punto media, mide el grado de asociaci´
on entre el puntaje parti-
cular observado para el reactivo (o examinado), es un indicativo que el reactivo trabaja en conjunto
con la escala a la que pertenece. Los valores encontrados est´
an entre 0.40 a 0.51.
En la Figura 3a, aparece una representaci´
on gr´
afica del escalamiento conjunto. Puede observarse una
representaci´
on de los objetos (personas e ´
Items) en un rango de valores entre -3 y 3 logit. se puede
observar que los ´
ıtems P11 y P2 se consideran muy f´
aciles, en la media se encuentran los ´
ıtems P28,
P26, P310 y que los ´
ıtems que se encuentran a una desviaci´
on est´
andar son P21, P10 y P13. Los ´
ıtems
que resultaron ser dif´
ıciles P27 y P6.
En el mapa Figura 3b de las distribuciones conjuntas de los individuos y los ´
ıtems, se puede observar
que el promedio del nivel de habilidad de los examinados est´
a por debajo de la dificultad promedio
de los ´
ıtems, la mayor parte de la poblaci´
on se ubic´
o por debajo de la dificultad promedio de los ´
ıtems,
esto indica que la prueba result´
o levemente dif´
ıcil para los examinados.
El uso del modelo de Rasch, permite establecer el control de calidad del instrumento. Se obtuvieron el
´
ındice de separaci´
on de los ´
ıtems de 4.35 y la fiabilidad de los ´
ıtems .95, adecuado, lo que nos indica
que la muestra utilizada es suficientemente grande como para confirmar la jerarqu´
ıa de dificultad
del ´
ıtem (validez de constructo) del instrumento, [13]. Por otro lado, el ´
ındice de separaci´
on de las
personas (1.06) indica la aptitud del instrumento para discriminar a las personas en la variable medida
y el ´
ındices de fiabilidad de las personas de 0.53 son considerados bajos, por lo que es necesario
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
14 Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
aumentar el n ´
umero de preguntas para cubrir otros niveles de habilidad, ya que este conjunto de ´
ıtems
no es suficiente para distinguir entre sujetos de alto y de bajo rendimiento. El modelo confirma que
los alumnos tienen una habilidad baja y que se debe reforzar el conocimiento mejorando estrategias
de aprendizaje.
8.1. Discutir sobre la tabla de especificaciones y la unidimensionalidad
En [2,11,35] se comenta que existen diversas l´
ıneas metodol´
ogicas para evaluar la unidimensiona-
lidad. Sin embargo, el uso de la herramienta del an´
alisis factorial puede ser evaluada, debido a que
es utilizada para estudiar la dimensionalidad de un conjunto de ´
ıtems, [22]. Como existen diversos
criterios sobre la unidimensionalidad de la medici´
on de un instrumento. El criterio que se toman en
cuenta es la varianza explicada por el primer factor extra´
ıdo. As´
ı un conjunto de ´
ıtems ser´
a unidimen-
sional si el primer factor explica por lo menos el 20 % de la varianza, [26]. Se inici´
o con la verificaci´
on
de la unidimensionalidad de los datos, la cual dice que un ´
unico constructo es suficiente para explicar
los resultados de examinados y las relaciones entre ´
ıtems. Mediante el programa SPSS 22.0, se efectu´
o
un an´
alisis factorial exploratorio bajo el m´
etodo de factorizaci´
on componentes principales y se obtuvo
que la varianza total explicada presentaba un gran factor que explicaba casi el 22.658 % de los datos
de la matriz de correlaci´
on observada, de igual forma, en el gr´
afico de sedimentaci´
on se apreci´
o la
existencia de un factor predominante de acuerdo con el criterio de Reckase.
9. Bibliograf´ıa
[1] AERA (American Educational Research Association), American Psychological Associa-
tion and National Council for Measurement in Education [AERA, APA and NCME]
(2014). The Standards for Educational and Psychological Testing. Washington, D.C.: AE-
RA.
[2] Anderson, J., Gerbin, D. and Hunter, J. (1987). On the assessment of unidimensional mea-
surement: Internal and external consistency, and overall consistency criteria. Journal of
Marketing Research, 24(4), 432-437.
[3] Bechger, T. M., Maris, G. Verstralen, H. H. F. M., and B´
eguin, A. A. (2003). Using Classical
Test Theory in Combination With Item Response Theory. Applied Psychological Measure-
ment, 27(5), 319–334. https://doi.org/10.1177/0146621603257518
[4] Bond, T. G. and Fox, C. M. (2003). Applying the Rasch model: Fundamental measurement
in the human sciences. Journal of Educational Measurement, 40(2), 185-187. https://doi.org/
10.1111/j.1745-3984.2003.tb01103.x
[5] Bond, T. and Fox, C. M. (2015). Applying the Rasch Model: fundamental measurement in the
human sciences (Third). Routledge: New York
[6] Cea D’Ancona, M. (2002). An´
alisis multivariable. Espa˜
na: Editorial S´
ıntesis, S.A.
[7] De Ayala, R. J. (2009) The theory and practice of item response theory. New York, New York:
The Guilford Press. http://goo.gl/VLZzWJ
[8] Ghio, F.B., Mor´
an, V.E., Garrido, S.J., Azpilicueta, A.E., C´
ortez, F. and Cupani, M. (2020)
Calibraci´
on de un banco de ´
ıtems mediante el modelo de Rasch para medir razonamien-
to num´
erico, verbal y espacial. Avances en Psicolog´
ıa Latinoamericana, 38(1), 157-171. Doi:
http://dx.doi.org/10.12804/revistas.urosario.edu.co/apl/a.7760
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
Bibliograf´
ıa 15
[9] Heffernan, E., Weinstein, B.E., and Ferguson, M.A.(2020). Application of Rasch Analy-
sis to the Evaluation of the Measurement Properties of the Hearing Handicap Inven-
tory for the Elderly. Ear and hearing, 41(5), 1125–1134. Doi: https://doi.org/10.1097/AUD.
0000000000000832
[10] Kleinman, M. and Teresi, J.A. (2016). Differential item functioning magnitude and impact
measures from item response theory models. Psychological Test and Assessment Modeling,
58(1), 79–98. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5505278/
[11] Linacre, J. (1994). DIMTEST diminuendo. Rasch Measurement Transactions, 8(3), 384.
[12] Linacre, J. M. (2002). Optimizing rating scale category effectiveness. Journal of Applied
Measurement, 3(1), 85-106. http://dx.doi.org/10.1.1.424.2811
[13] Linacre, J. M. (2016). Winsteps®(Version 3.92.0) [Computer Software]. Beaverton, Oregon.
http://www.winsteps.com/
[14] Mart´
ın, N., D´
ıaz, C., C´
ordoba, G. and Picquart, M. (2011). Calibraci´
on de una prue-
ba de qu´
ımica por el modelo de Rasch. Revista electr´
onica de investigaci´
on educati-
va, 13(2), 132-148. Recuperado http://www.scielo.org.mx/scielo.php?script=sci arttext&
pid=S1607-40412011000200009&lng=es&tlng=es
[15] Mart´
ınez, M. R., Hern´
andez, M.J. and Hern´
andez, M. V. (2006). Psicometria, Madrid:
Alianza Editorial.
[16] Masters, G.N. and Keeves, J.P., (1999). Advances in measurement in educational research and
assessment. Amsterdam; New York: Pergamon.
[17] Messick, S. (1989a). Meaning and values in test validation: The science and ethics of as-
sessment. Educational Researcher, 18(2), 5-11.
[18] Messick, S. (1989b). Validity. In R.L. Linn (Ed.), Educational measurement (3rd ed.). New
York: Macmillan.
[19] Messick, S. (1994). Foundations of validity: Meaning and consequences in psychological
assessment. European Journal of Psychological Assessment, 10, 1-9.
[20] Mu˜
niz, J. (1997). Introducci´
on a la Teor´
ıa de Respuesta a los ´
ıtems. Madrid: Ediciones Pir´
ami-
de, S.A.
[21] Mu˜
niz, J. (2003a). Teor´
ıa Cl´
asica de los Tests. Madrid: Ediciones Pir´
amide, S.A.
[22] Mu˜
niz, J. (2003b). La validaci´
on de los tests. Metodolog´
ıa de las Ciencias del Comportamiento,
5, 119-139.
[23] Nunnally, J. C. and Bernstein, I. J. (1995). Teor´
ıa psicom´
etrica, (3ra ed). M´
exico, D.F.: Edito-
rial McGrawHill Latinoamericana
[24] Prieto, G. and Delgado, A. R. (1999). Medici´
on cognitiva de las aptitudes. En J. Olea, V. Pon-
soda y G. Prieto (Eds.) Tests informatizados: Fundamentos y aplicaciones. (207-226) Ma-
drid: Pir´
amide.
[25] Prieto, G. and Delgado, A. R. (2003). An´
alisis de un test mediante el modelo de Rasch.
Psicothema, 15(1), 94-100.
[26] Reckase, M. (1979). Unifactor latent trait models applied to multifactor tests: Results and
implications. Journal of Educational Statistics, 4(3), 207-230.
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
16 Revista digital Matem´
atica, Educaci´
on e Internet (https://revistas.tec.ac.cr/index.php/matematica). Vol 23, No 2. Marzo, 2023 Agosto, 2023
[27] Rodr´
ıguez-Ay´
an Mazza, M. N. (2007). An´
alisis multivariado del desempe˜
no acad´
emico de es-
tudiantes universitarios de qu´
ımica (Tesis doctoral). Universidad Aut´
onoma de Madrid, Ma-
drid, Espa˜
na. https://repositorio.uam.es/bitstream/handle/10486/1800/5491 rodriguez
ayan.pdf
[28] Salas, J.S., and Rojas, E.M. (2011). Construcci´
on y validaci´
on de una prueba de compren-
si´
on de lectura mediante el modelo de Rasch. Revista Electr´
onica Actualidades Investigativas
en Educaci´
on. 11(2), 1-27.
[29] Scriven, M. (2013). The future of evaluation in society: A tribute to Michael Scriven. Stewart I.
Donaldson.
[30] Schulz, W. and Fraillon, J. (2011). The analysis of measurement equivalence in interna-
tional studies using the Rasch model. Educational Research and Evaluation, 17(6), 447-464.
http://dx.doi.org/10.1080/13803611.2011.630559
[31] Trist´
an, A. (2002). An´
alisis de Rasch para todos, Ed. Ceneval, M´
exico.
[32] Wilson, M. (2005). Constructing measures: An item response modeling approach, Mahwah,
New Jersey: Lawrence Erlabaum Associates
[33] Wright, B. D. (1996). Comparing Rasch measurement and factor analysis. Structu-
ral Equation Modeling: A Multidisciplinary Journal, 3(1), 3-24. http://dx.doi.org/10.1080/
10705519609540026
[34] Wright, B. D. and Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measu-
rement Transactions, 8, 370-371
[35] Wright, B. & Linacre, J. (1995). MESA Research memoramdum 44. Archives of physical,
medicine and rehabilitation, 70 (12) 857-860.
An´
alisis psicom´
etricos de ´
ıtems de una prueba diagn´
ostico utilizando el modelo de Rasch. Canut D´
ıaz-Velarde, Torres-Ramos
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
En el ámbito educativo, las pruebas de inteligencia son consideradas una de las mejores predictoras del rendimiento académico de los estudiantes. El propósito de este estudio es la adaptación de un grupo de reactivos y la conformación de un banco de ítems (bi) que permita evaluar de manera precisa y objetiva algunas aptitudes cognitivas específicas (razonamiento verbal, numérico y espacial) y generar un indicador general de inteligencia. Para ello, se seleccionaron, tradujeron y administraron 255 preguntas del bi propuesto por los autores Russell y Carter. La muestra estuvo compuesta por 1140 estudiantes pertenecientes a la Universidad Nacional de Córdoba (Argentina), 616 del sexo femenino, 392 del sexo masculino y 132 que no reportaron el sexo, con edades comprendidas entre los 17 y 49 años (M = 20.29; DE = 3.25). Los datos se analizaron mediante el modelo de Rasch. Los resultados expresan que los ítems, en general, poseen adecuadas propiedades psicométricas tanto para las aptitudes específicas, como para los ítems que conforman un indicador general de inteligencia. Se recomienda la utilización del modelo de Rasch para la construcción o adaptación de pruebas y se discuten las implicancias de la utilización de este modelo en las pruebas de aptitudes cognitivas.
Article
Full-text available
Objectives: The aim of this research was to evaluate the measurement properties of the Hearing Handicap Inventory for the Elderly (HHIE). The HHIE is one of the most widely used patient-reported outcome measures in audiology. It was originally developed in the United States in the 1980s as a measure of the social and emotional impact of hearing loss in older adults. It contains 25 items that are accompanied by a 3-point response scale. To date, the measurement properties of the HHIE have primarily been assessed via traditional psychometric analysis techniques (e.g., Cronbach’s alpha and Principal Components Analysis). However, traditional techniques are now known to have several limitations in comparison to more modern approaches. Therefore, this research used a modern psychometric analysis technique, namely Rasch analysis, to evaluate the HHIE. Design: Rasch analysis was performed on HHIE data collected from 380 adults with hearing loss. The participants were principally recruited from the participant database of the National Institute for Health Research Nottingham Biomedical Research Centre in the United Kingdom. Additional participants were recruited from two UK audiology clinics and the online forum of a UK hearing loss charity. Rasch analysis was used to assess the measurement properties of the HHIE (i.e., fit to the Rasch model, unidimensionality, targeting, and person separation reliability) and its individual items (i.e., response dependency, fit, Differential Item Functioning, and threshold ordering). Results: The HHIE was found to have several strong measurement properties. Specifically, it was well-targeted and had high person separation reliability. However, it displayed poor fit to the Rasch model and was not unidimensional. The majority of the items were free of response dependency (i.e., redundancy) and were suited to the 3-point response scale. However, two items were found to be better suited to a dichotomous response scale. Furthermore, nine items were identified as being candidates for removal from the questionnaire, as they exhibited poor fit and/or Differential Item Functioning (i.e., item bias) associated with gender. The measurement properties of the HHIE could be improved by removing these items and adjusting the scores of the two items that require a dichotomous response scale. These amendments resulted in a 16-item version of the HHIE that had good fit to the Rasch model and that was unidimensional. Conclusions: It is vital to ensure that high-quality outcome measures are used in audiology research and practice. This study evaluated one of the foremost outcome measures in this field: the HHIE. The results demonstrated that the HHIE had several strong measurement properties. Amending the HHIE, such as by removing items exhibiting poor fit, could further enhance its quality. A unique aspect of this study was the application of Rasch analysis to the evaluation of the HHIE. It is recommended that future studies use modern techniques to develop and identify high-quality, hearing-specific outcome measures.
Article
Full-text available
Rating scales are employed as a means of extracting more information out of an item than would be obtained from a mere “yes/no”, “right/wrong” or other dichotomy. But does this additional information increase measurement accuracy and precision? Eight guidelines are suggested to aid the analyst in optimizing the manner in which rating scales categories cooperate in order to improve the utility of the resultant measures. Though these guidelines are presented within the context of Rasch analysis, they reflect aspects of rating scale functioning which impact all methods of analysis. The guidelines feature rating-scale-based data such as category frequency, ordering, rating-to-measure inferential coherence, and the quality of the scale from measurement and statistical perspectives. The manner in which the guidelines prompt recategorization or reconceptualization of the rating scale is indicated. Utilization of the guidelines is illustrated through their application to two published data sets. https://www.winsteps.com/a/Linacre-optimizing-category.pdf
Article
Full-text available
El presente artículo expone los resultados del diseño y la construcción de una prueba diagnóstica de comprensión de lectura literal e inferencial, para estudiantes de escuelas públicas de III grado de la Educación General Básica, correspondientes a la Dirección Regional de San José, Costa Rica, realizada en el año 2009. Se trabajó con una muestra aleatoria de 406 estudiantes. La prueba está compuesta por 30 ítems, divididos en tres niveles de complejidad (fácil, intermedio y avanzado), según el criterio de personas juezas y los resultados obtenidos en el análisis. Se utilizaron los supuestos teóricos del Modelo de Rasch para el análisis de los resultados sobre confiabilidad y validez de los ítems, así como de la habilidad de las personas. Los resultados evidenciaron un desajuste constante en el 50% del grupo de personas examinadas, así como veinticuatro ítems con una alta confiabilidad (0.98). La media de dificultad de la prueba se ubicó por debajo de la media de habilidad de las personas examinadas. Un 98% del grupo de participantes se ubicó en los niveles de habilidades intermedias y altas, en la resolución de ítems que miden la comprensión de lectura literal e inferencial.
Article
Full-text available
In order to extend the use of latent trait models across the full spectrum of mental testing, the applicability of the models to multivariate data must be determined. Since all of the commonly used models assume a unidimensional test, the applicability of the procedures to obviously multidimensional tests, such as achievement tests, is questionable. This paper presents the results of the application of latent trait analyses to a series of tests that vary in factorial complexity. The purpose is to determine what characteristics are estimated by the models for these tests, while at the same time determining the relationship of latent trait parameters to traditional item analysis and factor analysis indices.
Article
Measures of magnitude and impact of differential item functioning (DIF) at the item and scale level, respectively are presented and reviewed in this paper. Most measures are based on item response theory models. Magnitude refers to item level effect sizes, whereas impact refers to differences between groups at the scale score level. Reviewed are magnitude measures based on group differences in the expected item scores and impact measures based on differences in the expected scale scores. The similarities among these indices are demonstrated. Various software packages are described that provide magnitude and impact measures, and new software presented that computes all of the available statistics conveniently in one program with explanations of their relationships to one another.
Article
This article is at www.rasch.org/rmt/rmt83b.htm
Article
Kumar and Dillon recently presented a conceptual, overall consistency criterion that represents a sufficient condition for consistency. In commenting on their article, the authors (1) clarify the interrelated nature of internal consistency and external consistency, (2) show that the "bogus perfect fit" example is itself "bogus" in that it cannot occur in either theory or practice, (3) underscore that the specific overall consistency criterion formula defined by Kumar and Dillon cannot be applied in practice, whereas the internal consistency and external consistency criteria can, and (4) caution against using within-block factor analyses as recommended by Kumar and Dillon, and instead advocate the use of confirmatory factor analysis with multiple-indicator measurement models for assessing unidimensionality. In an addendum, the authors discuss their position on unidimensionality and its assessment, contrasting it with the Kumar and Dillon position on unidimensionality and consistency.
Book
Constructing Measures introduces a way to understand the advantages and disadvantages of measurement instruments, how to use such instruments, and how to apply these methods to develop new instruments or adapt old ones. The book is organized around the steps taken while constructing an instrument. It opens with a summary of the constructive steps involved. Each step is then expanded on in the next four chapters. These chapters develop the "building blocks" that make up an instrument--the construct map, the design plan for the items, the outcome space, and the statistical measurement model. The next three chapters focus on quality control. They rely heavily on the calibrated construct map and review how to check if scores are operating consistently and how to evaluate the reliability and validity evidence. The book introduces a variety of item formats, including multiple-choice, open-ended, and performance items; projects; portfolios; Likert and Guttman items; behavioral observations; and interview protocols. Each chapter includes an overview of the key concepts, related resources for further investigation and exercises and activities. Some chapters feature appendices that describe parts of the instrument development process in more detail, numerical manipulations used in the text, and/or data results. A variety of examples from the behavioral and social sciences and education including achievement and performance testing; attitude measures; health measures, and general sociological scales, demonstrate the application of the material. An accompanying CD features control files, output, and a data set to allow readers to compute the text's exercises and create new analyses and case archives based on the book's examples so the reader can work through the entire development of an instrument. Constructing Measures is an ideal text or supplement in courses on item, test, or instrument development, measurement, item response theory, or rasch analysis taught in a variety of departments including education and psychology. The book also appeals to those who develop instruments, including industrial/organizational, educational, and school psychologists, health outcomes researchers, program evaluators, and sociological measurers. Knowledge of basic descriptive statistics and elementary regression is recommended. © 2005 by Lawrence Erlbaum Associates, Inc. All rights reserved.