ArticlePDF Available

El examen MIR 2015 desde el punto de vista de la teoría de respuesta al ítem

Authors:
  • MIRentrelazados

Abstract and Figures

Introducción. En España, el acceso a la formación médica especializada, imprescindible para ejercer como médico especialista, se realiza a través de la prueba MIR. Superada esta prueba, los aspirantes pueden acceder a la formación en distintas especialidades ofertadas por numerosos hospitales a lo largo de todo el país. Sujetos y métodos. Para este trabajo se han utilizado las respuestas al examen MIR 2015 de un conjunto de 3.712 aspirantes. Resultados. Se calcularon los índices de dificultad y discriminación de todas las preguntas del examen. Las preguntas se analizaron según los valores de dichos índices y se agruparon por asignaturas, bloques y tipos de pregunta. Las preguntas con una mayor dificultad media fueron las pertenecientes a las asignaturas de fisiología, farmacología, geriatría, traumatología, neurología y cuidados paliativos. Las asignaturas cuyas preguntas mostraron valores menores de dificultad media fueron anatomía patológica, anestesiología, cirugía plástica, habilidades comunicativas, genética y enfermedades infecciosas. Conclusiones. En general, los valores de dificultad y discriminación de las preguntas de la prueba MIR resultan adecuados. La prueba discrimina mejor a los alumnos que demuestran conocimientos más bajos, y el valor óptimo de discriminación se encuentra en torno al percentil 25 de la muestra analizada (con una puntuación equivalente al percentil 41 de todos los médicos presentados al examen MIR 2015). Finalmente, se propone el uso de las metodologías propias de la teoría de respuesta al ítem con el fin de evaluar las preguntas de la prueba candidatas a ser anuladas.
Content may be subject to copyright.
29www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
ORIGINAL
Introducción
El examen MIR lo convocan anualmente, desde
1978, los Ministerios de Sanidad y Educación, y se
realiza en el mismo día y hora en toda España. La
convocatoria se publica en el Boletín Oficial del Es-
tado unos meses antes de su realización. En los últi-
mos años, la convocatoria se ha publicado en el mes
de septiembre y los exámenes se han celebrado a fi-
nales de enero o principios de febrero del año in-
mediatamente posterior. En el caso de la convoca-
toria de 2015, ésta se realizó por medio de la Orden
El examen MIR 2015 desde el punto de vista de la teoría
de respuesta al ítem
Jaime Baladrón, Fernando Sánchez-Lasheras, Tomás Villacampa, José M. Romeo-Ladrero,
Paula Jiménez-Fonseca, José Curbelo, Ana Fernández-Somoano
Introducción. En España, el acceso a la formación médica especializada, imprescindible para ejercer como médico espe-
cialista, se realiza a través de la prueba MIR. Superada esta prueba, los aspirantes pueden acceder a la formación en dis-
tintas especialidades ofertadas por numerosos hospitales a lo largo de todo el país.
Sujetos y métodos. Para este trabajo se han utilizado las respuestas al examen MIR 2015 de un conjunto de 3.712 aspirantes.
Resultados. Se calcularon los índices de dificultad y discriminación de todas las preguntas del examen. Las preguntas se ana-
lizaron según los valores de dichos índices y se agruparon por asignaturas, bloques y tipos de pregunta. Las preguntas con
una mayor dificultad media fueron las pertenecientes a las asignaturas de fisiología, farmacología, geriatría, traumatología,
neurología y cuidados paliativos. Las asignaturas cuyas preguntas mostraron valores menores de dificultad media fueron
anatomía patológica, anestesiología, cirugía plástica, habilidades comunicativas, genética y enfermedades infecciosas.
Conclusiones. En general, los valores de dificultad y discriminación de las preguntas de la prueba MIR resultan adecuados.
La prueba discrimina mejor a los alumnos que demuestran conocimientos más bajos, y el valor óptimo de discriminación
se encuentra en torno al percentil 25 de la muestra analizada (con una puntuación equivalente al percentil 41 de todos los
médicos presentados al examen MIR 2015). Finalmente, se propone el uso de las metodologías propias de la teoría de
respuesta al ítem con el fin de evaluar las preguntas de la prueba candidatas a ser anuladas.
Palabras clave. Estadísticas. Estudiantes de medicina. Mediciones educativas. Prueba MIR. Psicometría.
Director del Curso Intensivo MIR
Asturias; Clínica Baladrón de Cirugía
Maxilofacial; Oviedo (J. Baladrón).
Departamento de Construcción e
Ingeniería de Fabricación; Universidad
de Oviedo; Gijón (F. Sánchez-Lasheras).
Director del Curso Atención Primaria
Asturias; Clínica Oftalmológica
Villacampa; Avilés (T. Villacampa).
Editor del blog MIRentrelazados;
Zaragoza (J.M. Romeo-Ladrero).
Servicio de Oncología; Hospital
Universitario Central de Asturias;
Oviedo (P. Jiménez-Fonseca).
Servicio de Medicina Interna;
Hospital Universitario La Princesa;
Madrid (J. Curbelo). IUOPA-Área
de Medicina Preventiva y Salud
Pública; Departamento de Medicina;
Universidad de Oviedo; Oviedo
(A. Fernández-Somoano). CIBER
de Epidemiología y Salud
Pública-CIBERESP; Instituto de
Salud Carlos III; Madrid, España
(A. Fernández-Somoano).
Correspondencia:
Dr. Fernando Sánchez Lasheras.
Departamento de Construcción e
Ingeniería de Fabricación. Universidad
de Oviedo. Pedro Puig Adam, s/n.
Sede Departamental Oeste.
Módulo 5, 1.ª planta. E-33203
Gijón (Asturias).
E-mail:
sanchezfernando@uniovi.es
Recibido:
10.11.16.
Aceptado:
16.11.16.
Conflicto de intereses:
No declarado.
Competing interests:
None declared.
© 2017 FEM
MIR 2015 exam from the point of view of the item response theory
Introduction. In Spain, in order to gain access to specialised medical training it is mandatory to take the MIR exam. After
passing said exam, the candidates can access training in different hospitals all around the country.
Subjects and methods. This research was made using a database of the answers of 3,712 candidates who took the 2015
MIR exam.
Results. The difficulty and discrimination index of all the questions in the exam were calculated. All the questions were
analysed, taking into account the values of those parameters and classified by subject, block and kind of question. On average,
those questions that were found to be most difficult correspond to the following subjects: physiology, pharmacology,
geriatrics, traumatology, neurology and palliative care. The subjects with the least average difficulty were anatomical
pathology, anaesthesiology, plastic surgery, communication skills, genetics and infectious diseases.
Conclusions. Overall, the discrimination and difficulty values of the questions in the MIR exam are sufficient. The exam is
more discriminatory for those students with the lowest discrimination levels, with percentile 25 having the highest levels.
Finally, we propose that item response theory be employed as a support tool in order to decide which exam questions
would be nullified.
Key words. Educational measurements. Medicine students. MIR exam. Psychometrics. Statistics.
30 www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
J. Baladrón, et al
de 10 de septiembre de 2015, publicada en el Bole-
tín Oficial del Estado del 18 de septiembre de 2015.
El examen MIR se compone de 225 preguntas de
test más 10 preguntas de reserva, de respuesta múl-
tiple, que versan sobre cualquier campo de la medi-
cina, y deben contestarse en un máximo de cinco
horas. Cada pregunta acertada suma tres puntos y
cada pregunta fallada resta un punto. La nota obte-
nida en el examen (el 90% de la nota final), junto
con la valoración del baremo o expediente acadé-
mico (el 10% de ella), permite clasificar en orden
decreciente de puntuación total a todos los presen-
tados. La nota de corte se fija cada año, y en las últi-
mas convocatorias supone un 35% de la nota de los
10 mejores exámenes de ese año. Los que obtengan
puntuaciones que superen la nota de corte, nota
mínima exigida para el acceso a una plaza de for-
mación sanitaria especializada, estarán en disposi-
ción de escoger la especialidad y el hospital donde
realizarán la formación MIR. El MIR es un examen
que busca ordenar a los aspirantes en una lista, del
primero al último, según su puntuación de examen
y baremo académico, para permitir una elección
ordenada de las plazas ofertadas anualmente para
la formación sanitaria especializada en España.
El número de aspirantes ha oscilado entre 8.000
y 25.000, según las diferentes convocatorias. En el
MIR 2015 se ofertaron 6.097 plazas y fueron admi-
tidos al examen 12.427 médicos, de los que final-
mente se presentaron 11.227. La nota de corte para
dicha convocatoria fue el equivalente a 65,67 pre-
guntas acertadas netas (las preguntas netas son el
resultante de restar, a las preguntas válidas, un
tercio de las preguntas erróneas). 1.939 médicos
(17,27% de los presentados) fueron eliminados por
no haber obtenido una puntuación de examen su-
perior a dicha nota, en tanto que 9.288 obtuvieron
un número de orden en las listas de resultados del
Ministerio y eran potenciales electores de las plazas
convocadas. Del grupo de los eliminados, 1.269 eran
médicos extranjeros (39,33% de los 3.226 médicos
extranjeros presentados ese año al MIR) y 670 mé-
dicos españoles (8,37% de los 8.000 médicos espa-
ñoles presentados al MIR).
En el MIR 2015 se adjudicaron 6.095 plazas, y
quedaron desiertas dos plazas de centros privados
que exigían conformidad previa. La última plaza se
escogió con el número de orden 7.759 (médico no
afectado por el cupo de extranjeros ni pertenecien-
te al turno de discapacidad), y con el 4.547 (médico
sí afectado por el cupo de extranjeros). Así, a dife-
rencia de otras convocatorias, en las que todos los
presentados que obtuvieron número de orden pu-
dieron escoger plaza, en el MIR 2015 3.193 electo-
res se quedaron sin ella. Estos 3.193 electores sin
plaza (a pesar de superar la nota de corte) se pue-
den dividir en tres subgrupos: 1.268 incomparecen-
cias a los actos de elección de plaza, 1.310 médicos
que no pudieron elegir por tener un número de or-
den superior al agotamiento de la última plaza en el
7.759 y 615 médicos afectados por el cupo de ex-
tranjeros que no pudieron elegir por tener un nú-
mero de orden peor al de agotamiento de dicho
cupo en el 4.547. Tampoco pudieron escoger los
1.939 médicos eliminados por la nota de corte antes
citados. En resumen, de los 11.227 médicos presen-
tados, 6.095 obtuvieron plaza (54,28%) y 5.132 no la
obtuvieron (45,71%), por uno u otro motivo de los
enumerados anteriormente [1].
En el MIR 2015, el turno especial de discapacita-
dos partía con una reserva de 427 plazas (el 7% del
total de plazas ofertadas). De los 55 admitidos por
ese turno que obtuvieron número de orden, 43 de
ellos eligieron plaza durante los actos de asignación
y 12 no comparecieron al acto de elección. Las pla-
zas desiertas de dicho turno se incorporaron auto-
máticamente al turno general.
La convocatoria de MIR 2015 supuso un cambio
en la estructura habitual del examen: se modificó el
diseño de las preguntas de respuesta múltiple, que
pasó de las cinco opciones de respuesta de las con-
vocatorias 1980-2014 a las cuatro opciones del MIR
2015. Al ser éste el primer MIR de estas caracterís-
ticas, hemos considerado de interés realizar un es-
tudio de su validez estructural, estudiando sus pre-
guntas desde el prisma de la teoría clásica de los
test, ya realizado en un artículo anterior [2], y desde
el punto de vista de la teoría de respuesta al ítem, el
cual se presenta aquí.
La teoría clásica de los test y la teoría de respues-
ta al ítem constituyen los dos enfoques principales
de la psicometría. Los autores del presente trabajo
se proponen el análisis del examen MIR de la últi-
ma convocatoria (2015), realizado el 6 de febrero de
2016, desde el punto de vista de la teoría de res-
puesta al ítem. Con este análisis, se completa el es-
tudio comenzado en el artículo anterior [2] y en el
que se analizó la validez estructural haciendo espe-
cial énfasis en los aspectos medibles desde el punto
de vista de la teoría clásica de los test.
La teoría de respuesta al ítem tiene sus funda-
mentos en los trabajos de Guttman [3], Lord [4] y
Rasch [5]. En la actualidad se han desarrollado un
gran número de modelos psicométricos que tienen
en común la relación matemática de las caracte-
rísticas latentes (no observables) de los ítems en
una prueba y de las personas que las contestan, con
el fin de obtener modelos de las probabilidades de
31www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
Examen MIR 2015 y teoría de respuesta al ítem
acierto de cada sujeto en cada uno de los ítems en
función de su nivel de conocimiento [6].
Dado el escaso número de estudios que analizan
los datos de los instrumentos de evaluación del co-
nocimiento médico desde el punto de vista de la
teoría de respuesta al ítem [6], los autores de este
trabajo consideramos que el análisis que aquí se
presenta puede resultar de interés para todos los
colectivos implicados en la prueba MIR, así como
para los investigadores y evaluadores en el campo
de la educación médica.
Sujetos y métodos
Base de datos
Al igual que en el artículo anteriormente publicado
por los autores acerca del MIR 2015, la base de da-
tos utilizada en este estudio corresponde a las res-
puestas a las preguntas del examen que fueron in-
troducidas por los propios examinados del MIR
2015 en una aplicación ad hoc creada por Curso In-
tensivo MIR Asturias. La finalidad de dicha aplica-
ción era que todos los médicos que se presentaron
a la convocatoria de 2015 del examen MIR, tras in-
troducir sus respuestas a las preguntas del examen,
pudieran conocer, de manera aproximada, el núme-
ro de orden que obtendrían en la prueba, teniendo
en cuenta estimaciones sobre el grado de dificultad
de la prueba de ese año, el número de presentados,
sus respuestas y su baremo académico. No todos
los médicos que se examinaron introdujeron su pun-
tuación en la mencionada base de datos, pero una
vez filtrada la información y eliminados los resulta-
dos duplicados y los considerados espurios, se ob-
tuvo la información correspondiente a las respues-
tas de un total de 3.712 examinados.
Modelos de la teoría de respuesta al ítem
La característica fundamental de la teoría de res-
puesta al ítem es que intenta prever la forma en la
que los individuos contestan a las preguntas en fun-
ción de su nivel de conocimiento. Es decir, la teoría
de respuesta al ítem propone una serie de formula-
ciones sistemáticas que permiten conocer la proba-
bilidad que tiene un individuo de acertar cada una
de las preguntas de un test en función de su nivel de
conocimiento.
Con el fin de obtener dicha probabilidad, los mo-
delos matemáticos que propone la teoría de res-
puesta al ítem son capaces de calcular una serie de
parámetros propios de cada pregunta, como la difi-
cultad y la discriminación. Por tanto, los modelos
propuestos por la teoría de respuesta al ítem asu-
men que existe una relación funcional entre los va-
lores de la variable que es medida por las preguntas
y la probabilidad de obtener una respuesta correc-
ta. La función que representa esta probabilidad se
denomina curva característica de los ítems.
En el caso de los exámenes de respuesta múltiple
como el MIR, resulta de utilidad el uso de los mo-
delos denominados de respuesta dicotómica [7]. En
este tipo de modelos, si la respuesta elegida es co-
rrecta, ésta se codifica como 1, y, si es incorrecta,
como 0, con independencia de cuál sea la opción
elegida. En función del número de parámetros, los
modelos dicotómicos se clasifican en modelos de
uno, dos o tres parámetros. La selección de un mo-
delo u otro debe realizarse teniendo en cuenta tan-
to el buen ajuste del modelo a los datos [8] como el
número de parámetros que se pretendan analizar
desde el punto de vista teórico.
Así, si se representa el nivel de conocimiento por
la variable θ, la función de respuesta al ítem que re-
presenta la probabilidad de que un examinado con
un nivel de conocimiento θi responda de forma co-
rrecta al jsimo ítem se puede expresar por la si-
guiente ecuación [8-10]:
(1 – cj) · exp [–1,7 · aj · (θibj)]
P (uj = 1|θi, aj, bj, cj) = cj +
1 + exp [–1,7 · aj · (θibj)]
(ecuación 1),
donde θi es el nivel de conocimiento del i-ésimo su-
jeto; aj, el valor de discriminación de la j-ésima pre-
gunta (nótese que el coeficiente de discriminación
se relaciona con el valor de la pendiente de la curva
en el punto de inflexión); bj, el nivel de dificultad de
la pregunta j-ésima, y cj, la probabilidad de que un
sujeto con un nivel de conocimiento muy bajo
acierte la respuesta correcta por azar. Si se conside-
ra que, teóricamente, es imposible acertar de forma
aleatoria la respuesta correcta, este coeficiente to-
mará el valor de 0.
En otras palabras, el modelo de la ecuación 1,
P (uj = 1|θi, aj, bj, cj), representa la probabilidad de
que un sujeto con un nivel de conocimiento θi res-
ponda de forma correcta a la pregunta j-ésima.
Tanto la discriminación como la dificultad de cada
pregunta determinan cómo de probable es que cada
individuo sea capaz de acertar la respuesta, lo que
define una curva de probabilidad cuya fórmula es la
de la ecuación 1. Este modelo se denomina modelo
logístico de tres parámetros. De acuerdo con el mo-
delo propuesto, la probabilidad de obtener una res-
32 www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
J. Baladrón, et al
puesta correcta depende por una parte de los pará-
metros de cada uno de los ítems y por otra del nivel
de conocimiento del sujeto. Nótese que, según el
principio de independencia local [8], la probabili-
dad que tiene un examinando de acertar una pre-
gunta depende únicamente de su nivel de conoci-
miento y de los parámetros de dicho ítem, con in-
dependencia de los del resto de preguntas que
constituyan el test. Esto, que se conoce como asun-
ción de independencia local [9], se expresa por me-
dio de la siguiente fórmula:
P (uj = 1|θ) = P (uj = 1|θ, uk, ul ...) (j = k, l ...)
(ecuación 2).
La ecuación 1, que representa el modelo logísti-
co de tres parámetros, se puede simplificar de for-
ma que represente tanto el modelo de dos paráme-
tros como el de uno. Así, la diferencia del modelo
de tres parámetros con el modelo de dos paráme-
tros es que este último no tiene en cuenta el coefi-
ciente de adivinación (lo supone 0) y basa la proba-
bilidad de acierto únicamente en la dificultad del
ítem y en la capacidad de discriminación. Su ecua-
ción es la siguiente, donde todas las variables inter-
vinientes en dicho modelo tienen el mismo signifi-
cado que en la ecuación 1:
exp [–1,7 · aj · (θibj)]
P (uj = 1|θi, aj, bj) =
1 + exp [–1,7 · aj · (θibj)]
(ecuación 3).
A continuación, la ecuación 4 representa el mo-
delo de un parámetro, el cual no considera la exis-
tencia de diferencias en la discriminación de los
ítems y sólo tiene en cuenta la dificultad de cada
pregunta. Nuevamente, tanto θi como bj tienen el
mismo significado que en la ecuación 1:
exp [–1,7 · (θibj)]
P (uj = 1|θi, bj) =
1 + exp [–1,7 · (θibj)]
(ecuación 4).
Además, para cada ítem se define otra función,
denominada función de información, y cuya ecua-
ción es la siguiente [9]:
δPj (θ)
[ ]2
δθ
I {θ, uj} =
(ecuación 5),
Pj (θ) · [1 – Pj (θ)]
donde Pj (θ) = P (uj = 1|θi, aj, bj, cj) representa la
función de respuesta al ítem. La función de infor-
mación es la inversa de la precisión con la que el
parámetro puede ser estimado. Así, la cantidad de
información dada por cada uno de los ítems varía
con el nivel de conocimiento θ. Además, la función
de información también se puede definir para un
test o examen completo, y ésta constituye la suma
de las funciones de información para cada uno de
los ítems:
n
I {θ} = I {θ, uj} (ecuación 6).
j = 1
El problema de la estimación de los parámetros
en la teoría de respuesta al ítem se puede resolver a
través de la metodología denominada estimador de
máxima verosimilitud, y ésa es la aproximación que
se ha adoptado en el presente trabajo. Dicho proce-
dimiento permite la determinación de los coefi-
cientes para todas las preguntas en los modelos lo-
gísticos con independencia del número de paráme-
tros. No se profundiza en dicha metodología, cuyo
desarrollo se puede consultar en la bibliografía [11],
dado que se considera más allá del alcance necesa-
rio en este artículo.
Si bien sobre la base de datos del presente estu-
dio se aplicaron los tres modelos de la teoría de res-
puesta al ítem vistos en este apartado, en la sección
de resultados se presentan los correspondientes al
modelo con un mejor ajuste. La bondad de ajuste
de los modelos utilizados se evaluó a través del cri-
terio de información de Akaike (CIA).
El CIA [12] surge en el marco de la teoría de la
información [13] con el fin de proporcionar un cri-
terio objetivo que ayude a los investigadores en la
aplicación práctica de los principios teóricos de
simplicidad y parsimonia a la hora de construir mo-
delos matemáticos [14,15]. Así, debe tenerse en
cuenta que, aunque ningún modelo matemático se
puede considerar como absolutamente verdadero,
el que mejor se ajuste a los datos y presente el me-
jor equilibrio entre su complejidad y el ajuste pro-
porcionado debería ser el preferido. En otras pala-
bras, se considera que el modelo que mejor se ajus-
ta a los datos es el que minimiza la pérdida de in-
formación. Así, el CIA [16-18] proporciona un mé-
todo cuantitativo con el fin de determinar qué
modelo de entre un conjunto de éstos es el más par-
simonioso. Desde el punto de vista práctico, cuan-
do a un mismo conjunto de datos se le aplican dife-
rentes modelos, el que tiene un valor menor de CIA
será el que presente un mejor ajuste.
33www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
Examen MIR 2015 y teoría de respuesta al ítem
La ecuación del CIA se expresa como:
CIA = –2 · ln(L) + 2 Nparam (ecuación 7),
donde Nparam es el número de parámetros que se
debe estimar en cada modelo –en el caso del pre-
sente artículo, uno, dos o tres, en función de si el
modelo considerado es el de un parámetro, el de
dos o el de tres, respectivamente–, y L, el estimador
de máxima verosimilitud.
Nótese que, como se comentó anteriormente, el
estimador de máxima verosimilitud es un método
[18] para la estimación de los parámetros de un
modelo estadístico. En los casos en los que se aplica
a un conjunto determinado de datos y a un modelo
estadístico, nos proporciona una estimación de los
parámetros del modelo. En general, se puede decir
que el estimador de máxima verosimilitud seleccio-
na los valores de parámetros del modelo que maxi-
mizan la coherencia de los datos con el modelo que
se propone, minimizándose, por tanto, el error.
Resultados
Al igual que en convocatorias anteriores, el examen
MIR de la convocatoria 2015 constó de un total de
235 preguntas, de las cuales las 10 últimas eran de
reserva y se utilizarían sólo en el caso de que alguna
de las 225 primeras fuera anulada por la comisión
calificadora.
Las preguntas propuestas pertenecían a 33 asig-
naturas diferentes del grado de medicina. La asigna-
tura con mayor número de preguntas en este exa-
men fue aparato digestivo. Dentro de dicha asigna-
tura se incluyen gastroenterología, hepatología y
cirugía digestiva, y el total de preguntas pertene-
cientes a ella fue de 21.
Las diferentes asignaturas que constituyen el
examen MIR se pueden dividir en bloques. Así, las
nueve especialidades médicas y sus correspondien-
tes especialidades quirúrgicas corresponden al blo-
que de aparatos y forman el 51,08% del total del
examen. El 10,39% de las preguntas integra el blo-
que de asignaturas básicas. De dicho bloque se han
excluido las preguntas de microbiología, dado que
se clasificaron dentro de enfermedades infecciosas,
y las de bioestadística, que se clasificaron dentro de
medicina preventiva. El 38,53% de preguntas res-
tantes se encuadró como correspondiente a otras
asignaturas. En la tabla I se clasifica cada asignatura
dentro del bloque al que pertenece.
En el examen de la convocatoria analizada se
produjeron cuatro anulaciones, las cuales corres-
Tabla I. Valores de dificultad (media y desviación estándar) y discriminación (media y desviación están-
dar) de las preguntas del examen MIR de 2015 agrupados por asignaturas.
Bloque Asignatura N.º de
preguntas Dificultad Discriminación
Aparatos
Aparato digestivo 21 –0,594 (2,259) 0,695 (0,3467)
Enfermedades Infecciosas 17 –1,473 (2,135) 0,729 (0,413)
Neumología 14 –0,725 (3,044) 0,899 (0,451)
Cardiología 13 –0,48 (1,942) 0,626 (0,243)
Nefrología 12 0,048 (2,505) 0,753 (0,514)
Neurología 11 1,294 (9,869) 0,698 (0,398)
Hematología 10 0,239 (3,562) 1,004 (0,514)
Reumatología 10 –0,487 (1,392) 0,899 (0,609)
Endocrinología 10 0,164 (2,652) 0,621 (0,379)
Básicas
Anatomía patológica 5 –8,488 (17,415) 0,913 (0,639)
Fisiología 5 14,077 (27,011) 0,486 (0,409)
Inmunología 4 –0,314 (1,526) 0,909 (0,357)
Anatomía 4 –0,929 (1,909) 0,511 (0,105)
Farmacología 4 2,808 (6,994) 0,490 (0,249)
Genética 2 –1,696 (0,262) 1,704 (0,458)
Otras
Medicina preventiva 15 –1,047 (1,213) 0,989 (0,399)
Pediatría 13 –0,181 (2,815) 0,838 (0,486)
Ginecología y obstetricia 11 –0,802 (1,974) 0,891 (0,349)
Psiquiatría 8 –1,029 (1,388) 1,135 (0,442)
Traumatología 7 2,0357 (5,541) 0,694 (0,475)
Habilidades comunicativas 6 –2,511 (0,656) 0,699 (0,137)
Oftalmología 4 –0,594 (1,875) 0,808 (0,389)
Gestión clínica 4 –0,319 (1,859) 0,831 (0,399)
Otorrinolaringología 3 –0,894 (1,184) 1,104 (0,156)
Dermatología 3 –1,006 (0,651) 1,053 (0,265)
Oncología 3 –0,537 (2,262) 0,821 (0,507)
Cuidados paliativos 3 0,424 (0,925) 0,322 (0,079)
Geriatría 3 2,373 (3,966) 0,2617 (0,199)
Cirugía maxilofacial 2 0,265 (0,839) 0,5085 (0,232)
Urgencias 1 0,144 0,921
Cirugía plástica 1 –2,589 0,874
Anestesiología 1 –2,936 0,838
Cirugía vascular 1 –0,200 0,564
Total 231 –0,228 (5,859) 0,7914 (0,431)
34 www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
J. Baladrón, et al
pondieron a una pregunta de farmacología (pre-
gunta n.º 36), una de cardiología (pregunta n.º 61),
una de bioética (pregunta n.º 189) y una de medici-
na preventiva (pregunta n.º 205). En los análisis rea-
lizados no se han tenido en cuenta estas preguntas,
pero sí el resto de preguntas constitutivas del exa-
men, incluidas las de reserva, es decir, un total de
231 ítems.
De la aplicación de los modelos de uno, dos y
tres parámetros se obtuvo que el modelo cuyo CIA
demostraba una mejor adaptación a los datos era el
de dos parámetros. Por tanto, serán los resultados
correspondientes a dicho modelo los que se presen-
ten en esta sección. Esto supone que los parámetros
analizados en cada pregunta han sido su dificultad
y discriminación.
Análisis por preguntas
Si se analizan los valores de dificultad de cada una
de las pregunta de la prueba MIR, se observa que
dichos valores se encuentran comprendidos entre
un mínimo de –39,591 y un máximo de 61,876. El
rango intercuartílico de los valores de dificultad
está entre –1,947 y 0,085. El valor de mediana fue
de –1,033 y la media de –0,228, con una desviación
estándar de 5,859. Dada la extensión que tendría la
tabla que contuviera los valores de dificultad y dis-
criminación de las 231 preguntas del examen, se ha
optado por no presentarlos en este artículo, sino
que se realizará un análisis posterior por asignatu-
ras, así como por bloques y tipos de preguntas.
En lo relativo a los valores de discriminación de
las preguntas de esta prueba, el valor mínimo fue
de –0,148, con un máximo de 2,231. El rango inter-
cuartílico estuvo comprendido entre 0,472 y 1,073,
con una mediana de 0,748 y un valor de media de
0,791, y una desviación estándar de 0,431. Todas las
preguntas salvo dos (el 99,13% del total) presenta-
ron coeficientes de discriminación positivos. Nóte-
se que los valores de discriminación negativos de-
ben considerase anómalos, tal y como se explica
más adelante en el presente apartado.
Dado que el enfoque de la teoría de respuesta al
ítem se centra en la propuesta de un modelo proba-
bilístico independiente para cada una de las pre-
guntas del examen que permita calcular la probabi-
lidad de acierto de cada individuo en función de su
nivel de conocimiento, la presentación de resulta-
dos de este artículo se centra en el análisis indivi-
dual de las preguntas. Así, la figura 1 muestra las
curvas de probabilidad correspondientes a las pre-
guntas con un mayor valor del coeficiente de difi-
cultad de todo el examen. Dichas preguntas corres-
ponden a las asignaturas de farmacología (n.º 37),
fisiología (n.º 42), neurología (n.º 135) y traumato-
logía (n.º 145). Tal y como se puede observar en to-
das ellas, la probabilidad de acierto es muy baja
para todos los niveles de conocimiento, aunque se
incrementa ligeramente según aumenta el nivel de
conocimiento de los médicos evaluados, dado que
el valor de discriminación de las cuatro preguntas,
aunque muy pequeño, es en todos los casos supe-
rior a 0. Así, en ninguna de las cuatro preguntas se-
leccionadas ni tan siquiera los médicos con un ma-
yor nivel de conocimientos son capaces de superar
la barrera del 40% de probabilidad de acierto, y des-
taca entre las demás la pregunta n.º 42, en la que los
alumnos más preparados no superan un 20% de
probabilidades de acertarla. A través de la página
web del Ministerio de Sanidad, Servicios Sociales e
Igualdad se dispone de acceso completo al texto de
todas las preguntas junto con sus opciones de res-
puesta [1]. La numeración utilizada para identificar
las preguntas en el presente trabajo coincide con la
Figura 1. Curvas de probabilidad de las cuatro preguntas más difíciles del examen.
35www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
Examen MIR 2015 y teoría de respuesta al ítem
versión 0 de examen, disponible en la página web
del Ministerio.
De forma similar a la de la figura anterior, la figu-
ra 2 muestra las curvas de probabilidad de las pre-
guntas más fáciles del examen. En este caso se trata
de preguntas correspondientes a las asignaturas de
digestivo (n.º 62), enfermedades infecciosas (n.º 104),
nefrología (n.º 118) y habilidades comunicativas (n.º
182). En todas estas preguntas se observa que la pro-
babilidad de acierto de los médicos con los niveles
más bajos de conocimientos de la muestra analizada
se encuentra alrededor del 40%, que se incrementa
hasta valores cercanos al 100% para los alumnos con
los niveles más altos de conocimiento. Nótese cómo
en el caso de las preguntas n.º 67 y 182, los médicos
con valores de conocimiento intermedios en la
muestra, representados por 0, alcanzan una proba-
bilidad de acierto de estas preguntas superior al 80%,
mientras que, en el caso de las preguntas n.º 104 y
118, esta probabilidad supera el 60%.
En relación con los valores de discriminación, en
la parte superior de la figura 3 se presentan las dos
únicas preguntas con valores de discriminaciones
negativos que no fueron anuladas por la comisión
calificadora. Se trata de las preguntas n.º 17 y 31, co-
rrespondientes a las asignaturas de enfermedades
infecciosas y anatomía patológica. El que una pre-
gunta presente una discriminación negativa supone
que la probabilidad de responder correctamente a la
pregunta por parte de un individuo disminuya a
medida que aumenta su nivel de conocimiento. Di-
cho comportamiento es atípico y, por tanto, cree-
mos que estas preguntas deberían ser anuladas o
revisadas (con el fin de asegurarse de si están co-
rrectamente formuladas), dado que, si su objetivo es
medir el constructo conocimiento médico, no debe-
ría ocurrir que, a mayor nivel de conocimiento, los
examinados muestren menor probabilidad de acer-
tar los ítems que los evalúan. La parte inferior de la
figura 3 presenta las curvas de probabilidad corres-
pondientes a las dos preguntas con mayor valor de
discriminación en la prueba MIR. Al tratarse de va-
lores positivos de discriminación, en este caso, a
mayor nivel de conocimiento, mayores probabilida-
des de que el sujeto responda correctamente a la
pregunta que se le ha formulado. Las dos preguntas
a las que nos referimos son la 44 y la 141, y corres-
ponden respectivamente a las asignaturas de gené-
tica y reumatología. Dado el alto grado de discrimi-
nación que presentan ambas preguntas, se observa
que ambas resultan altamente discriminativas para
ciertos niveles de conocimiento, entendiendo por
este concepto que existe un intervalo de conoci-
miento de los examinados entre cuyos extremos se
produce un fuerte incremento de la probabilidad de
acertar la pregunta. Así, en el caso de la pregunta n.º
44, se observa cómo los sujetos con un nivel de co-
nocimiento de –2 presentan unas probabilidades de
responder la pregunta inferiores al 30%, mientras
que los alumnos de nivel de conocimiento 0 incre-
mentan las probabilidades de acierto hasta algo más
del 90%. En el caso de la pregunta n.º 141 ocurre
algo similar, aunque en este caso se pasa de unas
probabilidades de acierto de menos del 20% para un
nivel de conocimiento de –3 a una probabilidad de
más del 90% para los alumnos con un nivel de cono-
cimiento de 0. Nótese también cómo, en este caso, a
partir de dicho nivel de conocimiento la probabili-
dad de acierto apenas se incrementa, y la curva de
probabilidad permanece prácticamente plana.
Análisis por asignaturas
Del análisis de los resultados por asignaturas (Tabla I)
se observa que las asignaturas con las preguntas cu-
Figura 2. Curvas de probabilidad de las cuatro preguntas más fáciles del examen.
36 www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
J. Baladrón, et al
yos valores medios de dificultad fueron más eleva-
dos son: fisiología, farmacología, geriatría, trauma-
tología, neurología y cuidados paliativos. Igualmen-
te, las asignaturas cuyas preguntas presentaron una
menor dificultad media fueron anatomía patológi-
ca, anestesiología, cirugía plástica, habilidades co-
municativas, genética y enfermedades infecciosas.
En lo relativo a la discriminación, ninguna asigna-
tura presentó promedio negativo de discriminación,
y las asignaturas con valores medios más discrimi-
nativos fueron genética, psiquiatría, otorrinolarin-
gología, dermatología y hematología.
Análisis por bloques de
asignaturas y tipos de preguntas
Si se analiza la dificultad por bloques (Tabla II), el
bloque de preguntas que resultan de mayor dificul-
tad media es el de las asignaturas básicas, con un
valor de 1,284, mientras que los valores medios de
las categorías de aparatos y otras se encuentran muy
próximos entre sí (–0,338 y –0,489, respectivamen-
te). Las diferencias de las medias de los bloques de
asignaturas en lo relativo a los valores de discrimi-
nación son mínimas.
En la tabla II se recogen también los valores me-
dios y desviaciones estándar de las preguntas de la
prueba MIR agrupadas según el tipo de preguntas.
Así, se observa que la menor dificultad media co-
rresponde a los casos clínicos (media de –0,804),
seguidos por las preguntas negativas (0,182) y final-
mente los test de preguntas directas (1,168). En re-
lación con la variación de las dificultades, los resul-
tados obtenidos nos permiten afirmar que la mayor
variabilidad se encuentra en las preguntas de test
(8,99), mientras que la menor la presentan las pre-
guntas negativas (2,891). Los coeficientes de discri-
minación medios de los tres tipos de preguntas pre-
sentan valores muy similares, comprendidos entre
los 0,727, con una desviación estándar de 0,468 de
las preguntas negativas, y los 0,838 de las preguntas
de test, con una desviación estándar de 0,405.
Análisis del examen en su conjunto
La figura 4 muestra la curva de información para el
examen en su conjunto. Como ya se comentó, esta
curva permite conocer para qué nivel de conoci-
mientos la prueba MIR resulta más discriminativa.
Así, dicha curva presenta un valor máximo de in-
formación de 38,972, y este máximo se alcanza para
los alumnos con un nivel de conocimiento de –1,881.
Figura 3. Curvas de probabilidad de las dos preguntas menos discriminativas del examen (arriba) y de las
dos preguntas más discriminativas (abajo).
Figura 4. Curva de información correspondiente al examen en su con-
junto.
37www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
Examen MIR 2015 y teoría de respuesta al ítem
Por tanto, con la información disponible, el examen
MIR a los que mejor discrimina es a los individuos
que presentan un nivel de conocimientos por deba-
jo de la media de la muestra analizada. En concreto,
a los que se encuentran aproximadamente alrede-
dor del percentil 25 de la muestra analizada (con
una puntuación equivalente al percentil 41 de las
puntuaciones de examen de todos los médicos pre-
sentados al examen MIR 2015), mientras que los
niveles más bajos de discriminación se encuentran
para los individuos con los mayores niveles de co-
nocimiento. Nótese que, en el caso del percentil 25,
existe una gran diferencia entre el valor de los mé-
dicos de la muestra (104,42 preguntas netas) frente
al valor obtenido por el total de aspirantes presen-
tados al examen MIR 2015 (79,3 preguntas netas).
Estas diferencias varían según aumentan los valores
de puntuación. Así, en el caso de la mediana de la
muestra, el valor de netas es de 127,67 y, en el con-
junto de médicos presentados, de 115,67. Así, la me-
diana de netas de la muestra equivale al percentil
64 de todos los presentados al MIR, mientras que,
para el percentil 75 en la muestra, el valor es de 145
y, en el conjunto de la población, de 139,33 pregun-
tas netas.
Discusión
En el presente artículo se ha realizado el primer aná-
lisis conocido de un examen MIR desde el punto de
vista de la teoría de respuesta al ítem. Si bien el Mi-
nisterio de Sanidad publicó estudios sobre la vali-
dez estructural de los exámenes MIR de las convo-
catorias de 1988 a 1992 [19,20] y además proporcio-
nó los datos necesarios para el análisis de los exáme-
nes de las diferentes profesiones sanitarias de las
convocatorias de 2005 y 2006, trabajo realizado por
Bonillo [21], los autores no conocen la existencia de
ningún otro estudio como el que se presenta en este
artículo.
En relación con las limitaciones del trabajo, cabe
destacar que, a diferencia de los relacionados en el
párrafo anterior, no se analizan los resultados de
todos los examinandos, sino de una muestra de
3.712, que supone alrededor de un tercio del total
de 11.227 médicos presentados a la prueba el 6 de
febrero de 2016. Tal y como ocurría en el estudio
publicado anteriormente sobre la misma base de
datos, hemos de tener en cuenta que la información
de la que disponemos presenta un cierto sesgo,
dado que los médicos que obtuvieron en la prueba
las puntuaciones más bajas estuvieron menos pre-
dispuestos a introducir sus respuestas en la base de
datos de la aplicación. La existencia de este sesgo se
manifiesta en la mediana de preguntas netas de los
médicos de la muestra (128,67 preguntas netas),
más alta que la de todos los médicos presentados al
examen MIR 2015 (115,67 preguntas netas). Este
hecho podría suponer que el coeficiente de dificul-
tad resultante en las preguntas sea ligeramente in-
ferior al que presentarían estas mismas preguntas si
se hubiera analizado la población completa.
Por tanto, desde el punto de vista de los autores,
los resultados obtenidos reflejarían más fielmente la
realidad si se hubiera dispuesto de las respuestas al
examen de todos los médicos que se presentaron a la
prueba. Con todo, se considera que la aproximación
obtenida con la muestra disponible es suficiente.
También nos gustaría señalar que si la comisión
calificadora de la prueba dispusiera de la informa-
ción psicométrica correspondiente a ésta, sobre to-
do de las curvas de probabilidad correspondientes
a cada una de las preguntas, tal y como se presen-
tan en este artículo, así como de los valores de difi-
cultad y discriminación de cada una de las pregun-
tas, su labor de anulación de preguntas resultaría
más fácil. Esto es así dado que podrían detectar las
preguntas con comportamientos atípicos a través
de sus gráficas. Por ejemplo, se observaría la exis-
tencia de algunas preguntas con coeficientes de dis-
criminación negativos, como las n.º 17 y 31, y de
otras cuya dificultad es muy elevada y la probabili-
dad de acierto es prácticamente la misma con inde-
pendencia del nivel de conocimiento de los mé dicos
evaluados, como la pregunta n.º 42. Desde nuestro
punto de vista, estas preguntas precisan un análisis
minucioso por parte de expertos con el fin de de-
Tabla II. Valores de dificultad (media y desviación estándar) y discriminación (media y desviación están-
dar) de las preguntas del examen MIR de 2015 agrupadas tanto por bloque como por tipo de preguntas
N.º de preguntas
(n = 231) Dificultad Discriminación
Bloques
Aparatos 118 –0,338 (3,746) 0,759 (0,429)
Básicas 24 1,284 (15,672) 0,752 (0,511)
Otras 89 –0,489 (2,482) 0,844 (0,408)
Tipos de
preguntas
Caso clínico 150 –0,804 (4,659) 0,786 (0,434)
Negativa 27 0,182 (2,891) 0,727 (0,468)
Test 54 1,168 (8,990) 0,838 (0,405)
Total –0,228 (5,859) 0,791 (0,4309)
38 www.fundacioneducacionmedica.org FEM 2017; 20 (1): 29-38
J. Baladrón, et al
terminar tanto si su formulación es correcta como
si alguna de las respuestas consideradas como inco-
rrectas tendría una formulación que permitiera que
dicha respuesta fuera también correcta. No debe-
mos olvidar que la función del examen MIR es or-
denar, para lo que se requiere separar (discriminar)
entre los distintos niveles de conocimiento de los
médicos evaluados en la prueba. Debería conside-
rarse la anulación de las preguntas que no contribu-
yesen al fin de discriminación del examen, al no se-
parar a los médicos con mayor nivel de conocimien-
to de los evaluados con menores niveles de éste.
Tal y como puso de manifiesto la curva de infor-
mación de la prueba MIR en su conjunto, donde
menores niveles de discriminación presenta dicha
prueba es entre los alumnos de puntuaciones más
altas, lo que pone de manifiesto cómo es de deter-
minante el azar a la hora de que un individuo ocupe
una posición u otra dentro del grupo de aspirantes
a ocupar los primeros números de orden. Así, que
el modelo que mejor ajuste las preguntas del exa-
men sea el modelo de dos parámetros evidencia la
baja probabilidad de acertar por azar las preguntas
del examen.
Finalmente, y como otra posible aplicación de los
modelos de la teoría de respuesta al ítem, nos gusta-
ría señalar que, disponiendo de las respuestas de un
individuo a un subconjunto de las preguntas del
examen, y conocidos los parámetros de dificultad y
discriminación de las preguntas restantes, sería po-
sible predecir el resultado que el sujeto obtendría en
el total de la prueba. Este principio es el que em-
plean los tests adaptativos computarizados que pro-
porcionan exámenes personalizados. Además, te-
niendo esto en cuenta, en la actualidad se están rea-
lizando investigaciones [22] acerca del rendimiento
futuro de estudiantes a partir de sus resultados en
las asignaturas previamente cursadas, otro campo
muy prometedor para futuros estudios.
Bibliografía
1. Ministerio de Sanidad, Servicios Sociales e Igualdad.
Formación sanitaria especializada. URL: http://sis.msssi.es/
fse/Default.aspx?MenuId=QE-00. [03.11.2016].
2. Baladrón J, Curbelo J, Sánchez-Lasheras F, Romeo-Ladrero JM,
Villacampa T, Fernández-Somoano A. El examen al examen
MIR 2015. Aproximación a la validez estructural a través de
la teoría clásica de los tests. FEM 2016; 19: 217-26.
3. Guttman L. A basis for scaling qualitative Data. American
Sociological Review 1944; 9: 139-50.
4. Lord F. A theory of test scores (Psychometric Monographs
no. 7). Richmond, VA: Psychometric Corporation; 1952.
5. Rasch G. Probabilistic models for some intelligence and
attainment tests. Chicago, IL: University of Chicago Press; 1980.
6. Leenen I. Virtudes y limitaciones de la teoría de respuesta
al ítem para la evaluación educativa en las ciencias médicas.
Investigación en Educación Médica 2014; 3: 40-55.
7. Álvarez E, Arcos A, González S, Muñoz JF, Rueda M.
Estimating population proportions in the presence of missing
data. Journal of Computational and Applied Mathematics
2013; 237: 470-6.
8. Embretson SE, Reise SP. Item response theory for psychologists.
Hillside, NJ: Erlbaum; 2000.
9. Lord FM. Applications of item response theory to practical
testing problems. Hillside, NJ: Erlbaum; 1980.
10. Birnbaum A. Some latent trait models and their use in inferring
an examinee’s ability. In Lord FM, Novick MR, eds. Statistical
theories of mental test scores. Reading, MA: Addison-Wesley;
1968. p. 397-472.
11. Ordóñez-Galán C, Sánchez-Lasheras F, De Cos-Juez FJ,
Bernardo-Sánchez AB. Missing data imputation of
questionnaires by means of genetic algorithms with different
fitness functions. Journal of Computational and Applied
Mathematics 2017; 311: 704-17.
12. Akaike H. A new look at the statistical model identification.
IEEE Transactions on Automatic Control 1974; 19: 716-23.
13. Burnham KP, Anderson DR. Model selection and multimodel
inference: a practical information-theoretical approach. 2 ed.
New York: Springer-Verlag; 2002.
14. Sober E. Instrumentalism, parsimony, and the Akaike framework.
Philos Sci 2002; 69: S112-23.
15. Álvarez-Menéndez L, De Cos-Juez FJ, Sánchez-Lasheras F,
Álvarez-Riesgo JA. Artificial neural networks applied to cancer
detection in a breast screening programme. Math Comput
Model 2010; 52: 983-91.
16. García-Nieto PJ, Alonso-Fernández JR, Sánchez-Lasheras F,
De Cos-Juez FJ, Díaz-Muñiz V. A new improved study of
cyanotoxins presence from experimental cyanobacteria
concentrations in the Trasona reservoir (Northern Spain) using
the MARS technique. Sci Total Environ 2012; 430: 88-92.
17. Hald A. On the history of maximum likelihood in relation to
inverse probability and least squares. Stat Sci 1999; 14: 214-22.
18. Vrieze SI. Model selection and psychological theory:
a discussion of the differences between the Akaike Information
Criterion (AIC) and the Bayesian Information Criterion (BIC).
Psychol Methods 2012; 17: 228-43.
19. Pruebas selectivas para el acceso a plazas de formación de
médicos especialistas (1982-1992). Madrid: Ministerio de
Sanidad y Consumo; 1993.
20. Pruebas selectivas para el acceso a plazas de formación de
médicos especialistas. Validez estructural, diseño y capacidades
exploradas (1988-1992). Madrid: Ministerio de Sanidad y
Consumo; 1993.
21. Bonillo A. Pruebas de acceso a la formación sanitaria
especializada para médicos y otros profesionales sanitarios en
España: examinando el examen y los examinados. Gac Sanit
2012; 26: 231-5.
22. Crespo-Turrado C, Casteleiro-Roca JL, Sánchez-Lasheras F,
López-Vázquez JA, De Cos-Juez FJ, Calvo-Rolle JL, et al.
Student performance prediction applying missing data
imputation in electrical engineering studies degree. In
Martínez-Álvarez F, Troncoso A, Quintián H, Corchado E, eds.
Hybrid Artificial Intelligence Systems. 11th International
Conference, HAIS 2016. Switzerland: Springer International
Publishing; 2016. p. 126-35.
... The use of an overall mean to compare above or below this mark is helpful to reflect the performance of five-different groups of test-takers that revealed us which specialties had the students with the best scores. The ENARM global mean for the minimum score (from 2012 to 2019) was 72.572 a score above the previous observation made in a study by de la Garza-Aguilar 6 ; this number is also above the mean for the past 7 years for the test known as MIR (Medical Intern Resident) in Spain with 57.29 reported by the Ministry of Health 21,22 . Our findings showed that the surgical specialties whose applicants achieve scores above this mean were ophthalmology, otorhinolaryngology, and general surgery. ...
... Si bien existen algunas críticas acerca del formato de la prueba [3,4], así como de su utilidad para medir los conocimientos en medicina de los candidatos [5], no es menos cierto que esta prueba, desde el punto de vista psicométrico y de contenido de las preguntas, presenta un buen rendimiento [6][7][8][9][10][11]. ...
Article
Full-text available
Introducción. En España, el acceso a la formación médica especializada se hace a través de la prueba MIR. Esta prueba la convocan anualmente desde 1978 los Ministerios de Sanidad, y Educación y Formación Profesional. Así, teniendo en cuenta tanto el resultado que se obtiene en la prueba como el baremo promedio del grado, se asigna un número de orden a los médicos que quieren acceder a una plaza de formación como especialistas. El objetivo de este trabajo es el análisis de los resultados obtenidos por los médicos que se presentaron a la prueba de 2021 en función de su baremo académico y de si son españoles o extranjeros. Materiales y métodos. Para esta investigación se ha hecho uso de la información oficial pública relativa al baremo académico, la nacionalidad y los resultados obtenidos en la prueba por todos los aspirantes presentados a ella. Resultados. Entre los 5.000 primeros números de orden se situaron el 90,61% de los médicos presentados con un baremo de sobresaliente, el 79,59% de los baremos de notable igual o superior a 8, el 42,21% de los baremos de notable inferior a 8 y únicamente un 7,16% de los médicos con baremo de aprobado. Conclusiones. Este estudio confirma que existe una relación directa entre el baremo de los médicos aspirantes a una plaza de formación médica especializada y el resultado que obtienen en la prueba MIR, más allá de la ponderación de éste sobre la nota final de la prueba MIR
... En ella se representa la probabilidad que tiene un alumno de responder correctamente a una pregunta en función de su nivel de conocimiento relativo al resto de individuos de la población objeto de estudio. La curva representada corresponde al modelo de dos parámetros de la teoría de respuesta al ítem (TRI) [2]. ...
... The use of an overall mean to compare above or below this mark is helpful to reflect the performance of eight different groups of test-takers that revealed to us which specialities had the students with the best scores. The ENARM global mean for the minimum score (from 2012 to 2019) was 69.133, a score above the previous observation made in a study by de la Garza-Aguilar [4]; this number is also above the mean for the last seven years for the test known as MIR (Medical Intern Resident) in Spain with 57.29 reported by the Ministry of Health [28,29]. Our findings showed that the clinical specialities whose applicants achieved scores above this mean were Internal medicine, Anesthesiology, Pediatrics, and Pneumology. ...
Article
Full-text available
Objectives: Because there is heterogeneity in the ENARM scores obtained between Mexicans and International medical graduates (IMG) in the eight clinical specialities with direct-entry (Anesthesiology, and Emergency Medicine. Geriatrics, Internal Medicine, Medical Genetics, Pediatrics, Pneumology, Psychiatry), we aimed to evaluate those scores. We hypothesized that Mexican test-takers achieve higher scores than IMG with significant growth trends in their exam scores. Methods: This study was cross-sectional, used historical data from the annual public report of the ENARM for eight years (2012 to 2019). We compare the minimum (MinSco) and maximum (MaxSco) scores of each speciality using ANOVA. Mexican versus IMG scores were evaluated with an independent student t-test, trends with Spearman’s correlation coefficient, and a 5-years forecasting trend. Results: There was a significant difference among the MinSco for five surgical specialities; F (7, 115) = 26.611, p = < .001; the global mean of MinSco was 69.133; specialities above this mean were Internal Medicine, Anesthesiology, Pediatrics, and Pneumology. The global mean for MaxSco was 79.422; five specialities were above: Internal Medicine, Pneumology, Geriatrics, Psychiatry, and Medical Genetics. We did not find a significant difference in the MinSco between Mexicans and IMG, but a significant difference was found in the MaxSco between both groups. Conclusions: ENARM represents a market of high-performance test-takers across the clinical specialities. Mexicans and IMG achieved similar entrance scores, but Mexicans showed a higher MaxSco over IMG in all clinical specialities.
... The use of an overall mean to compare above or below this mark is helpful to reflect the performance of five-different groups of test-takers that revealed us which specialties had the students with the best scores. The ENARM global mean for the minimum score (from 2012 to 2019) was 72.572 a score above the previous observation made in a study by de la Garza-Aguilar 6 ; this number is also above the mean for the past 7 years for the test known as MIR (Medical Intern Resident) in Spain with 57.29 reported by the Ministry of Health 21,22 . Our findings showed that the surgical specialties whose applicants achieve scores above this mean were ophthalmology, otorhinolaryngology, and general surgery. ...
Article
Full-text available
Introduction: We aimed to compare the performance at the Examen Nacional de Aspirantes a Residencias Médicas (ENARM) of the five direct-entry surgical specialties, and between Mexicans and International medical graduates (IMG). Methods: This study was cross-sectional, used historical data from the annual public report of the ENARM during 8 years (2012-2019). We compare the minimum (MinSco) and maximum (MaxSco) scores of each specialty using ANOVA. Mexican versus IMG scores were evaluated with independent student t-test, trends with Spearman's correlation coefficient and a 5-years forecasting trend. Results: There was a significant difference among the MinSco for five surgical specialties; F (4, 78) = 24.586, p ≤ 0.001; the global mean of MinSco was 72.572; specialties above this mean were ophthalmology, otorhinolaryngology, and general surgery. The global mean for MaxSco was 81.559, two specialties were above: ophthalmology, and general surgery. We did not find a significant difference in the MinSco between Mexicans and IMG, but significance was found in the MaxSco between both groups. Conclusions: ENARM represents a market of high-performance test-takers across the surgical specialties. Mexicans and IMG achieved similar entrance scores, but Mexicans showed a higher MaxSco over IMG in all surgical specialties.
Article
The examination for the Medical Intern Resident (MIR) is a multiple-choice test aimed at ranking candidates for specialized medical training positions in Spain. The objective of this study is to provide an objective analysis of this test in its 2022 edition as an evaluative tool for discrimination, with a particular focus on the field of radiology and nuclear medicine. The clinical cases associated with radiology images or nuclear medicine pose greater difficulty compared to the rest of the MIR exam questions. Out of the 14 questions related to radiological or nuclear medicine images, six of them exhibit high difficulty, and only 5 out of the 14 questions demonstrate good or excellent discriminatory capacity. While the MIR exam proves to be an excellent discriminatory tool in psychometric terms, the image-related questions show a significant potential for improvement. In order for the image-associated question to exhibit appropriate discrimination, it is essential to minimize irrelevant information, ensure that it complements the clinical information provided in the text without contradicting it, represent the characteristic imaging finding of the disease, utilize the appropriate imaging modality, maintain a moderate difficulty level for the questions, and ensure that the distractors are clearly false.
Article
Full-text available
Resumen Introducción: El examen de acceso a la especialización médica en España, conocido como prueba MIR, se convoca anualmente desde 1978 y se realiza simultáneamente en diversas sedes distribuidas por toda España. El acceso a las distintas especialidades médicas está condicionado por el baremo académico o puntaje conseguido en el grado de Medicina, entendiendo como tal el promedio de las calificaciones obtenidas durante la carrera en medicina, así como por el resultado de dicha prueba. Objetivo: El objetivo del presente trabajo fue el análisis los resultados de los médicos presentados a las pruebas MIR de 2019 y 2020, en función de su puntaje. Método: Para este estudio se hizo uso de la información publicada por el Ministerio de Sanidad relativa a los resultados definitivos de las convocatorias de la prueba MIR de 2019 y 2020. Dicha información incluye la nota media del baremo académico o puntaje de todos los médicos que realizaron el examen, así como el número de orden obtenido en la prueba. Resultados: Aunque la nota media del expediente de los opositores tiene un peso únicamente del 10% sobre la puntuación que da lugar a su ordenación en la prueba MIR, existe una correlación importante entre el puntaje y el número de orden obtenido que permite escoger entre las diferentes plazas de formación sanitaria especializada ofertadas en la convocatoria. Conclusiones: En la mayor parte de los casos, los individuos que obtuvieron una mejor nota media en el grado de Medicina son los que obtienen los mejores resultados en la prueba MIR. Esto se debe a un mayor nivel de conocimientos de partida al inicio de la preparación de la prueba, junto con un mejor aprovechamiento de dicho tiempo de preparación, ligado a su capacidad y hábito de trabajo, entrenados previamente a lo largo de los seis cursos del grado.
Article
Full-text available
Background and Objectives: The aim of the present research is to study the questions used in the 2018 MIR exam (a test that allows access to specialized medical training in Spain), describe their psychometric properties, and evaluate their quality. Materials and Methods: This analysis is performed with the help of classical test theory (CTT) and item response theory (IRT). The answers given to the test questions by a total of 3868 physicians are analyzed. Results: According to CTT, the average difficulty index for all of the test questions was 0.629, which falls into the acceptable category. The average difficulty index with correction for random effects was 0.515, which corresponds to a value within the optimal range. The mean discrimination index was 0.277, which is in the good category, while the mean point biserial correlation coefficient, with a value of 0.275 fits in the regular category. The values of difficulty and discrimination calculated according to the model of two parameters of the IRT seem adequate with average values of −0.389 and 0.677. The Cronbach alpha score obtained for the overall test was 0.944. This value is considered as very good. Conclusions: A decrease was observed in the average values of discrimination in the last three calls, which may be related to the greater proportion of Spanish graduates that take the exam in the same year of finalization of their studies in Medicine.
Article
Background and objective Psychometrics is a simple, intuitive approach used in educational research and in multiple-choice questionnaires. Since 2009, the competitive examination through which access to residency programs in Spain is determined (MIR) has included questions related to radiological images. The objective of this paper is to show the results of the psychometric analysis of these questions with the aim of comparing their degree of difficulty, discriminative capacity, and internal structure with respect to those of the other questions on the examination. Material and methods We analyzed all questions on the examination since 2009, classifying them as clinical cases with and without radiological images, clinical cases with and without non-radiological images, multiple choice questions, and negative questions. We used classical test theory and item response theory to assess the difficulty and degree of discrimination of the questions. Results Of 225 questions, between 11% and 15% of the questions included in the examinations were associated with images. The questions associated with radiological images were more difficult (corrected difficulty index, 0.51) and had worse discriminative capacity. The increased difficulty of radiological questions was associated with worse discriminative capacity, especially if the clinical information provided was inadequate or if the clinical information was contrary to the radiological concept or if there had never been any questions about the concept in previoous MIR examinations. Conclusions To equalize the standards of the MIR examination, it is necessary to maintain an appropriate structure in devising radiology questions, with terms from the clinical context, appropriate use of distracters, and a lower level of difficulty, which could be achieved by using radiological images with typical radiological findings.
Article
Full-text available
Classical test theory (CTT) and item response theory (IRT) constitute the two main paradigms in psychometrics. Although the foundations of IRT were already introduced in the middle of the twentieth century and despite the numerous publications since which show the theoretical superiority of IRT over CTT, the classical approach is still, by far, the most commonly used for educational measurement, not the least in the field of medical education. In this article, I revise the fundamentals and basic concepts of both psychometric approaches and highlight the advantages that IRT models may offer in the context of educational assessment in the health sciences. However, based on an evaluation of the assumptions underlying the most commonly used IRT models, it is argued that these assumptions are significantly discrepant with the complex reality often encountered in educational measurement. As a result, it is concluded that, in order to take proper advantage of the IRT framework, often more complex models, beyond the traditionally known, must be considered, including multidimensional models and/or models that take into account local dependencies among test items.
Article
Full-text available
Resumen Objetivos Estudiar las pruebas de acceso a la Formación Sanitaria Especializada de las convocatorias 2005 y 2006. Se pretende evaluar la calidad de los exámenes y explorar las variables de los aspirantes que permiten predecir la puntuación final. Métodos El Ministerio de Sanidad y Consumo proporcionó las respuestas de los 23.136 aspirantes de ambas convocatorias, así como variables demográficas y el valor baremado de su expediente académico. Resultados Se realiza un análisis de ítems a partir de las respuestas de los aspirantes para así evaluar la fiabilidad de las pruebas. Además, se calculan modelos de regresión lineal para estudiar qué variables permiten predecir la puntuación final de un aspirante. Conclusiones Las pruebas de acceso a la Formación Sanitaria Especializada tienen una excelente calidad psicométrica. Serían optimizables reduciendo el número de alternativas y eliminando algunos ítems más a posteriori. Por último, los alumnos españoles son los que mejor nota media ajustada logran.
Article
Full-text available
Akaike's framework for thinking about model selection in terms of the goal of predictive accuracy and his criterion for model selection have important philosophical implica- tions. Scientists often test models whose truth values they already know, and they often decline to reject models that they know full well are false. Instrumentalism helps explain this pervasive feature of scientific practice, and Akaike's framework helps provide in- strumentalism with the epistemology it needs. Akaike's criterion for model selection also throws light on the role of parsimony considerations in hypothesis evaluation. I explain the basic ideas behind Akaike's framework and criterion; several biological examples, including the use of maximum likelihood methods in phylogenetic inference, are considered.
Article
This article proposes a new missing data imputation method based on genetic algorithms. The algorithm presented in this paper is a useful tool for the completion of missing data in knowledge and skills tests. This algorithm uses both Bayesian and Akaike’s information criterions as fitness functions and applies them to the classical item response theory models of one, two and three parameters. The results obtained by this new algorithm have been compared with those achieved by means of the Multivariate Imputation by Chained Equations (MICE) algorithm. For all the missing data ratios checked, the average incorrect imputation percentages obtained with the GA algorithm were, statistically, significantly lower than the results obtained with the MICE method. The most favorable frameworks for the use of the algorithm developed in the present research are those questionnaires in which missing answers would be considered as missing completely at random (MCAR). In other words, those questionnaires in which the same questions are present for all the examinees, but not necessarily in the same order.
Conference Paper
Nowadays the student performance and its evaluation is a challenge in general terms. Frequently, the students’ scores of a specific curriculum have several fails due to different reasons. In this context, the lack of data of any of student scores adversely affects any future analysis to be done for achieving conclusions. When this occurs, a data imputation process must be performed in order to substitute the data that is missing for estimated values. This paper presents a comparison between two data imputation methods developed by the authors in previous researches, the Adaptive Assignation Algorithm (AAA) based on Multivariate Adaptive Regression Splines (MARS) and other technique called Multivariate Imputation by Chained Equations (MICE). The results obtained demonstrate that the proposed methods allow good results, specially the AAA algorithm.
Book
A revision will be coming out in the next few months.
Article
This paper discusses the estimation of a population proportion in the presence of missing data and using auxiliary information at the estimation stage. A general class of estimators, which make efficient use of the available information, are proposed. Some theoretical properties of the proposed estimators are analyzed, and they allow us to find the optimal value for the proposed class in the sense of minimal variance. The optimal estimator is thus more efficient than the customary estimator. Results derived from a simulation study indicate that the proposed optimal estimator gives desirable results in comparison to alternative estimators.