Content uploaded by Jose Manuel Magallanes
Author content
All content in this area was uploaded by Jose Manuel Magallanes on Jan 26, 2016
Content may be subject to copyright.
1
José Manuel Magallanes
Colaboradores
Luis Alberto Mas Castillo
Noam Valentín López Villanes
Mariela del Pilar Mosqueira Cabrera
Lorena Lévano Gavidia
TOUR GUÍADO POR LA
ESTADÍSTICA BÁSICA
Conceptos, mapas, videos y más
2
Tour guiado por la estadística: conceptos, vídeos, mapas y más
3
Lima, Perú
Enero 2012
José Manuel Magallanes
Pontificia Universidad Católica del Perú
Colaboradores
Luis Alberto Mas Castillo
Noam Valentín López Villanes
Mariela del Pilar Mosqueira Cabrera
Lorena Lévano Gavidia
TOUR GUÍADO POR LA
ESTADÍSTICA BÁSICA
Conceptos, mapas, videos y más
4
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Tour guiado
Por la estadística
conceptos, vídeos, mapas y más
© Copyrigth 2012
Pontificia Universidad Católica del Perú y J. M. Magallanes
Pontificia Universidad Católica del Perú
Av. Universitaria 1801, San Miguel, Lima 32, Perú
Teléfono (511) 626-2000
www.pucp.edu.pe
Todos los derechos reservados.
Prohibida su reproducción parcial o
Total del contenido de este libro
Sin autorización por escrito de los
propietarios del Copyright.
Primera edición :
Lima, febrero de 2012
ISBN: XXXXXXXXX
Hecho el Depósito Legal en la Biblioteca Nacional del Perú
Nº XXXXXX
Diseño de carátula: REP S. A. C.
Diagramación: REP S. A. C.
Impreso en Perú por:
REP SAC
Cervantes 485-502, San Isidro
Lima 27,Perú
Teléfonos: 421-5712 / 999-658531
jcandiotti@revistasespecializadas.com
9786124057557
5
Agradecimientos
Al Departamento de Ciencias Sociales y
al Centro de Investigaciones Sociales, Económicas,
Políticas y Antropológicas (CISEPA),
por su apoyo en la gestión de este proyecto.
6
Tour guiado por la estadística: conceptos, vídeos, mapas y más
7
Presentación ....................................................................................................9
introducción ..................................................................................................11
estadística y metodología de la investigación ............................................. 13
análisis exPloratorio:
¿cómo están los datos con los que vamos a trabajar? .............................. 17
1. Paso1:Identicacióndelaescaladelavariable ........................................... 17
1.1 Escalasparavariablescualitativas: ....................................................... 17
1.2 Escalasparavariablescuantitativas: ..................................................... 19
2. Paso2:Detallesaconsiderarconlasescalas ................................................. 20
2.1. Codicación .......................................................................................... 20
2.2. Transformación ..................................................................................... 21 ..
2.2.1Organizarintervalos .............................................................................. 22
2.2.2. Cambiodemonotonía .............................................................. 22
3. Paso3:Cálculodelvalorrepresentativoylaevaluacióndesucalidad ......... 23
3.1. Paradatosenescalanominal ................................................................. 24
3.2. Paradatosenescalaordinal .................................................................. 26
3.3. Paradatosenescalanumérica ............................................................... 27
3.3.1. Dispersión ................................................................................. 30
3.3.2. Asimetría .................................................................................. 31
3.3.3. Curtosis ..................................................................................... 33
Ejercicios ...................................................................................................36
Contenido
8
Tour guiado por la estadística: conceptos, vídeos, mapas y más
análisis inferencial:
¿qué información Podemos obtener de los datos? ......................................39
4. Inferenciaunivariada ...................................................................................... 39
4.1. Paradatoscategóricas: .......................................................................... 40
4.1.1. Pruebabinomial .........................................................................40
4.1.2. Pruebachi-cuadrado ................................................................. 42
4.2. Paradatosnuméricos: ........................................................................... 43
4.2.1. Pruebatparaunamuestra ........................................................ 45
4.2.2. Pruebasalternativas .................................................................. 46
5. Inferenciabivariada ........................................................................................ 48
5.1. Relaciónnumérica-numérica ................................................................ 48
5.1.1. RdePearson ............................................................................. 48
5.1.2. RhodeSpearman ......................................................................51
5.1.3. Pruebatparamuestrasrelacionadas ......................................... 52
5.2. Relacióncategórica-categórica ............................................................. 53
5.2.1. Chi-cuadradodePearson. ......................................................... 53
5.2.2. Pruebasparanominales:solointensidad .................................. 54
5.2.3. Pruebasparaordinales:intensidadysentido ............................ 54
5.3. Relacióncategórica-tumérica ................................................................ 55
5.3.1. Pruebatparamuestrasindependientes ..................................... 55
5.3.2. Pruebaf(ANOVAdeunfactor) ................................................57
Resumen ..................................................................................................60
Ejercicios ..................................................................................................61
solucionarios ..........................................................................................63
links ..........................................................................................67
9
Presentación
El presente material se ha elaborado gracias al nanciamiento obtenido del
fondo concursable 2011 del Vicerrectorado Administrativo de la Ponticia
Universidad Católica del Perú. El objetivo de este material ha sido
acercar, con un lenguaje sencillo, diversos conceptos estadísticos básicos a
estudiantes de Ciencias Sociales y Humanidades dentro y fuera de la PUCP.
Para esto, se ha tenido como estrategia diseñar un mapa mental web de la
estadística básica, preparar videos para cada rama, y preparar un manual
impreso y una wiki que los acompañen.
Cada parte del trabajo estuvo en manos de un alumno de la especialidad de
Ciencia Política y Gobierno y los jefes de práctica que he tenido (quienes son
parte del grupo de investigación del Laboratorio de Computación Social), lo
que explica el estilo directo y sencillo de explicación que se aleja de la mayoría
de materiales de estadística existentes. Este tour representa en sí la ruta que
mis alumnos crearon para aprobar el curso de Estadística para el Análisis
Político 1 (el que tiene cierta fama por su exigencia en nuestra especialidad).
Se notará que hay ausencia de bibliografía y es que este trabajo lo han hecho
utilizando sus notas de clase que aún guardan con nostalgia y que revivieron
en este proyecto. Tuvimos además el agrado de contar con la revisión del doctor
Jorge Aragón, profesor de nuestra especialidad en temas metodológicos. Sin
embargo, cualquier error que aún exista es completamente atribuible a mi
falta de vericación. En todo caso, esperamos sus recomendaciones a la
dirección electrónica estadística.virtual@pucp.edu.pe puesto que, el objetivo
de este material es que sea un material vivo, que aunque no pueda fácilmente
modicarse en la versión impresa, si lo sea en la wiki y los demás componentes.
Espero que disfruten este aporte a su entrenamiento estadístico que redunde
en su desempeño académico y laboral.
Prof. José Manuel Magallanes
Director del CISEPA
10
Tour guiado por la estadística: conceptos, vídeos, mapas y más
11
Introducción
1 También llamada PASW (Predictive Analytics SoftWare) desde 2009.
2 Los comandos y videos se pueden ver desde el mapa mental del material (ver pagina 67).
La estadística es un área de estudio que cuenta con diversas técnicas y
métodos que sirven de apoyo a distintas disciplinas interesadas en analizar
la regularidad de sus objetos de estudio. Es de suma utilidad para la
construcción de modelos que permiten vericar hipótesis y además, desde
una perspectiva aplicada, apoyar en la toma de decisiones. El conocimiento
matemático no es requisito obligatorio, pero sí el tiempo suciente para
practicar con los programas y ejemplos que hemos preparado.
En esta ocasión utilizaremos dos programas: Statistical Package for the
Social Sciences (SPSS)1 y R que serán nuestras principales herramientas
para el análisis estadístico, las cuales se harán cargo de los cálculos
matemáticos y de la construcción de los reportes numéricos y grácos.2
Los contenidos se presentan en dos partes. La primera de ellas aborda lo
que conocemos como análisis exploratorio. En esta sección aclararemos
los conceptos de escala, codicación, recodicación, estadísticos y medidas
de representación. La segunda unidad hace una breve introducción a la
inferencia, tanto de forma univariada como bivariada.
Para el desarrollo de los distintos procedimientos estadísticos que abarca esta
guía, se empleará una data especialmente preparada (cticia). Es altamente
recomendable que tengas tus propios datos para que trates de replicar lo que
te mostremos. Asimismo, para que el aprendizaje resulte más ilustrativo se
acompaña el contenido sobre estadística con la historia de Melissa Biondi, un
personaje que nos ayuda a recrear el proceso de una investigación, desde la
creación de una base de datos hasta las pruebas de hipótesis.
Es importante recordarte que este no es un material de autoaprendizaje, sino
un material de apoyo a tus cursos de la Universidad.
12
Tour guiado por la estadística: conceptos, vídeos, mapas y más
El presente material se ha elaborado gracias al nanciamiento obtenido del
fondo concursable 2011 del Vicerrectorado Administrativo de la Ponticia
Universidad Católica del Perú. El objetivo de este material ha sido
acercar, con un lenguaje sencillo, diversos conceptos estadísticos básicos a
estudiantes de Ciencias Sociales y Humanidades dentro y fuera de la PUCP.
Para esto, se ha tenido como estrategia diseñar un mapa mental web de la
estadística básica, preparar videos para cada rama, y preparar un manual
impreso y una wiki que los acompañen.
Cada parte del trabajo estuvo en manos de un alumno de la especialidad de
Ciencia Política y Gobierno y los jefes de práctica que he tenido (quienes son
parte del grupo de investigación del Laboratorio de Computación Social), lo
que explica el estilo directo y sencillo de explicación que se aleja de la mayoría
de materiales de estadística existentes. Este tour representa en sí la ruta que
mis alumnos crearon para aprobar el curso de Estadística para el Análisis
Político 1 (el que tiene cierta fama por su exigencia en nuestra especialidad).
Se notará que hay ausencia de bibliografía y es que este trabajo lo han hecho
utilizando sus notas de clase que aún guardan con nostalgia y que revivieron
en este proyecto. Tuvimos además el agrado de contar con la revisión del doctor
Jorge Aragón, profesor de nuestra especialidad en temas metodológicos. Sin
embargo, cualquier error que aún exista es completamente atribuible a mi
falta de vericación. En todo caso, esperamos sus recomendaciones a la
dirección electrónica estadística.virtual@pucp.edu.pe puesto que, el objetivo
de este material es que sea un material vivo, que aunque no pueda fácilmente
modicarse en la versión impresa, si lo sea en la wiki y los demás componentes.
Espero que disfruten este aporte a su entrenamiento estadístico que redunde
en su desempeño académico y laboral.
Prof. José Manuel Magallanes
Director del CISEPA
13
Elobjetivode este materialesayudarte aprobarhipótesis simples conla
estadística,temaqueesdeconsiderablerelevanciadentrodelprocesodela
metodologíadelainvestigación. Llegar a probarunahipótesisessencillo
conlaayudadelosprogramasestadísticos, pero existe una seriedepasos
previospara lograr laformulación de unahipótesis adecuada.Esospasos
previosconstituyenelesquemabásicodecualquierinvestigación.
ESTADÍSTICA Y METODOLOGÍA
DE LA INVESTIGACIÓN
Melissa Biondi ha obtenido el puesto de asistente de investigación en la Dirección
Psicopedagógica de Estudios Generales Letras. Este puesto recientemente creado
tiene como función indagar sobre el rendimiento académico de los estudiantes
de esta facultad. Cuando Melissa empezó su labor, se propuso trabajar con un
tamaño grande de casos, de manera que le permitiera inferir a toda la población
de Estudios Generales Letras.
Su proyecto fue aceptado y por tres meses tuvo la paciencia y el empeño de
recopilar información sobre 99 estudiantes escogidos al azar que ingresaron el
2010. El lapso de tiempo que analizó fue de 2 años –4 semestres académicos–
del 2010-1 al 2011-2. La base de datos que construyó sobre los 99 estudiantes
tuvo información sobre los puntajes del examen de admisión y del examen de
admitidos, las notas en todos los cursos, sus edades, la asistencia a clases, las
escalas de pago, el nivel de inglés, si les gustaba la carrera o no y si al final de los
dos semestres deseaban cambiarse a Estudios Generales Ciencias. Acompaña a
Melissa en esta aventura y aprende junto con ella.
14
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Generalmente,lainvestigación sepromuevecuandoseencuentranquelas
explicaciones aceptadas no son satisfactorias. La estadística descriptiva
esimportanteen este momentopuesnosinforma lasituacióndediversos
indicadores (sociales, psicológicos, políticos, educativos, etc.). Si el
indicadordenuestrointerésnosecomportacomoseesperaba,comenzamos
aformularlapreguntadeinvestigación;esdecir,buscamosunaexplicación
aloqueestásucediendo.
Laformulacióndeunabuenapreguntadeinvestigaciónesprimordial,dado
queorientaeltrabajodel investigador.Enelladeberánestar incluidos los
conceptosdeinterésqueluegoseránteóricamentesustentadosenelmarco
teórico.Unavezdelimitado eltemadeinvestigacióndemanerateóricase
podráplantearlahipótesis,queesbásicamente,larespuestaalapregunta
inicialmenteformulada. Enla hipótesis deben estar claramente expuestos
losconceptosdeinterésylarelaciónexistenteentreellos.Apartirdeallí
soloquedacontrastartalhipótesisconloquesucedeenlarealidad.Hecho
el análisis respectivo se podrá reportar si la hipótesis era sostenible y se
redactaránlasconclusiones.
Dentrodelametodologíadeinvestigacióndebemossercapacesdediferenciar
algunostérminosclavecomo:concepto,denición,variable,casoyvalor.
Elconceptoesunmodelo mental (abstracción)quehacereferenciaaalgo
existentealotorgarleunnombrequepermitaidenticarlo.Ladenición,por
otrolado,eslaexplicitacióndelconceptoquepermitequeestesediferencie
deloyaconocido.Deahíquelavariableessimplementeunamaneraenque
elconceptosemaniestaenelmundoyquepuedetomardiversosvaloreso
estados.Elvalorseobtienemediantelamediciónoelconteoyelestadose
obtienemediantelaobservaciónyclasicación.
Porejemplo,comparemos‘democracia’y‘temperatura’.Ambosson‘cosas’
diferentes que han ameritado que les demos nombre (concepto), pero el
concepto‘temperatura’yasepuededenirunívocamente(conceptualización
clausurada)comoelpromediodeenergíacinéticaenlamateria;sinembargo,
elconcepto‘democracia’noesunconceptoclausurado,porloquesesiguen
admitiendodiversasdeniciones.Ladeniciónde temperaturapermiteque
15
sediseñeuninstrumentoconableyválidoparasumedición(termómetro)y
cuyosresultados(‘niveldetemperatura’)sondatosqueexpresansunaturaleza
de‘variable’2quese expresa a travésde valores (en estecasonuméricos).
Las deniciones de democracia promueven diversas maneras de ‘medirla’,
cadainstrumentotieneunamayoromenorconabilidadyvalidez.Deahí
queesamediciónpresenta la variable ‘nivelde democracia’a vecescomo
unvaloryotrascomounestado.Enocasiones,el‘niveldedemocracia’ se
conocerámedianteotrasvariables3(‘niveldejusticia’,‘niveldelibertad’,etc.).
Porejemplo,larevistaTheEconomisttieneunadenicióntaldedemocracia
que usa las variables ‘proceso electoral y pluralismo’, ‘libertades civiles’,
‘funcionamientorealdelgobierno’,‘participaciónpolítica’y‘culturapolítica’
queayudanaconstruirlavariable‘niveldedemocracia’.Elvaloroestadode
lavariablesiemprecorrespondeaalgunaunidaddeestudio4:latemperatura
esunavariabledelaunidaddeestudio‘persona’,porloquehabráunvalor
porpersona.Cuandotengasuntamañoconsiderabledeunidadesdeestudioy
valoresporvariablecomenzaremoselanálisisestadístico.
1 También llamada PASW (Predictive Analytics SoftWare) desde 2009.
2 Para diferenciarlo de ‘constante’.
3 Cuando este sea el caso, estaremos frente a una variable latente, es decir, aquella que se mide
mediante otras variables observadas (no latentes). De ahí que, según la definición por la que optemos
habrá que buscar o recolectar varios valores.
Melissa Biondi no tenía una pregunta de investigación a la cual responder con
una hipótesis, tenía varias: ¿existe diferencia según la escala de pago en los cursos
de matemática? ¿Los que tienen buenas calificaciones en los cursos de filosofía
también tienen buen puntaje en los cursos de historia? ¿Los que tienen bajo
nivel de inglés son los que obtuvieron bajo puntaje en el curso de Quechua? ¿Las
mujeres asisten más a clases que los hombres? De manera que su proyecto era
más ambicioso, quería encontrar diferencias y correlaciones entre las variables que
ella planteaba con el fin de brindar asesoría personalizada o talleres de estudio a
los estudiantes que lo requerían, y de la misma forma, proponer algún mecanismo
de incentivos para que los que tenían buenas calificaciones se sigan esforzando.
Estadística y metodología de la investigación
16
Tour guiado por la estadística: conceptos, vídeos, mapas y más
17
Explorarsignicaconocerelcomportamientodelasvariablesdelasunidades
deestudio.Paraconocerestecomportamientosetienenpasossencillos,pero
cadaunoamerita mucha pacienciayreexión,los cualesdesarrollamosa
continuación.
1. PASO 1: IDENTIFICACIÓN DE LA ESCALA DE LA VARIABLE
Lastécnicasestadísticasseaplicansegúnlaescalaenqueseencuentrenlos
datosyestosdatossonovaloresoestadosdelavariableparacadaunidad
deestudio.Lacorrectaidenticacióndelaescalaenlaquesepresentanlos
datosesclaveparatodolodemás.
1.1. ESCALAS PARA VARIABLES CUALITATIVAS
Estasvariablespresentandatosqueinformandelosestadosdelasunidades
de estudio. Estos estados se organizan en dos escalas: escala nominal y
escalaordinal.
En la escala nominal, sus estados (también llamados modalidades o
categorías)no presentan ordenentre sí. Unejemplopuede serlavariable
‘signodelzodiaco’(quetendrárespuestascomo‘Sagitario’,‘Aries’,etc.),o
‘medioqueutilizaparainformarse’(conrespuestascomo‘Internet’,‘radio’,
‘televisión’, etc.). Como vemos, los estados de estas variables no tienen
ordenentresí.Deacuerdoalnúmerodeestados,laescalanominalpuedeser:
dicotómica(doscategoríasuopciones)opolitómica(másdedoscategorías).
Losgrácosbásicosquesepuedenrealizarparalasvariablesnominalesson
ANÁLISIS EXPLORATORIO:
¿CÓMO ESTÁN LOS DATOS CON
LOS QUE VAMOS A TRABAJAR?
5 Gráficos explicados en la página 20
18
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Valores extremos
25%
25%
25%
25%
Valor máximo
Mediana
Valor mínimo
Valores extremos
Cuartil inferior (Q1)
Cuartil superior (Q3)
Gráfico 1. Boxplot o Diagrama de Cajas.
Elaboración propia.
losdiagramasdebarrasylosgrácosdesectores.5Estospermitenvisualizar
demaneraclaralasfrecuenciasdelascategorías/modalidadesdelasvariables
nominales.
Los datos en escala ordinal presentan respuestas que representan estados
ordenados (en niveles), pero entre niveles consecutivos no hay distancia
numérica.Ejemplocomúneslavariable‘niveleducativo’(puedecontener
las categorías ‘primaria completa’, ‘secundaria completa’ y ‘superior
completa’).Paraestetipodedatostambiénsepuedenutilizarlosdiagramas
debarrasylosgrácosdesectores.Peroexisteotrográcoqueresumemejor
unavariableordinalllamadodiagramadecajasoboxplot(Gráco1).Esta
ayudavisualpresentainformaciónsobrelasmedidasdeposición(cuartiles);
esdecir,divide losvalores encuatro partesdonde cadaparte contieneel
25%decasos.Almismotiempo,estegráco,nosdainformaciónsobrela
tendenciacentral,dispersiónysimetríadelosdatosdeestudio.Además,este
grácopermiteidenticarconclaridadcasosquesealejandemanerapoco
usualdelrestodelosdatos,aestasobservacionesselesconocecomovalores
extremosyatípicos.
19
En la base de datos de Melissa, llamada ‘Letras.sav’ se pueden ver todas las
variables que ella ha podido consignar, sus respectivas etiquetas, así como las
respuestas codificadas de sus 99 casos. Ella tiene 15 variables categóricas, 6
nominales y 9 ordinales. La variable ‘código del alumno’ es de tipo cadena (porque
no es número) y permite la identificación de los casos (ver Tabla 1).
1.2. ESCALAS PARA VARIABLES CUANTITATIVAS
En los casos anteriores, hemos hablado de variables que se representan
medianteestadosyahoraabordaremoselestudiodelasvariablescuantitativas.
Cuandohablemosde este tipode variables nos referimosa que susdatos
estánenescalanumérica;6porloqueestamoshaciendoreferenciaalaideade
magnitud.Estavariable,comolasanteriores,tienetambiénsubdivisiones.En
estecasopuedenserdiscretas(conteos)comonúmerodehijos,ocontinuas
(medición),queadmitedecimalescomo,‘peso’,‘altura’,etc.
4 También Unidad de Análisis, Unidad de Información, etc.
5 Gráficos explicados en la página 11.
6 Se suele diferenciar entre escala de intervalo y escala proporcional, pero esa diferencia no la
utilizaremos en este manual.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
Tabla 1. Variables en archivo Letras.sav
Variables categóricas nominales Variables categóricas ordinales
•
Sexo
•
Asistencia al semestre 2010-1
•
Salón de letras
•
Escala económica en el primer semestre
•
¿Le gustó la universidad en su primer año?
•
Asistencia al semestre 2010-2
•
¿Se cambiaría a
ciencias en este primer año?
•
Escala económica en el segundo semestre
•
¿Le gustó la universidad en su segundo año?
•
Asistencia al semestre 2011-1
•
¿Se cambiaría a
ciencias en este segundo año?
•
Escala económica en el tercer semestre
•
Asistencia al semestre 2011-2
•
Escala económica en el cuarto semestre
•
‘Nivel de inglés’
Elaboración propia.
20
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Melissa ha consignado como variables numéricas a las notas de 20 cursos, al
examen de admisión y al examen de admitidos. Estas variables son numéricas
discretas y pueden optar cualquier valor de 0 al 20. Las variables ‘examen de
admisión’ y ‘examen de admitidos’ pueden tomar cualquier valor de 0 a 1000 y
también son discretas.
2. PASO 2: DETALLES A CONSIDERAR CON LAS ESCALAS
Luego de identicar las escalas podremos ver qué tenemos realmente
en nuestros datos. Ahí estaremos conscientes que hay una serie de
procedimientos pendientes antes de hacer un análisis estadístico. Veamos
estostemasacontinuación.
Podemos hacer distinciones que nos permitan identificar las distintas variables; sin
embargo, la escala de las variables no está definida a priori. Esto quiere decir que
la escala no es intrínseca a una variable cuantitativa o cualitativa; sino que, esta es
determinada por el propio investigador. Por ejemplo, el concepto educación, puede
ser medido en las tres escalas que hemos mencionado. Para el caso de la escala
nominal, el concepto ‘educación’
2.1. CODIFICACIÓN
Lacodicaciónesunpasoimportanteparaquelosprogramasinformáticos
traten los datos. Las computadoras son más ecientes en el tratamiento
estadístico si los datos que manejan son números. Por ello, cuando se
abrenyrevisanalgunasbasesdedatosenunacomputadora,todoloquese
observasonnúmeros,auncuandosoloalgunosdeesosnúmerosrepresentan
variablesenescalanuméricaylasdemásrepresentan variables en escala
nominaluordinal.Así,envezde señalar literalmente el nivel educativo,
aparecennúmerosqueindicanalgúnniveldeeducación(1para‘primaria’,
2para‘secundaria’,etc.).
21
Soloenelcasodelasvariablesenescalanumérica,esosnúmerosrepresentan
efectivamente una magnitud. Así, si la variable ‘medio de información
preferido’ tiene el valor 2 para ‘radio’yel 4para ‘televisión’ no implica
quetelevisiónseaeldobleomásimportantequeradio,aquíesosnúmeros
sonsolounasimpleetiquetaqueayudaadiferenciarlasdoscategorías.Es
diferenteenelcasodelavariable‘númerodehijos’,dondelapersonaque
tiene4 hijosefectivamente posee más hijos queaquella quetiene 2y de
hechotieneeldobleporserunamagnitudreal.
Otro uso particular e importante de los códigos son los valores perdidos
(missing values),quesonloscódigosqueseutilizanparaindicarrespuestas
inadecuadas,inapropiadasofaltantes,peroqueseindicandemaneraexplícita.
Estosvalores no seutilizan enlos cálculos, dehecho lacodicación que
tienenpermitequelosprogramasinformáticoslosignoren. Normalmente,
porconvenciónalosvaloresperdidosselesotorgaelvalor‘99’,‘999’ose
dejalaceldavacía.
Melissa ha codificado también las variables categóricas de su data, tanto las
ordinales como las nominales. Por ejemplo, la variable ‘escala económica en el
primer semestre’ es ordinal y va del 1 al 5 donde 1 representa la ‘escala económica
más baja’, 2 la ‘escala baja’, 3 la ‘escala intermedia’, 4 ‘la escala alta’ y 5 ‘la escala
económica más alta’. Para el caso de una nominal, la variable ‘¿le gustó la universidad
en su primer año?’ tiene como etiqueta ‘no le gustó’ al valor 2 y ‘sí le gustó’ al valor 1.
2.2. TRANSFORMACIÓN
Muchasvecesesnecesariorealizarmodicacionesaalgunasvariablesdela
dataconlaqueestamostrabajando.Existendoscasosenlosqueseemplea
lare-codicaciónloscualesseránexplicadosacontinuación.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
22
Tour guiado por la estadística: conceptos, vídeos, mapas y más
2.2.1. Organizar intervalos
Talcomoexplicamosenelapartadoanterior,lasvariablesnuméricas–seanconteos
o mediciones– representan magnitudes reales, y por esto, al hacer el recojo de
informaciónel número deposiblesrespuestaspuedeserbastantealto.Esto trae
algunosproblemascuandoelinvestigadordeseamostrarunatabladefrecuencias,
puestoque,existiríantantaslascomorespuestasdistintas.Poresto,essumamente
útilrecodicarlavariableenintervalosparafacilitarlalecturadelosdatos.
Porejemplo,sienunadatacon1000casoscontamosconlavariable‘ingresos’,
esmuyprobablequeexistantantasrespuestasdistintascomocasos.Entonces,
unaalternativaesrecodicarlavariableenintervalos.Porlogeneral,alvalor
máximodelavariableselerestaelvalormínimoysedivideentreelnúmero
deintervalosqueelinvestigadorcreaconveniente.Deestaformaseobtiene
laamplitudintervalar,lacualpermitecrearintervalosregulares.Enelcaso
delavariableingresos,sinuestromayorvalores5000yelmenorvalores
1000,tomandoencuentaquedeseamoscrear5intervalos,laamplituddecada
intervaloserá800,porloquelosintervalosquedaríandelasiguientemanera:
[1000;1800]
]1800;2600]
]2600;3400]
]3400;4200]
]4200;5000]
Trasello,obtenemoscincointervalosysiacadagrupoleasignásemosalguna
categoríahabríamostransformadolavariablenuméricaaescalaordinal.
2.2.2. Cambio de monotonía
Enmuchoscasos,lasvariablesordinalesquepresentanuestradatanoposeen
lamismamonotonía; esdecir,algunasseencuentrancodicadasdeforma
ascendente y otras tantas de forma descendente. Esto podría parecer un
simpledetalle;sinembargo,esconvenientetrabajarconunasolamonotonía
paraevitarproblemasenloscálculosdepruebasestadísticasoparalalectura
delos resultados. Esademás sumamente importantepara eldesarrollode
23
índices.Porejemplo,lavariableniveleducativopodríaestarcodicadade
lasiguientemanera:Superior‘1’,Secundaria‘2’yPrimaria‘3’.Encambio,
lavariableniveldeingléspodríaestarcodicadadeestaotraforma:básico
‘1’,intermedio‘2’yavanzado‘3’.Talcomopodemosver,laprimera,nivel
educativo,estácodicada de formadescendente,mientrasque la segunda
variable, nivel de inglés se encuentra codicada de forma ascendente.
Para evitar inconvenientes el investigador debería recodicar la primera
variable-niveleducativo-ycambiarsumonotonía.Deestaformalavariable
recodicadaquedaríaasí:Primaria‘1’,Secundaria‘2’ySuperior‘3’.
En la data que ha preparado Melissa se tiene variables ordinales que provienen de
variables numéricas, estas hacen referencia al porcentaje de asistencias a lo semestres,
y hay cuatro de este tipo. Ella ha calculado la asistencia promedio de los cinco cursos
que cada estudiante ha llevado en cada semestre y de acuerdo al porcentaje de
asistencias que ha tenido los ha clasificado en cuatro grupos. No necesariamente los
ha clasificado por intervalos iguales, sino según un criterio relevante para sus intereses
analíticos. De manera que el valor 0 lleva la etiqueta ‘hasta el 80% de inasistencias’,
el 1 ‘hasta el 50% de inasistencias’, el 2 ‘hasta el 20% de inasistencias’ y el 3 ‘hasta
el 3% de inasistencias’. Como en su data no ha habido alguien con más del 80% de
inasistencias no ha tenido que crear un intervalo adicional.
7 Se le conoce a menudo como el ‘valor central’ o ‘medida de centralización’.
3. PASO 3: CÁLCULO DEL VALOR REPRESENTATIVO Y
LA EVALUACIÓN DE SU CALIDAD
Elvalorrepresentativoesclaveenelanálisisestadístico,7puesjustamentese
usanlasmedidasestadísticas(tambiénllamadasestadísticosoestadígrafos)para
resumirenalgúnvalorelcomportamientopromediodelasunidadesdeestudio.
Laimportanciadehaberidenticadolaescalapermitirádecidirquéestadísticose
ledebecalcularalavariabledeinterésydebehaberseentendidolacodicación
encontradayrealizarajustesenlamonotoníadelavariabledesernecesario.Si
estonosevericadoytrabajadoantes,nosedebenhacercálculosaún.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
24
Tour guiado por la estadística: conceptos, vídeos, mapas y más
3.1. PARA DATOS EN ESCALA NOMINAL
Paraestecasoelestadísticoeslamoda.Lamodainformacuáleselestado
delaunidaddeanálisisquemásserepite.Suidenticaciónesmuysencilla
sisehaorganizadoalasvariablesenunatabladefrecuencias,comoseveen
laTabla2.Ahí,paralavariablesexo,senotaquelamodaes‘mujer’,pueses
elestadoqueserepitemásveces(53versus46).
Para ver la calidad representativa de la moda se debe identicar cuánto
representaporcentualmente,ysegúnesodecidimossucalidadrepresentativa.
EnlaTabla2sevequelamodaesmujerperoquees53%,¿esohacequelamoda
searepresentativa?¿Seríamejorsilamodafuerael90%?Esmuyimportante
recordarquecuandoseinformaelvalorrepresentativo,enestecasolamoda,los
receptoresdelainformación(maestros,políticos,padresdefamilia,médicos,
entreotros)necesitansabermásdetallesdeesa‘representatividad’;porlotanto,
encadasituación,segúnlanecesidad,sepodráinterpretarlamodavalorando
alavezestevalorporcentual.Paraelcasodelosresultadoselectoralesbasta
Luego de haber sistematizado su data, Melissa se decide a obtener las primeras
medidas y gráficos de sus variables. Considera esta parte importante porque le
permite entender mejor el comportamiento de los estudiantes de Letras (por
ejemplo si hay más tardones que puntuales, si hay más estudiantes con un nivel
básico del inglés que con uno alto, etc).
Tabla 2. Tabla de frecuencias de la variable ‘sexo’.
Sexo
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
Mujer 53 53.5 53.5 53.5
Válidos Hombre 46 46.5 46.5 100.0
Total 99 100.0 100.0
Elaboración propia.
25
Sexo
Mujer
Hombre
Mujer
60
50
40
30
20
10
0
Hombre
Gráfico 3. Gráfico de sectores de la variable ‘sexo’.
Elaboración propia.
Gráfico 2. Gráfico de barras de la variable ‘sexo’.
Elaboración propia.
quelamodaseamásqueel50%,pero sialguienobtiene49%ylosdemás
competidoresobtienen21%y30%,la normatividadperuanaindicaqueesa
moda,auncuandorepresentaquiénobtuvomásvotos,nocumpleconlacalidad
representativanecesariaparaserdeclaradoPresidente.
Estotambiénsepuedeapreciargrácamenteconlarepresentacióndebarras
(Gráco 2) y el gráco de sectores (Gráco 3). Como veremos ambos
presentanelaportedecadacategoría,altotalloqueayudaacompararlos
valoresentrecategorías.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
26
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Con estos dos gráficos y la tabla de frecuencias, Melissa ya tiene para abrir la
primera parte de su informe sobre la composición de su muestra estudiantil de
Estudios Generales Letras. Habría más mujeres que varones, pero no puede inferir
todavía porque no sabe si la diferencia existente entre ambos grupos es significativa;
es decir, afirmar con un cierto nivel de confianza que esa diferencia se mantiene
en la población.
8 La moda también es calculable aquí, pero se prefiere a la mediana para aprovechar las características
de las variables ordinales.
9 Inter Quartil Range o Rango intercuartil, que es el cuartil 3 menos el cuartil 1.
3.2. PARA DATOS EN ESCALA ORDINAL
El segundo caso en variables categóricas es el de las variables en escala
ordinal,encuyocasoutilizamoselestadísticoconocidocomomediana8para
informarcuáles elvalorrepresentativo.Sisehicieraamanoeste cálculo,
estamedidarequeriríaqueseordenenlos estados demenoramayorpara
obtenerunpuntodecorte(centro)quedependedelacantidaddeelementos
parasucálculo.Porejemplo,sisetiene99elementos,elvalordelelemento
(ocaso)50serálamediana(seeligeestecasoyaquehay49elementosala
izquierdayaladerecha).Entonces,mientrasloselementosesténordenados
segúnsuvalor,lamedianasiempreseráel valor del elementocentral,sin
importarquetanalejadosesténlosdemásvaloresdeeste.
ParaverlacalidadrepresentativadelamedianasecalcularelIQR.9Veamos
unejemplo:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
•
Grupo 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 4 4 4 5 5 5 5 6 6 6
•G
rupo 2 1 1 1 1 1 1 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 6 6 6 6 6
•G
rupo 3 1 2 2 2 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6
q1 md q3
27
Comose aprecia, haytres gruposde datos condiferentes estados10. Cada
grupovadel1al6(estopodríansertresseriesderespuestasenunaescala
Likert), pero cada grupo tiene ‘personas’ (unidades de estudio) que en
conjunto presentan patrones de respuestas diferentes. Ahí señalamos las
medianasconmdycomocuartiles11aq1yq3(lamedianatienelapropiedad
desertambiénelcuartil2).Así,losIQRparacadagruposon2,1y2.Porlo
quelamedianadelgrupo2seríalamejor.
Entodocaso,hayquetenersiempreencuentaquelamedianasiempreindica
elvaloroestadodebajodelcualestáel50%delapoblaciónenlavariable
de análisis. Eso convertiría a la mediana en un estadístico muy robusto,
inclusiveparalosdatosde la escalanumérica,salvoquelamedia,lacual
veremosacontinuación,tengamejoresmedidasdecalidad.
3.3. PARA DATOS EN ESCALA NUMÉRICA
Enlasvariablesnuméricas sepuedencalcularlamodaylamediana,pero
elvalorrepresentativomásapropiadoparaestaescalaeslamedia.12 Esta es
calculadasumando losvalores de cadaunidad deestudio y dividiendoel
resultadoobtenidoporlacantidaddeunidadesdeestudio.Lamediaesmejor
quelamedianaenelsentidoqueutilizatodoslosvaloresparasucálculoyla
medianautilizalasposicionesparasucálculo.Perolamedianasiemprenos
diceelvaloralamitaddeladistribuciónylamedialoharásiesdecalidad.
Enfaticemosestasdiferenciasentremediaymediana,paraelloimaginemos
quetenemoscincogrupos(A,B,C,DyE)con11casos13cadaunocomose
muestraenlaTabla3.
10 Recuerde que estamos en escala ordinal, por lo que no decimos valores.
11 El cuartil uno muestra el valor o estado que a lo más llegaría el 25% más bajo de la población. El
cuartil tres muestra el valor o estado que a lo más llegaría el 75% más bajo de la población, o el
mínimo valor o estado del 25% más alto de la población. Los cuartiles son parte de las medidas de
posición.
12 En este material se hablará solo de la media aritmética, no teniendo en cuenta la media geométrica
ni la media armónica.
13 Unidades de estudio.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
28
Tour guiado por la estadística: conceptos, vídeos, mapas y más
EnlaTabla3podemoscomprobarquelamediasecalculasumandotodos
losvaloresydividiendoporlacantidaddeelementos(enestecasosiempre
sedivideentre11).Enlasprimeras3las(ejemplosA,ByC)cambiael
valormayoroelmenoryseobservaquela mediasealtera.Sinembargo,
lamedianasiguesiendolamisma.Lamediananosealteraporlosvalores,
sinoquedependede laposicióndeloselementosparasucálculo.Eneste
caso,comohay11elementos,elelemento 6 estáalmedio(hay la misma
cantidaddeelementosalaizquierdaquealaderecha).Entonces,mientras
loselementosesténordenados según suvalor,lamedianasiempreseráel
valordel elementocentral, sin importar que tanalejados esténlos demás
valoresdeeste.14Deahíque,ennuestroejemplo,lamedianasimplemente
estátomandoelvalorqueencuentraenelvalordelelemento6.
Como vemos, ambas medidas quieren informar lo mismo (el valor
representativoomedida central deesavariable), perocadauna utiliza un
procesodiferenteparaello.Silamediaymedianacoinciden,quieredecir
14 El ejemplo muestra un número impar para hallar la mediana, pero si el número fuera par se sacaría
el promedio de los dos valores que se encuentran en el centro o se aplicaría alguna otra técnica
alternativa para encontrarlo.
Tabla 3. Comparación media-mediana.
Caso: 1 2 3 4 5 6 7 8 9 10 11 Media Mediana
•
Grupo A 30 30 30 30 30 30 30 30 30 30 31 30.09 30.00
•
Grupo B 30 30 30 30 30 30 30 30 30 30 50 31.82 30.00
•
Grupo C 29 30 30 30 30 30 30 30 30 30 30 29.91 30.00
•
Grupo D 20 20 20 20 20 20 30 30 30 30 30 25.45 20.00
•
Grupo E 20 20 20 20 20 24 30 30 30 30 30 24.91 24.00
Elaboración propia.
29
quepodemosconarqueelvalordeambosrepresentabienaesegrupo.Pero
sisealejancada vezmásquieredecirquehayunsesgo;esdecir,elvalor
representativoobtenidonoesmuyinformativo.Enotraspalabras,encaso
dealejarsenohayunvalorrepresentativoclaroparaesavariable,porloque
apostarporlamedianaesmásrecomendable.
Elhistograma(Gráco4)esunarepresentacióngrácadeladistribución
de los valores en una variable cuantitativa que se muestra en forma de
barras seguidas. Este gráco nos permite describir el comportamiento
deun conjuntode datos;es decir,elhistograma nospermite identicar
cuantasvecesserepiteunmismovalor,asícomolafrecuenciaconlaque
sepresenta.
Gráfico 4. Histograma.
Elaboración propia.
Paradesarrollarconmayorprofundidadelanálisisdelasvariablesnuméricas
losprogramascuentan conotrosestadísticos que nospermitirán hacer un
mejor análisis. Estos otros estadísticos se muestran en la Tabla 4, y nos
serviránjustamenteparaexplicarlacalidaddelamedia.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
30
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Tenerunmejorveredictodelacalidaddelamediarequieremayoranálisisde
ladispersiónylaformadelosdatos,loqueenriqueceyalavezcomplejizael
análisisparaelcasoparticulardelaescalanumérica.Veamoscadaunocon
detalleacontinuación.
3.3.1. Dispersión
La dispersión nos da una señal de que tan representativo puede ser un
valor central. Las principales medidas de dispersión son la varianza (σ2)
yel coeciente devariación.Además,de lavarianzapodemos obtenerla
desviacióntípica(σ)oladesviaciónestándar,queessuraízcuadrada.
Laideadelavarianza(odesviacióntípica)esmuysimple:suvalordesea
mostrar que tan alejados están los datos de la media. Sin embargo, la
varianzanotiene valorestopespor lo quesu uso esmásimportante para
compararlamismavariableendiferentesgrupos.Porejemplo,enelcasode
losvaloresdelaTabla4,silosdatosrepresentasenlasedadesdelgrupoA
de‘cachimbos’deeducación,sielgrupoBtuvieralamismamedia,perosu
varianzafuese1.5,podríamosarmarquelamediadelgrupoBesdemejor
calidadinformativa.Perosinohubieragruposparacompararlosestadígrafos
Tabla 4. Otros estadísticos para datos en escala numérica.
•
Valor representativo Media 19.02
•
Valor representativo alternativo Mediana 19.00
•
Dispersión Desviación típica 1.726
Varianza 2.979
Coeficiente de variación 0.095
Mínimo 16
Máximo 22
•
Forma Asimetría Asimetría -0.105
Error típico de asimetría 0.243
Curtosis Curtosis -0.826
Error típico de curtosis 0.481
Elaboración propia.
31
15 Es decir, si la variable es edad, la varianza indica la dispersión en edades al cuadrado.
16 La media no debe ser cero pues hace no calculable al CV. EL CV es recomendable cuando la variables
o lo puede tomar valores positivos (para evitar cambio de rango).
Asimetría
negativa
A B C
Distribución
simétrica
Asimetría
positiva
dedispersiónde la Tabla3,no podríamos armarconcerteza el nivelde
dispersión.Lomismoocurreconladesviacióntípica,peroestamedidatiene
laventajadeestareslamismaunidaddemedidaquelavariable.15
El coeciente de variación (CV) mejora a la varianza y a la desviación
típicaenquenosolopermitecomparacionesdeladispersiónentrelamisma
variable numérica para diferentes grupos, sino que permite comparar la
dispersiónentrecualquierpardevariablesnuméricas.ElCVeselcociente
entrela desviaciónestándar yla media de la distribución, lo cual da por
resultadouncocientequenotieneunidadesypermitelacomparaciónentre
diferentesdistribuciones.Amayordispersión (mayor desviacióntípica)el
coeciente saldrá mayor.16 El CV tiene la ventaja de oscilar entre 0 y 1,
peroparasumejorlecturadebeconvertirseaporcentajemultiplicándosepor
100%,quedandoenelanalistadenirelmáximoCVaaceptar(generalmente,
0.1o10%).
3.3.2. Asimetría
Laasimetríanosbrindainformacióndeladistribucióndelosvaloresdela
variable,perosoloconcernientesiestetienealgúnsesgo,comosemuestra
enelGráco5.
Gráfico 5. Tipos de simetría.
Elaboración propia.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
32
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Lastrescurvasquemostramosejemplicanlasposiblesdistribucionesquese
puedengenerar.
Laprimeracurva(A)indicaquelosvaloresmayoresdelavariablesonlos
máscomunes o abundantes.A esta forma,como se veen elgráco se le
denomina asimetría negativa o a la izquierda. Puede suceder que en una
muestrarecogidaenunauniversidad la mayoríatengamásde15 años de
educaciónyqueunaminoríatengapocosañosestudiando.Consideraremos
que una variable tiene asimetría negativa cuando el valor obtenido en el
estadígrafodeasimetríalleveunsignonegativo.Comodatoadicional,ante
estasituaciónasimétrica,secumplequelamediaesmenorquelamediana,
yestaesmenorquelamoda.
Lasegundacurva(B)nosmuestraunamayorfrecuenciadelosvaloresmedios
ymenoralosextremos.Enlasdistribucionessimétricas,lamoda,medianay
mediacoinciden.Esunpocodifícilencontrarunadistribuciónperfectamente
simétricaenlavidarealaunquepodemoshipotetizarquesipreguntamoslas
edadesenunsalóndequintoañodesecundaria,lasedadesoscilaránentre15
a17añosenmayormedida,siendootrasedadesdemenorocurrencia.Para
reconocerunavariablecondistribuciónsimétricalamedidadesimetríatiene
quetenderacero.Tenerunadistribuciónnormalnosacercaacontarconuna
distribuciónespecialconocidacomolanormal,laqueesrequisitoparavarias
pruebasestadísticasqueveremosmásadelante.
Laterceracurva(C)nosindicaquelosvaloresmásbajosdelavariableson
losmásabundantes.Estacurvarepresentaloquesedenominatécnicamente
unaasimetríapositiva(losdatosestánsesgadosaladerecha).¿Quétipode
variabletendráestaforma?Quizáunamuestrarecogidadelossueldosdela
genteenundistritodelasierradeAyacuchobajolalíneadepobreza,puesse
esperaqueengeneralhayamuchagentequeganepocoyquelosqueganan
másqueelcomúndelagenteseanmuypocaspersonas.Cuandounavariable
tieneunadistribuciónparecidaaestagura,laasimetríasalemayorquecero.
Además, enlaasimetríapositiva se cumpleque lamediaesmayorquela
mediana,yestaesmayorquelamoda.
33
17 La palabra ‘mucho’ no es concreta y el investigador verá de utilizar pruebas auxiliares para verificar
la Curtosis. En el SPSS, la Curtosis aparece además con su error típico, y se suele tener como regla
básica que sí habrá desvío considerable si el estadístico de Curtosis dividido entre su error típico es
mayor que 2 en valor absoluto (sin importar el signo). Lo mismo se aplica los valores del coeficiente
de asimetría.
A
B
C
Mesocúrtica Leptocúrtica Platicúrtica
3.3.3. Curtosis
Este es otro estadístico que informa sobre la forma de la distribución de
lavariableynos indicaquétan‘aplanada’(oempinada)estálacurvaque
representaesadistribución(Gráco6).Sielvalorsalierapositivoalejándose
muchodelceroestaríamossegurosdequesetratadeunacurvaempinada.
Si el valor saliera negativo alejándose mucho del cero esperaremos una
bastanteplana.17Cuandounacurvaesmuyempinadaselediceleptocúrtica,
cuandoestábien aplanada seledenominaplaticúrtica, y cuandoadquiere
unaformaacampanada(cuandoelvalordelíndicedecurtosisesoseacerca
a0)nosreferimosaunacurvamesocúrtica.
Gráfico 6. Tipos de curtosis.
Elaboración propia
Losestadísticosdeasimetríay curtosis puedenserapreciadosatravésdel
histograma que, como ya habíamos revisado, es el principal gráco para
entender el comportamiento de una variable numérica (Gráco 7). Es
parecidoalgrácodebarras,peroesaplicablesoloalasnuméricaspuesto
quevisualizaladistribución.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
34
Tour guiado por la estadística: conceptos, vídeos, mapas y más
25
20
15
10
5
0
14 16 18 20 22 24
Frecuencia
Edad
Paraanalizarlainformacióndelosestadísticosylagrácapodemosproceder
presentandolamediaquees18.9,indicandolosvaloresmínimoymáximo
(16y22),hastaaquípodemospensarquelamediaesmuybuena,entonces
vemoslagrácaynosdamoscuentadequenopareceunacampana,ymás
bienparecequelaasimetríaesnegativa:lamediaesmenorquelamediana
(seríaalrevéssifuerapositiva).18Paraversiesoesexcesivodividimosla
medidadeasimetríaentresuerrortípicoobteniendo-0.105÷0.243=-0.43.
Comoelvalorabsolutoesmenorque2,concluimosqueesadiferenciaentre
mediaymediananoestansignicativa,porloquelamediasiguesiendo
objetodeinterés(sinosolointeresaríalamediana).Aunquelaasimetríano
seaproblema,podríaserloladispersiónoalejamientodelosdemásvalores
Gráfico 7. Histograma de la variable numérica edad.
Elaboración propia.
18 La media es muy buena cuando el histograma muestra que la distribución de los valores es simétrica,
mesocúrtica y unimodal (una sola moda).
35
Con los estadísticos y los gráficos obtenidos Melissa ya puede saber la
composición etaria de su muestra. De los 99 estudiantes se tiene que en
promedio tienen 19.02 años y que sus edades oscilan entre los 16 y los 22
años. Con las medidas de asimetría y curtosis refuerza la idea de que el valor
representativo de su variable es la media ya que la curva de la distribución no
está tan sesgada ni a la izquierda ni a la derecha, y a su vez, tampoco es tan
alargada ni tan aplanada. Con una distribución centrada y mesocúrtica Melissa
tiene seguridad que la moda, la media y la mediana no están tan alejadas y
que la distribución de la variable edad se acerca a una curva normal.
Para su informe Melissa ha explorado todas las variables y les ha sacado sus
medidas correspondientes. Antes de entrar a la parte de ejercicios anímate a
hacer lo mismo y guíate con los videos.
delamedia,porloqueviendoladesviaciónestándarde1.726nosanimamos
acalcularelcoecientedevariación,quenosda1.726÷19.02=0.095,que
convertidoenporcentajeda:9%;esdecir,lavariabilidaddelosdatosesdel
9%.Sielinvestigadorconsidera que estaesunavariabilidadaceptable,la
media aun no pierde poder informativo. Antes de decidir ello, revisamos
la curtosis, pues si esta es signicativamente negativa comprometería al
coecientevariación.Así,calculamos-0.826÷0.481=-1.71viendoqueno
essignicativamenteplaticúrtica.Tenemosasíqueladispersióntampocoes
problema,peroaun asímiramosdenuevolagráca,identicandoquelos
valoresmenorestienenpocoscasos(hayvariasbarrasmenorque19yno
decrecenhacialaizquierda ylaalturadesusbarrasnoesbaja),poniendo
otravezendudalarepresentatividaddelamedia(despuésdetodo,queremos
decirlaedadquerepresentealgrupoyquizáunaedadmásjovenseamás
pertinente).Sinembargo,hayquetomarunadecisión,yporloquehemos
visto,haymuchaevidenciaafavordelamedia,puesaunquehaymuchos
casosmenoresque19,hayunpicodealumnoscon20también,porloque
mantenercomoedadrepresentativaal19parecerazonable.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
36
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Ejercicios 1
1. ¿Cuál de los cursos que se llevaron el primer ciclo tiene más
puntaje en promedio?
2. Marque si es correcto:
a. La media del curso de matemática 1 es 14.
b. La nota que más se repite es 16.
c. La mediana es la misma en los 3 cursos de historia de letras.
d. Existe mucha variación en los cursos de matemática.
e. Hay más alumnos en las dos primeras escalas del primer semestre.
f. Hay más desaprobados en los dos cursos de matemática que en el resto
de cursos.
g. El curso de apreciación musical es el que agrupa las mejores calificaciones
en el semestre.
h. El curso de lógica es el que tiene más desviación típica tiene.
3. ¿Qué cursos se distribuyen de manera normal en el primer ciclo?
4. ¿Cuántos cursos del segundo semestre son los que tienen una
distribución sesgada?
5. Se suele decir que:
a. Los cursos de matemática tienen cada uno un 30% de alumnos
desaprobados.
b. El curso de Apreciación Musical es el que tiene más gente aprobada.
c. Hay más desaprobados en el primer ciclo comparado con el segundo
6. El coeficiente de variación y rango son medidas de:
a. Dispersión
b. Centralización
37
c. Posición
d. Concentración
7. Con el boxplot podemos ver la ……………… de la variable ……………
a. Curtosis y simetría – nominal
b. Posición, simetría, dispersión – ordinal y numérica
c. Concentración, posición y apuntamiento – ordinal y numérica.
d. Dispersión y concentración – ordinal, numérica y nominal
8. La barra de error con la desviación estándar es una gráfica que:
a. Visualiza la distribución de la variable
b. Visualiza la dispersión de la media de la variable
c. Visualiza la concentración y dispersión de la variable
d. Visualiza la simetría y dispersión de la variable.
9. El histograma permite ver, marque más de una:
a. El apuntamiento de la variable ordinal.
b. La concentración y dispersión de la variable numérica discreta.
c. La simetría y apuntamiento de la variable numérica continua.
d. La concentración de la variable numérica discreta.
10. El boxplot no muestra, marque más de una:
a. El rango intercuartílico de la variable ordinal.
b. La simetría de la variable numérica.
c. La mediana como medida de centralización.
d. El sesgo de la media
11. De las medidas de centralización, marque más de una:
a. La media es la medida más sensible a los valores extremos.
b. La mediana es la medida menos sensible a los valores atípicos.
c. La moda es una medida tanto para variables numéricas y categóricas
d. La media pierde representatividad si la distribución es sesgada.
Análisis exploratorio: cómo están los datos con los que vamos a trabajar
38
Tour guiado por la estadística: conceptos, vídeos, mapas y más
39
ANÁLISIS INFERENCIAL:
¿QUÉ INFORMACIÓN PODEMOS
OBTENER DE LOS DATOS?
19 En este material suponemos que tienes tus datos, y que estos han sido obtenidos de un adecuado
proceso de muestreo.
Aquí nos toca introducir temas de estadística inferencial, lo cual nos
permitirádeducirpropiedadesdeunapoblaciónapartirdeunamuestra.Es
importanterecalcarquelosresultadosobtenidosatravésdeestatécnicason
probabilísticosporloquedependendelarepresentatividaddelainformación
obtenida.19 En lo que queda del material, trabajaremos la inferencia
univariadaybivariada.
4. INFERENCIA UNIVARIADA
Losestadísticosdeinferenciaunivariadapermitensabersilohalladoenuna
variabledeunamuestraessucienteparaconocermejorelcomportamiento
deesavariableenlapoblacióndeinterés.
Básicamenteenlainferenciaunivariadaqueremossaberdoscosas:
1. Silosvaloresdenuestramuestrasedistribuyendemanerasimilaraalgún
modelodedistribuciónestadísticoteórico.
2. Si los estadísticos o estadígrafos de representatividad, revisados en el
primer capítulo, pueden ser una buena estimación del parámetro de la
población.
Lainferenciaunivariadavaríadeacuerdoalaescalademedición.Porello,
presentaremoslaspruebasinferencialessegúneltipodevariable.
40
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Tabla 5. Prueba binomial de la variable ‘sexo’.
Categoría N Proporción observada Proporción de prueba Significancia
Sexo Grupo 1 Mujer 53 0.54 0.50 ,547a
Grupo 2 Hombre 46 0.46
Total 99 1.00
Elaboración propia.
4.1. PARA DATOS CATEGÓRICAS
Paraestetipodevariablesqueremossabersiesposiblequelasproporciones
delascategoríaspresentadas en nuestramuestrasemantengan en nuestra
población.
4.1.1. Prueba binomial
Usaremosestapruebaenelcasodetenervariablescategóricasdicotómicas
(con solo dos categorías posibles). Por ejemplo, en la Tabla 5 queremos
sabersiesprobablequeenlauniversidadexistalamismaproporciónpara
ambossexos(50%mujeresy50%hombres).
Para facilitar la lectura de los resultados explicaremos a continuación la
convenciónaseguirquenosserviráparainterpretarlamayoríaderesultados.
Cuando la SIG es > 0.05 No rechazar hipótesis nula
Cuando la SIG es ≤ 0.05 Rechazar hipótesis nula
Lahipótesisnuladeestapruebaesquelaproporcióndelgrupo1esigualalvalor
deprueba.Elgrupo1es,entodosloscasos,aquelcuyacodicacióneslamenor
delosdosvaloresposibles(paraestecasomujer),yelvalordepruebaaquíes
elvalorpordefecto0.5.Enelcasodelatabla5,alleerlasignicancia(0.547),
vemosquenorechazamoslahipótesisnula;esdecir,laposibilidaddequelos
hombrestenganunaproporciónigualaldelasmujeres(50%encadauno).
41
Enestapruebatambiénpodemoscambiarlosporcentajes,yacontinuación
probaremoslaprobabilidaddedistribuciónenlamismavariable(sexo)pero
con otros valores (Tabla 6): que la proporción de las mujeres en nuestra
muestraseade80%(dehombresel20%).
Enestecasonuestrosresultadosnosindicanquelasignicanciaesmenora
0.05,porloquelahipótesisnulaesmuyimprobable,porestolarechazamos.
Con la prueba binomial Melissa ya puede complementar la primera parte en la
que solo mostraba que había más mujeres que varones. Ahora puede decir que
proporcionalmente ambos grupos son probablemente iguales en la población, al ser
ambos el 50%.
Tabla 6. Prueba binomial de la variable sexo (proporción de prueba 0.80).
Categoría N Proporción observada Proporción de prueba Significancia
Sexo Grupo 1 Mujer 53 0.5 0.8 ,000
Grupo 2 Hombre 46 0.5
Total 99 1.00
Elaboración propia.
Melissa refuerza la idea anterior al proponer que por más de que haya 7 mujeres
más que los hombres en la muestra, esta diferencia no la vuelve una proporción
que equivalga el 80% de la población. De la misma forma prueba con el 70% y
el 60% y añade sus resultados a su informe. Guíate de los videos y prueba con
otras proporciones tú también.
Análisis inferencial: qué información podemos obener de los datos
42
Tour guiado por la estadística: conceptos, vídeos, mapas y más
4.1.2. PRUEBA CHI-CUADRADO
Esta prueba la usaremos también cuando tengamos variables categóricas,
peroenestecasoyapuedenserpolitómicas(conmásdedoscategorías).Para
nuestro ejemplo, tomaremos la variable ‘Asistencia al semestre 2010-1’ e
hipotetizaremosquelaproporcionessonigualesenloscuatrogrupos(Tabla7).
Tabla 7. Prueba chi-cuadrado de la variable asistencia al primer semestre.
Asistencia al semestre 2010-1
N observado N esperado Residual
•
Grupo 1: hasta el 80% de inasistencias 5 24.8 -19.8
•
Grupo 2: hasta el 50% de inasistencias 26 24.8 1.3
•
Grupo 3: hasta el 20% de inasistencias 61 24.8 36.3
•
Grupo 4: hasta el 3% de inasistencias 7 24.8 -17.8
Total 99
Estadísticos de contraste
Asistencia al semestre 2010-1
•
Chi-cuadrado 81,646a
•
Gl 3
•
Significancia asintótica 0.000
Elaboración propia.
20 Los valores por defecto son personalizables.
Así,conlasignicanciaobtenida(0.05)debemosrechazarlahipótesisque
lasproporcionesson iguales paraloscuatro grupos(25%).Es importante
recordarqueestaspruebasnonosdicencuálesladistribuciónoproporción
adecuada, solo prueban la hipótesis que ya viene por defecto en los
programas.20
43
Tal como sugiere el resultado, Melissa comprueba que la distribución de las
asistencias no es uniforme. Lo mismo equivale a decir que cada grupo no representa
el 25% de todos los casos. Ella redacta que en su mayoría los estudiantes no son
tan tardones contando a los que se encuentran en ‘hasta el 3% de inasistencias’ y
los que están en ‘hasta el 20% de inasistencias’. Ella realiza la prueba chi-cuadrado
para las otras tres variables sobre la asistencia y puede mostrar si los porcentajes
de asistencia crecen o decrecen. Anímate a probar si en algún semestre los tres
grupos tuvieron el mismo porcentaje de casos.
X ± 1σ 68.3%
X ± 2σ 95.5%
X ± 3σ 99.7%
X
4.2. PARA DATOS NUMÉRICOS
Antesdecomenzaratrabajarconlasvariablesnuméricasdebemosteneren
claroelconceptodenormalidadqueseráclaveennuestroanálisis.Como
vimos en el primer capítulo una curva muy importante es la ‘normal’.
Estetipo decurva indica quela distribuciónes simétrica, mesocúrticay
unimodal, formando la también llamada campana de Gauss. Esta curva
esunmodelode distribución quemuchaspruebasestadísticasexigen; es
decir, se aplican a variables que deberían mostrar este comportamiento
‘gaussiano’(Gráco8).
Gráfico 8. Distribución normal.
Elaborado por Jesús García.
Análisis inferencial: qué información podemos obener de los datos
44
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Paraversiunavariabletieneestecomportamiento‘normal’debemosaplicar
una prueba de normalidad, conocida como Shapiro-Wilk u otra llamada
Kolmogorov-Smirnov, las cuales hipotetizan que la variable en cuestión
sedistribuyenormalmente. Para lavariable‘notasen ética’seaplicóesta
pruebayseobtuvo(Tabla8).
Tabla 8. Prueba de normalidad de la variable ‘notas en ética’.
Pruebas de normalidad
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Significancia Estadístico gl Significancia
Ética 0.119 97 0.002 0.963 97 0.008
Elaboración propia.
Melissa había sacado el histograma de la variable ‘ética’ para la parte de
exploración y pudo ver que no era normal, pero no sabía cómo probarlo. Luego
de que aprendiera la prueba de Kolmogorov-Smirnov pudo añadir a su análisis
que la moda de la variable verdaderamente estaría impidiendo la formación de
una curva normal.
En la Tabla 8 podemos apreciar que la variable ‘notas en ética’ no sería
consideradanormal, ya quepor su signicanciaenambas pruebas(0.002
o 0.008) se rechaza la hipótesis nula que proponía que esta variable se
distribuíanormalmente.
Es importante recalcar que hacemos estas diferencias pues cuando una
variable es normal podrá ser mejor tratada con técnicas paramétricas a
diferencia de las que no pasan la prueba de normalidad en cuyo caso se
puedeoptarportécnicasnoparamétricas.
Acontinuaciónpasaremosaexplicarlas‘pruebasT’enlasquerealizaremos
elanálisisunivariadoparavariablesnuméricas,nodebemosolvidarqueeste
tipodepruebasasumenlanormalidad;esdecir,esteesunrequisitoprevio.
45
4.2.1. PRUEBA T PARA UNA MUESTRA
Esta prueba permite saber dos cosas. Primero, cuál es el intervalo de
conanzade la mediade la poblacióncon la mediamuestral conocida,y
segundoprobarsialgúnvalorenparticularpuedeseraceptadocomomedia
poblacionalposible.
LasalidaeslamismaentodoslocasosyseveenlaTabla9.
Tabla 9. Prueba T (para una muestra).
Estadísticos para una muestra
N Media Desviación típica Error típico de la media
Matemática 1 99 14.08 3.431 0.345
Prueba para una muestra
Valor de prueba = 0
t gl Significancia(bilateral) Diferencia 95% Intervalo de confianza
de medias para la diferencia
Inferior Superior
Matemática 1 40.839 98 0.000 14.081 13.40 14.77
21 El valor de 95% es el valor que los programas usan por defecto en general, pero eso se puede alterar
según desee el investigador.
Este resultado muestra ‘valor de prueba = 0’; cuando eso es así, lo que
estamosbuscandoes saber,cualeselintervalodelamediapoblacionalal
95% de conanza sabiendo que la media de la muestra es 14.08. Vemos
en los recuadros sombreados que la media poblacional puede estar entre
13.40y14.77,perocomoesunintervaloal95%deconanza,hay5%de
probabilidadquenoestéahí.21
Sielvalordepruebanofuese‘cero’,loquesehipotetizaesqueesevalorde
pruebaeslamediapoblacional.Denuevo,silasignicanciafuesemenoro
iguala0.05serechazaríaesahipótesis.
Análisis inferencial: qué información podemos obener de los datos
46
Tour guiado por la estadística: conceptos, vídeos, mapas y más
4.2.2. PRUEBAS ALTERNATIVAS
Cuandonosecumplenlosrequisitosdelapruebatsetienealternativasno
paramétricas.Porejemplo,tenemoslapruebaWilcoxonqueseutilizapara
variablesordinales y numéricas tanto enel Rcomo en el SPSS 19.Para
elcaso descrito de la prueba T,laprueba Wilcoxon hace exactamente lo
mismo,tienelasmismashipótesisylosresultadosseinterpretandelamisma
manera.
Para las variables que no cumplían con la normalidad, Melissa optó por la prueba
Wilcoxon y así terminó de hacer su análisis sobre el rendimiento del alumnado
por curso. Dado que esta opción en el SPSS no nos ofrece el intervalo para la
media, ella trató de poner valores cercanos a la media y así sugerir los que salían
no significativos. Para acelerar el proceso eligió usar la sintaxis para evitar hacer
varios clicks.
Entusiasmada con la parte inferencial de la estadística, Melissa quiere aplicar la
prueba T para una muestra de todas las variables numéricas de su data. Quiere
ver si en todo Estudios Generales Letras, con un 95% de confianza, hay posibilidad
de que en todo el alumnado salga aprobado. Ella ha encontrado resultados
interesantes conforme se avanza en el tiempo como el hecho de que los alumnos
en general no cambian su rendimiento, ni para bien ni para mal. Melissa apunta
que las motivaciones como la de acabar bien Letras o tener buen CRAEST no
parecerían influir en el desempeño general por curso.
El cuadro de diálogo de la prueba ‘binomial’ del SPSS permite hacer
inferencias sobre la las medidas de posición; por ejemplo, permite que
hipoteticemossialgúnvalordepruebapuedeserlamediana.EnlaTabla10
vemossies probablequelamedianadela‘escalaeconómicaenelcuarto
semestre’sea3.
47
Tabla 10. Prueba binomial para la variable ‘escala económica en el cuarto semestre’
(valor de prueba = 3).
Prueba binomial
Categoría N Proporción Proporción Significancia
observada de prueba
Escala económica Grupo 1 < 3 88 0.89 0.50
en el cuarto semestre Grupo 2 > 3 11 0.11 ,000a
Total 99 1.00
Elaboración propia
Comopodemosverenlastablasalponercomovalordeprueba3serechaza
lahipótesisadiferenciadelaTabla11enlaqueelvalordepruebaes2.Esto
quieredecirquelomás probable es queenlapoblaciónlamediana de la
escalaeconómicaenelcuartosemestresea2.
Tabla 11. Prueba binomial para la variable ‘escala económica en el cuarto semestre’
(valor de prueba = 2).
Prueba binomial
Categoría N Proporción Proporción Significancia
observada de prueba
Escala económica Grupo 1 < 2 46 0.46 0.50
en el cuarto semestre Grupo 2 > 2 53 0.54 ,547a
Total 99 1.00
Elaboración propia.
Melissa hizo la prueba binomial para las variables ordinales de su data, tanto para
las que preguntaban sobre la asistencia como para las que preguntaban sobre la
escala económica de todo el alumnado. Así como con el caso de la media no encontró
mucha variación conforme se avanzaba en el tiempo.
Análisis inferencial: qué información podemos obener de los datos
48
Tour guiado por la estadística: conceptos, vídeos, mapas y más
5. INFERENCIA BIVARIADA
Lainferenciabivariada,comosunombreloindica,analizalarelaciónexistente
entredosvariables.Aligualqueenlasección anterior,presentaremoslas
relacionessegúntiposdeescalaqueintervengan.
5.1. RELACIÓN NUMÉRICA-NUMÉRICA
Cuando se analizan dos variables numéricas podemos plantearnos dos
escenarios:
– elprimero(ymásdifundido)escuandoseanalizandosvariablesdiferentes
enuncortedetiempo;
– elsegundocasoescuandoseanalizaunamismavariablemedidaendos
momentosdiferentes.
Elprimercasoesconocidocomocorrelaciónysepuedeutilizardospruebas
quesediferencianporsusrequisitos.
– Enelcaso delaprimeraalternativasepresentalatécnica paramétrica22
conocidacomolaRdePearson,
– ylaotraalternativa,laRhodeSpearman(noparamétrica).
El segundo caso, conocido como diferencia de medias para muestras
relacionadas,tienetambiéndospruebasalternativas.
– LaprimeraeslapruebaT(paraelcasoparamétrico)
– ylasegundalapruebaWilcoxon(casonoparamétrico).
5.1.1. R DE PEARSON
Loqueseanalizaenestapruebaeslaexistenciaonodelacorrelaciónlineal
entredosvariablesnuméricasquesedistribuyannormalmente.23
22 Este tipo de pruebas, en este caso, tienen como requisito la normalidad y la igualdad de varianzas.
23 Nos referimos a la curva normal (Gauss).
49
Tabla 12. Correlación lineal (R de Pearson).
Correlaciones
Matemática 1 Matemática 2
•
Matemática 1 Correlación de Pearson 1 ,701**
Significancia (bilateral) 0.000
N 99 97
•
Matemática 2 Correlación de Pearson ,701** 1
Significancia (bilateral) 0.000
N 97 97
** La correlación es significativa al nivel 0,01 (bilateral).
Elaboración propia.
EnelejemplodelaTabla12sebuscasabersihabíaonocorrelaciónentre
lasnotasdeMatemática1y Matemática 2. Enestecasolahipótesisbase
delapruebadePearsonesque‘nohaycorrelación’24.Porelresultadodela
signicanciaobtenida(0.00)rechazaremoslahipótesisdelanocorrelación,
concluyendoquesí hay correlación.Luegovemosel valor delestadístico
que ha resultado: 0.701, que indica que la correlación entre las notas en
Matemática1yMatemática2esaltaydirecta.25
Uncasoparticulardecorrelacióneslacorrelaciónparcial.Estaprueba,nos
permite vericar que la correlación hallada no sea espuria al eliminar el
efectodeunaterceravariableentrelarelacióndeotrasdos.
En el siguiente ejemplo (Tabla 13) trataremos de corroborar que sí hay
correlaciónentreMatemática1yMatemática2, controlando dicha prueba
conlavariableedad.Enestaprueballamadacorrelaciónparcialbuscamos
demostrarque,efectivamente,nuestrasvariablesMatemática1yMatemática
2secorrelacionanaunquequitemoselefectodelavariableedad:
24 Es decir, que el r de Pearson es igual a 0.
25 El r de Pearson oscila entre -1 y 1. Cuando es cero no hay correlación, cuando es positivo la
correlación es inversa (cuando una variable aumenta la otra disminuye, o viceversa) y cuando es
positivo es directo (ambas aumentan o disminuyen). Valores superiores a 0.7 o -0.7 se consideran
altos, menores a 0.4 se consideran bajos.
Análisis inferencial: qué información podemos obener de los datos
50
Tour guiado por la estadística: conceptos, vídeos, mapas y más
Delosresultadosobtenidosdebemosobservarlasignicanciaobtenidaen
laparte sombreada dela tabla(ya que esla tieneel resultado controlado
por‘edad’).Comovemoslasignicanciaes0.00yelres0.707,porloque
podemosdecirqueentrenuestras variables Matemática 1yMatemática2
existeunaintensacorrelacióndirectahabiendocontroladolavariableedad.
Si bien las pruebas de inferencia univariada le parecieron interesantes, más aun
fueron las de bivariada. Establecer relaciones le fue muy útil a Melissa ya que pudo
responder a las preguntas que tenía en un inicio. La correlación lineal de Pearson
le sirvió para buscar relación entre las notas, el examen de admisión, el examen
de admitidos y la edad. Tal como el caso mostrado, Melissa encontró que los cursos
de filosofía se correlacionaban entre ellos, así como los de historia, pero no entre
estos dos grupos de cursos. Anímate a probar si puede existir correlación entre la
edad y el examen de admisión o cualquier otro curso. No te olvides de guiarte con
los videos.
Tabla 13. Correlación parcial.
Variables de control Matemática 1 Matemática 2
Edad Matemática 1 Correlación 1.000 0.707
Significancia (bilateral) . 0.000
Gl 0 94
Matemática 2 Correlación 0.707 1.000
Significancia (bilateral) 0.000 .
Gl 94 0
Elaboración propia.
51
Dado que son no pocas variables las que pasan la prueba de normalidad, requisito
para la prueba de correlación de Pearson, Melissa tuvo que ampararse en la versión no
paramétrica, en la correlación de Spearman. Los resultados, como en la mayoría de los
casos, no se contradicen pero es necesario tener en mente los requisitos. La correlación
más fuerte que ella ha encontrado es entre las notas de Ecología y Derecho con un
coeficiente de Spearman de 0.906 lo que le hizo afirmar que los que salieron bien en
Ecología el último ciclo de Estudios Generales Letras también salieron bien en Derecho.
Sin embargo, por ser cursos de materias diferentes no se animó a buscar una posible
explicación. Si tú llevaste ambos cursos en Estudios Generales Letras, ¿podrías proponer
alguna? Asimismo, anímate a buscar una correlación fuerte como la de Melissa.
Tabla 14. Correlación Spearman.
Correlaciones
Ética Matemática 2
Rho de Spearman Ética Coeficiente de correlación 1.000 -.038
Significancia (bilateral) . 0.713
N 97 95
Matemática 2 Coeficiente de correlación -.038 1.000
Significancia(bilateral) 0.713 .
N 95 97
Elaboración propia.
5.1.2. Rho de Spearman
Enbreve,elSpearmaneslaversiónnoparamétricadisponibleparasabersihay
correlaciónentredosvariablesnuméricas.Suinterpretaciónesidénticaalrde
Pearson(verpiedepágina24),peronoexigequelasvariablessedistribuyan
normalmente ni que la relación entre ellas sea lineal. En Tabla 14, hemos
utilizadoparaelejemplolavariable‘notasenÉtica’y‘notasenMatemática2’.
Enel ejemplo anterior buscamos versi existe correlación entre lasnotas
de‘Ética’y ‘Matemática2’,alleer la signicanciabilateralaceptamosla
hipótesis‘nohaycorrelación’(yaqueesmayora0.05),porloquepodemos
decirquenohaycorrelaciónentrelasnotasde‘Ética’yde‘Matemática2’.
Análisis inferencial: qué información podemos obener de los datos
52
Tour guiado por la estadística: conceptos, vídeos, mapas y más
5.1.3. Prueba T para muestras relacionadas
LardePearsonanalizabalacorrelaciónentredosdiferentesvariables,perola
pruebaTanalizalarelaciónentrelamismavariablemedidaendosoportunidades
diferentesalasmismasunidadesdeestudioenunamuestra.LapruebaTseencarga
deinformarnos si lasdosmediasdeestosdos momentosson probablemente
igualesono.LosresultadosparaestapruebasevenenlaTabla15.
Tabla 15. Prueba T (muestras relacionadas).
Prueba de muestras relacionadas
Diferencias relacionadas T gl Significancia
(bilateral)
Media Desviación Error típico 95% intervalo de
típica de la media confianza para
la diferencia
Inferior Superior
Par 1 Examen de
Admisión - -60.081 61.148 6.146 -72.277 -47.885 -9.776 98 .000
Examen de
Admitidos
Elaboración propia
Enestecaso,tenemoslahipótesis‘nohaydiferenciadevaloresmedios’y
comolasignicanciaesmenora0.05rechazamoslahipótesisyconcluimos
quelomásprobableesquelospromediosnoseanlosmismos;esdecir,que
hayuncambiodeunexamenaotroenlamismapoblación.
Para el caso de diferencias, Melissa optó por analizar la relación existente el
puntaje obtenido en el examen de admisión y el examen de admitidos, ambos vistos
como exámenes similares al ser exámenes para ingresar a Estudios Generales
Letras. Quería ver si los valores medios de ambas variables se diferenciaban y lo
que encontró fue que no había igualdad. En la data de Melissa, a su vez, no se
encuentran otras variables que se hayan medido dos veces dado que los cursos
son solo una vez y las otras variables son categóricas.
53
5.2. RELACIÓN CATEGÓRICA-CATEGÓRICA
5.2.1. Chi-cuadrado de Pearson
Cuandoestudiamosdosvariablesdetipocategóricasqueremosversiexiste
onoasociaciónentredosvariables,lapruebaqueseutilizaparaestosnes
esladelchi-cuadrado,estapruebaestadísticanospermitehallarlarelación
paraestetipodevariables.Estapruebasolopermite saber si unavariable
categóricaestárelacionadaconotradelamismaescala.
Elsiguienteejemplo(Tabla16)informasihayonoasociaciónentrelasvariables
‘asistenciaenelprimersemestre’(asistencia1)y‘escalaenelprimersemestre’
(escala1)enelprimersemestre(enestecasoambassonordinales).
Tabla 16. Asociación entre dos ordinales.
Pruebas de chi-cuadrado
Valor gl Significancia asintótica (bilateral)
•
Chi-cuadrado de Pearson 29,752a 12 .003
•
Razón de verisimilitudes 31.406 12 .002
•
Asociación lineal por lineal 16.970 1 .000
•
N de casos válidos 99
a 13 casillas (65.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es .56.
Elaboración propia.
Enlatablaobtenidadebemosleerlala‘chi-cuadradodePearson’yrevisar
lasignicancia(valorsombreado).Lahipótesisnulaaquíes‘ambasvariables
sonindependiente’(noestánasociadas);ydadoquelasignicanciaes0.003
rechazaremos la hipótesis, concluyendo que es muy probable que haya
asociaciónentrelasvariables‘asistencia1’y‘escala1’.
Debemos saber que esta prueba no proporciona información acerca del
sentidodelarelación(directooinverso)nisobrelaintensidaddelamisma;
porello,elchi-cuadradorequieredeanálisiscomplementariosparaconocer
ambascosas.Las pruebas estadísticasparaeste tipo depruebasvarían de
acuerdoalaescaladelavariablecategórica.
Análisis inferencial: qué información podemos obener de los datos
54
Tour guiado por la estadística: conceptos, vídeos, mapas y más
5.2.2. PRUEBAS PARA NOMINALES: SOLO INTENSIDAD
Cuandoalmenosunadelasdosvariablescategóricasaanalizaresnominal,
setienedisponibleslassiguientespruebas:
–CoecientedeContingencia
–Phi(paratablas2x2)
–VdeCramer
–Lambda
–CoecientedeIncertidumbre
LasmedidasLambdayCoecientedeincertidumbresonutilizadascuandola
hipótesisubicaacadavariablecategóricaenelroldeindependienteydependiente.
Aestasmedidasselesdenominadetipodireccional.26Entodosestoscasos,el
resultadoestáentre0y1,27ysuinterpretaciónsebasaenlaTabla17.
26 A las otras se les denomina de tipo simétrico.
27 Algunas no llegan a 1, pero en general es el valor de referencia.
Tabla 17. Interpretación de la asociación.
•
Si el coeficiente es menor que 0,400 La relación es despreciable.
•
Si el coeficiente está entre 0,400 y 0,600 La relación es medianamente fuerte.
•
Si el coeficiente es mayor que 0,600 La relación es fuerte.
5.2.3 PRUEBAS PARA ORDINALES: INTENSIDAD Y SENTIDO
Cuandolasdosvariablessonordinalessetienenlassiguientespruebas:
–Tau-B(tablascuadradas–nxn)
–Tau–C
–Gamma
–DdeSommers
LaDdeSommerseslaúnicamedidadireccionaldeestegrupo.Entodoslos
casoslasmediasvande-1a1,ysuinterpretaciónessimilaralrdePearson
(verpiedepágina28).
55
A Melissa le fue muy útil el chi-cuadrado porque su data tiene varias variables
categóricas. En un comienzo, ella optó por entablar varias relaciones entre las
variables pero le faltaba el estadístico que le permitiera decir si la relación era
estadísticamente significativa. A su vez las pruebas auxiliares al chi-cuadrado le
dieron una idea de la intensidad y del sentido de la relación (si eran ordinales).
Además del ejemplo anterior, ella encontró que la variable ‘Escala económica en
el primer semestre’ se asociaba significativamente con ‘Nivel del Inglés’. Dado que
esta última tiene una codificación inversa a la anterior y el estadístico de Gamma
le salió -0.98, ella interpretó que ‘a mayor ubicación en la escala económica de la
PUCP, el nivel del inglés es mejor’.
Así como ella, anímate a practicar entablando relaciones entre las variables
categóricas. Melissa hizo lo mismo e indagó más sobre el uso del chi-cuadrado y
las medidas auxiliares. Ella encontró que las medidas direccionales que ofrece el
SPSS no son tan robustas, y que en su lugar podría usar las pruebas de regresión,
tema que no vamos a ver en este manual por tener un grado de dificultad mayor.
Pero las medidas simétricas sí son muy útiles ya que funcionan como leer los
coeficientes de correlación tanto de Pearson como de Spearman.
5.3. RELACIÓN CATEGÓRICA-TUMÉRICA
5.3.1. PRUEBA T PARA MUESTRAS INDEPENDIENTES
La prueba T para muestras independientes requiere dos variables: una
dependiente (que será numérica) e independiente (que será categórica
dicotómica).LaTabla18muestra la prueba dehipótesisquelamediadel
examendeadmisiónhasidoelmismoparahombresymujeres.
LoquesebuscaenlaTabla18essabersihayalgunadiferenciaenlanotas
obtenidas en el examen de admisión en función de la variable sexo. En
estecaso, lahipótesis basede laprueba es ‘no hay diferencia de valores
medios’;esdecir,queelfactorusadonotuvoefecto.Enestecaso,alleerla
signicanciaaceptamoslahipótesisy,porlotanto,concluimosconqueel
factorsexonohacausadodiferenciasenlasnotasdelexamendeadmisión.
Análisis inferencial: qué información podemos obener de los datos
56
Tour guiado por la estadística: conceptos, vídeos, mapas y más
La prueba T para muestras independientes le fue útil a Melissa cuando tuvo que
ver si había diferencia entre las dos categorías de una variable dicotómica. Este
fue el caso cuando quiso ver si había diferencia entre las notas obtenidas según la
variable ‘sexo’. En lo particular, ella creía que no existía diferencia significativa entre
las medias de las notas de los hombres de los de las mujeres. Esto porque en las
entrevistas que ella había hecho cuando ingresaron a Estudios Generales Letras vio
que en ambos grupos se presentaban las mismas capacidades analíticas y tenían
habilidades parecidas. Anímate a hacer algunas pruebas T usando las variables que
preguntan sobre si le gustó la universidad o no, o si se cambiaría a Estudios Generales
Ciencias o no, como dicotómicas.
Tabla 18. Prueba T para muestras independientes.
Estadísticos de grupo
Sexo N Media Desviación típica Error típico de la media
Examen de Admisión Mujer 53 653.34 111.584 15.327
Hombre 46 650.35 102.615 15.130
Prueba de muestras independientes
Prueba de
Levene para Prueba T para la igualdad de medias
la igualdad
de varianza
F Significancia t gl Significancia Diferencia Error 95% intervalo
(bilateral) de medias típico de la de confianza
diferencia para la diferencia
Inferior Superior
Se han
asumido
varianzas .541 .464 .138 97 .890 2.992 21.666 -40.009 45.992
iguales
No se han
asumido .139 96.659 .890 2.992 21.537 -39.755 45.738
varianzas
iguales
Elaboración propia.
Examen de Admisión
57
Estapruebarequierequepreviamenteseveriquesisecumpleelsupuesto
deigualdad de varianzas,paralo cualseutiliza lapruebade Leveneque
aparecealaizquierdadelatabla.Aquílasignicanciahasalido0.464,por
loquenoserechazalahipótesisdelapruebadeigualdaddevarianzas,porlo
queseprocedeainterpretarlaprimerala.Sihubierasalidomenoroiguala
0.05,sehubieratenidoquereportarlasignicanciadelaladeabajo.
5.3.2. PRUEBA F (ANOVA DE UN FACTOR)
Cuandodeseamosconocersiexisteefectodeunfactor(variablecategórica)en
losvaloresmediosdeunavariablenuméricarecurrimosalANOVAdeunfactor.
Estatécnicaesmáscompleja,puesespartedelmodelolinealgeneralunivariado
ytienecomohipótesisnulaque:‘nohayefectodelfactorenlosvaloresmedios
delavariabledependiente’.Porlotanto,loqueseobtieneconestapruebaes
sabersi hayunadiferenciadelospromedios de una variable (numérica)en
másdedosgrupos-delimitadospornuestravariablecategórica-.Porejemplo,
haríamosusodeestatécnicasiqueremosconocersiexisteefectodelareligión
deunapersona(católico,protestante,judío,etc.)ensuniveldeingresos.
En el siguiente ejemplo tenemos como variable numérica dependiente
la variable ‘Matemática 2’ y como variable independiente la categórica
‘asistenciaalprimersemestre’(asistencia1).Queremossabersilaasistencia
enesesemestretienealgúnefectosobrelasnotasenmatemática2.Paraello
debemosseguirunasecuencia:
Primero debemos vericar si hay homogeneidad de varianzas. Para ello
pedimos la pruebadeLevene,resultadosquesepresentanenelGráco9.
Dadoquelahipótesisnuladelapruebaesquehayhomogeneidaddevarianzas,
lasignicanciade0.018nosindicaquedebemosecharesahipótesis.
Gráfico 9. Prueba de homogeneidad de varianzas.
Prueba de homogeneidad de varianzas
Matemática 2
Estadístico de Levene gl1 gl2 Significancia
•
3.526 3 93 0.018
Análisis inferencial: qué información podemos obener de los datos
58
Tour guiado por la estadística: conceptos, vídeos, mapas y más
LapruebaFdelANOVApuedenoseradecuadacuandonohayhomogeneidad
de varianzas. En este caso, al ver los resultados de la Tabla 19: Tabla
ANOVA,concluimosquelasmediasdeMatemáticas2nosoniguales,pues
lasignicanciaes0.000,porloquelahipótesisnuladebeserrechazada.
Tabla 20. Pruebas robustas del ANOVA.
Matemática 2
Estadísticoa gl1 gl2 Significancia
•
Welch 58.897 3 21.548 0.000
•
Brown-Forsythe 20.999 3 19.988 0.000
a Distribuidos en F asintóticamente.
Elaboración propia.
Cuandoestosucede;esdecir,cuandonosepuedeasegurarhomogeneidad
devarianzassesuelesolicitar‘Pruebasrobustasdeigualdaddelasmedias’
(verTabla20).
Tabla 19. Tabla ANOVA.
ANOVA
Matemática 2
Suma de cuadrados gl Media cuadrática F Sig.
•
Inter-grupos 338.490 3 112.830 16.034 0.000
•
Intra-grupos 654.417 93 7.037
Total 992.907 96
Elaboración propia.
Leeremoslatabladepruebasrobustaspuestoqueellasseutilizancuandono
hayhomogeneidaddevarianzas.Paralalecturaderesultadostenemosdos
opciones:
59
La prueba ANOVA fue la última que utilizó Melissa en su informe. Esta prueba por
permitir el uso de dos grupos o más, bien podría sustituir a la prueba T. Aunque en
su formato original necesita que la distribución de los casos sea homogénea, los
estadísticos auxiliares nos permiten pasar este requisito y habría que enfocarse
si hay una misma cantidad de grupos o no. Ella usó esta prueba con todas las
variables categóricas politómicas de su data. La que más le sorprendió fue el factor
‘nivel de inglés’ ya que si bien no es muy exigente el uso de inglés en los cursos de
Letras, sí marca la diferencia conocer este idioma en algunos cursos como Ecología
y Derecho.
– Welch:seusacuandohayigualdadenelnúmerodecasosdecadaunade
lasmodalidadesdelavariableindependientecategórica.
– Brown-Forsythe:seusacuandohaydiferentenúmerodecasosencada
unadelasmodalidadesdelavariableindependientecategórica.
En este caso, leemos Welch puesto que hay diferente número de casos
en las modalidades de la variable asistencia en el primer semestre. La
signicanciadeesteestadísticonosdicequedebemosrechazarlahipótesis
deigualdad demedias; por loque concluimoscon mayor seguridadque
las medias son diferentes y que efectivamente hay un efecto de nuestro
factor(Asistenciaenelprimersemestre)sobrenuestravariabledependiente
(NotasdeMatemática2).
Análisis inferencial: qué información podemos obener de los datos
60
Tour guiado por la estadística: conceptos, vídeos, mapas y más
RESUMEN
Pearson
(paramétrica)
Spearman
(no paramétrica)
Anova
de un factor
Exploración
Bivariada
Numérica-numérica Categórica-categórica Numérica-categórica
Chi-cuadrado
(prueba de
independencia)
Elaboración propia
Melissa entregó su informe en la última semana del tercer mes. Adjuntó a las tablas
de frecuencias, los estadísticos y los gráficos, un informe de carácter más cualitativo
sobre los alumnos. Ella llegó entrevistar a los 99 alumnos que fueron parte de su
data y pudo entrar en detalle sobre los motivos por qué faltaban a clases o por
qué no habían obtenido buen puntaje en determinados cursos. Encontró con esta
investigación que influye mucho la carrera que el alumno o alumna quiera seguir,
ya que le ponen mayor empeño a los cursos afines o estudian más aquellos cursos
que les servirán de base para aprender otros más avanzados cuando ingresen a
sus facultades. Melissa sugirió consignar esta pregunta la próxima vez que alguien
armara una data parecida a los que revisarían su informe. Pasada una semana le
dijeron que su trabajo era muy bueno y que deseaban contar con ella durante todo
un año, pero ella con la modestia del caso rechazó la oferta. Se dio cuenta que podía
aplicar lo que aprendió de estadística en una investigación que le llamara más la
atención, iba a utilizar la estadística en su tesis de Licenciatura.
Gráfico 10. Resumen Inferencia bivariada.
61
1. Los que sacaron buena nota en el curso de Teoría General del
Lenguaje también sacaron buena nota en el curso de Redacción y
Argumentación.
a. Falso
b. Verdadero
2. El gusto de la carrera en el primer y segundo año no se asocia con
que sea hombre o mujer.
a. Verdadero
b. Falso
3. Existe la creencia de que las mujeres asisten con más frecuencia a
clases a comienzos del segundo año.
a. Falso
b. Verdadero
4. Marque si es verdadero:
a. Los hombres tuvieron más puntaje que las mujeres en el examen de
admisión.
b. Los puntajes en el examen de admisión son diferentes según la escala.
c. A los que les gustó más el primer año tuvieron más notas que a los
que no les gustó la carrera.
d. No hay diferencia entre los que quieren cambiarse y no a
Estudios Generales Ciencias según las notas del curso Historia antigua y
medieval.
5. Marque la opción incorrecta, puede marcar más de una:
a. Hay diferencia en las notas de Fe y Cultura Actual según la escala de
pago del tercer semestre.
Ejercicios 2
Análisis inferencial: qué información podemos obener de los datos
62
Tour guiado por la estadística: conceptos, vídeos, mapas y más
b. La escala de pago que estaría originando la diferencia es el ‘quinto’.
c. Cuando se tenga homogeneidad de varianzas tenemos que leer la
prueba T2 de Tamhane.
6. Marque la alternativa correcta:
a. No hay diferencia entre el examen de admisión y el examen de admitidos.
b. No hay diferencia en el puntaje del examen de entrada según el
nivel de inglés.
c. Hay diferencia en el examen de admitidos según la escala socioeconómica
del primer semestre.
7. Marque la alternativa incorrecta, puede marcar más de una:
a. Hay correlación positiva fuerte entre los 2 cursos de filosofía de Letras y
ética.
b. La correlación anterior desaparece si controlamos por la edad de
los alumnos.
c. Hay correlación negativa débil entre los cursos de matemática 1 y de
el Perú en la Historia de América.
8. Marque la alternativa correcta:
a. Las notas de Investigación Académica y Quechua se distribuyen de una
manera normal.
b. Las mujeres representan el 80% de la población.
c. Los que quieren cambiarse a Ciencias en el primer año representan el 10%.
d. La distribución no es uniforme en la variable nivel de inglés.
9. Marque la respuesta incorrecta, puede marcar más de una.
a. La asistencia del primer es diferente a los otros tres ciclos a nivel de
la población de todo Letras.
b. En la población de Letras 60% se encuentra en el nivel avanzado,
30% en el nivel intermedio y 10% en nivel básico del inglés.
c. Los que se quieren cambiar en el segundo año representan el 15% de
la población.
63
EJERCICIOS 1
1. ¿Cuál de los cursos que se llevaron el primer ciclo tiene más puntaje en promedio?
c. Historia antigua y medieval
2. Marque si es correcto:
a. La media del curso de matemática 1 es 14.
Correcto, sin contar los decimales.
b. La nota que más se repite es 16.
Incorrecto, la nota que más se repite es 13.
c. La mediana es la misma en los 3 cursos de historia de letras.
Correcto, sin contar decimales.
d. Existe mucha variación en los cursos de matemática.
Incorrecto, en los dos cursos de matemática no hay mucha variación.
e. Hay más alumnos en las dos primeras escalas del primer semestre.
Incorrecto, hay más alumnos en las otras tres escalas restantes.
f. Hay más desaprobados en los dos cursos de matemática que en el resto de cursos.
Correcto, son los dos cursos que más desaprobados tienen.
g. El curso de apreciación musical es el que agrupa las mejores calificaciones en el semestre.
Correcto, contando las frecuencias de las notas 18, 19 y 20, apreciación musical
concentra las mejores notas.
h. El curso de lógica es el que tiene más desviación típica tiene.
Incorrecto, matemática 1 y matemática 2 son los que más dispersión tienen.
3. ¿Qué cursos se distribuyen de manera normal en el primer ciclo?
Ninguno. De acuerdo a la prueba de normalidad de Kolmogorov-Smirnov, ningún curso
en el primer semestre tiene una distribución normal. Usar las prueba que se encuentra
en el menú explorar, por la corrección de Lilliefors para muestras pequeñas.
4. ¿Cuántos cursos del segundo semestre son los que tienen una distribución sesgada?
Cuatro. Los cursos de Filosofía Moderna, Lógica y epistemología, Elementos de Ciencia
Política y El Perú en la historia de América son los que tienen una distribución más
sesgada. Esto se puede comprobar mirando el estadístico de asimetría y los histogramas
de las variables.
SOLUCIONARIO
64
Tour guiado por la estadística: conceptos, vídeos, mapas y más
5. Se suele decir que:
a. Los cursos de matemática tienen cada uno un 30% de alumnos desaprobados.
Falso. En Matemática 1 hay un 18% de desaprobados y en Matemática 2, un 12%.
b. El curso de Apreciación Musical es el que tiene más gente aprobada.
Falso. Hay varios cursos como el de Elementos de Ciencia Política que no tiene ningún
desaprobado.
c. Hay más desaprobados en el primer ciclo comparado con el segundo.
Verdadero. En el primer ciclo hay un 30% de desaprobados y en el segundo, un 13%.
6. El coeficiente de variación y rango son medidas de:
Respuesta a. Dispersión.
7. Con el boxplot podemos ver la …………………………. de la variable ……………………..
Respuesta b. Posición, simetría, dispersión – ordinal y numérica.
8. La barra de error con la desviación estándar es una gráfica que:
Respuesta b. Visualiza la dispersión de la media de la variable
9. El histograma permite ver:
Respuestas a, b, c y d.
a. El apuntamiento de la variable numérica discreta.
b. La simetría y apuntamiento de la variable numérica continua.
c. La concentración y dispersión de la variable numérica discreta.
d. La concentración de la variable numérica discreta.
10. El boxplot no muestra:
Respuestas a, b y c
a. El rango intercuartílico de la variable ordinal.
b. La simetría de la variable numérica.
c. La mediana como medida de centralización.
11. De las medidas de centralización:
Respuestas a, b, c y d.
a. La media es la medida más sensible a los valores extremos.
b. La mediana es la medida menos sensible a los valores atípicos.
c. La moda es una medida tanto para variables numéricas y categóricas
d. La media pierde representatividad si la distribución es sesgada.
65
EJERCICIOS 2
1. Los que sacaron buena nota en el curso de Teoría General del Lenguaje también sacaron
buena nota en el curso de Redacción y Argumentación.
Respuesta a. Falso. La correlación de Pearson no es significativa y no podemos sostener
tal afirmación.
2. El gusto de la carrera en el primer y segundo año no se asocia con que sea hombre o mujer.
Respuesta a. Verdadero. No existe asociación entre las dos variables. El chi-cuadrado sale
no significativo.
3. Existe la creencia de que las mujeres asisten con más frecuencia a clases a comienzos del
segundo año.
Respuesta a. Falso. Para nuestra muestra podemos afirmar el enunciado, pero no para
toda la población de Letras. El chi-cuadrado sale no significativo
4. Marque si es verdadero:
a. Los hombres tuvieron más puntaje que las mujeres en el examen de admisión.
Falso. La prueba T para muestras independientes sale no significativa.
b. Los puntajes en el examen de admisión son diferentes según la escala.
Falso. La prueba ANOVA sale no significativa.
c. A los que les gustó más el primer año tuvieron más notas que a los que no les gustó la
carrera.
No necesariamente. En varios cursos del primer año no hay diferencia significativa
entre los dos grupos.
d. No hay diferencia entre los que quieren cambiarse y no a Estudios Generales Ciencias
según las notas del curso Historia antigua y medieval.
Verdadero. La prueba T sale no significativa.
Respuesta d.
5. Marque la opción incorrecta, puede marcar más de una:
Respuestas a, b y c.
a. Hay diferencia en las notas de Fe y Cultura Actual según la escala de pago del tercer
semestre.
b. La escala de pago que estaría originando la diferencia es el ‘quinto’.
c. Dado que tenemos homogeneidad de varianzas tenemos que leer la prueba T2 de
Tamhane.
6. Marque la alternativa correcta:
a. No hay diferencia entre el examen de admisión y el examen de admitidos.
Falso. La prueba T para muestras relacionadas sale significativa.
b. No hay diferencia en el puntaje del examen de entrada según el nivel de inglés.
Verdadero. La prueba ANOVA sale no significativa.
Solucionario
66
Tour guiado por la estadística: conceptos, vídeos, mapas y más
c. Hay diferencia en el examen de admitidos según la escala socioeconómica del primer
semestre.
Falso. La prueba ANOVA sale no significativa.
Respuesta b.
7. Marque la alternativa incorrecta:
a. Hay correlación positiva fuerte entre los dos cursos de filosofía de Letras y ética.
Incorrecta. Solo con Filosofía Moderna sale significativa y con Filosofía Antigua, no..
b. La correlación anterior desaparece si controlamos por la edad de los alumnos.
Incorrecta. La correlación entre Filosofía Moderna y Ética no desaparece.
c. Hay correlación negativa débil entre el curso de matemática 1 y el Perú en la Historia
de América.
Incorrecta. No hay correlación significativa.
Respuestas a, b, y c.
8. Marque la alternativa correcta:
a. Las notas de Investigación Académica y Quechua se distribuyen de una manera normal.
Falso. Según la prueba de normalidad de Kolmogorov-Smirnov, ninguno de los dos
cursos tiene una distribución normal. Usar las prueba que se encuentra en el menú
explorar, por la corrección de Lilliefors para muestras pequeñas.
b. Las mujeres representan 80% de la población.
Falso. La prueba binomial sale significativa.
c. Los que quieren cambiarse a Ciencias en el primer año representan el 10%.
Verdadero. La prueba binomial nos sale no significativa.
d. La distribución no es uniforme en la variable nivel de inglés.
Falso. La prueba chi-cuadrado para ver si la distribución es uniforme no sale significativa.
Respuesta c.
9. Marque la respuesta incorrecta.
Respuestas a, b. y c.
a. La asistencia del primer es diferente a los otros tres ciclos a nivel de la población de
todo Letras.
Falso. Existe una asociación significativa entre las cuatro variables de asistencia y los
estadísticos de simetría son positivos.
b. En la población de Letras 60% se encuentra en el nivel avanzado, 30% en el nivel
intermedio y 10% en nivel básico del inglés.
Falso. La prueba de chi-cuadrado sale significativa.
c. Los que se quieren cambiar en el segundo año representan el 15% de la población.
Falso. La prueba chi-cuadrado sale significativa lo que indica que la proporción es menor.
67
LINkS DE LA GUÍA
– Mindmeister:
http://www.mindmeister.com/107137229#
– Wiki:
http://wiki.pucp.edu.pe/estadisticavirtual/
– VideosPUCP:
http://videos.pucp.edu.pe/usuarios/administrar/3119
68
Tour guiado por la estadística: conceptos, vídeos, mapas y más