Introducción a R para el análisis de datos en Ciencias Sociales

Book · February 2017with 951 Reads
Edition: 1
Isbn: 978-950-692-135-4
Publisher: CONICET
Cite this publication
Introducci´on a
para el An´alisis de Datos en Ciencias Sociales
Eduardo Bologna
Colecci´on Cartograf´ıas: Materiales para la investigaci´on y el aprendizaje
Serie Cuadernos de Investigaci´on Cuantitativa N 1
1
Bologna, Eduardo Le´on
Introducci´on a R para el an´alisis de datos en Ciencias Sociales / Eduardo Le´on Bolog-
na. - 1a ed . - Ciudad Aut´onoma de Buenos Aires : CONICET - Consejo Nacional de
Investigaciones Cient´ıficas y T´ecnicas , 2016.
Libro digital, PDF
Archivo Digital: descarga y online
ISBN 978-950-692-135-4
1. Metodolog´ıa. 2. An´alisis de Datos. I. T´ıtulo.
CDD 300.1
Comit´e de referato para este n´umero:
Dra. Silvina Brussino CIPSI, Grupo vinculado al CIECS (CONICET - UNC)
Dra. Patricia Caro Profesora Adjunta de Estad´ıstica Facultad de Ciencias Econ´omicas
UNC
Lic. Jorge Lorenzo C´atedra de Estad´ıstica Educativa UNC
Dra. Alicia Maccagno Programa de Estad´ısticas Universitarias UNC
Dr. Mart´ın Saino Facultad de Ciencias Econ´omicas UNC
Esta obra est´a licenciada bajo la Licencia Creative Commons Atribuci´on-NoComercial-
SinDerivadas 2.5 Argentina.
Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/
by-nc-nd/2.5/ar/ o env´ıe una carta a Creative Commons, PO Box 1866, Mountain View,
CA 94042, USA.
Imagen de tapa: logo R, reproducido bajo licencia GNU General Public License version
2 (GPL-2).
2
´
Indice
Introducci´on 4
¿Qu´eesR? ....................................... 4
¿Porqu´eelegirR? ................................... 5
Organizaci´on del material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Descarga e instalaci´on 7
Apertura ........................................ 8
LosobjetosenR .................................... 8
R Commander (Rcmdr) 10
Instalaci´on del paquete R Commander . . . . . . . . . . . . . . . . . . . . . . . . 10
CargadeRCommander................................ 11
Los datos 13
Digitaci´onmanual ................................... 14
Carga de datos en formato RData . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Importaci´on desde otros formatos . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Aplicaci´on a datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Exploraci´on de la matriz de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Modificaci´on de variables 20
Transformar en factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Definir una variable nueva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Categorizaci´on manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Categorizaci´on autom´atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
An´alisis de datos 27
Descripciones univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Descripciones bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Comentarional .................................... 51
Anexo: Visitando la sintaxis 52
Material en espa˜nol para profundizar en R y R Commander 57
Algunos paquetes de inter´es 58
Referencias 60
3
Introducci´on
Actualmente el an´alisis de datos viene ganando importancia en diferentes ´areas de
conocimiento. Adem´as de la investigaci´on cient´ıfica, est´a presente en estudios sociales, en
los negocios, en el deporte. Los estudios de mercado, encuestas preelectorales o sondeos
de opini´on recurren al an´alisis de datos para obtener resultados que les sirvan para tomar
decisiones. La disponibilidad cada vez mayor de bases de datos de gran tama˜no exige
herramientas estad´ısticas adecuadas para resumir informaci´on y poder extraer de ellas
significado.
Los datos constituyen conjuntos de informaci´on expresada en lenguaje estandarizado,
es decir que acerca de un conjunto de individuos (personas, pa´ıses, instituciones, etc.) se
conocen determinadas caracter´ısticas, el an´alisis de los datos implica organizarlos de modo
que se puedan dar respuestas a los problemas planteados o bien explorarlos para detectar
tendencias y patrones.
Los procedimientos para el tratamiento de informaci´on sistematizada se perfeccionan
continuamente, las t´ecnicas se vuelven m´as sofisticadas para abordar problemas de mayor
complejidad. Cada vez se otorga m´as importancia a la comunicaci´on eficaz de los resultados
a fin de incidir en la toma de decisiones en salud, educaci´on, pol´ıticas p´ublicas, en los
negocios. Para ello, los an´alisis se enriquecen con expresiones gr´aficas novedosas que suman
potencialidad heur´ıstica a las conclusiones que se alcanzan.
Para realizar estos an´alisis existen numerosos programas inform´aticos, que se ocupan
de los procesos computacionales, de manera que el usuario solo deba decidir qu´e proce-
dimiento aplicar y realizar una lectura correcta y completa del resultado que se obtiene,
sin involucrarse con las operaciones de c´alculo. Estos programas o “paquetes estad´ısticos”
re´unen en un entorno ´unico las operaciones m´as frecuentemente usadas por investigadores
y analistas de datos y las ponen al alcance del usuario no especializado.
De entre las diversas opciones disponibles, en este curso se usar´a un software que se
llama R, a trav´es de una interfaz gr´afica de usuario, amigable: R-commander. Por este
medio, el investigador que se inicia en el an´alisis de datos o busca solo una aplicaci´on
concreta puede ingresar de manera gradual a la programaci´on, para usarla en operaciones
as avanzadas. El usuario experimentado hallar´a en R una herramienta muy vers´atil para
diversos tipos de an´alisis y de gran potencialidad gr´afica.
A fin de ejemplificar la aplicaci´on de los procedimientos, se usan datos de la Encuesta
Nacional de Factores de Riesgo 2013, realizada conjuntamente entre el Instituto Nacional
de Estad´ıstica y Censos (INDEC) y el Ministerio de Salud de la Naci´on de la Rep´ublica
Argentina.
¿Qu´e es R?
Algunas caracter´ıstica de R son mencionadas en el sitio de la comunidad inside-R
(Analytics, 2015), all´ı cuentan que:
4
R (R Team Core, 2015) es un software para an´alisis de datos: lo usan estad´ısticos y
analistas de datos para extraer significado de informaci´on cuantitativa, descripciones e
inferencias, visualizaci´on de datos y modelizaci´on predictiva.
Es un lenguaje de programaci´on orientado a objetos, dise˜nado por estad´ısticos y para
el uso de estad´ısticos: el an´alisis se hace escribiendo sentencias en este lenguaje, que provee
objetos, operadores y funciones que hacen muy intuitivo el proceso de explorar, modelar
y visualizar datos.
Es un ambiente para el an´alisis estad´ıstico: en R hay funciones para pr´acticamente todo
tipo de manejo de datos, modelizaci´on y representaciones gr´aficas que pueden hacer falta.
No solo cuenta con los m´etodos est´andar sino que, debido a que los principales avances
en procedimientos estad´ısticos se realizan en R, las t´ecnicas m´as actualizadas est´an usual-
mente primero disponibles en R. R integra programas llamados paquetes, que sirven para
realizar an´alisis espec´ıficos. Los paquetes son rutinas que realizan conjuntos de operaciones
especializadas y una de las potencialidades de R es que diferentes investigadores pueden
desarrollar paquetes para determinados tipos de an´alisis y ponerlos a disposici´on de los
dem´as usuarios. En la actualidad hay m´as de 7100 paquetes y el conjunto crece porque la
comunidad R es muy activa y continuamente se hacen aportes.
Es un proyecto de c´odigo abierto: esto significa no solo que se lo puede descargar y
usar gratis, sino que el c´odigo es abierto y cualquiera puede inspeccionar o modificar las
rutinas. Como sucede con otros proyectos de c´odigo abierto, como Linux, R ha mejorado
sus c´odigos tras varios a˜nos de “muchos ojos mirando” y aportando soluciones. Tambi´en
como otros proyectos de c´odigo abierto, R tiene interfaces abiertas, por lo que se integra
acilmente a otras aplicaciones y sistemas.
Es una comunidad: R fue inicialmente desarrollado por Robert Gentleman y Ross Iha-
ka1, del Departamento de Estad´ıstica de la Universidad de Auckland, en 1993 y desde
entonces el grupo que dirige el proyecto ha crecido hasta llegar a tener actualmente m´as
de 20 estad´ısticos y analistas de computaci´on de todo el mundo. Adem´as, miles de otras
personas han contribuido con funcionalidades adicionales por medio del aporte de “paque-
tes” que utilizan los 2 millones de usuarios de todo el mundo. Como resultado existe una
intensa comunidad de usuarios de R on-line, con muchos sitios que ofrecen recursos para
principiantes y para expertos.
¿Por qu´e elegir R?
Considerando que en el mercado existen muchos programas para hacer an´alisis de
datos, conviene explicar lo que hace que R sea diferente.
Es gratis y abierto, no se pagan licencias y si se cambia de trabajo no hace falta
aprender a usar un nuevo software. Se distribuye con licencia GNU GPL (General Pu-
blic License: http://www.gnu.org/licenses/gpl.html), puede ser copiado sin ning´un
1R&R, por los nombres de sus autores dio origen a R como denominaci´on del lenguaje.
5
This research hasn't been cited in any other publications.
  • Article
    In spatial statistics the ability to visualize data and models superimposed with their basic social landmarks and geographic context is invaluable. ggmap is a new tool which enables such visualization by combining the spatial information of static maps from Google Maps, OpenStreetMap, Stamen Maps or CloudMade Maps with the layered grammar of graphics implementation of ggplot2. In addition, several new utility functions are introduced which allow the user to access the Google Geocoding, Distance Matrix, and Directions APIs. The result is an easy, consistent and modular framework for spatial graphics with several convenient tools for spatial data analysis.
  • Article
    Full-text available
    This article presents GrapheR, a Graphical User Interface allowing the user to draw customizable and high-quality graphs without knowing any R commands. Six kinds of graph are available: histograms, box-and-whisker plots, bar plots, pie charts, curves and scatter plots. The complete process is described with the examples of a bar plot and a scatter plot illustrating the legendary puzzle of African and European swallows' migrations.
  • Conference Paper
    A Bayesian approach for probabilistic population projections has recently been used by the United Nations Population Division in the preparation of the 2012 revision of the World Population Prospects. The methods have been implemented in publicly available open-source software as a collection of R packages. In this paper, we demonstrate how to easily reproduce such population projections, including probabilistic projections of total fertility rate and life expectancy. The packages allow any analysts to generate variations of the UN projections, to use their own data, to impute missing data and to produce aggregated projections for regions consisting of multiple countries. Using a flexible expression language, probabilistic results can be summarized and visualized in graphs, maps, or population pyramids. The software can be conveniently controlled from a graphical user interface.
  • Article
    Full-text available
    We propose the bagplot, a bivariate generalization of the univariate boxplot. The key notion is the half space location depth of a point relative to a bivariate dataset, which extends the univariate concept of rank. The “depth median” is the deepest location, and it is surrounded by a “bag” containing the n/2 observations with largest depth. Magnifying the bag by a factor 3 yields the “fence” (which is not plotted). Observations between the bag and the fence are marked by a light gray loop, whereas observations outside the fence are flagged as outliers. The bagplot visualizes the location, spread, correlation, skewness, and tails of the data. It is equivariant for linear transformations, and not limited to elliptical distributions. Software for drawing the bagplot is made available for the S-Plus and MATLAB environments. The bagplot is illustrated on several datasets—for example, in a scatterplot matrix of multivariate data.
  • Article
    The grammar of graphics (GoG) denotes a system with seven classes embedded in a data flow. This data flow specifies a strict order in which data are transformed from a raw dataset to a statistical graphic. Each class contains multiple methods, each of which is a function executed at the step in the data flow corresponding to that class. The classes are orthogonal, in the sense that the product set of all classes (every possible sequence of class methods) defines a space of graphics which is meaningful at every point. The meaning of a statistical graphic is thus determined by the mapping produced by the function chain linking data and graphic. WIREs Comp Stat 2010 2 673–677 DOI: 10.1002/wics.118 For further resources related to this article, please visit the WIREs website.
  • Article
    Full-text available
    Item response theory (IRT) is widely used in assessment and evaluation research to explain how participants respond to item level stimuli. Several R packages can be used to estimate the parameters in various IRT models, the most flexible being the ltm (Ri-zopoulos 2006), eRm (Mair and Hatzinger 2007), and MCMCpack (Martin, Quinn, and Park 2011) packages. However these packages have limitations in that ltm and eRm can only analyze unidimensional IRT models effectively and the exploratory multidimensional extensions available in MCMCpack requires prior understanding of Bayesian estimation convergence diagnostics and are computationally intensive. Most importantly, multidi-mensional confirmatory item factor analysis methods have not been implemented in any R package. The mirt package was created for estimating multidimensional item response theory parameters for exploratory and confirmatory models by using maximum-likelihood meth-ods. The Gauss-Hermite quadrature method used in traditional EM estimation (e.g., Bock and Aitkin 1981) is presented for exploratory item response models as well as for confirmatory bifactor models (Gibbons and Hedeker 1992). Exploratory and confirma-tory models are estimated by a stochastic algorithm described by Cai (2010a,b). Various program comparisons are presented and future directions for the package are discussed.