ArticlePDF Available

Un nuevo estimador para disgregar totales poblacionales. El caso de los nuevos electores

Authors:

Abstract

En España y en el ámbito de la sección censal, el Instituto Nacional de Estadística (INE) ofrece, a partir de la explotación estadística del padrón municipal, las cifras de población agregadas en grupos quinquenales de edad y referidas al uno de enero de cada año. Aunque esta información es muy valiosa y bastante detallada, en ocasiones el analista precisa de datos más desagregados y/o referidos a otros instantes temporales. Tal es el caso de las elecciones, en las que el número de nuevos electores (por haber alcanzado la mayoría de edad desde unas elecciones anteriores) por mesa o sección censal es una variable de interés para la implementación de técnicas de inferencia ecológica o para su utilización en los modelos de predicción electoral basados en pequeñas áreas. Previa petición y bajo pago, el analista interesado puede comprar la información al INE. Lamentablemente, el coste de los datos suele ser muy elevado para el analista medio y la producción de la información puede sufrir retrasos que la conviertan en poco útil una vez recibida. En este trabajo, se muestra una estrategia (y se ofrece una función en R para su implementación) para estimar, a partir de la información pública disponible, el número de nuevos electores por sección censal. Mediante un ejemplo se muestra el funcionamiento de la función introducida.
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES.
EL CASO DE LOS NUEVOS ELECTORES
JOSE M. PAVIA
ERNESTO J. VERES FERRER
Departamento Economía Aplicada
Universitat de Valencia
Av Tarongers, s/n 46022-Valencia (Spain)
e-mail: pavia@uv.es
Teléfono: 963828404
Resumen
En España y en el ámbito de la sección censal, el Instituto Nacional de Estadística (INE) ofrece, a partir
de la explotación estadística del padrón municipal, las cifras de población agregadas en grupos
quinquenales de edad y referidas al uno de enero de cada año. Aunque esta información es muy valiosa y
bastante detallada, en ocasiones el analista precisa de datos más desagregados y/o referidos a otros
instantes temporales. Tal es el caso de las elecciones, en las que el número de nuevos electores (por
haber alcanzado la mayoría de edad desde unas elecciones anteriores) por mesa o sección censal es una
variable de interés para la implementación de técnicas de inferencia ecológica o para su utilización en los
modelos de predicción electoral basados en pequeñas áreas. Previa petición y bajo pago, el analista
interesado puede comprar la información al INE. Lamentablemente, el coste de los datos suele ser muy
elevado para el analista medio y la producción de la información puede sufrir retrasos que la conviertan en
poco útil una vez recibida. En este trabajo, se muestra una estrategia (y se ofrece una función en R para
su implementación) para estimar, a partir de la información pública disponible, el número de nuevos
electores por sección censal. Mediante un ejemplo se muestra el funcionamiento de la función introducida.
Palabras clave: Nuevos electores, Padrón municipal, Elecciones, Esquema de Lexis.
Área Temática: 9. Métodos Cuantitativos para la Economía y la Empresa.
Abstract
In Spain and at the level of census section, the Spanish National Statistics Institute (INE) exploits
municipal registers to provide population figures added in five-year age groups and dated on January 1st
of each year. Although this information is very valuable and quite detailed, sometimes analysts require
more disaggregated data and/or dated on other times. This is the case of elections, where the number of
new voters (those who have reached the age to vote since a previous election) per polling box or census
section is a variable of interest for the implementation of ecological inference techniques or for its use in
the currently most successful forecasting election models based on small areas. Upon request and on
payment, the interested analyst can buy the data to the INE. Unfortunately, the cost of the data is usually
very high for the average analyst and besides its production may suffer delays that makes the data
useless once received. In this paper, we propose a strategy (and a function in R for its implementation) to
estimate, based on public available data, the number of new voters by census section. The running of
function is exemplified with real data.
Key Words: New electors, Municipal registers, Elections, Lexis scheme.
Thematic Area: 9. Quantitative Methods for Business and Economics.
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES. EL CASO DE LOS NUEVOS
ELECTORES
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
818
1. INTRODUCCIÓN
Un problema clásico estudiado en Estadística es el de descomponer un total en sus distintos
componentes o sumandos. Esta situación se plantea en muchos ámbitos y aplicaciones. Por
ejemplo, en la k-esimilización de una serie temporal (Pavía, 2010a); en la distribución de la
estimación de un agregado poblacional entre sus subpoblaciones (Rao, 2015); o en el reparto
entre ciertas agrupaciones de un total poblacional censal.
Considerando esta última situación, son muchas las aplicaciones en las que, para un ámbito
territorial concreto (generalmente de escaso tamaño), se dispone de la cifra poblacional total
pero no de su desagregación por, por ejemplo, grupos de edad. A ello no son ajenas las leyes
de protección de datos de carácter personal, las cuales, para preservar la confidencialidad y la
identificación de personas, obligan a que la información demográfica deba publicarse de forma
agregada (BOE, 1999).
La sección censal es una de esas unidades espaciales de pequeño tamaño sobre la que recae
una gran cantidad de información elaborada por el Instituto Nacional de Estadística (INE).
Concretamente, el INE ofrece en relación a ellas, y referidas al uno de enero de cada año, de
forma abierta y gratuita, cifras relativas a: (i) el número de residentes por sexo y edad
(agrupados en grupos quinquenales), (ii) el número de residentes por sexo y nacionalidad
(agrupados por continentes y para las principales nacionalidades), el número de residentes por
sexo clasificados en función de la relación de su lugar de nacimiento y de residencia, y el
número de residentes por sexo y país de nacimiento (INE, 2016).
La anterior información suele ser suficiente en muchos casos, pero no lo es en todos. A veces
es necesario descender a mayor detalle, bien por la exigencia de disponer de más cantidad de
información, lo que implica cierta desagregación; bien por disponer de la información con otras
referencias temporales.
Un ejemplo paradigmático es el de los procesos electorales. En ellos es importante conocer el
número de los nuevos electores que, por edad, se incorporan al censo electoral ante una nueva
consulta. Se trata de una variable no pública y de interés para la implementación de técnicas
de inferencia ecológica (e.g., King, 1997); o para su utilización en modelos de predicción
electoral basados en pequeñas áreas (e.g., Pavía, 2010b; Pavía y Larraz, 2012), que exigen
disponer de esta información con antelación suficiente para poder producir/publicar
estimaciones antes del período de embargo de publicación de resultados de encuestas que
impone la ley electoral en España (BOE, 1985).
Si bien el INE, previa petición, puede proporcionar la anterior información, no es menos cierto
que el coste de los datos suele ser muy elevado para el analista medio y la producción de la
información puede sufrir retrasos que la conviertan en poco útil dada la premura de tiempo
exigible en las predicciones electorales.
El presente trabajo presenta una estrategia estadística que resuelve los dos problemas citados:
generar estimaciones de la variable de interés con un coste asumible y que estén disponibles
cuando sean requeridas. La estrategia consiste en definir un estimador que proporciona la
estimación de la variable de interés, concretamente, el número de nuevos electores por sección
censal, a partir de la información ya publicada.
La definición del estimador se completa con el ofrecimiento de una función en el software
estadístico R para su implementación (R Core Team, 2016) que estima los nuevos electores a
partir de la información pública disponible.
El resto del trabajo se estructura como sigue. En la sección segunda se ofrecen la definición y
los detalles metodológicos de la aproximación. En la sección tercera se introduce y describe
una función en R que permite implementar fácilmente el estimador descrito en la sección
segunda. Finalmente, en la sección cuarta se muestra, a través de un ejemplo con datos
reales, cómo opera la función
ANALES DE ECONOMÍA APLICADA 2016, NÚM. XXX
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
819
2. EL ESTIMADOR PROPUESTO
En este apartado se desarrolla y justifica el estimador propuesto. En concreto se describe una
estrategia que permite estimar, a partir de la información pública disponible en la web del INE a
nivel de sección censal, el número de nuevos electores que tienen derecho a voto por haber
alcanzado la mayoría de edad respecto a un proceso electoral previo. La estimación se realiza
por circunscripción y para todas las secciones censales que la configuran. La metodología
propuesta se centra en aproximar el número de nuevos electores correspondientes al Censo de
Españoles Residentes (CER), obviando los nuevos electores pertenecientes al colectivo CERE
(Censo electoral de Extranjeros Residentes en España) debido a las mayores complejidades
que estimar los números asociados a este colectivo conlleva. Baste señalar las dificultades que
en el procedimiento de estimación introduciría la necesidad de tener en cuenta el requerimiento
de inscripción previa en el censo electoral que para poder ser contabilizados en el grupo CERE
impone la ley electoral en España a los nacionales de países con los que existe convenio
(BOE, 2011).
Además de restringirnos al censo CER, admitiremos que la elección previa respecto de la cual
pretendemos estimar el número de nuevos electores corresponde a la última elección de
cualquier tipo celebrada. Por ejemplo, si tomamos las elecciones a Cortes Generales de 2015 y
queremos estimar el número de nuevos electores CER en las secciones censales de Vizcaya,
la asunción anterior impone que los cálculos se realizarían necesariamente respecto a algunas
de las siguientes elecciones: las elecciones a Cortes Generales de 2011, las elecciones al
Parlamento Europeo de 2014, las elecciones municipales de 2015 o las elecciones al
Parlamento Vasco de 2012.
Asimismo, y a fin de situarnos en una escenario realista, supondremos que el instante en que
deseamos realizar la estimación se sitúa en un momento anterior y relativamente próximo a la
celebración de la elección245. En estas condiciones, el objetivo es estimar el número de nuevos
electores a partir de las cifras de población más próximas disponibles en el momento de
realizar la estimación. Para ello es necesario observar las relaciones entre las fechas de las
elecciones y el calendario de publicación de las cifras de población en España.
En tal sentido, dado que el INE suele publicar las cifras referidas a un año cualquiera a lo largo
del primer trimestre del año siguiente y siempre referenciadas con fecha 1 de enero, se tiene
que, en España y previo a la convocatoria de cualquier proceso electoral, las últimas cifras de
población disponibles (que entre otras cuestiones se utilizan para determinar el número de
escaños/concejales que van a repartir en cada distrito electoral) corresponderán, casi con toda
probabilidad, a las referenciadas a 1 de enero del año anterior a la elección. Esto será así salvo
que la elección se realice a principio de año, en cuyo caso las últimas cifras disponibles podrían
estar referidas a dos años previos.
El calendario de publicación de las cifras de población en España, unido a las hipótesis de los
párrafos anteriores, implica que necesariamente el número de nuevos electores en cada
sección se encuentran contabilizados entre los residentes registrados en las últimas cifras
publicadas previas a la elección dentro de los grupos quinquenales de 15 a 19 años y de 20 a
24 años, suponiendo que no ha habido (entre la fecha de referencia de las cifras de población y
la fecha de celebración de la elección) fallecimientos ni traslados de domicilios dentro de esos
colectivos246.
El problema, por tanto, se traslada a estimar en cada sección censal cuántas de las personas
registradas dentro de los grupos de 15 a 19 años y de 20 a 24 años son nuevos electores. Para
ello se hará uso de (casi con toda probabilidad) toda la información pública relevante
disponible.
245 Obviamente la estimación se podría hacer después de celebradas las elecciones (incluso años después), no
obstante, esta hipótesis se corresponde con el escenario verosímil correspondiente a una situación de utilidad
inmediata, más allá de la utilidad académica.
246 Las bajas tasas de mortalidad que se registran a esas edades invitan a pensar que las desviaciones que pueda
introducir esta hipótesis no debieran ser significativas; mientras que el segundo supuesto es un supuesto necesario
cuyo impacto, aunque localmente significativo, no debería ser, en general, muy alto.
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES. EL CASO DE LOS NUEVOS
ELECTORES
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
820
En concreto, y a fin de poder expresar analíticamente el estimador denotamos por:
x ݐ la fecha en la que se celebró la elección previa respecto a la cual se desea estimar
el número de nuevos electores;
x ݐ la fecha de referencia de las cifras de población disponible;
x ݐ la fecha de celebración de las elecciones actuales247;
x ܲଵହିଵଽ al número de residentes contabilizados en la sección censal ݆ con una edad
entre 15 y 19 años cumplidos en ݐ;
x ܲଶ଴ିଶସ al número de residentes contabilizados en la sección censal ݆ con una edad
entre 20 y 24 años cumplidos en ݐ;
x ܧ al número total de residentes contabilizados en la sección censal ݆ en ݐ con
nacionalidad española;
x ܺ al número total de residentes contabilizados en la sección censal ݆ en ݐ sin
nacionalidad española;
x ܧ al número total de residentes contabilizados en ݐ con ݀ años cumplidos (para
݀ͳͷǡͳ͸ǡǥǡʹͶ) y nacionalidad española en la provincia de estudio;
x ܺ al número total de residentes contabilizados en ݐ con ݀ años cumplidos (para
݀ͳͷǡͳ͸ǡǥǡʹͶ) y sin nacionalidad española en la provincia de estudio;248
x ܰܧ al número total de nuevos electores CER que han alcanzado la mayoría de edad
entre ݐ y ݐ en la provincia objeto de estudio;249 y,
x ݊݁ a la estimación del número de nuevos electores CER que han alcanzado la
mayoría de edad entre ݐ y ݐ en la sección ݆-ésima de la provincia objeto de estudio.
La estimación ݊݁ se obtiene después de aplicar secuencialmente una serie de hipótesis y
transformaciones a los datos. En particular, se supone: (i) que dentro de cada sección censal la
proporción de españoles en cada grupo quinquenal de edad es igual a la proporción de
españoles en el conjunto de la sección; (ii) que la suma de españoles (y extranjeros) en el
conjunto de las secciones censales para cada grupo quinquenal debe coincidir con el total de
españoles (extranjeros) en la provincia en ese grupo quinquenal; (iii) que la distribución de
españoles por edad dentro de cada grupo quinquenal en cada sección censal coincide con la
distribución por edades de españoles en el grupo quinquenal en el conjunto de la provincia; (iv)
que dentro de cada edad las fechas de cumpleaños se distribuyen uniformemente; (v) que la
suma del número de nuevos electores en el conjunto de las secciones censales debe coincidir
con el número de nuevos electores en la provincia.
La aplicación secuencial de las hipótesis y condiciones anteriores permite obtener en cada
sección censal un número decimal (bruto) de nuevos electores, ܾ݊݁
. Estos números son
depurados utilizando un mecanismo de redondeo y ajuste para que también se cumpla (v) en
números enteros. En concreto, cada una de las estimaciones brutas es redondeada al entero
más próximo y calculada la diferencia, ܦ, entre la suma de los valores enteros y ܰܧ, de forma
que (a) si ܦ es positivo se resta uno a los ܦ valores cuya diferencia entre la estimación bruta y
la estimación entera sea más pequeña y (b) si ܦ es negativo se suma uno a los ܦ valores cuya
diferencia entre la estimación bruta menos la estimación entera sea más grande.
En particular, de forma analítica el proceso secuencial en cinco etapas anterior se puede
expresar como sigue:
(i) Se estima en cada sección censal la proporción de españoles en cada grupo quinquenal de
edad asumiendo que la distribución de españoles/extranjeros en cada grupo es igual al del
conjunto de la sección: ܧଵହିଵଽ ܲଵହିଵ
ܧ൅ܺܧܧଶ଴ିଶସ ܲଶ଴ିଶସ
ܧ൅ܺܧ
(ii) Se ajustan (utilizando estimadores ratio) las estimaciones obtenidas en (i) para que la suma
para las ܰ secciones censales de los españoles por grupo quinquenal coincida con el total de
españoles en la provincia por grupo quinquenal:
247 Habitualmente ݐ൏ݐ൏ݐ, pero no es necesario.
248 Aunque en el estimador propuesto esta variable no sería estrictamente necesaria, su inclusión sirve para garantizar
la igualdad contable del conjunto de datos.
249 Esta variable suele ser publicada alrededor de un mes antes de la fecha de celebración de la elección.
ANALES DE ECONOMÍA APLICADA 2016, NÚM. XXX
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
821
ܣܧଵହିଵଽ σܧ
ଵଽ
ௗୀଵହ
σܧ
ଵହିଵଽ
௞ୀଵ ܧଵହିଵଽܣܧଶ଴ିଶସ σܧ
ଶସ
ௗୀଶ଴
σܧ
ଶ଴ିଶସ
௞ୀଵ ܧଶ଴ିଶସ
(iii)-(iv) Se obtienen estimaciones iniciales del número bruto de nuevos electores por sección
censal, ଓܾ݊݁
ǡ bajo las hipótesis de que la distribución de españoles por edad dentro de cada
grupo quinquenal en cada sección censal coincide con la distribución por edades de españoles
en el grupo quinquenal del conjunto de la provincia y de distribución uniforme de fechas de
cumpleaños dentro de cada edad.
ଓܾ݊݁
ൌܣܧ
ଵହିଵଽ݂݁௠௜௡െ݂
݁௠௔௫൅ܣܧଶ଴ିଶସ݂݁௠௔௫െ݂
݁௠௜௡
donde:
݁௠௜௡ ൌͳͺെܽݐǡݐ es la edad mínima que podría tener un elector en el instante ݐ para no
habiendo tenido la edad mínima para votar en ݐ tenga derecho a voto en ݐ; con ܽሺݐǡݐ
representando la distancia en años entre ݐ y ݐ.
݁௠௔௫ ൌͳͺെܽݐǡݐ൅ܽݐǡݐ es la edad máxima que podría tener un elector en el instante ݐ
para no habiendo tenido la edad mínima para votar en ݐ tenga derecho a voto en ݐ; con
ܽሺݐǡݐ representando la distancia en años entre ݐ y ݐ.
Y las funciones ݂ y ݂ definidas mediante:
݂݀ͳ
σܧ
ଵଽ
ௗୀଵହ
ە
ۖ
ۖ
ۖ
ۖ
۔
ۖ
ۖ
ۖ
ۖ
ۓ
݀ʹͲ
భవଶ଴ିௗͳͻ݀ʹͲ
భవାாభఴଵଽିௗͳͺ݀ͳͻ
భవ
೏సభఴ ାாభళଵ଼ିௗͳ͹݀ͳͺ
భవ
೏సభళ ାாభలଵ଻ିௗͳ͸݀ͳ͹
భవ
೏సభల ାாభఱଵ଺ିௗͳͷ݀ͳ͸
݀ͳͷ
݂݀ͳ
σܧ
ଶସ
ௗୀଶ଴
ە
ۖ
ۖ
ۖ
ۖ
۔
ۖ
ۖ
ۖ
ۖ
ۓ
݀ʹͲ
మబௗିଶ଴ʹͲ݀ ʹͳ
మబశಶమభ೏షమభʹͳ݀ʹʹ
మభ
೏సమబ ାாమమௗିଶଶʹʹ݀ʹ͵
మమ
೏సమబ ାாమయௗିଶଷʹ͵݀ʹͶ
మయ
೏సమబ ାாమరௗିଶସʹͶ݀ʹͷ
݀ʹͷ
(v) Se Ajustan (utilizando estimadores ratio) las estimaciones brutas obtenidas en el paso
anterior para que la suma para las ܰ secciones censales del número de nuevos electores
coincida con el total de la provincia:
ܾ݊݁
ൌൌ ܰܧ
σଓܾ݊݁
௞ୀଵ ଓܾ݊݁
Finalmente, y utilizando el proceso descrito previamente las estimaciones decimales brutas,
ܾ݊݁
, son aproximados a soluciones enteras. La función R implementada genera como outputs
las estimaciones decimales y enteras de nuevos electores para cada sección censal.
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES. EL CASO DE LOS NUEVOS
ELECTORES
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
822
3. LA FUNCIÓN DE R
El estimador descrito en el apartado anterior es suficientemente complejo y precisa de unos
requerimientos de información suficientemente amplios para que su implementación no sea
inmediata. Por ello, en este apartado se ofrece un código, programado en el software
estadístico libre R (R Core Team, 2016), que puede ser utilizado para su cálculo. En el próximo
apartado se muestra, utilizando como ejemplo un conjunto de datos reales, cómo opera la
función.
La función, cuyo código se ofrece en el Cuadro 1, precisa para actuar de cuatro inputs:
x Pseccion: Una base de datos (data.frame) de orden Nx4 (N secciones censales y 4
variables), referida al instante temporal ݐ, conteniendo, para cada sección de la
provincia objetivo y de forma ordenada, las siguientes variables: (i) el número de
empadronados en la sección de 15 a 19 años; (ii) el número de empadronados en la
sección de 20-24 años; (iii) el número de empadronados en la sección de
nacionalidad española; y (iv) el número de empadronados extranjeros en la sección.
x edad.prov: Una base de datos (data.frame) de orden 10x2 (10 edades y 2 variables),
referida al instante temporal ݐ, conteniendo para la provincia objetivo por filas (y en
este orden) el número de personas con 15, 16, 17, ...., 24 años y por columnas (en
este orden) españoles y extranjeros.
x nuevos: El número (entero) correspondiente a la cifra de nuevos electores del
conjunto de la provincia por haber alcanzado la edad para votar en la elección actual
respecto a la elección de referencia.
x fechas: Un vector de fechas de longitud 3 (en formato carácter) con las fechas en
formato dd/mm/aaaa (día/mes/año) correspondientes (en este orden) a: (i) la fecha de
la elección de referencia, ݐ; (ii) la fecha de la nueva elección, ݐ; y, (iii) la fecha de los
datos de población.
Cuadro 1. Código R de la función para la computación del estimador.
nuevos.electores<-function(Pseccion, edad.prov, nuevos, fechas) {
fechas <- as.Date(as.character(fechas), "%d/%m/%Y")
grupos <- c(sum(edad.prov[1:5,1]), sum(edad.prov[6:10,1]))
brutos <- Pseccion[,1:2]*Pseccion[,3]/rowSums(Pseccion[,3:4])
brutos <- t(t(brutos)*grupos/colSums(brutos))
difP <- as.numeric(difftime(fechas[2], fechas[3], unit="weeks"))/52.25
difT <- as.numeric(difftime(fechas[2], fechas[1], unit="weeks"))/52.25
edad.min <- 18-difP
edad.max <- 18-difP+difT
pesos1 <- c(rev(edad.prov[1:5,1])/grupos[1])
pesos2 <- c(edad.prov[6:10,1]/grupos[2])
func1 <- function(edad){
if (edad > 20){
salida <- 0
} else if (edad >= 19) {
salida <- pesos1[1]*(20-edad)
} else if (edad >= 18) {
salida <- pesos1[1] + pesos1[2]*(19-edad)
} else if (edad >= 17) {
salida <- sum(pesos1[1:2]) + pesos1[3]*(18-edad)
} else if (edad >= 16) {
salida <- sum(pesos1[1:3]) + pesos1[4]*(17-edad)
} else if (edad >= 15) {
salida <- sum(pesos1[1:4]) + pesos1[5]*(16-edad)
} else {
salida <- 0
}
return(salida)
}
func2 <- function(edad){
if (edad < 20){
ANALES DE ECONOMÍA APLICADA 2016, NÚM. XXX
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
823
salida <- 0
} else if (edad <= 21) {
salida <- pesos2[1]*(edad-20)
} else if (edad <= 22) {
salida <- pesos2[1]+ pesos2[2]*(edad-21)
} else if (edad <= 23) {
salida <- sum(pesos2[1:2])+ pesos2[3]*(edad-22)
} else if (edad <= 24) {
salida <- sum(pesos2[1:3])+ pesos2[4]*(edad-23)
} else if (edad <= 25) {
salida <- sum(pesos2[1:4])+ pesos2[5]*(edad-24)
} else {
salida <- 0
}
return(salida)
}
pesos1 <- func1(edad.min) - func1(edad.max)
pesos2 <- func2(edad.max) - func2(edad.min)
brutos <- brutos[,1]*pesos1 + brutos[,2]*pesos2
brutos <- brutos* nuevos/sum(brutos)
enteros <- round(brutos)
dif <- nuevos - sum(enteros)
if (dif > 0){
dif2 <- enteros - brutos
posic <- order(dif2)[1:dif]
enteros[posic] <- enteros[posic]+1
}
if (dif < 0){
dif2 <- enteros - brutos
posic <- order(dif2, decreasing = T)[1:abs(dif)]
enteros[posic] <- enteros[posic]-1
}
output <- data.frame("Brutos"=brutos, "Enteros"=enteros)
return(output)
}
La función nuevos.electores genera como output una base de datos (data.frame) de tamaño
Nx2 con por filas las secciones censales (en el orden en que fueron introducidas en la base
Pseccion) y por columnas las estimaciones iniciales brutas en decimales, ܾ݊݁
, y las
estimaciones ajustadas en números enteros, ݊݁.
4. EJEMPLO DE USO DE LA FUNCIÓN
En este apartado se ejemplifica, utilizando datos reales, el funcionamiento del código
introducido en la sección previa. A fin de facilitar la presentación de los datos, por motivos de
espacio, tomamos como muestra el caso de estimar los nuevos electores correspondientes a
las elecciones a la Asamblea de Melilla de 2015 en las secciones censales (SSCC) de la
ciudad autónoma de Melilla respecto de las elecciones a la Asamblea de Melilla de 2011.
La Tabla 1 muestra para las secciones censales de Melilla el total de españoles y extranjeros
de cada sección censal, así como, el número de personas contabilizadas con una edad entre
15 y 19 años y entre 20 y 24 años. Por su parte, la Tabla 2 ofrece, para el conjunto de la ciudad
autónoma, la división en españoles y extranjeros del número de personas con cada edad
individual desde 15 hasta 24 años. Todos los datos vienen referidos a 1 de enero de 2014,
fecha de referencia de los últimos datos poblacionales disponibles en el momento que se
celebraron las elecciones autonómicas de 2015.
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES. EL CASO DE LOS NUEVOS
ELECTORES
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
824
Tabla 1. Datos demográficos de las secciones censales de Melilla a 1 de enero de 2014.
Código SSCC Edad15-19 Edad20-24 Españoles Extranjeros
5200101001 65 99 1096 99
5200101002 115 103 1745 257
5200102001 58 67 1091 282
5200102002 98 96 1524 249
5200102003 101 109 1764 526
5200103001 74 69 876 393
5200103002 67 89 893 516
5200104001 97 82 774 612
5200104002 169 186 1733 651
5200104003 222 212 2069 492
5200104004 277 264 2451 215
5200105001 135 114 1304 361
5200105002 103 101 1094 241
5200105003 301 281 2500 610
5200105004 93 108 1176 332
5200105005 166 144 1478 341
5200105006 200 211 1957 384
5200105007 303 248 2019 250
5200105008 123 190 1333 207
5200106001 52 63 861 230
5200106002 89 71 1433 238
5200106003 106 115 1723 415
5200107001 109 129 1723 252
5200107002 88 101 1388 274
5200107003 100 109 1540 411
5200107004 132 130 1599 373
5200107005 111 95 1421 194
5200107006 157 154 2242 229
5200107007 100 92 1333 279
5200108001 198 181 2407 391
5200108002 89 84 1061 223
5200108003 184 217 2031 82
5200108004 138 150 2151 160
5200108005 110 138 2093 131
5200108006 88 121 1836 103
5200108007 120 122 1837 254
5200108008 147 177 1632 120
5200108009 122 116 2318 93
5200108010 83 120 1436 51
5200108011 161 179 2034 220
5200108012 108 131 2084 261
5200108013 80 112 1472 345
5200108014 58 75 1223 71
5200108015 145 151 2052 284
Tabla 2. Españoles y extranjeros en Melilla de 15 a 24 años a 1 de enero de 2014.
Edad Españoles Extranjeros
15 años 998 115
16 años 1012 114
17 años 990 103
18 años 1046 113
19 años 1032 119
20 años 1080 117
21 años 1081 131
22 años 1001 150
23 años 1035 155
24 años 984 172
ANALES DE ECONOMÍA APLICADA 2016, NÚM. XXX
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
825
Junto a las cifras ofrecidas en las tablas anteriores, a partir de las cuales se construyen las
bases de datos Pseccion y edad.prov,250 es necesario disponer del número de nuevos
electores CER respecto de la elección de 2011 (en este caso 4.244 personas) y de las fechas
de celebración de ambas elecciones y de referencia de los datos poblacionales (22/05/2011,
24/05/2015, 01/01/2014). Una vez se dispone de todos los datos es muy sencillo realizar las
estimaciones.
Cuadro 2. Ejemplo de código R para estimar los nuevos electores en las SSCC de Melilla.
setwd("C:/Users/Jose Manuel/Documents/MEGA/Congresos/ASEPELT16/paper/DATOS")
SSCC.Melilla <- read.csv("Pseccion_Melilla.csv", sep=";", header=T)[,2:5]
Edad.Melilla <- read.csv("edad.prov_Melilla.csv", sep=";", header=T)[,2:3]
fechas <- c("22/05/2011", "24/05/2015", "01/01/2014")
Estimaciones.Melilla <- nuevos.electores(SSCC.Melilla, Edad.Melilla, 4244, fechas)
En concreto, asumiendo que hemos cargado en R el código del Cuadro 1 y que en nuestro
directorio de trabajo tenemos dos archivos csv, Pseccion_Melilla.csv y edad.prov_Melilla.csv,
con la misma estructura con que aparecen los datos en las Tablas 1 y 2, se tiene que la
estimación se obtiene ejecutando, por ejemplo, el código mostrado en el Cuadro 2, donde el
output de la función se guarda en la base de datos (data.frame) que hemos denotado
Estimaciones.Melilla y que presentamos en la Tabla 3.
Tabla 3. Estimación de nuevos electores en las SSCC de Melilla utilizando la función.
Código SSCC Brutos Enteros Código SSCC Brutos Enteros
5200101001 56.52 57 5200107001 85.79 86
5200101002 86.55 87 5200107002 65.95 66
5200102001 41.40 41 5200107003 70.22 70
5200102002 73.68 74 5200107004 93.70 94
5200102003 69.10 69 5200107005 83.80 84
5200103001 44.36 44 5200107006 124.63 125
5200103002 39.14 39 5200107007 71.67 72
5200104001 46.40 46 5200108001 147.49 148
5200104002 109.47 109 5200108002 63.98 64
5200104003 156.29 156 5200108003 159.47 159
5200104004 221.85 222 5200108004 114.21 114
5200105001 90.56 91 5200108005 94.39 94
5200105002 73.84 74 5200108006 77.33 77
5200105003 210.15 210 5200108007 92.74 93
5200105004 65.22 65 5200108008 123.92 124
5200105005 115.94 116 5200108009 102.15 102
5200105006 147.95 148 5200108010 75.15 75
5200105007 229.98 230 5200108011 129.68 130
5200105008 101.24 101 5200108012 86.98 87
5200106001 37.18 37 5200108013 60.36 60
5200106002 64.89 65 5200108014 50.27 50
5200106003 75.94 76 5200108015 112.48 113
Agradecimientos
Los autores desean agradecen el soporte recibido por el Ministerio de Economía y
Competitividad a través del proyecto CSO2013-43054-R (“Estructura Social, Encuestas y
Elecciones”) correspondiente a la convocatoria 2013 del programa de proyectos de I+D+i del
programa estatal de investigación, desarrollo e innovación orientado a los retos de la sociedad.
250 En concreto, la base Pseccion estará constituido por las cuatro últimas columnas de la Tabla 1, mientras la base
edad.prov lo estará por las dos últimas columnas de la Tabla 2.
UN NUEVO ESTIMADOR PARA DISGREGAR TOTALES POBLACIONALES. EL CASO DE LOS NUEVOS
ELECTORES
Anales de Economia Aplicada XXX, 2016, pp. 817 – 826. ISSN: 2174-3088
826
REFERENCIAS
BOE (1985): Ley Orgánica 5/1985, de 19 de junio, del Régimen Electoral General.
Boletín Oficial del Estado, 147, de 20 de junio de 1985, 19110-19134.
BOE (1999): Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de
Carácter Personal. Boletín Oficial del Estado, 298, de 14 de diciembre de 1999, 43088-
43099.
BOE (2011): Ley Orgánica 2/2011, de 28 de enero, por la que se modifica la Ley
Orgánica 5/1985, de 19 de junio, del Régimen Electoral General. Boletín Oficial del
Estado, 25, de 29 de enero de 2011, 9504-9523.
INE (2016): Estadística del Padrón Continuo. Instituto Nacional de Estadística. Madrid.
URL http://www.ine.es
KING, G. (1997): A Solution to the Ecological Inference Problem: Reconstructing
Individual Behavior from Aggregate Data. Princeton University Press. Princeton.
PAVÍA, J.M. (2010a): A Survey of Methods to Interpolate, Distribute and Extrapolate
Time Series. Journal of Service Science & Management, 3, 449-463.
PAVÍA, J.M. (2010b): Improving Predictive Accuracy of Exit-Polls. International
Journal of Forecasting, 26, 68-81.
PAVÍA, J.M.; LARRAZ, B. (2012): Sesgo de no-respuesta y modelos de
superpoblación en encuestas electorales. Revista Española de Investigaciones
Sociológicas, 137, 121-150.
R CORE TEAM (2016): R: A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing. Vienna, Austria. URL http://www.R-project.org/
RAO, J.N.K. (2015): Small Area Estimation. John Wiley and Sons, Nueva York.
... It should be noted that correspondence between census sections of the cartographic, electoral and register files, of the same year, do not always coincide 23,24 and, moreover, they vary over time 25 , so any combination of these sources requires previous processing. Details of the processing should be offered as additional information so that anyone using such files is aware of the limitations, and the hypotheses, of the information contained in them. ...
Article
Full-text available
This paper introduces the SEA database (acronym for Spanish Electoral Archive). SEA brings together the most complete public repository available to date on Spanish election outcomes. SEA holds all the results recorded from the electoral processes of General (1979–2019), Regional (1989–2021), Local (1979–2019) and European Parliamentary (1987–2019) elections held in Spain since the restoration of democracy in the late 70 s, in addition to other data sets with electoral content. The data are offered for free and is presented in a homogeneous and friendly format. Most of the databases are available for download with data from various electoral levels, including from the ballot box level. This paper details how the information is organized, what the main variables are on offer for each election, which processes were applied to the data for their homogenization, and discusses future areas of work. This data has many applications, for example, as inputs in election prediction models and in ecological inference algorithms, to study determinants of turnout or voting, or for defining marketing strategies.
... To do this, deanonymized lists of deceased would also be required. Demographic figures broken down into (single or five-year) age groups, nevertheless, are regularly published by official statistical agencies; therefore, accurate estimates of the number of new young voters (if they are not made available by the election authorities) can be easily obtained in each unit [46,47]. In a similar fashion, and depending on the size of the units, rough estimates of deceased voters could be computed applying age death probabilities to population figures. ...
Article
Inferring electoral individual behaviour from aggregated data is a very active research area, with ramifications in sociology and political science. A new approach based on linear programming is proposed to estimate voter transitions among parties (or candidates) between two elections. Compared to other linear and quadratic programming models previously published, our approach presents two important innovations. Firstly, it explicitly deals with new entries and exits in the election census without assuming unrealistic hypotheses, enabling a reasonable estimation of vote behaviour of young electors voting for the first time. Secondly, by exploiting the information contained in the model residuals, we develop a procedure to assess the uncertainty in the estimates. This significantly distinguishes our model from other published mathematical programming methods. The method is illustrated estimating the vote transfer matrix between the first and second rounds of the 2017 French presidential election and measuring its level of uncertainty. Likewise, compared to the most current alternatives based on ecological regression, our approach is considerably simpler and faster, and has provided reasonable results in all the actual elections to which it has been applied. Interested scholars can easily use our procedure with the aid of the R-function provided in the Supplemental Material.
Article
Full-text available
El sesgo de no-respuesta (y, en menor medida, el error de respuesta) se ha convertido en la principal fuente de error de las predicciones electorales en España. Las técnicas de post-estratificación y los estimadores ratio utilizados actualmente por la industria demoscópica no muestran una capacidad suficiente para corregir los sesgos introducidos durante la recogida de datos. Este trabajo revela cómo un uso más eficiente de la información electoral extramuestral disponible permitiría mejorar sensiblemente la precisión de las estimaciones y muestra, utilizando técnicas de simulación, que ello podría venir acompañado de diseños muéstrales más baratos. El estudio, no obstante, concluye que la especificación utilizada en esta investigación no constituye una panacea y señala que existe todavía margen para la corrección del sesgo de norespuesta, apuntando diversas posibilidades de investigación futura. Nonresponse bias (and, to a lesser extent, measurement error) has become the main source of error for electoral forecasts in Spain. Although the post-stratification techniques and ratio estimators currently used in the polling industry reduce deviations, they do not show enough capacity to mend the biases introduced when collecting data. This research reveals how a more efficient use of the electoral information available outside the sample could help to significantly improve the accuracy of predictions, and uses simulation techniques to show that this may be accompanied by less expensive sampling designs. The analysis, nevertheless, also concludes that the proposed specification is not a panacea and affirms that there is still scope for reducing nonresponse bias, pointing to several issues for future research.
Article
Full-text available
This survey provides an overview with a broad coverage of the literature on methods for temporal disaggregation and benchmarking. Dozens of methods, procedures and algorithms have been proposed in the statistical and economic lit-erature to solve the problem of transforming a low-frequency series into a high-frequency one. This paper classifies and reviews the procedures, provides interesting discussion on the history of the methodological development in this litera-ture and permits to identify the assets and drawbacks of each method, to comprehend the current state of art on the subject and to identify the topics in need of further development. It would be useful for readers who are interested in the techniques but are not yet familiar with the literature and also for researchers who would like to keep up with the recent developments in this area. After reading the article the reader should have a good understanding of the most important approaches, their shortcomings and advantages, and be able to make an informed judgment on which methods are most suitable for his or her purpose. Interested readers, however, will not find much detail of the methods reviewed. Due to the broadness of the subjects and the large number of studies being referenced, it is provided some general assessments on the methods revised without great detailed analysis. This review article could serve as a brief introduction to the literature on temporal disaggregation.
Book
This book provides a solution to the ecological inference problem, which has plagued users of statistical methods for over seventy-five years: How can researchers reliably infer individual-level behavior from aggregate (ecological) data? In political science, this question arises when individual-level surveys are unavailable (for instance, local or comparative electoral politics), unreliable (racial politics), insufficient (political geography), or infeasible (political history). This ecological inference problem also confronts researchers in numerous areas of major significance in public policy, and other academic disciplines, ranging from epidemiology and marketing to sociology and quantitative history. Although many have attempted to make such cross-level inferences, scholars agree that all existing methods yield very inaccurate conclusions about the world. In this volume, Gary King lays out a unique--and reliable--solution to this venerable problem. King begins with a qualitative overview, readable even by those without a statistical background. He then unifies the apparently diverse findings in the methodological literature, so that only one aggregation problem remains to be solved. He then presents his solution, as well as empirical evaluations of the solution that include over 16,000 comparisons of his estimates from real aggregate data to the known individual-level answer. The method works in practice. King's solution to the ecological inference problem will enable empirical researchers to investigate substantive questions that have heretofore proved unanswerable, and move forward fields of inquiry in which progress has been stifled by this problem.
Article
Exit polls are best known for their use in election forecasting. In recent years, however, some prominent mistaken predictions have been made, undermining public confidence in the accuracy of both exit polls and survey methods. Nonresponse bias has been claimed as being one of the main reasons for inaccurate projections. Traditionally, the issue has been handled through an age-race-sex adjustment at the national and state levels. An alternative solution is suggested and detailed in this paper. A two-step strategy is proposed to reduce nonresponse bias and improve predictions. First, "vote-remembering" (vote recall) is used to correct party proportion estimates at polling locations; second, this is used to estimate party proportions at precinct level through a regression estimator. The method is gauged by forecasting the 2003 and 2007 Corts Valencianes elections using raw data from the exit polls conducted by SigmaDos for Generalitat Valenciana. In light of the results, this procedure considerably improves raw data projections and shows a substantial improvement over industry (SigmaDos) forecasts. It therefore represents an interesting alternative that could easily be adopted for exit polling in any country where precinct-level voting data exist.
Ley Orgánica 2/2011, de 28 de enero, por la que se modifica la Ley Orgánica 5/1985, de 19 de junio, del Régimen Electoral General
BOE (2011): Ley Orgánica 2/2011, de 28 de enero, por la que se modifica la Ley Orgánica 5/1985, de 19 de junio, del Régimen Electoral General. Boletín Oficial del Estado, 25, de 29 de enero de 2011, 9504-9523.
Ley Orgánica 5/1985, de 19 de junio, del Régimen Electoral General
BOE (1985): Ley Orgánica 5/1985, de 19 de junio, del Régimen Electoral General. Boletín Oficial del Estado, 147, de 20 de junio de 1985, 19110-19134.
Estadística del Padrón Continuo Instituto Nacional de Estadística. Madrid. URL http A Solution to the Ecological Inference Problem: Reconstructing Individual Behavior from Aggregate Data
INE (2016): Estadística del Padrón Continuo. Instituto Nacional de Estadística. Madrid. URL http://www.ine.es KING, G. (1997): A Solution to the Ecological Inference Problem: Reconstructing Individual Behavior from Aggregate Data. Princeton University Press. Princeton.
Melilla <-nuevos.electores(SSCC.Melilla, Edad.Melilla, 4244, fechas)
  • Estimaciones
Estimaciones.Melilla <-nuevos.electores(SSCC.Melilla, Edad.Melilla, 4244, fechas)