Content uploaded by Francisco Vergara Perucich
Author content
All content in this area was uploaded by Francisco Vergara Perucich on Dec 19, 2021
Content may be subject to copyright.
ISSN 2452-6002
Volumen 3, Número 2
Año 2021
Publicación de Avances en Investigaciones Socio-Espaciales de la Universidad de Las Américas
Predicciones sin encuestas: ¿Boric o Kast?
Francisco Vergara-Perucich
Carlos Aguirre Nuñez
Juan Correa Parra
1
Volumen 3. Número 3. 2021.
Predicciones sin encuestas: ¿Boric o Kast?
Forecast without polls: ¿Boric or Kast?
José Francisco Vergara-Perucich, Urbanista. Ph.D. in Development Planning, University College London,
Centro Producción del Espacio Universidad de Las Américas. https://orcid.org/0000-0002-1930-4691
Juan Correa-Parra, Geógrafo. Investigador Centro Producción del Espacio, Universidad de Las Américas,
Santiago 7500975, Chile. https://orcid.org/0000-0002-0612-8780
Carlos Aguirre-Núñez, Constructor. Director Escuela de Construcción, Universidad de Las Américas,
Santiago 7500975, Chile. https://orcid.org/0000-0001-7556-8352
15-diciembre-2021
Resumen. Se presentan resultados preliminares de un estudio exploratorio estadístico en base a un
modelo ARIMA para proyectar resultados de elecciones presidenciales de segunda vuelta en Chile
desde los Google Trends. Esta técnica utiliza series de tiempo y busca generar un registro que luego
deberá ser testeado con los resultados ya acontecidos el lunes 20 de diciembre 2021.
Abstract. Preliminary results of an exploratory statistical study based on an ARIMA model to project
results of the second round of presidential elections in Chile from Google Trends are presented. This
technique uses time series and seeks to generate a record that should then be tested with the results
already occurred on Monday, December 20, 2021.
Palabras Clave: proyección, arima, elecciones.
Keywords: forecasting, arima, elections.
2
Volumen 3. Número 3. 2021.
Introducción
Para Garretón, en el proceso de la transición política desde la dictadura a la democracia los
centros de estudio tendientes a realizar estudios de opinión fueron relevantes en el diseño
de proyectos y programas políticos (Garretón, 2005). Con la implementación del voto
voluntario y ante la creciente desafección del sistema político tradicional, nuevas formas de
representación democrática comenzaron a hacerse parte de la agenda para construir una
nueva politicidad, más horizontal, participativa y con fuertes vínculos a los territorios
(Pimentel, 2021). Para Salazar, el estallido social trajo consigo un remezón desde las bases
sociales que ha inyectado mayor incertidumbre al sistema político ante lo cual la ciudadanía
puede ejercer nuevos modos de soberanía (Salazar, 2020). Sin embargo, esa soberanía
ciudadana está permeada por el ethos neoliberal, donde efectivamente se busca avanzar en
una sociedad más solidaria y con derechos sociales garantizados pero eso no necesariamente
implica una renuncia al consumo o al individualismo característicos de esta ideología
(Esposito & Perez, 2010). Esta mirada se alinea con los postulados de Mayol, Azócar y
Azócar, quienes plantean que en el Chile profundo existe un pecado asociado a no
aprovechar los recursos del país y la supuesta solidez de las instituciones para que los
individuos reciban sus recompensas desde el esfuerzo, bajo la premisa que en Chile se
pormenoriza la posición en la estructura social a la hora de evaluar el éxito, por ende los
pobres son pobres por ser flojos (Mayol et al., 2012). Las lecciones del estallido social y su
potencial impacto sobre estas miradas del Chile profundo aun están en proceso de digestión
y la alta votación de la extrema derecha en la primera vuelta presidencial de 2021, en
contraste con la alta votación a favor de un cambio constitucional en 2020, genera un
escenario de incertidumbre donde las herramientas tradicionales de medición de la opinión
pública no parecieran estar del todo ajustados a estas complejidades de una mentalidad de
las y los chilenos en proceso de transformación.
Es posible que estos cambios permitan ayudar a explicar porqué las encuestas para procesos
eleccionarios en Chile no han logrado la precisión que sí tuvieron en el pasado. Marta Lagos,
ante la importante diferencia en los resultados de la primera vuelta de 2017 contra todas las
encuestas, planteaba la urgencia de adecuar las encuestas nacionales a los estándares de
calidad internacionales, avanzando hacia colegiar a las empresas de encuestas en Chile,
indicando que un volumen importante de la votación se decide durante la campaña y por
ello es clave el factor temporalidad a la hora de buscar predicciones precisas (Lagos, 2017).
En 2021, la elección de constituyentes registró una votación sorprendente para candidaturas
independientes, algo que tampoco pudo ser anticipado por las encuestadoras en parte por
constituir un escenario nuevo ante lo cual las metodologías existentes no fueron eficaces
(Rojas, 2021). Para Andrés Scherman, existen 4 razones que pueden explicar la imprecisión
de las encuestas electorales (i) falta de un sistema de preguntas optimo para identificar al
votante probable, (ii) problemas para realizar encuestas cara a cara en muestreos
probabilísticos, (iii) la prohibición por ley de publicar encuestas 15 días antes de la elección
(cuando cerca del 30% de los electores decide su voto) y (iv) cambio de la composición etaria
3
Volumen 3. Número 3. 2021.
de los votantes (Scherman, 2021). Para Browne y Gonzalez, además, resulta fundamental
aumentar la transparencia en el diseño de encuestas en busca de asegurar, por un lado que
la audiencia entiende bien los objetivos y motivaciones de cada estudio (Browne &
Gonzalez, 2021), además de permitir la replicabilidad de los métodos para contrastar
resultados, haciendo hincapié que la precisión de las encuestas aumenta a medida que se
acerca el día de la elección. Debido a que la ley prohíbe hacer encuestas días antes de la
elección, hemos realizado una aproximación en proceso de maduración desde nuestro
centro de investigación para testear si con el uso de big data se pueden pronosticar
preferencias de las personas en chile y cuanta precisión ofrecen esas proyecciones al aplicar
técnicas usadas en otros lados para los mismos fines.
Big-data, Google Trends e interés en el tiempo
Desde hace un tiempo que big-data está siendo utilizado para proyectar mas que para
monitorear ciertas preferencias de consumidores, para lo cual la herramienta de Google
Trend es tremendamente útil, aunque de momento aún no ofrece acceso directo a datos
brutos que es lo ideal en este sentido(Jun et al., 2018). Google Trends es un servicio de
Google orientado a identificar los términos de búsqueda más populares para un cierto
período de tiempo, registrando tendencias y conceptos asociados a las búsquedas
específicas. Las búsquedas de internet pueden ser de gran utilidad para identificar
preferencias de las comunidades a la hora de diseñar políticas públicas que , justamente,
apunten a la demanda que dichas comunidades hacen hacia sus autoridades (Oehl et al.,
2017). En Chile, estas técnicas se han probado. Reyes, Majluf e Ibañez utilizaron las
búsquedas de internet en Chile para identificar en 2018 que la mirada de los chilenos había
pasado desde un enfoque pro empresarial a uno que era mas bien anti empresarial (Reyes
et al., 2018), resultado premonitorio de lo que serían las principales causales del estallido
social identificadas hasta ahora. Otro caso en chile es el sitio web www.monitorsocial.cl, que
ha entregado resultados con bajo margen de error y que a la fecha de escribir este texto
registra una atención global de 53% para Boric y 47% para Kast (Beytía & Cruz, 2021). En
este caso, buscaremos desarrollar una predicción que considera algunos supuestos
relevantes para la elección del domingo 19 de diciembre mediante un modelo ARIMA de
serie de tiempo y el uso de las bases de datos obtenidas en Google Trends con el packete de
R::gtrendsR. Luego, el análisis de serie de tiempo se realiza en Gretl.
Los datos se obtienen aplicando una extracción desde Rstudio, con la siguiente orden:
dataset <- gtrends(keyword = c("boric -kast", "kast -boric"),
geo = "CL",
time = "now 7-d")
4
Volumen 3. Número 3. 2021.
A partir del set de datos se crea una tabla en formato de serie de tiempo que transforma en
porcentajes por pares de períodos entre el interés captado por Boric y Kast respectivamente,
identificando también la diferencia porcentual entre uno y otro para los 168 períodos
obtenidos en la extracción. Es importante mencionar que la extracción realizada contempla
cerca de 24 datos diarios (1 por hora) por 7 días seguidos. La pregunta que se le hace a la
serie de tiempo es ¿Cuál sería el ganador si la elección fuera mañana? Para responder esta
pregunta se utiliza un modelo ARIMA (Auto-Regressive, Integrated, Moving Average),
técnica de análisis en serie de tiempo que permite la proyección futura de variables en base
a la identificación de variaciones y regresiones de una misma variable con datos del pasado
para encontrar los patrones que permiten la proyección según ciertos niveles de precisión.
Los modelos ARIMA son modelos paramétricos elaborados en los años veinte por Yule y
Slutzky, claves para aplicar medias móviles a estudios macroeconómicos. Según Gujarati y
Porter, el modelo ARIMA para predicción ofrece mejores resultados que otros regresores
económicos (Gujarati & Porter, 2009). Antes de correr el modelo se debe revisar que exista
un paseo aleatorio de las variables con media en 0. En esto es fundamental que las varianzas
sean estacionarias y que las tendencias estén disminuidas al mínimo posible. Esto se puede
revisar visualmente, pero también se puede aplicar un test de Dicky Fuller Aumentado para
chequear la estacionalidad mediante un contraste de raíz unitaria. En el contraste por raíz
unitaria por Dicky-Fuller aumentado resulta que la series es estacionaria al nivel de base de
los datos con una constante como se indica en la Tabla 1.
Tabla 1. Contraste de raíz unitaria por Dicky-Fuller Aumentado para comprobar que la serie de
tiempo es estacionaria para las variables del porcentaje de interés por hora sobre Boric y Kast en las
búsquedas de Google durante los últimos 7 días.
Variable
Valor de P
Rezagos
Interés por hora sobre Boric
0.02793
13
Interés por hora sobre Kast
0.02793
13
Resultados y discusión
Para este análisis tenemos un supuesto: los votantes en sus teléfonos celulares tienen mayor
intimidad con lo que buscan en redes y en Chile, especialmente, dichas búsquedas ocurren
en Google. Por ende, si se limpian las búsquedas para hacer que la serie de tiempo a analizar
solo registre búsquedas orientadas a informar un voto mas que a curiosear sobre polémicas
del momento, los resultados debieran entregar una precisión similar al de una encuesta. Este
supuesto se sustenta sobre el artículo de Mavragani y Tsagarakis ,(2019) sobre la capacidad
predictiva de los Google Trends en los recientes referéndums en Europa, donde un modelo
basado en dicha fuente de datos permitió generar mejores resultados predictivos que
encuestas locales para el caso del referéndum de Escocia 2014, Grecia 2015, Reino Unido
5
Volumen 3. Número 3. 2021.
2016, Hungría 2016, Turquía 2017 e Italia 2016, aunque en este ultimo caso la capacidad
predictiva de los modelos fue menor que en los otros, donde la diferencia estadística entre
tendencias y resultados fue cercana al 3,1% promedio de error en 8 casos analizados. En este
caso, mas que un promedio de hits se busca explorar predicción a futura para lo cual se
aplica un modelo ARIMA (1,0,1), cuyos resultados se sintetiza en la siguiente tabla:
6
Volumen 3. Número 3. 2021.
Tabla 2. Síntesis de resultados de modelo ARIMA aplicado a la serie de tiempo.
Candidato
Variable
Coeficiente
Error
estándar
Valor p
R2
ajustado
Boric
Constante
Boric
0,564
0,0239
7,44e-123
0,718
Phi 1 Boric
0,909
0,035
1,47e-147
Theta 1 Boric
-0,194
0,085
0,023
Kast
Constante Kast
0,435
0,023
6,24e-74
0,718
Phi 1 Kast
0,909
0,035
1,47e-147
Theta 1 Kast
-0,194
0,085
0,023
Estos resultados indican alta significancia estadística y capacidad explicativa del modelo,
con un buen ajuste indicado en el R2 y con un valor de p inferior a 0.05 que es lo que le da
suficiencia para realizar una predicción. El resultado de la predicción se puede ver en la
siguiente figura.
Figura 1. Proyección en 24 horas del resultado si la elección fuera mañana en base a Google
Trends.
7
Volumen 3. Número 3. 2021.
En base a esta información y respondiendo a la pregunta de este estudio exploratorio, si la
elección fuera mañana ganaría Boric con un 57% de las preferencias contra un 43% de las
preferencias por Kast, realizando una transferencia directa del interés que candidato ha
despertado durante los últimos 7 días de monitoreo por hora. Al comparar este resultado
con las últimas encuestas, se obtiene el siguiente resultado:
Tabla 3. Resultado comparado de este estudio con otras mediciones.
Fuente
Boric
Kast
Este estudio: Interés por
hora sobre cada candidato
por separado
57%
43%
Criteria: “Si as elecciones
presidenciales fueran el
próximo domingo, ¿por
cuál de los siguientes
candidatos votaría?
54%
46%
Pulso ciudadano: “¿Por
quién votarás?
59%(42,2% con indecisos)
40%(28,3% con indecisos)
CADEM: “Si las elecciones
fueran el próximo domingo,
¿Por quién votarías?”
53% (45% con indecisos)
47% (35% con indecisos)
Monitor Social: “Atención
Global de cada candidato”
55%
45%
Atlas Intel
51% (41% con indecisos)
48(38% con indecisos)
Las proyecciones a partir del modelo Arima no son tan distintas a los resultados de las
últimas encuestas. Precisiones y mejoras al modelo predictivo se podrán aplicar una vez
teniendo el resultado definitivo. Por ejemplo, utilizar un modelo ARIMA (2,1,2) en vez de
uno (1,0,1) como el usado aquí. Algunas alternativas se pueden explorar tomando como
regresores los resultados de las encuestas o bien aplicando modelos sin serie de tiempo, no
obstante, a partir de los resultados de este estudio exploratorio, se puede ver que el
rendimiento del candidato Boric durante la última semana ha mejorado sus expectativas
con relación a las encuestas (resultados que se presentaron 11 días antes de este estudio) y
por otro lado el candidato Kast ha empeorado sus resultados en los Google Trends. Aun así,
los modelos ARIMA presentan un r2 de 0,718, es decir, aun la elección la puede ganar
cualquiera por el propio error estadístico en base a los valores anteriores usados para la
proyección. Es decir, ya antes Kast ha mejorado mucho su rendimiento en Google Trends lo
8
Volumen 3. Número 3. 2021.
que puede implicar una victoria, pero también esto puede significar un triunfo épico para
Boric, considerando que cuenta con una ventaja en todos los sondeos que fueron
consultados en este levantamiento.
Referencias
Beytía, P., & Cruz, C. (2021, diciembre 15). Monitor social [Web]. Monitor social.
https://www.monitorsocial.cl/
Browne, M., & Gonzalez, R. (2021, noviembre 26). Buenas y malas encuestas. CIPER Chile,
2.
Esposito, L., & Perez, F. (2010). The global addiction and human rights: Insatiable
consumerism, neoliberalism, and harm reduction. PERSPECTIVES ON GLOBAL
DEVELOPMENT AND TECHNOLOGY, 9(1–2), 84–100.
Garretón, M. (2005). Social sciences and society in Chile: Institutionalization, breakdown
and rebirth. Social Science Information, 44(2–3), 359–409.
Gujarati, D. N., & Porter, D. C. (2009). Basic of Econometric, Fifth Edition. En Econometrics.
Jun, S.-P., Sun Yoo, H., & Choi, S. (2018). Ten years of research change using Google Trends:
From the perspective of big data utilizations and applications. Technological
Forecasting and Social Change, 130(1), 69–87.
https://doi.org/10.1016/j.techfore.2017.11.009
Lagos, M. (2017, noviembre 21). Mea culpa: El error de las encuestas en las elecciones
presidenciales de 2017. El mostrador, 2.
Mavragani, A., & Tsagarakis, K. (2019). Predicting referendum results in the Big Data Era.
Journal of Big Data, 6(3), 1–20. https://doi.org/10.1186/s40537-018-0166-z
Mayol, A., Azocar, C., & Azocar, C. (2012). El Chile Profundo. Editorial Universitaria.
9
Volumen 3. Número 3. 2021.
Oehl, B., Schaffer, L., & Bernauer, T. (2017). How to measure public demand for policies
when there is no appropriate survey data? JOURNAL OF PUBLIC POLICY, 37(2),
179–204. https://doi.org/10.1017/S0143814X16000155
Pimentel, F. (2021). Tendencias del comportamiento electoral en el chile post-autoritario.
Una discusión bibliográfica. Encrucijada Americana, 13(1), 7–38.
Reyes, T., Majluf, N., & Ibañez, R. (2018). Using Internet Search Data to Measure Changes
in Social Perceptions: A Methodology and an Application. SOCIAL SCIENCE
QUARTERLY, 99(2), 829–845.
Rojas, F. (2021, mayo 24). “Era imposible proyectar”: El mea culpa de los encuestadores tras
el fail de los sondeos previos a la elección. La Tercera, 2.
Salazar, G. (2020). Acción Constituyente (1a ed.). Tajamar Ediciones.
Scherman, A. (2021, julio 26). Cuatro posibles razones de la imprecisión de las encuestas
electorales. CIPER Chile, 3.