Content uploaded by Víctor Yeste
Author content
All content in this area was uploaded by Víctor Yeste on Jun 15, 2022
Content may be subject to copyright.
Diseño de una metodología
cibermétrica de cálculo del éxito
para la optimización de
contenidos web
Tesis doctoral. Universitat Politècnica de València
Programa de Doctorado en
Industrias de la Comunicación y Culturales
Víctor Yeste
( vicyesmo@inf.upv.es )
Directores: Jorge Serrano-Cobos y Ángeles Calduch Losa
Lugar y fecha: Valencia, 29/09/2021
Índice
Justificación de la investigación
Objetivos
Estado de la cuestión
Metodología
Análisis y discusión de los resultados
Conclusiones
Limitaciones y futuras líneas de
investigación
1
Justificación de la Investigación
Foto de hubspot.com
2
Justificación de la investigación
Recolectar
datos
Identificar
eventos
Priorizar la
información
Generar
una
narrativa
Publicar una
historia
Fuente: Graefe (2016). Elaboración propia. 3
Justificación
Algunos ejemplos:
•Periódicos digitales
•Radio online
•Blogs
•Webs de negocios
Justificación de la investigación
•Optimizar recursos y aumentar la difusión de los contenidos online.
•No se han descubierto investigaciones sobre:
•Medición desde el punto de vista de una publicación en concreto.
•Predicción de sus parámetros analíticos en el ámbito del medio al que
pertenece.
4
Justificación
Objetivos
Foto de Getty Images
5
Objetivo principal
Diseñar una metodología cibermétrica para analizar y
tratar de predecir el éxito de los contenidos publicados
en un medio de comunicación online.
6
Objetivos
Objetivos específicos
Investigar el
concepto de éxito
Diseño de la
metodología
Tratamiento de
datos
Análisis de la
información
Selección de la
ecuación más
precisa
7
Objetivos
Estado de la cuestión
Foto de Getty Images
8
Consumo de contenidos
Periodismo
digital
Twitter
Difusión de
las noticias
en Twitter
9
Estado de la cuestión
Medición web de éxito
Analítica
web
Cibermetría
Analítica en
Twitter
Análisis de
tendencias
en Twitter
Publicidad
digital en la
web
10
Estado de la cuestión
Metodología
Foto de Acro Media
11
Resumen
• Aplicada, exploratoria y longitudinal.Tipo de investigación
• Cuantitativo.Enfoque
• API de informes de Google Analytics v4.
• Twitter Standard API.
Instrumentos de recolección
de información
• Estadística descriptiva y análisis de regresión
mediante software estadístico (STATGRAPHICS).
Técnicas de análisis de
información
12
Metodología
Resumen
• Noticias de última hora publicadas en un medio.Población
• 100% de las noticias de última hora publicadas en
el marco temporal seleccionado.
Muestra
• Principales: cine, series de televisión, videojuegos,
literatura, cómics, tráileres y superhéroes.
• Secundarias: Etiquetas de cada artículo.
Temáticas
13
Metodología
Indicadores: Analítica del contenido en la web
Adquisición
Páginas vistas
únicas (total)
Páginas vistas
únicas (media)
Entradas (media)
Comportamiento
Duración en la
página (media)
Porcentaje de
salida (media)
Páginas vistas por
sesión (media)
Resultados
Impresiones de
anuncios por
sesión (total)
Impresiones de
anuncios por
sesión (media)
Porcentaje de
impresiones
visibles de
anuncios (media)
CTR de los
anuncios (media)
eCPM Google
AdSense (media) 14
Metodología
Indicadores: Analítica del contenido en Twitter
Amplificación
Retuits
(total)
Retuits por
tuit (media)
Elogio
Favoritos
(total)
Favoritos por
tuit (media)
15
Metodología
Indicadores: Análisis de tendencias en Twitter
Amplificación
Tuits (total)
Retuits (total)
Retuits por tuit
(media)
Ratio de
seguidores del
medio que han
participado
Elogio
Favoritos (total)
Favoritos por tuit
(media)
Autoridad
Seguidores del
autor del tuit
(media)
Tuits de la cuenta
del autor del tuit
(media)
Edad de la cuenta
del autor del tuit
(media)
Contenido
Inclusión de una
URL en el tuit
(media)
16
Metodología
Acotación temporal
17
Metodología
Limitaciones metodológicas
•Google AdSense con anuncios automáticos => no se estudia la localización y tamaño.
•Twitter Standard API => 180 peticiones/15 min, con un máx 100 tuits/petición. Max
= 25 peticiones para cada etiqueta en formato normal y 25 en formato hashtag.
•Twitter Standard API => muestra de los últimos 7 días en búsquedas.
•Términos muy genéricos, como “65”.
•Selección manual de los términos relacionados.
•Eventos globales que puedan afectar al uso de Twitter.
18
Metodología
Análisis y discusión de los
resultados
Foto de Search Engine Journal
19
Datos
Fase 1: 2 meses
Análisis de la información
Datos de entrenamiento
• 350 artículos publicados
• 7.035 artículos analizados
• 817 términos analizados
Fase 2: 1mes
Selección de la ecuación más precisa
Datos de test
• 178 artículos publicados
• 5.251 artículos analizados
• 462 términos analizados
Datos totales: 325.226
20
Resultados: Resumen
Variables
Éxito Páginas vistas únicas (total): uniquepageviews_total,
AdSense eCPM (promedio): adsense_ecpm_mean,
Duración de la visita (promedio): avgtimeonpage_mean,
Páginas vistas por sesión (promedio): pageviewspersession_mean,
Número de retuits en la cuenta del medio (promedio): retweet_count_mean,
Número de favoritos en la cuenta del medio (promedio): favorite_count_mean,
Número de tuits de la tendencia 14 días después (total): terms_end_num_tweets,
Número de retuits de la tendencia 14 días después (total): terms_end_retweet_count_total
Número de retuits de la tendencia 14 días después (promedio): terms_end_retweet_count_mean
21
Resultados: Resumen
Variables
Predicción Número de tuits de la tendencia inicial (total): terms_ini_num_tweets,
Número de retuits de la tendencia inicial (total): terms_ini_retweet_count_total,
Número de retuits de la tendencia inicial (promedio): terms_ini_retweet_count_mean,
Número de favoritos de la tendencia inicial (total): terms_ini_favorite_count_total,
Número de favoritos de la tendencia inicial (promedio): terms_ini_favorite_count_mean,
Número de seguidores del medio que hablan sobre la tendencia inicial (total): terms_ini_followers_talking_rate,
Número de seguidores de los usuarios que hablan sobre la tendencia inicial (promedio):
terms_ini_user_num_followers_mean,
Número de tuits de los usuarios que hablan sobre la tendencia inicial (promedio):
terms_ini_user_num_tweets_mean,
Edad en número de días de las cuentas de los usuarios que hablan sobre la tendencia inicial (promedio):
terms_ini_user_age_mean,
Ratio de inclusión de URLs en los tuits de la tendencia inicial: terms_ini_url_inclusion_rate
22
Resultados: Resumen
Objetivos estadísticos
Regresión Lineal Múltiple
Linealidad
Normalidad
Al menos 30 observaciones
Colinealidad
Datos anómalos
Homocedasticidad (deseable)
Para variables de éxito con datos de conteo
Varianza = media o chi-cuadrada de Pearson
cercana a uno:
Regresión de Poisson
En caso contrario:
Regresión Binomial Negativa
23
Resultados: Resumen
Fase 1: Proceso de los datos de entrenamiento
Variables de
éxito
Análisis de cada
variable
Normalidad y
equidistribución
de los residuos
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Variables de
predicción
Análisis de cada
variable
Normalidad,
equidistribución de
los residuos y
homocedasticidad
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Análisis de
componentes
principales
Regresión lineal
múltiple por
cada variable de
éxito
Regresión
binomial
negativa o de
Poisson
Elegir tipo de
regresión
Filtro de alta
correlación entre
variables de
predicción
Regresión de variables
de éxito de conteo =>
ecuación de predicción
Para cada temática principal:
24
Resultados: Fase 1
Todos: Variables de éxito
Páginas vistas únicas (total)
•Variable aleatoria discreta. 350 valores
naturales, min = 1 y max = 704.
•Valores anómalos de tipo extremo de 115 o
más: noticias de alto impacto.
•Según Google Trends => cantidad de
búsqueda constante, sin picos abruptos
salvo en términos de pocas búsquedas.
25
Resultados: Fase 1
Normalidad
Casi-normalidad:
-5 a +5 en sesgo y curtosis
estandarizados
Tratar de normalizar con:
Transformación logarítmica
26
Resultados: Fase 1
Todos: Variables de éxito
Filtro de alta correlación
Variables de éxito
•log(uniquepageviews_total)
•log(avgtimeonpage_mean)
•log(pageviewspersession_mean)
•log(favorite_count_mean)
•log(terms_end_retweet_count_mean)
No hay ninguna correlación
fuerte (igual o mayor a 0,7)
27
Resultados: Fase 1
Fase 1: Proceso de los datos de entrenamiento
Variables de
éxito
Análisis de cada
variable
Normalidad y
equidistribución
de los residuos
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Variables de
predicción
Análisis de cada
variable
Normalidad,
equidistribución de
los residuos y
homocedasticidad
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Análisis de
componentes
principales
Regresión lineal
múltiple por
cada variable de
éxito
Regresión
binomial
negativa o de
Poisson
Elegir tipo de
regresión
Filtro de alta
correlación entre
variables de
predicción
Regresión de variables
de éxito de conteo =>
ecuación de predicción
Para cada temática principal:
28
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Variables
de predicción
Variables
de éxito
log(
terms_ini_retweet_count_mean)
log(
uniquepageviews_total)
log(terms_ini_favorite_count_mean)
log(
avgtimeonpage_mean)
log(terms_ini_user_num_followers_mean)
log(pageviewspersession_mean)
log(terms_ini_url_inclusion_rate)
log(favorite_count_mean)
log(
terms_end_retweet_count_mean)
Lista final de variables para la Regresión Lineal Múltiple:
29
Resultados: Fase 1
Fase 1: Proceso de los datos de entrenamiento
Variables de
éxito
Análisis de cada
variable
Normalidad y
equidistribución
de los residuos
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Variables de
predicción
Análisis de cada
variable
Normalidad,
equidistribución de
los residuos y
homocedasticidad
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Análisis de
componentes
principales
Regresión lineal
múltiple por
cada variable de
éxito
Regresión
binomial
negativa o de
Poisson
Elegir tipo de
regresión
Filtro de alta
correlación entre
variables de
predicción
Regresión de variables
de éxito de conteo =>
ecuación de predicción
Para cada temática principal:
30
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Nº de retuits de la tendencia 14 días después (promedio)
p-valor de la Regresión Lineal Múltiple inicial
Variable
Estimación
p
-valor
Constante
0
,0726939
0
,9381
log(
terms_ini_retweet_count_mean)
0
,646824
0
log(terms_ini_favorite_count_mean)
-
0,200717
0
,2294
log(terms_ini_user_num_followers_mean)
0
,0985493
0
,2959
log(terms_ini_url_inclusion_rate)
0
,0202266
0
,9416
Modelo
0
31
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Nº de retuits de la tendencia 14 días después (promedio)
p-valor de la Regresión Lineal Múltiple inicial
Variable
Estimación
p
-valor
Constante
0
,0726939
0
,9381
log(
terms_ini_retweet_count_mean)
0
,646824
0
log(terms_ini_favorite_count_mean)
-
0,200717
0
,2294
log(terms_ini_user_num_followers_mean)
0
,0985493
0
,2959
log(terms_ini_url_inclusion_rate)
0
,0202266
0
,9416
Modelo
0
p-valor de la Regresión Lineal Múltiple final
p-valor < 0,05 => Relación estadísticamente
significativa con nivel de confianza del 95%.
R-Cuadrada = 33,3444%. R-Cuadrada ajustada = 33,1424%.
La ecuación del modelo ajustado es:
terms_end_retweet_count_mean = exp(0,832979 +
0,633544 * log(terms_ini_retweet_count_mean))
Variable
Estimación
p
-valor
Constante
0
,832979
0
log(
terms_ini_retweet_count_mean)
0
,633544
0
Modelo
0
x < 0,05
32
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Páginas vistas únicas (total)
Variable
Estimación
p
-valor
Constante
3
,79977
0
log(
terms_ini_retweet_count_mean)
0
,0574119
0
,0945
log(terms_ini_favorite_count_mean)
0
,0395773
0
,6725
log(terms_ini_user_num_followers_mean)
-
0,103491
0
,0586
log(terms_ini_url_inclusion_rate)
-
0,051989
0
,7382
Modelo
0
,0352
p-valor de la Regresión Lineal Múltiple inicial
33
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Páginas vistas únicas (total)
Variable
Estimación
p
-valor
Constante
3
,79977
0
log(
terms_ini_retweet_count_mean)
0
,0574119
0
,0945
log(terms_ini_favorite_count_mean)
0
,0395773
0
,6725
log(terms_ini_user_num_followers_mean)
-
0,103491
0
,0586
log(terms_ini_url_inclusion_rate)
-
0,051989
0
,7382
Modelo
0
,0352
p-valor de la Regresión Lineal Múltiple inicial
Variable
Estimación
p
-valor
Constante
3
,84642
0
log(
terms_ini_retweet_count_mean)
0
,0669324
0
,0149
log(terms_ini_user_num_followers_mean)
-
0,102428
0
,0434
Modelo
0
,0068
p-valor de la Regresión Lineal Múltiple final
R-Cuadrada = 2,87745%. R-Cuadrada ajustada = 2,30948%.
La ecuación del modelo ajustado es:
uniquepageviews_total = exp(3,84642 + 0,0669324 *
log(terms_ini_retweet_count_mean) - 0,102428 *
log(terms_ini_user_num_followers_mean))
x < 0,05
p-valor < 0,05 => Relación estadísticamente
significativa con nivel de confianza del 95%.
34
Resultados: Fase 1
Todos: Regresión Lineal Múltiple
Relaciones entre variables de predicción y de éxito
35
Resultados: Fase 1
Fase 1: Proceso de los datos de entrenamiento
Variables de
éxito
Análisis de cada
variable
Normalidad y
equidistribución
de los residuos
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Variables de
predicción
Análisis de cada
variable
Normalidad,
equidistribución de
los residuos y
homocedasticidad
Normalizar las
variables si es
necesario
Filtrar
correlaciones
fuertes
Análisis de
componentes
principales
Regresión lineal
múltiple por
cada variable de
éxito
Regresión
binomial
negativa o de
Poisson
Elegir tipo de
regresión
Filtro de alta
correlación entre
variables de
predicción
Regresión de variables
de éxito de conteo =>
ecuación de predicción
Para cada temática principal:
36
Resultados: Fase 1
Regresión Binomial Negativa o de Poisson
Variables de éxito: las variables de conteo
•Páginas vistas únicas (total): uniquepageviews_total
•Nº de tuits de la tendencia 14 días después (total): terms_end_num_tweets
•Nº de retuits de la tendencia 14 días después (total): terms_end_retweet_count_total
37
Resultados: Fase 1
Videojuegos: Regresión binomial Negativa o de
Poisson
Filtro de alta correlación
Variables de predicción
•terms_ini_retweet_count_mean
•terms_ini_favorite_count_total
•terms_ini_favorite_count_mean
•terms_ini_followers_talking_rate
•terms_ini_user_num_followers_mean
•terms_ini_user_num_tweets_mean
•terms_ini_user_age_mean
•terms_ini_url_inclusion_rate
Correlaciones fuertes:
•terms_ini_num_tweets y
terms_ini_favorite_count_total
•tems_ini_retweet_count_total y
terms_ini_retweet_count_mean
Se elige terms_ini_favorite_count_total
y terms_ini_retweet_count_mean
por sesgo y una curtosis estandarizados
menores.
38
Resultados: Fase 1
Videojuegos: ¿Regresión Binomial Negativa o de
Poisson?
Páginas vistas únicas (total)
•Chi-cuadrado calculado: 34.673,9 >>> 1
•p-valor: cercano a 0
Regresión Binomial Negativa
Más adecuada con un 95% de confianza
39
Resultados: Fase 1
Videojuegos: Regresión Binomial Negativa
Páginas vistas únicas (total)
p-valor de la Regresión Binomial Negativa inicial
Variable
Estimación
p
-valor
Constante
3
,44534
terms_ini_retweet_count_mean
0
,000752962
0
,082
terms_ini_favorite_count_total
0
,0000153543
0
terms_ini_favorite_count_mean
-
0,166932
0
terms_ini_followers_talking_rate
16
,2211
0
,0001
terms_ini_user_num_followers_mean
-
0,000018654
0
,1508
terms_ini_user_num_tweets_mean
0
,0000416159
0
,0013
terms_ini_user_age_mean
-
0,0000940685
1
terms_ini_url_inclusion_rate
-
2,42176
0
,0001
Modelo
0
40
Resultados: Fase 1
Videojuegos: Regresión Binomial Negativa
Páginas vistas únicas (total)
p-valor de la Regresión Binomial Negativa inicial
p-valor de la Regresión Binomial Negativa final
R-Cuadrada = 60,1601%. R-Cuadrada ajustada = 55,3071%.
La ecuación del modelo ajustado es:
uniquepageviews_total = exp(3,44036 + 0,000626433 *
terms_ini_retweet_count_mean + 0,0000162856 *
terms_ini_favorite_count_total - 0,21469 *
terms_ini_favorite_count_mean + 16,3856 *
terms_ini_followers_talking_rate + 0,0000359194 *
terms_ini_user_num_tweets_mean - 2,53259 *
terms_ini_url_inclusion_rate)
Variable
Estimación
p
-valor
Constante
3
,44534
terms_ini_retweet_count_mean
0
,000752962
0
,082
terms_ini_favorite_count_total
0
,0000153543
0
terms_ini_favorite_count_mean
-
0,166932
0
terms_ini_followers_talking_rate
16
,2211
0
,0001
terms_ini_user_num_followers_mean
-
0,000018654
0
,1508
terms_ini_user_num_tweets_mean
0
,0000416159
0
,0013
terms_ini_user_age_mean
-
0,0000940685
1
terms_ini_url_inclusion_rate
-
2,42176
0
,0001
Modelo
0
Variable
Estimación
p
-valor
Constante
3
,44036
terms_ini_retweet_count_mean
0
,000626433
0
terms_ini_favorite_count_total
0
,0000162856
0
terms_ini_favorite_count_mean
-
0,21469
0
terms_ini_followers_talking_rate
16
,3856
0
,0051
terms_ini_user_num_tweets_mean
0
,0000359194
0
,0002
terms_ini_url_inclusion_rate
-
2,53259
0
,0001
Modelo
0
x < 0,05
p-valor < 0,05 => Relación estadísticamente
significativa con nivel de confianza del 95%. 41
Resultados: Fase 1
Videojuegos: Regresión Binomial Negativa
Relaciones entre variables de predicción y de éxito
42
Resultados: Fase 1
Tráileres: Fase 2. Validación de la predicción
Regresiones Lineales Múltiples Regresiones Binomiales Negativas
Variable
R
-Cuadrada
RMSE
(fase 1)
RMSE
(fase 2)
SI
(fase 2)
uniquepageviews_total
6
,04245%
70
,07766
57
,60066
0
,76003
adsense_ecpm_mean
8
,49787%
0
,05946
0
,14134
2
,80787
avgtimeonpage_mean
10
,9437%
150
,51153
150
,44009
1
,52686
pageviewspersession_mea
n
18
,3504%
1
,00766
1
,2001
0
,88363
retweet_count_mean
11
,7912%
0
,55238
0
,55513
0
,88614
favorite_count_mean
18
,2644%
1
,20543
1
,00843
0
,98383
terms_end_retweet_count
_mean
45
,2254%
154
,90103
133
,77985
1
,66173
Variable
R
-Cuadrada
RMSE
(fase 1)
RMSE
(fase 2)
SI
(fase 2)
uniquepageviews_total
3
,83227%
64
,69814
56
,71271
1
,3430097
51
terms_end_num_tweets
9
,66905%
191
.349.583,95
872
613
.426.846,31
294
427
.349,76
2767226
terms_end_retweet_count
_total
9
,81024%
12
.956.614.341.
885
.000
24
.375.900.093.
443
.000
27
.418.837
.
373,8368
RMSE: raíz del error medio cuadrático (Root Mean Square Error).
Menor valor => mejor ajuste de la predicción a los datos.
SI: Scatter Index. Normaliza el RMSE dividiéndolo por el valor medio de los datos observados.
43
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
44
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir el promedio de tiempo de visita (avgtimeonpage_mean) de una noticia de Cine:
45
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir el promedio de tiempo de visita (avgtimeonpage_mean) de una noticia de Cine:
46
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir el promedio de favoritos en la cuenta del medio (favorite_count_mean) de una noticia de tráiler de Series:
47
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir el promedio de favoritos en la cuenta del medio (favorite_count_mean) de una noticia de tráiler de Series:
48
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir las páginas vistas únicas (uniquepageviews_total) de una noticia de Videojuegos:
49
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir las páginas vistas únicas (uniquepageviews_total) de una noticia de Videojuegos:
50
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir las páginas vistas únicas (uniquepageviews_total) de una noticia de tráiler de Cine:
51
Resultados: Fase 2
Selección de ecuaciones de predicción
Variable
SI
-
RLM
(todos)
SI
-RLM (Cine)
SI
-
RLM
(Series)
SI
-
RLM
(Videojuegos)
SI
-
RLM
(Tráileres)
SI
-
RBN
(todos)
SI
-
RBN
(Cine)
SI
-
RBN
(Series)
SI
-
RBN
(Videojuegos)
SI
-
RBN
(Tráileres)
uniquepageviews_total
4
,04999
1
,26753
6
,09730
0
,85982
0
,76003
1
,620439415
4
,705224621
0
,904758376
1
,343009751
adsense_ecpm_mean
2
,80787
avgtimeonpage_mean
1
,06722
0
,90112
1
,34917
1
,52686
pageviewspersession_mean
0
,60404
0
,69056
0
,62952
0
,88363
retweet_count_mean
0
,88614
favorite_count_mean
0
,9928
0
,9784
1
,11413
0
,98383
terms_end_num_tweets
0
,58412
2
,10369
264
.745,7692
70242
374
.592,1044
93180
243
.293,8924
0533
141
.561,3147
92669
427
.349,76276
7226
terms_end_retweet_count_
total
727
.878.085.
240
,5603
91
.323.252.4
04
.661,1708
401
.970.209,
0824
3
.287.446.88
7
,0522
27
.418.837.373
,
8368
terms_end_retweet_count_
mean
1
,88999
1
,10283
2
,20257
3
,30717
1
,66173
Predecir las páginas vistas únicas (uniquepageviews_total) de una noticia de tráiler de Cine:
52
Resultados: Fase 2
Conclusiones
Foto de Neil Ritson
53
Conclusiones
54
Conclusiones
Investigar el
concepto de éxito
Diseño de la
metodología
Tratamiento de
datos
Análisis de la
información
Selección de la
ecuación más
precisa
Esta metodología ha servido para conocer mejor el éxito de un contenido digital antes de
invertir recursos en él.
Los indicadores propuestos por autores como Kaushik (2011), Gutiérrez Argüello (2013), Suh et
al. (2010) y Thelwall y Cugelman (2017) sí que han aportado una parte de la variabilidad
necesaria para explicar los indicadores de éxito.
Conclusiones
55
Conclusiones
Investigar el
concepto de éxito
Diseño de la
metodología
Tratamiento de
datos
Análisis de la
información
Selección de la
ecuación más
precisa
Invita a aplicar la metodología en casos de uso, muestras e indicadores diferentes.
El carácter fuertemente multifactorial de Internet sugiere que hay mucho que investigar
y que descubrir en este marco de investigación.
Conclusiones
56
Conclusiones
Investigar el
concepto de éxito
Diseño de la
metodología
Tratamiento de
datos
Análisis de la
información
Selección de la
ecuación más
precisa
La variabilidad ha sido baja en muchos casos, lo que ha disminuido la precisión de las
predicciones.
Hay relaciones entre las variables, algo útil no solo para su predicción sino para su
posible análisis y optimización.
Conclusiones
57
Conclusiones
Investigar el
concepto de éxito
Diseño de la
metodología
Tratamiento de
datos
Análisis de la
información
Selección de la
ecuación más
precisa
Invita a análisis más granulares y específicos, ya que se ha observado una mejora en la
precisión de la predicción en poblaciones más específicas (p. ej. tráileres sobre el total).
Limitaciones y futuras líneas de
investigación
Foto de Pngtree
58
Contenido
Efecto de las características del contenido en sí: nº de
palabras, elementos incrustados, enlaces internos…
Nuevos indicadores que ayuden a aumentar la
variabilidad.
Ponderación de los términos relacionados con un artículo.
59
Límites y futuras investigaciones
Fecha y hora
Aumentar la muestra temporal y comprobar
el efecto de las fechas señaladas (días
festivos, etc.).
Experimentos con la fecha y hora para
publicar y/o compartir un artículo.
60
Límites y futuras investigaciones
Tendencias
Detección y predicción automática de
tendencias y picos máximos.
Análisis de tendencias de larga duración o
cíclicas.
61
Límites y futuras investigaciones
Otros ámbitos
Tipos de tráfico: SEO, tráfico referido, otras
redes sociales…
Generalización con casos de uso de una
tipología de webs o sector industrial
concretos.
62
Límites y futuras investigaciones
Comunicaciones a congresos
II Congreso Internacional Comunicación y Redes
Sociales de la Sociedad de la Información
COMRED 2021, Lisboa 31/03 - 01/04 de 2021
Análisis del uso de hashtags por medios
nativos digitales hispanos y la predicción
de sus retuits a 14 días
CIMED 2021, Valencia 25-26/03 de 2021
Análisis del uso de hashtags por museos
españoles y la predicción de sus favoritos
a 14 días
63
Límites y futuras investigaciones
¡GRACIAS!
Foto de hotmart
Diseño de una metodología
cibermétrica de cálculo del éxito
para la optimización de
contenidos web
Tesis doctoral. Universitat Politècnica de València
Programa de Doctorado en
Industrias de la Comunicación y Culturales
Víctor Yeste
( vicyesmo@inf.upv.es )
Directores: Jorge Serrano-Cobos y Ángeles Calduch Losa
Lugar y fecha: Valencia, 29/09/2021