Conference PaperPDF Available

Técnicas de Análisis de Sentimientos Aplicadas a la Valoración de Opiniones en el Lenguaje Español

Authors:
  • Universidad Tecnológica Nacional, Concepción del Uruguay

Abstract

En el presente existen grandes cantidades de datos en formato de texto escritos en el lenguaje natural, disponibles principalmente en sitios web y redes sociales, que crece día a día. El análisis manual de estos volúmenes de información es actualmente impráctico y costoso, por lo cual se hace necesario el uso de técnicas automatizadas para su procesamiento y análisis. La Minería de Opinión o Análisis de Sentimientos estudia la extracción de información a partir de datos subjetivos y es relativamente reciente. En los últimos años se han propuesto varios modelos de procesamiento del lenguaje natural para resolver el problema particular de clasificación de sentimientos. En este trabajo examinamos el rendimiento de varios de estos modelos aplicados a un caso donde los textos están escritos en el lenguaje castellano coloquial, lo que representa un desafío adicional. El caso propuesto es un conjunto de más de 50.000 reseñas de películas, extraídas del sitio www.cinesargentinos.com.ar. Palabras claves: Minería de opinión, Análisis de sentimientos, Procesamiento del lenguaje natural en español, Data Mining, Análisis subjetivo. 1 Introducción En un proceso de toma de decisiones, es fundamental contar con información oportuna, confiable y completa que permita un análisis real de la situación. En ciertos casos, los datos de origen son opiniones personales. En forma previa a la Web 2.0, su importancia no era alta debido a la escasa cantidad de textos que registraban opiniones. En el presente, con la disponibilidad masiva de este tipo de información, surgen nuevas oportunidades y desafíos en la búsqueda, comprensión e interpretación de la misma. Sin embargo, la búsqueda en estos sitios y la posterior valoración de las opiniones en forma manual es un trabajo intenso y costoso, por lo que es necesario contar con sistemas que automaticen este proceso. El Análisis de Sentimientos o Minería de Opiniones estudia la interpretación automática de opiniones y sentimientos expresados mediante el lenguaje natural. Es utilizada por organizaciones, por ejemplo, para el análisis de su imagen o para determinar necesidades o también el grado de aceptación de nuevos productos. La literatura, además, muestra otros tipos de aplicaciones, incluyendo: valoración de películas [1], opiniones sobre deportes [2], turismo [3, 4], política [5], educación [6], salud [7], finanzas [8] y automóviles [9].
Técnicas de Análisis de Sentimientos Aplicadas a la
Valoración de Opiniones en el Lenguaje Español
Germán Rosenbrock1, Sebastián Trossero1, Andrés Pascal1,2
1 Fac. de Ciencia y Tecnología, Univ. Autónoma de Entre Ríos, Ruta 11 - Km. 11, Oro
Verde, Entre Ríos, Argentina.
2 Fac. Regional Concepción del Uruguay, U.T.N, Ing Pereira 676, Concepción del Uruguay,
Entre Ríos, Argentina.
rosenbrock.german@uader.edu.ar, trossero.sebastian@uader.edu.ar,
andrespascal22@gmail.com
Abstract. En el presente existen grandes cantidades de datos en formato de texto
escritos en el lenguaje natural, disponibles principalmente en sitios web y redes
sociales, que crece día a día. El análisis manual de estos volúmenes de
información es actualmente impráctico y costoso, por lo cual se hace necesario
el uso de técnicas automatizadas para su procesamiento y análisis. La Minería de
Opinión o Análisis de Sentimientos estudia la extracción de información a partir
de datos subjetivos y es relativamente reciente. En los últimos años se han
propuesto varios modelos de procesamiento del lenguaje natural para resolver el
problema particular de clasificación de sentimientos. En este trabajo
examinamos el rendimiento de varios de estos modelos aplicados a un caso
donde los textos están escritos en el lenguaje castellano coloquial, lo que
representa un desafío adicional. El caso propuesto es un conjunto de más de
50.000 reseñas de películas, extraídas del sitio www.cinesargentinos.com.ar.
Palabras claves: Minería de opinión, Análisis de sentimientos, Procesamiento
del lenguaje natural en español, Data Mining, Análisis subjetivo.
1 Introducción
En un proceso de toma de decisiones, es fundamental contar con información
oportuna, confiable y completa que permita un análisis real de la situación. En ciertos
casos, los datos de origen son opiniones personales. En forma previa a la Web 2.0, su
importancia no era alta debido a la escasa cantidad de textos que registraban
opiniones. En el presente, con la disponibilidad masiva de este tipo de información,
surgen nuevas oportunidades y desafíos en la búsqueda, comprensión e interpretación
de la misma. Sin embargo, la búsqueda en estos sitios y la posterior valoración de las
opiniones en forma manual es un trabajo intenso y costoso, por lo que es necesario
contar con sistemas que automaticen este proceso.
El Análisis de Sentimientos o Minería de Opiniones estudia la interpretación
automática de opiniones y sentimientos expresados mediante el lenguaje natural. Es
utilizada por organizaciones, por ejemplo, para el análisis de su imagen o para
determinar necesidades o también el grado de aceptación de nuevos productos. La
literatura, además, muestra otros tipos de aplicaciones, incluyendo: valoración de
películas [1], opiniones sobre deportes [2], turismo [3, 4], política [5], educación [6],
salud [7], finanzas [8] y automóviles [9].
Este trabajo presenta la aplicación y comparación de distintas técnicas de
aprendizaje automático como Máquinas de Vectores de Soporte (SVM), Clasificador
Bayesiano Ingenuo (Naïve-Bayes), Máxima Entropía y Random Forest, con el
enfoque clásico de bolsa de palabras, contra técnicas más actuales como la utilización
de embeddings con redes neuronales recurrentes y Transformers, también conocidos
como Modelos de Lenguaje. El caso de estudio se realiza sobre los comentarios y
valoraciones de usuarios acerca de películas extraídas del sitio
www.cinesargentinos.com.ar. La selección de este sitio se realizó teniendo como
criterio la disponibilidad de los datos, la cantidad de opiniones, el nivel de
informalidad en el uso del lenguaje, la disponibilidad de una valoración ya registrada
para cada opinión (puntuaciones por estrellas), y la existencia de distintos aspectos a
evaluar por cada opinión.
2 Marco Teórico
El análisis del sentimiento o la minería de opinión es el estudio computacional de
opiniones, sentimientos y emociones expresadas a través de un texto. En general, las
opiniones pueden centrarse en un producto, un servicio, un individuo, una
organización, un evento o un tema. Utilizamos el término objeto para denotar la
entidad de destino que se ha comentado. Un objeto puede además tener un conjunto
de componentes (o partes) y un conjunto de atributos o propiedades. Cada
componente puede tener sus propios subcomponentes y su conjunto de atributos, y así
sucesivamente.
Lui [10] formaliza estos conceptos mediante las siguientes definiciones:
Objeto: un objeto o es una entidad que puede ser un producto, persona,
evento, organización o tema. Está asociado a un par, o: (T, A), donde T es una
jerarquía de componentes (o partes) y A es un conjunto de atributos de o. Cada
componente tiene su propio conjunto de componentes y atributos.
Opinión: una opinión sobre una característica f es una actitud, emoción o
valoración positiva o negativa sobre f .
Orientación de una opinión: la orientación de una opinión sobre una
característica f indica si la opinión es positiva o negativa.
Asimismo, una opinión puede ser directa (respecto a un único objeto), o bien
comparativa, que expresa una relación de similitudes, diferencias y/o preferencias
entre dos o más objetos emitida por el titular de opinión sobre algunas de las
características compartidas entre los objetos.
Nuestro problema es establecer si un documento expresa una opinión positiva o
negativa de un objeto, aplicando diferentes técnicas de evaluación de opiniones sobre
una misma base de datos, para analizar sus desempeños en forma comparativa.
Los métodos seleccionados para nuestro estudio son todos de aprendizaje
supervisado, lo que significa que se requiere conocer la clase a la que pertenece la
observación al momento de su entrenamiento. Los métodos son Naive Bayes,
Random Forest, Regresión Logística y SVM con la representación clásica de bolsa de
palabras; Redes Neuronales Recurrentes con el embedding Word2Vec y por último,
para la arquitectura de Transformers se utilizó el modelo de lenguaje BETO, una
versión en español del modelo original BERT.
A continuación se realiza una breve descripción de cada una de estas técnicas.
2.1 Naïve Bayes
Este algoritmo de clasificación se basa en el Teorema de Bayes de probabilidad
condicional, además supone la independencia entre las variables predictoras. Ya que
en muchos casos esta independencia no es real, se lo denomina ‘Naïve’ o ‘Ingenuo’
[11, 12, 13, 14]. La clasificación que realiza este método está dada por la probabilidad
de que una observación pertenezca a una clase, dadas las probabilidades de sus
variables predictoras. Es la técnica más utilizada como base de comparación.
2.2 Random Forest
Es un clasificador que consiste en un ensamble de múltiples árboles de decisión
[15]. Cada uno de estos árboles se entrena con un subconjunto de registros y un
subconjunto de variables del conjunto de datos tomados de forma aleatoria.
Este algoritmo puede manejar conjuntos de datos de gran dimensionalidad sin
verse afectado por la colinealidad. Otra cualidad que posee este algoritmo es que se
puede obtener como salida la importancia de las variables, es decir, las que más
influyen en el modelo.
Es difícil de interpretar, ya que es un modelo de caja negra y dependiendo de los
parámetros utilizados, en algunos casos se puede caer en overfitting.
2.3 Regresión Logística
La Regresión Logística (también conocida como clasificador de máxima entropía)
[16, 17, 18], es un modelo matemático utilizado para predecir el resultado de una
variable categórica, por lo general dicotómica, en función de las variables
independientes o predictoras. La predicción que se obtiene es la probabilidad de
pertenecer a cada clase.
Una de las ventajas fundamentales de la regresión logística sobre otras técnicas, es
que el resultado del modelo entrenado se puede interpretar fácilmente. Esto se debe a
que el coeficiente obtenido para cada variable dependiente, indica de qué manera
influye en el modelo dicha variable. Otras ventajas son su simplicidad y eficacia.
2.4 SVM
SVM (Support Vector Machine) [2, 12, 13, 19], es un algoritmo de clasificación
binario, que consiste en encontrar un hiperplano que maximice la separación entre las
clases. SVM se puede utilizar con diferentes kernels dependiendo si los datos son
linealmente separables o no, lo cual es un parámetro a definir. El entrenamiento de
SVM con grandes conjuntos de datos no es recomendable porque no es muy eficiente.
2.5 Word2Vec+LSTM
Los word embeddings son una forma de representación de las palabras de un
documento, que además de representar las palabras aporta información de contexto
dentro del documento y de similaridad con otras palabras. Word2Vec es una técnica
de word embedding desarrollada en 2013 por Mikolov [20] que utiliza como
representación de palabras un vector multidimensional. De esta forma, las palabras
relacionadas o similares se encuentran en zonas cercanas dentro de esta
representación. Estos vectores se utilizan luego como entrada de redes neuronales
para realizar tareas como clasificación, traducción o resumen de textos [21, 22].
Las redes neuronales recurrentes tienen la capacidad de persistir información de
estados anteriores para calcular los siguientes estados. Es por eso que son muy útiles
para trabajar con secuencias, como por ejemplo en modelos de procesamiento del
lenguaje natural, ya que se trata de secuencia de palabras. La limitación que tienen es
que esa capacidad de “recordar” estados previos es a corto plazo. Las LSTM (Long
Short-Term Memory) en cambio, son un tipo de redes neurales recurrentes que tienen
ese mismo comportamiento pero a más largo plazo [23].
2.6 BERT
A finales de 2017 Google presenta una nueva arquitectura denominada
Transformer [24] en la cual propone quitar las capas recurrentes y convolucionales de
las redes utilizadas hasta el momento, a cambio de mecanismos o capas de atención.
Estas capas de atención codifican las palabras en función de las demás palabras de la
frase, permitiendo introducir información del contexto junto con la representación de
cada palabra.
BERT (Bidirectional Encoder Representations from Transformers) [25] es un
Modelo de Lenguaje diseñado para entrenar representaciones bidireccionales
profundas a partir de textos sin etiquetar, tomando en cuenta tanto el contexto
izquierdo como derecho en todas las capas. BERT ha sido pre-entrenado mediante
aprendizaje no supervisado a partir de corpus de gran tamaño en idioma inglés. A
diferencia de los modelos secuenciales o recurrentes tradicionales, la arquitectura de
atención procesa toda la secuencia de entrada a la vez, permitiendo que todos los
tokens de entrada se procesen en paralelo.
Para superar su limitación inicial de funcionamiento sólo para el inglés, han
surgido versiones que soportan distintos lenguajes, o inclusive múltiples lenguajes en
uno, como es el caso de mBERT [26]. Para el lenguaje español en particular, uno de
los modelos más conocidos se llama BETO [27] y tiene las mismas características
antes mencionadas de BERT, pero con la diferencia que el pre-entrenamiento se
realizó con textos en español.
3 Experimentos Realizados
3.1 Conjunto de datos
Este estudio fue realizado sobre una base de datos de comentarios extraídos del sitio
web www.cinesagentinos.com.ar; los comentarios son reseñas de distintas películas
que los usuarios aportan sin ninguna estructura definida, donde además se pondera la
película con un puntaje de una a cinco estrellas. Se definió que un comentario se
clasifica como “positivo” si posee cuatro estrellas o más. El lote de datos final fue de
52.309 comentarios de los cuales 36.661 fueron etiquetados como positivos
(aproximadamente el 70%).
3.2 Métricas utilizadas
Para evaluar la capacidad predictiva de los modelos se utilizaron las métricas usuales
para estos casos de estudio, definidas de la siguiente manera:
Accuracy = (TP+TN) / (TP+FP+TN+FN)
Precission = TP / (TP+FP)
Recall = TP/(TP+FN)
F1_score = 2 * (Precision* Recall) / (Precision+Recall)
donde: TP=True Positive, TN=True Negative, FP=False Positive, FN=False Negative.
3.3 Descripción de los experimentos
Con el fin de obtener el mejor modelo para cada uno de los algoritmos se realizó una
búsqueda de hiperparámetros por medio del método Grid Search, entrenando modelos
con distintos valores de los parámetros propios de cada algoritmo, quitando o dejando
las “stop words” y con distintos tamaños del corpus de entrenamiento. A continuación
se describen los hiperparámetros de ajuste:
Naïve Bayes: ajusta un parámetro “Alpha” entre 0 (cero) y 1 (uno); es un
parámetro de corrección o regularización para evitar problemas con la
probabilidad cero de eventos ocultos.
Random Forest: se define la cantidad de estimadores que corresponde a la
cantidad de árboles de decisión que se utilizan. Los valores posibles van desde 1
en adelante, sin un límite superior.
Regresión logística: se ajusta un parámetro llamado Solver con los posibles
valores: "liblinear","sag" y "saga". Cada uno ajusta el modelo tomando distintas
métricas de penalización.
SVM: en el caso de este algoritmo se define el tipo de Kernel que utiliza; los
posibles valores son: linear, polynomial y RBF.
LSTM+Word2Vec: learning rate (tasa de ajuste de los pesos en cada iteración).
BETO: learning rate y batch size (número de muestras en cada iteración)
Como representación del texto de entrada, para los cuatro primeros algoritmos se
utilizaron “Bolsas de palabras” (en adelante BdP), que se definen mediante vectores
cuyas columnas están indexadas por cada una de las palabras que se encuentran en el
conjunto de datos completo, y que almacena en sus valores la concurrencia de esas
palabras en el comentario. A este método también se ajustaron los siguientes
parámetros para el Grid Search:
La cantidad de palabras (o columnas de los vectores): se define n como la
cantidad máxima de palabras a utilizar en la BdP, teniendo en cuenta que sean las
n palabras con mayor concurrencia en el conjunto de datos. Este parámetro fue
ajustado entre 1.000 y 50.000 palabras.
Eliminar Stop Words: las Stop Words (en adelante SW) son palabras del lenguaje
que no poseen riqueza semántica, por ejemplo, los conectores. En los
experimentos se utilizaron dos diccionarios distintos de SW para el lenguaje
español, uno incluido en la librería NLTK [28] y el otro generado a partir de un
subconjunto del mismo. Los valores de ajuste de este hiperparámetro fueron: “No
borrar SW”, “Borrar diccionario completo” y “Borrar diccionario alternativo”.
Para el caso de word2vec, el embedding fue generado a partir de las palabras más
frecuentes de los mismos comentarios; mientras que para el modelo de Transformers,
BETO ya cuenta con un embedding pre-entrenado con palabras en español.
Para cada iteración de parámetros de Grid Search se entrenaron cinco modelos
distintos utilizando la técnica Monte Carlo Cross Validation [29]. Las divisiones del
conjunto de datos para entrenamiento y prueba se realizaron al 80% y 20%
respectivamente. Se calcularon las métricas Accuracy, Presicion, Recall y F1-Score,
tomando esta última como referencia para determinar el mejor modelo y seleccionar
sus hiperparámetros como los óptimos.
3.4 Resultados
Los resultados obtenidos por los distintos algoritmos se muestran en la Tabla 1. A
continuación se realiza una breve descripción de los mismos, y los hiperparámetros
con los que se obtuvieron los mejores valores.
Tabla 1 Puntajes de los modelos de clasificación sobre el conjunto de datos de prueba.
Modelos
Accuracy
Precision
Recall
F1-Score
Naïve Bayes
0.80
0.80
0.81
0.81
Random Forest
0.80
0.82
0.77
0.79
Regresión logística
0.80
0.80
0.80
0.80
SVM
0.79
0.79
0.79
0.79
LSTM + Word2Vec
0.81
0.85
0.88
0.87
BERT (BETO)
0.83
0.85
0.91
0.88
3.4.1 Naïve Bayes
El resultado de la búsqueda Grid Search para este algoritmo obtuvo el mejor F1-score
de los cuatro primeros algoritmos con una ponderación aproximada del 81% de
clasificación correcta (ver Tabla 1). El modelo fue entrenado con un valor 1 en el
parámetro Alpha y 50.000 palabras en la BdP sin eliminar ninguna “Stop Word”.
Los distintos experimentos realizados arrojan resultados que demuestran que para
esta aplicación el aumento del parámetro Alpha también aumenta la potencia
predictiva del modelo resultante. Del mismo modo se observa que cuantas más
palabras se utilicen para entrenar el modelo lleva a un aumento del F1-score. Por otro
lado, la eliminación de SW no tiene resultados positivos en cuanto al F1-score, por el
contrario, no eliminarlas mejora los resultados un 1%.
3.4.2 Random Forest
En el caso de este algoritmo se realizaron búsquedas de Grid Search ampliando la
cantidad de estimadores hasta que el aumento de los puntajes no fue significativo. El
modelo óptimo lo encontramos con 2.000 estimadores y una BdP de 50.000 palabras,
sin quitar las SWs. El porcentaje de comentarios correctamente clasificados por este
modelo fue 79%.
3.4.3 Regresión Logística
El “Solver” que maximizó el F1-Score para este problema fue “saga” con un
puntaje aproximado de 80%. En este caso la cantidad óptima de palabras fueron
40.000 para conformar la BdP, al igual que los otros, sin quitar SWs.
3.4.4 SVM
Este algoritmo se optimizó con el Kernel “linear” con 1.000 palabras en su BdP sin
quitar las SWs tampoco. De los cuatro modelos que emplearon BdP, fue el que
obtuvo el puntaje más bajo de F1-Score, con aproximadamente el 79% de la
clasificación correcta.
3.4.5 LSTM+Word2vec
El mejor resultado se obtuvo generando un embedding de 500 palabras, sin quitar
SWs, y con un learning rate de 0,02 en el entrenamiento de la red neuronal. Se obtuvo
un F1-Score de 87%.
3.4.6 BETO (BERT)
El F1-score obtenido en este experimento fue de 88%. La tasa de learning rate
óptima fue de 0,03, el batch size de 64, y la cantidad de palabras seleccionadas por
comentario fue 150 (se toman las primeras 150 palabras del comentario y en caso de
tener menos palabras, BERT completa con un carácter de relleno). Tampoco se
quitaron las SWs.
3.5 Análisis de los Resultados
Tal como se esperaba, las dos técnicas más recientes obtuvieron los mejores
resultados, alrededor de un 7% más que las primeras cuatro, aunque entre ellas no hay
diferencias significativa en este caso. En cuanto al preproceso de los datos se observó
que la eliminación de Stop Words tanto del diccionario original de la librería NLTK
como del diccionario modificado, no generó mejores resultados si no que, por el
contrario, disminuyó su rendimiento.
En la literatura reciente, existen distintos trabajos de clasificación de comentarios de
películas escritos en inglés [30, 31, 32], en donde utilizando BERT se obtuvieron
como resultado entre un 85% y un 94% de Accuracy, mientras que en nuestro caso de
estudio el valor alcanzado fue 83%, es decir, entre un 2% y un 11% menos. Esta
diferencia puede tener varias causas: diferencias propias del lenguaje, pre-
entrenamiento con un corpus de menor tamaño, diferencias en el nivel de
informalidad del lenguaje coloquial utilizado, o incluso mejor ajuste de algunos
hiperparámetros.
3.5.1 Comentarios mal clasificados
Para comparar los comentarios mal clasificados tomamos en cuenta solo los 2 mejores
modelos obtenidos, LSTM+Word2vec y BETO. Del total de 10.462 comentarios del
conjunto de testing, 1.992 fueron mal clasificados utilizando el primer algoritmo,
mientras que con BETO fueron 1.815. Teniendo en cuenta que se utili el mismo
conjunto de testing para los experimentos, se observó que 994 comentarios fueron mal
clasificados por ambos algoritmos a la vez.
Analizando los comentarios mal clasificados, encontramos al menos cinco posibles
causas por las cuales el comentario no obtuvo la clasificación correcta:
1. Casos en los que, a pesar de que el comentario tiene una connotación
positiva, la etiqueta original del mismo es negativa. Es decir, el autor del
comentario escribió una opinión positiva de la película, pero la calificó
negativamente.
Por ejemplo: “la película me pareció buena, mantiene el suspenso y está
muy bien filmada, el efecto 3d está muy bien logrado”(2.5), “comedia
entretenida, divertida, para pasar un buen rato y reírse bastante. Cameron
Díaz es muy buena en la comedia y el elenco está muy bien”(3) o “linda
comedia, buenas actuaciones y los actores se complementan muy bien pero
lo mejor de la película en mi opinión es la elección de música, el mejor
soundtrack que he visto en mucho tiempo”(3).
2. Casos de comentarios calificados positivamente por el usuario, pero
acompañado de un comentario con mensaje negativo: "No me terminó de
convencer. A la peli le pasa factura todos los problemas que tuvo a la hora
de realizarse. La trama a pesar de ser interesante se hace por momentos
algo aburrida."(3.5) o "Decepcionante. Se nota que le falta media hora.
Para pasar el rato pero nada más. Está hecha sin ganas"(3.5)
3. Comentarios ambiguos, es decir, con cierto balance entre lo positivo y
negativo. Por ejemplo, “supero mis expectativas, las escenas de susto un
poco predecibles” o “ los primeros minutos son algo aburridos pero al
pasar los minutos la pelicula es cada vez es entretenida”.
4. Frases con sentido figurado, que probablemente no son aprendidas
correctamente por el modelo: “se paso en un suspiro”, “Navegando aguas
misteriosas debería ser la frase de esta saga” o “sin tramos de baches”.
5. Negación y a veces doble o triple negación en la misma frase: es probable
que los modelos tengan problemas cuando se invierte el sentido de una frase
a través de la negación: “no es una pelicula de la que te arrepientas de haber
visto” o “Esta nueva entrega no aporta ni suma nada”.
Los primeros dos casos no están asociados a los modelos sino a los datos, y sólo son
problemáticos cuando el entrenamiento se realiza sobre un corpus que posee una
cantidad significativa de ellos.
Respecto a los comentarios ambiguos, una solución parcial que se presenta en
distintos trabajos, es definir una tercera clase “neutral” para los casos en los cuales no
está claro si el comentarios es positivo o negativo. Las últimas dos causas son
conocidas limitaciones de la mayoría de los modelos, ya que hasta el momento ningún
modelo comprende realmente el significado del texto, sino que se basan en las
relaciones de co-ocurrencia que encuentran entre las palabras.
4 Conclusiones y Trabajo Futuro
En este trabajo se presenta la aplicación, búsqueda de hiperparámetros, comparación y
análisis de resultados, de distintas técnicas de aprendizaje automático utilizadas para
el Procesamiento del Lenguaje Natural. El caso de estudio fue un conjunto de más de
50.000 comentarios en lenguaje español coloquial sobre películas, extraídos del sitio
www.cinesargentinos.com.ar. Los resultados indican que las técnicas más nuevas,
Word2vec+LSTM y BETO, son superiores a los modelos anteriores, aunque los
porcentajes de acierto obtenidos en este estudio son menores que los publicados sobre
casos similares en que los textos se encuentran en idioma inglés.
Algunas de las tareas que se plantean como trabajo futuro son:
Re-etiquetar los comentarios mal etiquetados del conjunto de datos y volver
a ejecutar los experimentos.
Realizar un ajuste fino del modelo BETO, utilizando un porcentaje de los
comentarios como conjunto de entrenamiento.
Agregar una clase “neutra” en los procesos de entrenamiento y clasificación.
Discriminar entre frases con sentido literal y figurado, y entrenar
clasificadores separados para cada caso.
Referencias
1. KuatYessenov. Sentiment Analysis of Movie Review Comments. 2009.
2. N. LI and D. D. W. Using text mining and sentiment analysis for online forums hotspot
detection and forecast. DecisionSupportSystems, vol. 48, nº 2, pp. 354 - 368, 2010.
3. L. C. Fiol, J. S. García, M. M. T. Miguel and S. F. Coll, «La importancia de las
comunidades virtuales para el análisis del valor de marca. El caso de TripAdvisor en Hong
Kong y París,» Papers de turisme, nº 52, pp. 89-115, 2012.
4. C. Henriquez, J. Guzmán and D. Salcedo. Minería de Opiniones basado en la adaptación al
español de ANEW sobre opiniones acerca de hoteles. Procesamiento del Lenguaje Natural,
vol. 56, pp. 25-32., 2016.
5. S. Rill, D. Reinel, J. Scheidt and R. V. Zicari. PoliTwi: Early detection of emerging political
topics on twitter and the impact on concept-level sentiment analysis. Knowledge-Based
Systems, vol. 69, pp. 24-33, 2014.
6. A. Ortigosa, J. M. Martín and R. M. Carro. Sentiment analysis in Facebook and its
application to e-learning. Computers in Human Behavior, vol. 31, pp. 527-541, 2014.
7. F. Greaves, D. Ramirez-Cano, C. Millett, A. Darzi and L. Donaldson. Use of Sentiment
Analysis for Capturing Patient Experience From Free-Text Comments Posted Online.
Journal of medical Internet research, vol. 15, nº 11, 2013.
8. X. Dong, Q. Zou and Y. Guan. Set-Similarity joins based semi-supervised sentiment
analysis. Neural Information Processing. Springer Berlin Heidelberg, 2012., from Neural
Information Processing, Springer Berlin Heidelberg, 2012, pp. 176-183.
9. P. D. Turney. Thumbs up or thumbs down? Semantic orientation applied to unsupervised
classification of reviews. Proceedings of the 40th annual meeting on association for
computational linguistics, Stroudsburg, PA, USA, 2002.
10. Liu B., Zhang L. (2012) A Survey of Opinion Mining and Sentiment Analysis. In:
Aggarwal C., Zhai C. (eds) Mining Text Data. Springer, Boston, MA.
11. N. LI and D. D. W. Using text mining and sentiment analysis for online forums hotspot
detection and forecast. Decision Support Systems, vol. 48, nº 2, pp. 354 - 368, 2010.
12. A. Abbasi, H. Chen and A. Salem. Sentiment Analysis in Multiple Languages: Feature
Selection for Opinion Classification in Web Forums. ACM Transactions on Information
Systems (TOIS), vol. 26, nº 3, p. 12, 2008.
13. F. Pla and L.-F. Hurtado. Sentiment Analysis in Twitter for Spanish. Natural Language
Processing and Information Systems, pp. 208 - 213, 2014.
14. Gutiérrez Esparza Guadalupe, Margain Fuentes María de Lourdes, Ramírez del Real Tania
Aglaé, Canul Reich, Juana, Un modelo basado en el Clasificador Naïve Bayes para la
evaluación del desempeño docente, RIED. Revista Iberoamericana de Educación a
Distancia (volumen: 20, núm. 2) pp. 293 313, 2017.
15. Belgiu M., Dragut L. Random forest in remote sensing: A review of applications and future
directions. ISPRS Journal of Photogrammetry and Remote Sensing, Volume 114, 2016.
16. Pang, Bo & Lee, Lillian & Vaithyanathan, Shivakumar. (2002). Thumbs up? Sentiment
Classification Using Machine Learning Techniques. EMNLP.
17. Wang, Z. (2010). Document Classification Algorithm Based on Kernel Logistic
Regression. Industrial and Information Systems (IIS), 2010 2nd International Conference
on (Volume: 1) (págs. 76 - 79). Dalian: IEEE.
18. Kamran Kowsari, kiana Jafari Meimandi. Text Classification Algorithms: A Survey, 2019,
Information Open Access Journals.
19. David Meyer, Support Vector Machines, The Interface to libsvm in package e1071, FH
Technikum Wien, Austria, 2019.
20. T. Mikolov, I. Sutskever, K. Chen, et al., Distributed Representations of Words and Phrases
and their Compositionality, arxiv:1310.4546v1, 2013.
21. A. Aubaid y A. Mishra, Text Classification Using Word Embedding in Rule-Based
Methodologies: A Systematic Mapping, TEM Journal. Volume 7, Issue 4, Pages 902-914,
ISSN 2217-8309, 2018.
22. T. López Solaz, J. Troyano, J. Ortega y F. Enríquez, Una aproximación al uso de word
embeddings en una tarea de similitud de textos en espa˜nol, Procesamiento del Lenguaje
Natural, Revista n° 57, pág. 67-74, 2016.
23. T. Sainath, O. Vinyals, A. Senior y H. Sak, Convolutional, long short-term memory, fully
connected deep neural networks, 2015.
24. A. Vaswani, N. Shazeer, N. Parmar, et al., Attention is all you need. 2017.
25. J. Devlin, M. Chang, K. Lee y K. Toutanova, BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding, arXiv:1810.04805v2, 2019.
26. T. Pires, E. Schlinger y D. Garrette, How multilingual is Multilingual BERT?,
arXiv:1906.01502v1, 2019.
27. J. Cañete, G. Chaperon, R. Fuentes and J. Ho, Spanish Pre-Trained BERT Model and
Evaluation Data, PML4DC at ICLR 2020, 2020.
28. S. Bird and E. Loper, NLTK: The Natural Language Toolkit, Proceedings of the ACL
demonstration session. pp 214-217, Barcelona, Association for Computational Linguistics,
2004.
29. X. Qing-Song and L. Yi-Zeng, Monte Carlo cross validation, Chemometrics and Intelligent
Laboratory Systems, vol. 56, pp. 1-11, 2001.
30. M. Munikar, S. Shakya and A. Shrestha, Fine-grained Sentiment Classification using
BERT, arXiv:1910.03474v1, 2019.
31. L. Maltoudoglou, A. Paisios, H. Papadopoulos, BERT-based Conformal Predictor for
Sentiment Analysis, Proceedings of Machine Learning Research 128:116, 2020.
32. S. Garg and G. Ramakrishnan, BAE: BERT-based Adversarial Examples for Text
Classification, arXiv:2004.01970v3, 2020.
... Lenguaje Español [61] R. Germán et al. [61], en su proyecto proponen analizar distintas técnicas de Análisis de Sentimiento aplicadas a opiniones expresadas en el lenguaje español, evaluar sus resultados para distintos casos reales, y realizar mejoras a las mismas. Evaluación de técnicas de análisis de sentimientos aplicadas a opiniones escritas en español/castellano. ...
... Lenguaje Español [61] R. Germán et al. [61], en su proyecto proponen analizar distintas técnicas de Análisis de Sentimiento aplicadas a opiniones expresadas en el lenguaje español, evaluar sus resultados para distintos casos reales, y realizar mejoras a las mismas. Evaluación de técnicas de análisis de sentimientos aplicadas a opiniones escritas en español/castellano. ...
Thesis
Full-text available
La red social Twitter se ha convertido en una excelente herramienta para conocer en tiempo real las opiniones que los usuarios expresan sobre una gran variedad de temas. El análisis formal de los textos en los tweets es objeto de numerosos estudios, derivado de ellos, se ha impulsado la aparición de tecnologías emergentes como la Minería de Opinión, donde está inerte el análisis de sentimientos; el cual se refiere al uso del procesamiento del lenguaje natural para identificar y extraer información subjetiva de los textos. Por definición, el análisis de sentimientos busca generar herramientas automáticas capaces de extraer información subjetiva para crear conocimiento estructurado y procesable. En otras palabras, se trata de una tarea de clasificación masiva de documentos de manera automática, en función de la connotación positiva o negativa del lenguaje utilizado en el documento. Este trabajo se centra en realizar análisis de sentimientos de comentarios de Twitter georreferenciado a la ciudad de Zacatecas, como una clasificación de los tweets etiquetados con su polaridad, realizando una limpieza del texto de los tweets, así como la extracción de características propias del texto como polaridad positiva y negativa, utilizando el machine learning en especial los algoritmos de aprendizaje supervisado para realizar la clasificación. De los algoritmos utilizados se obtuvo que Random Forest tuvo un mejor accuracy al tener 0.977, después Arboles de Decisión con 0.9735 y SVM con 0.9551. Con los resultados obtenidos se puede concluir que la mejora del accuracy se logró gracias a las características que se fueron agregando, además se demuestra que los algoritmos de aprendizaje supervisado están clasificando los tweets de manera adecuada dado los resultados obtenidos.
... El primer objetivo específico planteado se trataba de identificar las emociones implícitas de los mensajes publicados por los actores seleccionados y, el segundo objetivo, analizar la respuesta emocional de los usuarios. Para determinar las emociones de los agentes, las respuestas de los usuarios, incluyendo las connotaciones positivas o negativas (Amor et al., 2020), se aplicó sentiment analysis para interpretar automáticamente los sentimientos y las opiniones expresados en los posts (Koschut et al., 2017;Rosenbrock y Trossero, 2021). ...
Article
Full-text available
La dotación de fondos al Ministerio de Defensa ha sido tradicionalmente un asunto de debate político en España que enfrenta a partidos de gobierno y oposición. En este artículo se analiza el nivel de emotivismo político en el debate político digital de las redes sociales (Facebook y Twitter) entre partidos y lideres políticos, medios de comunicación y ciudadanos internautas sobre el aumento del gasto militar. Se han utilizado técnicas de Big Data para analizar los mensajes y se ha aplicado el diccionario NRC Emoticon Lexicon para medir las emociones que generan los actores tradicionales (medios de comunicación, partidos y líderes políticos) en el debate. Los resultados apuntan a que los medios de comunicación se mantienen más neutrales mientras que, los líderes políticos, promueven especialmente la emoción del miedo. La sintonía afectiva es bastante alta entre los actores tradicionales y los ciudadanos internautas
Article
Full-text available
Se ha hablado mucho de la importancia que los sentimientos y emociones tienen para las ciencias sociales y las humanidades, en general, y para la museología, en particular. Pero poco se ha dicho sobre propuestas de trabajo concretas que permitan identificarlas y analizarlas. En este sentido, este trabajo pretende analizar los sentimientos y emociones que el Museo de Antropologías despierta entre sus visitantes. Se presenta una propuesta metodológica desde un entorno de programación en Lenguaje R que permite extrapolar sentimientos y emociones que subyacen en textos, en este caso reseñas de Google. Para ello se hace uso de diferentes librerías, entre las que destaca Shyuzet. No obstante, la propuesta de trabajo no es exclusiva de las instituciones museísticas, sino que es susceptible de ser aplicada con diferentes muestras de datos en diferentes entidades o proyectos culturales. Respecto a los resultados obtenidos, se identifica una polaridad sentimental que puede considerarse como marcadamente positiva y un predominio de emociones que hay que poner en relación con la alegría y la confianza, según el modelo de Robert Plutchik.
Article
Full-text available
El objetivo de la investigación se fundamenta en identificar las categorías temáticas de los mensajes en Twitter publicados por algunos de los representantes diplomáticos de México y Estados Unidos, ello con el fin de interpretar el trasfondo de sus agendas y discursos mediante sus palabras y frases. Con base en un método descriptivo, el cual permite identificar las propiedades, las unidades y los compuestos léxicos relevantes, se implementa un nivel de profundidad clasificatorio. Los resultados obtenidos muestran que las categorías sobresalientes debido a su constante frecuencia son: la pandemia, las vacunas, los encuentros diplomáticos y los conflictos internacionales entre Rusia, Ucrania y Estados Unidos. En el caso de los mensajes emitidos por México, se evidencian sus intereses y relaciones políticas con los estados latinoamericanos y caribeños, así como las inversiones extranjeras; en tanto las cuentas diplomáticas de Estados Unidos expresan continuamente su desacuerdo sobre las tenciones fronterizas entre Rusia y Ucrania.
Article
Full-text available
With the advancing growth of the World Wide Web (WWW) and the expanding availability of electronic text documents, the automatic assignment of text classification (ATC) has become more important in sorting out information and knowledge. One of the most crucial tasks that should be carried out is document representation using word embedding and Rule-Based methodologies. As a result, this, along with their modeling methods, has become an essential step to improve neural language processing for text classification. In this paper, a systematic mapping study is a way to survey all the primary studies on word embedding to rule-based and machine learning of automatic text classification. The search procedure identifies 20 articles as relevant to answer our research questions. This study maps what is currently known about word embedding in rule-based text classification (TC). The result shows that the research is concentrated on some main areas, mainly in social sciences, shopping products classification, digital libraries, and spam filtering. The present paper contributes to the available literature by summarizing all research in the field of TC and it can be beneficial to other researchers and specialists in order to sort information.
Article
Full-text available
Receantly, the Opinions Mining (OM) has shown a high tendency of research due to large-scale production of opinions and comments from users over the Internet. Companies and organizations, in general terms, are interested in knowing what is the reputation they have in social networks, blogs, wikis and other web sites. So far, the vast majority of research involving systems MO in English. For this reason, the scientific community is interested in researching different to this language. This article is about the construction of a mining system views in Spanish based on comments given by different clients and hotels. The system works on the lexical approach using Spanish adaptation of affective standards for English words (ANEW). These standards are based on evaluations conducted in the dimensions of valence, arousal and dominance. For the construction of the system took into account the phases of extraction, preprocessing of texts, identification of feelings and the respective ranking of the opinion using ANEW. System experiments were made on labeling a corpus from the spanish version of Tripadvisor. As a result, precision exceeding 94% was obtained at similar systems.
Conference Paper
Full-text available
This paper describes a SVM-approach for Sentiment Analysis (SA) in Twitter for Spanish. This task was part of the TASS2013 workshop, which is a framework for SA that is focused on the Spanish language. We describe the approach used, and we present an experimental comparison of the approaches presented by the different teams that took part in the competition. We also describe the improvements that were added to our system after our participation in the competition. With these improvements, we obtained an accuracy of 62.88% and 70.25% on the SA test set for 5-level and 3-level tasks respectively. To our knowledge, these results are the best results published until now for the SA tasks of the TASS2013 workshop.
Conference Paper
Full-text available
A set-similarity joins based semi-supervised approach is presented to mine Chinese sentiment words and sentences. The set-similarity joins is taken to join nodes in unconnected sub-graphs conducted by cutting the flow graph with Ford-Fulkerson algorithm into positive and negative sets to correct wrong polarities predicted by min-cut based semi-supervised methods. Experimental results in digital, entertainment, and finance domains demonstrate the effectiveness of our proposed approach.
Article
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
Article
A random forest (RF) classifier is an ensemble classifier that produces multiple decision trees, using a randomly selected subset of training samples and variables. This classifier has become popular within the remote sensing community due to the accuracy of its classifications. The overall objective of this work was to review the utilization of RF classifier in remote sensing. This review has revealed that RF classifier can successfully handle high data dimensionality and multicolinearity, being both fast and insensitive to overfitting. It is, however, sensitive to the sampling design. The variable importance (VI) measurement provided by the RF classifier has been extensively exploited in different scenarios, for example to reduce the number of dimensions of hyperspectral data, to identify the most relevant multisource remote sensing and geographic data, and to select the most suitable season to classify particular target classes. Further investigations are required into less commonly exploited uses of this classifier, such as for sample proximity analysis to detect and remove outliers in the training samples.
Article
Sentiment analysis or opinion mining is the computational study of people's opinions, appraisals, attitudes, and emotions toward entities, individuals, issues, events, topics and their attributes. The task is technically challenging and practically very useful. For example, businesses always want to find public or consumer opinions about their products and services. Potential customers also want to know the opinions of existing users before they use a service or purchase a product. With the explosive growth of social media (i.e., reviews, forum discussions, blogs and social networks) on the Web, individuals and organizations are increasingly using public opinions in these media for their decision making. However, finding and monitoring opinion sites on the Web and distilling the information contained in them remains a formidable task because of the proliferation of diverse sites. Each site typically contains a huge volume of opinionated text that is not always easily deciphered in long forum postings and blogs. The average human reader will have difficulty identifying relevant sites and accurately summarizing the information and opinions contained in them. Moreover, it is also known that human analysis of text information is subject to considerable biases, e.g., people often pay greater attention to opinions that are consistent with their own preferences. People also have difficulty, owing to their mental and physical limitations, producing consistent results when the amount of information to be processed is large. Automated opinion mining and summarization systems are thus needed, as subjective biases and mental limitations can be overcome with an objective sentiment analysis system. In the past decade, a considerable amount of research has been done in academia [58,76]. There are also numerous commercial companies that provide opinion mining services. In this chapter, we first define the opinion mining problem. From the definition, we will see the key technical issues that need to be addressed. We then describe various key mining tasks that have been studied in the research literature and their representative techniques. After that, we discuss the issue of detecting opinion spam or fake reviews. Finally, we also introduce the research topic of assessing the utility or quality of online reviews. © 2012 Springer Science+Business Media, LLC. All rights reserved.
Article
In this work, we present a system called PoliTwi, which was designed to detect emerging political topics (Top Topics) in Twitter sooner than other standard information channels. The recognized Top Topics are shared via different channels with the wider public. For the analysis, we have collected about 4,000,000 tweets before and during the parliamentary election 2013 in Germany, from April until September 2013. It is shown, that new topics appearing in Twitter can be detected right after their occurrence. Moreover, we have compared our results to Google Trends. We observed that the topics emerged earlier in Twitter than in Google Trends. Finally, we show how these topics can be used to extend existing knowledge bases (web ontologies or semantic networks) which are required for concept-level sentiment analysis. For this, we utilized special Twitter hashtags, called sentiment hashtags, used by the German community during the parliamentary election.
Article
This paper presents a new method for sentiment analysis in Facebook that, starting from messages written by users, supports: (i) to extract information about the users' sentiment polarity (positive, neutral or negative), as transmitted in the messages they write; and (ii) to model the users' usual sentiment polarity and to detect significant emotional changes. We have implemented this method in SentBuk, a Facebook application also presented in this paper. SentBuk retrieves messages written by users in Facebook and classifies them according to their polarity, showing the results to the users through an interactive interface. It also supports emotional change detection, friend's emotion finding, user classification according to their messages, and statistics, among others. The classification method implemented in SentBuk follows a hybrid approach: it combines lexical-based and machine-learning techniques. The results obtained through this approach show that it is feasible to perform sentiment analysis in Facebook with high accuracy (83.27%). In the context of e-learning, it is very useful to have information about the users' sentiments available. On one hand, this information can be used by adaptive e-learning systems to support personalized learning, by considering the user's emotional state when recommending him/her the most suitable activities to be tackled at each time. On the other hand, the students' sentiments towards a course can serve as feedback for teachers, especially in the case of online learning, where face-to-face contact is less frequent. The usefulness of this work in the context of e-learning, both for teachers and for adaptive systems, is described too.