ArticlePDF Available

Reconocimiento de Emociones en la Música

Authors:

Abstract

Este artículo presenta una revisión de librerías de alto nivel para el reconocimiento de emociones en la música (MER). Se tiene como principal objetivo estudiar los analizadores de contenido, mostrando las principales funcionalidades, las limitaciones y los avances logrados al momento. URL: http://hemeroteca.unad.edu.co/index.php/memorias/article/view/2574
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
RECONOCIMIENTO DE EMOCIONES EN LA MÚSICA
MUSIC EMOTION RECOGNITION
Autor
Yesid Ospitia Medina
Docente Ocasional
UNAD
UDR CALI
0000-0002-5494-2787
GIGAAffectiveLab
yesid.ospitia@unad.edu.co
RESUMEN
Este artículo presenta una revisión de librerías de alto nivel para el reconocimiento
de emociones en la música (MER). Se tiene como principal objetivo estudiar los
analizadores de contenido, mostrando las principales funcionalidades, las limitaciones y los
avances logrados al momento.
Palabras Claves : MER (reconocimiento de emociones en la música), MIR
(Recuperación de información musical)
ABSTRACT
This article presents a review of high-level libraries for the recognition of emotions
in music (MER). Its main objective is to study the content analyzers, showing the main
functionalities, limitations and progress achieved at the moment.
Keywords: MER (music emotion recognition), MIR (Music Information Retrieval), API
(application programming interface)
INTRODUCCIÓN
Expertos de la psicología han encontrado que la música puede considerarse un
transformador emocional. En (Sloboda 2012) se analiza la música como una destreza
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
cognitiva, mostrando la capacidad que tiene la música para provocar emociones en el
oyente. Dando lugar a una línea de investigación específica encargada de entender la
psicología cognitiva de la música.
Algunas características de la música, como el ritmo, la armonía y la melodía, han
demostrado tener una relación directa con la percepción emocional de un oyente. Lo que
genera una hipótesis, en donde se plantea, que las características intrínsecas de la música,
en sus diferentes valores, y aplicación de reglas musicales, producen emociones en el
individuo que se expone a una situación de apreciación musical.
En este artículo se revisará algunas de las librerías de alto nivel disponibles, para la
recuperación de información musical y posterior reconocimiento de emociones.
OBJETIVOS
Realizar una revisión de librerías de alto nivel para el reconocimiento de emociones
en la música desde estrategias computacionales, destacando los principales elementos
involucrados, los avances, las dificultades, y algunas ideas de exploración de carácter
investigativo.
METODOLOGIA
El resultado presentado en este artículo, corresponde una revisión parcial del estado
del arte de una tesis de doctorado actualmente en desarrollo y con el título de: Desarrollo
de un modelo de elicitación de emociones a partir de las características de la música.
Generación de un sistema recomendador.
Como metodología de investigación se consideró los siguientes puntos (Behar
Rivero 2008):
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
1. Definición del problema.
2. Justificación del problema.
3. Definición de la línea de investigación
4. Delimitar el alcance de la propuesta de investigación.
5. Formular objetivos de investigación específicos.
6. Revisión sistemática del estado del arte estableciendo una estrategia de búsqueda
bien definida (Kitchenham 2004)
7. Formular la hipótesis de estudio. Caso puntual: cambios emocionales a través de la
estimulación musical.
8. Revisión específica de librerías de alto nivel.
RESULTADOS
Los analizadores de contenido
Los analizadores de contenido como estrategia en sistemas MER enfrentan grandes retos,
en su mayoría derivados de que su principal fuente de análisis, es el archivo digital en donde
se encuentra grabada la pieza musical. En este archivo se encuentra presente una señal de
sonido que no tiene ningún tipo de información musical. El analizador de contenido debe
reconstruir las características intrínsecas de la música, a partir de una fase de procesamiento
de señal.
Por otra parte, se debe considerar las diferentes propiedades de sonido, que son
determinadas por los diversos formatos disponibles para la grabación de la pieza musical. En
(Chen et al. 2016), se resalta el efecto de un formato comprimido tal como el mp3 sobre una
señal. Los algoritmos utilizados para comprimir el sonido impactan directamente atributos
de la señal, generando con ello unas condiciones diferentes para el procesamiento de señal
desde herramientas computacionales.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
En cuanto a los analizadores de contenido, hay que precisar su nivel de estudio
específico. Por una parte, se encuentra el estudio de la operación interna, en donde se busca
entender, estudiar, mejorar e incluso proponer nuevas técnicas, vinculadas directamente con
el procesamiento de señal y algunas fases posteriores. Del otro lado, se encuentran las
herramientas, librerías y APIs de alto nivel, en donde se ofrece una serie de funcionalidades
de extracción de características de la música más orientadas a un usuario final.
Librerías de alto nivel
Las librerías de alto nivel son presentadas como APIs y servicios en general, orientados a
ofrecer un conjunto de funcionalidades para la extracción y clasificación de características
intrínsecas de la música.
Este tipo de herramientas se encuentran dirigidas a un perfil de usuario final. El potencial
de cada una de estas librerías dependerá en gran medida de su definición técnica interna, que
hace parte de las diversas técnicas desarrolladas en sistemas MIR.
Algunas características generales de los diferentes APIS son:
Tienen un límite en cuanto a la variedad de características intrínsecas de la música
que pueden reconstruir.
Tienen una determinada confiabilidad, en cuanto a la reconstrucción de una
determinada característica intrínseca de la música y su respectiva clasificación.
En consideración a su licenciamiento pueden ser de uso libre, como también de
uso comercial.
Algunos son de código abierto, otros sencillamente funcionan como cajas negras.
Algunos se encuentran disponibles como servicios en la nube, y requieren de
acceso a internet para su utilización.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
Para los servicios disponibles en la nube, existen algunas restricciones de acceso,
como por ejemplo el número de veces que se puede consumir un web service por
hora.
La utilización de una librería de alto nivel, como analizador de contenido, requiere de un
proceso riguroso de selección para identificar las fortalezas y debilidades de cada una de
estas soluciones. Podría incluso considerarse la utilización combinada de diferentes APIs,
para intentar lograr los mejores resultados posibles.
Como parte de la revisión del estado del arte, se muestran a continuación algunas
librerías de alto nivel, que pueden ser consideradas como un punto de partida para el
reconocimiento de emociones en la música.
Echonest(Tristan and Brian n.d.)
Se puede considerar un API que presta funciones para el procesamiento de sonido e
identificación de características de alto nivel de la música. Echonest inició su desarrollo en
los laboratorios del MIT y posteriormente fue adsorbido por Spotify.
Echonest ha sido compatible con diversos lenguajes de programación, incluyendo
python, Java, Ruby, Php, C++ y Javascript.
Es importante mencionar que las librerías descargables de Echonest, no tienen el 100%
de la lógica algorítmica, encargada de procesar el sonido y extraer las características.
Realmente lo que el usuario final puede descargar y utilizar, es una librería de tipo capa
cliente, de tal manera que la aplicación del usuario hace uso de una librería para conectarse a
los servicios publicados en la nube de Echonest. Pero finalmente, los servicios se encuentran
por fuera de lo que localmente se ejecuta.
El usuario final, desconoce la lógica interna de las principales funcionalidades del API y
por otra parte depende totalmente de la disponibilidad de la infraestructura de Echonest.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
Spotify API (Spotify n.d.)
Spotify es una de las principales plataformas de reproducción de música. Cuenta con un
amplio repositorio de canciones de diversos géneros, que además puede ser accedido en
línea desde un ambiente web, como también desde aplicaciones móviles.
El sistema recomendador de Spotify y la manera de clasificar la música para facilitar el
acceso y las búsquedas, es una de las características más relevantes que ha permitido su
exitosa acogida por parte de los usuarios.
Dentro de las diversas funcionalidades ofrecidas por Spotify, se encuentra la posibilidad
de utilizar el API de servicios. Este API de servicios tuvo sus inicios con el proyecto
Echonest, y una vez fue absorbido por Spotify, algunas aspectos técnicos de implementación
y funcionalidad cambiaron.
En la tesis de doctorado de Gabriel Elías Chanchí (BChanchía 2016), se definió una
arquitectura basada en contexto para el soporte de un servicio de IPTBV Móvil, pyechonest
fue utilizado para extraer características intrínsecas de la música, que luego servirían para
ser clasificadas dentro de un modelo de clasificación de emociones.
Para el tiempo de desarrollo de esta tesis doctoral, Echonest era una plataforma de libre
uso, y con una infraestructura propia, que además soportaba directamente la demanda de
servicios por parte de usuarios. Para aquel momento, los problemas de performance debido
al alto consumo de servicios de Echonest, eran moderados por el número de conexiones
activas, y esto se controlaba a través de una autenticación obligatoria.
Para marzo del 2014 Spotify anunció que adquiría a Echonest, generando nuevas
condiciones técnicas, en donde se hacía necesario realizar migraciones desde la
infraestructura de Echonest a la nueva infraestructura de Spotify.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
Con respecto a funcionalidad, Echonest permitía cargar archivos de sonido para ser
procesados, y sobre ellos identificar diferentes propiedades musicales. Con la migración a
Spotify, esta funcionalidad se perdió. En la actualidad, el API de Spotify únicamente permite
aplicar sus servicios sobre canciones que se encuentran en su repositorio, lo que se vuelve
una gran limitante para ejercicios de experimentación.
El esquema de funcionamiento del API de Spotify, tiene algunos aspectos por destacar,
como lo son la facilidad de conexión a los servicios, la disponibilidad de diferentes librerías
para soportar gran variedad de lenguajes, y también la gran cantidad de documentación que
puede ser consultada, para llevar a cabo proyectos de integración con los servicios de
Spotify.
Sin embargo, algunas desventajas importantes a considerar sobre este API, en
consideración a la transición de Echonest a Spotify API son:
La alta dependencia de la infraestructura, lógica funcional y políticas de
licenciamiento de quien administra y tiene el control del API.
Las migraciones obligatorias a Spotify, de quienes trabajaron con Echonest, y
necesitan que sus proyectos sigan funcionando.
La operación del API como una caja negra, en donde se desconoce su lógica
interna, lo que limita completamente la posibilidad de experimentar con
parámetros para lograr algún tipo de afinamiento.
La dependencia de la disponibilidad del acceso a Internet, que puede verse
afectada por problemas en el canal de comunicaciones, políticas de seguridad red,
velocidades de transmisión lentas, entre otros.
JMIR(JMIR Audio Utilities n.d.)
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
JMIR es un software de código abierto implementado en java, que puede ser utilizado
para la recuperación de información musical. Se encuentra integrado por un grupo de
componentes, que pueden ser utilizados en conjunto, siempre que las condiciones del
experimento lo permitan.
De manera general en la figura 1 se describe el proceso de extracción de características, y
para cada una de las actividades del proceso, se relaciona el componente de jMIR
involucrado.
Figura 1: Actividades presentes en la clasificación de la música y componentes jMIR
asociados.
Fuente: (JMIR Audio Utilities n.d.)
JAudio es uno de los compementes que integra a JMIR, y permite la extracción de
características desde un archivo de sonido.
Dentro de las ventajas importantes de JAudio, se puede destacar a continuación:
Funciona como una aplicación local, por lo que no hay dependencia de un canal de
comunicación.
Permite parametrización y extensión de uso por parte del usuario. Por ejemplo, es
posible crear características musicales adicionales a las ya definida por defecto.
Se encuentra desarrollado en java y puede ser integrado con otros aplicativos.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
Permite exportar las características reconocidas a un archivo XML con toda la meta
data asociada a características de sonido. Este formato es interpretado por los
diferentes módulos disponibles en jMIR.
Se puede integrar con jSymbolic, el cual permite analizar características más
específicas de la teoría musical.
REFERENCIAS BIBLIOGRAFICAS
BChanchía, Gabriel Elías. 2016. “ARQUITECTURA BASADA EN CONTEXTO PARA
EL SOPORTE DEL SERVICIO DE VOD DE IPTV MÓVIL, APOYADA EN
SISTEMAS DE RECOMENDACIONES Y STREAMING ADAPTATIVO.”
Universidad del Cauca.
Behar Rivero, Daniel S. 2008. Metodología de La Investigación. A. Rubeira. ed. A.
Rubiera. Shalom.
Chen, You Shyang, Ching Hsue Cheng, Da Ren Chen, and Cheng Huan Lai. 2016. “A
Mood- and Situation-Based Model for Developing Intuitive Pop Music
Recommendation Systems.” Expert Systems 33(1): 7791.
“JMIR Audio Utilities.” http://jmir.sourceforge.net/index_jAudio.ht ml.
Kim, Youngmoo E et al. 2010. “Music Emotion Recognition : A State of the Art Review.”
In Information Retrieval, , 25566.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.231.7740&rep=rep1&type=
pdf%5Cnhttp://ismir2010.ismir.net/proceedings/ismir2010-45.pdf.
Kitchenham, Barbara. 2004. Keele University Technical Report TR/SE-0401 Procedures
for Performing Systematic Reviews. UK.
http://csnotes.upm.edu.my/kelasmaya/pgkm20910.nsf/0/715071a8011d4c2f482577a7
00386d3a/$FILE/10.1.1.122.3308[1].pdf%5Cnhttp://tests-
zingarelli.googlecode.com/svn-history/r336/trunk/2-
Disciplinas/MetodPesquisa/kitchenham_2004.pdf.
Santandreu, Rafael. 2011. El Arte de No Amargarse La Vida. Oniro Edic. ed. Werth.
Barcelona: ONIRO.
Sloboda, John A. 2012. Música, La Mente Musical: La Psicología Cognitiva de La Música.
IV Encuentro Interzonal de Investigación
“Perspectivas de la Investigación ante la política de ciencia, tecnología e innovación
en Colombia”
Sistema de Gestión de la Investigación SIGI
10 y 11 de noviembre
MACHADO GR. ed. Amalia. Andrade, Beatriz. Casas. Madrid.
“Spotify.” https://developer.spotify.com/.
Tristan, Jehan, and Whitman Brian. “Echonest.” http://the.echonest.com/.
}
ResearchGate has not been able to resolve any citations for this publication.
Article
Traditionally, a per-song-purchased base recommendation system is used on most music websites, but this method produces unsatisfactory results under various situational practices. This study proposes a hybrid procedure that includes both an expert-attributes selection capability and a mood/situation-attributes categorization functionality. This procedure fosters the development of a so-called MoMusic model as an unlimited online streaming service to replace current systems and artfully provide music to interested parties. This study employs a dataset consisting of 821 songs from the 2005–2010 annual music rankings as well as songs from the top artists from 2009 to 2010 from Taiwan's popular KKBOX music streaming service. The experimental dataset was assessed and coded by domain experts, and the expert-attributes selections and mood/situation-attributes categorizations were used to produce recommendation lists. These recommendation lists were then paired with questionnaire-derived music preferences from experienced users. The experimental results conclusively show that the MoMusic model is approximately twice as accurate as the random selection-based lists and the KKBOX-like recommendation lists and performs better than the two listed recommendation systems. The MoMusic model scores 0.889 on the usefulness evaluation, whereas the system satisfaction is 0.96. The MoMusic model has the advantages of intuitive use and high performance.
Article
This paper surveys the state of the art in automatic emo-tion recognition in music. Music is oftentimes referred to as a "language of emotion" [1], and it is natural for us to categorize music in terms of its emotional associations. Myriad features, such as harmony, timbre, interpretation, and lyrics affect emotion, and the mood of a piece may also change over its duration. But in developing automated systems to organize music in terms of emotional content, we are faced with a problem that oftentimes lacks a well-defined answer; there may be considerable disagreement regarding the perception and interpretation of the emotions of a song or ambiguity within the piece itself. When com-pared to other music information retrieval tasks (e.g., genre identification), the identification of musical mood is still in its early stages, though it has received increasing attention in recent years. In this paper we explore a wide range of research in music emotion recognition, particularly focus-ing on methods that use contextual text information (e.g., websites, tags, and lyrics) and content-based approaches, as well as systems combining multiple feature domains.
Metodología de La Investigación
  • Behar Rivero
  • S Daniel
Behar Rivero, Daniel S. 2008. Metodología de La Investigación. A. Rubeira. ed. A. Rubiera. Shalom.
Música, La Mente Musical: La Psicología Cognitiva de La Música
  • John A Sloboda
Sloboda, John A. 2012. Música, La Mente Musical: La Psicología Cognitiva de La Música.