ThesisPDF Available

Reconocimiento automático del sarcasmo: ¡Esto va a funcionar bien!

Abstract

El objetivo de este trabajo es, en primer lugar, analizar el sarcasmo en el corpus elegido, y en segundo lugar, basándose en este análisis, elaborar un algoritmo de aprendizaje automático supervisado capaz de distinguir entre un input sarcástico y uno no sarcástico. Para ello, se utilizará NLTK, una librería de Python, que permite la construcción de este tipo de algoritmos con facilidad.
Reconocimiento automático del sarcasmo - ¡Esto va a funcionar
bien!
Mika Hämäläinen
Tesina de Master
Filología Española
Departamento de Lenguas Modernas
Universidad de Helsinki
Primavera de 2016
1
ÍNDICE
1. Introducción .......................................................................................................................... 3
2. Definición del sarcasmo ........................................................................................................ 4
2.1. Ironía y sarcasmo y sus diferencias ............................................................................... 4
2.2. Máximas de Grice.......................................................................................................... 4
2.3. Teoría de la relevancia .................................................................................................. 5
2.4. Teoría de pretensión alusiva de ironía discursiva ......................................................... 6
2.5. Teoría unificada de ironía ............................................................................................. 7
2.6. Teoría de Haverkate ...................................................................................................... 7
2.7. Actos de habla ............................................................................................................... 8
2.7.1 Condiciones de felicidad .............................................................................................. 9
2.7.2 Comunicación de ironía mediante los actos de habla ................................................. 9
2.8. Polaridad ..................................................................................................................... 10
3. Sarcasmo en el corpus ........................................................................................................ 11
3.1. Sinopsis de South Park y Archer.................................................................................. 11
3.2. Preparación del corpus ............................................................................................... 12
3.3. Sarcasmo irónico ......................................................................................................... 13
3.3.1. Representativo .................................................................................................... 13
3.3.1.1. Significado contrario ................................................................................... 13
3.3.1.2. Significado distinto ...................................................................................... 15
3.3.1.3. Otros............................................................................................................ 19
3.3.2. Expresivo ............................................................................................................. 20
3.3.2.1. Significado contrario ................................................................................... 21
3.3.2.2. Significado distinto ...................................................................................... 24
3.3.3. Directivo .............................................................................................................. 26
3.3.4. Múltiples actos de habla ..................................................................................... 27
3.3.4.1. Significado contrario ................................................................................... 27
3.3.4.2. Significado distinto ...................................................................................... 29
3.4. Sarcasmo no irónico .................................................................................................... 34
3.5. Resumen del análisis ................................................................................................... 35
4. Implementación del algoritmo ........................................................................................... 36
4.1 Aprendizaje automático supervisado ......................................................................... 36
2
4.2 Preparación del corpus para análisis automático ....................................................... 37
4.3 Nivel léxico .................................................................................................................. 38
4.4 Sentimiento ................................................................................................................. 42
4.5 Conocimientos del mundo .......................................................................................... 45
4.6 Teoría de la mente ...................................................................................................... 48
4.7 Resultados ................................................................................................................... 49
5. Conclusiones ....................................................................................................................... 50
Bibliografía .................................................................................................................................. 52
Fuentes primarias ................................................................................................................... 52
Fuentes secundarias ............................................................................................................... 52
3
1. INTRODUCCIÓN
El sarcasmo es un acto de habla indirecto que causa grandes desafíos, no solo
entre los seres humanos, sino en especial para los ordenadores. Esto dificulta los análisis
automáticos realizados por una cantidad amplia de algoritmos PLN (procesamiento de
lenguajes naturales). En particular, los algoritmos de análisis de sentimiento están
afectados por el sarcasmo, ya que, por su naturaleza, el sarcasmo no puede ser
interpretado de forma literal. Por lo tanto, encontrar una forma confiable de reconocer el
sarcasmo automáticamente significaría un gran avance para todo tipo de PLN que se
concentra en el significado del texto.
El objetivo de este trabajo es, en primer lugar, analizar el sarcasmo en el corpus
elegido, y en segundo lugar, basándose en este análisis, elaborar un algoritmo de
aprendizaje automático supervisado capaz de distinguir entre un input sarcástico y uno
no sarcástico. Para ello, se utilizará NLTK, una librería de Python, que permite la
construcción de este tipo de algoritmos con facilidad.
El reconocimiento automático de sarcasmo se ha estudiado mucho en los últimos
años. Sin embargo, una vasta cantidad de estos estudios (Reyes, Rosso, & Veale, 2013),
(Davidov, Tsur, & Rappoport, 2010) y (Karoui, Aussenac Gilles, Benamara Zitoune, &
Hadrich Belguith, 2014) se concentran únicamente en los textos disponibles de las redes
sociales, como en los tweets de Twitter. Lo positivo en el uso de este tipo de fuentes es
la cantidad inmensa de información que se puede recuperar automáticamente para
entrenar el algoritmo. El inconveniente es que los tweets no reflejan la complexidad de
lengua hablada, y muchas veces los tweets contienen información ausente en la lengua
oral que puede facilitar el proceso de reconocimiento de sarcasmo, como por ejemplo,
emoticones, el uso excesivo de puntuaciones, como signos de exclamación, etc.
Por las limitaciones de textos escritos, he elegido un corpus audiovisual.
Transliterando y anotando dos episodios de South Park con voces que utilizan la
variante del español latinoamericano y dos episodios de Archer con voces que utilizan
la variante del español de España, voy a formar un corpus en que basar este trabajo
científico. Esto no solo me permite analizar el sarcasmo en un lenguaje hablado, sino
también en su contexto.
4
2. DEFINICIÓN DEL SARCASMO
El sarcasmo es un acto de habla indirecta cuyo significado no es el mismo que el
significado literal de la oración. Por este motivo, causa grandes dificultades a
clasificadores automáticos e incluso para seres humanos. En este apartado presentaré las
teorías más importantes del sarcasmo que utilizaré como base de mi análisis. Todas
estas teorías se apoyan unas en otras. La teoría de Haverkate es, sin embargo, una
excepción pero la razón de su inclusión en este trabajo es sencillo: no contradice las
demás teorías y da una dicotomía bastante concreta para el análisis.
2.1. Ironía y sarcasmo y sus diferencias
Ironía y sarcasmo son dos términos bastante semejantes cuya diferencia no es
siempre muy clara. La ironía constituye un concepto más amplio que el sarcasmo, ya
que una situación puede ser irónica, hay ironía del destino etc. El sarcasmo existe
solamente al nivel verbal, es decir, una situación no puede ser sarcástica pero lo que se
dice en una situación puede ser sarcástico. Un ejemplo de una situación irónica es el
siguiente: el conductor de un coche muere porque se asfixia en el airbag del coche. Aquí
lo irónico es que una cosa que debería salvar vidas mata al conductor. Esto sin embargo,
no es sarcástico, pero si un investigador de accidentes, al ver lo ocurrido, dice, “qué
bien funcionó el airbag”, se trata de sarcasmo.
Lo que hace más difícil la distinción entre ironía y sarcasmo es que la ironía
también puede ocurrir en lo verbal. Un ejemplo de este tipo de ironía: una amiga me
contó una vez que se acordaba de cómo decir olvidar en vasco, pero se había olvidado
de cómo decir recordar. ¿Entonces, por qué esto es solo irónico y no sarcástico? La
respuesta es sencilla: el sarcasmo siempre requiere una víctima. La víctima no tiene por
qué ser el interlocutor; la víctima puede ser cualquier persona o cosa. Otras
características del sarcasmo son que el sarcasmo nunca debería interpretarse de forma
literaria y que, a veces, el sarcasmo se acompaña de un tono sarcástico. Sin embargo, el
tono sarcástico no es el único rasgo explicativo al interpretar el sarcasmo.
2.2. Máximas de Grice
Grice (1975) introduce el concepto del Principio de Cooperación que se divide
en cuatro máximas: cantidad, calidad, relevancia y manera. Si los interlocutores siguen
estas máximas, pueden asegurar que sus contribuciones adelantan la conversación con
respecto a su finalidad. Se requiere una violación intencional de estas máximas para que
la locución tenga tono irónico.
La máxima de cantidad requiere que la locución sea tan informativa como sea
necesario. Es decir, el locutor no puede transmitir demasiada información, pero aun así
comunica todo lo necesario para la conversación. Un ejemplo de violación de esta
5
máxima sería el siguiente: alguien me pregunta dónde yo vivo y yo respondo que en
Finlandia, con lo que estoy comunicando menos información de lo que yo debería, ya
que mi interlocutor estaría seguramente más interesado en conocer la calle o el barrio en
que vivo.
Si el locutor sigue la máxima de calidad, no comunica información que no
piensa que sea verídica y tampoco información de que no tiene bastante evidencia. Una
forma de violar esta máxima es sencillamente mentir. Si alguien pregunta, “¿Tienes un
gato?”, y el interlocutor responde que , aunque, no tiene ningún félido en su casa, está
violando la máxima de calidad.
La máxima de manera consta de múltiples requisitos. Entre otros, el locutor tiene
que evitar la ambigüedad y obscuridad de expresión. Estos dos requisitos están en
contradicción con la definición del sarcasmo, así que esta máxima puede ser importante
en el reconocimiento del sarcasmo. Un ejemplo de violación de esta máxima podría ser
el siguiente: alguien pregunta, “¿Es Berlín la capital de Alemania?”, y su interlocutor le
responde, “¿Hace frío en Finlandia?”. La respuesta viola la máxima de manera ya que es
ambigua por no responder directamente a la pregunta.
La máxima de relevancia o de relación plantea, según Grice, cuestiones difíciles
sobre las circunstancias en que se pueda cambiar el tema de la conversación sin violar
esta máxima. Voy a tratar esto con más detalle en el siguiente apartado. Pero para dar un
ejemplo de violación de esta máxima; si alguien pregunta, “¿Dónde está la pizza?” y la
respuesta es “El perro se ve contento”, esta respuesta viola la máxima de relevancia.
2.3. Teoría de la relevancia
Después de la publicación del artículo de Grice (1975), surgió la teoría de la
relevancia (Wilson & Sperber, 2002) para profundizar las ideas de Grice. La teoría de la
relevancia comparte la intuición de Grice, según la cual las locuciones conllevan
expectativas de relevancia, pero esto no implica la necesidad del Principio de
Cooperación. El interlocutor intentará encontrar la relevancia de la locución con
respecto a otros inputs y conocimientos disponibles a la hora de percibir la locución,
porque se trata de un proceso básico de la cognición humana.
En cuanto a la ironía, la teoría de la relevancia está en contra del punto de vista
de Grice que, por una parte, asimila el tono irónico con la hipérbole, es decir la
exageración, y la metáfora. En la teoría de la relevancia, lo fundamental para la ironía y
el sarcasmo es el uso ecoico de la lengua y no la violación de las máximas de
conversación.
Una locución se considera ecoica cuando el locutor no expresa sus opiniones o
las de los demás directamente, sino cuando el locutor expresa su actitud sobre opiniones
que se atribuyen implícitamente a otra persona. Según la teoría, esto requiere un análisis
de un nivel de metarepresentación más elevado que en el caso de las metáforas. Este
6
requisito de la existencia de la teoría de la mente
1
puede causar grandes desafíos para el
sistema automático.
2.4. Teoría de pretensión alusiva de ironía discursiva
La teoría de pretensión alusiva (Kumon-Nakamura, Glucksberg, & Brown,
1995) parte de las teorías ecoicas como (Wilson & Sperber, 2002) con la idea de que la
interpretación ecoica de una locución no es una característica necesaria para su
interpretación irónica. No obstante, las teorías ecoicas no están en contradicción con la
teoría de pretensión alusiva.
Según esta teoría, hay dos características necesarias para la ironía. La primera es
una alusión a una predicción, expectación, preferencia o norma que ha sido violada.
Este tipo de alusión se puede realizar de forma definida por las teorías ecoicas, pero
también existen otras maneras discursivas para expresar alusión. La segunda
característica necesaria es la insinceridad pragmática, que se define como una violación
de una o más de las condiciones de felicidad
2
. Para la teoría, es fundamental que la
insinceridad ocurra a nivel pragmático y no a nivel sustantivo, ya que esto permite
excluir locuciones cuya intención es mentir en vez de comunicar algo irónico.
La teoría amplía la definición de la insinceridad pragmática de la teoría
pragmática estándar (Grice, 1975), que tiene en cuenta solamente la insinceridad
semántica o proposicional. Sin embargo, la definición estándar excluye todo tipo de
locuciones que, por su naturaleza, no pueden contradecir ningún hecho ya que lo que
expresan no puede ser ni falso ni verdadero. Por ejemplo, el valor de verdad de
cumplidos, preguntas y peticiones no puede evaluarse de ninguna forma, pero pueden,
sin embargo, pueden ser sinceros o insinceros.
En su estudio (Kumon-Nakamura, Glucksberg, & Brown, 1995) destacan cuatro
tipos de afirmaciones que expresan insinceridad. El primer tipo, se refiere a
afirmaciones positivas que expresan algo contrario a hechos, por ejemplo decir “Hace
buen tiempo” cuando, en realidad, llueve, puede tener valor irónico. El segundo tipo, a
afirmaciones del primer tipo en negativo, es decir, afirmar que “Hace mal tiempo”
cuando en realidad hace sol, no puede expresar ironía según esta teoría. Sin embargo,
según (Kreuz & Glucksberg, 1989) este tipo de afirmaciones negativas pueden expresar
sarcasmo, pero solo en condiciones especiales en las que se alude a un antecedente
explícito como, por ejemplo, si la locución irónica tiene una víctima explícita.
El tercer tipo consiste en afirmaciones contrarias a hechos sobre violaciones de
normas. Como por ejemplo, si un jefe pide a sus empleados que preparen una
presentación de cinco minutos sobre lo que están haciendo ahora en su trabajo, y un
empleado prepara una presentación de una hora. Si el jefe dice, “¡Qué presentación tan
corta!”, después de la presentación, se trata de una alusión sarcástica a la norma violada
sobre la duración de la presentación.
1
La teoría de la mente, un concepto primero introducido en (Premack & Woodruff, 1978), se refiere a la
comprensión de la existencia de la mentalidad, emociones, deseos, etc. de otras personas.
2
Véase 2.7.1 Condiciones de felicidad
7
El cuarto tipo consiste en afirmaciones de verdad pragmáticamente insinceras.
Un ejemplo de este tipo de afirmaciones es el siguiente: un amigo te visita
inesperadamente y le dices, “me encanta la gente que me avisa antes de venir a
visitarme”. En este caso, la cortesía de la locución sarcástica es falsa ya que el amigo
llegó sin avisar.
2.5. Teoría unificada de ironía
Un esfuerzo para crear una teoría unificada de las tres teorías presentadas en los
apartados anteriores ha sido el de Utsumi (1996). Según la teoría, también conocida
como la teoría de exposición implícita de la ironía verbal (Utsumi, 1996), la violación
de los principios pragmáticos no puede responder a la pregunta de cómo se distinguen
las locuciones irónicas de las no irónicas. Tampoco explica el proceso que le permite al
interlocutor entender el tono irónico. La teoría define que la característica distintiva de
una locución irónica es que está ubicada en un entorno irónico.
Un entorno es irónico si muestra implícitamente dos de los tres requisitos del
entorno irónico. Estos requisitos se pueden observar en la locución irónica. El primer
requisito es que la locución tiene que aludir a la expectación E del locutor. El segundo
es insinceridad pragmática que se caracteriza por la violación intencional de uno de los
principios pragmáticos. El tercero es que la locución implica la actitud emocional del
locutor sobre el fracaso de la expectación E.
El entorno irónico se puede dividir en cuatro tipos distintos. En los dos primeros
tipos, la expectación E del locutor está causada por una acción de un agente intencional.
En el primer tipo, la acción fracasa y en el segundo, la acción no se realiza. Este
incumplimiento de la acción causa un fallo en la expectación E. Por ejemplo, la
siguiente locución sarcástica, “¡Me encanta que haya comida cuando tengo hambre!”, es
del primer tipo si el interlocutor ha intentado preparar comida, pero la ha olvidado en el
horno por demasiado tiempo; y del segundo tipo, si el interlocutor ni siquiera ha
empezado a preparar comida.
En los dos últimos tipos, la expectación E no está causada por ninguna acción
intencional. En el tercer tipo, la expectación E falla por una acción cualquiera y en el
cuarto tipo, la E falla por casualidad. Un ejemplo del tercer tipo podría ser que una
rueda de un coche pasa por un charco de agua tirando agua sobre un peatón, y el peatón
dice: “Me encanta no mojarme al caminar”. La E puede fallar en el cuarto tipo si, por
ejemplo, llueve y alguien dice: “¡Qué tiempo tan fantástico para ir a la playa!”.
La teoría distingue dos tipos de sarcasmo: sarcasmo irónico y no irónico. El
sarcasmo tiene víctimas explícitas y muestra la emoción negativa del locutor de forma
positiva. El sarcasmo no irónico no alude a ninguna expectación.
2.6. Teoría de Haverkate
Haverkate (1990) presenta su teoría de ironía en su artículo, según la cual la
categoría de la ironía verbal puede describirse por el marco teórico de actos de habla. La
8
teoría divide la ironía en dos clases según su definición. En la primera clase, la ironía se
define como lo contrario de lo que se ha dicho, y en la segunda, la definición que se da a
la ironía es interpretación distinta a lo que se ha dicho.
La ironía de una locución que significa lo contrario de su interpretación literal
puede explicarse de dos formas. La primera es por una oposición lógica, es decir, una
negación completa del contenido proposicional de la locución, por ejemplo, decir, “No
eres muy inteligente” a alguien que es considerado inteligente.
La segunda es por una oposición léxica en que el sentido contrario se transmite,
más bien, por palabras que forman parte de un campo semántico que está en una
relación antónima con las palabras con las que se podría reformular el significado
irónico en una locución no irónica. Por ejemplo, llamar a alguien inteligente “muy
tonto”, es un ejemplo de esta relación antónima.
Sin embargo, las distintas oposiciones semánticas no son la única distinción
importante para la primera clase de ironía. La ironía puede manifestarse en la parte
afirmativa de una locución, es decir, en la parte que expresa la relación entre el sujeto y
el predicado. También puede manifestarse en la presuposición de la locución. La
diferencia de estas formas de ironía es que a partir de la presuposición no se puede
generar una variante no irónica con una negación proposicional. Es decir, una locución
irónica de tipo, “Se ha estrenado esa película fascinante”, no pierde su valor irónico con
negación: “No se ha estrenado esa película fascinante”.
Cuando la ironía se define como algo distinto de lo que se ha dicho, la
interpretación irónica no puede hacerse explícita con una paráfrasis que expresa el
significado contrario, ya que la ironía no se halla en la proposición sino en el nivel de la
fuerza ilocucionaria
3
. Lo que distingue una locución irónica de otro tipo de locuciones
de habla indirecta es, en primer lugar, la insinceridad y en segundo, la trasformación
ilocucionaria entre la interpretación literaria de la locución y el significado irónico.
2.7. Actos de habla
Searle (1976) clasifica los actos de habla en cinco categorías. Cada locución
puede clasificarse en alguna de estas categorías. Los declarativos son actos de habla que
se usan para cambiar el mundo alrededor, por ejemplo cuando un tribunal declara
culpable a alguien. Los representativos son locuciones que expresan hechos de la
realidad que el hablante cree verdaderos, por ejemplo, “Hoy no llueve” o “Papá Noel
vive en Finlandia”. Los actos de habla expresivos comunican emociones, por ejemplo
“Me siento feliz” o bien “Lo siento mucho”. Los directivos se usan para que otra
persona haga algo que el hablante quiere, por ejemplo: “Vete de aquí” o bien “Levanta
la mano”. Los comisivos son actos de habla mediante los cuales el hablante se
compromete a hacer algo en el futuro, por ejemplo “Te voy a matar” o “Volveré
mañana”.
3
La fuerza ilocucionaria, un término introducido por (Austin, 1962), se refiere a la categoría de acto de
habla en que pertenece la locución.
9
Según la teoría de actos de habla (Searle J. R., 1969), un enunciado consta de
tres actos distintos. Estos son: acto locutivo, ilocutivo y prelocutivo. El acto locutivo se
refiere al acto de producir una locución en una lengua, la función comunicativa de la
locución se transmite en el acto ilocutivo y el efecto deseado de la locución se llama
acto prelocutivo.
2.7.1 Condiciones de felicidad
Existen condiciones de felicidad que deben cumplirse para que los actos de
habla de la locución se comprendan de la forma deseada. Las condiciones generales
dictan que los interlocutores tienen que entender la misma lengua, no estar jugando un
papel etc. Las condiciones de contenido requieren que, por ejemplo, una promesa sea
sobre un evento futuro, no pasado. Las condiciones preparatorias son, por ejemplo en el
caso de una promesa, que lo prometido no va a pasar sin un esfuerzo por la parte del
locutor y que sea algo beneficioso para el interlocutor. La condición de sinceridad se
refiere a que el locutor tiene que ser sincero, es decir, en el caso de una promesa, tener
la intencionalidad de cumplirla. La condición esencial de un acto de habla crea, por
ejemplo en el caso de una promesa, una obligación al locutor de llevar a cabo su acción
prometida. (Yule, 1996)
2.7.2 Comunicación de ironía mediante los actos de habla
Aparte de los actos de habla afirmativos tratados en los apartados anteriores, hay
otros actos de habla que sirven para comunicar la ironía. (Kumon-Nakamura,
Glucksberg, & Brown, 1995) En todo caso, se deben cumplir dos requisitos de ironía:
insinceridad pragmática
4
y alusión a una norma o expectación violada.
Los actos de habla directivos pueden ser irónicos si el hablante pregunta algo sin
querer saber la respuesta o bien alcanza la insinceridad pragmática siendo
excesivamente cortés. Los actos de habla expresivos, que normalmente comunican los
sentimientos del hablante, se usan, en la mayoría de los casos irónicos, justamente para
expresar sarcasmo irónico. Los declarativos pueden tener una interpretación irónica si la
declaración ha sido comunicada por alguien que carece la autoridad para hacerlo.
(Kumon-Nakamura, Glucksberg, & Brown, 1995)
Según Haverkate (1990) los actos de habla directivos son irónicos de dos
maneras. La primera, en la que el acto de habla significa lo contrario de su
interpretación literal, se puede observar en las locuciones afirmativas y negativas,
mientras que la segunda, en la que significa algo distinto, puede hallarse en locuciones
indirectas que están formadas como cuestiones retóricas. Los expresivos y comisivos
pueden ser irónicos solo de la segunda forma.
4
La insinceridad pragmática se define como violación de una o más de las condiciones de felicidad
10
2.8. Polaridad
Ya que el sarcasmo se caracteriza por comunicar lo contrario, o bien al menos
algo distinto, a su interpretación literal, es fundamental definir el concepto de polaridad
que denota una oposición lingüística.
La polaridad se refiere a la relación de los opuestos semánticos que son
inconsistentes uno con otro. Esto no se limita únicamente a oposiciones lógicas sino que
también incluye relaciones conceptuales como las de los antónimos. (Israel, 2004)
Existen tres tipos de polaridad: contradicción, contrariedad e inversión. La
contradicción se refiere a una relación de oposición binaria en que un término tiene que
ser verdadero y otro falso. En el caso de contrariedad solo un término puede ser
verdadero, pero también es posible que los dos términos sean falsos. Esto significa que
un término puede tener una cantidad infinita de otros términos con los que puede formar
una contrariedad. La inversión contiene oposición entre escalas, o sea, listas de
proposiciones o predicados. (Israel, 2004)
11
3. SARCASMO EN EL CORPUS
En esta parte del trabajo se analizarán las locuciones sarcásticas que se
encuentran en el corpus elegido. El análisis se basará en las teorías presentadas en el
apartado 2. Definición del sarcasmo y servirá de base para el algoritmo que se elaborará
en 4. Implementación del algoritmo.
El análisis está dividido en tres partes principales: Sarcasmo irónico, Sarcasmo
no irónico y Resumen del análisis. La primera parte se divide en diferentes actos de
habla según los cuáles se clasifica el sarcasmo. En los ejemplos se indica el sarcasmo
que se estudia marcando la réplica en negrita. Si en el ejemplo hay sarcasmo que no
forma parte de la misma categoría con el sarcasmo que se estudia, este sarcasmo se
marca con cursiva y se tratará con más detalle en la parte del trabajo dedicado a su
categoría.
3.1. Sinopsis de South Park y Archer
South Park es una serie estadounidense protagonizada por cuatro niños que
estudian en la escuela primaria de South Park: Kyle, Cartman, Stan y Kenny. La serie
trata de temas políticos y actuales en EE.UU. de forma muy irónica. La ciudad en que
viven se describe a menudo como “una ciudad pequeña y quieta en las montañas”,
aunque en realidad allí suelen ocurrir cosas muy raras, como visitas de extraterrestres o
bien la invasión de conejillos gigantes de Indias.
Cartman es un niño problemático que no sabe comportarse y que piensa que él
es la persona más importante del mundo. Vive con su madre, Liane, que es demasiado
permisiva con su hijo.
Kyle es un niño judío, y aunque forma parte del mismo grupo de amigos con
Cartman, Cartman tiene problemas con su religión y casi lo odia por eso. Kyle vive
junto con sus padres Gerald y Sheila y su hermano adoptado de Canadá. El mejor amigo
de Kyle es Stan.
Stan es un niño típico estadounidense que vive con sus padres, Randy y Sharon,
y su hermana Shelly, que siempre importuna a su hermano golpeándolo. El padre Randy
es un personaje importante en la serie porque tiende a reaccionar a todo de forma muy
extrema. Según la serie, él también es la famosa cantante estadounidense Lorde.
Kenny es un niño pobre que suele morir y reanimarse en el siguiente episodio.
Siempre lleva la capucha tan apretada que solo se pueden ver sus ojos. Esto también
dificulta la comprensión de lo que él dice, porque su voz es apenas audible tras la
capucha. Sus padres son Stuart y Carol y tiene dos hermanos poco vistos en la serie:
Kevin y Karen.
Archer es una serie también estadounidense que se protagoniza por un agente
con el mismo apellido, Sterling Archer. La serie está situada en el pasado ya que la
Unión Soviética aún existe y los coches y ropa que son de los años 60. Sin embargo,
disponen de tecnología muy moderna como GPS, móviles con pantallas táctiles y robots
humanoides.
12
Sterling Archer, también conocido como Archer, trabaja en el servicio de
inteligencia de su madre. La relación con su madre es problemática y por eso él tiene
grandes problemas para controlar su vida. También tiene un hijo con Lana, que es otra
protagonista de la serie. Lana trabaja de agente en la misma empresa que Archer. Ella es
la única agente competente en la empresa.
La madre de Archer se llama Malory y antes de ser la jefa del servicio de
inteligencia, solía trabajar como agente. Igual que su hijo, tiene problemas con el
consumo de alcohol. Es una persona muy cínica y es una devoradora de hombres.
En la empresa de inteligencia también trabajan Pam de recursos humanos, la
secretaria Cheryl, el tesorero Cyril, uno de los agentes Ray y el científico loco Krieger.
Todos estos personajes tienen grandes problemas en su vida, por ejemplo, Cheryl es
drogadicta y Cyril tiene adicción sexual. Es decir, forman un equipo problemático de
personas que ni siquiera son muy competentes en su trabajo.
3.2. Preparación del corpus
El corpus consta de dos episodios de South Park con voces latinoamericanas y
dos episodios de Archer con voces en español de España. El hecho de tener dos series
diferentes me permite encontrar una cantidad más amplia de ejemplos de sarcasmo que
si me concentrase en una sola serie. También de este modo, mi corpus cubre dos
variantes del español, lo que puede resultar en hallazgos más diversos.
Como la finalidad de este trabajo es crear un algoritmo, era fundamental
transcribir la lengua hablada de los episodios en texto escrito ya que usar la pista de
audio de los episodios directamente con un algoritmo de reconocimiento de voz
complicaría este trabajo.
Opté por transcribir los episodios en texto normal sin ninguna marcación de
pausas, entonación u otras características suprasegmentales de la lengua oral ausentes en
la lengua escrita. Incluir anotaciones sobre cómo se han pronunciado ciertas palabras
podría incluso hacer el trabajo del algoritmo demasiado fácil; bastaría con buscar cierto
tono que se asocia con el sarcasmo. Aunque esto deja fuera lo prosódico del análisis, el
tono sarcástico no es lo único que explica el sarcasmo aunque puede facilitar su
comprensión.
Como resultado de la transcripción, obtuve una tabla CSV
5
que incluye el
nombre del locutor en la primera columna, la locución en la segunda y un booleano
indicando si la locución es sarcástica o no para todas las réplicas de cada uno de los
episodios. Los booleanos son resultados de la interpretación del investigador sobre el
valor sarcástico de cada réplica. Un ejemplo del corpus:
Archer
¿Y el pago será?
No
Slater
Por transferencia. ¿Algún problema?
No
5
CSV (valores separados por comas) es un formato para presentar tablas
13
Archer
No, era por saber si tenía que llevar un saco con el símbolo
del dólar.
Como total, el corpus consta de 976 réplicas de los que 88 son sarcásticas y 866
no sarcásticas.
3.3. Sarcasmo irónico
Para la finalidad de este trabajo, el sarcasmo irónico se define como sarcasmo
que se puede explicar por una o más teorías de ironía destacadas en 2. Definición del
sarcasmo. La mayoría del sarcasmo encontrado en el corpus (84 de 88 réplicas) forma
parte de esta categoría. El sarcasmo se manifiesta en locuciones de diferentes actos de
habla y por este motivo, esta parte del trabajo está dividida según los actos de habla. No
obstante, en el corpus no hay ejemplos de actos de habla comisivo y declarativo que
funcionen solos, y por eso estos casos se tratarán en la parte 3.3.4 Múltiples actos de
habla.
3.3.1. Representativo
Una porción bastante amplia (27 de 84 réplicas) del sarcasmo irónico pertenece
a la categoría de actos de habla representativos. Esta parte se divide en tres categorías
según si el sarcasmo se usa para comunicar algo contrario o distinto a su significado
literal. La tercera categoría consiste en las locuciones que no pertenecen a ni una ni otra
de las dos categorías.
3.3.1.1. Significado contrario
De las réplicas sarcásticas de acto de habla representativo, ocho tienen un
significado contrario a su interpretación literal. Todas estas conllevan insinceridad
pragmática y violan la máxima de calidad por ser ambiguas. Un ejemplo de esto es:
1.
Cartman Linda corbatita, Stan.
Stan Gracias.
Cartman Esas corbatas están de moda, tienes suerte de tenerla.
Stan: Fue regalo de mi abuelo, sí, y le costó mucho dinero.
Cartman: No, amigo, es genial.
Stan: Esta corbata cuesta seis mil dólares.
En este ejemplo se ve, en primer lugar, que el locutor Cartman quiere expresar lo
contrario de la interpretación literal de sus palabras, y que viola la condición de
felicidad, ya que describe la corbata de Stan como genial aunque ambos locutores saben
que ese no es el caso. Por este motivo, se trata de una locución pragmáticamente
insincera. Lo interesante es que en este caso, Cartman hace su sarcasmo explícito más
adelante en la conversación:
14
2.
Kyle: ¿Eso cuesta tanto?
Stan: Sí amigo, es una réplica de la corbata del Rey Enrique V.
Cartman: Amigo, es supergay.
Esta forma de indicar el sarcasmo explícitamente contradiciendo lo
anteriormente dicho ocurre solamente una vez en el corpus. Si este fenómeno tuviese
más presencia en el corpus, podría ser una de las claves para el reconocimiento
automático del sarcasmo.
De las locuciones sarcásticas de esta categoría, solamente tres aluden a una
expectación o norma violada, como indicado en la TPA
6
. Estas réplicas se dan a
continuación:
3.
Sharon: Stanley, solo busca tus cosas y nos vamos a casa.
Stan: No pueden decirme qué hacer.
Randy: Sí, somos tus padres, no podemos decirte qué hacer.
4.
Lana: Espera, ¿Argentina no es un aliado nuestro?
Conway: Sí claro, y más después de las alpinas.
Conway: El archivo está en el servidor principal de le servicio secreto de la
inteligencia argentino.
5.
Archer: Es broma, son sus tres días libres anuales. Suelen ser dos, pero le he
dejado recuperar uno del año pasado.
Lana: Hay que ver, qué generoso.
Archer: Bueno, no se los pago.
En los ejemplos tres y cinco la locución sarcástica alude a una norma violada,
siendo la norma en el primer caso la que los padres pueden imponer a sus hijos, norma
que Stan ha contradicho. En el quinto ejemplo, Lana alude a la violación de la
legislación sobre las condiciones de trabajo violada por Archer cuando explicó que su
mayordomo tiene solamente dos días libres al año. En el cuarto ejemplo se viola la
expectación de que Argentina sea uno de los aliados de los EE.UU.
El sarcasmo se utiliza en uno de los casos para proteger la cara
7
del locutor
contra un insulto sobre su peso.
6.
Conway: Y pierde unos kilitos.
Conway: No me jodas.
Lana: Sí, que has, que has, perdido peso, Conway Stern. ¿O cómo te
llames en realidad?
6
Teoría de pretensión alusiva de ironía discursiva
7
La cara, según la teoría de Goffman (1959), es la imagen del individuo que él presenta a los demás.
15
Conway: Mentía. Es mi verdadero nombre.
Aquí Lana usa sarcasmo para comunicar que Conway también se ha engordado.
El sarcasmo no es tan amenazante para la cara del interlocutor como el habla directo
(Hjelle Olsen, 2015, pág. 7), lo que puede resultar en un mejor rendimiento del acto de
guardar la cara
8
. El siguiente ejemplo del sarcasmo puede considerarse también como
protección de la cara, no contra un insulto sino una preocupación de la salud del locutor:
7.
Sharon: Randy, algo te ha ocurrido. ¿No puedes dejar de ser sarcástico?
Randy: Sí claro, ahora no puedo dejar el sarcasmo.
Sharon: En serio Randy, creo que este deporte le hizo algo de daño a tu cerebro.
Randy: Claro, le hizo algo a mi cerebro y ahora no puedo parar de ser
sarcástico.
En el ejemplo número siete, Randy ha empezado a padecer de un daño cerebral
causado por el uso excesivo de sarcasmo que le impide hablar de forma no sarcástica.
Aquí también se puede observar la función de protección de la cara del locutor aunque
esta vez, el sarcasmo no se utiliza para suavizar un insulto. Es decir, el sarcasmo del
sexto ejemplo sirve para proteger las caras de ambos interlocutores, mientras que el
sarcasmo del séptimo ejemplo solo se usa para proteger la cara del enunciador.
3.3.1.2. Significado distinto
En este apartado analizo las 12 réplicas presentes en el corpus cuyo significado
es distinto de su interpretación literaria. Es decir, añadiendo una negación o bien
sustituyendo una palabra por su antónimo no se llega al significado deseado de la
locución. En esta categoría se puede observar violación de más máximas de
conversación que en el caso del significado contrario. También la insinceridad
pragmática está ausente en dos de las réplicas de esta categoría:
8.
Conway: No puedo, no tengo la información.
Lana: ¿Qué información? Slater dijo que te sacará.
Archer: Cuando nos pidió que viniéramos a rescatarte.
Conway: ¿De dónde? ¿Del coño de tu madre?
Archer: ¡Joder!
Lana: Eh, ya está bien.
9.
Archer: Por Dios, te tienes que relajar. ¿Oh uah? ¿Y no hay cerveza?
Lana: ¿Por qué iba a traer cerveza?
Archer: Porque no quieres que beba licores.
Lana: No quiero que bebas nada.
8
Los actos de guardar y amenazar la cara forman parte de la teoría de cortesía de (Brown & Levinson,
1987)
16
En el ejemplo número ocho, no se manifiesta la insinceridad pragmática ya que
se trata de una pregunta. Es decir, solo planteando la pregunta, el locutor no ha violado
ninguna condición de felicidad. Sin embargo, la variante declarativa de la misma
oración, "Me rescatas del coño de tu madre", podría manifestar la insinceridad
pragmática. Esta réplica también viola la máxima de relevancia ya que el coño de la
madre de Archer tiene poco que ver con el contexto en que los locutores se ubican.
El noveno ejemplo no manifiesta la insinceridad pragmática ya que es verdad
que Lana no quiere que Archer beba licores, sin embargo, es la situación la que hace
sarcástica esta réplica. Lana no quiere que Archer beba ningún tipo de alcohol, pero aun
así Archer está preguntando por cerveza apuntando sarcásticamente que cerveza no se
considera prohibida ya que no tiene bastante alcohol. Esta locución viola la máxima de
manera ya que uno podría pensar que con la palabra licores no se refiere únicamente a
bebidas alcohólicas fuertes sino también a todo tipo de bebidas que contienen alcohol.
Por lo tanto, la locución es ambigua, no solo por siendo sarcástica, sino también por la
elección de palabras.
El siguiente ejemplo es el último caso en que se viola una de las máximas por
otros motivos que el sarcasmo:
10.
Linda: ¿Cómo ayudarían los sostenes y sombreros de papel?
Randy: A caso no ven. Ya que estamos en esto, deberíamos reemplazar el
balón por un globo. Y quién atrape el globo correrá mientras el resto
de los jugadores se abrazan.
Mr. Mackey: ¿Y a los alumnos les gustará eso?
Aquí se viola claramente la máxima de relevancia; los globos y abrazos no
tienen mucho que ver con las reglas de un deporte competitivo. Podemos observar una
hipérbole en esta oración. Esta hipérbole nace de la violación de la máxima de
relevancia. Lo propuesto por Randy se polariza fuertemente con lo que se espera del
fútbol americano, que es un juego muy violento.
Los tres siguientes ejemplos son los únicos que no aluden a una norma o
expectación violada, y por lo tanto no siguen el modelo de la TPA:
11.
Animador: ¿Es futbol seguro para sus hijos? Un padre preocupado, Randy Marsh,
dice que no. Comenzó un movimiento para reformar el deporte y ya tiene
cientos de seguidores.
Randy: Esto es bueno. Qué bueno que hayan venido en cantidades enormes
para mostrar su apoyo al sarcasmobol.
12.
Archer: Por no decir robotizado. ¿De dónde coño has sacado una mano biónica?
Krieger: Bueno, ¿qué tal? ¿Cómo te va?
Conway: En el skymall.
17
13.
Lana: ¿Cómo, dónde está?
Archer: Desintoxicándose.
Lana: ¿Lo dices en serio?
En el ejemplo 11, no se puede observar ninguna alusión de la TPA, ya que el
sarcasmo de Randy está en un nivel más elevado y no está directamente enlazado en la
situación de la locución. Lo sarcástico en la oración es que haya gente que apoye la idea
sarcásticamente presentada por Randy de un juego completamente seguro para sus
jugadores, llamado el sarcasmobol. También la hipérbole cantidades enormes enfatiza
el valor sarcástico de la oración dado que solamente hubo unas veinte personas
presentes.
El sarcasmo se usa en el ejemplo 12 para evitar la pregunta de Archer. Este tipo
de sarcasmo podría ser fácil de reconocer automáticamente si existiese una red
semántica en la que se pudiese verificar si las manos biónicas se compran normalmente
en la tienda de un avión. En el corpus, también hay otros ejemplos (por ejemplo 10)
cuyo reconocimiento se facilitaría con una red semántica.
El ejemplo 13, que también sirve para evitar una pregunta, puede causar grandes
dificultades para el algoritmo. Archer solamente da sarcásticamente una interpretación
posible sobre dónde su mayordomo está o bien para no revelar dónde está en realidad o
bien para no admitir que no tiene ni idea de dónde está su mayordomo.
La siguiente réplica sarcástica es bastante diferente de las demás en el corpus:
14.
Animador: Oh, parece que algunos ex jugadores de NFL están entrando al
campo. Está Martin Gregors por seguridad y el defensor Jim Harris.
Parece que lleva los pantalones en tobillos. Alguien debería
avisárselo. Y el excelente Mike Tafthill que parece estar horneando
un pastel imaginario.
En primer lugar, es una réplica bastante larga y a pesar de su contenido ridículo,
es una descripción de lo que realmente está pasando en el campo de fútbol americano. Y
en segundo lugar no toda la réplica tiene valor sarcástico aunque el sarcasmo se puede
escuchar en el tono del locutor. Aquí la actitud sarcástica se revela en la hipérbole
excelente. Hornear un pastel imaginario no es necesariamente una cosa que haría un ex
jugador excelente.
En los siguientes ejemplos, como en el caso del ejemplo 12, haría falta tener una
base de datos semántica con conocimiento del mundo:
15.
Directora: ¿Cómo va todo, entrenador?
Randy: ¿Cómo va todo? ¡Increíble! Nadie sale lastimado, los niños están
aprendiendo lecciones valiosas sobre abrazos y seguridad, porque de
eso se trata el mundo.
Directora: ¿Entonces, está feliz por todos esos cambios?
18
16.
Periodista: El entrenador Belichick dijo: No podemos derrotar a los Broncos. Este
entrenador les duró casi un día”.
Randy: Oh, sí soy el que inventó el sarcasmobol. No hay manera de que sepa
cómo entrenarlos.
Periodista: Creo que lo averiguaremos el domingo.
17.
Cyril: Vale, caray, ¿crees que en caso de fallecer serías la tutora legal de AJ?
Malory : ¿A quién iban a elegir si no?
Ray: ¿Tú sabes cómo eres? Si es alguien de aquí, seré yo
Cyril: Claro, él que fuma junto a la niña
Ray: ¡Jolín!
En los ejemplos 15 y 16 se polariza claramente lo dicho con el conocimiento
general sobre cómo el mundo funciona. En el ejemplo 15, Randy dice que el mundo
trata de los abrazos y seguridad lo que está contra de la intuición general. La locución
del ejemplo 16 también plantea una idea contra intuitiva de que Randy, el inventor del
juego, no puede saber cómo entrenar a los jugadores del juego que inventó.
La diferencia entre el ejemplo 17 y dos ejemplos anteriores es que aquí la réplica
en no contiene una contradicción. Para reconocer la polaridad en este caso, hay que
entender el contexto en el que esta contradicción nace. Por lo tanto, el reconocimiento
del sarcasmo en esta réplica es menos trivial para un algoritmo automático.
18.
Slater: Espera, ¿hablas urdu?
Archer: ¡Eh, qué va! ¡Solo esa frase!
Farooq: ¿La única frase que sabes en urdu es "no jodas cabrón violador de
cabras"?
Archer: ¿Qué? Creía que significaba lo siento. Se ve que por eso aquella
noche en el burdel de Karachi pasó de repente de malísima a mucho
peor.
El ejemplo 18 es un caso de uso del sarcasmo usado para hacerse el sueco y
escapar de la responsabilidad del insulto dicho en otra lengua. Lo interesante es que, en
este caso, el sarcasmo se acompaña por una anécdota que sirve para cambiar de tema.
19.
Archer: ¿Y el pago será?
Slater: Por transferencia. ¿Algún problema?
Archer: No, era por saber si tenía que llevar un saco con el símbolo del dólar.
Slater: Llévanos solo él y préstame una camisa.
Aquí el sarcasmo se usa para expresar insatisfacción con la respuesta dada a la
pregunta anterior del locutor. La intención de la pregunta de Archer ¿Y el pago será? no
era saber cómo se iba a pagar el dinero sino la cantidad de dinero.
19
3.3.1.3. Otros
En esta categoría pertenecen todos los casos en que el significado de la locución
sarcástica es distinto a su forma literal, pero en que es muy difícil encontrar este
significado distinto. Es decir, no se puede encontrar claramente una interpretación
distinta “correcta”.
Lo interesante es que hay réplicas sarcásticas en esta categoría que no violan
ninguna máxima de Grice:
20.
Slater: Porque pusiste en peligro su misión.
Lana: ¿Qué misión? ¿Vender tecnología militar confidencial a los chinos?
Slater: Tecnología falsa que queríamos que China tuviera. Llevan años
estudiando el propulsor de antimateria.
21.
Lana: ¿Qué? ¿Has terminado de archerizar?
Lo que hace sarcástico el ejemplo 20 no es que se viole la máxima de calidad
con insinceridad pragmática sino el contraste con la definición de la palabra misión y su
resultado. Normalmente las misiones de la CIA sirven para beneficiar a los EE.UU. y no
a otros países. En este caso, la interpretación de Lana sobre esta misión estaba en
conflicto con lo que se espera de las misiones de la CIA.
En el ejemplo 21, Lana comenta sarcásticamente lo que ha hecho Archer. Unos
minutos antes en la escena, Archer ha empezado a pelear con sus enemigos diciendo
que iba a archerizar el plan que tenían. Como resultado, Archer gana la pelea pero sale
tan herido que después de la pregunta de Lana se desmaya. Es decir, el sarcasmo está en
el contraste entre el resultado esperado de archerizar y cómo realmente termina la
archerización.
Esta categoría tiene tres réplicas que violan la máxima de manera:
22.
Lana: Esta bolsa es de ropa, esa de pañales, en la nevera hay leche materna que
excuso de ti.
Archer: ¿Dónde se comprará la leche materna?
Lana: No se compra, hombre, se
Archer: Por Dios, te tienes que relajar. ¿Oh uah? ¿Y no hay cerveza?
23.
Slater: ¿Y por qué tienes un bebé?
Archer: Verás Slater. Cuando unos papás se quieren mucho...
Slater: En tu casa
Archer: Sí o en un motel o en un váter por...
Slater: ¿Es que quieres cabrearme?
20
Lana está muy preocupada por dejar a su niño a Archer en el ejemplo 22. Aquí
Archer plantea una pregunta sarcástica casi absurda sobre dónde se compra la leche
materna. Todo el mundo con conocimientos generales del mundo sabría la respuesta a
esta pregunta, y por eso es sarcástica. Archer no lo pregunta por querer saber la
respuesta sino comentando sarcásticamente que Lana piensa que él no sabe nada de los
bebés. Las réplicas sarcásticas del ejemplo 23 son malentendimientos que se han hecho
a propósito para evitar la pregunta de Slater. Estas réplicas, como en algunos ejemplos
anteriores, sirven para cambiar de tema de conversación sin tener que responder a la
pregunta original.
En esta categoría, hay un ejemplo que claramente viola la máxima de relevancia:
24.
Pam: ¿Mexicano negro?
Farooq: No, gracias, no debería.
Pam: ¿No deberías qué?
Cheryl: ¿Haber cruzado el río grande?
Aquí Farooq piensa que Pam está preguntando si él quiere una copa creada por
Archer y llamada mexicano negro, aunque, en realidad Pam está preguntando si Farooq
es un mexicano negro. Como resultado Pam no entiende la respuesta de Farooq y por
eso Cheryl da sarcásticamente su posible respuesta a la pregunta de Pam haciendo una
alusión a la etnicidad de Farooq.
25.
Archer: Hmm… vale, pero luego seguimos mi plan
Conway: El servidor está en una cámara acorazada y reforzada con acceso
mediante una tarjeta y escaneo de retina, en el último piso de la sede del
servicio de inteligencia, que está fuertemente custodiada por todos sus
puntos por fuerzas especiales con órdenes de disparar y matar a toda
persona no autorizada.
Lana: Decías algo acerca de un plan.
Archer estaba tan seguro de tener un plan que no quiso que Conway continuase
explicar la misión. Sin embargo la explicación de Conway mostró que no se trataba de
una misión tan fácil como al principio se creía. Por eso, Lana comenta sarcásticamente
que Archer tenía un plan sabiendo que el plan no era lo bastante elaborado como para
ser suficiente.
3.3.2. Expresivo
De las réplicas sarcásticas 24 pertenecen a la categoría de acto de habla
expresivo. Todas las réplicas encontradas en el corpus se pueden dividir según la
dicotomía de Haverkate, es decir en sarcasmo con significado contrario y significado
distinto.
21
3.3.2.1. Significado contrario
Todas las réplicas en esta categoría son pragmáticamente insinceras. Como en el
caso de algunas réplicas sarcásticas representativas, también en esta categoría hay
sarcasmos cuya interpretación se facilita por conocimientos generales del mundo. Dos
de estas réplicas no necesitan ningún conocimiento específico:
26.
Randy: Muchachos, escuchen, olvídense del día libre. Tenemos que practicar
mañana.
Jugador: ¿Practicar un lunes luego de una victoria? ¡Genial!
Randy: Fue bueno, Peyton, pero hay que mejorar,
Jugador: ¿Practicar un lunes? ¡Justo lo que yo quería hacer!
Lo que hace sarcásticas estas réplicas es justamente la contradicción entre lo que
se sabe del lunes, que, para muchos, es el día menos preferido de la semana, y la actitud
positiva hacia practicar un lunes. Aquí se puede observar una expectación violada del
jugador. Se podría esperar que después de una victoria, el entrenador del equipo daría
algunos días libres a los jugadores como premio, y como esta expectación se ha violado,
la réplica sarcástica alude a esta violación.
La siguiente réplica que requiere conocimientos del mundo, requiere un
conocimiento especial sobre cómo es el sarcasmobol, que es un juego que solamente
existe en el mundo de South Park:
27.
Cee-Lo: Amo el sarcasmobol. Es mucho mejor que el fútbol. Me alegra que
no haya violencia en los deportes. Y el sarcasmobol es más divertido
para ver.
En este ejemplo, Cee-Lo canta del sarcasmobol de forma muy positiva. Sin
embargo, el sarcasmobol es el juego más aburrido que existe y sabiendo esto, se puede
fácilmente interpretar esta réplica como sarcasmo. También existen hipérboles como
mucho mejor y el uso de la palabra amar en vez de gustar.
El último ejemplo que necesita conocimientos adicionales se puede interpretar
como sarcasmo si se conoce al cantante Cee-Lo Green y la forma de South Park de
burlarse de la gente famosa. Esta réplica es continuación al ejemplo 27:
28.
Espectador: ¡Wohoo! ¡Bien hecho, Cee-Lo! ¡Es bueno verte en televisión!
En el siguiente ejemplo hay dos casos de sarcasmo que serán difíciles de
reconocer automáticamente sin que el ordenador pueda consultar el video:
29.
Lana: ¿Entonces, el plan de Conway no te parece innecesariamente
complicado?
Archer: No, no para nada
22
Lana: ¿Y no crees que parecemos recién salidos de un culebrón brasileño?
Archer: No, Lana. ¡Qué va!
El valor sarcástico de las dos réplicas puede casi únicamente ser deducido del
contraste entre lo que Archer dice y lo que se ve en el video en que los protagonistas
llevan ropa realmente llamativa y están a punto de entrar en un edificio de alta
seguridad en pleno día disfrazados como presidente y primera dama de Brasil.
El siguiente ejemplo es de una conversación en que ambos interlocutores son
sarcásticos:
30.
Randy: Gracias, comisionado. Me emociona formar parte de todo esto,
gracias.
Roger Goodell: ¡Bien hecho!
Randy: Sí, no, no. Bien hecho por usted.
Este tipo de sarcasmo es casi imposible de reconocer automáticamente, ya que
sin conocer el contexto, estas réplicas pueden muy fácilmente interpretarse de forma no
sarcástica, porque toda la conversación es sarcástica. Es decir, no existe ninguna
característica observable en el texto que pueda revelar que se trata del sarcasmo.
31.
Mr. Mackey: M'kay, ¿le gustaría ser el entrenador de sarcasmobol de South Park?
Randy: Cielo santo, sí. Me encantaría ser el entrenador del equipo de
sarcasmobol.
En el ejemplo 31, lo que nos revela el sarcasmo, son las hipérboles cielo santo,
y el uso del verbo encantar en vez de gustar. También el contexto anterior, en que
Randy acaba de inventar este juego para expresar sarcásticamente su actitud hacia el
discurso de los peligros de los juegos violentos en la reunión de padres y maestros,
juega un papel importante para interpretar el sarcasmo de esta réplica.
32.
Animador: Manning tiene el globo. Está diciendo cosas muy lindas sobre el otro
equipo. Manning se encuentra con LaMarr Woodly. Le entrega el globo a
Woodly. El árbitro se acerca. El árbitro decide que es una notación.
Espera, ahora se acerca otro árbitro y señala que es un punto en contra.
Randy: Ah, bien hecho, árbitros del juego.
El sarcasmo del ejemplo 32 es bastante fácil de interpretar correctamente. En la
réplica anterior se dice que en el campo hay dos árbitros que toman diferentes
decisiones sobre lo que ha pasado en el campo. Si dos árbitros han tomado decisiones
distintas en un caso bastante fácil, realmente no se puede decir bien hecho. Cómo un
ordenador puede llegar a esta conclusión, ya es una pregunta más difícil.
Los siguientes ejemplos son continuación para los ejemplos 23 y 20
respectivamente:
23
33.
Slater: ¿Es que quieres cabrearme?
Archer: No, en serio.
Slater: Pues, vas mal.
34.
Slater: Tecnología falsa que queríamos que China tuviera. Llevan años
estudiando el propulsor de antimateria.
Lana: ¿Oh?
Malory: Lo sabía, en el fondo de mi corazón, sabía que era de los buenos.
El sarcasmo del ejemplo 33 podría ser difícil de reconocer sin su contexto más
amplio (ejemplo 23). Es decir, si hay réplicas anteriores o posteriores sarcásticas, eso
aumenta la probabilidad de que la réplica en cuestión sea también sarcástica. Hay que
tomar en cuenta este detalle en la implementación del algoritmo.
Sin embargo, el sarcasmo anterior en el caso del ejemplo 34 no es significativo
para reconocer el sarcasmo, ya que se trata de un locutor distinto del ejemplo 20. Para
reconocer este sarcasmo, es necesario saber que tanto Malory como Lana trabajan
ambas para la ISIS
9
y por lo tanto comparten la misma interpretación de la misión de
Conway. No obstante, para el reconocimiento automático, la hipérbole en el fondo de mi
corazón puede resultar más útil.
35.
Espectador: ¡Duro con ellos! ¡Amor con compasión!
Randy: Oh, sí, buena esa.
En este ejemplo, el sarcasmo puede interpretarse únicamente por el contexto. La
actitud de Randy hacia el sarcasmobol es negativa, porque él lo creó de broma y su
intención nunca fue que se empezase a jugar el sarcasmobol a nivel nacional. Por lo
tanto, todas las cosas positivas que él dice y que tienen que ver con el juego son
sarcásticas. Reconocer esto automáticamente es un gran desafío.
36.
Stan: Papá, ¿es necesario usar sostenes?
Randy: Sí Stan, es lo que quiere la gente. No te preocupes, luces genial.
El sarcasmo de este ejemplo es bastante claro, un chico que lleva sostenes sobre
su ropa exterior, realmente no luce genial sino que se ve bastante ridículo.
37.
Farooq: Y haberle contado lo que estoy haciendo ha sido claramente para
despistar. ¿Vale?
Archer: Vale
9
En la serie, ISIS se refiere a International Secret Intelligence Service, no al grupo de terroristas islámicas
ISIS
24
La última réplica sarcástica de esta categoría es la más corta en todo el corpus.
Consiste en un sarcasmo expresado con una sola palabra. Esto realmente enfatiza el
significado del contexto en el proceso de reconocimiento del sarcasmo. En este ejemplo,
Farooq ha revelado su plan a Archer y ahora intenta decir que todo ha sido solo para
despistar. Como Archer no cree esto, responde vale sarcásticamente.
3.3.2.2.Significado distinto
Ocho réplicas del corpus forman parte de esta categoría. Las réplicas que más
claramente pertenecen a esta categoría son agradecimientos. El significado deseado de
la locución no se obtiene simplemente añadiendo la palabra no antes de la palabra
gracias.
38.
Médico: Bien, tengo una idea aún mejor. Tomemos los fondos de investigación de
cáncer y enfermedades genéticas, y hagamos comerciales que digan:
“Hola, espectadores, quizás el sarcasmo no es algo muy bueno para tu
cerebro”.
Randy: Gracias, doctor, muchas gracias.
39.
Krieger: Ya gracias, señor Craqueo Oso
40.
Randy: Sí, es increíble estar en tu programa
Animador: Randy, primero permíteme agradecerte por tomar un juego que
amamos y convertirlo en una pesadilla. ¡Muy bien hecho!
El ejemplo 38, como en el caso del ejemplo 30, es de una conversación en que
ambos interlocutores hablan de forma sarcástica. Para interpretar este sarcasmo, hay que
saber que el médico también habla de forma sarcástica y que realmente no está
dispuesto a ayudar a Randy. Como Randy no tiene ninguna razón por la que agradecer
al médico, en esta oración se puede observar insinceridad pragmática.
El siguiente ejemplo, número el 39, no expresa agradecimiento por algo dicho
anteriormente, sino por lo que pasó en el video: El oso robótico de Krieger intentó
animarlo con un baile. Esta forma de referir a lo que ha pasado en vez de aquello a lo
que se ha dicho causa problemas para el algoritmo que trabajará únicamente con texto.
De estos ejemplos, el número 40 tiene que ser el más fácil para un algoritmo.
Aquí podemos observar el valor sarcástico dentro de la misma réplica, ya que
normalmente no se agradece a alguien que ha convertido algo amado por todo el mundo
en una pesadilla. Esta polaridad entre lo amado y una pesadilla revela el sarcasmo en
este caso.
En esta categoría hay también réplicas que expresan preocupaciones:
41.
25
Randy: Sí, no queremos que los niños se lastimen jugando al fútbol. Pero
creo que tengo un modo de mejorarlo más. ¿Por qué los jugadores
no usan sostenes?
42.
Periodista: Entrenador, victoria de tres a cero sobre los Steelers, se debe sentir un
ganador.
Randy: Sí, el otro equipo tenía una delantera tan ofensiva que me asustó
mucho.
43.
Malory: Lana, supongo que era una analogía deportiva para hacernos de menos,
pero aceptamos la misión. ¿Verdad Sterling?
Archer: ¿Eh sí? Perdón, es que me preocupa haber usado mal la palabra
literalmente toda mi vida.
En el ejemplo 41, Randy alude sarcásticamente a la preocupación de la escuela
por la salud de los niños con la hipérbole de que los jugadores deberían usar sostenes.
Esto también viola la máxima de relevancia de Grice, ya que los sostenes no tienen nada
que ver con un deporte masculino.
El sarcasmo del ejemplo 42 podría, a primera vista, violar la máxima de
relevancia. ¿Si el equipo de Randy ha ganado tres a cero al otro equipo, porqué la
delantera del otro equipo asustaría a Randy? Lo que pasa es que en el sarcasmobol se
trata de ser lo más amable posible con otros jugadores y por lo tanto una delantera
ofensiva no ayuda a ganar el juego, sino perderlo. Por este motivo, no se viola la
máxima de relevancia. Pero como a Randy le gustaría ver un juego más violento,
realmente no se asustó por la delantera, y por eso se trata de una réplica sarcástica.
Archer dijo anteriormente en el diálogo del ejemplo 43 que Conway, con el que
se hace la misión, le había apuñalado literalmente por la espalda. Sin embargo, Malory,
que es la jefa de ISIS, acepta la misión. En la réplica sarcástica Archer alude a su
expectación violada de no aceptar la misión, aunque él había claramente expresado su
desconfianza a Conway.
44.
Médico: Lo siento, señor Marsh, pero parece que hay un daño permanente.
Randy: Rayos, esto es genial, mi semana acaba de mejorar mucho.
Sharon: ¿Cómo se soluciona, doctor?
En el ejemplo 44, Randy responde de forma sarcástica a la diagnosis del doctor
sobre su salud. El sarcasmo se revela por el contraste entre la diagnosis negativa un
daño permanente y la reacción positiva genial y mejorar mucho. Es decir, para el
algoritmo, puede ser útil analizar y comparar el sentimiento de la réplica que se
investiga y el da la réplica anterior.
El siguiente ejemplo es continuación al ejemplo 28:
26
45.
Espectador: ¡Sí, soy fanático de todos tus temas de moda!
Como en el caso del ejemplo 28, también en este caso es necesario conocer la
actitud general de la serie South Park hacia los famosos y también conocer a Cee-Lo, el
cantante de que se burla.
3.3.3. Directivo
No es muy típico expresar sarcasmo en una locución de acto de habla directivo
en el corpus. Esta categoría consta únicamente de tres ejemplos.
46.
Butters : Tengo el globo, el entrenador Marsh. ¿Ahora qué hago?
Randy: Ya sabes. Intenta llegar a la zona de notación, pero con mucha
amabilidad.
Butters: ¡Muy bien! Disculpe, perdón. Ustedes lucen geniales. ¡Wow, este juego
es genial!
Como ya sabemos de los casos de sarcasmo anteriormente presentados, a Randy
no le gusta el sarcasmobol y él piensa que los juegos deberían ser más violentos. Por
eso, la réplica del ejemplo 46 es sarcástica. Lo problemático es que no todas las réplicas
en que se habla del sarcasmobol de forma positiva son sarcásticas. Vemos esto en el
mismo ejemplo en lo que dice Butters. Es decir, para interpretar el sarcasmo expresivo
correctamente, hay que saber más de la actitud del locutor hacia la cosa de la que habla.
47.
Fotógrafo: ¿Muchachos, por qué no posan para una maldita foto que quedará
en la memoria del deporte?
El ejemplo 47 es continuación al diálogo presentado en el ejemplo 30. En este
caso, el sarcasmo puede observarse en la forma peyorativa en la que el fotógrafo se
refiere a la foto. También existe una hipérbole al final de la réplica quedará en la
memoria del deporte. ¿Si la foto ya antes de ser sacada es maldita según su autor, por
qué el fotógrafo está seguro que quedará en la memoria del deporte? Esto es una
muestra del valor sarcástico de la réplica.
48.
Espectador: ¡Duro con ellos! ¡Amor con compasión!
En esta réplica, ya vista en el ejemplo 35, se polariza la primera oración con la
segunda. La primera oración exige que Randy, el entrenador, sea duro con los jugadores
pero al mismo tiempo la segunda oración exige compasión. Esta inconsistencia en las
exigencias revela el sarcasmo.
27
3.3.4. Múltiples actos de habla
Ya que este análisis se hace a nivel de réplicas en vez de oraciones, una réplica
puede consistir en varios actos de habla. Divido esta categoría también según la
dicotomía de Haverkate.
3.3.4.1. Significado contrario
Al principio de esta categoría, voy a presentar los casos de acto de habla
directivo. Los dos primeros ejemplos son directivos y expresivos:
49.
Directora: ¿Entonces, está feliz por todos esos cambios?
Randy: ¿Feliz? ¡Contentísimo! Mire lo mucho que mejoró esto.
Directora: De acuerdo.
50.
Animador: Bienvenidos al juego inaugural de la liga nacional de sarcasmobol. Hoy
tendremos el enfrentamiento entre los Broncos de Denver y los Raiders
de Oakland.
Randy: Lucen bien muchachos. ¡A patear culos!
En el ejemplo 49, se puede observar dos hipérboles: primero el uso del
superlativo absoluto contentísimo, y luego en el adverbio lo mucho junto con el verbo
ya en positivo mejorar. Como en el caso de la mayoría de las réplicas expresivas,
también aquí, el reconocimiento del sarcasmo se facilita al ver el video en que los niños
están jugando llevando sostenes y sombreros de papel aluminio.
El siguiente ejemplo, el número 50, expresa sarcasmo tanto en la parte expresiva
como en la parte directiva. Randy dice que los jugadores lucen bien, lo que no es verdad
por la forma ridícula de vestirse para jugar el sarcasmobol. Pero también el acto de
habla directivo a patear culos expresa sarcasmo ya que el sarcasmobol es el juego
menos violento que existe.
Los siguientes ejemplos siguen siendo directivos, pero esta vez son también
representativos:
51.
Randy: Claro, le hizo algo a mi cerebro y ahora no puedo parar de ser
sarcástico.
Sharon: ¿Randy, te lo piensas?
Randy: Sí lo pienso realmente. Ayúdame, Sharon, ayúdame.
52.
Lana: Decías algo acerca de un plan.
Archer: Está claro que él cree tener un plan así que, pues, venga ¡qué hable!
El ejemplo 51 es curioso porque comienza por un sarcasmo y continúa por una
oración no sarcástica. Randy padece de una enfermedad que no le deja responder de
forma no sarcástica, y cuando está hablando sobre este tema admite su problema a su
28
esposa de forma sarcástica. Es decir, admite un problema real que no cree que exista. En
esta réplica, sin embargo, reconoce su enfermedad después de la parte representativa y
pide ayuda a su problema en la parte directiva.
El ejemplo 52 es continuación al ejemplo 25. Aquí Archer responde al sarcasmo
con sarcasmo. Esto sirve para proteger la cara puesta en peligro por la réplica de Lana.
Archer anteriormente había dicho que tenía un plan, pero como Conway explicó que la
misión era muy difícil, esto resultó en que el plan de Archer no era bastante elaborado
para la misión. Con su réplica sarcástica, Archer no tiene que revelar su plan sino que
exige que Conway revele el suyo. Lo que hace sarcástica esta réplica es que Archer no
piensa que Conway tenga un plan, o bien al menos, que su plan no sea mejor que el de
Archer.
A continuación, analizo réplicas sarcásticas al mismo tiempo expresivas y
representativas:
53.
Mr. Mackey: ¿Y a los alumnos les gustará eso?
Randy: Oh, les encantará. Un deporte en donde solo importa la seguridad.
¿Por qué no le llamamos sarcasmobol?
Mr. Mackey: M'kay, ¿le gustaría ser el entrenador de sarcasmobol de South Park?
54.
Animador: Hola, amo el sarcasmobol como todo el mundo. Pero a veces es tan
emocionante que necesito energía extra para terminar de ver un
juego. Allí es cuando busco una botella de este jugo cremoso de
Butters.
55.
Cartman: Esas corbatas están de moda, tienes suerte de tenerla.
Stan: Fue regalo de mi abuelo, sí, y le costó mucho dinero.
En el ejemplo 53, se puede ver una hipérbole en el uso del verbo encantar en vez
del verbo gustar que se usa en la pregunta a la que la réplica sarcástica responde. Esta
réplica, como muchas de las ya anteriormente analizadas, contrasta el deporte con la
seguridad. En especial, en el caso del fútbol americano, la seguridad no va bien con el
juego violento, lo que nos revela la intención sarcástica. Esta réplica también hace
explícito el sarcasmo diciendo que este nuevo juego podría llamarse sarcasmobol. Sin
embargo, Mr. Mackey no entiende esta expresión de habla indirecta y no detecta el
sarcasmo.
En el caso del ejemplo 54, se necesita tener conocimientos especiales de cómo
es el sarcasmobol para comprender el sarcasmo. El sarcasmobol no es un juego muy
emocionante, y si se sabe eso, es fácil detectar la intención sarcástica de la segunda
frase de la réplica. En la primera frase de la réplica, se puede observar una hipérbole en
el uso del verbo amar junto con la expresión como todo el mundo. La realidad es que a
casi a nadie le gusta el sarcasmobol.
29
El último ejemplo, el número 55, forma parte del diálogo de los ejemplos uno y
dos. Aquí el reconocimiento de sarcasmo es más fácil si se ve el video del episodio en
que se ve que la corbata no es tan bonita como Cartman dice. Este ejemplo, como
muchos anteriores, muestra que a veces el sarcasmo depende tanto del contexto que su
reconocimiento automático resulta un gran desafío.
3.3.4.2. Significado distinto
En esta categoría, hay dos réplicas sarcásticas que son comisivas. La primera
réplica es al mismo tiempo comisiva, representativa y expresiva:
56.
Jim: Lo cierto es que el juego es muy emocionante. Y un juego
emocionante que terminó en cero a cero es un juego que quiero ver
dos veces. Es un juego que quiero ver cuatro veces. Oye esto, quiero
ver este juego cinco veces. Buena suerte el domingo. Seguro que será
otro juego que querré ver dos veces. Oye esto, trece veces.
Randy: Gracias, Jim.
En este ejemplo, hay polaridad entre las descripciones del juego: emocionante y
que terminó en cero a cero. Un juego en que nadie hace un gol no es realmente
emocionante, y esto marca sarcasmo claramente, pero reconocer esto automáticamente
requiere conocimientos generales del mundo. También se puede observar hipérboles en
las partes comisivas de la réplica en forma de repetición con aumento de la cantidad de
veces que se verá el juego de nuevo.
La segunda réplica comisiva es también directiva y expresiva:
57.
Lana: Conway, coge lo que necesites, me figuro que unas pilas nuevas, y
vamos a sacarte da aquí.
Conway: No puedo, no tengo la información.
El sarcasmo se limita, en el ejemplo 57, a la parte expresiva de la réplica. Aquí
Lana hace referencia sarcásticamente al hecho de que Conway sea un ciborg y que
pueda necesitar más energía después de haber peleado con Archer. Para interpretar
correctamente el sarcasmo de esta réplica, hay que saber más sobre el contexto de la
réplica.
A continuación vemos el único ejemplo declarativo de esta categoría:
58.
Roger Goodell: Como comisionado de NFL, me entusiasma ver que la juventud de
nuestro país acepta el sarcasmobol sobre el futbol tradicional. ¿Pero,
por qué detenernos allí? Como futbol es de bárbaros, nosotros
deberíamos cambiar también. Le demos la bienvenida al nuevo
entrenador de Broncos de Denver, Randy Marsh. ¡Felicitaciones
Marsh, buen trabajo!
30
El ejemplo 58 precede a las réplicas del ejemplo 30. Aquí Roger declara a Randy
el entrenador de Broncos. Si se sabe que la NFL se refiere a la Liga Nacional de Fútbol
Americano, se puede muy fácilmente entender el sarcasmo, ya que seguramente el que
los jóvenes cambien del fútbol americano al sarcasmobol no es algo positivo para la
NFL. Roger expresa su voluntad de hacer el fútbol más parecido al sarcasmobol; esto es
una hipérbole que sirve para enfatizar el sarcasmo de la primera oración de la réplica.
Lo que los siguientes ejemplos tienen en común es que todos muestran un acto
de habla directivo en que el locutor no solo ordena a los demás sino también a sí mismo:
59.
Randy: Sí, sí, ya nos cansamos de que nuestros niños se golpeen en el campo
y se lastimen. Hagamos el sarcasmobol el deporte oficial en todas las
escuelas.
60.
Animador: Demostrando lo que un padre preocupado puede lograr, Marsh terminó
hablando frente de los líderes de Washington.
Randy: Sí, sí, hagamos esto, la economía está en el excusado, se acerca una
elección importante, pero la prioridad de este país debe ser que el
futbol sea más seguro.
61.
Médico: ¿Sabe qué? Tengo un paciente de cincuenta años con Alzheimer
esperándome que no recuerda ni a su familia. Olvidémonos de él y
concentrémonos en los supuestos efectos del sarcasmobol en el
cerebro.
Randy: Mi hijo está jugando a ese juego ahora. Me alegra el corazón ver como
usted se preocupa por su seguridad.
Médico: Bien, tengo una idea aún mejor. Tomemos los fondos de
investigación de cáncer y enfermedades genéticas, y hagamos
comerciales que digan: 'hola, espectadores, quizás el sarcasmo no es
algo muy bueno para tu cerebro'.
En el primer ejemplo, número 59, es importante saber la opinión de Randy sobre
el sarcasmobol para poder interpretar el sarcasmo. En realidad, Randy no está
preocupado por la violencia del fútbol americano y no le gusta el sarcasmobol. ¿Pero
cómo podría el algoritmo llegar a esta conclusión? Parece que para el algoritmo, hay
que modelar la teoría de la mente de alguna forma.
En el ejemplo 60, se puede observar polaridad entre las grandes cosas que
afectan al futuro del país como la economía y elecciones y entre la seguridad del fútbol
que, aunque exageradamente denominada la prioridad de este país, no es una cuestión
tan importante para el futuro de la nación. Este contraste sirve para revelar el sarcasmo
en este caso.
Las réplicas del médico en el ejemplo 61 son las que constituyen un acto de
habla directivo. En ambas réplicas, el sarcasmo nace del contraste entre las cosas más
graves e importantes, como investigación de cáncer y enfermedades genéticas y
31
paciente de 50 años con Alzheimer, y la trasmisión de la destinación de los recursos
para curar el sarcasmo.
La réplica de Randy en el ejemplo 61 es también sarcástica, pero ya no es
comisiva. Aquí vemos cómo el sarcasmo puede ser respondido con otro sarcasmo. Se
puede observar una hipérbole en alegra el corazón, que se utiliza para enfatizar el valor
sarcástico de la réplica.
Los siguientes ejemplos siguen con el acto de habla directivo, pero esta vez la
orden está dirigida para otras personas:
62.
Animadoras: ¡Wohoo! ¡Vamos Broncos, vamos! ¡Qué alegría de mierda!
63.
Sharon: ¿Randy, no vas a acompañar tu familia en la cena?
Randy: Oh, sí, porque tengo mucho tiempo para eso, Sharon. De hecho por
qué no preparas una cena de cuatro platos para todos, mejor una
cena de siete platos.
64.
Randy: Gente, escuchen todos. Hay algo que deben saber acerca del
sarcasmobol. Es un juego totalmente seguro, sí superseguro, es tan
seguro que cada niño del país debería jugarlo.
65.
Lana: Eres un traidor, hijo de puta.
Archer: Te lo dije.
Conway: Sí, hombre, todos lo veíamos venir. ¡Suéltalas!
Las animadoras del ejemplo 62 animan a su equipo de forma sarcástica ya que ni
siquiera están interesadas en el sarcasmobol. Este sarcasmo puede resultar bastante fácil
de reconocer para el algoritmo ya que alegría y mierda no van bien juntos
semánticamente. Es decir, si la alegría es de mierda, no puede ser alegría verdadera y
por lo tanto, se trata del sarcasmo.
En el caso del ejemplo 63, no es necesario saber que Randy tiene mucha prisa
siendo el entrenador del equipo de sarcasmobol de los Broncos de Denver para poder
interpretar el sarcasmo. Lo que revela la intención sarcástica es la hipérbole en forma de
repetición aumentando la cantidad de platos: cuatro platos, mejor una cena de siete
platos. Esto junto con el uso de la palabra mucho con la palabra tiempo son los rasgos
fundamentales para el reconocimiento del sarcasmo.
Las hipérboles y repetición también revelan el sarcasmo en el caso del ejemplo
64. Aquí el uso del adverbio totalmente, el prefijo super- y la oración subordinada que
cada niño del país [...] son las hipérboles que se usan para indicar el sarcasmo.
En el ejemplo 65, Conway alude a la expectación violada de Lana de que
Conway se hubiera cambiado y que no tuviese la intención de traicionar a Lana y
32
Archer. Este sarcasmo sirve para señalar implícitamente la estupidez de Lana por haber
confiado en él, ya que ni siquiera Archer tenía confianza en él.
66.
Profesor: ¿Sostenes?
Randy: Sí, todos deberían usar sostenes. Y en vez de cascos, sombreros de
papel aluminio, porque estamos en el futuro y no deberíamos ser tan
bárbaros.
Linda: ¿Cómo ayudarían los sostenes y sombreros de papel?
En el ejemplo 66, podemos ver una violación de la máxima de relevancia. Los
sombreros de papel aluminio tienen poco que ver con el fútbol americano. Tampoco es
fácil ver la conexión entre esos sombreros y el futuro. Es decir, la mejor forma de
reconocer este tipo de sarcasmo, es buscar si las palabras de la réplica están
semánticamente cerca o lejos una de otra.
67.
Sharon: ¿Cómo se soluciona, doctor?
Médico: No se puede, lo siento, no hay investigaciones que determinen los efectos
del sarcasmo al cerebro.
Randy: Se acabó. Debería irme a casa y olvidarme de lo que este deporte me
ha hecho. ¡Que miles de personas jueguen el sarcasmobol y terminen
como yo!
Médico: ¿En serio? ¿Cree que hay una relación entre el sarcasmo y el
sarcasmobol de verdad? ¡Qué fascinante, continúe por favor!
Randy: No, no, el sarcasmobol no tiene nada que ver, yo sólo, sólo estoy
disfrutando mucho del sarcasmo y debo buscar excusas.
El diálogo del ejemplo 67 precede al diálogo del ejemplo 61. En la primera
réplica de Randy, el sarcasmo puede observarse en la última oración. Con esta réplica
Randy quiere llamar la atención del médico a lo que puede pasar si nadie hace nada al
sarcasmobol. En la réplica del médico el sarcasmo nace del hecho de que el médico
plantee una pregunta cuya respuesta es obvia. También llamar esto fascinante conlleva
un valor sarcástico. Randy responde en la última réplica de forma sarcástica a la
pregunta del médico. Esta forma de responder a sarcasmo con sarcasmo la hemos
observado ya en unos ejemplos anteriores.
68.
Randy: Perdón, perdón, momento, no debo ser sarcástico. Volveré a
intentar. Escuchen todos, si permiten que sus hijos jueguen a
sarcasmobol, son unos genios.
Randy: Corten, perdón, voy de nuevo. Intento decir que deberíamos tener
diez ligas de sarcasmobol y así todos pueden jugar. ¡Ah, mierda!
En el ejemplo 68, Randy intenta hablar de forma no sarcástica a los espectadores
de un juego de sarcasmobol. Para interpretar el sarcasmo correctamente, hay que saber
33
la opinión de Randy sobre el sarcasmobol. Sin embargo, las hipérboles unos genios y
diez ligas de sarcasmobol pueden facilitar el reconocimiento automático.
69.
Jim: Bienvenidos a Rome, donde hablamos de sarcasmobol. No puedo
esperar. No puedo esperar para hablar de sarcasmobol porque es tan
interesante. Me acompaña el entrenador de los Broncos de Denver e
inventor de sarcasmobol, Randy Marsh. Gracias por estar aquí
Randy, estoy feliz de que estés en el programa.
[...]
Randy: Gracias, Jim, porque esa siempre fue mi intención desde que se me
ocurrió la idea, sabía que iba a terminarse de este modo.
En la réplica de Jim en el ejemplo 69, se puede observar una hipérbole en forma
de repetición de no puedo esperar. También en otros ejemplos existe una repetición y
puede que su reconocimiento sea útil para el algoritmo. En cuanto a la réplica de Randy,
parece que esta vez también es necesario conocer la opinión de Randy sobre el
sarcasmobol. ¿Pero cómo reconocer su opinión de forma automática si todo lo que dice
sobre el sarcasmobol es sarcasmo?
70.
Dan: [...] Mientras esperamos nos alegra poder recibir el comisionado de NFL,
Roger Goodell. Comisionado, mucho alboroto para conmociones este
año en la NFL. ¿Cómo maneja la liga todo esto?
Roger Goodell: Bien. Ciertamente existen muchas estadísticas interesantes, Dan. Y
estamos muy preocupados y esperando a ver si existe una relación
directa entre futbol y los traumas de cráneo.
El sarcasmo del ejemplo 70 es parecido al sarcasmo del médico en el ejemplo
67. En ambos casos se presenta algo obvio como algo posiblemente desconocido. Aquí
es bastante evidente que el fútbol americano pueda causar traumas de cráneo a los
jugadores porque es un juego bastante violento. Si se sabe esto, es fácil reconocer el
valor sarcástico de la réplica y saber que Roger realmente no está preocupado por lo que
el juego puede causar a los jugadores.
71.
Cyril: ¿Cómo se pierde un bebé?
Malory: Estaba allí en el cochecito, me puse una copa, llamó mi peletero, por
cierto, me roba descaradamente. Llamé a la inmigración para intentar que
le deportaran a su padre. Me puse otra copa, pero no quedaba hielo, así
que, ¡ah!
Todos: ¿Qué?
Malory: Krieger, andábamos por allí cuando fui a buscar hielo. Vamos al
laboratorio de ese monstruo.
Ray: Pero, oiga, ¿son necesarias las armas? Lo pregunto totalmente en
serio.
34
En el ejemplo 71, el sarcasmo puede detectarse únicamente si se ve el video.
Cuando Ray dice lo pregunto totalmente en serio, saca dos pistolas al mismo tiempo de
las pistoleras. Es decir, el contraste entre lo que dice y lo que hace revela la intención
sarcástica de su pregunta.
72.
Conway: Y por venganza. ¿Te acuerdas cómo me arrancaste la mano?
Lana: Vagamente. Pero si lo que quieres es venganza, ¿por qué no me
matas?
En el ejemplo 72, el sarcasmo se limita al adverbio de la réplica vagamente.
Arrancarle la mano a otra persona es una cosa que no se olvida, y por lo tanto se trata de
sarcasmo. Aquí también, como en algunos casos anteriores, el sarcasmo sirve para
evitar la pregunta y cambiar de tema.
3.4. Sarcasmo no irónico
Esta parte consiste en sarcasmo que no puede explicarse por las teorías de ironía
anteriormente presentadas. En el corpus solo hay cuatro réplicas sarcásticas que pueden
considerarse como ejemplos de esta categoría.
73.
Randy: Vamos, dense palmadas en las espaldas.
74.
Animador: El marcador está cero a cero, mientras los Steelers avanzan a los
Broncos.
Animadoras: ¡Vamos, Broncos, vamos!
En estos dos ejemplos de acto de habla directivo no se puede observar alusiones
de TPA y tampoco conllevan actitud emocional sobre el fracaso de una expectación, es
decir no cumplen los requisitos de un entrono irónico. Sin embargo, se trata del
sarcasmo, ya porque se puede oír el tono sarcástico de los hablantes en ambos casos.
75.
Archer: Marchando una empanada familiar.
Lana: ¿Lo dices porque tienes hambre?
Archer: No.
En la réplica de Archer del ejemplo 75, no se puede observar una alusión de
TPA porque lo que Archer dice no tiene nada que ver con el contexto. Es decir, se viola
la máxima de relevancia. Sin embargo, Archer quiere comentar el peso de Lana con su
réplica sarcástica, aunque el comentario no es apto para la situación. Lana entiende este
sarcasmo y responde con otra réplica sarcástica. Otra vez, el tono sarcástico revela la
intención sarcástica en este caso.
35
3.5. Resumen del análisis
A lo largo del análisis, hemos visto casos en los que es necesario tener
conocimientos generales del mundo para poder deducir el valor sarcástico de una
réplica. Este tipo de conocimiento puede ayudar a resolver una contradicción interna de
una réplica como en el caso del ejemplo 3 o bien puede revelar una actitud sarcástica
hacia una información precedente que haya violado algún tipo de conocimiento general
como el caso del ejemplo 5. En el caso del ejemplo 22, los conocimientos generales del
mundo nos dan dos posibles interpretaciones: o bien el locutor es estúpido o bien está
siendo sarcástico.
Es decir, tener un modelo que pueda resolver conflictos entre los conocimientos
generales del mundo y la réplica que se está analizando para el sarcasmo es de mayor
importancia para el éxito del algoritmo de reconocimiento automático de sarcasmo. La
razón está en que este tipo de modelo puede ayudar a reconocer muchos tipos de
sarcasmo diferentes.
También es fundamental prestar atención al contexto de la réplica. El ejemplo 6
sirve para responder a un insulto de forma sarcástica. Por lo tanto, otro aspecto
importante para el algoritmo sería análisis de sentimiento. Si una réplica anterior tiene
un sentimiento negativo, como en el caso del insulto, es muy probable que la réplica
siguiente, que, según su interpretación literaria, tendría un sentimiento positivo, es en
realidad sarcástica. También hemos visto que, en general, las réplicas sarcásticas se ven
positivas por su interpretación literaria. Es decir, un analizador de sentimientos podría
usarse para filtrar una cantidad bastante amplia de réplicas no sarcásticas del análisis.
Hay casos del sarcasmo que violan la máxima de relevancia como en el caso del
ejemplo 8. Sin embargo, ya Grice (1975) comentó que reconocer la violación de esta
máxima es difícil. ¿Cómo se sabe si algo es irrelevante o solamente un cambio natural
del tema de conversación? Parece que la mejor alternativa es analizar el tema de cada
réplica con respecto al tema de las réplicas precedentes y las posteriores, y si el tema es
el mismo en las réplicas que rodean la réplica que estamos analizando pero distinto en la
réplica que se analiza, podemos deducir que se trata de una violación de la máxima de
relevancia.
No obstante, la máxima de relevancia puede violarse ya dentro de una réplica,
como en el ejemplo 10. Por otra parte, saber lo que es relevante para el tema también es
una cuestión de conocimientos generales del mundo. Por lo tanto, quizá para el
algoritmo, reconocer relevancia y conocimientos del mundo pueda alcanzarse con el
mismo modelo.
Lo que más dificultades causa para el algoritmo, es el sarcasmo expresivo. A
veces es imposible saber si una réplica expresiva es sarcástica sin tener acceso a los
elementos paralingüísticos presentes a la hora de enunciar la réplica o bien sin conocer
la opinión del hablante. Como la paralingüística no está en el interés de este trabajo, y
36
por lo tanto, el algoritmo no podrá apoyarse en la prosodia de la lengua, hay que buscar
una forma de implementar una aproximación a la teoría computacional de la mente
10
.
En el nivel del léxico, el sarcasmo se destaca por hipérboles; se usan muchas
veces palabras como muy o mucho junto con el superlativo absoluto (ejemplo 49) o bien
se opta por expresiones fuertes como en el fondo de mi corazón (ejemplo 34). También
es muy frecuente que una pregunta preceda a la réplica sarcástica como en el ejemplo
72. Estos dos aspectos solos no bastan para reconocer sarcasmo correctamente, pero
pueden ser útiles para el algoritmo, y son bastante fáciles de implementar.
4. IMPLEMENTACIÓN DEL ALGORITMO
Esta parte del trabajo está dedicada para a la implementación del algoritmo
capaz de reconocer automáticamente el sarcasmo. Este algoritmo se basará en el análisis
lingüístico de la parte 3. Sarcasmo en el corpus. Primero, se definirá la base
computacional del funcionamiento del algoritmo y luego se elaborará, paso a paso, un
método para el reconocimiento de sarcasmo.
4.1 Aprendizaje automático supervisado
En (Lappi & Kauhanen, 2013, pág. 85), se presentan tres formas de aprendizaje
automático: supervisado, no supervisado y reforzado. Los algoritmos supervisados,
como el que se va a elaborar en esta parte del trabajo, son clasificadores que aprenden a
clasificar su input creando un modelo estadístico a partir de una lista de características
extraídas de un corpus de datos preclasificado. Los algoritmos no supervisados no
necesitan ninguna información adicional como una lista de características, sino que
aprenden figuras de interés automáticamente de su input. En el caso de los algoritmos
de aprendizaje reforzado, el algoritmo solo recibe un booleano indicando si su acción
fue deseada o no.
Las distintas formas de aprendizaje automático son usadas para resolver
diferentes problemas. De estas, el aprendizaje automático supervisado es la forma que
se usa para clasificar textos. En lingüística computacional, esta forma de clasificación
del texto se conoce también como clasificación supervisada. En (Bird, Klein, & Loper,
2009, pág. 221), se define clasificación como una tarea de elegir la etiqueta de clase
correcta para un input. Para alcanzar esta meta, se sigue el modelo introducido en la
figura 1.
10
Aquí me refiero a una versión computacional de la teoría de la mente como usado en (Premack &
Woodruff, 1978) y no a que la mente sea un sistema computacional como el término se usa en el
computacionalismo (Rescorla, 2015).
37
Figura 1
Es decir, para cada réplica en el corpus se extrae una lista de características que
se da junto a la etiqueta (sarcasmo o no sarcasmo) al algoritmo de aprendizaje
supervisado, que, a su vez construye un modelo estadístico a partir de estos datos. La
pregunta más interesante a la que se busca una respuesta en esta parte del trabajo es:
¿cuáles son las características necesarias para reconocer el sarcasmo? Como Karlgren
(2015) lo puso en una de sus clases: no es interesante la cuestión de cuál algoritmo de
aprendizaje automático supervisado es el mejor para un problema, ya que si el modelo
lingüístico (las características) es correcto, todos los algoritmos dan resultados.
La herramienta que se va a utilizar para realizar el algoritmo es NLTK
11
(Bird,
Klein, & Loper, 2009). Esta librería de Python
12
tiene implementado varios algoritmos
de aprendizaje automático supervisado dirigidos especialmente al tratamiento
automático de materiales lingüísticos.
4.2 Preparación del corpus para análisis automático
Como el corpus ya está en un formato adecuado, es decir en CSV codificado en
UTF-8, para un análisis automático, no hace falta ejecutar ninguna conversión entre
formatos.
Sin embargo, es necesario un paso preparatorio antes del uso del corpus en el
algoritmo que se va a programar. Como el corpus se ha transcrito por un hablante no
nativo, hace falta realizar una búsqueda de errores de ortografía, porque el algoritmo
funcionará mejor si su input no contiene datos erróneos. Para realizar esta tarea, uso la
corrección de ortografía de Microsoft Excel 2013.
No obstante, hubo palabras que Excel no reconoció como por ejemplo
homófoba. En estos casos consulté DRAE (Real Academia Española, 2014) para ver si
la palabra existe o no. Todas las palabras o bien se reconocían por Excel o bien estaban
en DRAE, excepto a la palabra yurta y sarcasmobol. La palabra yurta, sin embargo, se
encuentra en el diccionario de WordReference (2015) y significa una tienda mongola.
En cuanto a sarcasmobol, se trata de una palabra inventada por los autores de South
11
La versión que se utilizará es 3.0.5
12
Se usará la versión 2.7.10 de Python
Input Etiqueta
Modelo estadístico
38
Park y no existirá en ningún diccionario. Aparte de estos casos, en el corpus solo
quedaban algunas palabras cuya ortografía no ha podido corregir. Todas estas palabras
estaban en una frase enunciada en una lengua extranjera como urdu o hindi.
Después de las correcciones, la segunda fase de preparación del corpus se
ejecuta por el algoritmo que se está elaborando. Para todo tipo de análisis automático de
lengua es necesario primero tokenizar el texto. También quiero etiquetar los tokens con
sus respectivas categorías gramaticales y lematizarlos.
Entre distintas alternativas, opté por TreeTagger
13
(Schmid, 1994), que deduce
las categorías gramaticales de las palabras usando un árbol de decisión binario.
TreeTagger necesita un léxico entrenado con un corpus etiquetado, para esto, utilizo el
léxico disponible en la página web de TreeTagger
14
.
TreeTagger toma una línea de caracteres como su input y produce la forma de la
palabra, la categoría gramatical y el lema como output para cada uno de los tokens en el
texto introducido. Un ejemplo de su input y output usando el TreeTaggerWrapper
15
para
Python:
>>> import treetaggerwrapper
>>>tagger = treetaggerwrapper.TreeTagger(TAGLANG='es', TAGDIR="treetagger",
TAGPARFILE="treetagger/lib/spanish-utf8.par")
>>> tagger.tag_text(u"No sé, nunca me había puesto en pensarlo")
[u'No\tNEG\tno', u's\xe9\tVLfin\tsaber|ser', u',\tCM\t,', u'nunca\tADV\tnunca', u'me\tPPX\tyo',
u'hab\xeda\tVHfin\thaber', u'puesto\tVLadj\tponer', u'en\tPREP\ten', u'pensarlo\tVCLIinf\tpensar']
Como podemos ver, TreeTagger da una lista de tokens como resultado. En estos
tokens, se ha separado por tabuladores \t la forma en que la palabra ha ocurrido en el
texto, su categoría gramatical junto a su lema. TreeTagger también da alternativas en el
caso de ambigüedad, como podemos ver en el caso del que ha obtenido dos lemas:
saber por la primera persona de singular de presente de indicativo y ser por la segunda
persona de singular de imperativo.
Realizo este análisis automático con TreeTagger para cada una de las réplicas en
el corpus. Y guardo los resultados en un archivo con el módulo pickle para tener un
acceso más fácil a ellos en el futuro.
4.3 Nivel léxico
En este apartado trataré las diferencias en el léxico entre el sarcasmo y no
sarcasmo. El objetivo de este apartado es crear una aproximación a la extracción de la
característica de hipérbole para cada réplica estudiada. También se elaborará un método
para reconocer si la réplica en estudio es una respuesta para una pregunta.
13
La versión utilizada es 3.2.1 en Windows 10 64bit
14
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-par-linux-3.2-utf8.bin.gz la
fecha del archivo utilizado es 25.7.2015
15
Disponible mediante pip install treetaggerwrapper. La versión utilizada es 2.2.2.
39
El reconocimiento de preguntas es una tarea bastante fácil dado que el corpus
contiene signos de interrogación. En el corpus se han marcado cortas de escena con el
símbolo #, por lo tanto el algoritmo puede distinguir si la réplica antecedente forma
parte de la misma escena. Esta información es importante ya que quiero limitar la
búsqueda de la pregunta en la escena en que se halla la réplica en estudio. Teniendo en
cuenta esta limitación, el algoritmo busca el lema ? en las etiquetas de la réplica
anterior. Si se encuentra el signo de interrogación entre los lemas, se puede deducir que
la réplica en estudio sirve de respuesta para esta pregunta.
Para el reconocimiento de hipérbole, primero busco los lemas muy y mucho en
cada réplica. También hemos visto en la parte 3. Sarcasmo en el corpus que el
superlativo absoluto puede usarse para enfatizar el mensaje sarcástico. La extracción del
superlativo absoluto se hace de forma bastante sencilla: entre las formas de palabras
buscamos las que acaban con -ísimo o bien -ísima. Cuando pasamos el corpus por estos
filtros y contamos los resultados, obtenemos el siguiente diagrama.
Figura 2
En la figura 2 se han calculado los porcentajes de los casos por separado para las
réplicas sarcásticas y no sarcásticas. S1 significa los casos en que hay un superlativo
absoluto en la réplica, m1, m2 y m3 los casos de uno, dos o tres palabras de
intensificación (muy o mucho) en la misma réplica respectivamente y ambos los casos
en que hay tanto un superlativo absoluto como al menos una palabra de intensificación.
Como podemos ver, la ocurrencia de una palabra de intensificación es mucho más típica
del sarcasmo. El superlativo absoluto se usa con más frecuencia en las réplicas
sarcásticas, en especial si se usa con una palabra de intensificación.
Sin embargo, esto podría predecir el sarcasmo con más fiabilidad con algunas
mejoras. El siguiente diagrama se ha calculado con una lista ampliada de palabras de
intensificación: muy, mucho, amar, encantar, mejorar y fascinar.
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
s1 m1 m2 m3 ambos
Muy, mucho y superlativo absoluto
sarcasmo no sarcasmo
40
Figura 3
La inclusión de más palabras de carácter de intensificación de lo positivo ha
resultado en una diferencia más clara entre el sarcasmo y no sarcasmo en el caso de una
palabra de este tipo. También es más clara la diferencia entre el sarcasmo y no sarcasmo
en el caso de dos palabras de este tipo. M3 sigue todavía aproximadamente en los
mismos números en ambos casos, esto es debido a que sencillamente no hay muchos
casos en los que hubiese más que dos palabras de la lista en la misma réplica.
En el esfuerzo por encontrar más palabras que sean más características del
sarcasmo, busco los lemas más frecuentes para las réplicas sarcásticas y no sarcásticas.
Para obtener una mejor lista, no tomo en cuenta las palabras vacías o muy frecuentes.
Este filtro es la lista de las 1000 palabras más frecuentes en el CREA (2015) y también
se filtran las puntuaciones como puntos y comas etc.
sarcasmobol
19
deber
10
no
10
él
9
9
jugar
6
futbol
6
y
6
yo
5
haber
5
oh
5
pero
5
deporte
5
Broncos
4
ver
4
33
decir
30
22
querer
20
ver
19
Butters
19
cómo
17
Archer
17
a
16
Lana
14
haber
12
valer
12
hablar
12
saber
11
mirar
9
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
s1 m1 m2 m3 ambos
Mejorado 1
sarcasmo no sarcasmo
41
decir
4
qué
4
Randy
4
querer
4
gracia
4
sacar
9
se
9
Stan
8
dejar
7
@card@
7
Tabla 1
En la tabla 1 se presentan los 20 lemas más frecuentes. En la columna izquierda
se presenta la lista para las réplicas sarcásticas y a la derecha, la lista no sarcástica.
Todavía existen algunas palabras que deberían haber sido filtradas debido a la ortografía
distinta en el corpus y el filtro (por ejemplo, mayúsculas). Sin embargo, esta lista de
lemas sirve para concluir que los lemas más frecuentes, aparte del sarcasmobol, no son
muy útiles para explicar el sarcasmo.
A continuación se presenta una lista de lemas que existen solo en las réplicas
sarcásticas y no en las réplicas no sarcásticas.
Harrys, olvidar, palmadas, golpeen, ¡Genial, skymal, gente, confidencial, fumar, pila, nadie,
formar, cansar, comercial, plato, ¡Ah, Desintoxicándose, Rome, burdel, alpino, escuela, espectador, moda,
interesante, bienvenida, culo, permitir, tradicional, agradecerte, repente, ofensivo, ¡Amor, empanada,
Mike, dense, hambre, mostrar, avisárselo, luz, terminarse, lastimar, trauma, generoso, ¡Duro, enfermedad,
Karachi, váter, reemplazar, emocionar, olvidarme, casco, ¡Increíble, marchar, entrar, estadística, chino,
genético, símbolo, dólar, cortar, intención, necesario, querré, bárbaro, concentrar, cierto, extra, saco,
enorme, santo, fascinante, ¡Justo, total, cruzar, Ayúdame, esperándome, cáncer, fanático, ¡Contentísimo,
super, abrazo, aluminio, cráneo, corbatita, entusiasmar, divertido, ayúdame, ¡Es, continuar, ¡Que,
emocionante, ¡Vamos, posar, ¡Bien, prioridad, inventor, vago, valioso, tobillo, imaginario, del, pesadilla,
Craqueo, cantidad, fondo, excelente, ¡qué, alegría, excusado, lastimen, linda, lunes, archerizar, ¡Qué,
delantero, entrenarlos, supuesto, pantalón, Gregors, ¡Wohoo, juventud, Tafthill, ¡Suéltalas, genio, motel
Podemos observar en esta lista algunas palabras para aumentar la lista de
palabras con las que formar hipérboles. Vamos a elegir los siguientes lemas, emocionar,
extra, super y entusiasmar, para ampliar nuestra lista.
42
Figura 4
Como podemos observar en la figura 4, la nueva lista ha mejorado los resultados
en el caso de una o dos palabras de la lista en la misma réplica. Es decir, vamos a
utilizar este algoritmo para extraer cuatro características para el clasificador: m1, m2 y
ambos. Otras formas de incluir un análisis léxico para el clasificador serían los n-
gramas. Los n-gramas son coocurrencias de N tokens en el texto, por ejemplo, la frase,
“mi perro duerme mucho”, consiste en los siguientes bigramas (n-gramas de dos
tokens): mi perro, perro duerme y duerme mucho. Sin embargo, el corpus que se utiliza
es muy pequeño y por lo tanto los n-gramas no funcionarían tan bien como con un
corpus más amplio.
4.4 Sentimiento
El análisis de sentimiento se refiere a una forma automática de reconocer
emociones u opiniones del texto. En esta parte del trabajo voy a investigar si se puede
aplicar esta técnica para el reconocimiento del sarcasmo. Como la finalidad de este
trabajo no es mejorar el análisis de sentimiento, voy a usar las herramientas disponibles.
Para realizar un análisis de sentimiento, existen algunas bases de datos basadas
en WordNet (George , 1995), como SentiWordNet (Esuli & Sebastiani, 2006) y
WordNet-affect (Strapparava & Valitutti, 2005). Sin embargo, el problema con estas
bases de datos es que están basadas en la versión inglesa del WordNet y aunque se
puede usar una versión de WordNet traducida al español con estas bases de datos, mis
experiencias de la calidad de un WordNet traducido no son muy positivas. Por eso, hay
que buscar otra forma de realizar el análisis.
Affective Norms for English Words (Bradley & Lang, 1999) ANEW es una lista
de palabras con su valor afectivo. Esta lista ha sido traducida al español por (Redondo,
Fraga, Padrón, & Comesaña, 2007). ANEW asocia el valor emocional a la palabra en
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
20,0
s1 m1 m2 m3 ambos
Mejorado 2
sarcasmo no sarcasmo
43
tres distintos aspectos: valencia, excitación y dominancia. Estos tres aspectos son tres
dimensiones básicas de emociones en el modelo PAD
16
de (Mehrabian & Russell,
1974). La valencia se refiere a la positividad de la emoción (agradable-desagradable), la
excitación a la intensidad de la emoción y la dominancia al carácter dominante o sumiso
de la emoción.
Para realizar un análisis de sentimiento, calculo el sentimiento de cada réplica
sumando los sentimientos individuales de cada lema en la réplica con los valores de
ANEW en español. En la figura 5 se presentan los porcentajes para cada dimensión
emocional cuyo valor es superior a cero.
Figura 5
Como podemos ver, porcentualmente, entre las réplicas sarcásticas hay más
réplicas que tienen palabras afectivas que entre las réplicas no sarcásticas. Sin embargo,
este diagrama no se ve muy útil para el reconocimiento del sarcasmo y tampoco nos
revela nada sobre los valores de cada dimensión. Para mejorar los resultados, voy a
ajustar los valores umbral (θ) para cada dimensión para ver si hay alguna diferencia en
la intensidad de las dimensiones.
16
Pleasure-Arousal-Dominance
0
10
20
30
40
50
60
70
valencia excitación dominancia
ANEW θ= 0
sarcasmo
no sarcasmo
44
Figura 6
En la figura 6 se presentan los porcentajes con el valor umbral de 11, es decir,
los valores de cada dimensión tienen que ser superiores a 11. Con este valor umbral,
todas las dimensiones siguen siendo más presentes en el sarcasmo, pero estos resultados
no son muy útiles para el algoritmo. Aumentar el valor umbral no ayuda a la situación,
porque aunque aumenta la precisión disminuye la exhaustividad tanto que ya no sirve
para muchos casos del sarcasmo.
Sin embargo, estoy convencido de que el análisis de sentimiento puede servir
como una característica en la clasificación del sarcasmo. Por eso, voy a hacer un
segundo intento, pero esta vez con una herramienta comercial, Gavagai (Gavagai AB,
2015). Gavagai es una herramienta para analizar texto automáticamente y ofrece un
analizador de sentimiento mediante su API. Gavagai tiene un plan gratuito que permite
realizar 1000 consultas al mes.
Utilizando el API de Gavagai, paso cada réplica por separado en una consulta a
Gavagai y obtengo un análisis de sentimiento que consiste en las siguientes
dimensiones: negatividad, escepticismo, miedo, positividad, amor, violencia, deseo y
odio. Utilizando los valores normalizados superiores a cero de cada dimensión obtengo
la figura 7.
0
5
10
15
20
25
valencia excitación dominancia
ANEW θ= 11
sarcasmo
no sarcasmo
45
Figura 7
Estos resultados se ven más útiles desde el punto de vista de reconocimiento de
sarcasmo. Podemos observar que ninguna réplica sarcástica expresa violencia, miedo o
escepticismo y que el sarcasmo es más frecuente en la comunicación del amor,
positividad y deseo. El odio y la negatividad no se ven muy útiles en el reconocimiento
de sarcasmo.
4.5 Conocimientos del mundo
En algunos ejemplos sarcásticos podíamos observar que la información
contradictoria puede revelar sarcasmo. Sin embargo, se trata de una tarea bastante difícil
para un ordenador. La intención de este apartado no es elaborar un sistema sólido capaz
de reconocer todo tipo de contradicciones a los conocimientos generales del mundo en
un texto arbitrario, puesto que eso sería demasiado ambicioso. En este apartado intento
buscar un método sencillo que sirva para, al menos, algunos de los casos en el corpus
que se estudia.
En algunos ejemplos de sarcasmo, aparecían palabras como sombrero de papel
aluminio, abrazo y seguridad en el contexto de fútbol. Si calculamos la distancia
semántica de las palabras no relacionadas al fútbol con palabras muy relacionadas como
campo o bien jugador, los resultados deberían revelar las palabras que no encajan con
otras dentro de la misma réplica.
WordNet (George , 1995) hace posible calcular las distancias semánticas
guardadas en la base de datos semántica. Si calculamos las distancias semánticas de las
palabras del fútbol usando NLTK, obtenemos la siguiente tabla.
0
5
10
15
20
25
30
Resultados de Gavagai
Sarcasmo No sarcsmo
46
Sombrero
Papel
Aluminio
Abrazo
Seguridad
Campo
Jugador
0.0496
0.0867
0.0481
0.0639
0.0550
0.0742
0.0580
Tabla 2
En la tabla 2 se presentan los valores con los cuatro primeros decimales
calculados con similitud de Jiang-Conrath usando nltk.corpus.wordnet_ic.ic('ic-
brown.dat') como contenido de información. Los resultados son muy parecidos en todos
los métodos de calculación de distancia semántica de NLTK. Aquí podemos observar
que no podemos calcular los valores deseados de WordNet, ya que según los datos
abrazo está más cerca del fútbol que jugador y que papel está más cerca que campo.
Como la base de datos semántica existente no funcionó para calcular la distancia
semántica de las palabras, voy a investigar la posibilidad de usar los algoritmos de
modelado de temas para alcanzar la meta. Gensim
17
(Řehůřek & Sojka, 2010) es una
librería de Python que tiene implementado varios algoritmos de este tipo y por lo tanto
voy a utilizarla.
A continuación, voy a entrenar un modelo de Asignación Dirichlet Latente
(ADL) con el contenido de Wikipedia
18
. ADL es un modelo probabilístico generativo de
un corpus en que las distribuciones de las palabras forman temas latentes y en que cada
documento del corpus puede consistir en varios temas de este tipo (Blei, Ng, & Jordan,
2003). El algoritmo extrae 100 temas en un paso, y de cada tema vamos a sacar las mil
primeras palabras utilizando Gensim. La hipótesis es que cuantos más temas dos
palabras comparten más cerca están semánticamente. Podemos verificar esta hipótesis
con los resultados de la misma búsqueda que con WordNet, es decir, vamos a comparar
diferentes palabras con fútbol.
Sombrero
Papel
Aluminio
Abrazo
Seguridad
Campo
Jugador
0
0
0
None
1
3
2
Tabla 3
Los resultados de la tabla 3 muestran cuántos temas cada palabra comparte con
fútbol. None significa que la palabra no se hallaba en ningún tema. Como podemos
observar, los resultados de este análisis automático son mejores que en el caso de
WordNet. Jugador y campo se destacan por la cantidad de temas que comparten con
fútbol, y seguridad que es también relacionado, pero no tanto tiene un valor superior a
las palabras completamente ajenas.
No obstante, antes de pasar todo el corpus por este modelo, vamos a construir
otro modelo semejante, Análisis Semántico Latente (ASL), usando el mismo corpus de
Wikipedia. ASL crea representaciones vectoriales de textos y compara la distancia
semántica comparando estos vectores (Wiemer-Hastings, 2004).
17
La versión utilizada es 0.12.3
18
La fecha del volcado que se utiliza es 04.12.2015. Disponible en https://dumps.wikimedia.org/eswiki/
47
Sombrero
Papel
Aluminio
Abrazo
Seguridad
Campo
Jugador
0
90
9
None
85
92
137
Tabla 4
ASL extrae 400 temas y como podemos ver, los resultados no son tan buenos
como en el caso de ADL, aunque este método también logra clasificar campo y jugador
más cerca de fútbol que ninguna otra palabra en la lista. Vamos a pasar el corpus por
ASL y ADL.
Figura 8
Cuando calculamos el número de sustantivos que se relacionan semánticamente
con otros sustantivos y el de sustantivos que no se relacionan semánticamente en la
misma réplica, y luego calculamos el porcentaje de sustantivos semánticamente ajenos
en la réplica, obtenemos la figura 8. En la figura se ha limitado el valor umbral a 50 % y
se representa la cantidad de réplicas que contienen palabras de campos semánticos
diferentes como porcentajes tanto para el sarcasmo como para el no sarcasmo.
Como podemos observar, ADL produce resultados algo superiores a los de ASL,
pero ninguno de los dos funciona perfectamente, ya que nos producen resultados
también en el caso de no sarcasmo. El último modelo que vamos a probar es word2vec.
Word2vec (Mikolov, Chen, Corrado, & Dean, 2013) es un algoritmo que crea un
modelo vectorial de las palabras en un corpus. En este modelo se puede calcular la
distancia semántica de cada palabra. Como en el caso de los modelos anteriores, vamos
a entrenar word2vec de Gensim con Wikipedia y pasar el corpus por el modelo.
0,00
5,00
10,00
15,00
20,00
25,00
ADL ASL
ASL y ADL θ=50%
sarcasmo no sarcasmo
48
Figura 9
En la figura 9 se presentan en porcentajes la réplicas que contienen uno, dos, tres
etc. sustantivos que se desvían de algún otro sustantivo en la oración tanto que el valor
que indica su similitud es inferior a cero. Este modelo es más deficiente para la tarea de
reconocimiento de sarcasmo que el modelo ADL.
A continuación se presenta una parte del listado de los sustantivos en la misma
réplica cuya semejanza semántica es inferior a cero.
cremoso, atleta -0.0293862211364
jordana, interrupciones -0.053646568062
urdu, violador -0.053563768495
cabras, violador -0.0297356618623
Observando este listado podemos constatar que una réplica semánticamente
coherente puede contener sustantivos semánticamente muy diferentes lo que explica los
resultados anteriores. Es decir, el reconocimiento automático de coherencia semántica
es una tarea muy difícil que no puede resolverse en este trabajo sino que exige más
estudio sobre el tema.
En este apartado he utilizado varios métodos para extraer una característica útil
para el reconocimiento automático de sarcasmo. Voy a incluir los resultados obtenidos
de ADL como una característica para el algoritmo.
4.6 Teoría de la mente
Para ilustrar la idea de la teoría de la mente, doy al principio un ejemplo de una
prueba de creencia falsa presentada en (Bloom & German, 2000) y utilizada para ver
cuándo los niños desarrollan la habilidad conocida como la teoría de la mente. En la
versión estándar de la prueba, los niños ven como un juguete llamado Sally esconde una
barra de chocolate en una cesta y se va de la habitación. Durante la ausencia de Sally,
0
2
4
6
8
10
12
14
16
1 2 3 4 5
Word2vec θ=0
sarcasm no sarcasm
49
otro juguete, llamado Anne, toma la barra de chocolate de la cesta y la mete en una caja.
Cuando Sally vuelve a la habitación, se pregunta a los niños por dónde Sally empeza
su búsqueda del chocolate. Los niños que tienen tres años responden que Sally empieza
a buscar su chocolate directamente en la caja, mientras que, la mayoría de los niños de
cuatro años y todos los de cinco años saben que Sally aún piensa que su chocolate está
en la cesta.
Este cambio de pensar se ve como una muestra del desarrollo de la teoría de la
mente (Gopnik, 1993), es decir, saber pensar cómo los demás pueden pensar. Sin
embargo, existe un grupo de personas que nunca desarrollan esta teoría de la mente, los
autistas (Baron-Cohen, Leslie, & Frith, 1985). Los autistas también tienen grandes
dificultades al comprender ironía y otro tipo de comunicación no literal (Happé, 1993).
Si la teoría de la mente es importante para el reconocimiento de sarcasmo, la
pregunta es entonces: ¿cómo puede un ordenador tener tal teoría si carece de mentalidad
propia? Según Minsky (1982), la mentalidad de los ordenadores no está tan lejos de
nuestro alcance ya que nuestro autoconcepto de un narrador interno es una ilusión, y la
razón por la que no tenemos un ordenador consciente es que carecemos de modelos
sobre cómo funciona la mente.
La teoría de la mente y su formalización es un problema muy difícil y no es mi
intención intentar resolverlo en este trabajo. Para mi algoritmo, opto por una
característica simplificada de la teoría de la mente, es decir el nombre del locutor. Así el
algoritmo aprenderá la tendencia al sarcasmo para cada locutor en el corpus.
4.7 Resultados
Para el algoritmo final capaz de reconocer sarcasmo, uso las características
extraídas en los apartados anteriores. El clasificador que se usa es el clasificador de
árbol de decisión de la librería NLTK. El algoritmo de NLTK construye
automáticamente un árbol para clasificar su input en sarcasmo y no sarcasmo. A
continuación se da un ejemplo de tal árbol para reconocer el género de los sustantivos
en español.
Figura 10
¿acaba en -
a?
¿acaba en -
ma?
M
F
¿acaba en -
o?
M
Otras
reglas...
No
No
No
50
Es decir, el algoritmo de NLTK creará automáticamente un árbol parecido a
partir de las características y de las réplicas en el corpus. Cuando entrenamos el
algoritmo con el corpus y evaluamos su rendimiento dentro del mismo corpus,
obtenemos los siguientes resultados de su precisión.
Sarcasmo
No sarcasmo
Precisión
64,8%
97,0%
Tabla 5
Como podemos ver en la tabla 5, el clasificador ha logrado a clasificar
correctamente un 64,8 % de las réplicas sarcásticas y 97,0% de las réplicas no
sarcásticas. Cuando tomamos la lista de falsos negativos, es decir de sarcasmo
reconocido como no sarcasmo, podemos observar que las réplicas en esa lista son casos
bastante difíciles. Vamos a ver algunos ejemplos:
No, no para nada
¿De dónde? ¿Del coño de tu madre?
Vale
¿Haber cruzado el río grande?
Claro, él que fuma junto a la niña
En el skymal
Linda corbatita, Stan
En esta lista podemos observar que el modelo elaborado en este trabajo podría
haber clasificado más sarcasmo correctamente si los algoritmos para extraer
características hubiesen funcionado mejor. Ya que aún nos quedan sarcasmos que
podrían haber sido reconocidos por mejor rendimiento de la extracción de información
contraria a los conocimientos del mundo. Sin embargo, también hay ejemplos de
sarcasmo para los que el modelo no puede funcionar, como no, para nada, vale y linda
corbatita, Stan. A lo mejor, un mejor modelo de la teoría de la mente podría ayudar en
la clasificación, pero es evidente que algunas réplicas sarcásticas pueden comprenderse
únicamente en su contexto, junto con el vídeo.
5. CONCLUSIONES
Este estudio ha llevado el reconocimiento automático de sarcasmo a un nero
nunca antes estudiado. Los estudios anteriores en este campo se han concentrado en el
reconocimiento del sarcasmo en pequeños textos escritos en línea como los tweets en
Twitter o bien reseñas de productos en Amazon. Los estudios anteriores se han
concentrado más bien en un análisis cuantitativo de un corpus automáticamente
extraído, mientras que este trabajo se ha basado en un análisis cualitativo de sarcasmo
para contribuir a un mejor entendimiento del fenómeno estudiado.
51
Estudiando el corpus, he mostrado que el sarcasmo no se limita únicamente a un
acto de habla específico y que tampoco puede explicarse únicamente por la violación de
la máxima de calidad. Las demás teorías de ironía actuales también tienen problemas
con cierto tipo de sarcasmo.
He logrado encontrar algunos rasgos característicos para el sarcasmo dentro del
corpus estudiado para crear un modelo para un clasificador automático. Sin embargo,
como hemos visto en 4.7 Resultados, los algoritmos de extracción de las características
requieren más estudio, si bien he probado varias formas de resolver sus problemas.
En especial, los conocimientos del mundo e información contraria a ellos es un
campo que exige más estudio. También en los trabajos futuros sería interesante estudiar
el reconocimiento automático de hipérboles, ya que en este trabajo me he limitado a la
búsqueda de algunos lexemas y un morfema.
Para un futuro estudio más filosófico, la formalización de la teoría de la mente
ofrece un campo muy amplio. Desde el punto de vista de clasificación de textos, su
formalización es solamente una parte del trabajo. La otra parte, igual de difícil, es la
extracción automática de tal modelo de un texto.
Los resultados obtenidos del clasificador son bastante prometedores. Sin
embargo, como el análisis ha sido cualitativo basado en un corpus relativamente
pequeño, la generalizabilidad del algoritmo es bastante pobre. Es decir, en el futuro hace
falta tomar un corpus mucho más amplio y estudiarlo de forma cuantitativa para
verificar si el modelo creado en este trabajo puede usarse en otros contextos y quizás
encontrar más características típicas del sarcasmo que no se han manifestado en el
corpus estudiado en este trabajo.
Como bien sabemos, el tono irónico en la voz se asocia con el sarcasmo, pero
por limitaciones técnicas no se ha tomado en cuenta en este trabajo. En el futuro sería
también interesante realizar un estudio fonético sobre cómo reconocer el tono irónico
automáticamente. Y sobre todo, estudiar el poder de reconocimiento de este tono en la
tarea de reconocimiento automático de sarcasmo. Y quizá ampliar el estudio para todo
tipo de rasgos paralingüísticos e incluso kinésicos asociados con el sarcasmo.
El código fuente programado para este trabajo está disponible en GitHub
19
.
19
https://github.com/mikahama/gradu
52
BIBLIOGRAFÍA
Fuentes primarias
Parker, Trey & Stone, Matt (2012). South Park. 16ª temporada. South Park Digital Studios, LLC.
Episodio 2. Compramos oro. Fecha de emisión: 21.3.2012
Episodio 8. Sarcasmobol. Fecha de emisión: 26.9.2012
Reed, Adam (2015). Archer. 6ª temporada. Floyd County Productions.
Episodio 2. Tango para tres. Fecha de emisión: 15.1.2015
Episodio 6. Canguro. Fecha de emisión: 12.2.2015
Fuentes secundarias
Austin, J. L. (1962). How to Do Things with Words. London: Oxford University Press.
Baron-Cohen, S., Leslie, A. M., & Frith, U. (1985). Does the autistic child have a “theory of
mind” ? Cognition, 22(1), 37-46.
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. Sebastopol:
O'Reilly Media Inc.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine
Learning Research, 3, 993-1022.
Bloom, P., & German, T. P. (2000). Two reasons to abandon the false belief task as a test of
theory of mind. Cognition, 77(1), B25-31.
Bradley, M. M., & Lang, P. J. (1999). Affective norms for English words (ANEW): Instruction
manual and affective ratings. Florida: Gainesville, FL: Center for Research in
Psychophysiology, University of Florida.
Brown, P., & Levinson, S. C. (1987). Politeness: Some universals in language use. Cambridge:
Cambridge University Press.
Davidov, D., Tsur, O., & Rappoport, A. (2010). Semi-Supervised Recognition of Sarcastic
Sentences. the Fourteenth Conference on Computational Natural Language Learning
(págs. 107-116). Uppsala: Association for Computational Linguistics.
Esuli, A., & Sebastiani, F. (2006). Sentiwordnet: A Publicly Available Lexical Resource.
Proceedings of LREC, 6, págs. 417-422.
53
Gavagai AB. (25 de 12 de 2015). Gavagai API. Obtenido de Gavagai:
https://developer.gavagai.se/
George , M. A. (1995). WordNet: A Lexical Database for English. Communications of the ACM,
38(11), 39-41.
Goffman, E. (1959). The presentation of self in everyday life. Garden City, NY: Doubleday.
Gopnik, A. (1993). How we know our own minds: the illusion of ®rst person knowledge of
intentionality. Behavioral and Brain Sciences, 16, 1-14.
Grice, H. P. (1975). Logic and conversation. Syntax and semantics, 3, 41-58.
Happé, F. G. (1993). Communicative competence and theory of mind in autism: A test of
relevance theory. Cognition, 48, 101-119.
Haverkate, H. (1990). A Speech Act Analysis of Irony. Journal of Pragmatics(14), 77-109.
Hjelle Olsen, J. M. (2015). Sarcasm Detection Using Grice’s Maxims. Undergraduate Journal of
Humanistic Studies, I, 1-25.
Israel, M. (2004). The Pragmatics of Polarity. En L. Horn, & G. Ward, The Handbook of
Pragmatics (págs. 701-723). Oxford: Blackwell.
Karlgren, J. (13 de 11 de 2015). Computational models for distributional semantics. Helsinki:
University of Helsinki. Lecture.
Karoui, J., Aussenac Gilles, N., Benamara Zitoune, F., & Hadrich Belguith, L. (7 de 2 de 2014). Le
langage figuratif dans le web social : cas de l'ironie et du sarcasme. Obtenido de
Institut de Recherche en Informatique de Toulouse:
ftp://ftp.irit.fr/pub/IRIT/IC3/Karoui_FoSweb2014_Langage_figuratif_dans_le_web_soc
ial.pdf
Kreuz, R. J., & Glucksberg, S. (1989). How to Be Sarcastic: The Echoic Reminder Theory of
Verbal Irony. Journal of Experimental Psychology, 118(4), 374-386.
Kumon-Nakamura, S., Glucksberg, S., & Brown, M. (1995). How About Another Piece of Pie:
The Allusional Pretense Theory of Discourse Irony. Journal of Experimental Psychology,
124(1), 3-21.
Lappi, O., & Kauhanen, H. (2013). Johdatusta kognitiiviseen mallinnukseen (ver 0.4 ed.).
Helsinki.
Mehrabian, A., & Russell, J. A. (1974). An approach to environmental psychology. Cambridge:
M.I.T. Press.
54
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word
Representations in Vector Space. ArXiv e-prints. Obtenido de
http://adsabs.harvard.edu/abs/2013arXiv1301.3781M
Minsky, M. (1982). Why People Think Computers Can't. AI Magazine, 3(4), 3-15.
Premack, D., & Woodruff, G. (1978). Does the chimpanzee have a theory of mind? Behavioral
and Brain Sciences, I(04), 515-526.
Real Academia Española. (2014). Diccionario de la lengua española (23.a ed.). Obtenido de
http://dle.rae.es/
Real Academia Española. (25 de 12 de 2015). Banco de datos (CREA). Obtenido de Corpus de
referencia del español actual: http://www.rae.es
Redondo, J., Fraga, I., Padrón, I., & Comesaña, M. (2007). The Spanish adaptation of ANEW
(Affective Norms for English Words). Behavior Research Methods, 39(3), 600-605.
Řehůřek, R., & Sojka, P. (2010). Software Framework for Topic Modelling with Large Corpora.
Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks (págs.
45-50). Valletta: ELRA.
Rescorla, M. (16 de 10 de 2015). The Computational Theory of Mind. (E. N. Zalta, Ed.) Obtenido
de The Stanford Encyclopedia of Philosophy:
http://plato.stanford.edu/entries/computational-mind/
Reyes, A., Rosso, P., & Veale, T. (24 de 7 de 2013). A multidimensional approach for detecting
irony. Language Resources and Evaluation, 37, 239-268.
Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of
International Conference on New Methods in Language Processing. Manchester.
Searle, J. R. (1969). Speech acts: An essay in the philosophy of language. Cambridge:
Cambridge University Press.
Searle, J. R. (1976). A classification of illocutionary acts. Language in Society, 5(1), 1-23.
Strapparava, C., & Valitutti, A. (2005). Wordnet-affect: an affective extension of wordnet.
Proceedings of the 4th International Conference on Language Resources and
Evaluation. Lisboa.
Utsumi, A. (1996). A unified theory of irony and its computational formalization. Proceedings
of the 16th conference on Computational linguistics - Volume 2 (COLING '96) (págs.
962-967). Stroudsburg: Association for Computational Linguistics.
Utsumi, A. (1996). Implicit Display Theory of Verbal Irony: Towards a Computational Model of
Irony. Hulstijn and Nijholt, 29-38.
55
Wiemer-Hastings, P. (2004). Latent Semantic Analysis. Obtenido de
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.91.6171&rep=rep1&type=
pdf
Wilson, D., & Sperber, D. (30 de 10 de 2002). Relevance Theory. Obtenido de UCL Phonetics &
Linguistics:
http://www.phon.ucl.ac.uk/publications/WPL/02papers/wilson_sperber.pdf
WordReference.com. (24 de 12 de 2015). Online Language Dictionaries. Obtenido de
http://www.wordreference.com/
Yule, G. (1996). Pragmatics. Oxford New York: Oxford University Press.
... We base our work on the sarcasm annotated dataset from the MA thesis of the second author of this paper Hämäläinen (2016) 3 . This dataset is based on two episodes of South Park with voice-overs in Latin-American Spanish and two episodes of Archer with voice-overs in Spanish of Spain. ...
Conference Paper
Full-text available
We construct the first ever multimodal sarcasm dataset for Spanish. The audiovisual dataset consists of sarcasm annotated text that is aligned with video and audio. The dataset represents two varieties of Spanish, a Latin American variety and a Peninsular Spanish variety , which ensures a wider dialectal coverage for this global language. We present several models for sarcasm detection that will serve as baselines in the future research. Our results show that results with text only (89%) are worse than when combining text with audio (91.9%). Finally, the best results are obtained when combining all the modalities: text, audio and video (93.1%).
... We base our work on the sarcasm annotated dataset from the MA thesis of the second author of this paper Hämäläinen (2016) 3 . This dataset is based on two episodes of South Park with voice-overs in Latin-American Spanish and two episodes of Archer with voice-overs in Spanish of Spain. ...
Preprint
Full-text available
We construct the first ever multimodal sarcasm dataset for Spanish. The audiovisual dataset consists of sarcasm annotated text that is aligned with video and audio. The dataset represents two varieties of Spanish, a Latin American variety and a Peninsular Spanish variety, which ensures a wider dialectal coverage for this global language. We present several models for sarcasm detection that will serve as baselines in the future research. Our results show that results with text only (89%) are worse than when combining text with audio (91.9%). Finally, the best results are obtained when combining all the modalities: text, audio and video (93.1%).
... Expressing something that is clearly untrue can be a way of expressing the opposite meaning in a sarcastic fashion (cf. Hämäläinen, 2016). If the sarcasm is understood correctly by the user, the communication can still be cooperative, even though on the surface it appears to be insincere. ...
... We feel that this kind of pragmatic coherence is such a wide task to tackle that it is deserving of a dedicated paper on its own right and thus is beyond the scope of this research. However, it is an important question for the future as it has been shown that humor of the kind we are focusing on in this paper derives its meaning greatly from its pragmatic context (Hämäläinen, 2016). ...
Article
Full-text available
L'analyse automatique du langage figuratif est l'un des défis majeurs du traitement des langues. Contrairement au langage littéral, le langage figuratif détourne le sens propre pour lui conférer un sens dit figuré ou imagé, comme la métaphore, l'ironie, le sarcasme, la satire et l'humour. La détection de ces phénomènes requiert des outils plus complexes que ceux utilisés pour l'analyse d'opinion. Dans ce contexte, nous nous focalisons sur l'ironie et le sarcasme. Nous présentons un panorama des définitions et principaux travaux existants. Nous décrivons ensuite une première expérimentation qui vise à détecter l'ironie dans un corpus de tweets en français.
Article
Full-text available
This paper proposes the implicit display theory of verbal irony that overcomes several difficulties of previous irony the-ories, and then describes a computa-tional model of irony interpretation and generation based on the theory. The theory claims that irony implicitly com-municates the fact that its utterance sit-uation is surrounded by ironic environ-ment which has three properties, but hearers can assume an utterance to be ironic even when they do not see all the three properties implicitly displayed by the utterance. Implicit communication of three properties is accomplished in such a way that an utterance alludes to the speaker's expectation, violates prag-matic principles, and is accompanied by several cues for implying the speaker's emotional attitude.
Conference Paper
Full-text available
Large corpora are ubiquitous in today’s world and memory quickly becomes the limiting factor in practical applications of the Vector Space Model (VSM). In this paper, we identify a gap in existing implementations of many of the popular algorithms, which is their scalability and ease of use. We describe a Natural Language Processing software framework which is based on the idea of document streaming, i.e. processing corpora document after document, in a memory independent fashion. Within this framework, we implement several popular algorithms for topical inference, including Latent Semantic Analysis and Latent Dirichlet Allocation, in a way that makes them completely independent of the training corpus size. Particular emphasis is placed on straightforward and intuitive framework design, so that modifications and extensions of the methods and/or their application by interested practitioners are effortless. We demonstrate the usefulness of our approach on a real-world scenario of computing document similarities within an existing digital library DML-CZ.
Article
Irony is a pervasive aspect of many online texts, one made all the more difficult by the absence of face-to-face contact and vocal intonation. As our media increasingly become more social, the problem of irony detection will become even more pressing. We describe here a set of textual features for recognizing irony at a linguistic level, especially in short texts created via social media such as Twitter postings or “tweets”. Our experiments concern four freely available data sets that were retrieved from Twitter using content words (e.g. “Toyota”) and user-generated tags (e.g. “#irony”). We construct a new model of irony detection that is assessed along two dimensions: representativeness and relevance. Initial results are largely positive, and provide valuable insights into the figurative issues facing tasks such as sentiment analysis, assessment of online reputations, or decision making.
Article
As adults we believe that our knowledge of our own psychological states is substantially different from our knowledge of the psychological states of others: First-person knowledge comes directly from experience, but third-person knowledge involves inference. Developmental evidence suggests otherwise. Many 3-year-old children are consistently wrong in reporting some of their own immediately past psychological states and show similar difficulties reporting the psychological states of others. At about age 4 there is an important developmental shift to a representational model of the mind. This affects children's understanding of their own minds as well as the minds of others. Our sense that our perception of our own minds is direct may be analogous to many cases where expertise provides an illusion of direct perception. These empirical findings have important implications for debates about the foundations of cognitive science.
Article
Part I. A Theory of Speech Acts: 1. Methods and scope 2. Expressions, meaning and speech acts 3. The structure of illocutionary acts 4. Reference as a speech act 5. Predication Part II. Some Applications of the Theory: 6. Three fallacies in contemporary philosophy 7. Problems of reference 8. Deriving 'ought' from 'is' Index.