PreprintPDF Available

FORENSIA, un software preparado para chequear audios falsos de Whatsapp, Youtube y Twitter

Authors:
Preprints and early-stage research may not have been peer reviewed yet.
Preprint

FORENSIA, un software preparado para chequear audios falsos de Whatsapp, Youtube y Twitter

Abstract

La tarea de los verificadores de hechos (fact checkers) en periodismo es la confirmar y comprobar hechos y datos que se usan en los discursos (sobre todo los políticos) y en los medios de comunicación y otras publicaciones. El propósito es detectar errores, imprecisiones, simulaciones y mentiras (fake news), aunque en actualidad se está comenzando a hablar de desinformación (misinformation) en lugar de falsedad de la información, ya que el interés está centrado en las mentiras como actos voluntarios que intentan generar una visión errada de la realidad. El reporte sobre medios británicos "Cairncross Review", describe a las fake news como "desinformación [entendida como] la creación o diseminación deliberada de información falsa o manipulada que busca engañar o llevar a conclusiones erradas a las audiencias, ya sea con el propósito de causar daño, o para lograr un rédito político, personal o financiero". La otra variable de importancia en este momento es la viralización de la desinformación a través de las redes sociales, especialmente Facebook y Whatsapp en Argentina. El éxito principal de una fake news radica en la cantidad de veces que es reproducida y la cantidad de "impresiones" que causa. El formato principal de las fake news es el texto, aunque comienzan a aparecer en videos y audios (Whatsapp, Facebook y Twitter). La categoría de los videos falsos han escalado de manera tal que ya poseen una denominación particular: deep fakes, debido al algoritmo de aprendizaje profundo (deep learning) que las genera. FORENSIA es un sistema de identificación forense de hablantes que está comenzando a emplearse para el chequeo de noticias.
FORENSIA, un software preparado para
chequear audios falsos de Whatsapp, Youtube
y Twitter.
By Inferiorz Presents/Shutterstock
29-sep-2019 | Pedro Univaso, BlackVOX
La tarea de los verificadores de hechos (fact checkers) en periodismo es la confirmar y comprobar hechos y
datos que se usan en los discursos (sobre todo los políticos) y en los medios de comunicación y otras
publicaciones. El propósito es detectar errores, imprecisiones, simulaciones y mentiras (fake news), aunque
en actualidad se está comenzando a hablar de desinformación (misinformation) en lugar de falsedad de la
información, ya que el interés está centrado en las mentiras como actos voluntarios que intentan generar
una visión errada de la realidad. El reporte sobre medios británicos "Cairncross Review", describe a las fake
news como "desinformación [entendida como] la creación o diseminación deliberada de información falsa
o manipulada que busca engañar o llevar a conclusiones erradas a las audiencias, ya sea con el propósito de
causar daño, o para lograr un rédito político, personal o financiero".
La otra variable de importancia en este momento es la viralización de la desinformación a través de las
redes sociales, especialmente Facebook y Whatsapp en Argentina. El éxito principal de una fake news
radica en la cantidad de veces que es reproducida y la cantidad de "impresiones" que causa.
El formato principal de las fake news es el texto, aunque comienzan a aparecer en videos y audios
(Whatsapp, Facebook y Twitter). La categoría de los videos falsos han escalado de manera tal que ya
poseen una denominación particular: deep fakes, debido al algoritmo de aprendizaje profundo (deep
learning) que las genera.
Si bien la tarea de verificar la información existe desde el inicio del periodismo, es a partir de primera
década del siglo XXI que emergieron medios que se dedican exclusivamente a la comprobación de hechos,
sobre todo en Internet. El origen del fenómeno actual del fact checking en la Web se originó en la prensa
anglosajona. En Estados Unidos el fenómeno adquirió popularidad con el establecimiento del sitio web sin
fines de lucro FactCheck.org (2003), seguido por PolitiFact perteneciente al Poynter Institute (de St.
Petersburg Times) y The Fact Checker (de Washington Post), en el año 2007. Le siguieron diferentes
medios en línea en el Reino Unido (Channel 4 Fact Check y Full Fact), y en Argentina el principal
referente es Chequeado, fundado en 2010. La International Fact-Checking Network (IFCN) es una unidad
del Poynter Institute dedicada a reunir a verificadores de datos en todo el mundo. La IFCN se lanzó en
septiembre de 2015 para respaldar una floreciente cosecha de iniciativas de verificación de hechos
mediante la promoción de mejores prácticas e intercambios en este campo.
En Argentina en 2019 nació “Reverso”, una iniciativa que busca ser la contracara de la desinformación que
circule a través de las redes sociales y canales de mensajería instantánea durante la campaña presidencial
de ese año. Reverso es un consorcio de organizaciones internacionales, medios y empresas que busca
capacitar a periodistas de todo el país en técnicas de monitoreo y verificación de contenidos virales, y
producir y difundir en conjunto y simultáneo artículos y piezas audiovisuales que pongan en evidencia la
desinformación que circule durante el proceso electoral. Esta iniciativa retoma las enseñanzas de otras que
se hicieron en diferentes países: “CrossCheck” en Francia, “Electionland” en los Estados Unidos,
“Verificado” en México, “Comprova” en Brasil y más recientemente “Checkpoint” en India y “Comprobado”
en España.
Google acaba de lanzar una nueva iniciativa en marzo de 2019, que ayudarían a avanzar en la investigación
de vanguardia sobre detección de audios falsos (spoofed/fake audio detection): Google AI y Google News
Initiative se han asociado para crear un cuerpo de discurso sintético que contiene miles de frases
pronunciadas por nuestros modelos de aprendizaje profundo de voz sintética (TTS - text-to-speech). Esta
nueva línea de investigación se centra en detectar si un audio ha sido emitido por un ser humano o por una
máquina, habiéndose desarrollado una nueva competencia internacional, organizada por universidades de
Europa y Japón, denominada ASVspoof 2019, en la cual se presentaron más de 60 soluciones tecnológicas a
este problema. La detección de audios falsos involucra dos tipos de ataque diferentes: uno generado por
habla sintética y otro por recortes y pegado de grabaciones reales.
Con respecto a los audios falsos, Laura Zommer,
directora de Chequeado, comentó que “los
verificadores de hechos suelen poner los ojos en
blanco cuando necesitan verificar un archivo de
audio extraído de WhatsApp. Saben que es una
tarea que consume mucho tiempo y faltan
herramientas para ayudarlos a llegar a un
veredicto sobre la voz que escuchan. Este
escenario, sin embargo, acaba de cambiar.
FORENSIA está funcionando en Buenos Aires, y lista para trabajar en lenguas sajonas y románicas.
Lanzado por BlackVOX, una empresa incubada en el Laboratorio de Investigaciones Sensoriales (LIS),
perteneciente a la UBA y al Consejo Nacional de Investigación Científica y Técnica (Conicet) de Argentina,
FORENSIA es, como su nombre lo indica, un software forense que se utilizó por primera vez para la
verificación de hechos en septiembre de 2019.
A principios de ese mes, la organización argentina de verificación de hechos Chequeado vio que un archivo
de audio se volvía viral en WhatsApp y decidió solicitar un informe a BlackVOX. Todos se sorprendieron por
los resultados que se obtuvieron y decidió compartir esta experiencia con la IFCN. "Siempre recibimos
muchos archivos de audio para ser verificados y aunque siempre queremos verificarlos, nunca hemos
podido hacerlo", dijo.
El caso que Chequeado tenía en sus manos fue realmente fuerte. En el archivo de audio que querían
verificar, un político específico supuestamente estaba acusando a toda la comunidad no blanca de haber
votado por el kirchnerismo porque "los negros quieren barbacoa, vino barato, cerveza, mucha cerveza,
marihuana y cocaína". Chequeado necesitaba confirmar si la voz escuchada era en realidad del congresista
Guillermo Montenegro, como se estaba difundiendo en WhatsApp y otros canales de redes sociales.
Jorge Gurlekian, el científico investigador que dirige LIS y es socio de BlackVOX, recibió el archivo de
WhatsApp y pidió a los verificadores de datos que proporcionaran otros archivos de audio reales de la voz
de Montenegro. Alimentó FORENSIA con la totalidad de los datos y, en unos minutos, concluyó que había
muy pocas posibilidades de que esa voz fuera la de Montenegro. En una escala del Factor de Bayes que
varía entre -5 y +5, el clip de audio se calificó -1. El motor de identificación automática de FORENSIA está
desarrollado con la última tecnología basada en aproximaciones por i-vectors/PLDA. El sistema realiza la
comparación entre dos audios, uno cuestionado y otro del personaje imitado. El resultado obtenido indica
la proximidad del par de voces comparadas, que se evalúan en relación a una base de datos universal que
incluye voces de diferentes regiones de Argentina. “Nuestra respuesta final nunca es binaria. Es una
probabilidad y sugerimos a los verificadores de hechos que usen FORENSIA como otra evidencia de su
trabajo, al igual que un juez usa una prueba de ADN", explicó Gurlekian.
Gurlekian ha estado estudiando el reconocimiento de voz durante décadas y ha ayudado a las fuerzas de
seguridad y al sistema judicial en su país durante mucho tiempo. Ahora está emocionado de ver que su
conocimiento, y su herramienta, pueden servir en la batalla contra la desinformación en línea. "Mi equipo,
compuesto por Miguel Martínez Soler, Pedro Univaso y yo, estamos listos para trabajar con verificadores de
datos y experimentar en este campo", dijo. “Solo debemos tener en cuenta que algunos requisitos técnicos
son necesarios. Los audios cuestionados, por ejemplo, deben tener al menos 15 segundos de duración para
ser verificados y se deben poder acceder a audios del personaje imitado -idealmente grabados en el mismo
canal que el cuestionado-.
El formato de archivo para ejecutarse en el software es wav, pero Gurlekian sabe que esto no es realista en
el universo de noticias falsas y está listo para manejar grabaciones de WhatsApp (ogg, opus), Facebook o
Twitter (mp4). Se verifican alrededor de 40 indicadores diferentes de la señal de habla, extraídos cada 10
milisegundos, que no dependen del contenido de lo que se dice, razón por la cual la herramienta puede
manejar diferentes lenguas y modismos.
Posteriormente el sistema fue presentado
a la Asociación de Entidades Periodísticas
Argentinas (ADEPA) quien interesada en el
tema acaba de lanzar una campaña
especialmente dirigida a los estudiantes
que busca promover el uso de información
confiable, buscando revertir los daños que
provoca la utilización de noticias falsas.
Andrés D’Alessandro, Director Ejecutivo de
ADEPA, interesado por los resultados
obtenidos con FORENSIA, preguntó si el
sistema es inmune a los imitadores de
voces. Para responder esta pregunta se
confrontó FORENSIA con una imitación de
Tarico (el conocido imitador argentino) del diputado nacional Felipe Solá. Para ello se contrastó dicha
grabación con varios audios en Twitter y Youtube donde aparece el citado diputado. El resultado fue un
rotundo triunfo de FORENSIA con una probabilidad del 99.89% (Test de hipótesis t-student) de que la
emisión de Tarico es falsa.
FORENSIA se puede licenciar e instalar en computadoras, pero Gurlekian sugiere que la comunidad
internacional de verificación de hechos dé un pequeño paso por ahora y permita que el equipo de
BlackVOX sea el que ejecute las pruebas, hasta lograr confianza de los chequeadores en el uso de la
herramienta y la interpretación de los resultados.
Adicionalmente FORENSIA puede señalar las ediciones realizadas en un archivo y ayudar a identificar
cuándo se realizó un cambio en una frase u oración.
Entonces, ¿cuáles son sus limitaciones? “La limitación podría ser el envejecimiento. La voz de los niños y
niñas cambia con el tiempo. Si cuestionamos un audio grabado cuando son jóvenes, necesitaremos
ejemplos de voces reales de esa época para comparar y eso podría ser difícil”.
Ref.: “Meet Forensia, a software ready to debunk fake Whatsapp audio files”, escrito el 10 de septiembre
de 2019 por Cristina Tardaguila, Directora Asociada de la IFCN, en Poynter.
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.