PreprintPDF Available

Known and unknown voices in forensic speaker recognition: a preliminary study

Preprints and early-stage research may not have been peer reviewed yet.
Preprint

Known and unknown voices in forensic speaker recognition: a preliminary study

Abstract and Figures

The objective of this work is to analyze the characteristics of the samples the judge send to the forensic laboratories for comparison. We have not found works that analyze in particular known and unknown voices present in real forensic speaker recognition. Their linguistic and acoustic characteristics, as well as the audio signals, differ from each other and make the speaker identification a particular case that must be studied in depth. In this preliminary study of 44 forensic cases of Argentina in the period 2016-18, we found that unknown voices are mostly recordings of men who use the telephone channel and the microphone for known voices. The effective duration (excluding silences) is 64% of the total duration of the recording received, and the unknown duration shorter than the known. Another particular characteristic of the unknown is the nervous speech or tension, which is reflected in the increase of the F0, Shimmer, Grade of quality voice and speech rate. The predominant type of speech of the known voices is the spontaneous declaration, although there is a significant proportion of reading speech. In contrast, unknown voices are mainly spontaneous, threatening and nervous speech. The use of an automatic speaker identification system that uses the ivector/PLDA approach allows for repeatable results with the environmental noise and reverberation characteristics of real forensic cases. It also proved to be sufficiently immune to the audio formats, type of speech used, genre and variations of the fundamental frequency of known and unknown samples. The principal limitation is the duration of the samples that must be greater than 7 sec. It was found that the recordings selected on the speaker recognition evaluation NIST-HASR are not compatible with the real characteristics found in forensic cases. It is important that future evaluations can take into account the particular characteristics of forensic cases. Keywords: forensic speaker recognition, known voices, unknown voices, automatic speaker identification.
Content may be subject to copyright.
©ResearchGate (2018)
Resumen El objetivo del presente trabajo es analizar las
características particulares de las grabaciones de voz que son
enviadas por el poder judicial a los laboratorios forenses para su
cotejo. No hemos encontrado trabajos que analicen en particular
las grabaciones dubitadas e indubitadas presentes en las pericias
forenses de voz. Sus características lingüísticas y acústicas, así
como la de las señales de audio difieren entre sí y hacen de la
identificación del hablante un caso particular que debe estudiarse
en profundidad. Son mayormente grabaciones de hombres que
utilizan el canal telefónico para las dubitadas y el micrófono para
las indubitadas. La duración efectiva (excluyendo los silencios) es
un 64% de la duración total de las emisiones recibidas, siendo la
duración efectiva de las dubitadas menor que las de las
indubitadas. Otra característica particular de las dubitadas es el
tipo de habla nerviosa o tensa, que se ve reflejado en el
incremento del F0, del Shimmer, del grado de la calidad de habla
y la velocidad de habla. El tipo de habla preponderante de las
indubitadas es la declaración espontánea, aunque existe una
proporción importante de declaraciones que se realizan por
medio de habla leída. En cambio, las dubitadas emplean
mayormente el habla espontánea, amenazante y nerviosa. El uso
de un sistema automático de identificación de hablantes que
utiliza el enfoque ivector/PLDA permite lograr resultados
repetibles con señales de audio con las características de ruido y
reverberación ambientales de los casos forenses reales. También
resultó ser suficientemente inmune a los formatos de audio
presentes en este tipo de cotejos, al tipo de habla empleada, al
género y a las variaciones de la frecuencia fundamental de las
grabaciones dubitadas e indubitadas. Siendo el limitante la
duración de las muestras que debe ser mayor a 7 seg. Por último
se determinaron las diferencias entre las características de las
grabaciones que forman parte de la evaluación internacional de
reconocimiento de hablantes NIST-HASR y las de los cotejos
forenses reales. Esperamos que este trabajo permita crear nuevas
evaluaciones internacionales de sistemas de identificación forense
que tengan en cuentan las características particulares de este tipo
de cotejos de voz.
Palabras claves pericia forense de voz, grabación dubitada e
indubitada, sistemas automáticos de identificación forense de
hablantes.
Abstract The objective of this work is to analyze the
characteristics of the samples the judge send to the forensic
laboratories for comparison. We have not found works that
analyze in particular known and unknown voices present in real
forensic speaker recognition. Their linguistic and acoustic
characteristics, as well as the audio signals, differ from each
Pedro Univaso, BlackVOX & Laboratorio de Investigaciones Sensoriales
(INIGEM-CONICET, UBA), Buenos Aires, Argentina,
punivaso@blackvox.com.ar
Jorge Gurlekian, Laboratorio de Investigaciones Sensoriales (INIGEM-
CONICET, UBA), Buenos Aires, Argentina,
jgurlekian@hospitaldeclinicas.uba.ar
other and make the speaker identification a particular case that
must be studied in depth. In this preliminary study of 44
forensic cases of Argentina in the period 2016-18, we found that
unknown voices are mostly recordings of men who use the
telephone channel and the microphone for known voices. The
effective duration (excluding silences) is 64% of the total
duration of the recording received, and the unknown duration
shorter than the known. Another particular characteristic of the
unknown is the nervous speech or tension, which is reflected in
the increase of the F0, Shimmer, Grade of quality voice and
speech rate. The predominant type of speech of the known
voices is the spontaneous declaration, although there is a
significant proportion of reading speech. In contrast, unknown
voices are mainly spontaneous, threatening and nervous speech.
The use of an automatic speaker identification system that uses
the ivector/PLDA approach allows for repeatable results with
the environmental noise and reverberation characteristics of real
forensic cases. It also proved to be sufficiently immune to the
audio formats, type of speech used, genre and variations of the
fundamental frequency of known and unknown samples. The
principal limitation is the duration of the samples that must be
greater than 7 sec. It was found that the recordings selected on
the speaker recognition evaluation NIST-HASR are not
compatible with the real characteristics found in forensic cases.
It is important that future evaluations can take into account the
particular characteristics of forensic cases.
Keywords forensic speaker recognition, known voices,
unknown voices, automatic speaker identification.
I. PERICIAS FORENSES DE VOZ EN ARGENTINA
as pericias voz en el ámbito forense argentino son
solicitados por un magistrado a los laboratorios forenses
pertenecientes a instituciones de seguridad, judiciales o
privados. En la actualidad las muestras de audio indubitadas y
dubitadas son recopiladas y enviadas sin un tratamiento pre-
establecido, pudiendo llegar en cualquier soporte, formato de
audio, duración y calidad. En el año 2018 el Programa
Nacional de Ciencia y Justica, del que participan el CONICET
y el Ministerio de Justicia, presentaron un protocolo
orientativo en el que se establecen pautas para la ejecución de
pericias de voz desde la recepción de la evidencia hasta la
creación del informe final (Gurlekian et al., 2018). El mismo
está basado en la guía de muestras de ADN desarrollado por el
experto argentino Daniel Corach (2018), en los fundamentos
de la identificación forense de hablantes mediante la voz
(Rose, 2002) y en las recomendaciones de la Red Europea
ENFSI (Drygajlo et al., 2015). Los referentes de los
Grabaciones indubitadas y dubitadas en las
pericias forenses de voz: un trabajo preliminar
Pedro Univaso y Jorge A. Gurlekian
L
©ResearchGate (2018)
laboratorios forenses están analizando la factibilidad de su
implementación en Argentina.
Los tipos de pericias forenses de reconocimiento de
hablantes pueden requerir: a) el cotejo de la voz dubitada con
respecto a la indubitada para determinar si pertenecen o no al
mismo hablante (identificación abierta), b) la comparación
entre de varias muestras indubitadas para detectar
correspondencia entre ellas (detección abierta), y c) la
comparación de la voz dubitada con respecto a un grupo de
voces indubitadas (identificación cerrada), almacenadas en
una base de datos de identidades conocidas (e.g. base de
pedófilos, criminales, ingresantes a proceso).
En algunos casos se requiere una investigación forense de
audio previo a la pericia de voz. Ésta un área más amplia que
el reconocimiento de hablantes e incluye la autenticación y
optimización de los registros de audio para lo cual se emplean
otras técnicas que ayudan a los peritos en su investigación:
filtrado de ruidos, análisis de autenticidad de la grabación,
filtrado de señales, recuperación de datos, etc. En este trabajo
nos centraremos exclusivamente en las pericias de voz
referidas al reconocimiento de hablantes.
La identificación de hablantes empleada en el ámbito
forense parte de la grabación de una voz relacionada con un
hecho delictivo (grabación dubitada, prueba o evidencia) la
cual es comparada con otros registros atribuidos a una
persona, normalmente conocida (grabación indubitada o plana
de voz del imputado). La grabación dubitada generalmente se
obtiene de registros telefónicos (teléfonos fijos o celulares),
mientras que la indubitada se realiza durante la toma de
declaración del imputado (micrófono). En este último caso
algunos peritos les hacen repetir las mismas frases de las
grabaciones dubitadas (habla leída). Dada la posibilidad,
prevista ya en la ley, de que el imputado se rehúse a repetir las
frases solicitadas, se realizan planas de voz indubitadas cuyo
texto difiere de las dubitadas (declaración de habla
espontánea). En otros casos la grabación indubitada puede
provenir de un registro telefónico (escucha telefónica) y la
dubitada de grabaciones en vivo (whatsapp o grabador de
celular).
Para la identificación se emplean principalmente métodos de
reconocimiento basados en humanos, generalmente expertos
fonetistas, lingüistas o fonoaudiólogos. Al no existir un
procedimiento estándar consensuado entre los expertos, cada
laboratorio emplea un enfoque particular como el auditivo-
perceptuales (Hollien 2002, San Segundo et al., 2017) o el
fonético-lingüístico apoyados por la tecnología (Hansen et al.,
2015), principalmente a través del análisis de formantes
vocálicos. En algunos casos los sistemas de identificación
automática de hablantes son empleados para la toma de
decisión final. El empleo conjunto de diferentes métodos
complementarios, permite considerar diferentes aspectos del
problema arribando a resultados más precisos, de manera
similar a los métodos de ensamble empleados en la minería de
datos (Zhou, 2012) (ver fig. 1). Cuando todos lo métodos
brindan la misma identificación constituyen un argumento de
mayor fuerza para la decisión del forense. Sin embargo el
peso relativo de los métodos automáticos es mayor por estar
respaldados por datos.
Fig. 1. Esquema representativo de un método de ensamble
basado en la antigua parábola india de los hombres ciegos y el
elefante. El método de ensamble brinda una visión global.
En el presente trabajo se analizarán las características
acústicas y lingüísticas de las muestras de voz pertenecientes a
casos reales (dubitadas e indubitadas) solicitados por algunos
juzgados de Argentina durante el período 2016-18 y su
relación con los resultados del sistema de identificación
forense de hablantes FORENSIA basado en la metodología
ivector-PLDA (M. Martínez Soler et al., 2018), calibrado para
condiciones de hombres/mujeres y todas las combinaciones de
canal telefónico/microfónico. Posteriormente se compararán
las características de estas muestras reales con las empleadas
en la última evaluación de reconocimiento de hablantes de
NIST del 2012 denominada HASR (Human Assisted Speaker
Recognition) que combina la intervención humana con los
sistemas automáticos (Hautamäki et al., 2013).
II. BASE DE DATOS
La base de datos empleada es la recopilación de las
muestras de audio de 44 casos reales enviadas al laboratorio
forense para su análisis durante el período 2016-18. El corpus
quedó conformado por 96 muestras indubitadas y 58 muestras
dubitadas correspondientes a 51 hablantes (85% hombres y
15% mujeres). Como puede verse en la fig. 2, el 80% de las
grabaciones dubitadas emplean el canal telefónico (debido a la
falta de trazabilidad de las muestras enviadas por el juzgado
no se pudo constatar la proporción de uso de la telefonía
celular y fija), mientras que el 91% de las indubitadas se
realizan por medio de grabaciones a través de un micrófono
(e.g. micrófono: de mesa, incorporado a una laptop o a un
teléfono inteligente).
©ResearchGate (2018)
Fig. 2. Porcentaje de muestras dubitadas e indubitadas que
provienen de los canales telefónico y microfónico de la base
de datos.
En la mayoría de los 44 casos (Tabla I) los canales
empleados para las emisiones dubitadas-indubitadas son del
tipo teléfono-teléfono (40%), mientras que los casos
micrófono-micrófono y teléfono-teléfono poseen una misma
menor frecuencia (20%). No se presentó ningún caso en que
se empleara la dupla micrófono-teléfono.
Tabla I Frecuencia de los canales telefónicos (tel) y
microfónicos (mic) empleados en los casos de la base de
datos.
La duración total del corpus es de 104’, aunque la duración
efectiva (incluyendo exclusivamente los segmentos de habla)
es de 67’; es decir, en promedio sólo el 64% de la emisión
dubitada o indubitada será útil para la identificación
automática del hablante. Para la determinación de la duración
efectiva se desarrolló un detector heurístico de actividad de
habla (VAD Voice Activity Detection) basado en la
medición de la energía de la señal y la duración de los
silencios y segmentos de habla.
Las grabaciones dubitadas de la base de datos tienen una
duración efectiva promedio de 33 seg y las indubitadas de 54
seg y se verificaron emisiones de muy corta duración, entre 3
y 5 seg entre las emisiones enviadas para su identificación
(fig. 3).
Fig. 3. Duración efectiva de las emisiones dubitadas e
indubitadas de la base de datos.
III. CARACTERÍSTICAS LINGÜÍSTICAS
Analizando las características estilísticas de los actos de
habla contenidos en la base de datos se encuentra que, como
puede verse en la fig. 4, el 97% de las grabaciones dubitadas
son del tipo dialogado, mientras que el 86% de las indubitadas
son del tipo declarativo.
Fig. 4. Características estilísticas de las muestras de habla
dubitadas e indubitadas de la base de datos.
La grabación de los diálogos y amenazas son intervenciones
telefónicas autorizadas por la autoridad judicial o grabaciones
realizadas por medio de un teléfono inteligente (e.g. whatsapp
o aplicación para grabar conversaciones). Las declaraciones
son grabaciones realizadas por medio de un micrófono de
mesa o laptop en sede de una fuerza de seguridad o poder
judicial y se las conoce como planas de voz. Las mismas
deben realizarse en un ambiente controlado en una cámara
acústica, pero no siempre sucede así en la práctica. Las
declaraciones espontáneas contienen narraciones de los datos
personales del sospechoso o de los sucesos de un día típico del
mismo. En algunos casos se le solicita al sospechoso el conteo
de números sucesivos o la lectura de la transcripción de la
grabación dubitada de manera de poder comparar iguales
segmentos de habla (e.g. formantes vocálicos) en similares
condiciones contextuales. Aunque muchas veces esta táctica
degenera en una falta de espontaneidad muy marcada en la
emisión indubitada, los resultados obtenidos demostraron que
no afectan la identificación del hablante, como puede verse en
la fig. 5. Para eso se utilizó el sistema automático de
identificación forense de hablantes FORENSIA calibrado. La
evaluación asigna una relación de verosimilitudes expresada
Canal dubitado-
indubitado
Frecuencia
tel-mic 60%
mic-mic 20%
mic-tel 0%
tel-tel 20%
©ResearchGate (2018)
en LLR (Log Likelihood Ratio), la cual mide la fuerza de la
evidencia. Al estar el sistema calibrado, valores negativos del
LLR representarían cotejos de hablantes diferentes (non-
target) y valores positivos del LLR, cotejos de hablantes
similares (target). Dado que no se conocen las identidades de
las grabaciones dubitadas no se puede verificar la
confiabilidad de esta afirmación.
Fig. 5. Resultado del cotejo de voces (LLR) de una emisión
dubitada con respecto a emisiones espontáneas y leídas de 2
hablantes. El Hablante 1 se correspondería con la voz dubitada
(target) y el Hablante 2 no (non-target).
Una característica común que se encontró en las voces
dubitadas es el uso de muletillas o frases hechas con una alta
repetición en la muestra (e.g. dale, bueno, amigo, no hay
problema, etc.). Se debe tener en cuenta especialmente en las
grabaciones de muy corta duración, menor a 11 segundos,
para que este fenómeno no invalide la muestra por falta de
diversidad fonética.
IV. CARACTERÍSTICAS ACÚSTICAS
Se realizó el análisis de las pericias forenses de voz
pertenecientes a la base de datos por medio del software de
análisis y síntesis de señales de habla PRAAT (Boersma et al.
2005). Los parámetros principales que se consideraron fueron
los referidos al tono y la calidad del habla: el valor medio,
mínimo, máximo y desviación estándar de la frecuencia
fundamental (F0) [Hz], la perturbación local de la amplitud
(Shimmer) [%], la perturbación local de la frecuencia
fundamental (Jitter) [%], la armonicidad (HNR Harmonic-
to-Noise-Ratio) o relación entre la periodicidad de la emisión
y el ruido [dB] y la relación entre Shimmer y HNR (Grado)
[%/dB]. Para todas estas mediciones se utilizó la
configuración estándar de PRAAT.
La incorporación de la velocidad del habla se realizó por
medio del script para PRAAT desarrollado por Nivja de Jong
y Tom Wempe (2009) basado en el núcleo silábico. Con el
mismo se obtuvieron los siguientes parámetros de cada
emisión de la base de datos: cantidad de sílabas y silencios,
duración total [seg], tiempo de sonoridad [seg], velocidad de
habla [1/seg] expresada como el cociente entre la cantidad de
sílabas y la duración total, velocidad de articulación [1/seg]
expresada como el cociente entre la cantidad de sílabas y el
tiempo de fonación, y la duración promedio de las sílabas
(ASD - Average Syllable Duration) [seg].
Analizando la información obtenida (Tabla II y figs. 6 y 7)
podemos ver las diferencias acústicas entre las grabaciones
dubitadas y las indubitadas. Tanto la frecuencia fundamental
(F0) como la velocidad de habla y de articulación de las
dubitadas son superiores a las de las indubitadas, un 23% y
16% respectivamente, y consiguientemente la duración
promedio de las sílabas (ASD) se reduce en una proporción
similar. La variación de la F0 (Jitter) no se ve afectada,
mientras que sí lo hace la variación en amplitud de la señal
(Shimmer) que se ve incrementada en las dubitadas un 22%
con respecto a las indubitadas.
Tabla II Parámetros acústicos de las grabaciones dubitadas
e indubitadas de la base de datos
Fig. 6. Distribución de la frecuencia fundamental (F0) [Hz] de
las emisiones dubitadas e indubitadas de hombres.
Fig. 7. Distribución de la frecuencia fundamental (F0) [Hz] de
las emisiones dubitadas e indubitadas de mujeres.
dubitada indubitada promedio
F0 hombres [Hz] 180 140 160
F0 mujeres [Hz] 241 206 223
Jitter [%] 2.4% 2.4% 2.4%
Shimmer [%] 14.1% 11.6% 12.8%
NHR [dB] 9.0 10.3 9.7
Grado [%/dB] 1.7% 1.3% 1.5%
Velocidad de
habla
[1/seg] 4.3 3.7 4.0
Velocidad de
articulación
[1/seg] 5.2 4.5 4.9
ASD [seg] 0.19 0.23 0.21
©ResearchGate (2018)
El aumento del tono fundamental (F0) en las emisiones
dubitadas, tanto en hombres como mujeres, indican un
aumento de la tensión de las cuerdas vocales (sonido más
agudo) o de la presión subglótica. Estas características reflejan
el componente altamente emocional de la emisión dubitada
especialmente en amenazas o diálogos nerviosos de alta
emotividad- (estilo de comunicación agresivo) y la cautela al
tener que declarar durante la grabación indubitada (estilo de
comunicación inhibido).
Según Teruel Díaz (2014) el estilo de comunicación
agresivo posee particularidades similares a las encontradas en
las grabaciones dubitadas:
Volumen de voz excesivamente alto lo que impide el uso
de la entonación.
Fluidez verbal buena.
Velocidad muy rápida.
Claridad no muy buena.
Latencia muy corta.
Mientras que el estilo de comunicación inhibido posee las
siguientes características particulares que se condicen con los
encontrados en las grabaciones indubitadas:
• Volumen de voz excesivamente bajo.
• Entonación más bien monótona.
• Fluidez verbal escasa, resultando el habla entrecortada.
• Velocidad muy lenta o muy rápida.
• Claridad deficiente.
A base de monosílabos.
V. CARACTERÍSTICAS DE LA SEÑAL DE AUDIO
Dentro de las primeras actividades recomendadas en el
protocolo para las pericias forense de voz (Gurlekian et al.,
2018) se recomienda el pre-procesamiento de la señal de audio
para que cumpla los requisitos de duración efectiva mínima y
un nivel de ruido y reverberación aceptable. Estas
características han sido ampliamente estudiadas por
investigadores como García-Romero et al.(2012) y Mandasari
et al. (2015), entre otros. Además de estos parámetros, se
analizaron en las señales pertenecientes a la base de datos el
ancho de banda y los formatos de audio de las muestras
recibidas. Para su análisis se empleó el mismo sistema
automático de identificación forense de hablantes
(FORENSIA) (M. Martínez Soler et al., 2018) utilizado
anteriormente en el punto III y el software de grabación y
edición de audio Audacity (ver. 2.1.2.) (Audacity Developer
Team, 2008).
Una de las características anómalas de algunas grabaciones
de audio analizadas es el ancho de banda de las mismas.
Varias grabaciones de canal telefónico que deberían tener un
ancho de banda de 4 KHz se han entregado en anchos de
banda de 8 KHz, 16 KHz y 44 KHz. En otros casos se han
encontrado grabaciones sin filtrado anti-aliasing,
indispensable en la digitalización de señales. Este fenómeno
se puede visualizar en el campo transformado (espectro de
larga duración) como una repetición en altas frecuencias del
espectro con intensidades reducidas (ver fig. 8) y se traduce en
una voz con ruidos agudos superpuestos. De utilizarse estas
grabaciones sin un previo filtrado pueden producirse
diferencias sustanciales en los resultados de la identificación,
con lo cual se sugiere incorporar en la etapa de pre-
procesamiento un análisis espectral previo.
Fig. 8. Espectro de una grabación de canal telefónico, de
ancho de banda 44 KHz. En sombreado: señal espúrea
generada por falta de la aplicación de un filtro anti-aliasing.
Para analizar la influencia de la reverberación en las
grabaciones forenses se realizó un experimento, empleando
Audacity, en la que se afectó a una grabación indubitada a
reverberaciones que simulan diferentes características
ambientales pre-establecidas. Posteriormente, empleando
FORENSIA se calculó el LLR de estas emisiones con respecto
a la grabación dubitada correspondiente, que se dejó
inalterada. Ambas grabaciones poseen una duración total de
80 seg y son del tipo tel-mic. Según puede verse en la fig. 9 la
metodología ivector/PLDA es suficientemente robusta como
para no alterar el resultado de identificación del hablante. Una
conclusión a la que se puede arribar es que el incremento de la
reverberación en las grabaciones forenses afecta el resultado
de la identificación siempre a favor de la hipótesis de la
defensa, reduciendo el valor de LLR resultante.
Fig. 9. Resultado de la identificación de hablantes (LLR) para
diferentes ambientes reverberantes de la grabación indubitada
con respecto a una misma grabación dubitada.
Un experimento similar se realizó adicionando diferentes
niveles de ruido blanco a la grabación indubitada (80 seg)
©ResearchGate (2018)
anterior, y segmentando la dubitada para lograr diferentes
duraciones efectivas (4, 26 y 53 seg). Como puede verse en la
Tabla III con la duración de 5 seg, independientemente del
nivel de ruido, el nivel de identificación es prácticamente nulo
(LLR 0). En cambio, con duraciones de la dubitada de entre
40-80 seg el sistema de identificación sigue manteniendo su
sesgo (hipótesis más probable), aunque con una esperada
disminución de su confiabilidad a medida que aumenta el
ruido de la indubitada.
Tabla III Resultado de la identificación de hablantes (LLR)
para diferentes niveles de relación nivel a ruido (SNR) de una
grabación indubitada con respecto a 3 duraciones efectivas de
una grabación dubitada. En grisado la condición original.
Para profundizar sobre la influencia de la duración efectiva
de las grabaciones se segmentaron las grabaciones dubitadas e
indubitadas para obtener diferentes duraciones de ambas y
poder comparar los resultados de identificación (LLR) como se
muestra en la Tabla IV. La zona de trabajo recomendada (en
grisado en dicha tabla), se la definió como en la que las
duraciones de las emisiones dubitada e indubitada producen
un LLR promedio igual al de la condición original. En el
ejemplo mostrado la zona de trabajo está limitada por
duraciones de la grabación dubitada mayores a 7 seg. La Tabla
V muestra la suma de las duraciones efectivas de las
grabaciones dubitada e indubitada, a la que denominaremos
duración total. Puede verse que además del mite anterior se
puede adicionar el de que la duración total sea superior o igual
a 32 seg. Con lo cual la ecuación de la zona de trabajo
recomendada puede aproximarse como:
  
   (1)
Donde defdub es la duración efectiva de la grabación dubitada y
defindub es la duración efectiva de la grabación indubitada.
Tabla IV Ejemplo del resultado de la identificación de
hablantes (LLR) para diferentes duraciones efectivas de la
grabación dubitada e indubitada de un caso particular. En
negrita la condición original y en grisado la zona de trabajo
recomendada donde el LLR promedio es igual al LLR
original.}
Tabla V Ejemplo de la duración efectiva total (suma de las
duraciones efectivas de las grabaciones dubitada e indubitada).
En grisado claro la zona de trabajo recomendada y en grisado
oscuro la zona de duración efectiva total promedio mayor o
igual a 32 seg.
Si se grafican todos los resultados (fig. 10) de los cotejos de
voz con diferentes duraciones totales, a medida que dicha
duración se incrementa el LLR se estabiliza en un valor que
tiende a permanecer constante a partir de los 50 seg. En dicho
gráfico también puede verse un grupo de datos que no
responden a esta conclusión: son los valores que se encuentra
fuera de la zona de trabajo recomendada.
Fig. 10. Ejemplo del resultado de una misma identificación de
hablantes (LLR) para diferentes duraciones totales de ambas
grabaciones (dubitada e indubitada).
2 7 10 17 23 29 36 41 46
4 6 11 14 21 27 33 40 45 50
7 9 14 17 24 30 36 43 48 53
10 12 17 20 27 33 39 46 51 56
12 14 19 22 29 35 41 48 53 58
21 23 28 31 38 44 50 57 62 67
26 28 33 36 43 49 55 62 67 72
32 34 39 42 49 55 61 68 73 78
40 42 47 50 57 63 69 76 81 86
47 49 54 57 64 70 76 83 88 93
53 55 60 63 70 76 82 89 94 99
Duración efectiva de la indubitada [seg]
Duración efectiva de la dubitada [seg]
©ResearchGate (2018)
Las grabaciones digitalizadas que son enviadas por el
juzgado para su cotejo se encuentran muchas veces alteradas
por el uso de formatos de audio con compresión con pérdidas
(lossy). Generalmente se envían en un formato de audio sin
pérdidas (loosless) “wav”, pero algunas veces se reciben en
formatos tales como “mp3” (se comprime la señal original
para que ocupe menor espacio) u “opus” (empleado en las
grabaciones de whatsapp). Para poder analizar su influencia se
realizó el cotejo entre una dubitada y una indubitada, ambas en
formato “wav” empleando el sistema de identificación de
hablantes FORENSIA. Luego se convirtió la grabación
indubitada al formato “mp3” y “opus” por medio del software
libre “online-convert.com”. Posteriormente se volvieron a
convertir dichas grabaciones al formato “wav” para realizar
sendos cotejos con FORENSIA y poder comparar los
resultados de las 3 identificaciones. El resultado (fig. 11) nos
muestra como la metodología ivector/PLDA minimiza el
efecto de los diferentes formatos de audio de las grabaciones.
Fig. 11. Ejemplo del resultado de una misma identificación de
hablantes (LLR) para diferentes formatos de audio.
VI. COMPARACIÓN CON EVALUACIÓN NIST-HASR
Para profundizar en la problemática particular del ámbito
forense, el Instituto Nacional de Estándares y Tecnología
(NIST) de los Estados Unidos de Norteamérica, en la
evaluación de sistemas de reconocimiento de hablantes de
2010 (SRE), incorporó una nueva evaluación diseñada para
comparar sistemas con intervención humana denominada
HASR (Human Assisted Speaker Recognition) (Greenberg et
al. 2011).
Si comparamos las características de las grabaciones
dubitadas e indubitadas reales, pertenecientes a la base de
datos empleada en este trabajo, con respecto a las de la
evaluación NIST-HASR (Tablas VI y VII) notamos que existen
algunas notables diferencias en las composiciones de los
corpus empleados. Para evaluar estas diferencias
consideraremos que una característica posee una diferencia
sustancial cuando la diferencia con respecto a la real es
superior al 30%. Las grabaciones indubitadas de NIST poseen
diferencias sustanciales con respecto a las reales en las
características de género, canal y tipo de habla. Las dubitadas
comparten estas diferencias pero se les adiciona la calidad y la
velocidad de habla. Puede verse que las características de las
grabaciones dubitadas reales poseen mayor velocidad de
habla, una mayor variabilidad de la frecuencia fundamental y
un grado de habla mayor influenciado por un tipo de habla
nervioso que no se encuentra presente en las evaluaciones de
NIST.
Tabla VI Características de las grabaciones indubitadas
reales y las de la evaluación NIST-HASR. Las marcas (X)
corresponden a diferencias porcentuales con respecto a la real
mayores al 30%.
Tabla VII Características de las grabaciones dubitadas
reales y las de la evaluación NIST-HASR. Las marcas (X)
corresponden a diferencias porcentuales con respecto a la real
mayores al 30%.
VII. CONCLUSIONES
En el presente trabajo se analizaron las características
lingüísticas, acústicas y de las señales de audio de las
grabaciones dubitadas e indubitadas que se presentan en los
cotejos forenses de voces en Argentina. No hemos encontrado
otros trabajos que propongan un enfoque similar.
El género mayoritario (84%) pertenece a voces de hombres,
mientras que siendo el micrófono el canal preponderante
Real HASR Diferencias
Hombres [%] 79% 40% X
Mujeres [%] 21% 60% X
Teléfono [%] 9% 0% X
Micrófono [%] 91% 100%
duración total [seg] 54 59
duración efectiva [seg] 33 36
dur. efectiva / dur. Real [%] 61% 61%
F0 hombres [Hz] 141 154
F0 mujeres [Hz] 205 201
Jitter [%] 2% 2%
Shimmer [%] 12% 13%
NHR [dB] 10.3 9.8
Grado [%/dB] 1% 2%
Diálogo espontáneo [%] 12% 100% X
Amenaza o diálogo nervioso [%] 2% 0% X
Declaración espontánea [%] 50% 0% X
Declaración habla leída [%] 36% 0% X
Velocidad de habla [1/seg] 3.72 3.43
Velocidad de articulación [1/seg] 4.49 4.59
ASD [seg] 0.23 0.22
Tipo de
habla
Calidad de
habla
Velocidad
Indubitada
Género
Canal
Duración
F0
Real HASR Diferencias
Hombres [%] 89% 40% X
Mujeres [%] 11% 60% X
Teléfono [%] 80% 100%
Micrófono [%] 20% 0% X
duración total [seg] 33 36
duración efectiva [seg] 22 17
dur. efectiva / dur. Real [%] 66% 49%
F0 hombres [Hz] 181 181
F0 mujeres [Hz] 241 241
Jitter [%] 2% 2% X
Shimmer [%] 14% 11%
NHR [dB] 9.0 11.2
Grado [%/dB] 2% 1% X
Diálogo espontáneo [%] 75% 100% X
Amenaza o diálogo nervioso [%] 22% 0% X
Declaración espontánea [%] 3% 0% X
Declaración habla leída [%] 0% 0%
Velocidad de habla [1/seg] 4.29 3.18 X
Velocidad de articulación [1/seg] 5.25 4.53
ASD [seg] 0.19 0.22
Tipo de
habla
Calidad de
habla
Velocidad
Dubitada Real
Género
Canal
Duración
F0
©ResearchGate (2018)
(91%) en las indubitadas, es el micrófono (80%) el de las
dubitadas. En promedio la duración efectiva es el 64% de la
duración total y la de las dubitadas es un 51% menor que la de
las indubitadas.
Otra característica particular, correspondiente con el tipo de
habla nerviosa o tensa de las grabaciones dubitadas, es el
incremento del F0 con respecto a las indubitadas, de un 29%
para los hombres y del 18% para las mujeres. Esta
particularidad se ve también reflejada en el incremento del
Shimmer (21%), del grado de la calidad de habla (34%) y la
velocidad de habla (15%).
El tipo de habla preponderante de las indubitadas es la
declaración espontánea (51%), aunque existe una proporción
importante de declaraciones que se realizan por medio de
habla leída (36%). En cambio, las dubitadas emplean
mayormente el habla espontánea (75%) y la amenaza y habla
nerviosa (25%).
El uso de un sistema automático de identificación de
hablantes que utiliza el enfoque ivector/PLDA permite lograr
resultados confiables con señales de audio con las
características de ruido y reverberación ambientales de los
casos forenses reales. También resultó ser suficientemente
inmune a los formatos de audio presentes en este tipo de
cotejos, al tipo de habla empleada, al género y a las
variaciones de la frecuencia fundamental en las grabaciones
dubitadas e indubitadas. Se recomienda analizar en la etapa de
pre-procesamiento las características del espectro para
solucionar posibles inconvenientes de digitalización. Se
determinó que la duración de las muestras no debe ser menor a
7 seg y que un valor óptimo es aquel en que la suma de la
duración de la dubitada y la indubitada es superior a 32 seg.
También se mostró como las características de las
grabaciones que forman parte de la evaluación internacional
de reconocimiento de hablantes NIST-HASR no tiene en
cuenta las características reales que se encuentran en los
cotejos forenses al momento de seleccionar los pares de
grabaciones empleados. Principalmente la proporción de
hombres y mujeres, la calidad y velocidad de habla, y el tipo
de habla nerviosa de las grabaciones dubitadas y la
incorporación de habla leída en las grabaciones indubitadas.
Esperamos que esta conclusión permita crear nuevas
evaluaciones internacionales de sistemas de identificación
forense que tengan en cuentan las características particulares
de este tipo de cotejos de voz.
REFERENCIAS
P. Boersma & D. Weenink, “Praat software (version 5.2.01 -
2005). Amsterdam: University of Amsterdam. Online:
http://www.fon.hum.uva.nl/praat. Consultado el 11 de noviembre
2012.
D. Corach, “Pautas y Recomendaciones para la Recepción,
Preservación y Devolución de Muestras Biológicas en el Marco de
una Investigación Judicial. Informe técnico. Programa Ciencia y
Justicia”. CONICET, 2018.
N. A. Drygajlo, M. Jessen, S. Gfroerer, I. Wagner, J. Vermeulen &
T. Niemi, “Methodological Guidelines for Best Practice in
Forensic Semiautomatic and Automatic Speaker Recognition”, in
European Network of Forensic Science Institutes, 2015.
D. García-Romero, X. Zhou & C. Y. Espy-Wilson,
“Multicondition training of Gaussian PLDA models in i-vector
space for noise and reverberation robust speaker recognition”, in
2012 IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), pp. 4257-4260, 2012.
M. Gascón Abellán, “Validez y valor de las pruebas científicas: la
prueba del ADN”. Versión html del archivo disponible en
http://www.uv.es/CEFD/15/gascon.pdf, 2007.
C. Greenberg, A. Martin, L. Brandschain, J. P. Campbell, C. Cieri,
G. R. Doddington & J. Godfrey, “Human assisted speaker
recognition in NIST SRE10”. Submitted to special session on
Human Assisted Speaker Recognition, Proceedings of IEEE
ICASSP, Praga, 2011.
J. A. Gurlekian, P. Univaso & M. Martínez Soler, “Protocolo para
pericias forenses de voz”. Research Gate, DOI:
10.13140/RG.2.2.22133.88801, 2018.
J. H. Hansen & T. Hasan, “Speaker Recognition by Machines and
Humans: A tutorial review”. Signal Processing Magazine, IEEE,
32, 6, pp. 74-99, 2015.
R. G. Hautamäki, V. Hautamäki, P. Rajan & T. Kinnunen,
“Merging human and automatic system decisions to improve
speaker recognition performance”. In INTERSPEECH, pp. 2519-
2523, 2013.
H. Hollien, “Forensic voice identification”. Academic Press, 2002.
N. H. de Jong & T. Wempe, “Praat script to detect syllable nuclei
and measure speech rate automatically”. Behavior Research
Methods 41(2):385390, 2009.
M. I. Mandasari, R. Saeidi & D. A. van Leeuwen, “Quality
measures based calibration with duration and noise dependency
for speaker recognition”. Speech Communication, 72, 126-137,
2015.
M. Martínez Soler, P. Univaso & J. Gurlekian, “FORENSIA-
Technical Specifications”, Research Gate, DOI
10.13140/RG.2.2.36718.92488, 2018.
P. Rose, “Forensic Speaker Identification”, London, Taylor &
Francis, 2002.
E. San Segundo & J. A. Mompean, “A simplified vocal profile
analysis protocol for the assessment of voice quality and speaker
similarity”. Journal of Voice, 31(5), 644-e11, 2017.
A. D. Team, “Audacity (version 2.1.2)[computer software]”.
Disponible: audacity.sourceforge net/download, 2008.
R. Teruel az, “Filosofía y comunicación”. Historia y
Comunicación Social, 19, 365, 2014.
Zhou, Z. H. “Ensemble methods: foundations and algorithms”.
Chapman and Hall/CRC, 2012.
Pedro Univaso nació en Buenos Aires, Argentina, el 4 de
marzo de 1959. Se graduó en la Facultad de Ingeniería de la
Universidad de Buenos Aires (UBA) como Ingeniero
Electromecánico orientación Electrónica y es candidato al
doctorado por la misma universidad. Es socio fundador de
BlackVOX, empresa de base tecnológica incubada en el Laboratorio de
Investigaciones Sensoriales (LIS), perteneciente al Consejo Nacional de
©ResearchGate (2018)
Investigaciones Científicas y Técnicas (CONICET) y a la UBA, de la cual es
Investigador Invitado. Sus temas de investigación son el reconocimiento
automático de habla y hablantes, la identificación de hablantes en el ámbito
forense y la minería de datos.
Jorge A. Gurlekian nació en la ciudad de Buenos Aires, el 13
de Septiembre de 1949. Se graduó en la Universidad
Tecnológica Nacional, Regional Buenos Aires como Ingeniero
Electrónico y obtuvo su Doctorado en la Facultad de Medicina
de la UBA en el tema de la evaluación de la inteligibilidad en
la producción y percepción del habla. Es investigador
principal del CONICET y director del Laboratorio de Investigaciones
Sensoriales, perteneciente al INIGEM- CONICET y la UBA en el Hospital de
Clínicas J. de San Martín. Su interés es la investigación en la comunicación
verbal y su aplicación en el desarrollo de las tecnologías de habla en sistemas
de comunicación hombre-máquina.
Thesis
Full-text available
Some of the most popular applications of speaker recognition are: financial, forensic and legal, security, audio and video indexing, surveillance, teleconferencing, and e-learning. This work focuses on forensic applications, and seeks to improve automatic speaker recognition systems by incorporating distinctive long-term features to actual short-term information. We can summarize the overall objective of this thesis as the "incorporation of long-term information to an automatic speaker recognition system based on standard segmental parameters to be used in forensic applications." The proposed hypothesis suggests that if you manage to find segmental characteristics of higher order and suprasegmental features that are useful for people discrimination, the multiparametric system will perform better in the recognition task, since it will have more information about the speaker. The main sources for the determination of these features will neuroscience and linguistics, considering that valuable knowledge can be extracted from the analysis of the innate ability of humans to recognize people by their voice.
Conference Paper
Full-text available
Human judgment is the final authority in forensic speaker recognition, but the use of modern speaker verification systems with accurate algorithms to perform the task under various circumstances has a huge potential to help the expert. The ultimate goal is to improve the accuracy of automatic systems when challenging data is provided and find a methodology for human-aided speaker recognition systems. This work presents an evaluation of speaker recognition carried out by human listeners and a gender dependent i-vector recognizer with a strategy for fusion of the decision process. Our experiments with HASR 2010 and HASR 2012 data indicate complementarity in the performance of the automatic system and the na¨ıvena¨ıve listeners decisions.
Data
Full-text available
This forensic speaker identification system was presented for the Speakers in the Wild (SITW) speaker recognition challenge 2016, hosted by SRI International and verified with data from NIST HASR 2012 evaluation.
Article
Full-text available
Objectives: A simplified perceptual protocol for the assessment of voice quality (VQ) is attempted based on the Vocal Profile Analysis (VPA) scheme, with the aim of alleviating typical issues associated with the multidimensionality of VQ and enabling an easy quantification of speaker similarity. Study design: Twenty-four non-pathological male speakers (12 monozygotic twin pairs) of Standard Peninsular Spanish were perceptually evaluated by two trained phoneticians using the simplified VPA (SVPA). Based on their perceptual ratings, intra- and inter-rater agreement was measured, and an index of speaker similarity was calculated not only between twin pairs but also between non-twin pairs. For that purpose, one member of each twin pair was compared with a member of a different twin pair. Methods: Intra- and inter-rater agreement measures were tested with unweighted and linear weighted kappa. Speaker similarity was measured with simple matching coefficients (SMC). Results: The results show that analysts' internal consistency was very high, whereas inter-rater agreement was found to be strongly setting-dependent. SMCs between speakers indicate that twin pairs are, on average, more similar than non-twin pairs. Conclusions: Agreement results suggest that the proposed SVPA is a reliable protocol for the perceptual characterization of VQ, and SMC results confirm that it can also be a useful tool for the assessment of speaker (dis)similarity. The extraction of a voice quality similarity index shows potential in fields like forensic phonetics, but could also be of interest in related areas of voice research and professional practice.
Article
Full-text available
Identifying a person by his or her voice is an important human trait most take for granted in natural human-to-human interaction/communication. Speaking to someone over the telephone usually begins by identifying who is speaking and, at least in cases of familiar speakers, a subjective verification by the listener that the identity is correct and the conversation can proceed. Automatic speaker-recognition systems have emerged as an important means of verifying identity in many e-commerce applications as well as in general business interactions, forensics, and law enforcement. Human experts trained in forensic speaker recognition can perform this task even better by examining a set of acoustic, prosodic, and linguistic characteristics of speech in a general approach referred to as structured listening. Techniques in forensic speaker recognition have been developed for many years by forensic speech scientists and linguists to help reduce any potential bias or preconceived understanding as to the validity of an unknown audio sample and a reference template from a potential suspect. Experienced researchers in signal processing and machine learning continue to develop automatic algorithms to effectively perform speaker recognition?with ever-improving performance?to the point where automatic systems start to perform on par with human listeners. In this article, we review the literature on speaker recognition by machines and humans, with an emphasis on prominent speaker-modeling techniques that have emerged in the last decade for automatic systems. We discuss different aspects of automatic systems, including voice-activity detection (VAD), features, speaker models, standard evaluation data sets, and performance metrics. Human speaker recognition is discussed in two parts?the first part involves forensic speaker-recognition methods, and the second illustrates how a na?ve listener performs this task from a neuroscience perspective. We conclude this review with a comparative- study of human versus machine speaker recognition and attempt to point out strengths and weaknesses of each.
Article
Full-text available
ABSTRACT A new method for doing text-independent speaker identification geared to forensic situations is presented. By analysing'isolexemic'sequences, the method addresses the issues of very short criminal exemplars and the need for open-set identifi-cation. An algorithm is given that computes an average spectral shape of the speech to be analysed for each glottal pulse period. Each such spectrum is converted to a proba-bility density function and the first moment (i. e. the mean) and the second moment about the mean (i. e. the variance) are computed. Sequences of moment values are used as the basis for extracting variables that discriminate among speakers. Ten variables are presented all of which have sufficiently high inter-to intraspeaker variation to be effective discriminators. A case study comprising a ten-speaker database, and ten unknown speakers, is presented. A discriminant analysis is performed and the statistical measurements that result suggest that the method is potentially effective. The report represents work in progress.
Article
El presente artículo pretende presentar los resultados del diseño e implementación de un proyecto de innovación educativa para la enseñanza y evaluación de habilidades de comunicación en público en Filosofía, llevado a cabo en el marco de la Facultad de Filosofía de la Universidad de Murcia durante el primer cuatrimestre del curso 2012 / 2013. Para ello, comenzará exponiendo una breve justificación del proyecto para, a continuación articular el fundamento teórico del diseño y evaluación y, finalmente, mostrar el diseño concreto del proyecto.
Article
This paper studies the effect of short utterances and noise on the performance of automatic speaker recognition. We focus on calibration aspects, and propose a calibration strategy that uses quality measures to model the calibration parameters. We carry out the proposed calibration by using simple Quality Measure Functions (QMFs) of duration and measured signal-to-noise-ratio from speech segments. We test the effectiveness of the approach using two databases, the development set of the I4U collaboration for the NIST Speaker Recognition Evaluation (SRE) 2012, and the evaluation test material of NIST SRE 2012 itself. In comparison with conventional linear calibration, results show that the proposed QMF approach successfully improves the system performance in terms of both discrimination and calibration.
Conference Paper
We present a multicondition training strategy for Gaussian Probabilistic Linear Discriminant Analysis (PLDA) modeling of i-vector representations of speech utterances. The proposed approach uses a multicondition set to train a collection of individual subsystems that are tuned to specific conditions. A final verification score is obtained by combining the individual scores according to the posterior probability of each condition given the trial at hand. The performance of our approach is demonstrated on a subset of the interview data of NIST SRE 2010. Significant robustness to the adverse noise and reverberation conditions included in the multicondition training set are obtained. The system is also shown to generalize to unseen conditions.