Content uploaded by Jaume Masip
Author content
All content in this area was uploaded by Jaume Masip on Feb 29, 2016
Content may be subject to copyright.
La detección de la mentira mediante la
medida de la tensión en la voz: una
revisión crítica
JAUME MASIP
, EUGENIO GARRIDO Y CARMEN HERRERO
Universidad de Salamanca
Resumen
Los analizadores de la tensión vocal son dispositivos que supuestamente detectan la ausencia de ciertos
microtemblores en la voz, lo que sería indicativo de que el sujeto está experimentando tensión. Desde esta pers-
pectiva se asume además que todo mentiroso está tenso, por lo que los analizadores de la tensión vocal se comer-
cializan como detectores de mentiras. En este trabajo presentamos la historia de tales artilugios y la base teóri-
ca sobre la que pretenden apoyarse, para pasar a continuación a examinar la investigación empírica realiza-
da para contestar a cuatro preguntas clave: (a) ¿existen características vocales que se alteran cuando el
hablante experimenta tensión?, (b) ¿existen características vocales que se alteran cuando el hablante miente?,
(c) ¿detectan la tensión los evaluadores del estrés vocal?, y (d) ¿detectan la mentira? La respuesta que la
investigación ha dado a estas preguntas cuestiona seriamente el empleo de los analizadores de la tensión vocal
como detectores de mentiras.
Palabras clave: Análisis de la voz, mentira, engaño, detección, credibilidad, PSE, Mark II, CVSA,
estrés, polígrafo.
The detection of deception using voice
stress analysers: A critical review
Abstract
Voice stress analysers are devices that are supposed to detect the absence of certain micro-tremors in the voice,
which would indicate that the speaker is experiencing stress. From this standpoint, it is also assumed that stress
always accompanies lying. Therefore, voice stress analysers are marketed as lie detectors. The history of these
devices, as well as their theoretical basis, are briefly described in the paper. Empirical research is then examined
in order to answer four central questions: (a) Are there vocal characteristics that change when the speaker expe-
riences stress?, (b) Are there vocal characteristics that change when the speaker lies?, (c) Do voice stress analy-
sers measure stress?, and (d) Do they detect lies? The answers to these questions provided by current research
raises serious concerns on the usage of voice stress analysers as lie detectors.
Keywords: Voice analysis, lie, deceit, deception, detection, credibility, PSE, Mark II, CVSA, stress,
polygraph.
Agradecimientos: La elaboración de este artículo ha sido posible gracias a la financiación recibida del Ministerio
de Ciencia y Tecnología, Dirección General de Investigación, Ref. BSO2001-1006.
Correspondencia con los autores: Jaume Masip. Departamento de Psicología Social y Antropología, Universidad de
Salamanca, Facultad de Psicología, Avda. de la Merced, 109-131, 37005 Salamanca. E-mail: jmasip@usal.es
Original recibido:Noviembre, 2002.
Aceptado: Noviembre, 2003.
© 2004 by Fundación Infancia y Aprendizaje, ISSN: 0210-9395 Estudios de Psicología, 2004, 25 (1), 13-30
INTRODUCCIÓN
La detección de la mentira constituye hoy una importante área de la psicolo-
gía aplicada. Los procedimientos orientados a tal fin se agrupan en tres grandes
conjuntos (Alonso-Quecuty, 1994; Masip y Garrido, 2000; Vrij, 2000; Vrij,
Edward y Bull, 2001): Una orientación predominantemente evaluativo-forense
centrada en el análisis del contenido verbal de la declaración del testigo, que
engloba procedimientos tales como el Análisis de Contenido Basado en Criterios
(Criteria-Based Content Analysis o CBCA) (por ej., Garrido y Masip, 2001; Man-
zanero, 2001; Masip, Garrido y Herrero, 2003; Porter y Yuille, 1995; Raskin y
Esplin, 1991; Ruby y Brigham, 1997; Steller y Köhnken, 1989; Vrij, 2000;
Yuille, 1989), y el Control de la Realidad de los recuerdos (por ej., Alonso-Que-
cuty, 1990; Alonso-Quecuty y Hernández-Fernaud, 1997; Masip y Garrido,
2003; Masip, Sporer, Garrido y Herrero, en prensa; Porter y Yuille, 1995; Vrij,
2000), otra orientación de corte más bien psicosocial que pretende identificar el
engaño sobre la base de la conducta del emisor de la comunicación (Decaire,
2000; DePaulo, Stone y Lassiter, 1985; Ekman, 2001; Masip y Garrido, 2000;
Masip, Garrido y Herrero, 2002; Miller y Stiff, 1993; Vrij, 2000; Zuckerman,
DePaulo y Rosenthal, 1981), y la popular orientación psicofisiológica, que parte
de la medición, registro y análisis de la activación del sujeto como vía para eva-
luar su credibilidad (ver Lykken, 1998, para una revisión).
Dentro de esta tercera aproximación destaca el polígrafo, a menudo denomi-
nado “detector de mentiras” (por ej., Gale, 1988; Kleiner, 2002; Lykken, 1998),
pero existen no obstante otros artilugios que, partiendo de principios similares y
empleando procedimientos parecidos, se utilizan también para la detección de la
mentira. Entre ellos se cuentan los evaluadores del estrés o tensión vocal, a los
cuales dedicamos el presente trabajo. Tales mecanismos pretenden medir la ten-
sión que, supuestamente, experimenta el mentiroso y que se transmitiría a su
voz. En las páginas que siguen se describe la historia de los analizadores de la
tensión vocal y se presenta brevemente la teoría en que pretenden sustentarse,
para pasar a continuación a una revisión de la investigación empírica realizada.
Dicha revisión se ha organizado de un modo que resulta relevante de cara tanto a
la base teórica como a la validez de los analizadores de la tensión vocal. Más con-
cretamente, hemos elaborado nuestro trabajo en torno a las respuestas a las
siguientes preguntas: Primero, ¿existen características vocales que cambian
cuando la persona experimenta tensión?; segundo: ¿existen características voca-
les que cambian cuando la persona miente?; tercero: ¿detectan la tensión los eva-
luadores del estrés vocal?; y cuarto: ¿detectan la mentira? El artículo se cierra con
unas conclusiones basadas en las respuestas dadas por la investigación a estas cua-
tro preguntas. Pasemos a desarrollar todos estos aspectos.
UN POCO DE HISTORIA
En la película “Delicatessen” aparece un pequeño aparato, no mucho mayor
que un paquete de cigarrillos, al que denominan “detector de tonterías”. Si está
conectado, detecta cualquier tontería dicha por quienquiera de los presentes,
emitiendo entonces un extraño sonido acompañado del movimiento rotatorio de
una pieza de metal que sobresale de su parte superior. Sin duda, militares, policí-
as, abogados y empresarios sueñan con un aparato que, con esa misma facilidad,
permita identificar a cualquier interlocutor mendaz. Ambos artilugios resultan
similarmente implausibles, pero mientras el primero es producto de la desbor-
dante imaginación de tres guionistas de cine franceses, el segundo se encuentra
accesible en el mercado. Se llama VSA-15 y pretende ser un detector de mentiras
Estudios de Psicología, 2004, 25 (1), pp. 13-30
14
basado en la medición del estrés vocal que supuestamente todo hablante experi-
menta al mentir. Mide 23.5 cm x 13 cm x 4.3 cm. “En los negocios o en las reu-
niones personales, el VSA-15 puede ayudarle a determinar si sus empleados le
están robando, si sus socios le están engañando, y si sus amigos son realmente sus
amigos”, reza una página web comercial del aparato (Spyzone, sin fechar, ¶ 5).
La cuestión es si en realidad funciona adecuadamente o no.
Aunque el VSA-15 es un supuesto analizador de la tensión vocal (VSA es el
acrónimo de “Voice Stress Analyzer”) y, por extensión, supuesto detector de menti-
ras de última generación, la mítica de tales artilugios se remonta a finales de los
años 60. Lykken (1998) cuenta que durante aquella década el ejército norteame-
ricano financió varios proyectos de investigación para desarrollar métodos tecno-
lógicos de detección del engaño que pudieran funcionar sin el conocimiento del
sujeto examinado. Algunos de aquellos frustrados intentos consistieron en una
silla especial que registraba subrepticiamente los movimientos del sospechoso al
ser interrogado, y un ingenioso sistema de infrarrojos que, desde gran distancia y
con sorprendente precisión, podía registrar el ritmo de inspiraciones y expiracio-
nes del sujeto debido al enfriamiento o calentamiento de su labio superior, al
cual apuntaba el artilugio (la utilidad de este último dispositivo para la detec-
ción del engaño es un enigma no sólo para nosotros, sino también para Lykken
[1998], quien tuvo la oportunidad de experimentar con él en su laboratorio por
aquel entonces).
Fueron no obstante tres militares retirados quienes, por aquella época, dieron
con la supuesta clave para detectar el engaño de forma oculta y crearon una
empresa dedicada a ello. Se trataba de los oficiales Allan Bell, experto en con-
trainteligencia, Charles McQuiston, poligrafista del ejército, y William Ford,
especialista en electrónica. Su idea consistía en buscar el engaño en la voz del
sujeto (ver Lykken, 1998; National Institute for Truth Verification, sin fechar b).
La teoría –que hay quien dice que llegó a posteriori, por ej., Lykken (1998)– la
encontramos en el artículo “Physiological tremor” que Lippold, un fisiólogo britá-
nico, publicaría en Scientific American en 1971. Partiendo de los hallazgos previos
de Martin Halliday y Joe Redfearn, Lippold exponía que los músculos del brazo,
cuando estaban en reposo, generaban un microtemblor fisiológico de unos 10
Hz (10 ciclos por segundo); cuando el sujeto se estimulaba o se activaba, tales
microtemblores desaparecían. Los proponentes de los sistemas de análisis vocal
de la tensión asumen que los músculos de la garganta y la laringe presentan tam-
bién tales microtemblores, que se transmitirían a la voz, siendo inaudibles pero
detectables por medio de determinados dispositivos electrónicos de medición.
De modo que cuando el sujeto estuviera relajado, habría evidencia vocal de la
existencia de tales microtemblores, y a medida que se fuera activando estos irían
desapareciendo. Como veremos en breve, la investigación realizada posterior-
mente cuestiona estos planteamientos (Inbar y Eden, 1976, citado en Lykken,
1998; Shipp e Izdebski, 1981).
En cualquier caso, Ford inventó un artilugio eléctrico que generaba unos grá-
ficos que supuestamente mostrarían, a ojos de un evaluador capacitado, la pre-
sencia o ausencia de los microtemblores asociados respectivamente con la ausen-
cia o presencia de tensión (ver Figura 1). En 1970 se unió con Bell y McQuiston
para fundar la empresa Dektor Counterintelligence and Security, y ésta pronto empe-
zó a producir y comercializar la invención de Ford, bautizada con el nombre de
PSE o Psychological Stress Evaluator que, partiendo de la simplista asociación entre
tensión y mentira, se presentaba como un detector de mentiras. Aunque al prin-
cipio Dektor pretendía ser una empresa de seguridad, el gran éxito del PSE centró
15
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
sus actividades exclusivamente en este aparato (National Institute for Truth
Verification, sin fechar b).
En un mensaje de correo electrónico enviado a la lista de correo Cyberpunk
HyperArchive, alguien llamado Vin McLellan (1996) comenta que parte de la
popularidad del PSE se debió a la ayuda prestada por Bell y su aparato a la poli-
cía italiana durante la investigación del secuestro, por parte de las Brigadas
Rojas, del general norteamericano James Dozier en 1982. Los rumores cuentan
que la contribución de Bell y su PSE al feliz desenlace del secuestro (Dozier fue
rescatado por la policía italiana a las cinco semanas de su desaparició n) fue
importante. En opinión de McLellan (1996) “la leyenda que vino de Italia fue
sin duda un factor relevante en el éxito subsiguiente de Dektor al vender el PSE
de 5000 dólares al mercado empresarial y de seguridad” (¶ 6). Este mismo
comunicante, que parece haber conocido al propio Bell en persona, comenta que
éste se tomaba el éxito del PSE un tanto en broma, y que era consciente de que el
aparato “ofrecía tan sólo una limitada utilidad para separar a los mentirosos de
otros [individuos] de varios tipos que pudieran experimentar estrés o tensión al
enfrentarse a un interrogatorio o entrevista” (¶ 7).
Sean ciertas o no las afirmaciones de ese desconocido McLellan, lo cierto es
que Dektor vendió un gran número de aparatos durante la época. Su popularidad
se vio reflejada en una profusión de trabajos científicos para evaluar su validez
que fueron publicados durante los años 70 y 80 y que revisaremos en breve. En
1975 se formó la International Society of Stress Analysts, en el seno de la cual apare-
ce Diogenes, una compañía que, ante el descontento existente con el entrenamien-
to de tres días que Dektor ofrecía a sus compradores para el manejo del aparato,
anunció que iba a abrir una escuela de formación para tal fin (National Institute
of Truth Verification, sin fechar b). Las escuelas empezaron a proliferar y, según
el National Institute of Truth Verification (sin fechar b), la inexperiencia de
quienes en ellas enseñaban generó cierto descrédito en torno al análisis del estrés
vocal. También fue por esa época que otros empresarios advirtieron el potencial
del mercado de la detección del engaño mediante el análisis del estrés vocal, con
lo que se empezaron a fabricar y a comercializar una serie de “detectores de men-
tiras” basados en el análisis de la voz: el Mark I, el Mark II, el Mark V y el Verime-
trics. Más tarde apareció en el mercado el Hagot, y luego el Truth Phone (instalado
en un teléfono), el Truth Machine Professional 12 LED, el VSA-Mark 1000, el
Estudios de Psicología, 2004, 25 (1), pp. 13-30
16
FIGURA 1
Gráficos típicos de una vocalización verdadera y otra falsa. Los microtemblores de la primera estarí-
an ausentes de la segunda
(Tomado de Computer Voice Stress Analysis – Example Patterns [sin fechar], reproducido con
permiso)
Verdad Mentira
arriba citado VSA-15, la moderna versión del PSE denominada PSE-2000, el
Lantern de Diogenes Company (que sustituiría al Verimetrics), el Truster, y el conoci-
do CVSA (Computer Voice Stress Analyzer) que desde 1988 fabrica y comercializa el
National Institute of Truth Verification (por ej., Clede, 1998; Lykken, 1998; Natio-
nal Institute of Truth Verification, sin fechar b). Mientras algunos instrumentos,
en general los más antiguos, registran la información en forma de gráficos pare-
cidos a los del polígrafo, otros (como por ejemplo el Mark II o el VSA-15) ofre-
cen una estimación numérica para así –según el fabricante– evitar los errores en
el juicio debidos a la decisión humana de los examinadores, y otros (como el
Hagot, la Truth Machine Professional 12 LED, etcétera) convierten el proceso en un
juego de niños al expresar la decisión final sobre si el hablante miente o dice la
verdad en forma luminosa: si la luz que se enciende es verde entonces el sujeto es
veraz, si es roja es que miente. Una página web comercial dice lo siguiente sobre
la Truth Machine Professional 12 LED: “La Truth Machine mide con precisión nive-
les cambiantes de estrés en la voz, pero como la voz de cada persona reacciona de
modo distinto no es infalible: sin embargo, ¡que se encienda el LED rojo, alto
estrés, es indicativo de mentira!” (Truth Machine Executive 12 LED, sin fechar,
¶ 6)1. Otros fabricantes aparentemente más serios incluyen un ordenador portá-
til para procesar las señales (caso, por ejemplo, de la moderna versión del Compu-
ter Voice Stress Analyzer).
Obviamente, todo investigador riguroso no puede sino sentir cierto escepti-
cismo ante tales artilugios y las espectaculares afirmaciones de sus fabricantes.
Está claro que si los analizadores del estrés vocal funcionaran adecuadamente (es
decir, si detectaran estrés y si, sobre todo, detectaran mentiras) su aportación al
área de la detección del engaño sería muy valiosa. Por ejemplo, entre las ventajas
que sus fabricantes señalan frente a la tradicional técnica poligráfica (ver por ej.,
Hamilton [2000], que ensalza el CVSA) se cuentan: el poder tomar los datos sin
que el sujeto lo advierta, poder ser utilizado con cintas grabadas, con lo que se
dice en televisión (imaginemos las retransmisiones durante una campaña electo-
ral), hacer investigación histórica (por ej., Lykken, 1998, habla de que alguien
“demostró” –las comillas son suyas– con el empleo de un analizador vocal que
Lee Harvey Oswald no mentía al negar haber asesinado a Kennedy), el poco
coste del aparato y lo sencillo del entrenamiento (en comparación con el polígra-
fo), etcétera. Sin embargo, a menudo esos artilugios parecen proceder más bien
de empresas privadas ávidas de ingresos que de la investigación básica realizada
en laboratorios de electrónica, fisiología y psicofisiología, como ejemplifica la
cínica respuesta que Richard H. Bennet Jr., presidente de la Hagot Corporation,
ofreció cuando se le pidió evidencia de que su máquina funcionaba: “Le mostraré
a usted mi cuenta bancaria” (en Lykken, 1998, p. 171). De hecho, en aquellos
casos en que se ha realizado investigación en torno a estos dispositivos, ésta se ha
desarrollado después de que los mismos ya estuvieran comercializándose. Y con
resultados bastante negativos sobre su utilidad para medir la tensión y, sobre
todo, el engaño. Veamos estas investigaciones.
INVESTIGACIÓN EMPÍRICA
Lykken (1998) diferencia dos preguntas que hay que contestar a la hora de exa-
minar la validez de los evaluadores del estrés vocal como detectores de mentiras:
Primero, ¿pueden detectar estrés?; segundo, ¿pueden detectar mentiras? Si bien
la segunda cuestión se apoya sobre la primera –ya que si no miden estrés tampoco
podrán medir la tensión que, se supone, se sentirá al mentir–, también es cierto
que ambas reposan sobre una pregunta más fundamental: ¿existen características
vocales que cambian cuando la persona experimenta tensión o cuando miente?
17
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
Empezaremos examinando la respuesta que la investigación ha dado a esta última
pregunta, que a efectos de claridad expositiva desglosaremos en dos.
¿Existen características vocales que cambian cuando la persona
experimenta tensión?
En 1976, Inbar y Eden (citado en Lykken, 1998), ingenieros electrónicos,
publicaron un artículo en Biological Cybernetics en que informaban de que,
mediante el empleo del PSE, habían encontrado frecuencias de entre 10 y 20
Hz en las voces de cinco sujetos. También indicaban que habían registrado
eléctricamente, por medio de un electromiógrafo, indicaciones de temblores
fisiológicos en los músculos de la garganta de los mismos. No obstante, la
correlación entre las frecuencias vocales y los temblores musculares fue muy
marginal (Lykken, 1998). Años más tarde, Shipp e Izdebski (1981) no logra-
ron siquiera encontrar evidencia de microtemblores en la actividad eléctrica de
los músculos de la laringe.
¿Existen características vocales que cambian cuando la persona miente?
Algunos autores han hecho uso de sofisticados procedimientos de análisis
espectral y de análisis del tono para determinar si realmente hay características
vocales que cambian al mentir. Resumimos aquí tales trabajos.
Cestaro y Dollins (1994), dos investigadores del DoDPI (Department of
Defense Polygraph Institute, instituto poligráfico del ejército de los Estados
Unidos de América), partieron de la evidencia de que el tono de la voz y la
energía espectral varían según la activación emocional, y quisieron ver si,
consecuentemente, también se veían afectados por el acto de mentir. Se
tomaron medidas de la voz de un grupo de sujetos que tuvo que mentir
cuando se les preguntó si habían completado cierto anagrama, así como de
otro grupo que dijo la verdad. Estas medidas se analizarían posteriormente
con software para la descomposición del espectro vocal y para el análisis del
tono. Además, en ambos casos se tomaron también medidas electrodérmi-
cas, respiratorias y cardíacas con un polígrafo tradicional. Los resultados de
este estudio no mostraron ninguna relación entre los patrones de energía
espectral y el engaño, ni tampoco entre las variaciones tonales y el engaño.
La detección de la mentira a partir de los patrones del tono no difirió signifi-
cativamente de los niveles de azar, y la precisión global del polígrafo (basada
en los registros galvánicos, respiratorios y cardíacos) sí que superó el nivel de
azar y fue también significativamente mayor que la obtenida con la medida
del tono de la voz.
Suzuki, Watanabe, Taheno, Kosugi y Kasuya (1973) compararon las respues-
tas veraces de tres sujetos confirmados como culpables de acciones criminales
con sus respuestas falsas. No podemos decir que ésta fuera una muestra ni muy
numerosa ni muy representativa, pero ni el tono de la voz ni su intensidad varia-
ron entre las respuestas verdaderas y las falsas, y la clasificación efectuada en fun-
ción de tales parámetros estuvo por debajo del nivel de azar. La duración de las
vocalizaciones fue algo mayor al mentir, pero esta diferencia no fue estadística-
mente significativa, y además la precisión de las clasificaciones basadas en esta
variable tampoco superó lo esperado por azar.
Vemos pues que incluso la existencia de los microtemblores vocales está en
entredicho, y que las características de la voz que se han estudiado en los trabajos
de psicofisiología no han permitido discriminar entre declaraciones verdaderas y
falsas. Por lo tanto difícilmente podremos encontrar estudios que muestren que
Estudios de Psicología, 2004, 25 (1), pp. 13-30
18
los evaluadores del estrés vocal puedan detectar tal estrés, y mucho menos el
engaño. Pero examinemos esta investigación.
¿Detectan el estrés los evaluadores del estrés vocal?
Sin duda el aparato más estudiado ha sido el PSE. Su popularidad, así como el
hecho de haber sido el primero, puede haberle hecho merecedor del interés de los
científicos intrigados sobre su posible utilidad. También el Mark II Voice Stress
Analyzer ha sido objeto de investigación, aunque en menor medida que el PSE.
Más recientemente, el CVSA ha sido estudiado en algunos experimentos lleva-
dos a cabo en Estados Unidos por investigadores del DoDPI.
Psychological Stress Evaluator (PSE)
El único trabajo que ofrece resultados claramente favorables sobre la utilidad
del PSE para detectar el estrés vocal es el de Brenner, Branscomb y Schwartz
(1979, Experimento 2). Los autores emplearon una tarea de cálculo matemático
mental de dificultad variada para generar diferentes niveles de estrés en sus par-
ticipantes, y registraron la tensión vocal con el PSE. Los resultados muestran que
ésta: (a) fue mayor cuando la dificultad de la tarea era elevada, (b) se relacionaba
con el porcentaje de errores cometidos, y (c) se relacionaba con el nerviosismo
autoinformado. Además, la relación entre la dificultad de la tarea y los valores
obtenidos con el PSE se encontró no sólo para toda la muestra, sino también a
nivel individual en 15 de los 16 sujetos.
Existe un conjunto de trabajos cuyos resultados son, a lo sumo, sólo mediana-
mente favorables, sugiriendo que la capacidad del PSE para medir el estrés resul-
ta limitada. Así, Brenner (1974, citado en Lykken, 1998) calculó las correlacio-
nes entre los registros del PSE obtenidos con las lecturas públicas de una serie de
sujetos y el miedo a actuar en público (según las evaluaciones de los propios suje-
tos). La correlación hallada fue tan sólo de .32, aunque a mayor audiencia mayo-
res fueron los registros del PSE. Smith (1977, citado por Lykken, 1998) pudo
hallar registros elevados de estrés en las voces de 6 personas de las 13 examinadas
que llamaron a un programa radiofónico, en 7 de 8 pacientes fóbicos que tuvie-
ron que contar en voz alta ante un micrófono, y en 10 de 25 no-fóbicos que
tuvieron que realizar la misma tarea. Finalmente, en un interesante estudio de
campo, Gunn y Gudjonsson (1988) emplearon el PSE para medir el grado de
estrés en la voz grabada del portavoz de un grupo terrorista que tomó durante
varios días a un conjunto de rehenes. Los autores hicieron un esfuerzo para
emplear un sistema de análisis de los gráficos que fuera cuantitativo. Los niveles
de estrés de la voz del terrorista no fueron diferentes en situaciones consideradas
potencialmente tensas y otras menos tensas de los primeros cuatro días del
secuestro. El quinto día los terroristas dispararon a uno de los rehenes. Los valo-
res medios de estrés vocal durante la hora previa a este asesinato fueron mayores
que la media obtenida del análisis de las conversaciones de los cuatro primeros
días, y también mayores que el estrés vocal medido poco después de la ejecución
del rehén. Además se tomaron medidas del estrés vocal del portavoz terrorista
una hora, dos o tres minutos, y un minuto antes de disparar al rehén. Aunque se
percibe un incremento en estrés vocal, Gunn y Gudjonsson (1988) no indican si
éste fue significativo.
El resto de estudios de los que tenemos noticia ofrecen resultados indicativos
de que la utilidad del PSE para medir el estrés es nula. El más antiguo de tales
estudios es el de Lynch y Henry (1979). Sus 43 sujetos emisores tuvieron que
decir diez palabras tabú (tacos) y diez palabras neutras. Se les grabó y sus voces se
19
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
analizaron con el PSE. Además los emisores evaluaron cada palabra-estímulo en
una escala agradable-desagradable. Dos evaluadores entrenados y 10 no-entrena-
dos tuvieron que decidir, en función de los registros del PSE, si cada palabra
dicha era una palabra tabú o neutra. Los resultados muestran que, aunque los
sujetos evaluaron las palabras tabú como más desagradables que las neutrales, ni
los evaluadores legos ni tampoco los expertos fueron capaces de diferenciar unas
de otras.
Unos años más tarde, Leith y Timmons (1983) grabaron a cuatro tartamudos
y cuatro no-tartamudos mientras hacían unas llamadas telefónicas. Analizaron
sus voces con el PSE y, aunque observaron que las medidas de estrés se reducían
de la primera a la cuarta llamada, no pudieron encontrar diferencias entre un
grupo y otro. Finalmente, Waln y Downey (1987) quisieron comprobar si era
cierto que, tal como señalaba el fabricante, el PSE se podía emplear con conversa-
ciones telefónicas. Cogieron 15 entrevistas de selección de personal y las analiza-
ron con el PSE, luego las transmitieron por teléfono e hicieron lo propio. Cuatro
examinadores evaluaron todos los registros. Los resultados indican que los gráfi-
cos correspondientes a las transmisiones telefónicas mostraron un menor grado
de estrés que los otros, especialmente en lo concerniente a las preguntas más rele-
vantes (es decir, las que aludían a aspectos más comprometidos). La correlación
entre los registros telefónicos y los otros fue baja, como lo fue también la fiabili-
dad entre los cuatro evaluadores, tanto al examinar los registros telefónicos como
los no-telefónicos.
Mark II Voice Stress Analyzer
Long y Krall (1990) llevaron a cabo un estudio para ver si el Mark II puede
detectar estrés. A diferencia del PSE el Mark II ofrece un resultado numérico,
con lo que se reduce la subjetividad de la interpretación del examinador. Los
sujetos tuvieron que decir las palabras “sleep”, “lake” y “glass” (“sueño”, “lago” y
“vaso”) en dos condiciones: estrés bajo y estrés alto. En la condición de estrés bajo
los sujetos simplemente decían las palabras. En la condición de estrés alto se
acercaba a los sujetos una tarántula en una caja, y se les decía que tras haber dicho
las tres palabras deberían tocar la araña. Con la tarántula a la vista y creyendo que
la tendrían que tocar, los sujetos decían de nuevo las palabras. Los resultados
indicaron que, en general, los registros del Mark II fueron más elevados en la
condición de alto estrés que en la de bajo estrés. Las mujeres alcanzaron mayores
niveles de estrés que los hombres, y en ellas la magnitud de los cambios vocales
fue mayor que en sus compañeros. Los registros también variaron en función de
las palabras: los más elevados correspondieron a “sleep” y los menores a “glass”.
Finalmente, las medidas también se vieron influidas por el volumen de la voz
(más elevadas a mayor volumen) y las diferencias personales. En definitiva: aun-
que el Mark II puede registrar el estrés, parece estar sometido a la influencia de
muchas variables extrañas.
Computer Voice Stress Analyzer (CVSA)
Cestaro (1995, Experimento 1), un investigador del DoDPI, examinó la utili-
dad del Computer Voice Stress Analyzer (CVSA) para detectar el estrés vocal.
Mediante un generador de funciones de laboratorio, Cestaro simuló voces estre-
sadas y no estresadas. El CVSA pudo discriminar entre unas y otras. No obstan-
te, un estudio reciente, también del DoDPI, ha arrojado resultados menos favo-
rables (Meyerhoff, Saviolakis, Koening y Yurick, 2001). Partiendo de los hallaz-
gos de investigaciones previas que han mostrado que, debido al estrés, se
Estudios de Psicología, 2004, 25 (1), pp. 13-30
20
producen cambios en el ritmo cardíaco, la presión sanguínea y en los niveles hor-
monales (por ej., Wrightsman, 1987), Meyerhoff et al. (2001) compararon si las
variaciones en los registros del CVSA en situaciones más o menos estresantes
correlacionaban con las correspondientes a esos otros parámetros. Los sujetos fue-
ron 22 soldados del ejército americano que tenían que ser entrevistados ante un
equipo de militares de más alta graduación que ellos. Se midieron los parámetros
fisiológicos y las medidas vocales (con el CVSA) antes, durante, y después de la
entrevista. Tres evaluadores ciegos extrajeron las puntuaciones de los gráficos del
CVSA. Los resultados indican que el ritmo cardíaco, la presión sanguínea y el
nivel de hormonas relacionadas con el estrés fueron mayores durante la entrevista
que en los momentos anterior y posterior; no fue así con los valores dados a los
registros obtenidos con el CVSA. Además, la fiabilidad entre evaluadores fue
muy baja.
Conclusiones
Tomados en conjunto, todos esos datos ofrecen una visión poco favorable de
los aparatos estudiados. Con la excepción de los trabajos de Brenner et al. (1979)
y de Cestaro (1995), los resultados hallados son, a lo sumo, medianamente favo-
rables (así es en Brenner, 1974, citado en Lykken, 1998; en Gunn y Gudjonsson,
1988; y en Smith, 1977, citado en Lykken, 1998). De hecho existe evidencia de
que esos instrumentos carecen de validez (es decir, no logran medir el estrés que
experimenta el sujeto) (Leith y Timmons, 1983; Lynch y Henry, 1979; Meyer-
hoff et al., 2001), adolecen de poca fiabilidad interjueces (Meyerhoff et al., 2001;
Waln y Downey, 1987) y son susceptibles a la influencia de variables extrañas
(Long y Krall, 1990; Waln y Downey, 1987). Dadas estas conclusiones, es poco
probable que los analizadores de la tensión vocal puedan detectar la mentira.
Esto es así porque el enfoque psicofisiológico de detección de la mentira asume
que hay una correlación siempre positiva y significativa entre estrés o tensión y
mentira, por lo que si los artilugios que nos ocupan no pueden detectar la ten-
sión, presumiblemente tampoco podrán detectar la mentira. La investigación
empírica también ha examinado esta cuestión.
¿Detectan la mentira los evaluadores del estrés vocal?
Psychological Stress Evaluator (PSE)
En lo referente a la investigación sobre la capacidad de los analizadores del
estrés vocal para detectar la mentira, ha sido también el PSE el instrumento que
ha recibido más atención.
Estudios no-publicados . Lykken (1998) alude a tres trabajos que no han sido
publicados y que ofrecen resultados muy favorables. El primero es el de Dahm,
un empleado de Dektor, que envió cuestionarios a 423 clientes y que explicó a un
comité del Congreso norteamericano en 1974 que los 46 que habían respondido
expresaban una muy buena opinión sobre el instrumento y sus capacidades. El
segundo es obra de Kradz, que dijo haber empleado concurrentemente el polí-
grafo y el PSE con 42 sospechosos de delitos, obteniendo una fiabilidad del
100% con otro examinador que evaluó los mismos gráficos del PSE y una preci-
sión del 100% sobre la base de evidencia independiente sobre la culpabilidad o
inocencia de los sospechosos. Estamos de acuerdo con Lykken (1998) en que
estos dos trabajos no merecen ser tomados con seriedad: Los intereses y la ausen-
cia de rigor metodológico de Dahm resultan obvios, y los espectaculares resulta-
21
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
dos de Kradz resultan difíciles de creer para cualquiera que esté familiarizado
con la investigación psicológica.
El tercer estudio no-publicado que menciona Lykken (1998) corrió a cargo de
un analista profesional del PSE llamado Heisse, que envió en 1978 a un comité
del Senado de los EE.UU. un informe de un estudio de campo sobre 52 delin-
cuentes cuya inocencia o culpabilidad había quedado bien establecida mediante
pruebas diversas, en que afirmaba haber obtenido una precisión del 96.12%. No
deben sorprendernos, según Lykken, tales maravillas. Imaginemos que Heisse,
que había sido presidente de la International Society of Stress Analysts, escribe a
unos pocos compañeros analistas pidiéndoles gráficos correspondientes a inocen-
tes o culpables confirmados. “Les cuenta que serán examinadas por otros cinco
evaluadores ciegos del PSE para evaluar la fiabilidad y la validez de la técnica de
la que todos ellos dependen para su subsistencia” (Lykken, 1998, p. 168). Así
que los analistas envían gráficos muy claros y muy prototípicamente indicativos
de verdad o de mentira. Gráficos que otros analistas con su mismo entrenamien-
to y sistema de evaluación re-evalúan, llegando a casi idénticas conclusiones. El
problema está en la representatividad de esos gráficos tan claros: “¿Qué propor-
ción de los gráficos del test de mentira del PSE obtenidos de una muestra aleato-
ria de sospechosos de delitos, verificados como culpables o inocentes, será de este
tipo clásico, que todos los examinadores del PSE deberían evaluar del mismo
modo y deberían evaluar correctamente?” (Lykken, 1998, p. 168).
Ciertamente, la evidencia publicada ofrece una imagen algo menos favorable
de la eficacia de los analizadores de la tensión vocal para detectar el engaño.
Estudios de laboratorio. Kubis (1973) analizó la capacidad del PSE y la del VSA
(Voice Stress Analyzer, otro artilugio similar) para la detección de la mentira, y los
comparó con un polígrafo convencional. Los sujetos fueron asignados al papel de
ladrón, cómplice o testigo inocente de un delito simulado. Los ladrones y los
cómplices debían mentir, los testigos debían decir la verdad. Se trataba de ver en
qué medida se podía clasificar correctamente a los sujetos en función de los regis-
tros obtenidos con los diversos aparatos. Con el polígrafo se logró unos niveles de
precisión que, si bien estaban lejos de lo ideal, eran significativamente superiores
al 33.3% esperado por azar: entre el 52% y el 76%. Con el PSE se alcanzaron
niveles de precisión entre el 32% y el 38%, que en ningún momento superaron
lo esperado por azar. La precisión lograda con el VSA estuvo entre el 34% y el
43%, sin lograr tampoco superar el nivel de azar.
Nachson (1977, citado en Lykken, 1998) utilizó un paradigma como el
correspondiente al test de estimulación que se emplea en la fase pretest de la
prueba poligráfica de la pregunta control2(Control Question Test o CQT) (por ej.,
Raskin, 1989) para convencer al examinado de la eficacia del polígrafo: el sujeto
se piensa una carta de entre unas cinco o seis, y luego el poligrafista se las va mos-
trando todas, una por una, y el sujeto tiene que ir diciendo que la carta visible no
es la que él ha escogido al tiempo que se toman sus registros fisiológicos. Nach-
son empleó una muestra de estudiantes universitarios y otra de sospechosos de
delitos reales. Tomó medidas con el PSE durante la tarea y luego examinó el
grado de acuerdo de los evaluadores del PSE al señalar la carta que los sujetos
habían escogido. Encontró que dicho acuerdo era muy bajo: no superó el 30%.
Horvarth (1978) comparó la validez y la fiabilidad interjueces del PSE y las
medidas de conductividad electrodérmica mediante el paradigma del test de car-
tas. Dos examinadores expertos evaluaron los registros del PSE, y junto con una
tercera persona puntuaron también los registros psicogalvánicos. Los resultados
mostraron una fiabilidad interjueces de .38 para el PSE y de .92 para la respuesta
Estudios de Psicología, 2004, 25 (1), pp. 13-30
22
electrodérmica. La precisión de las clasificaciones basadas en el PSE fue del
24.2% en el primer examen y del 20.8% en un segundo examen, similar al pri-
mero, al que se sometió a los sujetos; en ningún caso estos valores superaron el
20% esperado por azar (había cinco cartas). En cambio, la precisión según los
registros de conductividad electrodérmica fue del 68.8% en el primer examen y
del 42.5% en el segundo, en ambos casos superior al nivel de azar.
El mismo autor (Horvarth, 1979) realizó otro estudio similar en que incluyó
en el diseño las siguientes variables: (a) motivación de los sujetos para hacer bien
la tarea (alta: se les prometió convalidación de créditos; baja: se tomaron los
datos del estudio de 1978, en que nada se había hecho para incentivar a los suje-
tos) y (b) estrategia (condición ser detectado: hacer que el aparato le detecte a
uno; condición evitar ser detectado: hacer lo posible para no ser detectado). Dos
evaluadores entrenados examinaron tanto los registros del PSE como los galváni-
cos. La precisión obtenida con el empleo del PSE fue mayor en la condición evi-
tar ser detectado que en la otra, pero no superó el 20% esperado por azar. La
lograda a partir de los registros psicogalvánicos estuvo en torno al 50%, superior
al nivel de azar, y tendió a ser mayor en la condición ser detectado que en la con-
dición evitar ser detectado. La mayor motivación tuvo como efecto un aumento
en las puntuaciones de la conductividad electrodérmica. Finalmente, la fiabili-
dad entre evaluadores fue de .65 para el PSE y de .76 para la respuesta electro-
dérmica.
Brenner et al. (1979, Experimento 1) sometieron a 20 sujetos a una prueba de
lo que conoce el culpable3(Guilty Knowledge Test o GKT) (Lykken, 1959, 1960,
1998). Tales sujetos tuvieron que cumplimentar un cuestionario con 10 ítems
sobre información personal. Más tarde, empleando la GKT, el entrevistador les
hacía 10 preguntas, cada una de las cuales se refería a un ítem del cuestionario
anterior. Cada pregunta se seguía de 6 opciones de respuesta, de las cuales sólo
una era la correcta (es decir, coincidía con lo expresado en el cuestionario ante-
rior). Los examinados debían burlar al examinador en 5 de las 10 preguntas, de
modo que no se apreciara a partir de sus registros vocales cuál era la alternativa
correcta. Para ello, se les recomendó que procuraran producir respuestas emocio-
nales al decir la verdad, para así evitar ser detectados mediante la comparación.
Se les ofreció una recompensa de 5 dólares. Sus respuestas se analizaron con el
PSE, que no mostró una precisión más allá del azar.
Nachson y Feldman (1980) examinaron la fiabilidad y la validez del PSE en
un estudio de laboratorio mediante una tarea poco activadora (test de cartas) y
otra muy activadora que denominaron “horror picture test”. Los sujetos vieron 26
fotografías entre las que había 9 de víctimas de accidentes de circulación. Su
tarea consistía en responder “Sí, me gusta esta fotografía” en todas las ocasiones,
y los evaluadores tenían que determinar cuáles eran las respuestas que correspon-
dían a las víctimas de accidentes. La fiabilidad en la prueba de cartas estuvo por
debajo del 30% y su validez no superó lo esperado por azar; la fiabilidad en el
“horror picture test” fue del 60% y su validez tampoco superó el nivel de azar.
Estudios de campo. Una posible explicación de la poca utilidad de los evaluado-
res del estrés vocal en situaciones de laboratorio podría ser que los niveles de ten-
sión experimentados en el contexto simulado del laboratorio no son lo bastante
elevados como para ser detectados con tales aparatos. Por lo tanto, a Nachson y
Feldman (1980) les pareció adecuado realizar también un estudio en que 56 sos-
pechosos de delitos reales hicieran la prueba de cartas (tarea poco activadora) y
fueran interrogados sobre los delitos (tarea activadora). La fiabilidad entre eva-
luadores estuvo alrededor del 50% tanto al evaluar los gráficos de una tarea
23
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
como al evaluar los de la otra. En ninguna de ellas la validez llegó a superar el
nivel de azar.
Otro estudio de campo algo más alentador es el que presentan Nachson,
Elaad y Amsel (1985), que tomaron registros vocales y poligráficos (conductivi-
dad electrodérmica, respiración y medidas cardíacas) de 40 sospechosos de deli-
tos reales examinados según la CQT. La coincidencia entre las puntuaciones
basadas en el polígrafo y las basadas en el PSE no superó el nivel de azar, pero las
coincidencias en lo referente a la decisión final dicotómica miente/dice la verdad
alcanzaron valores bastante elevados.
Finalmente, Barland (1975, citado por Lykken, 1998), examinó mediante la
CQT a 66 sospechosos de delitos reales utilizando el polígrafo y el PSE. Ante un
nivel de coincidencia por azar del 50%, el acuerdo entre las decisiones basadas en
el PSE y las formuladas a partir de los registros poligráficos fue del 53%, y el
acuerdo entre las decisiones basadas en el PSE y el resultado judicial indepen-
diente fue del 47%.
Mark II Voice Stress Analyzer
En una serie de trabajos, O´Hair y Cody han estudiado la eficacia del Mark II
Voice Stress Analyzer para detectar mentiras. En el primero de ellos (O´Hair, Cody y
Behnke, 1985), una serie de sujetos con alta o baja ansiedad comunicativa se
sometió a una entrevista de trabajo simulada. En ambos casos los sujetos fueron
asignados al grupo veraz, que debía decir siempre la verdad, o al grupo mentiroso.
Este último tenía que contar tres mentiras sobre su empleo más reciente: una pre-
parada de antemano, una espontánea, y una mentira demorada, la cual se introdu-
cía cuando la entrevista parecía estar llegando ya a su fin. También había en la
entrevista de los mentirosos tres preguntas idénticas a las anteriores, pero concer-
nientes al penúltimo empleo. Los sujetos debían decir la verdad al contestarlas, y
esas respuestas servían de comparación para cada una de las mentiras. En el grupo
de sujetos veraces el Mark II no mostró indicaciones de estrés ante ninguna pregun-
ta, siendo pues imposible que cometiera errores de falso positivo. En el grupo de
sujetos mentirosos, quienes tenían alta ansiedad comunicativa mostraron puntuacio-
nes más elevadas según el Mark II al contar mentiras preparadas que al decir la
verdad, pero no hubo diferencias significativas entre los otros tipos de mentira y
sus verdades correspondientes. En el grupo de mentirosos con baja ansiedad
comunicativa no se hallaron valores superiores a los correspondientes a la verdad
para ningún tipo de mentira. En definitiva, el dispositivo sirvió para detectar sólo
mentiras preparadas y sólo en el grupo de alta ansiedad comunicativa.
Con un procedimiento y un diseño similares a los del estudio anterior, O´Hair y
Cody (1987) compararon la efectividad del Mark II para identificar mentiras pre-
paradas y mentiras espontáneas en hombres y en mujeres. Tampoco en esta ocasión
se produjeron errores de falso positivo, pero asimismo tampoco –y siguiendo en la
línea del estudio previo– se produjeron apenas positivos reales: lo único que logró
identificar el Mark II fueron las mentiras preparadas de las mujeres.
Finalmente, O´Hair, Cody, Wang y Chao (1990) hicieron una entrevista
simulada a 61 inmigrantes chinos. Los asignados a la condición de veracidad
tuvieron que responder a todas las preguntas con sinceridad; a los de la condición
de mendacidad se les dio el nombre de un falso empleo y tenían que inventar
detalles sobre el mismo. Según las lecturas numéricas del Mark II, entre quienes
mintieron los hombres mostraron más estrés que las mujeres al proporcionar el
nombre del falso empleo. Además se logró identificar las mentiras preparadas,
pero esta vez sólo en el caso de los hombres.
Estudios de Psicología, 2004, 25 (1), pp. 13-30
24
Computer Voice Stress Analyzer (CVSA)
El CVSA fue comparado con el polígrafo en un estudio de campo poco
riguroso cuya redacción deja muchas lagunas e interrogantes. Fue llevado a
cabo privadamente por un poligrafista y ex-policía, que hoy forma parte del
personal del National Institute for Truth Verification, llamado Tippett (1994),
con la ayuda de un analista del CVSA de nombre Neubauer. Los sujetos fue-
ron 54 agresores sexuales en libertad que corrían el riesgo de ser devueltos a
prisión si reincidían; las preguntas relevantes de los exámenes concernían a
sus actividades sexuales abusivas. Esos sujetos fueron examinados dos veces,
primero con el CVSA y luego con el polígrafo. La técnica empleada fue, sor-
prendentemente, la Prueba de lo Relevante/Irrelevante4(Relevant/Irrelevant
Test o RIT) (Larson, 1969). Más sorprendente aún es el resultado final: un
100% de acuerdo entre las evaluaciones basadas en el polígrafo y las basadas
en el CVSA. La poca autoridad del autor de este estudio, el hecho de que no
se haya publicado en una revista sino que esté accesible en un sitio web favo-
rable al CVSA, las lagunas en su redacción y ciertos errores metodológicos y
procedimentales restan credibilidad a este trabajo.
Los resultados de los estudios realizados por Cestaro en el DoDPI, bastante más
rigurosos que el de Tippett, discrepan notablemente de los obtenidos por éste. En
un trabajo de 1995 (Experimento 2), Cestaro utilizó el procedimiento de los
números (similar al de las cartas, sólo que el sujeto meramente piensa en un núme-
ro que, en este caso concreto, debía estar entre 3 y 8) para comparar la efectividad
del CVSA con la del polígrafo. Empleó a cuatro evaluadores expertos en el CVSA y
a cuatro poligrafistas. La precisión media del CVSA no superó el nivel de azar; la
del polígrafo si que lo superó. En otro estudio, Cestaro (1996) volvió a comparar el
polígrafo con el CVSA, esta vez con el paradigma del delito simulado. Los gráficos
de ambos instrumentos fueron evaluados por los dos examinadores que habían
conducido el interrogatorio y por tres evaluadores ciegos. La precisión basada en los
registros de ambos artilugios fue muy baja: 57.2% para el polígrafo y 52.2% para
el CVSA; ninguna estaba por encima del 50% esperado por azar. El porcentaje de
acuerdo entre examinadores y evaluadores ciegos fue también muy bajo para los
dos instrumentos: del 60% para el polígrafo y del 52% en el caso del CVSA. Por
último, Janniro y Cestaro (1996) emplearon también el paradigma del delito
simulado para examinar la validez del CVSA con el empleo de la CQT. La preci-
sión global fue del 49.8%, prácticamente lo esperado por azar. No obstante, sí
hubo cierta consistencia entre examinadores, pero ninguno superó el nivel de azar.
Como conclusión de sus trabajos, Cestaro (2001) declaraba lo siguiente ante
la Legislatura de Texas:
Durante mi investigación, intenté validar la capacidad del instrumento para medir los niveles
de estrés de los sujetos. A lo largo de un periodo aproximado de tres años durante el que he
estado haciendo investigación empleando el CVSA, he sido incapaz de demostrar que el instru-
mento pueda detectar niveles diferenciales de estrés o proporcionar cualquier indicación de que
los sujetos fueran sinceros o mentirosos. Otros estudios independientes que he realizado emple-
ando equipos de laboratorio y software para el análisis espectral del sonido tampoco han pro-
porcionado ninguna evidencia de que el análisis de la voz sea eficaz para diferenciar niveles de
estrés. ... Como resultado de mis estudios, el Instituto [DoDPI] formuló una declaración oficial
concerniente a la falta de efectividad del análisis del estrés de la voz para la detección del enga-
ño (Cestaro, 2001, ¶ 3).
La declaración oficial a la que alude Cestaro está fechada en 1996, y concluye
que hasta la fecha el DoDPI no ha logrado encontrar información en apoyo de
que el análisis del estrés vocal sea una herramienta efectiva para identificar el
engaño, siendo más preciso el polígrafo.
25
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
CONCLUSIONES
A lo largo de las páginas precedentes hemos intentado dar respuesta a
cuatro preguntas fundamentales para examinar la adecuación del empleo de
los analizadores del estrés vocal como detectores de mentiras. Tales respues-
tas resultan desalentadoras. Primero, ante la pregunta de si existen caracte-
rísticas vocales que cambian cuando la persona experimenta tensión, la
investigación cuestiona incluso la misma existencia de microtemblores en
los músculos de la laringe (Shipp e Izdebski, 1981). Segundo, al intentar dar
respuesta a la cuestión de si las características vocales de las personas se alte-
ran al mentir, la investigación ha encontrado que el espectro de la voz no
varía en función de si los hablantes dicen la verdad o mienten (Cestaro y
Dollins, 1994). Tercero, la respuesta dada por la investigación a la pregunta
de si los analizadores de estrés vocal realmente logran medir estrés es ambi-
gua y, en general, tiene tintes negativos: frente a los alentadores resultados
de Brenner et al. (1979) y Cestaro (1995) están los hallazgos mixtos de Bren-
ner (1974, citado en Lykken, 1998), Gunn y Gudjonsson (1988) y Smith
(1977, citado en Lykken, 1998), así como un conjunto de resultados experi-
mentales indicadores de que esos aparatos no logran medir el estrés (Leith y
Timmons, 1983; Lynch y Henry, 1979; Meyerhoff et al., 2001) y de que sus
registros se ven influidos por diversas variables extrañas, tales como el sexo y
la personalidad del hablante, las palabras pronunciadas, el volumen de la voz
y si ésta se transmite o no por teléfono (Long y Krall, 1990; Waln y Downey,
1987).
Desde luego, si no existen en la laringe microtemblores que se vayan ate-
nuando cuando la persona está tensa (pregunta 1), entonces: (a) la tensión
que se supone experimentará el hablante al mentir no podrá generar altera-
ciones vocales que dependan de esa reducción de tales microtemblores (pre-
gunta 2), y ya hemos visto que eso es lo que ha hallado la investigación; (b)
los aparatos diseñados para medir cambios vocales indicadores de estrés –al
obedecer, supuestamente, tales cambios a la reducción de los microtemblo-
res– no lograrán ofrecer medidas válidas de estrés (pregunta 3), y los datos
empíricos parecen apuntar en esa dirección; y (c) cuando se pretenda emplear
esos aparatos para detectar el engaño, su precisión será equivalente al nivel
de azar (pregunta 4). Efectivamente, la respuesta dada por la investigación a
esta cuarta pregunta (si los analizadores de estrés vocal detectan o no la men-
tira) es clara: casi sin excepción, los estudios, tanto de campo como de labo-
ratorio, revisados aquí, muestran que los instrumentos analizados no detec-
tan el engaño más allá del nivel de azar, presentan menor validez que la con-
ductividad electrodérmica y otros índices poligráficos, y las clasificaciones
basadas en sus medidas carecen de fiabilidad interjueces.
Todo esto choca con las grandilocuentes afirmaciones de los fabricantes. En el
sitio web de la empresa que produce el CVSA, que ya hemos visto que ha sido
uno de los aparatos analizados, se puede leer: “El CVSA obtiene la verdad e iden-
tifica la mentira con precisión, o valida las declaraciones en el menor tiempo
posible (el tiempo medio de examen es de 40 minutos)” (National Institute for
Truth Verification, sin fechar a, ¶ 7), o “...el sistema también ha mostrado ser
una herramienta de investigación muy fiable para verificar las declaraciones de
testigos, negaciones de sospechosos y para determinar la validez de las alegacio-
nes hechas contra los agentes de policía” (National Institute for Truth Verifica-
tion, sin fechar a, ¶ 2). De hecho, esa misma compañía decidió en 1991 dejar de
vender aparatos a los particulares y centrarse sólo en los organismos oficiales de
lucha contra el delito, ante el temor, según sus palabras, de que el crimen organi-
Estudios de Psicología, 2004, 25 (1), pp. 13-30
26
zado pudiera emplearlo para identificar a los espías policiales. No obstante, ya
hemos visto que la efectividad del aparato es aproximadamente la misma que se
obtendría echando una moneda al aire. Según Lykken (1998):
En 1980 un Psychological Stress Evaluator completo costaba unos 4400 $... Tal como hemos
determinado exhaustivamente, emplear el PSE para diferenciar niveles de estrés o para detectar
el engaño produce resultados que típicamente coinciden con lo que se puede obtener con
mucha más facilidad echando una moneda al aire. Si uno fuera a utilizar una moneda de dólar
“de plata”, el ahorro neto sería de 4399 $ (p. 171).
Las cosas no han cambiado mucho desde 1980, salvo la cuantía del ahorro:
según el National Institute for Truth Verification, el coste de un moderno PSE 4202
es de 9500 $ más los 1400 $ del entrenamiento de cinco días, el CVSA cuesta
10760 $ más 1440 $ por los seis días de entrenamiento, el VSA Mark 2000
asciende a 11500 $, el Lantern tiene varios precios que oscilan entre 4700 $ y
8500 $, más los 950 $ del entrenamiento de cinco días, y el Truster oscila entre
los 30 y los 16000 $ (National Institute for Truth Verification, sin fechar c).
Es importante que en este punto aludamos al polígrafo. La utilidad del
mismo para detectar el engaño es objeto de fuerte controversia (por ej., Faigman,
Kaye, Saks y Sanders, 2002; Gale, 1988). Sin embargo, poca discrepancia hay en
torno a si los cambios electrodérmicos, respiratorios y cardiovasculares miden o
no el arousal que pueda experimentar el individuo. Otras cuestiones diferentes
atañen a si esta activación se produce o no al mentir, si en una CQT el culpable la
experimenta ante las preguntas relevantes y no ante las preguntas control y el
inocente al contrario, o si la alternativa relevante en una GKT realmente elicita-
rá más activación que las irrelevantes. Un analizador de voz no es más que otro
canal como el electrodérmico, o el respiratorio, o el cardíaco del polígrafo. De
modo que cualquier problema asociado a las pruebas poligráficas es también
aplicable a los analizadores del estrés vocal, que se emplean con idénticos proce-
dimientos (por ej., el test de cartas de los estudios que hemos visto es una GKT,
y en la investigación con delitos simulados se usa la CQT; lo mismo sucede en
ámbitos aplicados). Con el inconveniente añadido de que, tal como hemos visto,
resulta muy dudoso que tales instrumentos puedan medir el estrés vocal. Esto
explica su inferioridad respecto al polígrafo: por lo menos éste sí es capaz de
medir los cambios fisiológicos que pretende registrar, el problema es que no
siempre se producen al mentir, y de ahí procede su limitada validez; los analiza-
dores de voz, en cambio, ni siquiera pueden medir la tensión del sujeto.
27
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
Notas
1LED significa “Light Emiting Diode”, es decir, “diodo emisor de luz”. Los diodos son un tipo de componente electrónico. Algunos
emiten una luz cuando circula una corriente por ellos, son los LEDs. Por ejemplo, la lucecita de on/offde cualquier aparato eléctri-
co la emite un LED.
2La hoy llamada Control Question Test o Comparison Question Test es una prueba poligráfica propuesta por Reid en 1947 ante las
carencias de la anterior prueba de lo Relevante / Irrelevante (que se describe en la nota 4). En la CQT se presenta varias veces al
sujeto examinado una secuencia con diversas preguntas neutrales, control y relevantes (por ej., Raskin, 1989). Las preguntas con-
trol son deliberadamente vagas e imprecisas, abarcan grandes periodos de tiempo y aluden a faltas menores de naturaleza similar
al delito bajo investigación, por ej., “¿alguna vez antes de cumplir los 20 años cogió usted algo que no le perteneciera?”. Se induce
al sujeto a que responda negativamente. Las preguntas relevantes aluden al delito objeto de investigación, por ej., “¿tomó usted el
dinero de la caja registradora?”. Se espera que el inocente, inseguro sobre su respuesta a las preguntas control y bajo la creencia de
que éstas se incluyen en el test “para ver si él es el tipo de persona que puede haber cometido el delito” –según le indica el exami-
nador–, se active más ante éstas que ante las preguntas relevantes. Por otra parte se entiende que el culpable se activará más ante
las preguntas relevantes, por aludir a un delito más saliente y grave que las imprecisas preguntas control. Estas asunciones han
sido duramente criticadas (por ej., Lykken, 1998) y puestas en entredicho por la comunidad psicológica y psicofisiológica (Iacono
y Lykken, 1997). Pese a ello la CQT sigue siendo la prueba poligráfica más utilizada en los Estados Unidos. El llamado test de
estimulación consiste en una demostración que se hace al sujeto antes de someterlo al examen poligráfico propiamente dicho, para
convencerlo de la eficacia del polígrafo y lograr así que se active lo suficiente ante las preguntas que perciba como más comprome-
tedoras o amenazadoras (las preguntas control si es inocente y las preguntas relevantes si es culpable).
3La Guilty Knowledge Test o prueba poligráfica de lo que conoce el culpable fue propuesta por Lykken en 1959. Consiste en formu-
lar a los sujetos, secuencialmente y de forma oral, una serie de preguntas de opción múltiple seguida cada una de ellas de las diver-
sas opciones de respuesta. Tales preguntas deben inquirir sobre información que sólo el culpable del delito pueda conocer. Mien-
tras se formulan las preguntas y se presentan las opciones de respuesta se van tomando los registros del sujeto. Se entiende que
sólo el culpable se activará más ante la alternativa correcta de respuesta que ante las demás en todas o en la mayoría de las pregun-
tas (véanse, entre otros, Lykken, 1959, 1960, 1998). En la actualidad este paradigma se emplea también con otro tipo de medidas
con las que se experimenta en torno a la detección psicofisiológica del engaño, como los potenciales evocados (por ej., Rosenfeld,
2002). Nótese que el test de cartas descrito anteriormente en el texto es una simplificación de una GKT que comprende una sola
pregunta: se espera que el sujeto se active más ante la carta escogida que ante las demás.
4Primera prueba poligráfica, ideada por Larson (1921, 1969; ver también Lykken, 1998). Incluye una serie de entre 10 y 15 pre-
guntas, la mitad de las cuales son irrelevantes (que nada tienen que ver con el delito, por ej., “¿es hoy martes?”) y la otra mitad
relevantes (por ej., “¿tomó usted el dinero de la caja registradora?”), de forma que unas y otras se alternan. Se espera que el inocen-
te se active por igual ante un tipo de preguntas y otro, mientras que el culpable se activaría más ante las preguntas relevantes que
ante las irrelevantes. Debido a sus muchas limitaciones, esta técnica hoy apenas se emplea, salvo en los screening tests o exploracio-
nes poligráficas generales e inespecíficas (en que no se está investigando un incidente específico, no existe un sospechoso, y la
mayor parte de sujetos son inocentes).
Referencias
ALONSO-QUECUTY, M. L. (1990). Recuerdo de la realidad percibida vs. imaginada. Buscando la mentira. Boletín de Psicología, 29,
73-86.
ALONSO-QUECUTY, M. L. (1994). Psicología forense experimental: El testigo deshonesto. En J. Sobral, R. Arce & A. Prieto (Eds.),
Manual de psicología jurídica(pp. 139-153). Barcelona: Paidós.
ALONSO-QUECUTY, M. L. & HERNÁNDEZ-FERNAUD, E.(1997). Tócala otra vez Sam: Repitiendo las mentiras. Estudios de Psicología,
57, 29-37.
BRENNER, M., BRANSCOMB, H. H. & SCHWARTZ, G. E. (1979). Psychological stress evaluator: Two tests of a vocal measure. Psy-
chophysiology, 16 (4), 351-357.
CESTARO, V. L. (1995). A comparison between decision accuracy rates obtained using the polygraph instrument and the Computer Voice Stress
Analyzer (CVSA). (Informe Nº DoDPI95-R-0002). Fort McClellan, AL: Department of Defense Polygraph Institute.
CESTARO, V. L. (1996). A comparison of accuracy rates between detection of deception examinations using the polygraph and the Computer Voice
Stress Analyzer in a mock crime scenario. (Informe Nº DoDPI95-R-0004). Fort McClellan, AL: Department of Defense Polygraph
Institute.
CESTARO, V. L. (2001). A summary of the testimony before the Texas Legislature regarding the reliability and validity of the Computer Voice
Stress Analyzer. Encontrado el 12 de noviembre de 2003, en http://www.voicestress.com/summary_of_the_testimony.htm.
CESTARO, V. L. & DOLLINS, A. B. (1994). An analysis of voice responses for the detection of deception. (Informe Nº DoDPI94-R-0001).
Forth McClellan, AL: Department of Defense Polygraph Institute.
CLEDE, B.(1998). Technology, it helps find the truth. Law and Order, Julio de 1998. (Encontrado el 12 de noviembre de 2003, en
http://www.clede.com/Articles/Police/truth.htm).
COMPUTER VOICE STRESS ANALYSIS - EXAMPLE PATTERNS (sin fechar). Encon trado el 12 de novi embr e de 20 03, en
http://campus.umr.edu/police/cvsa/example.htm
DECA IR E, M. (2 000). The detection of deception via non-verbal deception cues. Encontrado el 12 de noviembre de 2003, en
http://www.uplink.com.au/lawlibrary/Documents/Docs/Doc64.html
DEPAULO, B. M., STONE, J. I. & LASSITER, G. D. (1985). Deceiving and detecting deceit. En B. R. Schlenker (Ed.), The self and
social life (pp. 323-370). Nueva York: McGraw-Hill.
EKMAN, P. (2001). Telling lies. Clues to deceit in the marketplace, politics, and marriage. Revised edition. Nueva York: W. W. Norton &
Company.
FAIGMAN, D., KAYE, D. H., SAKS, M. J. & SANDERS, J.(Eds.) (2002). Modern scientific evidence: The law and science of expert testimony
(vol. 3) (2ª ed.). St. Paul, MN: West Publishing.
GALE, A. (Ed.) (1988).
The polygraph test. Lies, truth and science. Londres: Sage.
GARRIDO, E. & MASIP, J. (2001). La evaluación psicológica en los supuestos de abusos sexuales. En F. Jiménez (Ed.), Evaluación psi-
cológica forense (vol. 1, pp. 25-140). Salamanca: Amarú.
GUNN, J. & GUDJONSSON, G.(1988). Using the psychological stress evaluator in conditions of extreme stress. Psychological Medeci-
ne, 18, 235-238.
HAMILTON (2000). Computer Voice Stress Analyzer (CVSA). Encontrado el 12 de noviembre de 2003, en
http://www.umr.edu/~police/cvsa/hamilton.htm.
HORVARTH, F. (1978). An experimental comparison of the psychological stress evaluator and the galvanic skin response in detec-
tion of deception. Journal of Applied Psychology, 63 (3), 338-344.
HORVARTH, F. (1979). Effect of different motivational instructions on detection of deception with the psychological stress evalua-
tor and the galvanic skin response. Journal of Applied Psychology, 64 (3), 323-330.
IACONO, W. G. & LYKKEN, D. T. (1997). The validity of the lie detector: Two surveys of scientific opinion. Journal of Applied Psy-
chology, 82(3), 426-433.
JANNIRO, M. J. & CESTARO, V. L. (1996). Effectiveness of detection of deception examinations using the computer voice stress analyser. (Infor-
me Nº DoDPI96-R-0005). Fort McClellan, AL: Department of Defense Polygraph Institute.
KLEINER, M. (Ed.) (2002). Handbook of polygraph testing. San Diego, CA: Academic Press.
KUBIS, J. F. (1973). Comparison of voice analysis and polygraph as lie detection procedures. (Contrato DAD05-72-C-0217). U. S. Army
Land Warfare Laboratory, Aberdeen Proving Ground, M. D.
LARSON, J. A. (1921). Modification of the Marston deception test. Journal of the American Institute of Criminal Law and Criminology,
12, 391-399.
LARSON, J. A. (1969). Lying and its detection. A study of deception and deception tests. Montclair, NJ: Patterson Smith. (Edición original
de 1932, University of Chicago Press).
Estudios de Psicología, 2004, 25 (1), pp. 13-30
28
LEITH, W. R. & TIMMONS, J. L. (1983). The use of the Psychological Stress Evaluator with stutterers. Journal of Fluency Disorders, 8
(3), 207-213.
LIPPOLD, O. (1971). Physiological tremor. Scientific American, 224 (3), 65-73.
LONG, G. T. & KRALL, V. L. (1990). The measurement of stress by voice analysis. Journal of Social Behavior and Personality, 5 (6),
723-731.
LYKKEN, D. T. (1959). The GSR in the detection of guilt. Journal of Applied Psychology, 43, 385-388.
LYKKEN, D. T. (1960). The validity of the guilty knowledge technique: The effects of faking. Journal of Applied Psychology, 44,
258-262.
LYKKEN, D. T.(1998).
A tremor in the blood. Uses and abuses of the lie detector. Nueva York: Plenum Press.
LYNCH, B. E. & HENRY, D. R. (1979). A validity study of the psychological stress evaluator. Canadian Journal of Behavioral Science,
11 (1), 89-94.
MANZANERO, A. (2001). Procedimientos de evaluación de la credibilidad de las declaraciones de menores víctimas de agresiones
sexuales. Psicopatología Clínica, Legal y Forense, 1, 51-71.
MASIP, J. & GARRIDO, E. (2000). La evaluación de la credibilidad del testimonio en contextos judiciales a partir de indicadores
conductuales. Anuario de Psicología Jurídica, 10, 93-131.
MASIP, J. & GARRIDO, E. (2003). La detección del engaño mediante la técnica del control de la realidad. Encuentros en Psicología
Social, 1 (5), 113-121.
MASIP, J., GARRIDO, E. & HERRERO, C. (2002). La detección del engaño sobre la base de sus correlatos conductuales: La precisión
de los juicios. Anuario de Psicología Jurídica, 12, 37-55.
MASIP, J., GARRIDO, E. & HERRERO, C. (2003). El Análisis de Contenido Basado en Criterios (CBCA). Revista Iberoamericana de
Diagnóstico y Evaluación Psicológica, 15(1), 75-92.
MASIP, J., SPORER, S. L., GARRIDO, E. & HERRERO, C. (En prensa). The detection of deception with the Reality Monitoring appro-
ach: A review of the empirical evidence. Psychology, Crime & Law.
MCLEL LA N , V. (1996). Re: Voice stress analysis of debates? Enco n trad o el 12 d e novi em bre de 2003, en
http://cypherpunks.venona.com/date/1996/10/msg00732.html
MEYERHOFF, J. L., SAVIOLAKIS, G. A., KOENING, M. L. & YURICK, D. L. (2001). Physiological and biochemical measures of stress compa-
red to voice stress analysis using the computer voice stress analyzed (CVSA). (Informe Nº DoDPI01-R-0001). Fort Jackson, SC: Depart-
ment of Defense Polygraph Institute; y Washington, DC: Walter Reed Army Institute of Research.
MILLER, G. R. & STIFF, J. B. (1993).
Deceptive communication. Newbury Park: Sage.
NACHSON, I., ELAA D, E. & AMSEL, T. (1985). Validity of the Psychological Stress Evaluator: A field study. Journal of Police Science
and Administration, 13, 275-282.
NACHSON, I. & FELDMAN, B. (1980). Vocal indices of psychological stress: A validation study of the Psychological Stress Evalua-
tor. Journal of Police Science and Administration, 8, 40-53.
NATIONAL INSTITUTE FOR TRUTH VERIFICATION (Sin fechar a). CVSA perfects crime-fighting technology. Encontrado el 12 de noviem-
bre de 2003, en http://www.cvsa1.com/product.php.
NATIONAL INSTITUTE FOR TRUTH VERIFICATION (Sin fechar b). The history and evolution of lie detection. Encontrado el 12 de noviem-
bre de 2003, en http://www.cvsa1.com/history.php
NATIONAL INSTITUTE FOR TRUTH VERIFICATION (Sin fechar c). Voice Stress Analyzer comparisons. Encontrado el 12 de noviembre de
2003, en http://www.cvsa1.com/pricing.php.
O´HAIR, D. & CO DY, M. (1987). Gender and vocal stress differences during truthful and deceptive information sequences. Human
Relations, 40 (1), 1-13.
O´HAIR, D., CODY, M. J. & BEHNKE, R. R. (1985). Communication apprehension and vocal stress as indices of deception. Western
Journal of Speech Communication, 49(4), 286-300.
O´HAIR, D., CODY, M. J., WANG, X. & CHAO, E. Y. (1990). Vocal stress and deception detection among Chinese. Communication
Quarterly, 38, 158-169.
PORTER, S. & YUILLE, J. C. (1995). Credibility assesment of criminal suspects through statement analysis. Psychology, Crime and
Law, 1, 319-331.
RASKIN, D. C. (1989). Polygraph techniques for the detection of deception. En D. C. Raskin (Ed.), Psychological methods in criminal
investigation and evidence (pp. 247-296). Nueva York: Springer Publishing Company.
RASKIN, D. C. & ESPLIN, P. W. (1991). Statement Validity Assessment: Interview procedures and content analysis of children´s
statements of sexual abuse. Behavioral Assessment, 13, 265-291.
REID, J. E. (1947). A revised questioning technique in lie-detection tests. Journal of Criminal Law and Criminology, 37, 542-547.
ROSENFELD, J. P. (2002). Event-related potentials in the detection of deception, malingering, and false memories. En M. Kleiner
(Ed.), Handbook of polygraph testing (pp. 265-286). San Diego, CA: Academic Press.
RUBY, C. L. & BRIGHAM, J. C. (1997). The usefulness of the Criteria-Based Content Analysis technique in distinguishing between
truthful and fabricated allegations. A critical review. Psychology, Public Policy, and Law, 3 (4), 705-737.
SHIPP, T. & IZDEBSKI, K. (1981). Current evidence for the existence of laryngeal macrotremor and microtremor. Journal of Forensic
Sciences, 26, 501-505.
SPY ZO NE (Sin fechar). Portable truth machine. The scientific measure of truth. Encontrado el 12 de noviembre de 2003, en
http://www.spyzone.com/catalog/voicestressanalysis/vsa-15.html
STELLER, M. & KOHNKEN, G. (1989). Criteria-Based Statement Analysis. En D. C. Raskin (Ed.), Psychological methods in criminal
investigation and evidence (pp. 217-245). Nueva York: Springer Publishing Company.
SUZUKI, A., WATANABE, S., TAHENO, Y., KOSUGI, T. & KASUYA, T. (1973). Possibility of detecting deception by voice analysis.
Reports of the National Institute of Police Science, 26, 62-66.
TIPPETT, R. G. (1994). Com parative analysi s study of the CVSA and polygraph. Encontrado el 12 de noviembre de 2003, en
http://www.umr.edu/~police/cvsa/compar1.htm
TRUTH MACHINE EXECUTIVE 12 LED (sin fechar). Encontrado el 12 de noviembre de 2003, en http://www.dobuy.co.uk/uPro-
ductDetail.asp?produ_pk=217
VRIJ, A. (2000). Detecting lies and deceit: The psychology of lying and the implications for professional practice. Chichester: Wiley.
VRIJ, A., EDWARD, K. & BULL, R. (2001). Stereotypical verbal and nonverbal responses while deceiving others. Personality and
Social Psychology Bulletin, 27 (7), 899-909.
29
La detección de la mentira mediante la medida de la tensión en la voz: una revisión crítica / J. Masip et al.
WALN, R. F. & DOWNEY, R. G.(1987). Voice stress analysis: Use of telephone recordings. Journal of Business and Psychology, 1 (4),
379-389.
WRIGHTSMAN, L. S. (1987).Psychology and the legal system. Monterey, CA: Brooks/Cole.
YUILLE, J. C. (Ed.) (1989).
Credibility assessment. Dordrecht: Kluwer Academic Publishers.
ZUCKERMAN, M., DEPAULO, B. M. & ROSENTHAL, R. (1981). Verbal and nonverbal communication of deception. En L. Berkowitz
(Ed.), Advances in Experimental Social Psychology (vol. 14, pp. 1-59). San Diego, CA: Academic Press.
Estudios de Psicología, 2004, 25 (1), pp. 13-30
30