ArticlePDF Available

Synthèse sur la réduction conjointe de bruit et d’écho pour lés systèmes mains-libres

Authors:

Abstract and Figures

Les télécommunications modernes s’éprennent de liberté et, dans ce paysage, les systèmes mains-libres proposent aux abounés de converser de manière plus naturelle, sans avoir à tenir un combiné. Ce nouvel usage entraîne des problèmes jusqu ’alors négligeables en téléphonie classique : la superposition de bruit et d’écho, souvent très énergétiques, sur le signal de parole. Afin de pallier ces problèmes et de fournir une qualité suffisante aux télécommunications, une réduction conjointe des perturbations, bruit et écho, est nécessaire. Cet article présente une synthèse des solutions retenues pour cette double réduction dans le cadre déééééééééé’une prise de son mono-capteur et bi-capteurs. In the context of modern telecommunications, hands-free systems allow to talk in a more natural way, without handling a telephone. This leads to new problems which were negligible in classical telephony: the superposition of energetic noise and echo on the speech signal. To solve these problems and to provide a sufficient speech quality, a joint reduction of these perturbations is needed. This paper presents a synthesis of solutions retained to achieve this reduction in the context of mono-channel and two-channel observations.
Content may be subject to copyright.
538
PP. 538-552
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 1/15
Synthèse sur la réduction conjointe de bruit et d’écho
pour les systèmes mains-libres
Christophe BEAUGEANT*,
Régine LE BOUQUIN JEANNÈS**,
Pascal SCALART*,
Gérard FAUCON**
Résumé
Les télécommunications modernes s’éprennent de
liberté et, dans ce paysage, les systèmes mains-libres
proposent aux abonnés de converser de manière plus
naturelle, sans avoir à tenir un combiné. Ce nouvel
usage entraîne des problèmes jusqu’alors négligeables
en téléphonie classique : la superposition de bruit et
d’écho, souvent très énergétiques, sur le signal de
parole. Afin de pallier ces problèmes et de fournir une
qualité suffisante aux télécommunications, une réduction
conjointe des perturbations, bruit et écho, est nécessaire.
Cet article présente une synthèse des solutions retenues
pour cette double réduction dans le cadre d’une prise de
son mono-capteur et bi-capteurs.
Mots clés : Téléphone, Annuleur d'écho, Réduction bruit, Poste
téléphonique mains libres, Article synthèse, Qualité sonore, Filtrage
optimal.
AN OVERVIEW ON NOISE AND ECHO
REDUCTION IN HANDS-FREE APPLICATIONS
Abstract
In the context of modern telecommunications, hands-
free systems allow to talk in a more natural way, without
handling a telephone. This leads to new problems which
were negligible in classical telephony: the superposition
of energetic noise and echo on the speech signal. To
solve these problems and to provide a sufficient speech
quality, a joint reduction of these perturbations is nee-
ded. This paper presents a synthesis of solutions retained
to achieve this reduction in the context of mono-channel
and two-channel observations.
Key words : Telephone, Echo canceller, Noise reduction, Hands-
free telephone set, Review, Sound quality, Optimal filtering.
Sommaire
I. La double problématique des systèmes de prise de
son mains-libres
II. Notations
III. Techniques de débruitage et d’annulation d’écho
IV. Méthodes combinées pour la prise de son mono-
capteur
V. Méthodes combinées pour la prise de son bicapteurs
VI. Introduction de propriétés psychoacoustiques
VII. Conclusion
Bibliographie (58 réf.)
L’essor récent des télécommunications et plus parti-
culièrement des communications mobiles rend d’actua-
lité les problèmes inhérents à la prise de son. Le nombre
important d’articles traitant de la réduction de bruit et/ou
du contrôle de l’écho durant ces dix dernières années
témoigne de l’activité scientifique autour du problème de
l’amélioration de la qualité des signaux de parole qui res-
tent encore le support principal des télécommunications.
Une grande majorité des articles ne considère cependant
que l’un des deux problèmes, l’annulation d’écho ou
bien la réduction de bruit. Des études plus récentes ten-
tent de combiner ces deux approches afin de proposer des
solutions couplant débruitage et annulation d’écho. Cet
article propose une synthèse bibliographique de ces dif-
férentes solutions.
I. LA DOUBLE PROBLÉMATIQUE
DES SYSTÈMES DE PRISE DE SON
MAINS-LIBRES
Par leurs aspects pratiques et la diminution des
contraintes pour l’utilisateur, les systèmes de prise de
son mains-libres se sont imposés dans un certain nombre
d’applications téléphoniques. Parmi celles-ci, on peut
citer la téléconférence, l’audioconférence sur postes
téléphoniques, l’ensemble des applications mains-libres
pour les services multimédias ou encore les combinés
mains-libres pour les services de radiotéléphonie
mobile, notamment à l’intérieur des véhicules. Tous ces
* Centre National d’Études des Télécommunications – France Télécom R&D DIH/DIPS, Technopole Anticipa, 2 av. Pierre Marzin, 22307 Lannion
Cedex, France – (Christophe.Beaugeant, Pascal.Scalart@rd.francetelecom.fr)
** Laboratoire de Traitement du Signal et de l’Image – Université de Rennes 1, Bât. 22, Campus de Beaulieu, 35042 Rennes Cedex, France
(Regine.Le-Bouquin-Jeannes, Gerard.Faucon@univ-rennes1.fr)
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
539
2/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
systèmes ont pour point commun de proposer une prise
de son et une restitution du son éloignées du ou des uti-
lisateurs, ce qui présente l’avantage de libérer les locu-
teurs de la contrainte de tenir un combiné téléphonique
dans la main.
L’utilisation de ces terminaux à prise de son mains-
libres rend certes le combiné téléphonique « classique »
obsolète mais fait apparaître de nouveaux problèmes
jusqu’alors négligeables grâce à la prise de son rappro-
chée inhérente aux combinés : la réverbération, l’in-
fluence du bruit et de l’écho. De par son importance,
seule la réduction du bruit et de l’écho fera l’objet de
notre étude.
Le terme bruit ambiant désigne l’ensemble des ondes
sonores, hormis celles émises par le ou les locuteurs et
par le haut-parleur du système mains-libres, se superpo-
sant au signal utile que l’on veut transmettre.
Le terme écho, quant à lui, représente la réémission
du signal vers l’émetteur. Il est le résultat de différents
couplages, c’est-à-dire de différentes interactions entre
deux phénomènes physiques tout au long de la chaîne de
transmission de la parole. On distingue généralement trois
types de couplage (Fig. 1) : le couplage électrique dû aux
interactions au niveau du réseau (passage de deux fils à
quatre fils), le couplage solido-porté occasionné par les
interactions mécaniques (vibrations) qui peuvent exister
entre haut-parleur et microphone(s) (propagation du son
au sein d’un combiné), enfin le couplage acoustique
résultant quant à lui des interactions acoustiques (propa-
gation du son dans la salle locale) entre haut-parleur et
microphone(s). En raison des spécificités du phénomène
d’écho électrique [ERD 81], nous nous intéresserons par
la suite uniquement à l’écho engendré par un phénomène
de couplage mécanique et acoustique.
La présence d’écho et de bruit peut s’avérer très
gênante pour le locuteur distant : fatigue et difficulté de
compréhension à cause du bruit, effet déroutant d’en-
tendre sa propre voix retardée par retour de l’écho (retard
dû au temps de propagation à travers le réseau). De
même, les performances des systèmes de reconnaissance
vocale (applications multimédias, dialogue avec un véhi-
cule « intelligent ») ou celles des codeurs de parole (cas
typique du GSM) placés en aval d’un microphone d’un
système mains-libres sont diminuées par la présence de
ces perturbations. En fait, dans de nombreuses applica-
tions de télécommunications mains-libres, une améliora-
tion de la qualité des sons captés est une nécessité. Cette
amélioration passe par une réduction des deux perturba-
tions que sont l’écho et le bruit.
Face à la double problématique, présence d’écho et
présence de bruit, la solution première fut historiquement
de traiter indépendamment ces deux perturbations. On
trouve ainsi une littérature abondante concernant d’une
part la réduction de bruit (ou débruitage) [LIM 83] et
d’autre part l’annulation d’écho [HÄN 92, HÄN 94,
NAY 94]. Plus récemment, les chercheurs se sont intéres-
sés à résoudre globalement les deux problèmes – débrui-
tage et annulation d’écho – en proposant des solutions
ayant pour but de réduire de pair les deux types de per-
turbations. Après un bref aperçu des techniques de
débruitage et d’annulation d’écho acoustique, briques de
base des solutions combinées, nous nous intéresserons
aux articles proposant des solutions de réduction
conjointe de bruit et d’écho.
II. NOTATIONS
Afin de conserver une homogénéité dans l’article, il
convient de préciser un certain nombre de notations qui
permettent de symboliser mathématiquement la situation
de la prise de son mains-libres. Le schéma de la figure 2
résume ces notations.
Comme nous l’avons déjà introduit dans le para-
graphe précédent, nous nommerons locuteur distant la
personne se situant « à l’autre bout du fil », c’est-à-dire
se trouvant en conversation avec le système mains-libres.
On peut éventuellement remplacer ce locuteur par un ser-
vice de reconnaissance vocale, mais le terme locuteur dis-
tant sera conservé dans tous les cas de figure. Le terme
locuteur local (ou proche) désignera la personne (éven-
tuellement les personnes) utilisant le terminal mains-
libres.
Pour un système de prise de son monocapteur, les
signaux captés par le microphone du système mains-
libres sont :
FIG. 1. — Différents couplages.
Coupling effects.
FIG. 2. — Notations.
Notations.
la parole prononcée par le locuteur local, appelée
par la suite signal utile et notée comme étant le
signal temporel s(t);
– l’écho, noté e(t), issu du couplage solido-acous-
tique entre le haut-parleur et le microphone du ter-
minal. Le couplage s’exprime en introduisant la
réponse impulsionnelle r(t) entre haut-parleur et
microphone de telle sorte que le signal d’écho reçu
sur le microphone est issu du produit de convolu-
tion entre le signal présent sur le haut-parleur z(t) et
r(t), soit :
(1) e(t) = r(t)
*
z(t);
le bruit, noté b(t), correspondant à l’ensemble des
sources sonores captées par le microphone en
dehors du signal utile et de l’écho.
On désigne par le terme perturbation, p(t), l’ensemble
des signaux, autres que le signal utile, captés par le
microphone : p(t) = e(t) + b(t).
Finalement le signal microphonique x(t) s’écrit
comme la somme des termes décrits jusqu’à présent :
(2) .
Le bruit dû à l’environnement est supposé indépen-
dant des signaux de parole, qu’il s’agisse du signal utile
émis par le locuteur local ou du signal provenant du
haut-parleur dû au locuteur distant. Le signal utile et
l’écho sont, du reste, également supposés indépendants
entre eux.
Tout au long de cet article, nous présenterons les dif-
férentes solutions sous l’hypothèse de stationnarité des
signaux et des phénomènes physiques. Cette notion – par
ailleurs assez intuitive lorsqu’il s’agit de signaux de
parole et difficile à vérifier en pratique – constitue un
concept théorique permettant de définir les filtres opti-
maux en vue d’une réduction conjointe de bruit et
d’écho.
En pratique, les filtres du domaine fréquentiel sont
implémentés suivant le principe de l’atténuation spec-
trale à court terme, décrit en détail dans [LIM 79]. Le pas-
sage entre domaine temporel/domaine fréquentiel et
inversement (analyse/synthèse) est réalisé par TFCT/TFCTI
(transformée de Fourier à court terme et TFCT inverse)
dont l’analyse complète peut être trouvée en [CRO 83].
Cette technique utilise la propriété de stationnarité locale
des signaux de parole sur la durée d’une trame d’analyse
de l’ordre de 20 à 60 ms. Ainsi l’hypothèse de stationna-
rité supposée par la suite nous place dans un contexte
théorique qui, dans la pratique, se vérifie sur les trames
d’analyse successives.
Par ailleurs et de manière générale, on convient dans
cet article des notations suivantes :
– pour un signal temporel u(t) stationnaire, on notera
U(f) sa transformée de Fourier;
l’estimation d’une grandeur v (qu’elle soit tempo-
relle ou fréquentielle) sera notée ˆv;
– la densité interspectrale entre deux grandeurs u(t) et
v(t) sera notée γ
uv
(f);
– la notation E[] désignera l’espérance mathématique;
dans le cas d’une prise de son bicapteurs, les nota-
tions seront similaires à celles introduites jusqu’à
présent et seront indicées par 1 et 2. Ainsi on aura
x
i
(t)= s
i
(t) + e
i
(t) + b
i
(t), i {1,2}avec x
i
(t), s
i
(t),
e
i
(t) et b
i
(t) respectivement le signal micropho-
nique, le signal utile, l’écho et le bruit capté par le
microphone i (l’indice i sera de même appliqué aux
notations des transformées de Fourier et aux diffé-
rents estimateurs). Les signaux de parole provien-
nent de la même source et sont très corrélés, tandis
que les bruits sont supposés décorrélés pour une
distance entre microphones suffisante (environ
40 cm).
Introduisons dès à présent deux termes utilisés par la
suite le mode double parole (mode DP) qui correspond à
la présence simultanée de la parole locale et de l’écho
(les locuteurs proche et lointain parlent simultanément)
et le mode simple parole (mode SP) qui correspond à la
présence de l’écho seul. Dans chacun des modes, la pré-
sence de bruit est sous-entendue.
III. TECHNIQUES DE DÉBRUITAGE ET
D’ANNULATION D’ÉCHO
Les deux paragraphes suivants proposent un aperçu de
techniques de débruitage (§III.1) et d’annulation d’écho
(§III.2). Ces descriptions ne s’attachent qu’aux solutions
pouvant être reprises dans les méthodes combinant annula-
tion d’écho et débruitage décrites par la suite (§IV et V). Il
ne s’agit donc pas d’une revue exhaustive mais simplement
de notions nécessaires à la compréhension de cet article.
III.1. Les principes de débruitage
La plupart des techniques de débruitage mono-capteur
consistent à réaliser un filtrage dans le domaine fréquen-
tiel du signal microphonique x(t)=s(t)+b(t) (e(t) =0 dans
ce paragraphe). Le filtrage atténue l’amplitude de chaque
composante spectrale du signal bruité en fonction de l’es-
timation du rapport signal à bruit de cette composante.
Les méthodes diffèrent en fonction de l’atténuation
requise et de la méthode d’estimation du niveau de bruit
et du niveau de parole sur chaque composante spectrale.
Ces techniques supposent que bruit et signal utile
sont décorrélés sur la durée de la trame d’analyse, que le
signal de parole utile est intermittent et que l’oreille
humaine est insensible à la phase du signal [WAN 82]. Ces
techniques peuvent être classées en trois types :
– la soustraction spectrale de puissance [LIM 79]
consiste à soustraire une estimée de la densité
spectrale de puissance du bruit à la densité spec-
trale du signal microphonique;
x(t) = s(t) + p(t)
= s(t) + e(t) + b(t)
540
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 3/15
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
541
4/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
la soustraction spectrale d’amplitude [BOL 79,
KUS 89] consiste à soustraire à l’amplitude de X(f)
l’estimée de l’amplitude de la composante spectrale
du bruit
ˆ
B(f).
la mise en œuvre directe de la solution de Wiener
par un filtrage en boucle ouverte du signal micro-
phonique consiste à minimiser l’erreur quadratique
moyenne (EQM) [VA S 96].
Il est à noter que ces trois techniques de débruitage
sont souvent accompagnées d’une surestimation de la
puissance du bruit [BER 79] afin d’obtenir en sortie de
traitement un niveau de bruit résiduel le plus faible pos-
sible. D’autres auteurs effectuent une soustraction spec-
trale non linéaire où le facteur de surestimation dépend
du rapport signal-à-bruit à chaque fréquence [LOC 92,
MOK 92, VAN 89]. Citons également la méthode proposée
par [EPH 84] qui est un estimateur d’amplitude des com-
posantes fréquentielles du signal de parole.
Ces techniques de débruitage nécessitent l’estimation
de densités spectrales de puissance du bruit, du signal
utile, ou de rapports de densités spectrales. Les algo-
rithmes proposés dans la littérature diffèrent par la
manière d’estimer ces densités spectrales. Ce dernier
point dépasse le cadre de notre article.
III.2. Les principes de l’annulation d’écho
Les techniques usuelles d’annulation d’écho sont
principalement basées sur l’identification du canal acous-
tique r(t). Ce filtre est généralement modélisé par un
filtre à réponse impulsionnelle finie (RIF) de longueur L,
r
opt
(t). Cette modélisation linéaire peut se justifier par le
fait que le canal est, en première approximation, com-
posé essentiellement de retards et d’atténuations. La lon-
gueur L nécessaire à la modélisation sera d’autant plus
importante que le support temporel utile de la réponse
impulsionnelle sera long. Dans la pratique, ce support
temporel peut varier de quelques dizaines de milli-
secondes (habitacle d’un véhicule) à plusieurs centaines
de millisecondes (salle de conférence) (Fig. 3).
L’algorithme d’annulation d’écho va permettre l’esti-
mation du filtre r
opt
(t) par le vecteur de taille Lr
_
L
(t) à
l’aide d’un critère basé sur l’erreur d’estimation a priori.
Cette erreur d’estimation, appelée écho résiduel, s’écrit,
pour chaque échantillon t :
(3) δe(t)=x(t)r_
L
T
(t) z_
L
(t),
z_
L
(t)=[z(t),z(t1),…,z(tL+1)]
T
représente les L der-
niers échantillons du signal haut-parleur. La mise à jour
du filtre à chaque instant est effectuée par une contre-
réaction de l’erreur d’estimation proportionnellement au
gain d’adaptation noté c_
L
(t) et suivant l’équation :
(4) r
L
(t+1)=r_
L
(t)c_
L
(t)δe(t).
Les différents algorithmes d’annulation d’écho se
distinguent par le calcul du gain c_
L
(t). Ainsi, on peut
classer les algorithmes de la manière suivante :
les algorithmes dérivés du gradient stochastique
(LMS : least mean squares) [WID 85] pour lesquels le
critère d’optimisation correspond à une minimisa-
tion de l’erreur quadratique. Les versions par blocs
[CLA 81] minimisent le critère d’erreur sur un bloc
d’échantillons. Les versions fréquentielles MDF
(multidelay filter) et GMDF (generalized MDF)
[PRA 94] sont issues du passage dans le domaine
des fréquences des versions par blocs des algo-
rithmes de gradient stochastique [SOO 90];
les algorithmes de moindres carrés récursifs (RLS :
recursive least squares) sont basés sur une minimi-
sation du critère des moindres carrés à oubli expo-
nentiel donné par [HAY 91] :
(5) J(r_
L
(t))=
^
t
i=0
[λ
ti
(x(i)r_
L
T
(i) z_
L
(i))
2
],
λ∈]0,1[ est un facteur d’oubli exponentiel. Les
versions rapides de ces algorithmes, FRLS (fast RLS)
et FTF (fast transversal filter), sont dérivées du RLS
par introduction de prédicteurs avant et arrière dans
le calcul de c_
L
(t) [PET 92];
les algorithmes de projection affine (APA : affine
projection algorithm) [OZE 84] sont basés sur une
projection non plus colinéaire au vecteur d’obser-
vation du signal haut-parleur z
L
(t) comme c’est le
cas pour les algorithmes de type LMS mais sur une
projection orthogonale à l’intersection de plusieurs
hyperplans Πt (hyperplan défini comme l’ensemble
des vecteurs v(t) tels que v(t)
T
z
L
(t)=x(t)).
III.3. Contrôle de l’écho
Nous avons vu que les techniques usuelles d’annula-
tion d’écho acoustique reposent sur la mise en œuvre
d’un filtre à réponse impulsionnelle finie de longueur L.
En phase asymptotique, les coefficients du filtre adaptatif
convergent généralement vers ceux du filtre de Wiener à
FIG. 3. — Principe de l’annulation d’écho par identification
du canal.
Principle of echo cancellation by channel identification.
L coefficients qui minimisent la valeur moyenne de la
puissance de l’erreur de filtrage. Étant donné les
contraintes de coût imposées par les lois du marché, le
nombre de coefficients L est nécessairement limité à une
valeur compatible avec les caractéristiques (mémoires,
calculs) imposées par le processeur cible. En consé-
quence, il subsistera dans la majeure partie des applica-
tions un écho résiduel dont les caractéristiques peuvent
parfois conduire à son audibilité. Il est donc impératif
d’insérer dans la chaîne de transmission un dispositif lut-
tant contre cet effet ce qui conduit classiquement aux
techniques de variation de gains [GIL 88].
Le principe général de ces techniques consiste à
déterminer la voie active (émission ou réception) puis à
appliquer une valeur d’atténuation sur la voie passive.
Le contrôle de l’atténuation s’avère très délicat puisqu’il
doit répondre à un double objectif : réduire suffisam-
ment l’écho résiduel tout en minimisant les effets intro-
duits sur la parole locale et le bruit de fond. Cette
fonction joue donc un rôle très critique au sein d’un dis-
positif complet d’annulation d’écho et conditionne, dans
nombre de cas, la qualité vocale de celui-ci au même
titre que les propriétés de convergence de l’algorithme
adaptatif.
Les approches présentées jusqu’à présent proposent
des solutions spécifiques à une situation donnée : réduc-
tion de bruit ou annulation d’écho. Dans la probléma-
tique de réduction conjointe de ces deux perturbations,
les solutions retenues utilisent ces solutions comme
« briques de base », mais une réduction conjointe amène
un certain nombre de réflexions, ne serait-ce que sur
l’ordre dans lequel doivent se réaliser les deux opéra-
tions. Les sections suivantes présentent ces réflexions et
les solutions pratiques qui en découlent.
IV. MÉTHODES COMBINÉES POUR LA PRISE
DE SON MONOCAPTEUR
Cette partie a trait aux techniques développées dans
le cas où seuls un microphone et un haut-parleur sont
disponibles. Deux situations sont considérées, celle où le
filtrage est appliqué aux deux observations (microphone
et haut-parleur) et celle où le filtrage est appliqué à l’ob-
servation microphonique.
IV.1. Filtrage appliqué aux deux observations
IV.1.1. Filtre optimal
Soit le vecteur y
_
(t) constitué des observations x(t) et
z(t):
(6) y
_
(t)=[x(t) z(t)]
T
,
si l’on suppose que l’estimateur ˆs(t) de s(t) est une fonc-
tion linéaire de y
_
(t), l’erreur quadratique moyenne, dans
le domaine fréquentiel, s’écrit :
(7) E{S(f)S
ˆ
(f)
2
}=E{S(f)W_
T
(f)Y_(f)
2
}
W
_
(f) est le filtre appliqué aux deux observations.
Minimiser cette erreur par rapport à W
_
(f) conduit à l’esti-
mateur [FED 89] :
(8) S
ˆ
(f)=[Γ
1
yy
__
(f)⋅Γ
y
s
(f)]
Y
(f)
indique le transposé conjugué. Γ
yy
__
(f) désigne la
matrice de densité spectrale de puissance du vecteur y
_
(t)
et Γ
y
s
(f) est le vecteur de densité interspectrale de puis-
sance entre y
_
(t) et s(t). Après substitution, il vient :
(9) S
ˆ
(f)=
33 4
1
344
34
.
Après simplification, l’équation Eq. 9 se réduit à
[AYA 95] :
(10) S
ˆ
(f)=
3
X(f)
}
γ
γ
x
zz
z
(
(
f
f
)
)
}
Z(f)
4
.
La formule (10) traduit l’ordre dans lequel les deux
opérations réalisées se succèdent : il s’agit tout d’abord
d’une étape d’annulation d’écho réalisant l’identifica-
tion du canal (calcul du rapport γ
xz
(f)/γ
zz
(f)) suivie
d’une étape de réduction de bruit réalisée par un filtre
de Wiener. Insistons sur le fait que le filtre optimal
s’écrit comme une mise en cascade ordonnée des deux
filtres optimaux relatifs à chacune des opérations. Dans
le cas d’un annuleur d’écho optimal, l’écho est complè-
tement supprimé par le premier filtrage, laissant inchan-
gés le signal utile et le bruit. La sortie de l’annuleur
d’écho (défini par la suite par l’abréviation AEC) est
idéalement s(t) + b(t). La deuxième étape consiste à
réduire le bruit par le filtre de Wiener de gain
γ
ss
(f)/(γ
ss
(f)
bb
(f)).
IV.1.2. Structure en cascade dérivée du filtre optimal
L’une des premières structures apparaissant dans la
littérature correspond naturellement à l’implémentation
du filtre optimal pour lequel l’AEC précède le filtre de
réduction de bruit (Fig. 4) [AYA 95, GUE 96, DRE 97].
Cette structure a été évaluée en utilisant différents
filtres. Par exemple, l’identification du canal a été réali-
sée en considérant l’algorithme NLMS (normalized LMS)
et l’algorithme SDAPA2 (2
nd
order soft decision APA)
dans [SCA 96] ainsi que l’algorithme GMDF dans
[FAU 95]. Quant à l’algorithme de réduction de bruit, il
est souvent dérivé de l’estimateur proposé dans
[EPH 84], [AKB 96].
La mise en œuvre de l’AEC (longueur du filtre, désa-
justement) conduit à la présence d’un écho résiduel à sa
sortie. L’estimateur donné à l’équation Eq. 10 ne peut
donc être obtenu. Aussi d’autres structures ont-elles été
étudiées.
γ
ss
(f)
}}
γ
ss
(f)
bb
(f)
X(f)
Z(f)
γ
xs
(f)
0
γ
xx
(f) γ
xz
(f)
γ
zx
(f) γ
zz
(f)
542
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 5/15
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
543
6/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
IV.1.3. Structure « duale » du filtre optimal
Il apparaît dans la structure présentée figure 4 que le
système d’annulation d’écho est perturbé par la présence
continuelle du bruit et celle intermittente du signal utile.
Aussi, afin de minimiser l’influence du bruit sur l’AEC, a-
t-il été proposé de placer un réducteur de bruit, noté G,
en amont de ce système [FAU 95, GUE 96] (Fig. 5). Si
l’opération de réduction de bruit permet d’améliorer le
rapport signal à bruit, elle peut introduire des distorsions
non linéaires sur l’écho ce qui perturbe l’opération
d’identification. Une recopie du filtre G sur la branche
d’identification a pour objectif de réduire cette perturba-
tion potentielle [BEN 96]. Les algorithmes utilisés ici sont
ceux présentés dans la section précédente.
IV.1.4. Structure incluant un prétraitement
La structure présentée en IV.1.3 permet de réduire l’in-
fluence du bruit sur l’AEC. Si l’on s’en réfère à [FAU 95],
malgré la distorsion apportée par le filtre G, une étude
expérimentale a montré qu’il était préférable de suivre
cette procédure pour obtenir une estimée plus précise de
l’écho. Ainsi, dans la structure schématisée figure 6, l’in-
fluence du bruit est initialement amoindrie par l’introduc-
tion d’un filtre de prétraitement, dénommé G
1
. L’écho
estimé, ê(t), est alors soustrait de l’observation x(t) pour
donner la grandeur v(t)=s(t)+b(t) +e(t)ê(t). Un second
filtre de réduction de bruit, G
2
, est ensuite appliqué au
signal v(t) pour donner l’estimée finale. Il s’agit en fait
d’une structure effectuant une annulation d’écho suivie
d’une réduction de bruit comme en IV.1.2. mais incluant
un prétraitement de réduction de bruit.
IV.1.5. Structure dite « parallèle »
Cette structure reprend l’ordonnancement imposé par
le filtre optimal. La dénomination « parallèle » donnée
dans [AYA 95] s’explique par le fait que, pour déterminer
le filtre réducteur de bruit, l’analyse se fait à partir de
l’observation microphonique et non du signal issu de
l’AEC (Fig. 7). Les filtres d’annulation d’écho et de
réduction de bruit sont ainsi estimés à partir de la voie
FIG. 5. — Structure « duale » du filtre optimal.
“Dual” structure of optimal filtering.
FIG. 4. — Structure en cascade dérivée du filtre optimal.
Cascaded structure derived from optimal filtering.
FIG. 6. — Structure en cascade avec prétraitement.
Cascaded structure with preprocessing.
FIG. 7. — Structure parallèle.
Parallel structure.
544
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 7/15
microphonique. Cette structure a été proposée afin de
réduire les distorsions introduites sur le signal utile par
le réducteur de bruit lorsqu’il est calculé à partir de la
sortie de l’AEC. En termes de performances, la structure
dérivée du filtre optimal (§IV.1.2) conduit à une bonne
annulation d’écho en mode SP tandis que la structure
parallèle améliore le gain sur le rapport signal à perturba-
tion en mode DP [LEB 96a].
IV.1.6. Amélioration de l’adaptation de l’AEC
Le bruit présent à la sortie de l’annuleur d’écho per-
turbe l’adaptation de ce dernier. Dans [CAP 96], il est pro-
posé d’effectuer une réduction de bruit symbolisée par
G
1
à la sortie de l’AEC pour réduire l’influence du bruit
sur l’adaptation de l’annuleur d’écho (Fig. 8). Un second
filtre noté G
2
permet d’obtenir une structure comparable
à la structure dérivée du filtre optimal. Pour l’annulation
d’écho, l’algorithme MDFO (multi-delay frequency
domain algorithm with overlap) est utilisé et traite les
blocs d’échantillons d’entrée avec un recouvrement
supérieur à la moitié de la taille de la FFT (fast Fourier
transform) afin d’améliorer les performances et de
réduire le délai. L’algorithme NSS (non-linear spectral
subtraction) est utilisé pour réduire le bruit [LOC 92].
IV.2. Filtrage appliqué à l’observation
microphonique
Précédemment, le filtrage optimal était appliqué aux
deux observations, microphone et haut-parleur. Les solu-
tions présentées maintenant conduisent à l’estimation
d’un filtre qui, appliqué au seul signal microphonique,
réduit de manière globale l’ensemble des composantes
constituant la perturbation. L’information provenant du
haut-parleur reste utile pour calculer le filtrage.
IV.2.1. Filtre optimal
L’erreur quadratique moyenne dans le domaine fré-
quentiel s’écrit
(11) E{)S(f)S
ˆ
(f))
2
}=E{)S(f)W(f)X(f))
2
}
W(f) est le filtre appliqué à l’observation micropho-
nique. Minimiser cette erreur par rapport à W(f) conduit à :
(12) S
ˆ
(f)=[γ
1
xx
(f)⋅γ
xs
(f)]
*
X(f)
où * représente l’opération de conjugaison.
Le filtre W(f) peut s’écrire
(13) W(f)=
}
γ
γ
x
sx
x
(
(
f
f
)
)
}
,
=
}
1+
RS
R
P
S
(
P
f)
(f)
}
avec RSP(f)=
}
γ
γ
p
ss
p
(
(
f
f
)
)
}
.
Différentes expressions du filtre peuvent être données
qui font apparaître les densités spectrales de différents
signaux conduisant à l’écriture de W(f) sous la forme
d’un seul filtre ou de plusieurs filtres en cascade.
IV.2.2. Mises en œuvre du filtre optimal
Les expressions suivantes ont été proposées dans
[BEA 98a] :
(14) W(f)= ,
(15) W(f)= .
RSE(f)=
}
γ
γ
e
ss
e
(
(
f
f
)
)
}
,
RSB(f)=
}
γ
γ
b
ss
b
(
(
f
f
)
)
}
,
REB(f)=
}
γ
γ
b
ee
b
(
(
f
f
)
)
}
.
Par opposition, d’autres travaux [AYA 97 b] réalisent
W(f) par la mise en cascade de plusieurs filtres, l’un rela-
tif à la réduction de bruit, l’autre à la réduction de l’écho.
Ainsi, le filtre W(f) peut se mettre sous la forme :
(16) W(f)=
}
1+
RD
RD
E(
E
f)
(f)
}
}
1+
RS
R
B
S
(
B
f)
(f)
}
,
qui peut encore s’écrire :
(17) W(f)=[1MSC
xz
(f)]
}
1+
RS
R
B
S
(
B
f)
(f)
}
RDE(f) = et MSC
xz
(f) =
désigne le carré du module de la fonction de cohérence
entre les voies d’émission et de réception.
Le calcul de la fonction de transfert du filtre se
ramène alors au problème de l’estimation des différents
rapports entre densités spectrales des différents signaux.
Ces estimateurs conduisent en pratique à des comporte-
ments différents du filtre W(f) en raison des propriétés
des estimateurs des paramètres RSE(f), RSB(f), REB(f),
RDE(f) et MSC
xz
(f).
En [BEA 98a, AYA 97b], il est proposé d’estimer la
densité spectrale de puissance du signal utile en utilisant
une approche à « décisions dirigées », initialement intro-
)γ
xz
(f))
2
}}
γ
xx
(f)γ
zz
(f)
γ
(s+b)(s+b)
(f)
}}
γ
ee
(f)
1
}}}
1+[RSB(f)]
1
[1 +REB(f)]
1
}}}
1+[RSE(f)]
1
+[RSB(f)]
1
FIG. 8. — Réduction de bruit pour l’adaptation de l’AEC.
Noise reduction for
AEC adaptation.
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
545
8/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
duite dans [EPH 84]. La densité spectrale de puissance du
signal d’écho est estimée suivant :
(18)
γ
ee
(f)=
}
)γ
γ
x
z
z
z
(
(
f
f
)
)
)
2
}
.
Cette technique de filtrage de l’observation micro-
phonique ouvre de très vastes perspectives. En effet,
l’estimation classique du signal d’écho par identifica-
tion adaptative du canal entre le haut-parleur et le
microphone fournit une information trop riche par rap-
port à son utilisation finale dans la mise en œuvre du
traitement global. En effet, ce dernier ne nécessite, dans
ce cas particulier, qu’une estimation de la densité spec-
trale du signal perturbateur.
De telles perspectives sont intéressantes car elles
conduisent à terme à supprimer le dispositif d’annulation
adaptative de l’écho, inhérent aux solutions classiques
présentées dans la section III.2, et permettent d’envisa-
ger le développement de futurs systèmes à moindres
coûts. Cet aspect semble particulièrement important dans
le contexte des radiocommunications avec les mobiles
GSM (global system for mobile) où les contraintes de coût
jouent un rôle primordial dans le développement des
futurs terminaux mains-libres et des nouveaux services
mobiles.
IV.3. Annulation d’écho et post-filtrage
Si l’on se réfère au filtre optimal appliqué aux deux
observations (section IV.1), nous avons vu que celui-ci
considérait le cas idéal où l’écho est complètement sup-
primé en sortie du premier étage d’AEC. En pratique, un
écho résiduel subsiste, et il est nécessaire de modifier le
second étage (initialement un filtre de réduction de bruit)
afin de réduire à la fois l’influence du bruit et celle de
l’écho résiduel. Plusieurs auteurs ont proposé d’utiliser,
pour ce second étage, les filtres décrits à la section IV.2.
On peut distinguer deux classes suivant que le filtrage du
second étage est implémenté en boucle fermée ou en
boucle ouverte.
IV.3.1. Estimation du post-filtre en boucle fermée
Dans l’approche développée en [MAR 95b], le
second étage est implémenté suivant une structure en
boucle fermée.
Tout d’abord, un nouveau signal w(t) (Fig. 9) est créé
par pondération du signal microphonique et de la sortie
y(t) de l’AEC :
(19) w(t)=a(t)x(t)+(1a(t))y(t)
a(t) est un coefficient adaptatif dans la gamme [0,1].
Ce signal sert de référence à un filtrage adaptatif de type
NLMS (normalized LMS) dont la voie principale est la sor-
tie de l’AEC retardée de D échantillons pour obtenir des
composantes de bruit décorrélées. Ce filtre G, implanté
dans le domaine temporel, est recopié dans un second
filtre qui est appliqué à la sortie de l’AEC pour obtenir le
signal estimé. L’intérêt de cette solution repose sur la
faible dimension du second étage. Une analyse dans le
domaine fréquentiel a été proposée dans [TUR 98] où il
est montré que le gain du post-filtre optimal s’écrit :
(20) G(f)=
β représente l’atténuation scalaire du signal d’écho
telle que :
(21) e(t)ê(t) e(t)
et RDE(f) est le rapport défini en IV.2.2.
Il est alors possible de connaître l’atténuation appor-
tée par le filtre en fonction du rapport RDE(f) et ce, pour
différentes valeurs du facteur de mélange a(t) et de l’atté-
nuation β. Le post-filtre apporte une atténuation maxi-
male pour a(t)= 1 et pour la situation d’écho seul. Dans
ce cas, pour RDE(f)<<β, l’atténuation apportée par le
post-filtre est égale à celle obtenue par l’annuleur. Pour
RDE(f)>>1, ce qui correspond à des séquences de parole
locale seule, le gain du filtre est proche de 1, ce qui signi-
fie que le post-filtrage ne modifie pas le signal utile.
En mode DP, le choix d’une valeur intermédiaire pour
le facteur de mélange, par exemple a(t)= 0,3, permet de
réduire l’atténuation du post-filtre et ainsi de limiter la
distorsion apportée au signal de parole local. Cette étude
asymptotique montre l’importance du choix du facteur
d’adaptation en fonction des conditions. Une règle
d’adaptation est ainsi proposée en [MAR 95b] où le fac-
teur de mélange dépend d’un autre facteur mesurant l’ac-
tivité vocale du locuteur proche et du locuteur distant. En
pratique, la vitesse de convergence et l’erreur d’identifi-
cation du post-filtre sont déterminées par son pas d’adap-
tation. La non-stationnarité et la corrélation des signaux
de parole ne permettent pas de retrouver l’atténuation
maximale. Les simulations effectuées dans [MAR 95b]
RDE(f)[β+ a(1β)]
}}}
RDE(f)+[β+ a(1−β)]
2
FIG. 9. — Annulation d’écho et post-filtrage en boucle fermée.
AEC followed by a closed-loop post-filter.
546
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 9/15
démontrent néanmoins l’intérêt de ce système combiné
qui permet de réduire d’un tiers le nombre de coefficients
de l’AEC pour une même atténuation d’écho. (Fig. 9)
IV.3.2. Estimation du post-filtre en boucle ouverte
Dans l’approche développée par [TUR 98, GUS 98b],
le second étage opère en boucle ouverte sur la sortie de
l’annuleur d’écho, il est constitué du filtre G
b,δe
implanté
dans le domaine fréquentiel conformément à l’équation
Eq. 13 où la perturbation est ici composée de la somme
du bruit et de l’écho résiduel. Son but est de pallier les
mauvaises performances de l’AEC et de réduire le bruit
(Fig. 10).
Les performances d’un tel dispositif dépendent du
rapport de l’énergie de l’écho résiduel à celle du bruit
ambiant et donc de l’application envisagée. Si l’on consi-
dère le cas où il subsiste en sortie de l’AEC un écho rési-
duel très énergétique par rapport au bruit ambiant
()δe(t))>>)b(t))) [TUR 98] (ce qui est typiquement le cas de
la téléconférence), le filtre G
b,δe
peut être considéré
comme une généralisation dans le domaine fréquentiel
du principe de la variation de gain exposé en section III.3
[TUR 97a]. Pour une longueur L de la réponse impulsion-
nelle de couplage r
opt
(t), l’association AEC/post-filtre
considère la décomposition suivante :
(22) r
opt
(t)=r
dir
(t)+r
res
(t)
r
dir
(t) désigne les N premiers coefficients de r
opt
(t)
(N<L), et r
res
(t) les (LN) derniers. Le premier étage
(AEC) a pour but d’identifier r
dir
(t) tandis que le post-filtre
G
b,δe
réduit l’écho résiduel e
res
(t)=z(t)*r
res
(t). Lorsque
N<<L, cette solution permet de diminuer la complexité
en proposant un filtre d’AEC court par rapport à l’utilisa-
tion d’un filtre unique de taille L cherchant à identifier
r
opt
(t). Dans le contexte de la téléconférence [BEA 98a],
cette solution permet de réduire de 3/4 la longueur de
l’AEC.
Lorsque le bruit ambiant n’est plus négligeable (ce
qui est notamment le cas de la téléphonie mobile), le
filtre G
b,δe
de la figure 10 réduit à la fois bruit et écho
résiduel [GUS 98a, BEA 98b, GUS 99]. Cette double réduc-
tion est réalisée à partir de l’analyse exposée en sec-
tion IV.2. Une étude comparative de plusieurs techniques
est présentée dans [BEA 98b] et montre que les perfor-
mances de l’association AEC/post-filtre sont meilleures en
comparaison de celles données par les filtres issus des
relations Eq. 10 et Eq. 13.
IV.4. Choix d’une solution particulière
Il est relativement difficile de trouver dans la litté-
rature des analyses comparatives des performances
des différentes solutions présentées. Néanmoins, il
semble logique de sélectionner un algorithme particu-
lier en fonction de ses performances intrinsèques et
des contraintes en temps réel de l’application envisa-
gée (complexité algorithmique, retard introduit par le
traitement).
Mesurer et quantifier la qualité vocale du signal dis-
ponible en sortie de traitement demeure relativement
difficile. L’impression subjective globale résulte d’un
compromis entre réduction du signal perturbateur et
distorsions introduites sur le signal de parole. Nous
donnons tout d’abord quelques résultats subjectifs rela-
tifs aux méthodes que nous avons nous-mêmes déve-
loppées. Nous avons seulement conduit un test de type
CCR (comparison category rating). Un test de type ACR
(absolute category rating) ne nous aurait pas permis de
comparer les notes obtenues à celles trouvées dans la
littérature, les bases de données étant différentes. Nos
tests de type CCR sont effectués sur une base de données
couvrant une large gamme de situations réelles,
incluant des modes de simple parole et de double parole
de même que des situations faiblement et fortement
bruitées [BEA 99]. Le test de type CCR consiste à faire
écouter une série de paires de signaux sonores A-B, et
pour lequel l’échelle de dégradation comporte 7 valeurs
discrètes, allant de 3 à –3 (3 correspond à une qualité
du deuxième signal bien meilleure par rapport au pre-
mier tandis qu’une valeur de –3 correspond à une qua-
lité très inférieure). La structure d’annulation d’écho et
post-filtre (§IV.3.2), pour laquelle de simples tests
informels indiquent de bonnes performances, a été prise
comme signal de référence. Les notes moyennes rela-
tives par rapport à cette structure sont les suivantes :
structure cascade dérivée du filtre optimal (§IV.1.2) :
–0,33; structure duale du filtre optimal (§IV.1.3) :
–0,25; structure en cascade avec prétraitement
(§IV.1.4) : –0,15; filtrage appliqué à l’observation
microphonique (§IV.2.2) : –0,2.
Si l’on se réfère à ces résultats et à ceux présentés
dans [BEA 99] (mesures objectives et tests subjectifs),
nous pouvons constater que, sur l’ensemble des condi-
tions envisagées, la structure associant annulation d’écho
FIG. 10. — Annulation d’écho et post-filtre en boucle ouverte.
Echo cancelling followed by an open-loop post-filter.
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
547
10/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
et post-filtre (§IV.3.2) permet d’obtenir une meilleure
qualité vocale que les solutions données en IV.1 et IV.2.
La double réduction d’écho (obtenue par l’annuleur
d’écho adaptatif mais aussi par le post-filtre) permet d’ob-
tenir une bonne atténuation de l’écho même en conditions
bruitées ce qui permet, dans ce cas, de pallier les difficul-
tés de convergence du filtre adaptatif d’annulation d’écho.
Si une préférence pour la solution associant annula-
tion d’écho et post-filtre (§IV.3.2) est claire, l’application
directe d’un filtre optimal appliqué à l’observation
microphonique seule (§IV.2.2) est loin d’être dépourvue
d’intérêt. En conditions bruitées, cette solution est tou-
jours préférée aux solutions en cascade (§IV.1). Toute-
fois, les performances de la solution du paragraphe
IV.2.2 sont, dans de nombreuses conditions de bruit et
d’écho, équivalentes à celles de l’algorithme donné au
§IV.3.2 tant que le rapport de puissance entre écho et
bruit reste inférieur à 5 dB.
D’autre part, la complexité des différentes solutions
doit également être prise en compte. Considérons comme
structure de référence la solution en cascade dérivée du
filtre optimal (§IV.1.2) pour laquelle annulation d’écho et
réduction de bruit sont réalisées dans le domaine fré-
quentiel (solution à complexité réduite référencée par
Cmplx
0
dans la table I). Par rapport à cette solution de
référence, il est immédiat de constater que les structures
duales (§IV.1.3), avec prétraitement (§IV.1.4), ou avec
réduction de bruit pour l’adaptation de l’AEC (§IV.1.6)
possèdent une complexité plus importante liée à l’inser-
tion d’un second filtre de réduction de bruit.
Comparer dans l’absolu les différentes solutions
algorithmiques présentées dans cette section demeure
relativement difficile compte tenu des choix spécifiques
d’implémentation qui peuvent être effectués. À titre
d’exemple, afin d’analyser l’intérêt des solutions réali-
sant un filtrage direct de l’observation microphonique,
comparons la complexité algorithmique des deux solu-
tions suivantes : la structure en cascade dérivée du filtre
optimal (§IV.1.2) et le filtrage appliqué à l’observation
microphonique (§IV.2.2). En ce qui concerne la première
solution, nous considérons que l’annulation d’écho
acoustique est réalisée à partir de l’algorithme GMDFα
comportant L = 512coefficients. Cet algorithme néces-
site environ α[(8K+12)b+2K13] opérations lorsque la
procédure d’adaptation est effectuée sous contrainte
[MOU 95]. La complexité de calcul des FFT à N
FFT
= 256
points est évaluée à partir de l’algorithme réel split-radix.
Les paramètres de l’algorithme sont les suivants : facteur
de recouvrement α égal à 4, taille de bloc N=2
b
=128
échantillons, décomposition de la réponse impulsionnelle
en K blocs : K = L / N = 4. D’autre part, le filtre de
réduction de bruit correspond à un filtre de Wiener
implémenté en boucle ouverte dans le domaine fréquen-
tiel. Nous considérons que le recouvrement entre trames
successives est de 50 % et que la taille de la FFT (et de la
FFT inverse) est égale au double de la longueur du bloc N
de l’algorithme GMDFα. Pour la seconde solution, nous
considérons le filtre optimal donné par la relation Eq. 17
pour lequel la mise œuvre nécessite également un recou-
vrement de 50 % entre trames successives. Dans le
domaine fréquentiel, nous supposons que les estimations
des densités spectrales de puissance sont effectuées sur
(1+N
FFT
/2) points en raison de la symétrie hermitienne
des signaux réels. Afin de produire N
FFT
/2 échantillons
en sortie de traitement, cet algorithme nécessite approxi-
mativement 21[1+N
FFT
/2]+3Cmplx(FFT)opérations
réelles. Les complexités de la structure en cascade
(§IV.1.2) et celle de l’annulation d’écho suivie d’un post-
filtrage (§IV.3.2) sont pratiquement équivalentes et
nécessitent environ 18 fois plus d’opérations que la
structure décrite en section IV.2.2.
V. MÉTHODES COMBINÉES POUR LA PRISE
DE SON BICAPTEURS
Nous traitons maintenant le cas où deux microphones
et un haut-parleur sont disponibles. On suppose que le
TABLEAU I. — Complexité relative des différentes structures dans le cas monovoie
(Mul : opérateur de multiplication réelle,
Add : opérateur d’addition réelle)
(Cmplx
0
: complexité de la solution du paragraphe IV.1.2
prise comme référence).
Relative complexity of the different one-channel techniques.
Complexité algorithmique
Structure cascade dérivée du filtre optimal (§IV.1.2) Cmplx
0
= Cmplx[AEC] + Cmplx[G] + Cmplx[2 FFT, 1 IFFT]
Structure « duale » du filtre optimal (§IV.1.3) Cmplx
0
+(2+N
FFT
) Mul
Structure en cascade avec prétraitement (§IV.1.4) Cmplx
0
+(2+N
FFT
) Mul + (2+N
FFT
) Add + Cmplx[G]
Structure Parallèle (§IV.1.5) Cmplx
0
Réduction de bruit pour adaptation AEC (§IV.1.6) Cmplx
0
+(2+N
FFT
) Mul + Cmplx[G]
Filtrage appliqué à l’observation microphonique (§IV.2) Cmplx[W] + Cmplx[2 FFT, 1 IFFT]
AEC et post-filtrage en boucle ouverte (§IV.3.2) Cmplx
0
– Cmplx[G] + Cmplx[G
b,δe
]
548
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 11/15
signal à estimer est le signal présent sur la première voie,
c’est-à-dire s
1
(t). Comme précédemment pour la prise de
son monocapteur, deux situations sont envisagées, celle
où le filtrage est appliqué aux trois observations, et celle
où il est appliqué aux deux observations microphoniques.
V.1. Filtrage appliqué aux trois observations
Soit le vecteur y
_
(t) constitué des observations x
1
(t),
x
2
(t)etz(t):
(23) y
_
(t)=[x
1
(t) x
2
(t) z(t)]
T
.
L’erreur quadratique moyenne dans le domaine fré-
quentiel s’écrit :
(24) E{)S
1
(f)S
ˆ
1
(f))
2
}=E{)S
1
(f)W_
T
(f)Y
(f))
2
}.
En minimisant cette erreur par rapport au filtre W
_
(f),
on obtient l’estimateur :
(25) S
ˆ
1
(f)=[Γ
1
yy
__
(f) Γ
y
_
s
1
(f)]
Y_(f)].
Il vient alors [LEB 96b]
(26) S
ˆ
1
(f)=
1
.
Après simplification, et en rappelant que les bruits
sont supposés décorrélés, cette équation devient :
(27) S
ˆ
1
(f)= X
1
(f)
}
γ
γ
x
z
1
z
z
(
(
f
f
)
)
}
Z(f)
}
γ
s
1
s
1
(
f)
(
γ
f
b
)
2
b
2
(f)
}
+ X
2
(f)
}
γ
γ
x
z
2
z
z
(
(
f
f
)
)
}
Z(f)
}
γ
s
1
s
2
(
f)
(
γ
f
b
)
1
b
1
(f)
}
(28) (f)
s
1
s
1
(f) γ
b
2
b
2
(f)
s
2
s
2
(f) γ
b
1
b
1
(f)
b
1
b
1
(f) γ
b
2
b
2
(f).
L’équation Eq. 27 correspond à une annulation
d’écho sur chaque voie suivie d’une réduction de bruit
effectuée par un filtre de Wiener vectoriel. En effet, la
sortie de chaque annuleur d’écho idéal ne contient que
les signaux issus du locuteur proche et les bruits
ambiants, les échos étant complètement supprimés. Le
système réducteur de bruit a idéalement pour entrées :
s
1
(t)+b
1
(t)et s
2
(t)+b
2
(t) et estime s
1
(t) à partir de ces
deux entrées. Le filtre de Wiener vectoriel pour la réduc-
tion de bruit, H
_
(f), est donné par :
(29) H
_
(f)=
}
γ
s
1
s
1
(
f)
(
γ
f
b
)
2
b
2
(f)
}
,
}
γ
s
1
s
2
(
f)
(
γ
f
b
)
1
b
1
(f)
}
.
Comme dans le cas d’un seul microphone, on dis-
tingue deux opérations, l’annulation d’écho suivie d’une
réduction de bruit. La structure donnée dans [LEB 96b,
AYA 97a] correspond à l’implémentation de ce filtre opti-
mal où l’annulation d’écho est réalisée par l’algorithme
GMDF tandis que la réduction de bruit est la technique PSI
(preprocessing + signal identification). Celle-ci com-
prend trois étapes, la première effectue sur chaque voie
un filtrage de Wiener prenant en compte l’incertitude sur
la présence du signal appliqué sur chaque voie. La
seconde étape consiste à identifier le signal présent sur la
voie 1 à partir de la voie 2 pour donner une autre estimée
de s
1
(t). Finalement, dans une troisième étape, on effec-
tue la demi-somme des deux estimées de s
1
(t) et le signal
temporel est obtenu par transformée de Fourier inverse
et recouvrement [AKB 95].
Comme dans le cas monovoie, le système d’annula-
tion d’écho est perturbé par la présence du bruit. En
reprenant la démarche développée pour le cas mono-
voie, dans [LEB 96b] un réducteur de bruit est placé sur
chacune des observations en amont de la structure pré-
cédente (Fig. 11). Malgré la distorsion apportée par le
filtre réducteur de bruit, une étude expérimentale
montre que l’écho est mieux estimé, l’influence du
bruit étant réduite par l’introduction du prétraitement.
Chaque écho estimé est soustrait de l’observation cor-
respondante. Le réducteur de bruit vectoriel est appli-
qué aux deux nouvelles grandeurs obtenues. Dans le
prétraitement effectuant la réduction de bruit sur chaque
observation, un compromis doit être trouvé entre distor-
sion et réduction de bruit; un filtrage de Wiener avec
prise en compte de l’incertitude sur la présence du
signal est calculé, et la réduction de bruit est rendue
X
1
(f)
X
2
(f)
Z(f)
γ
x
1
s
1
(f)
γ
x
2
s
1
(f)
0
γ
x
1
x
1
(f) γ
x
1
x
2
(f) γ
x
1
z
(f)
γ
x
2
x
1
(f) γ
x
2
x
2
(f) γ
x
2
z
(f)
γ
zx
1
(f) γ
zx
2
(f) γ
zz
(f)
FIG. 11. — Traitement bi-voies avec prétraitement.
Two-channel processing with preprocessing.
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
549
12/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
plus ou moins sévère en élevant le filtrage à une puis-
sance donnée.
V.2. Filtrage appliqué aux deux observations
microphoniques
En considérant le cas où les observations à filtrer sont
les 2 voies microphoniques, [AYA 97a, AYA 97b], on écrit :
(30) y
_
(t)=[x
1
(t) x
2
(t)]
T
.
L’estimateur ˆs
1
(t) de s
1
(t), minimisant l’erreur qua-
dratique dans le domaine fréquentiel, est donné par
(31) E{)S
1
(f)S
ˆ
1
(f))
2
}=E{)S
1
(f)W_
T
(f)Y
(f))
2
}.
L’estimateur optimal reste donné par Eq. 5, soit :
(32) S
ˆ
1
(f)=
33 4
1
344
34
ou encore :
(33) S
ˆ
1
(f)= X
1
(f)
}
γ
γ
x
x
1
2
x
x
2
2
(
(
f
f
)
)
}
X
2
(f)
}
γ
γ
x
s
1
1
s
x
1
1
(
(
f
f
)
)
}
MSC
x
1
x
2
(f) X
1
(f)
}
γ
γ
x
x
1
2
x
x
2
2
(
(
f
f
)
)
}
X
2
(f)
}
γ
γ
x
s
1
1
x
x
2
2
(
(
f
f
)
)
}
}
1MS
1
C
x
1
x
2
(f)
}
MSC
x
1
x
2
(f) est le module carré de la cohérence entre
x
1
(t) et x
2
(t).
Le principe de cette approche est identique à celui
donné dans le cas monovoie en IV.2.2. La complexité est
d’autant plus réduite que l’on se trouve en bivoies.
En termes d’appréciation, il est plus difficile de don-
ner des résultats objectifs sur la qualité de la parole puis-
que le signal à estimer est s
1
(t) et que toute influence de
s
2
(t) sur la sortie finale n’est pas obligatoirement préjudi-
ciable à l’écoute. Des tests subjectifs montrent l’intérêt de
l’approche du filtre appliqué aux observations micropho-
niques qui donne des résultats comparables à celle où le
filtre est appliqué aux trois observations [AYA 97b], et ce
pour une complexité réduite. Nous retrouvons ainsi les
mêmes conclusions que pour la prise de son monocapteur.
V.3. Annulation d’écho et post-filtrage
Le concept donné en IV.3.1 est repris dans [MAR 95a,
MAR 95b, MAR 95c] pour l’appliquer au cas bi-voies. Une
annulation d’écho est effectuée sur chacune des voies
(Fig. 12). Chaque observation microphonique et la sortie
de l’annuleur d’écho correspondant sont mélangées
comme dans l’équation Eq. 19 pour fournir deux signaux
g
1
(t) et g
2
(t). Chacun de ces signaux sert de référence à un
filtrage adaptatif de type NLMS dont la voie principale est la
sortie de l’annuleur d’écho de l’autre voie retardée de D
échantillons. On obtient ainsi deux filtres G
1
et G
2
. Une
recopie de ces filtres permet d’appliquer à la demi-somme
des sorties d’annuleur d’écho un filtre G égal à
(G
1
+G
2
)/2. La principale différence par rapport à la struc-
ture donnée en monovoie est que les filtres G
1
et G
2
utili-
sent une voie de référence et une voie principale prises sur
deux voies différentes. Les paroles locales sont fortement
corrélées et sont transmises par ces filtres sans modifica-
tion. Une compensation de délai est nécessaire si le locu-
teur local n’est pas dans une position symétrique par
rapport aux microphones. Cette compensation (non mon-
trée sur la figure 12), rendue adaptative pour tenir compte
des mouvements du locuteur, est réalisée au moyen d’un
estimateur d’intercorrélation adaptatif.
VI. INTRODUCTION DE PROPRIÉTÉS
PSYCHOACOUSTIQUES
La connaissance du fonctionnement de l’oreille et des
relations entre les sensations auditives et les stimuli acous-
tiques constituent l’une des clés du problème de la prise
du son et de sa restitution. En effet, dans tout système où
le signal de parole représente le message essentiel à trans-
mettre, l’oreille de l’abonné constitue le récepteur d’infor-
mations. Il est judicieux d’en connaître les caractéristiques
afin d’optimiser le traitement du signal vocal et générer un
message fidèle et agréable à écouter. Ce souci peut se
X
1
(f)
X
2
(f)
γ
x
1
s
(f)
γ
x
2
s
(f)
γ
x
1
x
1
(f) γ
x
1
x
2
(f)
γ
x
2
x
1
(f) γ
x
2
x
2
(f)
FIG. 12. — Annulation d’écho et post-filtrage en bi-voies.
Two-channel echo canceller and post-filter.
matérialiser par la prise en compte de contraintes liées aux
propriétés de l’oreille humaine dans les traitements de
réduction de bruit et d’annulation d’écho.
Le domaine de la psychoacoustique fait intervenir la
notion d’effet de masque, c’est-à-dire le fait qu’un son
peut rendre un autre son partiellement ou complètement
inaudible. Dans le domaine fréquentiel, ce concept cor-
respond à la notion de masquage simultané [ZWI 67].
Lorsque le signal utile masque la (ou les) perturbation(s),
le traitement de réduction de bruit et/ou d’annulation
d’écho devient inutile. Ne pas effectuer le traitement per-
met de limiter les dégradations apportées au signal utile.
L’exploitation de cette propriété constitue l’essentiel de
l’apport de la psychoacoustique dans les traitements pré-
sentés précédemment.
Une notion importante concerne la courbe de mas-
quage du signal utile, Masc(f), qui permet de déterminer
le niveau à partir duquel les composantes fréquentielles
du signal perturbateur peuvent être considérées comme
audibles (composantes non masquées) ou inaudibles
(composantes masquées). En supposant connue dans un
premier temps la courbe de masquage, Masc(f), le prin-
cipe général du filtrage sous contraintes psychoacous-
tiques peut alors s’exprimer comme suit :
(34) S
ˆ
1
(f)=
5
.
Cette dernière relation exprime simplement le fait
qu’il n’est pas nécessaire d’appliquer le filtre de réduc-
tion des perturbations W(f) lorsque la densité spectrale de
puissance du signal perturbateur γ
pp
(f) est inférieure au
seuil de masquage Masc(f).
La pertinence d’une telle procédure est liée à la vali-
dité du modèle utilisé pour estimer le seuil de masquage.
Les différentes méthodes proposées dans la littérature
pour calculer celui-ci ont principalement pour applica-
tions le codage de parole et la réduction de bruit [ISO 92,
AKB 95, TSO 93]. Par rapport à ces travaux, la réduction
de bruit et d’écho fait intervenir la propriété originale de
masquage d’un signal de parole (l’écho acoustique) par
un autre signal de parole (la parole locale). Le calcul de
Masc(f) doit donc être modifié par rapport aux techniques
classiques qui considèrent uniquement le masquage du
bruit par un signal de parole [JOH 88, ISO 92]. Une solu-
tion proposée dans [TUR 97b, TUR 97c] consiste à utiliser
une technique dite « hybride » qui permet d’optimiser le
calcul du seuil de masquage, notamment dans les basses
fréquences où les distorsions se révèlent les plus audibles.
VII. CONCLUSION
Le bruit et l’écho constituent des phénomènes inhé-
rents au développement de terminaux mains-libres. Cet
article présente une synthèse des activités de recherche
menées sur le problème de la réduction conjointe de ces
deux signaux perturbateurs pour une prise de son de type
monocapteur ou bicapteurs. Les solutions algorithmiques
présentées se répartissent en deux familles principales
suivant que le filtre optimal est évalué à partir des
signaux microphoniques seuls, ou bien à partir de l’en-
semble des signaux d’observation (i.e. voie haut-parleur
comprise). La première famille d’algorithmes offre
l’avantage de proposer des solutions dont la complexité
arithmétique est fortement réduite, mais au prix de dis-
torsions introduites sur la parole à transmettre.
Privilégier l’une ou l’autre de ces approches demeure
difficile d’autant plus qu’elles ne sont que très rarement
comparées dans la littérature. En réalité, un tel choix doit
émaner d’un compromis complexe entre les contraintes
liées à l’environnement acoustique du terminal, celles
liées au coût et celles relevant de la qualité vocale. Pour
des applications où la qualité vocale est à privilégier, il
est préférable de s’orienter vers des solutions où le filtre
est appliqué à l’ensemble des signaux d’observation. Par
contre, lorsque les contraintes de coût prévalent, les tech-
niques à base du filtrage des voies microphoniques seules
sont plus appropriées.
Même si les prévisions actuelles conduisent à miser
en faveur de la transmission de données, il ne fait aucun
doute que le message vocal continuera à jouer à l’avenir
un rôle prédominant dans les usages de notre société. À
ce titre, l’amélioration de la qualité vocale demeure une
préoccupation majeure, d’autant plus qu’elle constitue un
outil de différentiation dans un contexte concurrentiel tel
que celui des télécommunications. Afin de maîtriser cette
qualité vocale, plusieurs travaux se sont récemment
orientés vers la recherche d’une solution optimisée à une
problématique plus large. Dans le domaine des termi-
naux mobiles pour les réseaux cellulaires, ceci conduit
par exemple à optimiser globalement traitements de
réduction de bruit et opérations de codage de source
[MAR 99, MAL 99], soit donc à ne plus considérer ces
deux problèmes comme indépendants.
Améliorer la qualité de la parole sous-entend la possi-
bilité de mesurer cette qualité. Dans ce domaine, les
mesures objectives et les méthodologies d’évaluation res-
tent peu nombreuses et souvent peu adaptées à l’évalua-
tion des traitements de la parole. Ainsi, la gêne engendrée
par le bruit et l’écho est réelle, les techniques de réduction
de ces perturbations existent mais il est difficile de préciser
la correspondance entre perception et filtrage. Afin de pou-
voir réellement comparer les techniques entre elles, d’har-
moniser les résultats et de juger de la qualité vocale d’un
système, une réflexion importante reste à mener.
Manuscrit reçu le 28 juillet 1999
accepté le 27 mars 2000
RÉFÉRENCES
[AKB 95] AKBARI (A.), Rehaussement de la parole en ambiance
bruitée, Application aux télécommunications mains-
libres, Thèse de l’Université de Rennes 1, (1995).
si γ
pp
(f) Masc(f)
sinon
X(f)
W(f)X(f)
550
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 13/15
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
551
14/15 ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000
[AKB 96] AKBARI (A.), LE BOUQUIN-JEANNES (R.), FAUCON (G.).
Speech enhancement using a Wiener filtering under
signal presence uncertainty, Proc. EUSIPCO, Trieste,
Italy, (1996), pp. 971-974.
[AYA 95] AYA D (B.), FAUCON (G.), Acoustic echo and noise can-
celling for hands-free communication systems, Interna-
tional Workshop on Acoustic Echo Control, Roros, Nor-
way, (1995), pp. 48-51.
[AYA 97a] AYA D (B.), LE BOUQUIN-JEANNES (R.), FAUCON (G.),
Acoustic echo and noise reduction : a novel approach.
International Workshop on Acoustic Echo Control, Lon-
don, United Kingdom, (1997), pp. 168-171.
[AYA 97b] AYAD (B.), Systèmes combinés d’annulation d’écho
acoustique et de réduction de bruit pour les terminaux
mains-libres, Thèse de l’Université de Rennes 1, (1997).
[BEA 98a] BEAUGEANT (C.), TURBIN (V.), SCALART (P.), GILLOIRE
(A.), New optimal filtering approaches for hands-free
telecommunication terminals, Signal Processing,
(1998), 64, pp. 33-47.
[BEA 98b] BEAUGEANT (C.), SCALART (P.), Combined systems for
noise reduction and echo cancellation, Proc. EUSIPCO,
(1998), Rhodes, Greece, pp. 957-960.
[BEA 99] BEAUGEANT (C.), Réduction de bruit et annulation
d’écho pour les systèmes mobiles, Thèse de l’Université
de Rennes 1, (1999).
[BEN 96] BENAMAR (A.), Étude et implémentation de la fonction
de contrôle de l’écho acoustique pour la radiotéléphonie
mains-libres, Thèse de l’Université de Paris-Sud, Orsay,
(1996).
[BER 79] BEROUTI (M.), SCHWARTZ (R.), MAKHOUL (J.), Enhance-
ment of speech corrupted by acoustic noise, Proc.
ICASSP, (1979), Washington, United States, pp. 208-211.
[BOL 79] BOLL (S.F), Evaluation of two input speech dereverbera-
tion techniques. IEEE Trans. ASSP, (1979), 27, n° 2,
pp. 113-120.
[CAP 96] CAPMAN (F.), BOUDY (J.), LOCKWOOD (P.), Acoustic
echo cancellation and noise reduction in the frequency
domain : a global optimization, Proc. EUSIPCO,
Trieste, Italy, (1996), pp. 29-32.
[CLA 81] CLARK (G.A.), MITRA (S.K.), PARKER (S.R.), Block
implementation of adaptive digital filters, IEEE Trans.
ASSP, (1981), 29, n° 3, pp. 744-752.
[CRO 83] CROCHIÈRE (R.E.), RABINER (L.R.), Multirate digital
signal processing, Prentice Hall (1983).
[DRE 97] DREISEITEL (P.), PUDER (H.), À combination of noise
reduction and improved echo cancellation, International
Workshop on Acoustic Echo Control, London, United
Kingdom, (1997), pp. 180-183.
[EPH 84] EPHRAIM (Y.), MALAH (D.), Speech enhancement using a
minimum mean square error short-time spectral ampli-
tude estimator, IEEE Trans. ASSP, (1984), 32, n° 6, pp.
1109-1121.
[ERD 81] ERDREICH (M.), Echo and its control in telecommunica-
tion networks, Commutation and transmission, (1981),
3
e
année, 4.
[FAU 95] FAUCON (G.), LE BOUQUIN-JEANNES (R.), Joint system
for acoustic echo cancellation and noise reduction, Proc.
EUROSPEECH, Madrid, Spain, (1995), pp. 1525-1528.
[FED 89] FEDER (M.), OPPENHEIM (A.V.), WEINSTEIN (E.), Maxi-
mum likelihood noise cancellation using the EM algo-
rithm, IEEE Trans. ASSP, (1989), 37, n° 2, pp. 204-216.
[GIL 88] GILLOIRE (A.), ZURCHER (J.F.), Achieving the control of
the acoustic echo in audio terminals, Proc. EUSIPCO,
(1988), pp. 491-494.
[GUE 96] GUELOU (Y.), BENAMAR (A.), SCALART (P.), Analysis of
two structures for combined acoustic echo cancellation
and noise reduction, Proc. ICASSP, Atlanta, United
States, (1996), pp. 637-640.
[GUS 98a] GUSTAFSSON (S.), MARTIN (R.), VARY (P.), Combined
acoustic echo control and noise reduction for hands-free
telephony, Signal Processing, (1998), 64, pp. 21-32.
[GUS 98b] GUSTAFSSON (S.), JAX (P.), Combined residual echo and
noise reduction : a novel psychoacoustically motivated
algorithm, Proc. EUSIPCO, Rhodes, Greece, (1998),
pp. 961-964.
[GUS 99] GUSTAFSSON (S.), JAX (P.), KAMPHAUSEN (A.), VARY (P.),
A postfilter for echo and noise reduction avoiding the
problem of musical tones, Proc. ICASSP, Phoenix, Uni-
ted States, (1999), n° 1281.
[HÄN 92] HÄNSLER (E.), The hands-free telephone problem : an
annotated bibliography update, Signal Processing,
(1992), 27, pp. 259-271.
[HÄN 94] HÄNSLER (E.), The hands-free telephone problem : an
annotated bibliography update, Ann. Télécommunic.,
(1994), 49, n° 7-8, pp. 360-367.
[HAY 91] HAYKIN (S.). Adaptive filter theory, Second Edition,
Prentice-Hall, Englewood Cliffs, New Jersey, (1991).
[ISO 92] ISO, projet de norme internationale ISO 11172-3 MPEG
audio, London, United Kingdom (1992).
[JOH 88] JOHNSTON (J.D.), Transform coding of audio signals
using perceptual noise criteria, IEEE Journal on Selected
Areas in Communication, (1988), 6, n° 2, pp. 314-323.
[KUS 89] KUSHNER (W.M.), The effect of subtractive-type speech
enhancement, noise reduction algorithms on parameter
estimation for improved recognition and coding in high
noise environments, Proc. ICASSP, San Diego, United
States, (1989), pp. 211-214.
[LEB 96a] LE BOUQUIN-JEANNES (R.), FAUCON (G.), AYAD (B.),
How to improve acoustic echo and noise cancelling
using a single talk detector, Speech Communication,
(1996), 20, pp. 191-202.
[LEB 96b] LE BOUQUIN-JEANNES (R.), FAUCON (G.), AYAD (B.), A
two-microphone approach for speech enhancement in
hands-free communications, International Conference
on Communication Technology, Beijing, China, (1996),
pp. 424-427.
[LIM 79] LIM (J.S), OPPENHEIM (A.V.), Enhancement and band-
width compression of noisy speech, Proceedings of the
IEEE, (1979), 67, pp. 1586-1604.
[LIM 83] LIM (J.S.), Speech enhancement, Prentice-Hall, Signal
Processing series Alan V. Oppenheim, series Editor,
Prentice-Hall, Inc., Englewood Cliffs, New Jersey
07632 (1983).
[LOC 92] LOCKWOOD (P.), BOUDY (J.), Experiments with a nonli-
near spectral subtractor (NSS), hidden Markov models
and the projection, for robust speech recognition in cars,
Speech Communication, (1992), 11, n° 2-3, pp. 215-228.
[MAL 99] MALAH (D.), COX (R.V.), ACCARDI (A.J.), Tracking
speech-presence uncertainty to improve speech enhan-
cement in non-stationnary noise environments, Proc.
ICASSP, Phoenix, United States, (1999), #1761.
[MAR 95a] MARTIN (R.), Combined acoustic echo cancellation,
spectral echo shaping, and noise reduction, Internatio-
nal Workshop on Acoustic Echo Control, Roros, Nor-
way, (1995), pp. 48-51.
[MAR 95b] MARTIN (R.), ALTENHÖNER (J.), Coupled adaptive filters
for acoustic echo control and noise reduction, Proc.
ICASSP, Detroit, United States, (1995), pp. 3043-3046.
[MAR 95c] MARTIN (R.) Design and optimization of a two micro-
phone speech enhancement system, Proc. Eurospeech,
Madrid, Spain, (1995), pp. 2009-2012.
[MAR 99] MARTIN (R.), COX (R.V.), New speech enhancement
techniques for low bit rate speech coding, IEEE Work-
shop on Speech Coding, Porvoo, Finland, (1999),
pp.165-167.
[MOK 92] MOKBEL (C.), BARBIER (L.), CHOLLET (G.), Adapting a
HMM speech recognizer to noisy environments, Work-
shop on Speech Processing in Adverse Conditions,
Cannes, (1992), pp. 211-214.
[MOU 95] MOULINES (E.), AIT AMRANE (O.), GRENIER (Y.), The
generalized multidelay adaptive filter : structure and
convergence analysis, IEEE Trans. on Signal
Processing, 43, n° 1, (1995), pp. 14-28.
[NAY 94] NAYLOR (P.), ALCAZAR (J.), BOUDY (J.), GRENIER (Y.),
Enhancement of hands-free telecommunications, Ann.
Télécommunic., (1994), 49, n° 7-8, pp. 373-379.
552
C. BEAUGEANT SYNTHÈSE SUR LA RÉDUCTION CONJOINTE DE BRUIT ET DÉCHO POUR LES SYSTÈMES MAINS-LIBRES
ANN.TÉLÉCOMMUN., 55, n° 9-10, 2000 15/15
[OZE 84] OZEKI (K.), UMEDA (T.), An adaptive algorithm using an
orthogonal projection to an affine subspace and its pro-
perties, Electronics and Communications in Japan,
(1984), 67-A, n° 5, pp. 19-25.
[PET 92] PÉTILLON (T.), Réduction de la complexité des algo-
rithmes des moindres carrés rapides. Applications à
l’annulation d’écho acoustique pour les radiomobiles,
Thèse de l’Université de Rennes 1 (1992).
[PRA 94] PRADO (J.), MOULINES (E.), Frequency-domain adaptive
filtering with application to acoustic echo cancellation,
Ann. Télécommunic. (1994), 49, 7-8, pp. 414-428.
[SCA 96] SCALART (P.), BENAMAR (A.), A system for speech
enhancement in the context of hands-free radiotele-
phony with combined noise reduction and acoustic echo
cancellation, Speech Communication, (1996), 20, n° 3-
4, pp. 203-214.
[SOO 90] SOO (J.S.), PANG (K.K.), Multidelay block frequency
domain adaptive filter, IEEE Trans. ASSP, (1990), 38,
n° 2, pp. 373-376.
[TSO 93] TSOUKALAS (D.), PARASKEVAS (M.), MOURJOPOULOS (J.),
Speech enhancement using psychoacoustic criteria,
Proc. ICASSP, Minneapolis, United States, (1993),
pp. 359-362.
[TUR 97a] TURBIN (V.), GILLOIRE (A.), SCALART (P.), Comparison
of three post-filtering algorithms for residual acoustic
echo reduction, Proc. ICASSP, Munich, Germany,
(1997), pp. 307-310.
[TUR 97b] TURBIN (V.), BEAUGEANT (C.), GILLOIRE (A.), Scalart
(P.), Intérêt de la prise en compte de propriétés auditives
en annulation d’écho et débruitage, Gretsi, Grenoble,
France, (1997), pp. 1245-1248.
[TUR 97c] TURBIN (V.), GILLOIRE (A.), SCALART (P.), BEAUGEANT
(C.), Using psychoacoustic criteria in acoustic echo can-
cellation algorithms, International Workshop on Acous-
tic Echo Control, London, United Kingdom, (1997),
pp. 53-56.
[TUR 98] T
URBIN (V.), Combinaison du filtrage adaptatif et du fil-
trage optimal pour réaliser l’annulation de l’écho acous-
tique dans un contexte de téléconférence, Thèse de
l’Université de Rennes 1, (1998).
[VAS 96] V
ASEGHI (S.V.), Advanced signal processing and digital
noise reduction, Wiley Teubner Communications (1996).
[VAN 89] V
AN COMPERNOLLE (D.), Noise adaptation in a hidden
Markov model speech recognition system, Computer
Speech and Language, (1989), 3, pp. 151-167.
[WAN 82] W
ANG (D.L.), LIM (J.S.), The unimportance of phase in
speech enhancement, IEEE Trans. on ASSP (1982), 30
(4), pp. 679-681
[WID 85] W
IDROW (B.), STEARNS (S.), Adaptive signal processing.
Prentice-Hall (1985).
[ZWI 67] Z
WICKER (R.), FELDKELLER (R.), Das Ohr als Narichte-
nempfänger ou Psychoacoustique. L’oreille récepteur
d’information, Hirzler Verlag, Stuttgart, Allemagne
(1967), Trad. française par Christelle Sorin, éditions
Masson (1981).
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
We propose a general approach based on optimal filtering and use of psychoacoustic constraints to achieve acoustic echo cancellation which is applied in two contexts: teleconferencing and mobile telephones in cars. In the teleconferencing context, the acoustic echo cancellation system is composed of a conventional echo canceller combined with an optimal filter. In the mobile telephony context where not only the acoustic echo but also the ambient noise are to be cancelled, we propose to reduce globally both disturbances with only one optimal filter. We show that using psychoacoustic criteria in the optimal filter computation enables to reduce the distortion generated on the near-end speech especially when the perturbator is the acoustic echo.
Article
Full-text available
The design of an efficient and robust hands-free system is now required by the growth of mobile radio and teleconference communications. The use of Frequency-Domain Adaptive Filters in the context of acoustic echo cancellation has been extensively studied in the literature. These algorithms are well-suited for long impulse response modeling and for correlated input signals like speech. A global optimisation of a frequency-domain acoustic echo cancellation algorithm with noise reduction is presented in this paper. This optimisation leads to both reduced complexity and improved performances when compared to classical cascaded structures.
Article
Noise reduction is a key-point of speech enhancement systems in hands-free communications. A number of techniques have been already developed in the frequency domain such as an optimal short-time spectral amplitude estimator proposed by Ephraim and Malah in [1] including the estimation of the a p r i o r i signal-to-noise ratio. This approach reduces significantly the disturbing noise and provides enhanced speech with colorless residual noise. In this paper, we propose a technique based on a Wiener filtering under uncertainty of signal presence in the noisy observation. Two different estimators of the a priori signal-to-noise ratio are tested and compared. The main interest of this approach comes from its low complexity.
Article
The LMS algorithm and learning identification, which presently are typical adaptive algorithms, have a problem in that the speed of convergence may decrease greatly depending on the property of the input signal. To avoid this problem, this paper presents a geometrical discussion as to the origin of that defect, and proposes a new adaptive algorithm based on the result of the investigation. The algorithm is extended to a group of algorithms which includes the original algorithm and the learning identification, which are called APA (affine projection algorithm).
Book
Digital signal processing plays a central role in the development of modern communication and information processing systems. The theory and application of signal processing is concerned with the identification, modelling and utilisation of patterns and structures in a signal process. The observation signals are often distorted, incomplete and noisy and therefore noise reduction, the removal of channel distortion, and replacement of lost samples are important parts of a signal processing system.The fourth edition of Advanced Digital Signal Processing and Noise Reduction updates and extends the chapters in the previous edition and includes two new chapters on MIMO systems, Correlation and Eigen analysis and independent component analysis. The wide range of topics covered in this book include Wiener filters, echo cancellation, channel equalisation, spectral estimation, detection and removal of impulsive and transient noise, interpolation of missing data segments, speech enhancement and noise/interference in mobile communication environments. This book provides a coherent and structured presentation of the theory and applications of statistical signal processing and noise reduction methods.Two new chapters on MIMO systems, correlation and Eigen analysis and independent component analysisComprehensive coverage of advanced digital signal processing and noise reduction methods for communication and information processing systemsExamples and applications in signal and information extraction from noisy dataComprehensive but accessible coverage of signal processing theory including probability models, Bayesian inference, hidden Markov models, adaptive filters and Linear prediction modelsAdvanced Digital Signal Processing and Noise Reduction is an invaluable text for postgraduates, senior undergraduates and researchers in the fields of digital signal processing, telecommunications and statistical data analysis. It will also be of interest to professional engineers in telecommunications and audio and signal processing industries and network planners and implementers in mobile and wireless communication communities.
Book
From the Publisher: This title is no longer being mass-produced. It is now being printed on demand by the publisher. While this process keeps information readily available, the print quality of these books is generally that of a copier and not of a normal book. This is a copy of the original book. Intended for a one-semester advanced graduate course in digitalsignal processing or as a reference for practicing engineers andresearchers.
Article
This paper addresses typical problems encountered with hands-free equipment in the context of GSM radiotelephony. We first summarise some important characteristics of the noise field in moving vehicles, and we also describe the acoustical echo phenomenon. We show that, in order to provide sufficiently high speech quality, these hands-free equipments should include noise reduction (NR) and acoustic echo control (AEC) devices. We then describe two possible structures combining noise reduction and acoustic echo control. As a conclusion, we raise the fact that the choice of a particular structure, among those proposed, is conditioned by the performance of the adaptation algorithm of the AEC solution.
Article
The use of Wiener filtering to simultaneously reduce all the perturbations at the sound pick-up of hands-free terminals is investigated in this paper. This analysis of perturbation reduction is a global approach as all types of perturbations to desired signal are reduced by a unique filter. Filters derived from this approach are applied in two different contexts: hands-free radiotelephony in cars, where two distinct perturbations have to be considered, noise and acoustic echo; and the teleconference context where the global approach was performed on residual echo remaining after a classical echo cancellation. The use of psychoacoustic properties is also considered in order to improve the quality of the transmitted speech signals.