Conference PaperPDF Available

Verfahren zur Multikanal-Echokompensation in immersiv verknüpften Räumen

Authors:

Abstract and Figures

Im Rahmen des vom Bundesministerium für Wirtschaft und Energie geförderten Projekts "LIPS-Live Interactive PMSE Services" arbeiten die Projektpartner aus Industrie und Forschung an einer immersiven audiovi-suellen Verbindung zwischen entfernten Räumlichkeiten, die es Menschen erlaubt in einer möglichst natürlichen Art und Weise miteinander kommunizieren und sogar musizieren zu können. Dazu werden die Schallquellen im einen Raum aufgenommen, die Signale mit geringer Latenz übertragen und im jeweils anderen Raum über ein Multikanal-Lautsprechersetup wiedergegeben. Eine bidirektionale akustische Verbindung von Räumen erzeugt jedoch eine Feedback-Schleife, die akustische Echos oder Rückkopplungen hervorruft. Um diesem Problem zu begegnen nutzen bestehende mono-und stereo-phonische Systeme häufig eine adaptive Echokompensation, die die akustischen Übertragungsfunktionen im Raum schätzt, um so die Echos der Lautsprechersignale aus den aufgenommenen Mikrofonsignalen herauszufiltern. Bei Mehrkanalsystemen ist dieses Problem aufgrund der Korrelation der Lautsprechersignale in der Regel nicht eindeutig lösbar. Mit wachsender Anzahl der Kanäle tritt dieses Phänomen, das sogenannte " Non-Uniqueness-Problem", immer stärker zutage, was zu einer höheren Fehlanpassung der Schätzung führt. Eine vorgeschaltete Dekorrelation der Lautsprechersignale wirkt diesem Problem entgegen und führt zu einer Verbesserung der Schätzergebnisse. Dieser Beitrag stellt einige gängige Algorithmen und Methoden der Multikanal-Echokompensation vor und vergleicht deren Leistungsfähigkeit anhand von Simulationen mit Aufnahmen aus einem realitätsnahen Modellaufbau.
Content may be subject to copyright.
Verfahren zur Multikanal-Echokompensation in immersiv verkn¨
upften R¨
aumen
Marcel Nophut1, Robert Hupke1, Stephan Preihs1, J¨
urgen Peissig1
1Leibniz Universit¨
at Hannover, Institut f¨
ur Kommunikationstechnik
Appelstr. 9A, 30167 Hannover, Email: {marcel.nophut}@ikt.uni-hannover.de
Abstract
Im Rahmen des vom Bundesministerium f¨
ur Wirtschaft
und Energie gef¨
orderten Projekts LIPS – Live Inter-
active PMSE Services“ arbeiten die Projektpartner aus
Industrie und Forschung an einer immersiven audiovi-
suellen Verbindung zwischen entfernten R¨
aumlichkeiten,
die es Menschen erlaubt in einer m¨
oglichst nat¨
urlichen
Art und Weise miteinander kommunizieren und sogar
musizieren zu k¨
onnen. Dazu werden die Schallquellen
im einen Raum aufgenommen, die Signale mit gerin-
ger Latenz ¨
ubertragen und im jeweils anderen Raum
¨
uber ein Multikanal-Lautsprechersetup wiedergegeben.
Eine bidirektionale akustische Verbindung von R¨
aumen
erzeugt jedoch eine Feedback-Schleife, die akustische
Echos oder R¨
uckkopplungen hervorruft. Um diesem Pro-
blem zu begegnen nutzen bestehende mono- und stereo-
phonische Systeme h¨
aufig eine adaptive Echokompen-
sation, die die akustischen ¨
Ubertragungsfunktionen im
Raum sch¨
atzt, um so die Echos der Lautsprechersigna-
le aus den aufgenommenen Mikrofonsignalen herauszu-
filtern. Bei Mehrkanalsystemen ist dieses Problem auf-
grund der Korrelation der Lautsprechersignale in der Re-
gel nicht eindeutig l¨
osbar. Mit wachsender Anzahl der
Kan¨
ale tritt dieses Ph¨
anomen, das sogenannte Non-
Uniqueness-Problem“, immer st¨
arker zutage, was zu ei-
ner h¨
oheren Fehlanpassung der Sch¨
atzung f¨
uhrt. Ei-
ne vorgeschaltete Dekorrelation der Lautsprechersigna-
le wirkt diesem Problem entgegen und f¨
uhrt zu ei-
ner Verbesserung der Sch¨
atzergebnisse. Dieser Beitrag
stellt einige g¨
angige Algorithmen und Methoden der
Multikanal-Echokompensation vor und vergleicht deren
Leistungsf¨
ahigkeit anhand von Simulationen mit Aufnah-
men aus einem realit¨
atsnahen Modellaufbau.
Einleitung
Das Prinzip der akustischen Echokompensation, engl.
Acoustic Echo Cancellation (AEC), ist vom einkanaligen
Fall seit Jahren bestens bekannt. Mithilfe eines adapti-
ven Filters wird das im Near-End Room wiedergegebene
Lautsprechersignal aus dem Mikrofonsignal herausgefil-
tert, sodass es nicht wieder zur¨
uck in den Far-End Room
¨
ubertragen wird und so der Echopfad unterbunden wird.
Gegen¨
uber dem einkanaligen Fall bringt der Multikanal-
Fall (siehe Abbildung 1) mit mehreren Lautsprechersi-
gnalen eine zus¨
atzliche fundamentale Schwierigkeit mit
sich: Da die Lautsprechersignale in der Regel stark mit-
einander korreliert sind, ist die L¨
osung des Problems
f¨
ur das adaptive Filter nicht eindeutig zu bestimmen.
Im Falle der Konvergenz auf eine von der gew¨
unschten
L¨
osung unterschiedliche Filterantwort kann die Energie
Abbildung 1: Prinzipskizze MCAEC.
des Fehlersignals gering sein, jedoch ist die Fehlanpas-
sung an die Echopfade im Near-End Room gleichzei-
tig meist sehr groß. Dieses Ph¨
anomen wird als Non-
Uniqueness-Problem bezeichnet.
Dabei sind aus der Literatur zwei grunds¨
atzliche Ans¨
atze
bekannt diesem Problem zu begegnen [1]:
Ber¨
ucksichtigung der Auto- und Kreuzkorrelatio-
nen der Lautsprechersignale innerhalb der adaptiven
Filter-Algorithmen mithilfe von Kovarianzmatrizen
der Eingangssignale,
Partielle Dekorrelation der Lautsprechersignale
durch einen vorgeschalteten Verarbeitungsschritt.
F¨
ur die Multichannel Acoustic Echo Cancellation
(MCAEC) wurden in der Vergangenheit schon zahlrei-
che Verfahren vorgeschlagen und untersucht.
Algorithmen f¨
ur MCAEC
Die Familie der Sparse Adaptive Filter n¨
ahert die zu
sch¨
atzenden Raumimpulsantworten als d¨
unnbesetzte Fil-
terantwort an und nutzt diese Eigenschaft f¨
ur die
Adaption aus. Bekannte Vertreter aus dieser Gruppe
sind der Proportionate-Normalized-Least-Mean-Squares-
Algorithmus (PNLMS) [2] und der Improved-PNLMS
(IPNLMS) [3]. Diese Algorithmen betrachten jedoch
nicht die Auto- und Kreuzkorrelationen der Lautspre-
chersignale. Der Recursive-Least-Squares-Algorithmus
(RLS) benutzt eine Kovarianzmatrix der Lautsprecher-
signale im Zeitbereich um die Auto- und Kreuzkor-
relationen zu ber¨
ucksichtigen. Jedoch ist der Rechen-
aufwand insbesondere bei vielen Kan¨
alen hoch, da die
Matrix explizit oder implizit invertiert werden muss.
Beim Frequency-Domain-Adaptive-Filtering-Algorithmus
(FDAF) wird die Kovarianzmatrix der Lautsprechersi-
gnale durch die DFT ann¨
ahernd diagonalisiert. Dadurch
kann die Invertierung sehr viel effizienter durchgef¨
uhrt
werden [4]. Auch die Filterung im Frequenzbereich wirkt
sich positiv auf die Recheneffizienz aus. Diese Eigenschaf-
ten machen den FDAF sehr attraktiv f¨
ur die Anwendung
der MCAEC.
Ein weiterer vielversprechender Ansatz ist das Wave-
Domain Adaptive Filtering (WDAF). Hierbei werden
L¨
osungen der Wellengleichung f¨
ur die Signaldarstellung
genutzt, wobei die Filterantwort in der Wave-Domain den
Zusammenhang von idealem zum tats¨
achlichen Schallfeld
beschreibt [5, 6]. So kann eine deutliche Dimensionsre-
duktion erreicht werden. Dies macht das WDAF attrak-
tiv in Kombination mit der Wellenfeldsynthese oder Am-
bisonics. Jedoch ist der Ansatz nicht auf beliebige Laut-
sprechersetups und Schallfelder ¨
ubertragbar und wurde
deshalb in der vorliegenden Untersuchung nicht betrach-
tet.
F¨
ur die partielle Dekorrelation wurden ebenfalls zahl-
reiche Verfahren vorgestellt. Dazu z¨
ahlt das Hinzuf¨
ugen
von unkorreliertem Rauschen [7] oder von Nichtlinea-
rit¨
aten [8] zu den Lautsprechersignalen oder auch per-
zeptiv motivierte Ans¨
atze [9]. Durch diese Verfahren wird
die Robustheit gegen¨
uber dem Non-Uniqueness-Problem
erh¨
oht, jedoch kann auch die Audioqualit¨
at der Signale
beeintr¨
achtigt werden.
Um die Leistungsf¨
ahigkeit von adaptiven Filtern zur
Echokompensation zu bewerten, haben sich zwei Metri-
ken in der Literatur durchgesetzt. Das Echo Return Loss
Enhancement (ERLE) gibt das Verh¨
altnis der Signallei-
stung des Mikrofonsignals dzur Signalleistung des Feh-
lersignals ean und dient damit als Maß der Echokom-
pensation. Es berechnet sich ¨
uber:
ERLE = 10 log10 σ2
d
σ2
e.(1)
Die System-Distance (SD) dient als Maß, das die Fehl-
anpassung der Filterantwort des adaptiven Filters ˆ
hpan
die originale Impulsantwort hpbeschreibt und ist defi-
niert durch:
SD = 10 log10 Ppkhpˆ
hpk2
Ppkhpk2!.(2)
Hierbei ist pder Index der Lautsprechersignale.
Obwohl das Themenfeld der MCAEC seit vielen Jahren
beforscht wird und es in der Literatur schon viele Un-
tersuchungen dazu gibt, unterscheiden sich diese Unter-
suchungen aber in den Rahmenbedingungen von der von
uns angestrebten Anwendung. F¨
ur eine immersive Ver-
kn¨
upfung zweier Musiker an entfernten Orten sind so-
wohl deutlich mehr als zwei Lautsprecherkan¨
ale als auch
eine Abtastrate von mehr als 16 kHz n¨
otig. Da die mei-
sten Ver¨
offentlichungen auf dem Gebiet der MCAEC aber
auf Sprachkommunikation ausgerichtet sind, werden die-
se Anforderungen oft nicht beachtet.
Ergebnisse
Aus den oben genannten Gr¨
unden wurden eigene Unter-
suchungen angestrebt und dazu in zwei Laborr¨
aumen des
Instituts f¨
ur Kommunikationstechnik (IKT) ein anwen-
dungsnahes Modell-Setup aufgebaut. Der Far-End Room
war dabei mit einem Lautsprecher (Neumann KH120) als
Schallquelle und vier Mikrofonen (Beyerdynamic MM1)
in beliebiger Anordnung und einem Abstand von 1,5 bis
2 m zum Lautsprecher ausgestattet. Im Near-End Room
befanden sich vier Lautsprecher des gleichen Typs, eben-
falls in beliebiger Anordnung, und ein Mikrofon. Der Ab-
stand betrug ebenfalls 1,5 bis 2 m. Dabei war in die-
sem Aufbau jedes Mikrofon im Far-End Room auf genau
einen Lautsprecher in Near-End Room geroutet. Es er-
gab sich also ein 4x1 MISO-System mit 4 Lautsprecher-
kan¨
alen (P= 4). Die Nachhallzeit im Near-End Room
betr¨
agt etwa T60 = 250 ms.
In diesem Aufbau wurden Impulsantworten von den
Lautsprechern zu den Mikrofonen gemessen, die dann f¨
ur
die Signalsynthese verwendet wurden. Als Quellensignal
wurde ein Musiksignal mit einer Dauer von 10 s verwen-
det. Als zu untersuchende adaptive Filter-Algorithmen
wurden drei klassische Ans¨
atze der MCAEC gew¨
ahlt: IP-
NLMS, RLS und FDAF. Die Filterl¨
ange betrug bei allen
L= 1024. Die gemessenen Impulsantworten wurden vor
der Signalsynthese auf definierte L¨
angen zugeschnitten.
F¨
ur den Far-End Room wurde die L¨
ange auf LIR,F E R =
8192 festgelegt. Die L¨
ange im Near-End Room wurde so
gew¨
ahlt (LIR,N E R = 1024), dass das Filter theoretisch
eine perfekte Anpassung erreichen kann. Bei der Syn-
these der Mikrofonsignale wurde durch Hinzuf¨
ugen von
weißem gaußschen Rauschen ein Signal-Rauschabstand
SN R = 40 dB eingestellt. Sowohl Double-Talk als auch
die partielle Dekorrelation durch Vorverarbeitung wurde
in den Untersuchungen nicht ber¨
ucksichtigt.
Die Simulationsergebnisse sind in vier Plots dargestellt:
ganz oben die aneinandergereihten Impulsantworten der
vier Kan¨
ale, wobei sowohl die originalen Impulsantwor-
ten als auch die letzte Sch¨
atzung am Ende der Simulati-
on dargestellt ist, darunter die Zeitsignale von Mikrofon-
und Fehlersignal (dbzw. e), darunter der Verlauf der SD
¨
uber der Zeit und ganz unten der Verlauf des ERLE.
F¨
ur die Simulation mit dem IPNLMS-Algorithmus zeigt
sich in Abbildung 2 folgendes Verhalten: Das ERLE liegt
bei ca. 30 dB und zeugt somit von einer guten Echokom-
pensation. Die Kurve der System-Distance offenbart je-
doch eine recht hohe Fehlanpassung. Nach 10s ist der
Wert erst auf 7 dB gesunken. Das ist auf das Non-
Uniqueness-Problem zur¨
uckzuf¨
uhren. Dadurch k¨
onnen
auch die erkennbaren Artefakte (vor dem Eintreffen des
Direktschalls) in der gesch¨
atzten Impulsantworten er-
kl¨
art werden.
Abbildung 3 zeigt die Simulationsergebnisse f¨
ur den RLS-
Algorithmus. Die Kurve der System-Distance zeugt von
einem recht langsamen, aber guten Konvergenzverhal-
ten. Die Echokompensation ist mit ca. 35 dB zufrieden-
stellend. In den gesch¨
atzten Impulsantworten zeigen sich
jedoch auch hier noch kleine Artefakte. Hierbei ist zu
beachten, dass das Non-Uniqueness-Problem auch hier
Auswirkungen zeigt, obwohl der RLS Auto- und Kreuz-
korrelationen der Lautsprechersignale ber¨
ucksichtigt.
Abbildung 2: Simulationsergebnisse IPNLMS.
In Abbildung 4 sind die Simulationsergebnisse f¨
ur den
FDAF zu sehen. Die Echokompensation ist ¨
ahnlich
gut wie beim RLS-Algorithmus und auch das Konver-
genzverhalten ist zun¨
achst vielversprechend. Nach eini-
gen Sekunden kommt der Algorithmus jedoch vom ur-
spr¨
unglichen Kurs ab und die SD betr¨
agt nach 10 s nur
etwa 9dB. Der Grund f¨
ur dieses Verhalten ist noch un-
bekannt.
Zusammenfassung und Ausblick
Es konnte gezeigt werden, dass auch Verfahren, die die
Auto- und Kreuzkorrelationen der Lautsprechersignale
ber¨
ucksichtigen, das Non-Uniqueness-Problem nicht oh-
ne weitere Maßnahmen vollst¨
andig l¨
osen k¨
onnen. Das
deckt sich mit Aussagen aus der Literatur [10]. Der
Nachhall im Far-End Room unterst¨
utzt die Dekorre-
lation der Lautsprechersignale und verbessert damit
das Konvergenzverhalten der Algorithmen. Neben dem
Abbildung 3: Simulationsergebnisse RLS.
Non-Uniqueness-Problem ist die enorme Anzahl von zu
sch¨
atzenden Koeffizienten und der daraus resultierende
erheblichen Rechenaufwand eine große Herausforderung
bei der MCAEC.
In zuk¨
unftigen Untersuchungen soll die Kanalanzahl wei-
ter erh¨
oht werden und Verfahren zur partiellen Dekorre-
lation einbezogen werden. Des weiteren soll die Erwei-
terung des FDAF zum State-Space-FDAF [11] unter-
sucht werden und durchg¨
angiger Double-Talk betrach-
tet werden. Wichtig ist dabei auch die Einbeziehung von
mehr Vorwissen ¨
uber die Lautsprechersignale und das zu
sch¨
atzende akustische System.
F¨
orderung
Das Projekt LIPS ist gef¨
ordert vom Bundesministerium
f¨
ur Wirtschaft und Energie unter dem F¨
orderkennzeichen
01MD18010G.
Abbildung 4: Simulationsergebnisse FDAF.
Literatur
[1] Gerald Enzner, Herbert Buchner, Alexis Favrot, and
Fabian Kuech, “Acoustic echo control,” in Image, vi-
deo processing and analysis, hardware, audio, acou-
stic and speech processing, vol. 4 of Academic Press
Library in Signal Processing, pp. 807–877. Acad.
Press/Elsevier, Amsterdam, 2014.
[2] D. L. Duttweiler, “Proportionate normalized least-
mean-squares adaptation in echo cancelers,” IEEE
Transactions on Speech and Audio Processing, vol.
8, no. 5, pp. 508–518, 2000.
[3] Jacob Benesty and Steven L. Gay, “An improved
PNLMS algorithm,” in 2002 IEEE International
Conference on Acoustics, Speech, and Signal Pro-
cessing, Piscataway, NJ, 2002, pp. II–1881–II–1884,
IEEE.
[4] Herbert Buchner, Jacob Benesty, and Walter Kel-
lermann, “Multichannel frequency-domain adaptive
filtering with application to acoustic echo cancella-
tion,” in Adaptive Signal Processing, Signals and
Communication Technology, pp. 95–129. Springer,
Berlin and Heidelberg, 2003.
[5] H. Buchner, S. Spors, and W. Kellermann, “Wave-
domain adaptive filtering: acoustic echo cancellati-
on for full-duplex systems based on wave-field syn-
thesis,” in 2004 IEEE International Conference on
Acoustics, Speech, and Signal Processing, Piscata-
way, N.J, 2004, pp. iv–117–iv–120, IEEE.
[6] Martin Schneider and Walter Kellermann, “Large-
scale multiple input/multiple output system identi-
fication in room acoustics,” in Proceedings of Mee-
tings on Acoustics, Vol. 19, 2013, vol. 19, p. 015022.
[7] T. Gansler and P. Eneroth, “Influence of audio co-
ding on stereophonic acoustic echo cancellation,” in
Proceedings of the 1998 IEEE International Confe-
rence on Acoustics, Speech, and Signal Processing,
Piscataway, NJ, 1998, pp. 3649–3652, IEEE Service
Center.
[8] D. R. Morgan, J. L. Hall, and J. Benesty, “Inve-
stigation of several types of nonlinearities for use in
stereo acoustic echo cancellation,” IEEE Transacti-
ons on Speech and Audio Processing, vol. 9, no. 6,
pp. 686–696, 2001.
[9] Jurgen Herre, Herbert Buchner, and Walter Kel-
lermann, “Acoustic echo cancellation for surround
sound using perceptually motivated convergence en-
hancement,” in IEEE International Conference on
Acoustics, Speech and Signal Processing, 2007, Pis-
cataway, NJ, 2007, pp. I–17–I–20, IEEE Operations
Center.
[10] Philipp Thune and Gerald Enzner, “Trends in ad-
aptive miso system identification for multichannel
audio reproduction and speech communication,” in
8th International Symposium on Image and Signal
Processing and Analysis (ISPA), 2013, Piscataway,
NJ, 2013, pp. 767–772, IEEE.
[11] Sarmad Malik and Gerald Enzner, “Recursive baye-
sian control of multichannel acoustic echo cancella-
tion,” IEEE Signal Processing Letters, vol. 18, no.
11, pp. 619–622, 2011.
... Finally, a distributed music performance means a simultaneous playing of music in the far-end and the near-end room which means a troublesome continuous double-talk from the AEC algorithm's point of view. The FDAKF's robustness against this double-talk was one of the main reasons for the authors to choose it over other AEC algorithms they had investigated in the past [18]. ...
Conference Paper
Distributed performances of musicians at distant locations are recently enjoying increasing interest due to the availability of larger bandwidths in network and mobile communication. Modern spatial audio capturing and multichannel reproduction techniques could make these performances an immersive and more realistic experience. But a bidirectional acoustic coupling of rooms introduces disturbing echo loops, which calls for Acoustic Echo Cancellation (AEC) methods. This contribution investigates the Frequency Domain Adaptive Kalman Filter, a state-of-the-art AEC algorithm, in a novel and practical context of a distributed music performance including an Ambisonics audio rendering. In particular, the possibility of using ambisonic channels as reference signals for the echo canceling algorithm is investigated, which allows a significant reduction of the algorithm's computational load.
... Supplementing smart services, such as acoustic echo and feedback cancellation [5], [6] or onlineestimation of room acoustic parameters support the immersion and are also covered by the LIPS Project. ...
Technical Report
Full-text available
First Whitepaper of the LIPS Project
Conference Paper
Full-text available
For high-quality multimedia communication systems such as teleconferencing or virtual reality applications, multichannel sound reproduction is highly desirable. While progress has been made in stereo and multichannel acoustic echo cancellation (MC AEC) in recent years, the corresponding sound reproduction systems still imply a restrained listening area ('sweet spot'). A volume solution for spatial sound in a large listening area is offered by wave field synthesis (WFS) or by ambisonics, where arrays of loudspeakers generate a prespecified sound field. However, before this new technique can be utilized for full-duplex systems, an efficient solution to the MC AEC problem has to be found. This paper presents a novel approach that extends the current state of the art of MC AEC and transform-domain adaptive filtering by reconciling the flexibility of adaptive filtering and the underlying physics of acoustic waves in a systematic and efficient way. To achieve this, the new framework of wave-domain adaptive filtering (WDAF) exploits the spatial information provided by densely sampled contours for both recording and reproduction. Experimental results with a 32-channel AEC verify the concept for both simulated and actually measured room acoustics.
Conference Paper
Online identification of multiple-input/single-output (MISO) acoustic systems is one of the long-standing and continuing challenges in multichannel speech and audio applications. Fast and robust estimation of the impulse response of an acoustic system is a key requirement for several adaptive solutions in time-varying scenarios, such as stereophonic acoustic echo cancellation, room equalization, or crosstalk cancellation. The inevitable presence of cross-correlated loudspeaker signals that is implied by multichannel applications, however, entails the well-known non-uniqueness problem of MISO system identification. Apart from this fundamental issue, a more practical problem already consists in the lack of techniques to evaluate the estimated impulse responses properly. Since well-established measures are often not capable of accounting for all aspects of online MISO system identification, we revert to the recently proposed spectral-importance weighted misalignment (SIWM) to assess MISO identification. In this contribution, we review SIWM and its relation to well-established evaluation tools. On this basis, we provide an insight into the problem of MISO system identification in applications driven by real stereo data. We also analyze and compare a traditional and a very recent approach to deal with the non-uniqueness problem.
Article
We present a novel recursive Bayesian method in the DFT-domain to address the multichannel acoustic echo cancellation problem. We model the echo paths between the loudspeakers and the near-end microphone as a multichannel random variable with a first-order Markov property. The incorporation of the near-end observation noise, in conjunction with the multichannel Markov model, leads to a multichannel state-space model. We derive a recursive Bayesian solution to the multichannel state-space model, which turns out to be well suited for input signals that are not only auto-correlated but also cross-correlated. We show that the resulting multichannel state-space frequency-domain adaptive filter (MCSSFDAF) can be efficiently implemented due to the submatrix-diagonality of the state-error covariance. The filter offers optimal tracking and robust adaptation in the presence of near-end noise and echo path variability.
In this paper, we investigate several types of nonlinearities used for the unique identification of receiving room impulse responses in stereo acoustic echo cancellation. The effectiveness is quantified by the mutual coherence of the transformed signals. The perceptual degradation is studied by psycho-acoustic experiments in terms of subjective quality and localization accuracy in the medial plane. The results indicate that, of the several nonlinearities considered, ideal half-wave rectification appears to be the best choice for speech. For music, the nonlinearity parameter of the ideal rectifier must be readjusted. The smoothed rectifier does not require this readjustment, but is a little more difficult to implement
On typical echo paths, the proportionate normalized least-mean-squares (PNLMS) adaptation algorithm converges significantly faster than the normalized least-mean-squares (NLMS) algorithm generally used in echo cancelers to date. In PNLMS adaptation, the adaptation gain at each tap position varies from position to position and is roughly proportional at each tap position to the absolute value of the current tap weight estimate. The total adaptation gain being distributed over the taps is carefully monitored and controlled so as to hold the adaptation quality (misadjustment noise) constant. PNLMS adaptation only entails a modest increase in computational complexity
Acoustic echo control," in Image, video processing and analysis, hardware, audio, acoustic and speech processing
  • Gerald Enzner
  • Herbert Buchner
  • Alexis Favrot
  • Fabian Kuech
Gerald Enzner, Herbert Buchner, Alexis Favrot, and Fabian Kuech, "Acoustic echo control," in Image, video processing and analysis, hardware, audio, acoustic and speech processing, vol. 4 of Academic Press Library in Signal Processing, pp. 807-877. Acad. Press/Elsevier, Amsterdam, 2014.
An improved PNLMS algorithm
  • Jacob Benesty
  • Steven L Gay
Jacob Benesty and Steven L. Gay, "An improved PNLMS algorithm," in 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, Piscataway, NJ, 2002, pp. II-1881-II-1884, IEEE.
Largescale multiple input/multiple output system identification in room acoustics
  • Martin Schneider
  • Walter Kellermann
Martin Schneider and Walter Kellermann, "Largescale multiple input/multiple output system identification in room acoustics," in Proceedings of Meetings on Acoustics, Vol. 19, 2013, vol. 19, p. 015022.
Influence of audio coding on stereophonic acoustic echo cancellation
  • T Gansler
  • P Eneroth
T. Gansler and P. Eneroth, "Influence of audio coding on stereophonic acoustic echo cancellation," in Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, Piscataway, NJ, 1998, pp. 3649-3652, IEEE Service Center.