Content uploaded by Marcel Nophut
Author content
All content in this area was uploaded by Marcel Nophut on May 07, 2019
Content may be subject to copyright.
Verfahren zur Multikanal-Echokompensation in immersiv verkn¨
upften R¨
aumen
Marcel Nophut1, Robert Hupke1, Stephan Preihs1, J¨
urgen Peissig1
1Leibniz Universit¨
at Hannover, Institut f¨
ur Kommunikationstechnik
Appelstr. 9A, 30167 Hannover, Email: {marcel.nophut}@ikt.uni-hannover.de
Abstract
Im Rahmen des vom Bundesministerium f¨
ur Wirtschaft
und Energie gef¨
orderten Projekts ”LIPS – Live Inter-
active PMSE Services“ arbeiten die Projektpartner aus
Industrie und Forschung an einer immersiven audiovi-
suellen Verbindung zwischen entfernten R¨
aumlichkeiten,
die es Menschen erlaubt in einer m¨
oglichst nat¨
urlichen
Art und Weise miteinander kommunizieren und sogar
musizieren zu k¨
onnen. Dazu werden die Schallquellen
im einen Raum aufgenommen, die Signale mit gerin-
ger Latenz ¨
ubertragen und im jeweils anderen Raum
¨
uber ein Multikanal-Lautsprechersetup wiedergegeben.
Eine bidirektionale akustische Verbindung von R¨
aumen
erzeugt jedoch eine Feedback-Schleife, die akustische
Echos oder R¨
uckkopplungen hervorruft. Um diesem Pro-
blem zu begegnen nutzen bestehende mono- und stereo-
phonische Systeme h¨
aufig eine adaptive Echokompen-
sation, die die akustischen ¨
Ubertragungsfunktionen im
Raum sch¨
atzt, um so die Echos der Lautsprechersigna-
le aus den aufgenommenen Mikrofonsignalen herauszu-
filtern. Bei Mehrkanalsystemen ist dieses Problem auf-
grund der Korrelation der Lautsprechersignale in der Re-
gel nicht eindeutig l¨
osbar. Mit wachsender Anzahl der
Kan¨
ale tritt dieses Ph¨
anomen, das sogenannte ”Non-
Uniqueness-Problem“, immer st¨
arker zutage, was zu ei-
ner h¨
oheren Fehlanpassung der Sch¨
atzung f¨
uhrt. Ei-
ne vorgeschaltete Dekorrelation der Lautsprechersigna-
le wirkt diesem Problem entgegen und f¨
uhrt zu ei-
ner Verbesserung der Sch¨
atzergebnisse. Dieser Beitrag
stellt einige g¨
angige Algorithmen und Methoden der
Multikanal-Echokompensation vor und vergleicht deren
Leistungsf¨
ahigkeit anhand von Simulationen mit Aufnah-
men aus einem realit¨
atsnahen Modellaufbau.
Einleitung
Das Prinzip der akustischen Echokompensation, engl.
Acoustic Echo Cancellation (AEC), ist vom einkanaligen
Fall seit Jahren bestens bekannt. Mithilfe eines adapti-
ven Filters wird das im Near-End Room wiedergegebene
Lautsprechersignal aus dem Mikrofonsignal herausgefil-
tert, sodass es nicht wieder zur¨
uck in den Far-End Room
¨
ubertragen wird und so der Echopfad unterbunden wird.
Gegen¨
uber dem einkanaligen Fall bringt der Multikanal-
Fall (siehe Abbildung 1) mit mehreren Lautsprechersi-
gnalen eine zus¨
atzliche fundamentale Schwierigkeit mit
sich: Da die Lautsprechersignale in der Regel stark mit-
einander korreliert sind, ist die L¨
osung des Problems
f¨
ur das adaptive Filter nicht eindeutig zu bestimmen.
Im Falle der Konvergenz auf eine von der gew¨
unschten
L¨
osung unterschiedliche Filterantwort kann die Energie
Abbildung 1: Prinzipskizze MCAEC.
des Fehlersignals gering sein, jedoch ist die Fehlanpas-
sung an die Echopfade im Near-End Room gleichzei-
tig meist sehr groß. Dieses Ph¨
anomen wird als Non-
Uniqueness-Problem bezeichnet.
Dabei sind aus der Literatur zwei grunds¨
atzliche Ans¨
atze
bekannt diesem Problem zu begegnen [1]:
•Ber¨
ucksichtigung der Auto- und Kreuzkorrelatio-
nen der Lautsprechersignale innerhalb der adaptiven
Filter-Algorithmen mithilfe von Kovarianzmatrizen
der Eingangssignale,
•Partielle Dekorrelation der Lautsprechersignale
durch einen vorgeschalteten Verarbeitungsschritt.
F¨
ur die Multichannel Acoustic Echo Cancellation
(MCAEC) wurden in der Vergangenheit schon zahlrei-
che Verfahren vorgeschlagen und untersucht.
Algorithmen f¨
ur MCAEC
Die Familie der Sparse Adaptive Filter n¨
ahert die zu
sch¨
atzenden Raumimpulsantworten als d¨
unnbesetzte Fil-
terantwort an und nutzt diese Eigenschaft f¨
ur die
Adaption aus. Bekannte Vertreter aus dieser Gruppe
sind der Proportionate-Normalized-Least-Mean-Squares-
Algorithmus (PNLMS) [2] und der Improved-PNLMS
(IPNLMS) [3]. Diese Algorithmen betrachten jedoch
nicht die Auto- und Kreuzkorrelationen der Lautspre-
chersignale. Der Recursive-Least-Squares-Algorithmus
(RLS) benutzt eine Kovarianzmatrix der Lautsprecher-
signale im Zeitbereich um die Auto- und Kreuzkor-
relationen zu ber¨
ucksichtigen. Jedoch ist der Rechen-
aufwand insbesondere bei vielen Kan¨
alen hoch, da die
Matrix explizit oder implizit invertiert werden muss.
Beim Frequency-Domain-Adaptive-Filtering-Algorithmus
(FDAF) wird die Kovarianzmatrix der Lautsprechersi-
gnale durch die DFT ann¨
ahernd diagonalisiert. Dadurch
kann die Invertierung sehr viel effizienter durchgef¨
uhrt
werden [4]. Auch die Filterung im Frequenzbereich wirkt
sich positiv auf die Recheneffizienz aus. Diese Eigenschaf-
ten machen den FDAF sehr attraktiv f¨
ur die Anwendung
der MCAEC.
Ein weiterer vielversprechender Ansatz ist das Wave-
Domain Adaptive Filtering (WDAF). Hierbei werden
L¨
osungen der Wellengleichung f¨
ur die Signaldarstellung
genutzt, wobei die Filterantwort in der Wave-Domain den
Zusammenhang von idealem zum tats¨
achlichen Schallfeld
beschreibt [5, 6]. So kann eine deutliche Dimensionsre-
duktion erreicht werden. Dies macht das WDAF attrak-
tiv in Kombination mit der Wellenfeldsynthese oder Am-
bisonics. Jedoch ist der Ansatz nicht auf beliebige Laut-
sprechersetups und Schallfelder ¨
ubertragbar und wurde
deshalb in der vorliegenden Untersuchung nicht betrach-
tet.
F¨
ur die partielle Dekorrelation wurden ebenfalls zahl-
reiche Verfahren vorgestellt. Dazu z¨
ahlt das Hinzuf¨
ugen
von unkorreliertem Rauschen [7] oder von Nichtlinea-
rit¨
aten [8] zu den Lautsprechersignalen oder auch per-
zeptiv motivierte Ans¨
atze [9]. Durch diese Verfahren wird
die Robustheit gegen¨
uber dem Non-Uniqueness-Problem
erh¨
oht, jedoch kann auch die Audioqualit¨
at der Signale
beeintr¨
achtigt werden.
Um die Leistungsf¨
ahigkeit von adaptiven Filtern zur
Echokompensation zu bewerten, haben sich zwei Metri-
ken in der Literatur durchgesetzt. Das Echo Return Loss
Enhancement (ERLE) gibt das Verh¨
altnis der Signallei-
stung des Mikrofonsignals dzur Signalleistung des Feh-
lersignals ean und dient damit als Maß der Echokom-
pensation. Es berechnet sich ¨
uber:
ERLE = 10 log10 σ2
d
σ2
e.(1)
Die System-Distance (SD) dient als Maß, das die Fehl-
anpassung der Filterantwort des adaptiven Filters ˆ
hpan
die originale Impulsantwort hpbeschreibt und ist defi-
niert durch:
SD = 10 log10 Ppkhp−ˆ
hpk2
Ppkhpk2!.(2)
Hierbei ist pder Index der Lautsprechersignale.
Obwohl das Themenfeld der MCAEC seit vielen Jahren
beforscht wird und es in der Literatur schon viele Un-
tersuchungen dazu gibt, unterscheiden sich diese Unter-
suchungen aber in den Rahmenbedingungen von der von
uns angestrebten Anwendung. F¨
ur eine immersive Ver-
kn¨
upfung zweier Musiker an entfernten Orten sind so-
wohl deutlich mehr als zwei Lautsprecherkan¨
ale als auch
eine Abtastrate von mehr als 16 kHz n¨
otig. Da die mei-
sten Ver¨
offentlichungen auf dem Gebiet der MCAEC aber
auf Sprachkommunikation ausgerichtet sind, werden die-
se Anforderungen oft nicht beachtet.
Ergebnisse
Aus den oben genannten Gr¨
unden wurden eigene Unter-
suchungen angestrebt und dazu in zwei Laborr¨
aumen des
Instituts f¨
ur Kommunikationstechnik (IKT) ein anwen-
dungsnahes Modell-Setup aufgebaut. Der Far-End Room
war dabei mit einem Lautsprecher (Neumann KH120) als
Schallquelle und vier Mikrofonen (Beyerdynamic MM1)
in beliebiger Anordnung und einem Abstand von 1,5 bis
2 m zum Lautsprecher ausgestattet. Im Near-End Room
befanden sich vier Lautsprecher des gleichen Typs, eben-
falls in beliebiger Anordnung, und ein Mikrofon. Der Ab-
stand betrug ebenfalls 1,5 bis 2 m. Dabei war in die-
sem Aufbau jedes Mikrofon im Far-End Room auf genau
einen Lautsprecher in Near-End Room geroutet. Es er-
gab sich also ein 4x1 MISO-System mit 4 Lautsprecher-
kan¨
alen (P= 4). Die Nachhallzeit im Near-End Room
betr¨
agt etwa T60 = 250 ms.
In diesem Aufbau wurden Impulsantworten von den
Lautsprechern zu den Mikrofonen gemessen, die dann f¨
ur
die Signalsynthese verwendet wurden. Als Quellensignal
wurde ein Musiksignal mit einer Dauer von 10 s verwen-
det. Als zu untersuchende adaptive Filter-Algorithmen
wurden drei klassische Ans¨
atze der MCAEC gew¨
ahlt: IP-
NLMS, RLS und FDAF. Die Filterl¨
ange betrug bei allen
L= 1024. Die gemessenen Impulsantworten wurden vor
der Signalsynthese auf definierte L¨
angen zugeschnitten.
F¨
ur den Far-End Room wurde die L¨
ange auf LIR,F E R =
8192 festgelegt. Die L¨
ange im Near-End Room wurde so
gew¨
ahlt (LIR,N E R = 1024), dass das Filter theoretisch
eine perfekte Anpassung erreichen kann. Bei der Syn-
these der Mikrofonsignale wurde durch Hinzuf¨
ugen von
weißem gaußschen Rauschen ein Signal-Rauschabstand
SN R = 40 dB eingestellt. Sowohl Double-Talk als auch
die partielle Dekorrelation durch Vorverarbeitung wurde
in den Untersuchungen nicht ber¨
ucksichtigt.
Die Simulationsergebnisse sind in vier Plots dargestellt:
ganz oben die aneinandergereihten Impulsantworten der
vier Kan¨
ale, wobei sowohl die originalen Impulsantwor-
ten als auch die letzte Sch¨
atzung am Ende der Simulati-
on dargestellt ist, darunter die Zeitsignale von Mikrofon-
und Fehlersignal (dbzw. e), darunter der Verlauf der SD
¨
uber der Zeit und ganz unten der Verlauf des ERLE.
F¨
ur die Simulation mit dem IPNLMS-Algorithmus zeigt
sich in Abbildung 2 folgendes Verhalten: Das ERLE liegt
bei ca. 30 dB und zeugt somit von einer guten Echokom-
pensation. Die Kurve der System-Distance offenbart je-
doch eine recht hohe Fehlanpassung. Nach 10s ist der
Wert erst auf −7 dB gesunken. Das ist auf das Non-
Uniqueness-Problem zur¨
uckzuf¨
uhren. Dadurch k¨
onnen
auch die erkennbaren Artefakte (vor dem Eintreffen des
Direktschalls) in der gesch¨
atzten Impulsantworten er-
kl¨
art werden.
Abbildung 3 zeigt die Simulationsergebnisse f¨
ur den RLS-
Algorithmus. Die Kurve der System-Distance zeugt von
einem recht langsamen, aber guten Konvergenzverhal-
ten. Die Echokompensation ist mit ca. 35 dB zufrieden-
stellend. In den gesch¨
atzten Impulsantworten zeigen sich
jedoch auch hier noch kleine Artefakte. Hierbei ist zu
beachten, dass das Non-Uniqueness-Problem auch hier
Auswirkungen zeigt, obwohl der RLS Auto- und Kreuz-
korrelationen der Lautsprechersignale ber¨
ucksichtigt.
Abbildung 2: Simulationsergebnisse IPNLMS.
In Abbildung 4 sind die Simulationsergebnisse f¨
ur den
FDAF zu sehen. Die Echokompensation ist ¨
ahnlich
gut wie beim RLS-Algorithmus und auch das Konver-
genzverhalten ist zun¨
achst vielversprechend. Nach eini-
gen Sekunden kommt der Algorithmus jedoch vom ur-
spr¨
unglichen Kurs ab und die SD betr¨
agt nach 10 s nur
etwa −9dB. Der Grund f¨
ur dieses Verhalten ist noch un-
bekannt.
Zusammenfassung und Ausblick
Es konnte gezeigt werden, dass auch Verfahren, die die
Auto- und Kreuzkorrelationen der Lautsprechersignale
ber¨
ucksichtigen, das Non-Uniqueness-Problem nicht oh-
ne weitere Maßnahmen vollst¨
andig l¨
osen k¨
onnen. Das
deckt sich mit Aussagen aus der Literatur [10]. Der
Nachhall im Far-End Room unterst¨
utzt die Dekorre-
lation der Lautsprechersignale und verbessert damit
das Konvergenzverhalten der Algorithmen. Neben dem
Abbildung 3: Simulationsergebnisse RLS.
Non-Uniqueness-Problem ist die enorme Anzahl von zu
sch¨
atzenden Koeffizienten und der daraus resultierende
erheblichen Rechenaufwand eine große Herausforderung
bei der MCAEC.
In zuk¨
unftigen Untersuchungen soll die Kanalanzahl wei-
ter erh¨
oht werden und Verfahren zur partiellen Dekorre-
lation einbezogen werden. Des weiteren soll die Erwei-
terung des FDAF zum State-Space-FDAF [11] unter-
sucht werden und durchg¨
angiger Double-Talk betrach-
tet werden. Wichtig ist dabei auch die Einbeziehung von
mehr Vorwissen ¨
uber die Lautsprechersignale und das zu
sch¨
atzende akustische System.
F¨
orderung
Das Projekt LIPS ist gef¨
ordert vom Bundesministerium
f¨
ur Wirtschaft und Energie unter dem F¨
orderkennzeichen
01MD18010G.
Abbildung 4: Simulationsergebnisse FDAF.
Literatur
[1] Gerald Enzner, Herbert Buchner, Alexis Favrot, and
Fabian Kuech, “Acoustic echo control,” in Image, vi-
deo processing and analysis, hardware, audio, acou-
stic and speech processing, vol. 4 of Academic Press
Library in Signal Processing, pp. 807–877. Acad.
Press/Elsevier, Amsterdam, 2014.
[2] D. L. Duttweiler, “Proportionate normalized least-
mean-squares adaptation in echo cancelers,” IEEE
Transactions on Speech and Audio Processing, vol.
8, no. 5, pp. 508–518, 2000.
[3] Jacob Benesty and Steven L. Gay, “An improved
PNLMS algorithm,” in 2002 IEEE International
Conference on Acoustics, Speech, and Signal Pro-
cessing, Piscataway, NJ, 2002, pp. II–1881–II–1884,
IEEE.
[4] Herbert Buchner, Jacob Benesty, and Walter Kel-
lermann, “Multichannel frequency-domain adaptive
filtering with application to acoustic echo cancella-
tion,” in Adaptive Signal Processing, Signals and
Communication Technology, pp. 95–129. Springer,
Berlin and Heidelberg, 2003.
[5] H. Buchner, S. Spors, and W. Kellermann, “Wave-
domain adaptive filtering: acoustic echo cancellati-
on for full-duplex systems based on wave-field syn-
thesis,” in 2004 IEEE International Conference on
Acoustics, Speech, and Signal Processing, Piscata-
way, N.J, 2004, pp. iv–117–iv–120, IEEE.
[6] Martin Schneider and Walter Kellermann, “Large-
scale multiple input/multiple output system identi-
fication in room acoustics,” in Proceedings of Mee-
tings on Acoustics, Vol. 19, 2013, vol. 19, p. 015022.
[7] T. Gansler and P. Eneroth, “Influence of audio co-
ding on stereophonic acoustic echo cancellation,” in
Proceedings of the 1998 IEEE International Confe-
rence on Acoustics, Speech, and Signal Processing,
Piscataway, NJ, 1998, pp. 3649–3652, IEEE Service
Center.
[8] D. R. Morgan, J. L. Hall, and J. Benesty, “Inve-
stigation of several types of nonlinearities for use in
stereo acoustic echo cancellation,” IEEE Transacti-
ons on Speech and Audio Processing, vol. 9, no. 6,
pp. 686–696, 2001.
[9] Jurgen Herre, Herbert Buchner, and Walter Kel-
lermann, “Acoustic echo cancellation for surround
sound using perceptually motivated convergence en-
hancement,” in IEEE International Conference on
Acoustics, Speech and Signal Processing, 2007, Pis-
cataway, NJ, 2007, pp. I–17–I–20, IEEE Operations
Center.
[10] Philipp Thune and Gerald Enzner, “Trends in ad-
aptive miso system identification for multichannel
audio reproduction and speech communication,” in
8th International Symposium on Image and Signal
Processing and Analysis (ISPA), 2013, Piscataway,
NJ, 2013, pp. 767–772, IEEE.
[11] Sarmad Malik and Gerald Enzner, “Recursive baye-
sian control of multichannel acoustic echo cancella-
tion,” IEEE Signal Processing Letters, vol. 18, no.
11, pp. 619–622, 2011.