Content uploaded by Andersen Ang
Author content
All content in this area was uploaded by Andersen Ang on Jun 15, 2019
Content may be subject to copyright.
S´
eparation aveugle de sources sonores par factorisation en matrices
positives avec p´
enalit´
e sur le volume du dictionnaire
Valentin LEPLAT, Nicolas GILLIS, Xavier SIE BE RT, Andersen M.S. AN G
D´
epartement de Math´
ematique et Recherche Op´
erationnelle de l’Universit´
e de Mons
9 rue de Houdain, 7000 Mons, Belgique
valentin.leplat@umons.ac.be, nicolas.gillis@umons.ac.be
xavier.siebert@umons.ac.be, manshun.ang@umons.ac.be
R´
esum´
e – La s´
eparation de sources d´
esigne les techniques visant `
a retrouver des signaux inconnus appel´
es sources `
a partir d’une observation
de leur m´
elange. Dans ce papier, nous consid´
erons la situation o`
u le signal m´
elang´
e a ´
et´
e enregistr´
e avec un seul capteur. La s´
eparation aveugle
consiste `
a isoler et extraire chacun des signaux sonores sources sur base d’un nombre limit´
e d’informations; habituellement la seule information
plus ou moins maitris´
ee concerne le nombre de sources `
a priori pr´
esentes dans le signal m´
elang´
e. Sur base d’une repr´
esentation temps-fr´
equence
du signal, une des m´
ethodes les plus r´
epandues se base sur l’utilisation de techniques de s´
eparation telle que la NMF (Factorisation en matrices
positives). Les m´
ethodes NMF consistent classiquement en la minimisation d’une fonction de coˆ
ut telles que les divergences de Kullback-
Leibler et d’Itakura-Saito appartenant `
a la famille des divergences β. Dans ce papier, nous pr´
esentons un nouveau mod`
ele de s´
eparation bas´
e sur
la minimisation d’une divergence de Kullback-Leibler incluant une p´
enalit´
e favorisant des solutions pour la matrice dictionnaire de volume
minimum. Afin de r´
esoudre ce probl`
eme, la fonction de coˆ
ut est remplac´
ee par une fonction auxiliaire s´
eparable et convexe `
a minimiser. On
montre alors que la minimisation de cette fonction objectif conduit `
a des r´
esultats plus interpr´
etables, notamment dans le cas o`
u le rang de la
factorisation est surestim´
e en regard du nombre de sources r´
eellement pr´
esentes dans le signal.
Abstract – Audio source separation concerns techniques used to extract unknown signals called sources from a mixed signal. In this paper,
we assume that the audio signal is recorded with a single microphone. Considering a mixed signal composed of various audio sources, the
blind audio source separation consists in isolating and extracting each of the sources on the basis of a single recording. Usually, the only known
information is the number of estimated sources present in the mixed signal. Based on a time-frequency representation of the signal, classical
source separation techniques integrate algorithms such as nonnegative matrix factorization (NMF). Optimization problems in blind audio source
separation are based on the minimization of criteria such as the Kullback-Leibler and Itakura-Saito divergences, both divergences belonging to
the family of β-divergences. In this paper, we present a new model of separation based on the minimization of the Kullback-Leibler including
a penalty term promoting the columns of the dictionary matrix to have small volume. In order to solve this problem, the global cost function is
replaced by a convex and separable auxiliary function that will be minimized. We will show that we obtain more interpretable results in the case
where the factorization rank (that is, the number of sources present into the mixed signal) is overestimated.
1 Introduction
La factorisation en matrices en positives est une technique
d’approximation de rang faible utilis´
ee pour la d´
ecomposition
de donn´
ees positives. Etant donn´
ee une matrice V∈RF×N
+
et un entier positif K, la NMF consiste `
a trouver une matrice
positive Wavec Kcolonnes et une matrice positive Havec K
lignes telles que V≈W H . Cette relation signifie que chaque
colonne de Vest approxim´
ee par une combinaison lin´
eaire des
colonnes de Wpond´
er´
ee par les ´
el´
ements des colonnes cor-
respondantes de H. Dans le cas o`
uVcorrespond au spectro-
gramme d’amplitude (ou de puissance) d’un signal audio, la
matrice West appel´
ee dictionnaire dont chaque colonne contient
la signature spectrale d’un composant, les lignes de la matrice
Hrepr´
esentent les coefficients d’activation de chaque compo-
sant le long de la dimension N(au cours du temps dans notre
cas). Notons que la m´
ethode de s´
eparation de source pr´
esent´
ee
dans ce papier s’applique aux r´
epr´
esentations temps-fr´
equence
quadratiques qui satisfont la propri´
et´
e de positivit´
e.
La factorisation est habituellement recherch´
ee en consid´
erant
le probl`
eme de minimisation suivant :
min
W∈RF×K,H∈RK×ND(V|W H ) = X
fn
d(Vfn|[W H ]fn )
tel que H≥0, W ≥0,
(1)
o`
u la notation A≥0exprime donc la contrainte de positivit´
e
sur les entr´
ees de Aet o`
ud(x|y)est une mesure d’´
ecart entre
les scalaires xet y. Pour la s´
eparation aveugle de sources so-
nores, une fonction de coˆ
ut commun´
ement utilis´
ee est la divergence-
βdiscr`
ete not´
ee dβ(x, y)d´
efinie par :
dβ(x, y) =
1
β(β−1) xβ+ (β−1) yβ−βxyβ−1
pour β∈R\(0,1) ,
xlog x
y−x+ypour β= 1,
x
y−log x
y−1pour β= 0.
La divergence βest ainsi d´
efinie par la valeur particuli`
ere donn´
ee
`
aβ, et correspond `
a la norme de Frobenius, la divergence de
Kullback-Leibler et la divergence d’Itakura-Saito dans les cas
particuliers o`
uβ=2, 1 et 0, respectivement. Dans ce cas, la
fonction objectif de (1) s’´
ecrit comme suit Dβ(V|W H ) =
Pfn dβ(Vfn |[W H ]fn ).
La factorisation en matrices positives est dans la plupart des
cas mal pos´
ee car la solution optimale n’est pas unique. Afin de
faire en sorte que la solution du probl`
eme (1) soit unique (aux
permutations et mises `
a l’´
echelle pr`
es sur les lignes de Het
les colonnes de W) rendant ainsi le probl`
eme bien pos´
e et fac-
teurs (W, H)identifiables, une technique est de rechercher une
solution pour Wde volume (engendr´
e par l’espace colonne)
minimum ; voir par exemple [1].
2 Mod`
ele β-NMF de volume minimum
Dans ce papier, nous pr´
esentons la formulation suivante pour
la β-NMF de volume minimum :
min
W(:,j)∈∆F∀j,H ≥0F(W, H) = Dβ(V|W H ) + λvol(W),
(2)
o`
u∆F=x∈RF
+|Pixi= 1,λest le poids du terme de
p´
enalit´
e et vol(W)est une fonction de mesure du volume en-
gendr´
e par les colonnes de W. Notez qu’une normalisation est
consid´
er´
ee pour les colonnes de Wafin d’´
eviter que Wne
tende vers z´
ero sachant que W H = (W/a) (Ha)pour n’im-
porte quel a > 0. Dans ce papier, nous utiliserons
vol(W) = logdet(WTW+δI),
dans le probl`
eme (2), o`
uIest la matrice identit´
e d’ordre Ket δ
est un scalaire positif qui empˆ
eche le terme logdet(WTW)de
tendre vers −∞ lorsque Wtend vers une matrice de rang in-
complet (r=rank(W)< K). La raison d’utiliser une telle me-
sure est que pdet (WTW)/K!est le volume de l’enveloppe
convexe des colonnes de Wet de l’origine. Une seconde mo-
tivation importante pour l’utilisation de logdet(WTW+δI)
en tant que r´
egularisation sur le volume plutˆ
ot que det(WTW)
est sa plus grande simplicit´
e de calcul : bien que les deux fonc-
tions soient non-convexes et conceptuellement aussi complexes
`
a g´
erer, la premi`
ere permet de trouver des mises `
a jours plus
simples car elle poss`
ede une borne sup´
erieure dite serr´
ee alors
que la seconde non, voir [6] pour plus de d´
etails. Dans le cas
sans bruit et sous certaines conditions sur V=W H , ce mod`
ele
permettra d’identifier les facteurs latents W#, H#qui ont
g´
en´
er´
eV. Ces conditions particuli`
eres n´
ecessitent que les co-
lonnes de Vsoient suffisamment bien r´
eparties dans l’enve-
loppe convexe g´
en´
er´
ee par les colonnes de W, voir [2], [3] et
[4] ; il s’agit de la condition de dispersion suffisante (Suf-
ficiently scattered condition dans la litt´
erature anglaise). En
particulier, les donn´
ees (colonnes de V) doivent ˆ
etre localis´
ees
sur les facettes de l’enveloppe convexe, ce qui revient `
a dire que
Hdoit ˆ
etre suffisamment creuse. A notre connaissance,
ces r´
esultats th´
eoriques ne s’appliquent que dans le cas exact
(pas de bruit dans les donn´
ees), par cons´
equent la robustesse
au bruit du mod`
ele (2) doit encore ˆ
etre rigoureusement ´
etudi´
ee
[8]. La condition de dispersion suffisante est une g´
en´
eralisation
de la condition de s´
eparabilit´
e qui n´
ec´
essite que W=V(:, κ)
pour un ensemble d’indices κde taille K. La s´
eparabilit´
e rend
la r´
esolution du probl`
eme NMF plus ais´
ee. Remarquons n´
e-
anmoins que bien que la NMF de volume minimum garantisse
l’identifiabilit´
e des facteurs latents, le probl`
eme (2) est toujours
difficile `
a r´
esoudre dans la plupart des cas ; comme l’est la NMF
originale [5].
3 Algorithme pour min-vol KL-NMF (2)
Une strat´
egie d’optimisation populaire pour la NMF est bas´
ee
sur une s´
erie d’it´
erations au cours desquelles les matrices Wet
Hsont mises `
a jour et optimis´
ees de mani`
ere alternative, nous
avons adopt´
e cette strat´
egie dans ce papier. Afin de r´
esoudre le
probl`
eme, la fonction de coˆ
ut du mod`
ele (2) est remplac´
ee par
une fonction auxiliaire s´
eparable (c’est-`
a-dire que les variables
sont d´
ecoupl´
ees et peuvent ainsi ˆ
etre optimis´
ees ind´
ependemment)
qui consitue une borne sup´
erieure convexe que l’on va minimi-
ser. Il s’agit donc d’un algorithme de majorisation-minimisation.
Dˆ
u`
a la limitation en taille de ce papier, nous ne pr´
esentons
ici que la m´
ethode g´
en´
erale pour la construction de cette fonc-
tion auxiliaire s´
eparable et convexe. L’int´
egralit´
e des d´
eveloppements
sera disponible dans un article `
a paraˆ
ıtre prochainement. Le
principe repose sur la construction d’une fonction auxiliaire
pour chacun des deux termes de (2).
Pour le terme Dβ(V|W H )de (2), nous avons utilis´
e la fonc-
tion auxiliaire pr´
esent´
ee dans [7].
En ce qui concerne le terme logdet, la construction repose
sur les ´
el´
ements suivants :
— tout d’abord la construction d’une borne sup´
erieure stric-
tement convexe `
a partir de l’approximation de Taylor li-
mit´
e au premier ordre de la fonction logdet comme uti-
lis´
e par exemple dans [6],
— ensuite la construction d’une borne sup´
erieure s´
eparable
`
a l’approximation du point pr´
ec´
edent.
Pour β= 1 (la mesure d’´
ecart correspond donc `
a la di-
vergence de Kullback-Leibler), les mises `
a jour multiplicatives
suivantes pour Wet Hgarantissent la d´
ecroissance de la fonc-
tion objectif F(W, H):
W←Wh[Φ].2+ 2Θ [V]
[W H]HTi.1
2−Φ
[Θ]
(3)
o`
uΦ = JF,N HT−4λ(W Y −),Θ = 4λW (Y++Y−),
repr´
esente le produit matriciel de Hadamard, [.]
[.]est l’op´
erateur
de division ´
el´
ement par ´
el´
ement, (.)(.)est l’op´
erateur de puis-
sance ´
el´
ement par ´
el´
ement, JF,N est une matrice de uns de di-
mensions F×N,Y= (WTW+δI)−1avec δ > 0, et on d´
efinit
Y+= max(Y, 0) et Y−= max(−Y , 0) de telle mani`
ere que
Y=Y+−Y−. La mise `
a jour pour les entr´
ees de Hest
H←HhWT[V]
[W H]i
[WTJF,N ],(4)
comme dans l’article original de Lee et Seung [9]. Les mises
`
a jour d´
efinies dans (3) et (4) garantissent la d´
ecroissance de
la fonction objectif de (2). Cependant, lors de la normalisation
des colonnes de W, le terme divergence-βde Fne varie pas (si
les lignes de Hsont mises `
a l’´
echelle de mani`
ere appropri´
ee)
mais le terme logdet changera et par cons´
equent la fonction
objectif Fpourrait augmenter. Pour parer `
a ce probl`
eme, nous
int´
egrons une proc´
edure de recherche en ligne. L’algorithme 1
impl´
emente cette strat´
egie et sera d´
esign´
e par le nom min-vol
KL-NMF dans la suite de ce papier.
Algorithm 1 min-vol KL-NMF
Require: matrice V∈RM×T, une initialisation pour H∈
RK×T
+, une initialisation pour W∈RM×K, rang de fac-
torisation K, un nombre maximum d’it´
erations maxiter, le
poids de la p´
enalit´
eλ > 0et δ > 0
Ensure: une factorisation NMF (W, H)de rang Kde V≈
W H avec W≥0et H≥0.
1: γ= 1, Y =WTW+δI−1,
2: for k= 1 : maxiter do
3: % Mise `
a jour de H
4: H←H[WT([V]
[W H])]
[WTJF,N ]
5: Φ←JF,N HT−4λ(W Y −)
6: Θ←4λW (Y++Y−)
7: % Mise `
a jour de W
8: W+←W[[Φ].2+2Θ([V]
[W H]HT)].1
2−Φ
[Θ]
9: W+
γ=normaliser (W+)
10: % Recherche en ligne
11: while FW+
γ, H> F (W, H)do
12: γ←γ×0.8
13: W+
γ←normaliser ((1 −γ)W+γW +)
14: end while
15: W←W+
γ
16: % Mise `
a jour de Y
17: Y←WTW+δI−1
18: % Mise `
a jour de γ
19: γ←min (1, γ ×1.2)
20: end for
4 R´
esultats num´
eriques
Dans cette section nous pr´
esentons les r´
esultats obtenus avec
l’algorithme min-vol KL-NMF appliqu´
e`
a un morceau de piano
comprenant les 30 premi`
eres secondes de “Prelude et Fugue
no.1 en do majeur” de Jean-Sebastien Bach interpr´
et´
e par Glenn
Gould 1. Ce morceau de piano est compos´
e des treize notes sui-
vantes : si3, do4, r´
e4, mi4, fa#
4, sol4, la4, do5, r´
e5, mi5, fa5,sol5,
la5. Le morceau de piano a ´
et´
e enregistr´
e avec une fr´
equence
d’´
echantillonnage fs= 11025Hz (fr´
equence maximum exploi-
table = 5513 Hz) produisant un nombre d’´
echantillons tempo-
1. https ://www.youtube.com/watch?v=ZlbK5r5mBH4
rels T= 330750. La TFCT (Transform´
ee de Fourier `
a court
terme) du signal audio est tout d’abord d´
etermin´
ee en utili-
sant des fenˆ
etres de Hamming d’une longueur F= 1024 ; la
r´
esolution temporelle est donc de 46 ms et la r´
esolution fr´
e-
quentielle est de 10.76 Hz. Un recouvrement typique de 50%
entre deux fenˆ
etres successives a ´
et´
e consid´
er´
e conduisant `
a la
g´
en´
eration de 647 fenˆ
etres (=N).
La Figure 1 pr´
esente la partition du morceau, le signal audio
dans le domaine temporel et sa repr´
esentation temps-fr´
equence
sous la forme du spectrogramme d’amplitude.
FIGURE 1 – Trois repr´
esentations des donn´
ees : (Au-dessus) la
partition. (Au milieu) Le signal enregistr´
e´
echantillonn´
e dans
le domaine temporel. (En bas) Le spectrogramme d’amplitude
Vexprim´
e en dB.
La Figure 2 pr´
esente les r´
esultats obtenus pour Wet Havec
un rang de factorisation K= 16, donc surestim´
e par rapport
au nombre de notes (13). Les r´
esultats pr´
esent´
es ont ´
et´
e obte-
nus avec une initialisation al´
eatoire pour les matrices Wet H
et un nombre maximum d’it´
erations fix´
e`
a 300. Les meilleurs
r´
esultats sur 5 cinq analyses ont ´
et´
e retenus. On observe que
trois composantes sont mises `
a z´
ero (voir symbole *) tandis
que le mod`
ele est capable d’identifier 13 notes. Apr`
es ana-
lyses des fr´
equences fondamentales des 13 sources estim´
ees,
celles-ci correspondent aux fondamentales des 13 notes cit´
ees
pr´
ec´
edemment. Notez que peu d’harmoniques sont visibles dans
la Figure 2, ceci est dˆ
u au mode d’affichage condens´
e des r´
esultats
(sur une mˆ
eme figure), en g´
en´
erant des graphiques individuels
pour chaque colonne de Wavec une ´
echelle logarithmique, on
observe un nombre plus important d’harmoniques comme ha-
bituellement observ´
e pour des signatures spectrales de sources
sonores. Notez ´
egalement qu’en utilisant la β-NMF standard
ou la β-NMF avec une contrainte de parcimonie pour analyser
ce mˆ
eme extrait musical dans la mˆ
eme configuration de test,
ces deux mod`
eles g´
en`
erent autant de composants que la va-
leur du rang de factorisation, subdivisant ainsi une ou plusieurs
sources alors que l’algorithme min-vol KL-NMF pr´
eserve l’int´
egrit´
e
des 13 sources pr´
esentes dans le signal audio. Des simulations
suppl´
ementaires incluant des comparaisons de r´
esultats obte-
nus entre le mod`
ele pr´
esent´
e dans ce papier et des mod`
eles sans
p´
enalit´
e ou avec p´
enalit´
es classiques telles que la parcimonie
seront int´
egr´
ees dans un article `
a paraˆ
ıtre prochainement.
FIGURE 2–R´
esultats pour Wet H.
En ce qui concerne la s´
equence des sources estim´
ees, la Fi-
gure 3 montre (sur un intervalle de temps limit´
e`
a la premi`
ere
mesure) qu’elle suit la s´
equence th´
eorique de la partition, notez
que pour plus de clart´
e un seuillage a ´
et´
e appliqu´
e aux lignes
de H(activations) de mˆ
eme qu’une permutation.
FIGURE 3 – Validation de la s´
equence des sources estim´
ees.
5 Conclusion et perspectives
Dans ce papier nous avons pr´
esent´
e un nouveau mod`
ele de
s´
eparation aveugle de sources sonores monophoniques bas´
e sur
la minimisation d’une fonction objectif int´
egrant une mesure
d’´
ecart de la famille des divergences beta et un terme de p´
enalit´
e
favorisant des solutions pour W de volume minimum. On a
propos´
e un algorithme simple pour r´
esoudre ce probl`
eme et
nous avons illustr´
e le comportement de cette m´
ethode sur des
donn´
ees r´
eelles. On a sp´
ecialement mis l’emphase sur la capa-
cit´
e qu’a ce mod`
ele `
a faire tendre vers z´
ero certains composants
de la factorisation lorsque le rang est mal choisi et surestim´
e en
regard du nombre de sources pr´
esentes dans le signal. Ce tra-
vail est pr´
eliminaire et d’importantes questions restent encore
ouvertes : peut-on prouver la robustesse de ce mod`
ele au bruit ?
Peut-on concevoir des algorithmes plus rapides?
R´
ef´
erences
[1] X. Fu, K. Huang, N.D. Sidiropoulos et W-K. Ma. Nonne-
gative matrix factorization for signal and data analytics :
Identifiability, algorithms and applications. IEEE Signal
Processing Magazine, 2018.
[2] C-H. Lin, W-K. Ma, W-C. Li, C-Y. Chi et A. Ambika-
pathi. Identifiability of the simplex volume minimization
criterion for blind hyperspectral unmixing : The no-pure-
pixel case. IEEE Transactions on Geoscience and Remote
Sensing,vol. 53,no. 10,pp. 5530-5546 2015.
[3] X. Fu, W-K. Ma, K. Huang et N.D. Sidiropoulos.
Blind separation of quasi-stationary sources : Exploiting
convex geometry in covariance domain. IEEE Transac-
tions Signal Processing, vol. 63, no. 9,pp. 2306-2320,
2015.
[4] X. Fu, K. Huang et N.D. Sidiropoulos. On identifiability
of nonnegative matrix factorization. IEEE Signal Proces-
sing Letters, vol. 25, no. 3,pp. 328-332, 2018.
[5] S. Vavasis. On the complexity of nonnegative matrix fac-
torization. SIAM Journal on Optimization, vol. 20, no.
3,pp. 1364-1377, 2010.
[6] X. Fu, K. Huang, B. Yang, W-K. Ma et N.D. Sidiro-
poulos. Robust Volume Minimization-Based Matrix Fac-
torization for Remote Sensing and Document Clustering.
IEEE Transactions Signal Processing, vol. 64, pp. 6254 -
6268, 2016.
[7] C. F´
evotte et J. Idier. Algorithms for nonnegative facto-
rization with the beta-divergence. Neural Computation,
2011.
[8] V. Leplat, N. Gillis et A.M.S Ang. Minimum-volume
rank-deficient nonnegative matrix factorizations. IEEE-
ICASSP, 2019.
[9] D.D. Lee et H.S. Seung, Algorithms for non-negative ma-
trix factorization. In Advances in neural information pro-
cessing systems, pp. 556-562, 2001.