PreprintPDF Available

Séparation aveugle de sources sonores par factorisation en matrices positives avec pénalité sur le volume du dictionnaire

Authors:
Preprints and early-stage research may not have been peer reviewed yet.

Abstract and Figures

Abstract Audio source separation concerns techniques used to extract unknown signals called sources from a mixed signal. In this paper, we assume that the audio signal is recorded with a single microphone. Considering a mixed signal composed of various audio sources, the blind audio source separation consists in isolating and extracting each of the sources on the basis of a single recording. Usually, the only known information is the number of estimated sources present in the mixed signal. Based on a time-frequency representation of the signal, classical source separation techniques integrate algorithms such as nonnegative matrix factorization (NMF). Optimization problems in blind audio source separation are based on the minimization of criteria such as the Kullback-Leibler and Itakura-Saito divergences, both divergences belonging to the family of β-divergences. In this paper, we present a new model of separation based on the minimization of the Kullback-Leibler including a penalty term promoting the columns of the dictionary matrix to have small volume. In order to solve this problem, the global cost function is replaced by a convex and separable auxiliary function that will be minimized. We will show that we obtain more interpretable results in the case where the factorization rank (that is, the number of sources present into the mixed signal) is overestimated.
Content may be subject to copyright.
S´
eparation aveugle de sources sonores par factorisation en matrices
positives avec p´
enalit´
e sur le volume du dictionnaire
Valentin LEPLAT, Nicolas GILLIS, Xavier SIE BE RT, Andersen M.S. AN G
D´
epartement de Math´
ematique et Recherche Op´
erationnelle de l’Universit´
e de Mons
9 rue de Houdain, 7000 Mons, Belgique
valentin.leplat@umons.ac.be, nicolas.gillis@umons.ac.be
xavier.siebert@umons.ac.be, manshun.ang@umons.ac.be
R´
esum´
e – La s´
eparation de sources d´
esigne les techniques visant `
a retrouver des signaux inconnus appel´
es sources `
a partir d’une observation
de leur m´
elange. Dans ce papier, nous consid´
erons la situation o`
u le signal m´
elang´
e a ´
et´
e enregistr´
e avec un seul capteur. La s´
eparation aveugle
consiste `
a isoler et extraire chacun des signaux sonores sources sur base d’un nombre limit´
e d’informations; habituellement la seule information
plus ou moins maitris´
ee concerne le nombre de sources `
a priori pr´
esentes dans le signal m´
elang´
e. Sur base d’une repr´
esentation temps-fr´
equence
du signal, une des m´
ethodes les plus r´
epandues se base sur l’utilisation de techniques de s´
eparation telle que la NMF (Factorisation en matrices
positives). Les m´
ethodes NMF consistent classiquement en la minimisation d’une fonction de coˆ
ut telles que les divergences de Kullback-
Leibler et d’Itakura-Saito appartenant `
a la famille des divergences β. Dans ce papier, nous pr´
esentons un nouveau mod`
ele de s´
eparation bas´
e sur
la minimisation d’une divergence de Kullback-Leibler incluant une p´
enalit´
e favorisant des solutions pour la matrice dictionnaire de volume
minimum. Afin de r´
esoudre ce probl`
eme, la fonction de coˆ
ut est remplac´
ee par une fonction auxiliaire s´
eparable et convexe `
a minimiser. On
montre alors que la minimisation de cette fonction objectif conduit `
a des r´
esultats plus interpr´
etables, notamment dans le cas o`
u le rang de la
factorisation est surestim´
e en regard du nombre de sources r´
eellement pr´
esentes dans le signal.
Abstract – Audio source separation concerns techniques used to extract unknown signals called sources from a mixed signal. In this paper,
we assume that the audio signal is recorded with a single microphone. Considering a mixed signal composed of various audio sources, the
blind audio source separation consists in isolating and extracting each of the sources on the basis of a single recording. Usually, the only known
information is the number of estimated sources present in the mixed signal. Based on a time-frequency representation of the signal, classical
source separation techniques integrate algorithms such as nonnegative matrix factorization (NMF). Optimization problems in blind audio source
separation are based on the minimization of criteria such as the Kullback-Leibler and Itakura-Saito divergences, both divergences belonging to
the family of β-divergences. In this paper, we present a new model of separation based on the minimization of the Kullback-Leibler including
a penalty term promoting the columns of the dictionary matrix to have small volume. In order to solve this problem, the global cost function is
replaced by a convex and separable auxiliary function that will be minimized. We will show that we obtain more interpretable results in the case
where the factorization rank (that is, the number of sources present into the mixed signal) is overestimated.
1 Introduction
La factorisation en matrices en positives est une technique
d’approximation de rang faible utilis´
ee pour la d´
ecomposition
de donn´
ees positives. Etant donn´
ee une matrice VRF×N
+
et un entier positif K, la NMF consiste `
a trouver une matrice
positive Wavec Kcolonnes et une matrice positive Havec K
lignes telles que VW H . Cette relation signifie que chaque
colonne de Vest approxim´
ee par une combinaison lin´
eaire des
colonnes de Wpond´
er´
ee par les ´
el´
ements des colonnes cor-
respondantes de H. Dans le cas o`
uVcorrespond au spectro-
gramme d’amplitude (ou de puissance) d’un signal audio, la
matrice West appel´
ee dictionnaire dont chaque colonne contient
la signature spectrale d’un composant, les lignes de la matrice
Hrepr´
esentent les coefficients d’activation de chaque compo-
sant le long de la dimension N(au cours du temps dans notre
cas). Notons que la m´
ethode de s´
eparation de source pr´
esent´
ee
dans ce papier s’applique aux r´
epr´
esentations temps-fr´
equence
quadratiques qui satisfont la propri´
et´
e de positivit´
e.
La factorisation est habituellement recherch´
ee en consid´
erant
le probl`
eme de minimisation suivant :
min
WRF×K,HRK×ND(V|W H ) = X
fn
d(Vfn|[W H ]fn )
tel que H0, W 0,
(1)
o`
u la notation A0exprime donc la contrainte de positivit´
e
sur les entr´
ees de Aet o`
ud(x|y)est une mesure d’´
ecart entre
les scalaires xet y. Pour la s´
eparation aveugle de sources so-
nores, une fonction de coˆ
ut commun´
ement utilis´
ee est la divergence-
βdiscr`
ete not´
ee dβ(x, y)d´
efinie par :
dβ(x, y) =
1
β(β1) xβ+ (β1) yββxyβ1
pour βR\(0,1) ,
xlog x
yx+ypour β= 1,
x
ylog x
y1pour β= 0.
La divergence βest ainsi d´
efinie par la valeur particuli`
ere donn´
ee
`
aβ, et correspond `
a la norme de Frobenius, la divergence de
Kullback-Leibler et la divergence d’Itakura-Saito dans les cas
particuliers o`
uβ=2, 1 et 0, respectivement. Dans ce cas, la
fonction objectif de (1) s’´
ecrit comme suit Dβ(V|W H ) =
Pfn dβ(Vfn |[W H ]fn ).
La factorisation en matrices positives est dans la plupart des
cas mal pos´
ee car la solution optimale n’est pas unique. Afin de
faire en sorte que la solution du probl`
eme (1) soit unique (aux
permutations et mises `
a l’´
echelle pr`
es sur les lignes de Het
les colonnes de W) rendant ainsi le probl`
eme bien pos´
e et fac-
teurs (W, H)identifiables, une technique est de rechercher une
solution pour Wde volume (engendr´
e par l’espace colonne)
minimum ; voir par exemple [1].
2 Mod`
ele β-NMF de volume minimum
Dans ce papier, nous pr´
esentons la formulation suivante pour
la β-NMF de volume minimum :
min
W(:,j)Fj,H 0F(W, H) = Dβ(V|W H ) + λvol(W),
(2)
o`
uF=xRF
+|Pixi= 1,λest le poids du terme de
p´
enalit´
e et vol(W)est une fonction de mesure du volume en-
gendr´
e par les colonnes de W. Notez qu’une normalisation est
consid´
er´
ee pour les colonnes de Wafin d’´
eviter que Wne
tende vers z´
ero sachant que W H = (W/a) (Ha)pour n’im-
porte quel a > 0. Dans ce papier, nous utiliserons
vol(W) = logdet(WTW+δI),
dans le probl`
eme (2), o`
uIest la matrice identit´
e d’ordre Ket δ
est un scalaire positif qui empˆ
eche le terme logdet(WTW)de
tendre vers −∞ lorsque Wtend vers une matrice de rang in-
complet (r=rank(W)< K). La raison d’utiliser une telle me-
sure est que pdet (WTW)/K!est le volume de l’enveloppe
convexe des colonnes de Wet de l’origine. Une seconde mo-
tivation importante pour l’utilisation de logdet(WTW+δI)
en tant que r´
egularisation sur le volume plutˆ
ot que det(WTW)
est sa plus grande simplicit´
e de calcul : bien que les deux fonc-
tions soient non-convexes et conceptuellement aussi complexes
`
a g´
erer, la premi`
ere permet de trouver des mises `
a jours plus
simples car elle poss`
ede une borne sup´
erieure dite serr´
ee alors
que la seconde non, voir [6] pour plus de d´
etails. Dans le cas
sans bruit et sous certaines conditions sur V=W H , ce mod`
ele
permettra d’identifier les facteurs latents W#, H#qui ont
g´
en´
er´
eV. Ces conditions particuli`
eres n´
ecessitent que les co-
lonnes de Vsoient suffisamment bien r´
eparties dans l’enve-
loppe convexe g´
en´
er´
ee par les colonnes de W, voir [2], [3] et
[4] ; il s’agit de la condition de dispersion suffisante (Suf-
ficiently scattered condition dans la litt´
erature anglaise). En
particulier, les donn´
ees (colonnes de V) doivent ˆ
etre localis´
ees
sur les facettes de l’enveloppe convexe, ce qui revient `
a dire que
Hdoit ˆ
etre suffisamment creuse. A notre connaissance,
ces r´
esultats th´
eoriques ne s’appliquent que dans le cas exact
(pas de bruit dans les donn´
ees), par cons´
equent la robustesse
au bruit du mod`
ele (2) doit encore ˆ
etre rigoureusement ´
etudi´
ee
[8]. La condition de dispersion suffisante est une g´
en´
eralisation
de la condition de s´
eparabilit´
e qui n´
ec´
essite que W=V(:, κ)
pour un ensemble d’indices κde taille K. La s´
eparabilit´
e rend
la r´
esolution du probl`
eme NMF plus ais´
ee. Remarquons n´
e-
anmoins que bien que la NMF de volume minimum garantisse
l’identifiabilit´
e des facteurs latents, le probl`
eme (2) est toujours
difficile `
a r´
esoudre dans la plupart des cas ; comme l’est la NMF
originale [5].
3 Algorithme pour min-vol KL-NMF (2)
Une strat´
egie d’optimisation populaire pour la NMF est bas´
ee
sur une s´
erie d’it´
erations au cours desquelles les matrices Wet
Hsont mises `
a jour et optimis´
ees de mani`
ere alternative, nous
avons adopt´
e cette strat´
egie dans ce papier. Afin de r´
esoudre le
probl`
eme, la fonction de coˆ
ut du mod`
ele (2) est remplac´
ee par
une fonction auxiliaire s´
eparable (c’est-`
a-dire que les variables
sont d´
ecoupl´
ees et peuvent ainsi ˆ
etre optimis´
ees ind´
ependemment)
qui consitue une borne sup´
erieure convexe que l’on va minimi-
ser. Il s’agit donc d’un algorithme de majorisation-minimisation.
Dˆ
u`
a la limitation en taille de ce papier, nous ne pr´
esentons
ici que la m´
ethode g´
en´
erale pour la construction de cette fonc-
tion auxiliaire s´
eparable et convexe. L’int´
egralit´
e des d´
eveloppements
sera disponible dans un article `
a paraˆ
ıtre prochainement. Le
principe repose sur la construction d’une fonction auxiliaire
pour chacun des deux termes de (2).
Pour le terme Dβ(V|W H )de (2), nous avons utilis´
e la fonc-
tion auxiliaire pr´
esent´
ee dans [7].
En ce qui concerne le terme logdet, la construction repose
sur les ´
el´
ements suivants :
tout d’abord la construction d’une borne sup´
erieure stric-
tement convexe `
a partir de l’approximation de Taylor li-
mit´
e au premier ordre de la fonction logdet comme uti-
lis´
e par exemple dans [6],
ensuite la construction d’une borne sup´
erieure s´
eparable
`
a l’approximation du point pr´
ec´
edent.
Pour β= 1 (la mesure d’´
ecart correspond donc `
a la di-
vergence de Kullback-Leibler), les mises `
a jour multiplicatives
suivantes pour Wet Hgarantissent la d´
ecroissance de la fonc-
tion objectif F(W, H):
WWh[Φ].2+ 2Θ [V]
[W H]HTi.1
2Φ
[Θ]
(3)
o`
uΦ = JF,N HT4λ(W Y ),Θ = 4λW (Y++Y),
repr´
esente le produit matriciel de Hadamard, [.]
[.]est l’op´
erateur
de division ´
el´
ement par ´
el´
ement, (.)(.)est l’op´
erateur de puis-
sance ´
el´
ement par ´
el´
ement, JF,N est une matrice de uns de di-
mensions F×N,Y= (WTW+δI)1avec δ > 0, et on d´
efinit
Y+= max(Y, 0) et Y= max(Y , 0) de telle mani`
ere que
Y=Y+Y. La mise `
a jour pour les entr´
ees de Hest
HHhWT[V]
[W H]i
[WTJF,N ],(4)
comme dans l’article original de Lee et Seung [9]. Les mises
`
a jour d´
efinies dans (3) et (4) garantissent la d´
ecroissance de
la fonction objectif de (2). Cependant, lors de la normalisation
des colonnes de W, le terme divergence-βde Fne varie pas (si
les lignes de Hsont mises `
a l’´
echelle de mani`
ere appropri´
ee)
mais le terme logdet changera et par cons´
equent la fonction
objectif Fpourrait augmenter. Pour parer `
a ce probl`
eme, nous
int´
egrons une proc´
edure de recherche en ligne. L’algorithme 1
impl´
emente cette strat´
egie et sera d´
esign´
e par le nom min-vol
KL-NMF dans la suite de ce papier.
Algorithm 1 min-vol KL-NMF
Require: matrice VRM×T, une initialisation pour H
RK×T
+, une initialisation pour WRM×K, rang de fac-
torisation K, un nombre maximum d’it´
erations maxiter, le
poids de la p´
enalit´
eλ > 0et δ > 0
Ensure: une factorisation NMF (W, H)de rang Kde V
W H avec W0et H0.
1: γ= 1, Y =WTW+δI1,
2: for k= 1 : maxiter do
3: % Mise `
a jour de H
4: HH[WT([V]
[W H])]
[WTJF,N ]
5: ΦJF,N HT4λ(W Y )
6: Θ4λW (Y++Y)
7: % Mise `
a jour de W
8: W+W[[Φ].2+2Θ([V]
[W H]HT)].1
2Φ
[Θ]
9: W+
γ=normaliser (W+)
10: % Recherche en ligne
11: while FW+
γ, H> F (W, H)do
12: γγ×0.8
13: W+
γnormaliser ((1 γ)W+γW +)
14: end while
15: WW+
γ
16: % Mise `
a jour de Y
17: YWTW+δI1
18: % Mise `
a jour de γ
19: γmin (1, γ ×1.2)
20: end for
4 R´
esultats num´
eriques
Dans cette section nous pr´
esentons les r´
esultats obtenus avec
l’algorithme min-vol KL-NMF appliqu´
e`
a un morceau de piano
comprenant les 30 premi`
eres secondes de “Prelude et Fugue
no.1 en do majeur” de Jean-Sebastien Bach interpr´
et´
e par Glenn
Gould 1. Ce morceau de piano est compos´
e des treize notes sui-
vantes : si3, do4, r´
e4, mi4, fa#
4, sol4, la4, do5, r´
e5, mi5, fa5,sol5,
la5. Le morceau de piano a ´
et´
e enregistr´
e avec une fr´
equence
d’´
echantillonnage fs= 11025Hz (fr´
equence maximum exploi-
table = 5513 Hz) produisant un nombre d’´
echantillons tempo-
1. https ://www.youtube.com/watch?v=ZlbK5r5mBH4
rels T= 330750. La TFCT (Transform´
ee de Fourier `
a court
terme) du signal audio est tout d’abord d´
etermin´
ee en utili-
sant des fenˆ
etres de Hamming d’une longueur F= 1024 ; la
r´
esolution temporelle est donc de 46 ms et la r´
esolution fr´
e-
quentielle est de 10.76 Hz. Un recouvrement typique de 50%
entre deux fenˆ
etres successives a ´
et´
e consid´
er´
e conduisant `
a la
g´
en´
eration de 647 fenˆ
etres (=N).
La Figure 1 pr´
esente la partition du morceau, le signal audio
dans le domaine temporel et sa repr´
esentation temps-fr´
equence
sous la forme du spectrogramme d’amplitude.
FIGURE 1 – Trois repr´
esentations des donn´
ees : (Au-dessus) la
partition. (Au milieu) Le signal enregistr´
e´
echantillonn´
e dans
le domaine temporel. (En bas) Le spectrogramme d’amplitude
Vexprim´
e en dB.
La Figure 2 pr´
esente les r´
esultats obtenus pour Wet Havec
un rang de factorisation K= 16, donc surestim´
e par rapport
au nombre de notes (13). Les r´
esultats pr´
esent´
es ont ´
et´
e obte-
nus avec une initialisation al´
eatoire pour les matrices Wet H
et un nombre maximum d’it´
erations fix´
e`
a 300. Les meilleurs
r´
esultats sur 5 cinq analyses ont ´
et´
e retenus. On observe que
trois composantes sont mises `
a z´
ero (voir symbole *) tandis
que le mod`
ele est capable d’identifier 13 notes. Apr`
es ana-
lyses des fr´
equences fondamentales des 13 sources estim´
ees,
celles-ci correspondent aux fondamentales des 13 notes cit´
ees
pr´
ec´
edemment. Notez que peu d’harmoniques sont visibles dans
la Figure 2, ceci est dˆ
u au mode d’affichage condens´
e des r´
esultats
(sur une mˆ
eme figure), en g´
en´
erant des graphiques individuels
pour chaque colonne de Wavec une ´
echelle logarithmique, on
observe un nombre plus important d’harmoniques comme ha-
bituellement observ´
e pour des signatures spectrales de sources
sonores. Notez ´
egalement qu’en utilisant la β-NMF standard
ou la β-NMF avec une contrainte de parcimonie pour analyser
ce mˆ
eme extrait musical dans la mˆ
eme configuration de test,
ces deux mod`
eles g´
en`
erent autant de composants que la va-
leur du rang de factorisation, subdivisant ainsi une ou plusieurs
sources alors que l’algorithme min-vol KL-NMF pr´
eserve l’int´
egrit´
e
des 13 sources pr´
esentes dans le signal audio. Des simulations
suppl´
ementaires incluant des comparaisons de r´
esultats obte-
nus entre le mod`
ele pr´
esent´
e dans ce papier et des mod`
eles sans
p´
enalit´
e ou avec p´
enalit´
es classiques telles que la parcimonie
seront int´
egr´
ees dans un article `
a paraˆ
ıtre prochainement.
FIGURE 2–R´
esultats pour Wet H.
En ce qui concerne la s´
equence des sources estim´
ees, la Fi-
gure 3 montre (sur un intervalle de temps limit´
e`
a la premi`
ere
mesure) qu’elle suit la s´
equence th´
eorique de la partition, notez
que pour plus de clart´
e un seuillage a ´
et´
e appliqu´
e aux lignes
de H(activations) de mˆ
eme qu’une permutation.
FIGURE 3 – Validation de la s´
equence des sources estim´
ees.
5 Conclusion et perspectives
Dans ce papier nous avons pr´
esent´
e un nouveau mod`
ele de
s´
eparation aveugle de sources sonores monophoniques bas´
e sur
la minimisation d’une fonction objectif int´
egrant une mesure
d’´
ecart de la famille des divergences beta et un terme de p´
enalit´
e
favorisant des solutions pour W de volume minimum. On a
propos´
e un algorithme simple pour r´
esoudre ce probl`
eme et
nous avons illustr´
e le comportement de cette m´
ethode sur des
donn´
ees r´
eelles. On a sp´
ecialement mis l’emphase sur la capa-
cit´
e qu’a ce mod`
ele `
a faire tendre vers z´
ero certains composants
de la factorisation lorsque le rang est mal choisi et surestim´
e en
regard du nombre de sources pr´
esentes dans le signal. Ce tra-
vail est pr´
eliminaire et d’importantes questions restent encore
ouvertes : peut-on prouver la robustesse de ce mod`
ele au bruit ?
Peut-on concevoir des algorithmes plus rapides?
R´
ef´
erences
[1] X. Fu, K. Huang, N.D. Sidiropoulos et W-K. Ma. Nonne-
gative matrix factorization for signal and data analytics :
Identifiability, algorithms and applications. IEEE Signal
Processing Magazine, 2018.
[2] C-H. Lin, W-K. Ma, W-C. Li, C-Y. Chi et A. Ambika-
pathi. Identifiability of the simplex volume minimization
criterion for blind hyperspectral unmixing : The no-pure-
pixel case. IEEE Transactions on Geoscience and Remote
Sensing,vol. 53,no. 10,pp. 5530-5546 2015.
[3] X. Fu, W-K. Ma, K. Huang et N.D. Sidiropoulos.
Blind separation of quasi-stationary sources : Exploiting
convex geometry in covariance domain. IEEE Transac-
tions Signal Processing, vol. 63, no. 9,pp. 2306-2320,
2015.
[4] X. Fu, K. Huang et N.D. Sidiropoulos. On identifiability
of nonnegative matrix factorization. IEEE Signal Proces-
sing Letters, vol. 25, no. 3,pp. 328-332, 2018.
[5] S. Vavasis. On the complexity of nonnegative matrix fac-
torization. SIAM Journal on Optimization, vol. 20, no.
3,pp. 1364-1377, 2010.
[6] X. Fu, K. Huang, B. Yang, W-K. Ma et N.D. Sidiro-
poulos. Robust Volume Minimization-Based Matrix Fac-
torization for Remote Sensing and Document Clustering.
IEEE Transactions Signal Processing, vol. 64, pp. 6254 -
6268, 2016.
[7] C. F´
evotte et J. Idier. Algorithms for nonnegative facto-
rization with the beta-divergence. Neural Computation,
2011.
[8] V. Leplat, N. Gillis et A.M.S Ang. Minimum-volume
rank-deficient nonnegative matrix factorizations. IEEE-
ICASSP, 2019.
[9] D.D. Lee et H.S. Seung, Algorithms for non-negative ma-
trix factorization. In Advances in neural information pro-
cessing systems, pp. 556-562, 2001.
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
ABSTRACT In recent years, nonnegative matrix factorization (NMF) with volume regularization has been shown to be a powerful identifiable model; for example for hyperspectral unmixing, document classification, community detection and hidden Markov models. In this paper, we show that minimum-volume NMF (min-volNMF) can also be used when the basis matrix is rank deficient, which is a reasonable scenario for some real-world NMF problems (e.g., for unmixing multispectral images). We propose an alternating fast projected gradient method for minvol NMF and illustrate its use on rank-deficient NMF problems; namely a synthetic data set and a multispectral image. Index Terms— nonnegative matrix factoriztion, minimum volume, identifiability, rank deficiency
Article
Full-text available
Nonnegative matrix factorization (NMF) has become a workhorse for signal and data analytics, triggered by its model parsimony and interpretability. Perhaps a bit surprisingly, the understanding to its model identifiability---the major reason behind the interpretability in many applications such as topic mining and hyperspectral imaging---had been rather limited until recent years. Beginning from the 2010s, the identifiability research of NMF has progressed considerably: Many interesting and important results have been discovered by the signal processing (SP) and machine learning (ML) communities. NMF identifiability has a great impact on many aspects in practice, such as ill-posed formulation avoidance and performance-guaranteed algorithm design. On the other hand, there is no tutorial paper that introduces NMF from an identifiability viewpoint. In this paper, we aim at filling this gap by offering a comprehensive and deep tutorial on model identifiability of NMF as well as the connections to algorithms and applications. This tutorial will help researchers and graduate students grasp the essence and insights of NMF, thereby avoiding typical `pitfalls' that are often times due to unidentifiable NMF formulations. This paper will also help practitioners pick/design suitable factorization tools for their own problems.
Article
Full-text available
In this letter, we propose a new identification criterion that guarantees the recovery of the low-rank latent factors in the nonnegative matrix factorization (NMF) model, under mild conditions. Specifically, using the proposed criterion, it suffices to identify the latent factors if the rows of one factor are \emph{sufficiently scattered} over the nonnegative orthant, while no structural assumption is imposed on the other factor except being full-rank. This is by far the mildest condition under which the latent factors are provably identifiable from the NMF model.
Article
Full-text available
This paper revisits blind source separation of instantaneously mixed quasi-stationary sources (BSS-QSS), motivated by the observation that in certain applications (e.g., speech) there exist time frames during which only one source is active, or locally dominant. Combined with nonnegativity of source powers, this endows the problem with a nice convex geometry that enables elegant and efficient BSS solutions. Local dominance is tantamount to the so-called pure pixel/separability assumption in hyperspectral unmixing/nonnegative matrix factorization, respectively. Building on this link, a very simple algorithm called successive projection algorithm (SPA) is considered for estimating the mixing system in closed form. To complement SPA in the specific BSS-QSS context, an algebraic preprocessing procedure is proposed to suppress short-term source cross-correlation interference. The proposed procedure is simple, effective, and supported by theoretical analysis. Solutions based on volume minimization (VolMin) are also considered. By theoretical analysis, it is shown that VolMin guarantees perfect mixing system identifiability under an assumption more relaxed than (exact) local dominance—which means wider applicability in practice. Exploiting the specific structure of BSS-QSS, a fast VolMin algorithm is proposed for the overdetermined case. Careful simulations using real speech sources showcase the simplicity, efficiency, and accuracy of the proposed algorithms.
Article
Full-text available
In blind hyperspectral unmixing (HU), the pure-pixel assumption is well-known to be powerful in enabling simple and effective blind HU solutions. However, the pure-pixel assumption is not always satisfied in an exact sense, especially for scenarios where pixels are all intimately mixed. In the no pure-pixel case, a good blind HU approach to consider is the minimum volume enclosing simplex (MVES). Empirical experience has suggested that MVES algorithms can perform well without pure pixels, although it was not totally clear why this is true from a theoretical viewpoint. This paper aims to address the latter issue. We develop an analysis framework wherein the perfect identifiability of MVES is studied under the noiseless case. We prove that MVES is indeed robust against lack of pure pixels, as long as the pixels do not get too heavily mixed and too asymmetrically spread. Also, our analysis reveals a surprising and counter-intuitive result, namely, that MVES becomes more robust against lack of pure pixels as the number of endmembers increases. The theoretical results are verified by numerical simulations.
Article
Full-text available
This paper describes algorithms for nonnegative matrix factorization (NMF) with the beta-divergence (beta-NMF). The beta-divergence is a family of cost functions parametrized by a single shape parameter beta that takes the Euclidean distance, the Kullback-Leibler divergence and the Itakura-Saito divergence as special cases (beta = 2,1,0, respectively). The proposed algorithms are based on a surrogate auxiliary function (a local majorization of the criterion function). We first describe a majorization-minimization (MM) algorithm that leads to multiplicative updates, which differ from standard heuristic multiplicative updates by a beta-dependent power exponent. The monotonicity of the heuristic algorithm can however be proven for beta in (0,1) using the proposed auxiliary function. Then we introduce the concept of majorization-equalization (ME) algorithm which produces updates that move along constant level sets of the auxiliary function and lead to larger steps than MM. Simulations on synthetic and real data illustrate the faster convergence of the ME approach. The paper also describes how the proposed algorithms can be adapted to two common variants of NMF : penalized NMF (i.e., when a penalty function of the factors is added to the criterion function) and convex-NMF (when the dictionary is assumed to belong to a known subspace).
Article
Full-text available
Non-negative matrix factorization (NMF) has previously been shown to be a useful decomposition for multivariate data. Two different multiplicative algorithms for NMF are analyzed. They differ only slightly in the multiplicative factor used in the update rules. One algorithm can be shown to minimize the conventional least squares error while the other minimizes the generalized Kullback-Leibler divergence. The monotonic convergence of both algorithms can be proven using an auxiliary function analogous to that used for proving convergence of the ExpectationMaximization algorithm. The algorithms can also be interpreted as diagonally rescaled gradient descent, where the rescaling factor is optimally chosen to ensure convergence.
Article
This paper considers \emph{volume minimization} (VolMin)-based structured matrix factorization (SMF). VolMin is a factorization criterion that decomposes a given data matrix into a basis matrix times a structured coefficient matrix via finding the minimum-volume simplex that encloses all the columns of the data matrix. Recent work showed that VolMin guarantees the identifiability of the factor matrices under mild conditions that are realistic in a wide variety of applications. This paper focuses on both theoretical and practical aspects of VolMin. On the theory side, exact equivalence of two independently developed sufficient conditions for VolMin identifiability is proven here, thereby providing a more comprehensive understanding of this aspect of VolMin. On the algorithm side, computational complexity and sensitivity to outliers are two key challenges associated with real-world applications of VolMin. These are addressed here via a new VolMin algorithm that handles volume regularization in a computationally simple way, and automatically detects and {iteratively downweights} outliers, simultaneously. Simulations and real-data experiments using a remotely sensed hyperspectral image and the Reuters document corpus are employed to showcase the effectiveness of the proposed algorithm.
Article
Nonnegative matrix factorization (NMF) has become a prominent technique for the analysis of image databases, text databases, and other information retrieval and clustering applications. The problem is most naturally posed as continuous optimization. In this report, we define an exact version of NMF. Then we establish several results about exact NMF: (i) that it is equivalent to a problem in polyhedral combinatorics; (ii) that it is NP-hard; and (iii) that a polynomial-time local search heuristic exists.