Conference PaperPDF Available
Annotation sémantique de clusters
Nicolas Fiorini1, Sebastien Harispe1, Sylvie Ranwez1, Jacky Montmain1, Vincent Ranwez2
1Centre de recherche LGI2P de l’École des mines d’Alès, site de Nîmes, Parc G. Besse, F-30035
Nîmes cedex 1
{prenom.nom}@mines-ales.fr
2UMR AGAP, Montpellier SupAgro/CIRAD/INRA, 2 place Pierre Viala, F-34060 Montpellier
ranwez@supagro.inra.fr
Mots-clés :Annotation sémantique, clustering.
1 Introduction
L’annotation de clusters est un traitement important pour l’interprétation des résultats de
clustering [1]. Elle peut se faire en tenant compte uniquement des informations propres à
chaque cluster (c’est l’annotation interne) ou bien en tenant compte des autres clusters (c’est
l’annotation différentielle) [2]. Ces deux points de vue peuvent cohabiter dans la phase de
clustering même, où certaines approches vont se focaliser sur les similarités entre les documents
alors que d’autres utiliseront aussi leurs différences. La littérature souligne que l’approche
différentielle fournit dans la plupart des cas des résultat plus pertinents [2]. Ainsi, bien que
d’une complexité algorithmique plus importante, cette approche est généralement préférée.
Nous présentons ici les premiers résultats relatifs à la définition d’une approche (hybride)
pour l’annotation de clusters composés de documents caractérisés par une représentation de
connaissance (e.g., ontologie).
La principale contribution visée dans cette étude porte sur la modélisation des deux critères
à maximiser : (i) la pertinence des labels associés aux clusters sous une contrainte de (ii)
différentiation des clusters.
2 Méthode
Puisque nous considérons des documents annotés sémantiquement, il est possible d’utiliser
la notion de similarité sémantique [3] afin d’évaluer à quel point une annotation représente un
cluster et le différencie des autres.
2.1 Annotation interne
Nous définissons Cun ensemble de concepts partiellement ordonnés dans une ontologie, Dun
ensemble de documents indexés par une fonction index :D → P(C)Pdésigne une partition,
et Gun ensemble de clusters (groupes) Gcomposés d’un ensemble de documents, i.e. G⊆ P(D).
L’objectif de l’annotation (interne) de cluster est de définir une fonction annotint :C × G R.
Nous considérerons par la suite le postulat précisant que l’annotation AGd’un cluster G∈ G
est optimale lorsqu’elle maximise cette fonction, qui est la similarité moyenne avec les concepts
qui indexent les documents du cluster, soit :
AG= arg max
A⊆C
(annotint(A, G)) , annotint (A, G) = 1
|G|×X
dG
sim(A, index(d)) (1)
La fonction sim :P(C)× P(C)[0,1] mesure la similarité sémantique de deux groupes de
concepts ; de nombreuses formulations ont été proposées dans la littérature [3].
2.2 Annotation différentielle
Nous considérons que les clusters forment une partition, i.e. les nclusters sont disjoints et
leur union correspond à C. On s’attend tout naturellement à ce que la stratégie d’annotation des
clusters soit respectueuse de cette partition. Il est donc essentiel que les annotations des clusters
soient toutes distinctes et plus généralement qu’elles soient aussi différentes les unes des autres
que possible. Cette contrainte n’est pas définie dans l’Equation 1. On suppose que l’on dispose
d’une mesure de dissimilarité de deux annotations conceptuelles de cluster AGet A0
G. A priori
cette mesure est symétrique, et on la notera donc d(AG, A0
G). L’annotation optimale d’un cluster
n’est plus définie de manière autonome comme pour annotint, le problème est maintenant de
trouver un ensemble d’annotation qui soient globalement optimale. Etant donner un ensemble
d’annotation A=A1, ..., Ai, ..Anavec n=|G|, on peut estimer la pertinence globale de cette
annotation par rapport au partitionement Gdes documents par :
pertinence(A1, ..., Ai, ..An|G) = (n1) X
1in
sim(Ai, Gi)+2λX
1i<jn
d(Ai, Aj)(2)
La recherche des annotations optimales des clusters revient alors à chercher les nannotations
Aiqui maximisent la fonction pertinence ci-dessus. C’est donc un compromis, géré via le
paramètre λ, entre la pertinence de Aipour annoter le seul cluster Giet la distinction entre
l’annotation de ce cluster et les annotations des autres clusters.
Cette équation n’est pas sans rappeler la proposition de Gollapudi et al. [4], max-sum diver-
sification, dans le domaine de la diversification des résultats en recherche d’information :
S= arg max
SU
(k1) X
uS
w(u)+2λX
u,vS
d(u, v)
(3)
où S est un sous-ensemble de l’univers Ude documents du corpus, k=|S|,w(u)représente la
pertinence du document upour la requête donnée, λ > 0est un paramètre ajustant l’impor-
tance de la diversité face à la pertinence et d(u, v)est une distance entre deux documents uet
v.
3 Conclusions et perspectives
L’Équation 2 présente une façon de trouver, pour chaque cluster, une annotation pertinente
tout en contrôlant sa différence avec les annotations des autres clusters. L’aspect combinatoire
de cette fonction peut être résolu par l’utilisation d’une heuristique s’inspirant de celle présentée
par Gollapudi et al [4] pour implémenter leur approche max-sum diversification. La particularité
de notre méthode réside dans le fait que nous utilisons des données annotées sémantiquement,
nous permettant d’apprécier la similarité ou la distance entre deux documents, deux clusters,
etc. Cette approche devrait donc pouvoir être étendue à l’annotation de clusters hiérarchisés,
pour lesquels le niveau d’abstraction de l’annotation devra prendre en compte la spécificité du
cluster dans la hiérarchie.
Références
[1] F. Role and M. Nadif. Beyond cluster labeling : Semantic interpretation of clusters’ contents
using a graph representation. Knowledge-Based Systems, 56, 141–155, 2014
[2] C. D. Manning, P. Raghavan and H. Schütze. Introduction to information retrieval (Vol. 1,
p. 363). Cambridge university press, 2008
[3] S. Harispe, D. Sánchez, S. Ranwez, S. Janaqi and J. Montmain. A framework for unifying
ontology-based semantic similarity measures : A study in the biomedical domain. Journal
of Biomedical Informatics, Volume 48, Elsevier, pp. 38–53, April 2014
[4] S. Gollapudi and A. Sharma. An axiomatic approach for result diversification. Proceedings
of the 18th International Conference on World Wide Web - WWW ’09, 2009
ResearchGate has not been able to resolve any citations for this publication.
Article
Efficient clustering algorithms have been developed to automatically group documents into subgroups (clusters). Once clustering has been performed, an important additional step is to help users make sense of the obtained clusters. Existing methods address this issue by assigning to each cluster a flat list of descriptive terms (labels) that are extracted from the documents, most often using statistical techniques borrowed from the field of feature selection or reduction. A limitation of these unstructured descriptions of clusters’ contents is that they do not account for the meaningful relationships between the terms. In contrast, we propose a graph representation, which makes the clusters easier to interpret by putting the descriptive terms in context, and by performing some simple network analysis. Our experiments reveal that the proposed method allows for a deeper level of interpretation, both when the clusters under study are homogeneous and when they are heterogeneous. In addition, evaluation procedures presented in the paper show that the graph-based representation of each cluster, while being very synthetic, still quite faithfully reflects the original content of the cluster.
Article
Ontologies are widely adopted in the biomedical domain to characterize various resources (e.g. diseases, drugs, scientific publications) with non-ambiguous meanings. By exploiting the structured knowledge that ontologies provide, a plethora of ad hoc and domain-specific semantic similarity measures have been defined over the last years. Nevertheless, some critical questions remain: which measure should be defined/chosen for a concrete application? Are some of the, a priori different, measures indeed equivalent? In order to bring some light to these questions, we perform an in-depth analysis of existing ontology-based measures to identify the core elements of semantic similarity assessment. As a result, this paper presents a unifying framework that aims to improve the understanding of semantic measures, to highlight their equivalences and to propose bridges between their theoretical bases. By demonstrating that groups of measures are just particular instantiations of parameterized functions, we unify a large number of state-of-the-art semantic similarity measures through common expressions. The application of the proposed framework and its practical usefulness is underlined by an empirical analysis of hundreds of semantic measures in a biomedical context.
Conference Paper
Understanding user intent is key to designing an effective ranking system in a search engine. In the absence of any explicit knowledge of user intent, search engines want to diversify results to improve user satisfaction. In such a setting, the probability ranking principle-based approach of presenting the most relevant results on top can be sub-optimal, and hence the search engine would like to trade-off relevance for diversity in the results. In analogy to prior work on ranking and clustering systems, we use the axiomatic approach to characterize and design diversification systems. We develop a set of natural axioms that a diversification system is expected to satisfy, and show that no diversification function can satisfy all the axioms simultaneously. We illustrate the use of the axiomatic framework by providing three example diversification objectives that satisfy different subsets of the axioms. We also uncover a rich link to the facility dispersion problem that results in algorithms for a number of diversification objectives. Finally, we propose an evaluation methodology to characterize the objectives and the underlying axioms. We conduct a large scale evaluation of our objectives based on two data sets: a data set derived from the Wikipedia disambiguation pages and a product database. Copyright is held by the International World Wide Web Conference Committee (IW3C2).
Book
Cambridge Core - Knowledge Management, Databases and Data Mining - Introduction to Information Retrieval - by Christopher D. Manning
  • C D Manning
  • P Raghavan
  • H Schütze
C. D. Manning, P. Raghavan and H. Schütze. Introduction to information retrieval (Vol. 1, p. 363). Cambridge university press, 2008