Figure 4 - uploaded by Nizar Ghoula
Content may be subject to copyright.
Source publication
Multiple sources of information can improve knowledge mangement if they are properly combined and processed. Knowledge engineering usually relies on knowledge resources, typically ontologies. We propose a domain-independent framework which models, combines and represents heterogenous sources of information. Our aim is to build a resources repositor...
Context in source publication
Context 1
... le Langage sert à déterminer le langage de représentation dans lequel le formalisme de la ressource est exprimé (cf. figure 1) ; – la catégorie sert à déterminer le type de ressource. Une ressource peut être de type ontologie, terminologie, linguistique ou ressource d’indexation, d’alignement ou d’annotation. Ce critère permet de classer les ressources pour pouvoir les réutiliser et les associer à des formats bien déterminés ; – la langue sert à indiquer la liste des langues de la ressource. Pour les ressources multilingues ce critère est défini par des valeurs multiples au niveau de la ressource et spécifié aussi chez ses entités ; – l’usage sert à indiquer les ressources dont l’usage est bien défini. Par exemple, un corpus peut être utilisé pour l’apprentissage ou le test. Une ontologie peut être utilisée pour l’annotation ou la recherche d’information. Un alignement peut être utilisé pour la fusion des ressources ou la réécriture des requêtes, etc. ; – la version sert à spécifier une version de la ressource. Une ressource peut avoir plusieurs versions, ce critère assure une bonne exploitation des ressources afin de gérer la compatibilité, par exemple, si un alignement a été élaboré entre deux ontologies, cet alignement n’est plus forcément utile avec une nouvelle version d’une des deux ontologies ; – la source sert à spécifier la personne ou l’organisme qui a conçu la ressource. L’origine de la ressource permet de savoir pour quelle raison et pour quelle utilisation une ressource a été créée ; – la taille ou volume et le degré d’expressivité de la ressource. Ces critères permettent de nous donner une information sur l’importance de la ressource et son utilité pour des opérations particulières. À titre d’exemple, un ontologue veut enrichir une ontologie dans le domaine de l’aéronautique. Cette ontologie est sous la forme d’une hiérarchie de concepts. Il veut ajouter des définitions dans deux langues ; anglais et français, aux concepts de cette ontologie. Il veut également raffiner la classification par l’ajout de nouvelles classes. Pour réaliser cette tâche, il lui faut des ressources externes telles que des glossaires, terminologies ou dictionnaires bilingues dans les langues en question. Afin d’avoir accès aux ressources pertinentes le concepteur peut interroger l’ontologie TOK_Onto pour chercher toutes les ressources décrivant le domaine de l’aéronautique, ayant pour langues le français et/ou l’anglais. Comme résultat de sa requête, le système de recherche basé sur TOK_Onto retourne un certain nombre de ressources, par exemple, un corpus parallèle anglais-français de textes concernant l’aéronautique, des articles de Wikipedia dans ce même domaine, classés par catégorie, et un dictionnaire des synonymes en anglais de l’aéronautique, etc. Étant donné la diversité des ressources de connaissances terminologiques, ontologiques et linguistiques et la variété des formalismes et langages de représentation des connaissances, il serait vain de tenter de définir un modèle unifié capable de représenter le contenu de n’importe quelle ressource. L’approche que nous proposons consiste plutôt à définir un ensemble de modèles abstraits de contenus et à représenter le contenu d’une ressource à l’aide d’un ou de plusieurs modèles, en fonction des besoins. Lors de l’importation dans l’entrepôt on pourra choisir les modèles de représentation nécessaires à l’exécution des tâches pour lesquelles la ressource est requise. Ces représentations ne préservent en général pas toute la connaissance contenue dans la ressource mais en extraient les parties nécessaires à un traitement donné. Un exemple typique du besoin de modèles simplifiés est l’alignement d’ontologies. La majorité des algorithmes d’alignement actuels peuvent aligner des ontologies en OWL mais ils n’utilisent pas toute la sémantique exprimée par ce formalisme. Ils sont souvent basés sur les étiquettes textuelles attachées à chaque classe dans la structure de l’ontologie. La structure est généralement un graphe représentant la hiérarchie des classes et les propriétés qui font le lien entre deux classes (e.g. Il y a un lien d’étiquette P entre les classes C 1 et C 2 , s’il existe un axiome de la forme C 1 P only / some C 2 ). Dans ce cas, il est plus approprié de représenter une ontologie en OWL par un graphe de structure au lieu d’utiliser le modèle complet de la logique de description OWL. Les algorithmes d’alignement vont être plus faciles à écrire et ils vont permettre d’aligner plusieurs types d’ontologies pouvant être représentées par un graphe étiqueté. Au niveau de la base de connaissances, nous créons une instance représentant la ressource et des instances représentant ses entités. Selon les traitements que nous avons besoin d’appliquer, cette représentation peut utiliser un certain type de modèle. En outre, la même ressource peut être impliquée dans des processus qui supportent chacun un format spécifique. Ainsi, grâce aux représentations multiples une même ressource peut être utilisée dans plusieurs processus car son contenu est représenté par plusieurs modèles. Par exemple, un algorithme d’alignement ne peut accepter des ontologies au format OWL, tandis qu’un autre algorithme nécessite des ontologies dans un format de type WordNet. La gestion et le traitement des ressources dans l’entrepôt consistent essentielle- ment à importer des ressources, puis à appliquer des processus sur leurs représentations pour générer de nouvelles ressources. Si l’on revient à l’exemple de la section 3.1 concernant l’ontologie aéronautique, le processus d’extension ou d’enrichissement pourrait être décrit comme suit : – recherche de glossaires, terminologies ou dictionnaires de termes en anglais et français relatifs au domaine de l’aéronautique (par sélection sur les métadonnées) – application d’opération de transformation ( mapping ) pour obtenir des représentations de leur contenu sous forme d’ontologies lexicales (chaque terme donne lieu à un concept avec sa définition sous forme d’annotation) ; – application d’opérations d’alignement d’ontologies pour faire correspondre les concepts de ces ontologie avec ceux de l’ontologie à étendre ; – fusion des ontologies ainsi alignées pour produire une nouvelle ontologie enri- chie ; – exportation de cette ontologie dans le format désiré. Chaque processus de traitement de ressources peut être décrit comme une séquence d’opérations élémentaires sur les représentations de ressources. Ces opérations peuvent être de différents types : transformations de représentations (pour passer d’un modèle à un autre), sélection d’un sous-ensemble des entités d’une représentation, fu- sion, alignement, composition d’alignement, annotation, etc. Mis à part l’importation et l’exportation toutes ces opérations agissent au niveau représentation et non pas directement sur les ressources elles-mêmes. Chaque opération est caractérisée par le ou les modèles de représentation auxquels elle s’applique et les algorithmes ou heuristiques utilisés. La modélisation des processus et opérations a deux objectifs principaux : 1) trouver les opérations applicables à une ressource ou inversement trouver les ressources sur lesquelles on pourrait appliquer une opération ; 2) mémoriser les processus de création de ressources dérivées, ce qui permettra, entre autres, de ré-exécuter les processus sur de nouvelles versions des ressources. La figure 2 montre comment les différents nivaux du modèle TOK sont impliqués dans le traitement des ressources tels que l’importation, la recherche et la génération, etc. L’étude des ressources selon les critères identifiés précédemment nous a permis de construire une classification des ressources et d’élaborer la première couche de notre ontologie générale TOK_Onto 14 . La classe ‘ TOK_Resource ’ permet de modéliser les ressources, elle comporte plusieurs sous-classes en fonction du type des ressources étudiées. Les critères communs de ces ressources sont représentés dans cette classe et les critères spécifiques font l’objet d’une description dans des sous-classes. Cette ontologie décrit l’ensemble des ressources de connaissances hétérogènes. TOK_Onto , a été développée en format OWL avec le degré d’expressivité SRIQ(D) en utilisant l’éditeur d’ontologies Protégé. TOK_Onto contient 195 concepts (nommés et non nommés), 120 propriétés, 450 axiomes, et 2 000 annotations. La figure 4 décrit la classe ‘ TOK_Resource ’ et ses liens avec les autres classes à travers des propriétés. Une ressource peut contenir, importer ou être alignée avec d’autre ressources. Les entités d’une ressource sont modélisées par la classe ‘ TOK_Entity ’, ces entités peuvent avoir des relations entre elles de type association, alignement, traduction, description. La relation entre une classe et une propriété dans une ontologie est de type ‘ source -> destination ’. Chaque élément (concept, propriété, axiome, individu, terme, etc.) est traité comme une entité de connaissances ontologiques, terminologiques ou ...
Similar publications
We present GlossBoot, an effective minimally-supervised approach to acquiring wide-coverage domain glossaries for many languages. For each language of interest, given a small number of hypernymy relation seeds concerning a target domain, we bootstrap a glossary from the Web for that domain by means of iteratively acquired term/gloss extraction patt...
Citations
... These models were integrated within the proposed resources model (Thesauri entities, ontology entities, etc.); We implemented some knowledge engineering operators within a use case of merging multiple ontological and terminological resources in order to create an enriched version of WordNet [Ghoula et al. 2010a, Ghoula 2012]. ...
... Consequently, after trying different design alternatives and applying several improvements and more expressiveness in the meta-model, we propose to create a generic model that supports multiple representations for the content of a resource [Ghoula et al. 2010a]. The challenge is to create a model representing heterogeneous resources (multiple representation models) and to perform operations that involve several resources (single representation model). ...
... We have built a prototype of a lightweight repository [Ghoula et al. 2010a] using the meta-model that we described in the previous chapter. We implemented the model as a relational database because the aim of this application was to build a terminological knowledge base containing multiple terminological resources that is stored in a database. ...
Multiple tasks related to documents, such as indexing, retrieving, annotation, or translation are based on linguistic, terminological and ontological knowledge existing in resources of different types represented using various formalisms. Building bridges between these resources and using them together is a complex task. Solving this problem relies on finding the right resources before extracting the required data. Ontology repositories have been created to help in this task by collecting ontologies and offering effective indexing of these resources. However, these repositories treat a single category of resources and do not provide operations for generating new resources. To meet these needs in terms of knowledge engineering, our contributions are (1) an ontology for representing heterogeneous resources and knowledge combination operators; (2) an approach based on the principles of semantic web to ensure the representation, storage and alignment of heterogeneous resources and (3) the development of an ontology-based repository for combining alignment resources.