Article

Un sistema para resumen automático de textos en castellano

Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 31, 2003, pags. 29-36
Source: OAI

ABSTRACT

This paper presents a text summarization system for the Spanish language that combines classic techniques in automatic summarization with less frequent ones, like anaphora resolution and cohesive markers detection in order to fight the lack of coherence intrinsic to automatic text excerpts. Este artículo presenta un sistema resumidor para textos en castellano que combina técnicas clásicas dentro del campo del resumen automático con otras menos frecuentes, como son la detección de anáforas y de marcadores discursivos, pera paliar la escasa coherencia inherente a este tipo de resúmenes.

Download full-text

Full-text

Available from: Jose C Gonzalez-Cristobal, Feb 11, 2014
  • Source
    • "The contributions of Mateo combine superficial with deep structure analysis, such as the detection of pronominal anaphora, and the use of discourse connectors to enhance the coherence and cohesion of the abstract (Mateo et al., 2003). The computational complexity of these techniques may be considerable. "
    [Show abstract] [Hide abstract]
    ABSTRACT: Purpose This study looks into the latest advances in ontology-based text summarization systems, with emphasis on the methodologies of a socio-cognitive approach, the structural discourse models and the ontology-based text summarization systems. Design/methodology/approach The paper analyzes the main literature in this field and presents the structure and features of Texminer, a software that facilitates summarization of texts on Port and Coastal Engineering. Texminer entails a combination of several techniques, including: socio-cognitive user models, Natural Language Processing (NLP), disambiguation and ontologies. After processing a corpus, the system was evaluated using as a reference various clustering evaluation experiments conducted by Arco (Arco, 2008) and Hennig (Hennig et. al., 2008). The results were checked with a Support Vector Machine, Rouge metrics, the F-Measure and calculation of precision and recall. Findings The experiment illustrates the superiority of abstracts obtained through the assistance of ontology-based techniques. Originality/value We were able to corroborate that the summaries obtained using Texminer are more efficient than those derived through other systems whose summarization models do not use ontologies to summarize texts. Thanks to ontologies, main sentences can be selected with a broad rhetorical structure, especially for a specific knowledge domain.
    Full-text · Article · Apr 2014 · Library Hi Tech
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: En esta memoria de tesis se propone una arquitectura para la generación de resúmenes informativos monodocumento en un dominio específico: la biomedicina. La utilidad de estos resúmenes es indudable, en un campo en el que los profesionales han de estar continuamente al corriente de los nuevos avances científicos, pero a la vez necesitan economizar el tiempo que dedican a su formación. A lo largo de la exposición, se presenta un método de extracción de oraciones, basado en la teoría de redes complejas, que realiza un mapeo del texto a los conceptos de la ontología UMLS, y representa el documento y las oraciones como grafos. La selección de las oraciones se realiza a partir del grado de conexión de sus conceptos en el grafo del documento, utilizando para ello un algoritmo de agrupamiento basado en la conectividad. Se desarrolla un sistema que implementa el método propuesto y se muestran los resultados empíricos de la aplicación de distintas heurísticas para la selección de las oraciones del resumen. Se realiza una evaluación formal del sistema y se compara con otros que resuelven tareas similares. Los resultados de esta evaluación demuestran que la propuesta es útil para la creación de resúmenes muy similares en contenido a los creados por humanos. Finalmente, se identifican algunos problemas y líneas de trabajo futuras. [ABSTRACT] In this thesis, a new approach to biomedical text Summarization is presented. In recent years, the amount of online information has increased explosively. But as time is precious, efficient access to data has become necessary. This is especially crucial for physicians and biomedical researchers, since they have to consult constantly up-to-date and heterogeneous information according to their needs. In order to tackle this overload of information, text summarization can undoubtedly play a role. We introduce an ontology-based extractive method for summarization. It is based on mapping the text to concepts in the ontology and representing the document and its sentences as graphs. To assess the importance of the sentences in the document, we compute the centrality of their concepts in the document graph. We have applied our approach to summarize scientific biomedical literature, taking advantages from free resources as UMLS. Empirical results and conclusions are presented. We also evaluate generated summaries using existing metrics and confirm that our methodology is promising. Finally, pending problems and future work are identified.
    Full-text · Article ·
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: Resumen El objetivo de este trabajo de investigación es confirmar si es adecuado emplear la compresión de frases como recurso para la optimización de sistemas de resumen automático de documentos. Para ello, en primer lugar, creamos un corpus de resúmenes de documentos especializados (artículos médicos) producidos por diversos sistemas de resumen automático. Posteriormente realizamos dos tipos de compresiones de estos resúmenes. Por un lado, llevamos a cabo una compresión manual, siguiendo dos estrategias: la compresión mediante la eliminación intuitiva de algunos elementos de la oración y la compresión mediante la eliminación de ciertos elementos discursivos en el marco de la Rhetorical Structure Theory (RST). Por otro lado, realizamos una compresión automática por medio de varias estrategias, basadas en la eliminación de palabras de ciertas categorías gramaticales (adjetivos y adverbios) y una baseline de eliminación aleatoria de palabras. Finalmente, comparamos los resúmenes originales con los resúmenes comprimidos, mediante el sistema de evaluación Rouge. Los resultados muestran que, en ciertas condiciones, utilizar la compresión de frases puede ser beneficioso para mejorar el resumen automático de documentos.
    Full-text · Article ·
Show more