José Luis Alonso Berrocal

José Luis Alonso Berrocal
Universidad de Salamanca · Department of Computer Science and Automatics

PhD

About

142
Publications
17,607
Reads
How we measure 'reads'
A 'read' is counted each time someone views a publication summary (such as the title, abstract, and list of authors), clicks on a figure, or views or downloads the full-text. Learn more
403
Citations
Citations since 2016
13 Research Items
99 Citations
2016201720182019202020212022051015
2016201720182019202020212022051015
2016201720182019202020212022051015
2016201720182019202020212022051015

Publications

Publications (142)
Article
En este artículo se examinan las palabras clave con que los autores describen sus propios trabajos académicos, a partir de los artículos del campo temático Libtary and Information Science del WoS, entre 1971 y 2020. Mediante algoritmos de búsqueda de comunidades propios del análisis de redes se han identificado los principales subcampos temáticos d...
Technical Report
Full-text available
Contribution to the COVID-19 Open Research Dataset Challenge (CORD-19) at https://www.kaggle.com/carlosgfiguerola/topic-modeling-visualization-with-networks using topic modeling and social networks analysis techniques to organize scientific literature about COVID-19
Article
Las tecnologías de la información propician un crecimiento sin precedentes de la información, lo cual plantea el problema de la organización de ésta. Al tratarse de información digital es posible abordar su organización mediante procedimientos automatizados. De otro lado, las Técnicas de Análisis de Redes son un poderoso instrumento que permite mod...
Conference Paper
Full-text available
A menudo las búsquedas de material académico que uno realiza no son del todo acertadas o no son tan exactas como uno quiere. Los resultados ofrecidos por los motores de búsqueda dependen en gran medida de los mecanismos internos utilizados y de los algoritmos de ordenación, tal es el caso de Google Scholar que emplea el Page Rank (Page, Brin, Motwa...
Conference Paper
Full-text available
Las bases de datos bibliográficas poseen una enorme cantidad de registros en forma de publicaciones científico-académicas, al realizar una búsqueda por autor, por ejemplo, ofrecen un conjunto de resultados, el cálculo de indicadores y métricas, y en algunos casos opciones de visualización de resultados. Este último aspecto, la visualización, ha sid...
Article
Full-text available
El estudio de los principales agentes, redes de comunicación y flujos de información en Twitter es un objeto de investigación emergente. Se ha aplicado en ámbitos como la comunicación política, el deporte o el turismo, pero no a la comunicación de la ciencia. El presente trabajo está enfocado a detectar y medir a los principales agentes y redes de...
Article
Full-text available
Resumen La organización automática de documentos permite conocer la estructura temática de grandes coleccio-nes documentales. En este trabajo se plantea mode-lar la colección de documentos mediante una red o grafo de nodo y enlaces y aplicar técnicas de Análisis de Redes Sociales. Se describe un experimento lle-vado a cabo con una colección de noti...
Article
Full-text available
Automatic organization of documents can show the semantic structure of broad collections of documents. This paper proposes to model a document collection using a graph or network and then applying the so-called Social Networks Analysis techniques. We describe a practical experiment carried out with a collection of newspaper articles, and then we an...
Article
Full-text available
Los primeros intentos en la traducción automática constituyeron uno de los fracasos más espectaculares de la inteligencia artificial pero en la actualidad se están aplicando nuevos enfoques y técnicas a este problema, lo cual permite vislumbrar la aparición de sistemas competentes dentro de algún tiempo.Los fracasos habidos hasta ahora se deben fun...
Article
El análisis de temas emergentes en las redes sociales se aplica para conocer las opiniones que expresan usuarios individuales, para controlar actividades y actos de asociaciones, analizar las campañas de los políticos o estudiar el impacto de campañas publicitarias por parte de las empresas. Para la detección de dichos temas se aplicó el algoritmo...
Conference Paper
Full-text available
Wikipedia is one of the best known repositories of knowledge. It is used daily by millions of people of all types in a wide range of languages, it is also developed and refined daily by hundreds of thousands of people. It is interesting to know its contents, their topics and the intensity and the way they are exposed, in the sense that they are a g...
Article
Analysis of emerging issues in social networks applies to the views expressing individual users, to control activities and acts of associations, analyze political campaigns or study the impact of advertising campaigns by companies. For detection of these issues the algorithm Latent Dirichlett Allocation shall apply to a set of profiles in the field...
Article
Se analizan las características y la actividad que los usuarios editores de la Wikipedia en español realizan en el proceso de creación de contenidos. Tras volcar los datos de los artículos enciclopédicos, se han analizado aspectos cuantitativos de los artículos, como su longitud, enlaces entrantes y salientes entre ellos, y categorías a las que pue...
Article
This work uses the database backup dumps that collect content and history reviews of the encyclopaedic articles of Spanish Wikipedia since its creation, in order to characterize and understand the underlying activity of the editors in content creation. Some quantitative characteristics of articles are analyzed: length, assigned categories and in-li...
Article
Twitter is one of the most popular social networks and the one with the highest increase in its number of users in the last years. Measuring the influence that the information transmitted through the tweets have had in its environment is key to define the importance of the profile that generates them and the audience they can reach. We propose a ne...
Article
Full-text available
Twitter es una de las redes sociales más conocidas y que han tenido un mayor incremento en su número de usuarios en los últimos años. Poder medir la influencia que la información transmitida por medio de los tweets tiene en su entorno permite definir la importancia del perfil que la genera y su audiencia potencial. Proponemos un nuevo índice, Influ...
Conference Paper
Full-text available
El análisis basado en citas bibliográficas es el mecanismo más utilizado para medir la productividad científico-académica, para ello es necesario contar con bases de datos bibliográficas. Web of Knowledge (ISI/Thomson) y Scopus (Elsevier) son dos de las bases de datos bibliográficas que tradicionalmente han sido utilizadas para esta tarea, aunque e...
Book
Full-text available
El Máster Oficial en Sistemas Inteligentes de la Universidad de Salamanca tiene como principal objetivo promover la iniciación de los estudiantes en el ámbito de la investigación. Como colofón a las diferentes tareas de investigación que se llevan a cabo durante el Máster, el Departamento de Informática y Automática organiza un workshop en el que s...
Article
In this paper, an analysis of interlinking between 100 major European universities is given. Since websites contain links to webpages for other organizations, they may reveal the strongest relationships established between two organizations. This analysis of web links allowed us to determine the different behaviours among the universities with rega...
Article
Las bibliotecas nacionales, en cuanto que cabeceras de sus respectivos sistemas bibliotecarios, realizan diversas funciones que se ven reflejadas en sus res-pectivos portales web. Igualmente muchas bibliote-cas nacionales han adoptado sistemas de interco-municación específicos de la Web 2. 0, incorporándo-se a las redes sociales. Los hiperenlaces d...
Article
Introduction. Institutional websites are sources of content and spaces that bring together users and institutions with common interests and objectives. This article offers an analysis of this type of digital resources from a structural perspective that goes beyond their design or the quality of their content. Methods. To this end, this article offe...
Article
Introducción. Los sitios web institucionales son fuentes de contenidos donde entidad y usuario cruzan intereses en busca de objetivos comunes. Desde la presente investigación se aborda el análisis de este tipo de recursos digitales con una visión estructural de los mismos, más allá de su diseño o de la calidad de los contenidos que alojan. Metodolo...
Article
Full-text available
Introduction. Institutional websites are sources of content and spaces that bring together users and institutions with common interests and objectives. This article offers an analysis of this type of digital resources from a structural perspective that goes beyond their design or the quality of their content. Methods. To this end, this article offe...
Article
Full-text available
La publicación de monografías es una de las actividades más importantes en el ámbito de la edición científica y objetivo prioritario en el sector de la edición universitaria. A pesar de esto se han desarrollado pocos estudios dedicados a su análisis y a las pautas de publicación de sus autores, a extraer perfiles de publicación a partir de la combi...
Conference Paper
Full-text available
Wikipedia is becoming a main source for scientific information. However, we know very little of the nature of science transmitted by Wikipedia. In this paper we present the preliminary results of our attempt to characterize scientific knowledge on the Spanish Wikipedia. Our analysis consists of two stages: Identifying scientific and technological c...
Article
National Libraries, as their library systems' heads, perform several tasks which are depicted, to some extent, through their websites. Besides, a major group of theses national libraries also use interlinking systems from the Web 2. 0, taking part in social networks. Web links targeting other websites show some kind of relationship, and this also o...
Article
Social networks have become a large repository of comments which can extract multiple information. Twitter is one of the most widespread social networks and larger and is therefore an important source for detecting states of opinion, events and happenings before even the mainstream media. Topic detection is important to discover areas of interest t...
Article
Full-text available
Los repositorios digitales han experimentado un notable desarrollo en los últimos años, en especial a partir de la formulación de la Open Archives Initiative (OAI) y de la aparición de instrumentos como el pro-tocolo Open Archives Initiative Protocol for Metada Harvesting (OAI-PMH). En este artículo se analizan los metadatos de los 69 repositorios...
Article
Social networks have transformed the Web into a repository of information from which very diverse information can be extracted. Twitter is one of the best known and has had one the greatest increase in number of users of the recent years. Content analysis of their messages provides valuable information about the authors of the tweets, the relations...
Article
Full-text available
Digital repositories have experimented a significant development in recent years, from the raising of the Open Archives Initiative (OAI) to the emergence of tools as the Open Archives Initiative Protocol for Metada Harvesting (OAI-PMH). In this paper we analyze metadata from the 69 Spanish repositories available through such protocol. Also, a quali...
Article
Social networks have transformed the Web into a repository of information from which very diverse information can be extracted. Twitter is one of the best known and has had one the greatest increase in number of users of the recent years. Content analysis of their messages provides valuable information about the authors of the tweets, the relations...
Article
Full-text available
El Web funciona como un grafo dirigido donde cada página es un nodo y cada arco un enlace entre dos páginas. Los enlaces son intencionales, a partir de ellos se puede establecer una red de relaciones entre páginas. Utilizando esos enlaces entre páginas se puede obtener información acerca de una materia. Para extraer la información de las páginas de...
Article
Social networks have transformed the Web into a repository of information from which very diverse information can be extracted. Twitter is one of the best known and has had one the greatest increase in number of users of the recent years. Content analysis of their messages provides valuable information about the authors of the tweets, the relations...
Article
Full-text available
La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a n...
Chapter
Full-text available
Enfoque novedoso sobre la utilidad de las representaciones mediante Grafos. Centra su objetivo en la presentación, análisis y comparación de tres herramientas: JUNG, IGraph y Gephi, mediante el estudio de la formación de estructuras de comunidades, sobre una cuenta de Facebook.
Article
Full-text available
The publication of papers is one of the most important activities in the field of scientific publishing and priority in the academic publishing industry. Yet few studies have been devoted to its analysis and publication patterns of authors to publish profiles extracted from the combination of variables. In this study, analyzed publication patterns...
Chapter
The web is the largest repository of documents available and, for retrieval for various purposes, we must use crawlers to navigate autonomously, to select documents and processing them according to the objectives pursued. However, we can see, even intuitively, that are obtained more or less abundant replications of a significant number of documents...
Article
Full-text available
URL alternativa: http://www.acimed.sld.cu/index.php/acimed/article/view/181/166; Infomed-Centro Nacional de Información de Ciencias Médicas, Ministerio de Salud Pública
Article
The detection of duplicates in the web is important because it allows to lighten databases and improve the efficiency of information retrieval engines and the precision of cybermetric analysis, web mining studies, etc. Standard hash techniques used to detect these duplicates only detect exact ones, at the bit level. However, many of the duplicates...
Article
Se presenta el Proyecto 7, un motor de recuperación web pensado para su aplicación por parte de las organizaciones con presencia documental en Internet y también para las que, aún teniendo la información almacenada en modo exclusivamente local, quieren hacerla accesible a través de Internet. Se repasan los fundamentos teóricos en los que se apoya e...
Article
Full-text available
This paper analyzes the user behavior in a interactive search of answers that includes mechanisms suggested terms. The analysis was performed using assessment methodologies applied in such experiments. It organized a group of 16 users, each of them should find the answer to eight questions, plus two training, only half applied the suggestion mechan...
Article
Full-text available
Partiendo del gran volumen de la información que se encuentra en formato digital y de la heterogeneidad en cuanto al modo de producción, soportes, y dispositivos que facilitan su acceso, en el artículo se señalan algunos de los problemas que plantea la información digital así como iniciativas que tratan de dar respuesta al problema de su preservaci...
Article
The media streaming is the set of products and techniques that are used for the dissemination of audio and video content over the Internet or intranet, regardless of whether the contents are already on a server or are being created at the time of dissemination. The multimedia objects can be requested "on demand", with management like that of a home...
Article
Full-text available
This paper describes the participation of the REINA research group at CLEF 2009 Robust-WSD Task. We have participated in both monolingual and bilingual subtasks. In past editions of the robust task our research group obtained very good results for non-WSD experiments applying local query expansion using co-occurrence based thesauri constructed usin...
Article
Full-text available
This article describes some of the activities of the REINA research group about Web information retrieval. These activities have focused on proving the retrieval that can be expected from diverse informative present in the elements of web pages, besides the text that the user visualizes normally in the browser. Our aim was to try to the performance...
Article
Full-text available
Uno de los ejes del aprendizaje en el EEES es la potenciación del aprendizaje autónomo de los estudiantes. Independientemente del desarrollo de plataformas virtuales tipo Moodle que facilitan la docencia, necesitamos poner a disposición de los alumnos distintas herramientas informáticas imprescindibles para la adquisición de las competencias de un...
Article
Full-text available
Los programas y aplicaciones informáticas de código libre pretenden superar los problemas derivados de la dependencia tecnológica que producen los programas llamados “propietarios”. Frente a la concepción de programa perteneciente a una determinada empresa, de copia restringida, cuya utilización está sujeta a limitaciones (número de usuarios, ubica...
Conference Paper
This year’s WebCLEF task was to retrieve snippets and pieces from documents on various topics. The extraction and the choice of the most widely used snippets can be carried out using various methods. However, the way in which web pages are usually converted to plain text introduces a series of problems that cause inefficiency in the retrieval. Dupl...
Article
El objetivo de esta ponencia es hacer un repaso de la evolución, en los últimos 10 años, en el campo de la recuperación de información web. Con la implantación de las diferentes técnicas cibermétricas la evolución de los estudios de la web ha sido espectacular y es en estos momentos un campo inagotable de estudio.
Article
Full-text available
The experience in the use of e-learning to teach an official university course was shown in the text. The degree of utilization of e-learning tools was pointed out, and also the effort of students and teachers to achieve the skills of them was analyzed. It allows us to evaluate if the formative activity of the students using such systems needs big...
Article
Full-text available
This article describes which are the specific and transversal competences associated with the matter "Técnicas de indización y recuperación de la información" (Indexing and Information Retrieval advanced techniques), and the way in which they can be achieved.
Article
Full-text available
The information technologies are part of our live. The open software allows learning communities with the possibility of open access from everybody. Some experiences in high education using on-line communication exists today with the aim of improving the education in our class.
Article
Full-text available
La mayor parte de los Sistemas de Recuperacion de Informacion utilizan, de una forma u otra, recuentos de frecuencias de las palabras que aparecen en los documentos.Tales recuentos conllevan la necesidad de normalizar dichos terminos. Una simple normalizacion de caracteres (mayusculas/minusculas, acentos y otros diacriticos) parece insuficiente, ya...
Conference Paper
This year’s WebCLEF task was to retrieve snippets and pieces from documents on various topics. The extraction and the choice of the most widely used snippets can be carried out using various methods. This article illustrates the segmentation process and the choice of snippets produced in this process. It also describes the tests carried out and the...
Conference Paper
This paper describes our work at CLEF 2007 Robust Task. We have applied local query expansion using windows of terms, but considering different measures of robustness during the training phase in order to optimize the performance: MAP, GMAP, MMR, GS@10, P@10, number of failed topics, number of topics below 0.1 MAP, and number of topics with P@10=0....
Article
En este trabajo se describe un método automático para detectar y extraer nombres propios de una extensa colección de documentos en español, con el objetivo de determinar si tal proceso puede aplicarse para mejorar los resultados de recuperación de información, y bajo qué condiciones. La incorporación de mayor información en el proceso de indización...
Article
Full-text available
En este informe técnico se describe la utilización de dos librerías para recuperación de Información. Después de una introducción a esta disciplina, se realiza un tutorial básico de utilización de la librería Lucene, bajo el lenguaje de programación Java, explicando en qué consiste, qué se puede hacer con ella, y poniendo ejemplo prácticos de su ut...
Conference Paper
This article describes the participation of the REINA Research Group of the University of Salamanca in WebCLEF 2006. This year we participated in the Monolingual Mixed Task in Spanish. The entire EuroGOV collection was processed to select all the pages in Spanish. All the pages with domain .es were also pre-selected. Our objective this year was to...
Article
Full-text available
This paper describes our work at CLEF 2007 Robust Task. We have participated in the monolingual (English, French and Portuguese) and the bilingual (English to French) subtask. At CLEF 2006 our research group obtained very good results applying local query expansion using windows of terms in the robust task. This year we have used the same expansion...
Article
Full-text available
Describe el trabajo que el Grupo de Investigación REINA de la Universidad de Salamanca presentó en CLEF 2007 sobre sistemas de recuperación de información monolingüe (Inglés, Francés y Portugués) y bilingüe (Inglés al Francés). Muestra los resultados obtenidos en las evaluaciones aplicando técnicas de expansión local. This paper describes our work...
Article
Full-text available
El artículo trata de la recuperación por segmentos o partes de textos de páginas web. Se describe el proceso de segmentación adoptado y cómo se ha llevado a cabo la selección de dichos fragmentos. The task for this year consist in retrieve snippets or pieces of text from web documents about several topics. The extraction of such snippets can be app...
Article
Full-text available
The university edition integrates, in each country, within the broader set of editing scientific technique consisting of all those works of research, consultation and outreach, whose purpose is the transmit organized and systemised on any plot of knowing and any kind of support, as well as by all those structures, business, legislative, political,...
Conference Paper
Full-text available
The participation of the REINA Research Group in WebCLEF 2005 focused in the monolingual mixed task. Queries or topics are of two types: named and home pages. For both, we first perform a search by thematic contents; for the same query, we do a search in several elements of information from every page (title, some meta tags, anchor text) and then w...
Conference Paper
Full-text available
This paper describes our work at CLEF 2006 Robust task. This is an ad-hoc task that explores methods for stable retrieval by focusing on poorly performing topics. We have participated in all subtasks: monolingual (English, French, Italian and Spanish), bilingual (Italian to Spanish) and multilingual (Spanish to [English, French, Italian and Spanish...
Article
Full-text available
Resumen El objetivo principal de este trabajo es mostrar los mecanismos necesarios para poder recorrer y procesar la Web, indicando cómo manejarse con el grafo web, qué herramientas tenemos disponibles y qué resultados podemos esperar. Una vez ex-puestos los conceptos teóricos, presentaremos la herramienta desarrollada por nues-tro grupo de investi...
Article
Full-text available
Resumen El objetivo es mostrar la utilización real de metadatos y los que se usan de todas las universidades españolas. Emplearemos el robot SACARINO (presentado en Ibersid 2005) para la recogida de todos los datos y a partir de ahí procesaremos la información para poder obtener los resultados. Se mostrarán los resultados de forma gráfica, lo que f...
Article
El objetivo principal de este trabajo es intentar comprobar la posible mejora en la recuperación de información en la Web mediante técnicas de posicionamiento o ranking. La metodología consistirá en recoger la información del web mediante un robot, en concreto uno elaborado por nosotros y llamado SACARINO (Sonda AutomátiCA para la Recuperación de I...
Article
Full-text available
Se describe el trabajo presentado en el fórum CLEF 2006 basado en la recuperación estable de la información, experimentando con recuperación monolingüe, bilingüe y multilingüe This paper describes our work at CLEF 2006 Robust task. This task is an ad-hoc task that explores methods for stable retrieval by focusing on poorly performing topics. We hav...
Article
Full-text available
Se describe la participación del Grupo de Investigación REINA de la Universidad de Salamanca en foro WebCLEF 2006. Este año participa con un trabajo sobre Subtarea mixta monolingüe en español This paper describes the participation of the REINA Research Group of the University of Salamanca at WebCLEF 2006. The task in that we have participated this...
Article
Full-text available
Este trabajo pretende recoger la experiencia de sus autores en el diseño de programas que recorren automáticamente eso que se ha dado en llamar ciberespacio. Se muestra la estructura básica de un spider, así como algunas de las herramientas básicas de programación para la construcción de éstos. Se examinan diversas opciones de rendimiento de estos...
Article
Full-text available
Summary This work has analyzed and evaluated the dissemination of research done at Spanish universities through the World Wide Web (WWW) in order to obtain a map of the visibility of the information available on this research and to propose measures for improving the quality of this diffusion, all within the social and institutional context of the...
Conference Paper
Full-text available
Free on-line machine translation systems are employed more and more by Internet users. In this paper we have explored the use of these systems for Cross-Language Question Answering, in two aspects: in the formulation of queries and in the presentation of information. Two topic-document language pairs were used, Spanish-English and Spanish-French. F...
Article
One of the major problems in information retrieval is the formulation of queries on the part of the user. This entails specifying a set of words or terms that express their informational need. However, it is well-known that two people can assign different terms to refer to the same concepts. The techniques that attempt to reduce this problem as muc...
Conference Paper
The Question Answering Task requires user interaction. Users can help the system by reformulating the questions, adding information to them or selecting the documents on which the system should work to obtain the answers. Our group has researched the effects on user interaction of suggesting terms to be added to the question, and the differences be...
Article
Full-text available
La participación del Grupo de Investigación REINA de la Universidad de Salamanca en el foro WebCLEF 2005 se centra en la recuperación de la información a través de búsquedas temáticas en páginas web. The participation of the REINA Research Group in WebCLEF 2005 is focused in the monolingual mixed task. Queries or topics are of two types: named and...
Article
Full-text available
En el contexto de las bibliotecas digitales es muy importante analizar la forma en que los usuarios interactúan con los sistemas reales. En estos sistemas, uno de los aspectos más importantes es la formulación de la necesidad informativa por parte del usuario. Desafortunadamente se trata de un problema que no es simple. El usuario debe traducir su...