Lydia-Mai Ho-Dac

Lydia-Mai Ho-Dac
Université Toulouse - Jean Jaurès | UTM · Département Sciences du langage



How we measure 'reads'
A 'read' is counted each time someone views a publication summary (such as the title, abstract, and list of authors), clicks on a figure, or views or downloads the full-text. Learn more
Additional affiliations
  • Associate Professor of linguistics


Publications (50)
This study proposes a qualitative analysis of self replies in Wikipedia talk pages, more precisely when the first two messages of a discussion are written by the same user. This specific pattern occurs in more than 10% of threads with two messages or more and can be explained by a number of reasons. After a first examination of the lexical specific...
The present volume is intended as a reference book on Wikipedia corpus studies, from corpus construction to exploration and analysis. Wikipedia is a complex object, difficult to manipulate for linguists and corpus researchers. In addition to the encyclopedic articles consulted by millions of users, it contains vast spaces of written discussions, ak...
The present volume is intended as a reference book on Wikipedia corpus studies, from corpus construction to exploration and analysis. Wikipedia is a complex object, difficult to manipulate for linguists and corpus researchers. In addition to the encyclopedic articles consulted by millions of users, it contains vast spaces of written discussions, ak...
This volume provides an innovative approach to the referential process thanks to its focus on the relationship between conventions and discourse pragmatics. It brings together a cross-section of current research on referential conventions and pragmatic strategies, in a number of different fields (formal and theoretical linguistics, semantics, disco...
Full-text available
The lexicalization of morphologically complex words, i.e. their inclusion in the lexicon, can involve a loss of semantic compositionality. Such a phenomenon, called demotivation, has been overlooked in both morphological and lexical studies, notably regarding its gradual nature. This paper compares two measures of demotivation based on experimental...
Conference Paper
Full-text available
As a first step towards increasing reproducibility of language data and promoting scientific synergies and transparency, CORLI (Corpus, Language and Interaction), a consortium involving members from more than 20 research labs and 15 Universities, part of the French large infrastructure Huma-Num, contributes to the European research infrastructure o...
Le corpus RésolCo est constitué de 400 textes rédigés par des élèves français âgés de 9 à 15 ans en réponse à une consigne d’écriture conçue comme une tâche impliquant la résolution de problèmes de cohésion. Cette contribution expose une méthode d’annotation de la continuité référentielle dans la désignation des personnages principaux d’un texte na...
Cet article présente une analyse contrastive visant à décrire le comportement des noms sous-spécifiés dans le Corpus d’Étude pour le Français Contemporain ( céfc ). S’appuyant sur les annotations morpho-syntaxiques et syntaxiques fournies par le corpus, notre méthode propose une extraction systématique de patrons lexico-syntaxiques et une évaluatio...
Full-text available
Le modèle d’annotation en structures multi-échelles de la ressource ANNODIS est centré sur deux stratégies discursives et deux structures susceptibles d’apparaître à de très hauts niveaux d'organisation : l'empaquetage, réalisé par les structures énumératives ; le chaînage, réalisé par les chaînes dites topicales. Alors que les structures énumérati...
Conference Paper
Full-text available
et al.. Automatic analysis of word association data from the Evolex psycholinguistic tasks using computational lexical semantic similarity measures. Abstract. This paper is the fruit of a multidisciplinary project gathering researchers in Psycholinguistics, Neuropsychology, Computer Science, Natural Language Processing and Linguistics. It proposes...
Full-text available
In this paper we report on the efforts of three projects to annotate texts and dialogues with discourse structure. We provide a theoretical discussion of various alternatives and then present our approach to discourse structure annotation, along with some applications of the resources that we have developed.
This paper reports on an experiment implementing a data-intensive approach to discourse organisation. Its focus is on enumerative structures envisaged as a type of textual pattern in a sequentiality-oriented approach to discourse. On the basis of a large-scale annotation exercise calling upon automatic feature mark-up alongside manual annotation, w...
Full-text available
La ressource ANNODIS est un corpus diversifié de français écrit enrichi d'annotations concernant le niveau discursif. Son originalité réside dans sa mutualisation de deux approches complémentaires qui permettent, par leur oppositions et rapprochements, de poser un certain nombre de questions concernant l'annotation de structures discursives. ce...
Full-text available
Le lecteur trouvera une version française de cette introduction ci-dessous. Texts are organised wholes. Understanding a text entails constructing a representation of its organisation. Several research domains, with different assumptions and objectives, have taken an interest in the devices which seem to help readers in this process. As a consequenc...
This paper presents a data-intensive study of the signalling of enumerative structures. In contrast with semasiological studies of specific markers, the approach described here takes as its starting point annotated structures and cues, seeking to identify recurrent patterns in these data. To do so, it exploits a new resource for French, the ANNODIS...
Conference Paper
Full-text available
We describe the Annodis corpus of discourse structures for French. The corpus joins two perspectives on discourse on a variety of textual genres: a bottom-up approach and a top-down approach. The bottom-up view builds incrementally a structure from elementary discourse units, while the top-down view focuses on the selective annotation of multi-leve...
Cet article raconte l'histoire de la campagne d'annotation ANNODIS en structures multi-échelles. Il fournit : - un historique des différentes étapes de construction du guide d'annotation, - le guide d'annotation donné aux annotateurs, - les mesures d'accord inter-annotateurs, - la liste des post-traitements réalisés avant diffusion de la ressource,...
Full-text available
This paper describes the ANNODIS ressource, a corpus of written French enriched with several markups, including a manual annotation of discourse structures. The resource is original in that it offers a diversified corpus representing several text types, and two annotations based on different approaches to discourse organisation. As well as a descri...
This paper describes the ANNODIS ressource, a corpus of written French enriched with several markups, including a manual annotation of discourse structures. The resource is original in that it offers a diversified corpus representing several text types, and two annotations based on different approaches to discourse organisation. As well as a descri...
This paper focuses on the role of elements placed in the initial position i.e. elements fulfilling the role of Theme in discourse organisation. The large-scale corpus study proposes a new methodology based on automatic tagging and quantitative analysis of the discourse roles of sentence-initial elements. The theoretically-based hypothesis is that i...
Many linguistic and psycholinguistic studies present sentence-initial temporal adverbials as “good” markers of discourse segmentation. This paper proposes a corpus-based evaluation of their potential to signal discontinuity such as a discourse break or shift. We look in particular at how temporal adverbials interact with other features, such as pos...
Full-text available
Le projet ANNODIS vise la construction d'un corpus de textes annotés au niveau discursif ainsi que le développement d'outils pour l'annotation et l'exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d'unités de discours minimales pour construire des structures complexes via un jeu d...
Cette étude présente une méthodologie exploratoire outillée qui permet de porter un regard nouveau sur l'organisation des textes. L'objectif principal est de se donner les moyens d'une approche configurationnelle pour étudier la complexité des structures discursives. Cette approche se base sur l'hypothèse forte que la signalisation de structures di...
Full-text available
Cette étude propose un réexamen des relations de dépendance qu'entretiennent les syntagmes prépositionnels avec le verbe du point de vue de données quantitatives issues de corpus annotés. Il a été remarqué dans tous les travaux antérieurs que la frontière entre les deux types de fonctions compléments/ajouts que peuvent assurer ces constituants étai...
This thesis proposes an exploratory study of discourse organization based on a written French corpus of 700.000 words. It focuses on initial position (defined as the pre-verbal zone) constituting the starting point for textual units at different levels of granularity: sections, paragraphs and sentences. Initial position is relevant in both cognitiv...
Full-text available
Cette thèse propose une étude exploratoire de l'organisation du discours basée sur un corpus de français écrit (700 000 mots). L'organisation du discours est abordée par la position initiale définie en tant que point de départ d'unités textuelles pouvant relever de trois niveaux d'organisation : les phrases, les paragraphes et les sections. La posi...
Conference Paper
Full-text available
Nous voulons proposer ici une réflexion d'ordre méthodologique en rapport avec la construction d'un objet d'étude qui mêle typiquement étude du fonctionnement du discours et linguistique de corpus. Ce terrain sur lequel nous nous aventurons est celui de la compréhension de la ou des fonction(s) des titres au sein des documents écrits. Il s'agit de...
Full-text available
This paper deals with a textual unit which has been little studied from a linguistic point of view: headings and subheadings. The main function of headings is to organize texts. Our aim here, however, is to show that they have another function: they structure the semantic content of the discourse. Our study adopts a functional point of view and use...
Full-text available
@inproceedings{CN-BILHAUT-2003, address = {Batz-sur-Mer, France}, author = {Fr{é}d{é}rik Bilhaut and {Lydia-Mai} {Ho Dac} and Andr{é}e Borillo and Thierry Charnois and Patrice Enjalbert and Anne {Le Draoulec} and Yann Mathet and H{é}l{è}ne Miguet and Marie-Paule P{é}ry-woodley and Laure Sarda}, booktitle = {Actes de la 10e Conf{é}rence Traitement A...
Full-text available
Dans cette collaboration entre syntaxe et discours, nous souhaitons croiser les dimensions syntaxique et discursive pour étudier en corpus le fonctionnement des syntagmes prépositionnels (SP) circonstants. La notion de complément circonstanciel a fait l'objet de nombreux travaux et définitions (cf. Rémi-Giraud, 1998) ; on peut toutefois la caractér...
Full-text available
Cet article présente les premiers résultats d'une campagne d'annotation de corpus à grande échelle réalisée dans le cadre du projet ANNODIS. Ces résultats concernent la partie descendante du dispositif d'annotation, et plus spécifiquement les structures énumératives. Nous nous intéressons à la structuration énumérative en tant que stratégie de base...


Cited By