C-ORAL-ROM corpora structure with codes for text type.

In this paper we present different resources for the study of spoken Brazilian Portuguese, developed within the C-ORAL-BRASIL project. The C-ORAL-BRASIL stemmed from the European C-ORAL-ROM project (Cresti & Moneglia, 2005), which has compiled spoken corpora of Italian, French, Spanish, and European Portuguese. The corpora of the C-ORAL family repr...

... global architecture of the C-ORAL resources comprises four corpora: the Informal and Formal corpora, Media, and Telephone (see Table 1, adapted from Moneglia and Martin, 2005, p. 39). The recordings of the Informal corpus have an average size of approximately 1,500 words (short texts) and 4,500 words (long texts); those of the Formal and the Media corpora, approximately 3,000 words; the Telephone corpus has an established upper limit of 1,500 words, but no lower limit. ...
... male/female voices" balance is quite good, with a slight prevalence of women's words in Private (55% female vs 45% male in Private; 49% female vs 51% male in Public). 29 23,530 2,542 Scientific Press 12 13,233 1,062 Sport 7 12,234 1,075 Talk Show 18 44,088 3,838 Extra 16 24,728 2,586 Total 101 ...

... Os dados da amostra 1 provêm de um minicorpus extraído do C-ORAL-BRASIL, (www.c-oral-brasil.org > corpora > minicorpus português brasileiro [29]). Além da segmentação e das revisões durante a compilação do corpus, o minicorpus foi também informacionalmente anotado e revisado. ...
Neste trabalho mostraremos como a hipersegmentação prosódica da fala espontânea pode esconder importantes e frequentes fenômenos de morfologização de item lexicais de alta frequência que sofrem processo de pragmaticalização. Os dados são extraídos do corpus CORAL -BRASIL e as observações são relativas a um processo de revisão da segmentação para identificar unidades prosódico-informacionais curtas, principalmente, mas não exclusivamente, os marcadores discursivos. Expomos o protocolo de segmentação prosódica adotado e quantificamos as fronteiras que foram excluídas. A importância metodológica destas observações não diz respeito apenas a uma correta segmentação da fala. Ao se hipersegmentar criam-se unidades prosódico-informacionais que não existem, poluindo os dados de estudos que visam a identificar função/forma prosódica destas unidades. A identificação de lexemas que frequentemente são isolados em unidades prosódicas (viu, assim, né, etc.) mas que podem sofrer um processo de morfologização em unidades maiores possibilita estudos de pragmaticalização e gramaticalização em curso no PB (e outras línguas), cujas motivações e efeitos podem ser melhor investigados. Este trabalho nasce da experiência de compilação de corpora de fala espontânea, principalmente dentro do projeto CORAL -BRASIL [1], e de muitos estudos sobre a estrutura informacional da fala espontânea com base na Language into Act Theory (L-AcT) [2-4]. Ao longo dos estudos tornou-se clara uma tendência, por parte dos anotadores, a uma hipersegmentação da fala espontânea. Essa tendência foi observada na segmentação dos corpora da família CORAL , composta por [1, 5] e outros corpora em fase de compilação. O fenômeno é especialmente prejudicial para o estudo de unidades curtas (uma palavra fonológica), como aquelas estudadas em [6-9]. Estes trabalhos investigaram principalmente os Marcadores Discursivos (MD) e outras unidades que podem ser curtas, como em [8]. A seguir, discutiremos os critérios de segmentação dos corpora da família CORAL e sua implementação no corpus CORAL -BRASIL [1]. Depois forneceremos elementos para a compreensão da importância da segmentação prosódica na L-AcT. Finalmente, apresentaremos dados qualitativos e quantitativos sobre problemas recorrentes na segmentação prosódica, e explicaremos como isso acaba por esconder fenômenos frequentes na fala espontânea e por poluir os dados dos estudos de muitas unidades informacionais.
This paper deals with an inter-annotator agreement test involving the identification of the information unit of Topic as defined within the framework of the Language into Act Theory (L-AcT). Fleiss’s kappa statistic was used to measure the agreement among the four annotators who took part in the test. The data used was sampled from C-ORAL-BRASIL II, a spontaneous speech corpus of Brazilian Portuguese. The paper begins by outlining of the theoretical underpinnings of L-AcT, dedicating special attention to aspects directly related to the notion of Topic. Section 2 presents the pilot test and discusses methodological and theoretical issues that were relevant for the design of the protocol that was eventually used in the actual test. Sections 3 and 4 deal with the test, its protocol and results (the kappa coefficient for the general agreement was 0.79, which by usual standards represents a substantial agreement). Section 5 first provides a brief review of a few studies conducted according to other frameworks which have dealt with inter-rater agreement on the annotation of information structure categories. Finally, the errors observed in the test are analyzed qualitatively.