Content uploaded by Helena Freire Cameron
Author content
All content in this area was uploaded by Helena Freire Cameron on Jan 09, 2017
Content may be subject to copyright.
O dicionário bilingue Prosodia, de Bento Pereira:
Ferramentas de análise em grande volume de dados lexicais
The Latin-Portuguese dictionary Prosodia, by Bento Pereira
Analytic tools in big volume of lexical data
Helena Freire Cameron
Coordenação Interdisciplinar para a Investigação e Inovação
Instituto Politécnico de Portalegre,
P -7300 -110 Portalegre, Portugal
helenac@estgp.pt
Resumo
O corpus dicionarístico da 7ª ed. da Prosodia, de Bento Pereira dá-nos testemunho da língua portuguesa de finais
de seiscentos. Este conjunto dicionarístico contém o dicionário latim-português Prosodia e o dicionário
português-latim Tesouro e constituiu um dos maiores corpora dicionarísticos antigos, com 1 342 603
ocorrências e 135 388 formas diferentes.
Pretende-se dilucidar o acesso ao conteúdo lexical em português e em latim, a contribuição de cada um dos
dicionários para o corpus total, dando notícia das opções tomadas e constrangimentos encontrados, face à
ausência de ferramentas conhecidas de análise automática e distintiva em textos antigos portugueses. Os dados
foram tratados através de um Programa de Concordâncias e foram obtidas diversas listas indexadas, em cada
uma das línguas e em cada um dos dicionários, e foram posteriormente analisados em BD SQL. A análise
resultante permitiu reconhecer as características diferenciadoras e comuns às duas obras.
A utilização de ferramentas de análise de texto permitirá a obtenção de dados mais exatos reveladores das
características de corpora dicionarísticos antigos de grandes dimensões.
Palavras-chave
Corpus dicionarísticos; grandes volumes de dados; ferramentas de análise
Abstract
The corpus of the 7th edition of Bento Pereira’s dictionary Prosodia reveals the Portuguese language in the end
of the XVIIth century. This volume contains the Latin-Portuguese dictionary Prosodia and the Portuguese-Latin
dictionary Tesouro and it is one of the biggest corpus of ancient dictionaries, with 1 342 603 occurrences and
135 388 different forms.
We aim to elucidate the access to the lexical content in Portuguese and in Latin, the contribution of each of the
dictionaries to the total corpus, revealing the options made and the constraints faced, regarding the non existence
of known tools of automatic analysis in old Portuguese texts.
Data were treated by a Concordance Program and we obtained several indexed lists in each of both languages
and in each one of the dictionaries, and they were analyzed in SQL Data Base. The resultant analysis show
common and different features in both volumes.
The use of text analysis tools will allow the achievement of more exact data showing the features of old
dictionaries corpora with big dimension.
Key-words
Dictionaries corpora; big volumes of data; tool analysis
A Prosodia: breve história e contextualização
O dicionário Prosodia constitui um riquíssimo conjunto dicionarístico e bibliográfico e um
inegável testemunho da língua portuguesa de finais de seiscentos (Freire Cameron, 2007).
Esteve ativo editorialmente quase 120 anos, desde 1634 até 1750, com 12 volumosas edições.
A primeira edição, paga a expensas próprias pelo autor, o Jesuíta P. Bento Pereira, surge
ainda no período de domínio Filipino. A obra foi desde logo concebida com propósitos
didáticos não só como manual de ensino, como também como manual de acesso ao latim,
língua franca de evangelização
1
, uma vez que era premente colmatar as necessidades de
ensino que já não conseguiam ser satisfeitas com os dicionários de Jerónimo Cardoso, em
utilização desde o século anterior,
A Prosodia reúne três línguas: o latim, língua de aprendizagem, o português, língua pátria, e o
castelhano, não só língua ocupante mas, sobretudo, língua de comunicação e de intercâmbio
escolar dentro dos Colégios da Companhia de Jesus no espaço da Península Ibérica. Refira-se
que, ainda que as 3 línguas sejam postas a par no título da obra, dentro das glosas os termos
castelhanos são raros. As cerca de 50 000 entradas latinas da edição princeps do dicionário,
todas acompanhadas da indicação prosódica, são reveladoras do enorme investimento que esta
obra terá merecido à época.
O volume foi inicialmente publicado apenas como a Prosodia latim-português. Na 2ª edição
(1643), o volume lexicográfico recebe o Tesouro da Língua Portuguesa (português-latim). A
partir da 3ª edição (1661), o volume lexicográfico da Prosodia passa a ser, na realidade, um
conjunto bibliográfico composto pela Prosodia (latim-português), pelo Tesouro (português-
latim) e pelo Florilegio (frases e adágios bilingues). A reunião destas obras num só volume,
com uma perspetiva e objetivos manifestamente didáticos, proporcionou a constituição de um
importante volume lexicográfico (Mendes de Almeida, 1967), que obteve rapidamente grande
difusão, tornando-se num importante recurso da Companhia de Jesus e de outras instituições
para o ensino do latim e do português, não só em Portugal, mas também no espaço de missão,
no Brasil e no Oriente. Os alunos dos Colégios da Companhia de Jesus passaram assim a ter
acesso a uma aprendizagem em latim, orientada pela informação prosódica de todas as
1
À data da dissolução da Companhia de Jesus, em 1773, os Jesuítas detinham 856 estabelecimentos de
ensino em todo o mundo, existindo, em Portugal, 29 estabelecimentos de ensino dirigidos pelos
Jesuítas (28 Colégios e a Universidade de Évora). Nestes, estudavam também alunos externos à
Companhia.
palavras latinas, e suportada pela tradução em vernáculo nas glosas e pela indexação
portuguesa no Tesouro, com a respetiva correspondência latina.
Durante o século XVII, a Prosodia trilingue recebeu diversos aditamentos e alargamentos.
Bento Pereira, nas 5 primeiras edições, foi incorporando novos termos latinos na
nomenclatura e foi alargando as glosas portuguesas. A 6ª edição, já póstuma, é uma mera
reimpressão da edição anterior.
Passados mais de 50 anos sobre a data da edição princeps, Matias de São Germano inicia uma
reformulação intensa da Prosodia, sobretudo no dicionário latim-português, e faz sair uma
nova e volumosa sétima edição em 1697. A Prosodia assume-se como bilingue e a
nomenclatura latina é consideravelmente aumentada, reunindo nesta edição 75 818 entradas.
O corpus latino foi consideravelmente aumentado com vocabulário de cariz enciclopédico,
como nomes próprios, topónimos, vocabulário terminológico em domínios específicos, que
não encontram a devida tradução correspondente no corpus português. São ainda introduzidas
muitas formas latinas não autorizadas na tradição clássica, boa parte destas transferidas a
partir da nomenclatura da Amalthea Onomastica, (1664) de Laurenzi, e do Dictionarium de
Calepino, em 11 línguas, na edição de Basileia (1627). O aproveitamento da nomenclatura
latina e sua consequente tradução pode ser considerado o grande aditamento desta edição
relativamente às precedentes. O alargamento da nomenclatura permitiu dicionarizar muitos
termos latinos “bárbaros” e este convívio linguístico terá certamente contribuído para a
relatinização de muitos termos disponibilizados no corpus português. Matias de São Germano
também renovou amplamente o corpus português, aumentando consideravelmente o número
de palavras portuguesas documentadas nas glosas, e introduziu novas formas, dicionarizadas
pela primeira vez neste volume, e novas aceções de formas já existentes (Freire Cameron,
2012). Efetuou ainda uma tentativa de “normalização” da ortografia portuguesa,
nomeadamente ao nível dos ditongos, embora tenha introduzido numerosas consoantes
duplas, de forma por vezes aleatória, como é característica da época.
A edição de 1697 marca o apogeu editorial do conjunto bibliográfico da Prosodia como
manual escolar, como dicionário de referência (durante várias décadas quase único no espaço
editorial português), para o latim e para a língua materna, cuja influência no curso da língua
portuguesa é inegável.
O volume foi retomado praticamente sem mudanças em várias reedições (1711, 1723, 1732,
1741, 1750) e deve ter representado um encargo tipográfico muito oneroso para as artes
gráficas portuguesas daquele tempo.
A Prosodia serviu de fonte principal para a lexicografia latino-portuguesa subsequente e
deixou uma herança inequívoca na dicionarística portuguesa monolingue e (Verdelho, 1982)
em especial pela retoma da nomenclatura alfabetada no Tesouro português-latim (Verdelho,
1995) e (Verdelho, 1982). Os dicionários portugueses subsequentes, a começar pelo grande
Vocabulario Portuguez e Latino, de Rafael Bluteau (1712-1728) retomaram e ampliaram esse
corpus. (Silvestre, 2008)
Em meados do século XVIII, os Jesuítas, sentindo a necessidade de renovação da Prosodia,
tinham iniciado uma nova reformulação desta, ainda antes da publicação da última edição, em
1750, tendo a tarefa sido entregue aos lexicógrafos da Universidade de Évora e também ao
Padre José Caeiro. Contudo, a ordem régia de proibição do ensino nos Colégios surpreende a
tarefa de renovação deste conjunto bibliográfico. O Alvará Régio de 28 de Junho de 1759
retira abruptamente aos Jesuítas a possibilidade de ensinar em Portugal, acabando com todas
as classes de ensino e fechando todos os Colégios. A Prosodia foi proibida e mandada
destruir,
2
tendo sido enviadas ordens de destruição para todo o território português, metrópole
e colónias.
Com a posterior expulsão dos Jesuítas em 3 de setembro desse mesmo ano de 1759, Portugal
fica sem sistema de ensino e os manuais existentes são mandados destruir. Contudo, muitos,
reconhecendo a utilidade escolar da Prosodia, arrancaram a primeira página, numa tentativa
de não tornar identificável a autoria do volume. Nas bibliotecas, encontram-se ainda
numerosos volumes assim truncados e que conseguiram perdurar no tempo, sendo
testemunhas do inegável valor desta obra e da sua grande utilização.
Com a retirada dos Jesuítas e perante a ausência de manuais escolares, o Rei pediu ao Prof.
Pedro José da Fonseca que elaborasse um manual, tendo sido publicado em 1762 o Parvum
Lexicon, obra que foi elaborada a partir da Prosodia, perpetuando-a, mutatis mutandis.
2
Cf. parágrafo XII da “Instrucção para os Professores de Grammatica Latina”, que constitui a primeira
parte das Instrucções para os Professores de Grammatica Latina, Grega,Hebraica e de Rhetorica, que
acompanhavam o Alvará régio de 28 de Junho de 1759.
Apesar da ordem de destruição e de truncamentos a que numerosos volumes foram sujeitos,
existem ainda numerosos volumes da Prosodia em bibliotecas nacionais e internacionais,
permitindo aos leitores atuais o acesso a este valioso testemunho histórico, cultural e
linguístico que representa o conjunto bibliográfico da Prosodia.
O corpus português da Prosodia: constituição e características
O texto dicionarístico lexicográfico da obra em análise tem uma importância muito grande
enquanto obra lexicográfica mas, sobretudo, enquanto testemunho linguístico daquela época
da língua portuguesa. A sua dimensão, originalidade e o quadro filológico justificam o seu
inegável interesse para a linguística diacrónica, para a lexicografia e, de um modo geral, para
a história da cultura portuguesa. O grande espólio lexical da Prosodia constituiu um dos
maiores conjuntos lexicais da história do património lexicográfico antigo.
A constituição deste conjunto lexical em formato digital tornou-se imperiosa, de modo a
facilitar o acesso ao seu conteúdo lexical. Logo foi abandonada a possibilidade de
reconhecimento ótico do texto, uma vez que o volume da sétima edição da Prosodia contém
uma pesada massa tipográfica, densa e com caracteres miúdos, ocupando o texto
dicionarístico 736 páginas em formato in folio e a sua impressão contém sombreados e
tipograficamente alguns tipos não conseguem ser distinguidos, como por exemplo a
indiferenciação entre “f” e “s” alto. Realizou-se então a demorada e exaustiva tarefa de passar
manualmente
3
o texto dicionarístico da Prosodia latim-português e do Tesouro português-
latim para formato digital. Obteve-se um texto satisfatoriamente revisto, plenamente legível,
em formato de texto com as 99 898 entradas dicionarísticas e respetivas glosas, com pleno
acesso a todas as unidades do seu corpus linguístico e, principalmente, ao seu conteúdo
lexical.
De modo a podermos manipular o texto e podermos analisar as formas portuguesas, era
necessário realizar previamente a distinção linguística entre o latim e o português, tarefa que
não era simples de realizar, uma vez que nas glosas portuguesas também eram inseridas
3
Aquando da tarefa de digitação do texto, as perturbações tipográficas e dúvidas de leitura foram
esclarecidas com recurso à consulta de outros volumes desta edição e de outras edições, anteriores e
posteriores.
palavras latinas
4
. Deste modo, a tarefa de distinção linguística entre as duas línguas foi
realizada manualmente, por indisponibilidade de meios eletrónicos que pudessem fazer esta
distinção automática operando em formas latinas não clássicas e em formas portuguesas de
finais de século XVII, com ortografia diferente à que é usada atualmente. A distinção
linguística foi feita com recurso a uma codificação, introduzida numa versão de trabalho, e o
texto pôde então ser manipulado através de um Programa de Concordâncias. Utilizámos a
ferramenta DICIweb© disponível online no Projeto Corpus Lexicográfico do Português.
No que respeita à terminologia utilizada nas descrições do corpus, seguimos a noção de
“palavra” adotada pelo Português Fundamental, ou seja, a “ […] unidade elementar de texto,
definida pelo seu contorno gráfico, limitada por espaços” (Português Fundamental, Métodos e
Documentos , 1987). Deste modo, “palavra” é sinónimo de “ocorrência”. Utilizaremos, ainda,
o termo “forma” ou “palavra diferente”, a par do uso de “palavra”
Considerámos os espaços e os sinais de pontuação como segmentadores. Deste modo, fizémos
coincidir a noção de “palavra” com a de “palavra gráfica”. Na segmentação que efetuámos
considerámos como passíveis de análise todas as palavras entre espaços ou entre sinais de
pontuação, incluindo diacríticos, como & com valor de “et”, ou ainda abreviaturas, como pl
(plural), D. (Dom) ou outras. A distinção entre maiúsculas e minúsculas não foi tida em conta,
uma vez que o programa de concordâncias DICIweb© neutraliza esta diferença, agrupando
todas as ocorrências independentemente de estarem grafadas com maiúsculas iniciais ou com
minúsculas. A indistinção das letras ramistas e as variantes gráficas de uma mesma palavra
não foram resolvidas no corpus, mantendo-se o texto original inalterado.
Após análise com recurso à ferramenta DICIweb©, obtivemos um corpus total latino e
português com 1 342 603 ocorrências e 135 388 formas diferentes, não lematizadas
5
e com
numerosas variantes flexionais e muitas variantes gráficas. O corpus português obtido tem 46
067 palavras e 703 725 ocorrências e contém as entradas portuguesas da nomenclatura do
Tesouro e as palavras portuguesas retiradas de dentro das glosas da Prosodia.
4
Foram excluídas das listas as abreviaturas latinas, palavras instrumentais latinas, abreviaturas de
referências autorais e palavras latinas incluídas dentro das glosas pertencentes a vocabulário sensível.
Foram mantidos os nomes próprios latinos. Foram segmentadas formas verbais com o pronome
reflexo de modo a poderem ser analisadas no Programa de Concordâncias.
5
Não conhecendo nenhuma ferramenta que nos permita fazer a lematização automática num corpus
com palavras não atuais e com tantas variantes gráficas, a tarefa de lematização teria de ser
manualmente realizada. Considerado o enorme volume de formas lexicais em apreço neste corpus, a
lematização não foi realizada.
A análise do corpus incidiu sobre a totalidade das formas diferentes portuguesas e na análise
em separado das formas portuguesas oriundas da Prosodia e do Tesouro. A partir do
Programa de Concordâncias foram obtidas listas alfabéticas, ordenadas por frequência
descendente e pelo final de palavras relativas ao corpus total e a cada um dos dicionários
(Prosodia e Tesouro), de modo a conseguirmos dilucidar a contribuição de cada uma destas
obras para a totalidade do corpus, bem como as características diferenciadoras de cada um dos
subcorpora entre si.
De modo a podermos ver as formas diferentes e as formas comuns aos dois subcorpora,
utilizámos ferramentas de cálculo de modo a obtermos o que se pretendia, a saber, determinar
palavras que apenas existiam na Prosodia, palavras que apenas existiam no Tesouro, e
palavras que existiam em ambos os corpora. Inicialmente utilizámos uma folha de cálculo
Excel para obter as comparações desejadas. Contudo, dado o número muito substancial de
dados, a folha de cálculo revelou-se ineficiente, pelo que foi necessário construir uma base de
dados em SQL. Os dados obtidos revelam-nos os limites dos corpora, comparados entre si,
visando, sobretudo, aferir a abundância lexical em cada um destes corpora, individualmente,
e analisados em conjunto enquanto corpus.
Quadro 1 - Palavras portuguesas existentes na Prosodia, no Tesouro e no corpus Prosodia+Tesouro
palavras portuguesas da
Prosodia+Tesouro
palavras portuguesas que
existem na Prosodia e no
Tesouro
palavras portuguesas
que só existem na
Prosodia
palavras portuguesas que
só existem no Tesouro
46 067
12 019
24 356
9 692
Fonte: elaborado pela autora
A análise em separado dos dois subcorpora revelou-nos dados quantitativos muito
interessantes. Cerca de metade do corpus total português é formado por palavras oriundas da
Prosodia e aproximadamente ¼ das formas portuguesas é anotado em ambas as obras
lexicográficas. O número de palavras diferentes que só são listadas na Prosodia parece ser
desproporcionado, facto que pode ser explicado, muito provavelmente, pela existência de
formas flexionadas em abundância, uma vez que estamos perante uma lista de formas não
lematizadas que são retiradas do interior das glosas. Esta desproporção é também um
testemunho da ação renovadora operada por Matias de São Germano na revisão que fez para
esta sétima edição do volume lexicográfico.
Na sua globalidade, o corpus português deste conjunto lexicográfico é composto por palavras
de várias classes gramaticais. As formas infinitivas dos verbos constituem cerca de 10% do
corpus e os advérbios em – mente cerca de 3%. Os nomes e os adjetivos preenchem a quase
totalidade do restante corpus. As 20 formas mais frequentes são preposições, conjunções,
pronomes, artigos, palavras instrumentais ou classificadores lexicográficos e “de” é a forma
com a frequência mais elevada, com 27 961 ocorrências. Na Prosodia, os classificadores
metalexicográficos, com frequências muito elevadas, são “cousa”, para o adjetivo, “herva”
para os nomes de vegetais, e “cidade” e “lugar” para os topónimos. No Tesouro, os
classificadores mais frequentes são “cousa” “herva” e “peixe”. De notar, ainda, que cerca de
metade do corpus português é constituído por formas que têm uma única ocorrência,
preferencialmente oriundas das entradas do Tesouro.
O corpus da Prosodia constitui um dos maiores conjuntos lexicais da história do património
lexicográfico antigo. O pleno acesso a todas as unidades do seu vasto corpus linguístico
apenas foi possível com recurso a ferramentas digitais de análise de texto, permitindo o
conhecimento do seu conteúdo lexical e o reconhecimento de um riquíssimo património
lexical e cultural pré-pombalino.
Referências Bibliográficas
AA.VV. (1987). Português Fundamental, Métodos e Documentos. Lisboa: INIC.
Alvará Régio. (28 de Junho de 1759). Lisboa.
Corpus Lexicográfico do Português. (s.d.). Obtido de http://clp.dlc.ua.pt/inicio.aspx
Freire Cameron, H. (2007). Prosodia e Thesouro da Lingoa Portugueza, de Bento Pereira. In T.
Verdelho, & J. P. Silvestre, Dicionarística Portuguesa - inventariação e estudo do património
lexicográfico (pp. 115-120). Aveiro: Universidade de Aveiro.
Freire Cameron, H. (2012). A Prosodia de Bento Pereira, contributos para o estudo lexicográfico e
filológico. Aveiro: Universidade de Aveiro.
Instrucções para os Professores de Grammatica Latina, Grega, Hebraica e de Rhetorica, que
acompanhavam o Alvará Régio. (28 de Junho de 1759).
Mendes de Almeida, J. (Jan/Jun de 1967). Lexicógrafos portugueses da língua latina - a Prosodia de
Bento Pereira. Revista de Guimarães, LXXVII - nºs 1,2, pp. 5-12.
Português Fundamental, Métodos e Documentos . (1987). Lisboa: INIC.
Silvestre, J. P. (2008). Bluteau e as origens da lexicografia moderna. Lisboa: Imprensa Nacional - Casa
da Moeda.
Verdelho, T. (Outubro-Dezembro de 1982). Historiografia linguística e reforma do ensino (a propósito
de três centenários: Manuel Álvares, Bento Pereira e Marquês de Pombal). Brigantia, II, nº4 ,
pp. 347-356.
Verdelho, T. (1995). As Origens da Gramaticografia e da Lexicografia latino-portuguesas. Aveiro:
INIC.
Breve nota biográfica
Helena Freire Cameron
Doutora em Linguística Portuguesa
Principais áreas de investigação: linguística portuguesa; dicionários; linguística computacional