Article

Algoritmi de generare de paronime pentru corectarea malapropismelor

01/2008;

ABSTRACT Rezumat. Paginile Web au fost folosite intensiv în ultimul timp pentru a extrage în mod automat sau semiautomat informaţii utile. Datorită naturii deschise a Web–ului, textele care să nu aibă greşeli reprezintă excepţii foarte rare. Cel mai răspândit tip de greşeala întâlnit în textele de pe Internet este malapropismul şi de aceea s–au căutat algoritmi pentru detectarea şi corectarea acestora. Algoritmii de detectare a malapropismelor se bazează pe coeziunea textelor în timp ce algoritmii de corectare a acestora folosesc dicţionare de paronime precompilate. De aceea, este foarte important să fie identificaţi algoritmi eficienţi de generare a paronimelor. În lucrarea de faţă se face o prezentare a paronimelor în general, precum şi a metodelor prin care se poate construi un dicţionar de paronime. De asemenea, se prezintă principalele greşeli care conduc la apariţia malapropismelor, precum şi modul în care aceste erori pot fi corectate cu ajutorul unui dicţionar de paronime.

Download full-text

Full-text

Available from: Stefan Trausan-Matu, Aug 08, 2015
0 Followers
 · 
72 Views
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: The errors usually made by authors during text preparation are classified. The notion of semantic errors is elaborated, and malapropisms are pointed among them as "similar" to the intended word but essentially distorting the meaning of the text. For whatever method of malapropism correction, we propose to beforehand compile dictionaries of paronyms, i.e. of words similar to each other in letters, sounds or morphs. The proposed classification of errors and paronyms is illustrated by English and Russian examples remaining valid for many languages. Specific dictionaries of literal and morphemic paronyms are compiled for Russian. It is shown that literal paronyms drastically cut down (up to 340 times) the search of correction candidates, while morphemic paronyms permit to correct errors characteristic for foreigners and not studied so far.