Project

Teknologjitë gjuhësore

Updates
0 new
0
Recommendations
0 new
0
Followers
0 new
10
Reads
3 new
325

Project log

Nebi Caka
added a research item
Përmbledhje: Zhvillimi i hovshëm i teknologjive gjuhësore ka ndryshuar gati plotësisht rolin e morfologjisë klasike duke mundësuar që studimi i trajtëformimit, formave të ndryshme të fjalëve të lakueshme: emrave, mbiemrave, përemrave, numërorëve, dhe i fjalëve të zgjedhueshme: foljeve, të bëhet shpejt dhe pothuajse krejtësisht në mënyrë automatike. Shumë gjuhë të botës sot kanë lematizuesit automatik për lematizimin (angl. lematization) e fjalëformave të korpusit përkatës të gjuhës së tyre duke i sjellë fjalët e tij në leksemat e tyre përkatëse a në fjalëformën përfaqësuese (lemën) e cila zakonisht jepet në fjalor. Lematizuesit përveç rolit të tyre në nxjerrjen e lemave gjerësisht janë duke u përdorur edhe për gjetjen e fjalëve të reja në korpuset tekstore të specializuara dhe ato të përgjithshme. Qëllimi i këtij punimi është të tregojë rrugën e ndërtimit dhe të vërtetojë efikasitetin e lematizuesit të gjuhës shqipe i cili është në gjendje të bëjë saktë e shpejtë lematizimin e trajtëformave të fjalëve të gjuhës shqipe standarde dhe i cili do të jetë mjaft inteligjent të vetëmësohet duke i lematizuar trajtëformat e shqipes jo standarde. Ndërtimi i lematizuesit është bërë me komponentën e vetëmësimit për shkak të teksteve të vjetra të shqipes dhe përdorimit gjithnjë në rritje të fjalëve të reja dhe fjalëformave të tyre. Fjalët çelës: lematizim, lemë, fjalor, trajtëformë, gjuhë shqipe, korpus-tekstor Key-words: lemmatization, lemma, vocabulary, token, Albanian language, text-corpus
Ali Caka
added 2 research items
Onemillion-words corpus of the Albanian language, compiled by N. Caka and A. Caka in 2006, according to the relevant corpus of English, known as 'The Brown Corpus', is a good basis for various linguistic research. It is used, for the first time, by one of the authors (A. Caka) during his magisterial thesis research, entitled "Contribution to the basic vocabulary of the Albanian language", which he defended at the Faculty of Philology of the University of Prishtina in 2007. Using the corresponding computer program, known as concordancier, to determine the density of using words, the ‘Brown’ Corpus of Albanian language is used for extracting key-words of the different texts in Albanian language. Key words: Brown Corpus, concordancier, key-words, word-frequency, keynees-factor
Ndërlidhja e fuqishme e gjuhësisë dhe teknologjisë së informacionit solli deri tek zhvillimi i shpejtë i teknologjive gjuhësore në të cilat sot mbështeten studimet gjuhësore të shumë gjuhëve botërore. Dihet fare mirë se anglishtja prinë në këtë, e gjuha shqipe është prekur pak nga kjo fushë. Projekti i Qeverisë së Kosovës i gjuhës shqipe më 2005; Korpusi një milion fjalësh i gjuhës shqipe i vëllezërve Caka i punuar më 2006 me anë të konkordancierit e sipas modelit të korpusit të Braunit nga i cili autori i dytë i këtij punimi hartoi Fjalorët themelorë të gjuhës së sotme shqipe (2500, 5000 dhe 10000 fjalësh); Tageri-etiketuesi i gjuhës shqipe i punuar më 2011, dhe lematizuesi i gjuhës shqipe i punuar më 2012 nga autorët e parë të këtij punimi; Projekti i shndërrimit të tekstit në të folur; janë disa nga të arriturat e gjuhësisë shqiptare falë teknologjive gjuhësore dhe punës multidisiplinore të gjuhëtarëve dhe informaticientëve. Ky punim mëton të japë të arriturat e gjuhësisë shqiptare në këtë fushë dhe njëkohësisht të tregojë për rolin e teknologjisë gjuhësore në zhvillimin e gjuhësisë shqiptare. Fjalët çelës: teknologji gjuhësore, lematizues, etiketues, gjuhë shqipe, korpus Key- words: Language technology, lemmatizer, tagger, Albanian language, corpus
Ali Caka
added 2 research items
Sot gjuhësia moderne nuk mund të mendohet pa përdorimin e Teknologjive gjuhësore të cilat dita ditës po bëhen vegla të pazëvendësueshme për procesimin dhe analizën e gjuhës natyrale. Në pamundësi që të përdoren Teknologjitë gjuhësore të gjuhës angleze, e cila ka strukturë tjetër nga gjuha shqipe, së voni në gjuhësinë shqiptare janë bërë disa tentime për zhvillimin e Teknologjive gjuhësore të gjuhës shqipe. Kështu që tashmë është zhvilluar lematizuesi i gjuhës shqipe, softueri për nxjerrjen e lemave (fjalëformave përfaqësuse), e po ashtu edhe tageri i gjuhës shqipe, softueri për etiketimin (tagimin) e pjesëve të ligjëratës (part-of-speech-tagging) në korpuset tekstore. Problemi kryesor që del gjatë zhvillimit të Teknologjive gjuhësore që do të përdoren në korpuset tekstore të gjuhës shqipe është nxjerrja e fjalëformave të nyjshme. Qëllimi i këtij punimi është që të zhvillojë algoritmin e modelit kompjuterik i cili do të jetë në gjendje që me saktësi të nxjerrë fjalëformat (trajtëformat) e nyjshme në korpuset tekstore të gjuhës shqipe duke e dalluar nyjën përkatëse. Softueri i cili do të punohet bazuar në algoritmin e zhvilluar do të ketë komponentën e vetëmësimit për shkak të analizës dhe procesimit të korpuseve tekstore të poezisë. Algoritmi i modelit kompjuterik të nxjerrjes së nyjës do të përmirësojë punën e lematizuesit dhe të tagerit të gjuhës shqipe.
Informatika dhe Teknologjia e Informacionit dhe e Komunikimeve me zhvillimin e tejshpejtuar kanë lehtësuar ndërtimin dhe zhvillimin e Teknologjive gjuhësore të cilat dita ditës po bëhen mjetet e duhura dhe të pazëvendësueshme për analizën dhe procesimin e gjuhës natyrale. Punimi Kontribut fjalorit të kolokacioneve të gjuhës shqipe mëton që bazuar në algoritmin e Jarovskit (Yarowsky) dhe në korpusin tekstor të përftuar nga faqetueb të nxjerrë kolokacionet e fjalësit të fjalorit themelor 1000 fjalësh të gjuhës së sotme shqipe hartuar nga autori i parë. Punimi pos tjerash ka për qëllim të paraqet se sa janë prodhimtare fjalët e fjalësit të fjalorit themelor 1000 fjalësh të gjuhës shqipe në krijimin e kolokacioneve të cilat mund të jenë bazë e mirë për studimin e gjuhës së shkruar, duke paraqitur dendurinë e paraqitjes së tyre. Për këtë qëllim do të zhvillohet softueri i veçantë i cili për secilën fjalëformë të lemës (trajtës përfaqësuese) të fjalësit të fjalorit themelor 1000 fjalësh të gjuhës shqipe do të nxjerrë kolokacionet e gjuhës shqipe, të cilat përveç të studimit të gjuhës së shkruar do të jenë bazë e mirë për hartimin e fjalorit të kolokacioneve të gjuhës shqipe.