ThesisPDF Available

Aplikimi i Teknikave të Gjetjes së Informacionit mbi Koleksione Dokumentesh në Gjuhën Shqipe

Authors:

Abstract and Figures

In the recent years the number of documents in Albanian published in internet has increased considerably. They range from news articles to legal documents, scientific publishings, multimedia (photo, video, audio) ones, etc. This considerable amount of information has made available numerous possibilities for analysts, researchers, legal workers, and any other interested parties. However, even though the available information has increased considerably, it is still not easy to quickly identify relevant documents written in Albanian due to the lack of availability of appropriate tools that facilitate this. In this disertation are reported various applications of information retrieval tech- niques in collections of documents written in Albanian. The experimental work makes use of articles of a scientific journal written in Albanian and news articles published online by various media. The implemented protototypes serve as proof-of-concept for further implementations of similar systems in industry. Since information retrieval is strongly connected with natural language process- ing, this work includes results in this regard related to training / testing datasets. Firstly, we have provided a high performant custom trained model for machine learn- ing identification of Albanian language. Secondly, we have created an automatically generated corpus of annotated news articles that may be used for training machine learning models for named entity recognition. It contains about 25.000 annotated sentences for each focus entity class (person, organization, location). Lastly, we have provided a set of 388.325 news articles clustered by topic and named-entity annotated.
Content may be subject to copyright.
REPUBLIKA E SHQIPËRISË
UNIVERSITETI I TIRANËS
FAKULTETI I SHKENCAVE NATYRËS
DEPARTAMENTI I INFORMATIKËS
DISERTACION
PËR MBROJTJEN E GRADËS SHKENCORE
“DOKTOR”
KLESTI HOXHA
“APLIKIMI I TEKNIKAVE TË GJETJES SË
INFORMACIONIT MBI KOLEKSIONE
DOKUMENTESH NË GJUHËN SHQIPE”
Udhëheqës shkencor:
Prof. Dr. Artur Baxhaku
Tiranë, 2021
REPUBLIKA E SHQIPËRISË
UNIVERSITETI I TIRANËS
FAKULTETI I SHKENCAVE NATYRËS
DEPARTAMENTI I INFORMATIKËS
Disertacion i
paraqitur nga
MSc. Klesti Hoxha
për mbrojtjen e gradës shkencore
“DOKTOR”
Specialiteti: Informatikë
Tema: “Aplikimi i teknikave të gjetjes së informacionit mbi koleksione dokumentesh
në gjuhën shqipe”
Mbrohet datën . . para jurisë:
1. ____________________________ Kryetar
2. ____________________________ Anëtar (oponent)
3. ____________________________ Anëtar (oponent)
4. ____________________________ Anëtar
5. ____________________________ Anëtar
Deklarata e Origjinalitetit
Unë, Klesti Hoxha, deklaroj, nën përgjegjësinë time personale, se punimi i doktoratës
me temë: “Aplikimi i teknikave të gjetjes së informacionit mbi koleksione dokumentesh
në gjuhën shqipe.”, me udhëheqës shkencor Prof. Dr. Artur Baxhaku, është për-
fundim i punës kërkimore shkencore origjinale të zhvilluar gjatë saj. Punimi nuk
është prezantuar asnjëherë përpara një institucioni tjetër për vlerësim apo të jetë bo-
tuar i tëri dhe nuk ka në përmbajtje të tij materiale të shkruara nga autorë të tjerë,
përveç rasteve të cilat janë të referuara dhe të cituara.
i
Abstrakt
Prej disa vitesh është rritur ndjeshëm prezenca e informacioneve në gjuhën shqipe në
internet. Përdorimi i publikimeve elektronike tashmë ka kaluar përtej faqeve në inter-
net të mediave (prodhuesve të lajmeve) shqiptare. Dokumente ligjore (ligje, vendime,
etj.), disertacione të doktoraturave, artikuj shkencorë, publikime multimedale (foto,
video) janë tashmë pjesë e gamës së gjerë të dokumenteve shqip të publikuara në
internet.
Kjo sasi e madhe informacioni e publikuar lirisht krijon mundësi për të lehtësuar
punën kërkimore të shumë analistëve, kërkuesve shkencore, punonjësve të ligjit, por
edhe shfletuesve të thjeshtë. Megjithatë, edhe pse prezenca e informacioneve tashmë
është relativisht e bollshme, është shumë e mundimshme të drejtohesh me shpejtësi
tek dokumentet që përmbajnë informacionet që të nevojiten.
Në këtë disertacionin trajtohen aplikime të teknikave të gjetjes së informacionit
në koleksione dokumentesh të shkruara në shqip. Puna eksperimentale shfrytëzon
artikuj shkencorë të një periodiku shkencor dhe artikuj lajmesh të botuara në internet.
Prototipet e ndërtuara shërbejnë si provë fizibiliteti për zhvillimin e këtyre sistemeve
në industri.
Duke qenë se fusha përkatëse lidhet ngushtë me përpunimin e gjuhës natyrore, ky
punim përfshin dhe rezulate në këtë drejtim, kryesisht bashkësi të dhënash testuese
/ trajnuese për modele të mësimit të makinës. Konkretisht është ndërtuar një model
trajnimi dhe konfigurimet përkatëse të një metode të mësimit të makinës për identi-
fikimin e gjuhës shqipe. Gjithashtu është ndërtuar një korpus i etiketuar automatik-
isht në ndihmë të dallimit të entiteteve të emëruara i cili përfshin rreth 25.000 fjali për
secilën kategori në fokus (person, organizatë, vendndodhje). Së fundmi është krijuar
një bashkësi prej 388.325 artikuj lajmesh të grupuara sipas tematikave të dalluara
automatikisht dhe të etiketuara me entitete të emëruara të përmendura në to.
Fjalë kyçe: gjetja e informacionit, përpunimi kompjuterik i gjuhës natyrore,
sistemet e rekomandimit, korpuset e etiketuara
ii
Abstract
In the recent years the number of documents in Albanian published in internet has
increased considerably. They range from news articles to legal documents, scientific
publishings, multimedia (photo, video, audio) ones, etc.
This considerable amount of information has made available numerous possibilities
for analysts, researchers, legal workers, and any other interested parties. However,
even though the available information has increased considerably, it is still not easy to
quickly identify relevant documents written in Albanian due to the lack of availability
of appropriate tools that facilitate this.
In this disertation are reported various applications of information retrieval tech-
niques in collections of documents written in Albanian. The experimental work makes
use of articles of a scientific journal written in Albanian and news articles published
online by various media. The implemented protototypes serve as proof-of-concept for
further implementations of similar systems in industry.
Since information retrieval is strongly connected with natural language process-
ing, this work includes results in this regard related to training / testing datasets.
Firstly, we have provided a high performant custom trained model for machine learn-
ing identification of Albanian language. Secondly, we have created an automatically
generated corpus of annotated news articles that may be used for training machine
learning models for named entity recognition. It contains about 25.000 annotated
sentences for each focus entity class (person, organization, location). Lastly, we have
provided a set of 388.325 news articles clustered by topic and named-entity annotated.
Keywords: information retrieval, natural language processing, recommender sys-
tems, annotated corpuses
iii
Përmbajtje
1 Hyrje 1
2 Baza Teorike 4
2.1 Përpunimi Kompjuterik i Gjuhës Natyrore . . . . . . . . . . . . . . . 4
2.1.1 Zinxhiri i Përpunimit . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.2 Algoritmet e Përpunimit . . . . . . . . . . . . . . . . . . . . . 6
2.2 Gjetja e Informacionit . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 PërcaktimeBazë ......................... 7
2.2.2 Mjete dhe Metoda Mbështetëse . . . . . . . . . . . . . . . . . 10
2.2.3 Sistemet e Rekomandimit . . . . . . . . . . . . . . . . . . . . 13
2.2.4 Metoda Vlerësimi . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Dallimi i Temave një Dokumenti . . . . . . . . . . . . . . . . . . . 16
2.3.1 Përcaktimi Formal . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.2 Modelimi i Temave . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Identifikimi i Gjuhës Shqipe 22
3.1 Përshkrimi i Problemit . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 Qasjet e Identifikimit Gjuhës . . . . . . . . . . . . . . . . . . . . . 23
3.3 Bashkësitë e Dhënave Testuese . . . . . . . . . . . . . . . . . . . . 25
3.4 Eksperimentet dhe Rezultatet . . . . . . . . . . . . . . . . . . . . . . 27
3.4.1 Identifikimi i shqipes standarde shkruar saktë . . . . . . . . 27
3.4.2 Tekstet shqip nuk përmbajnë "Ë" dhe "Ç" . . . . . . . . . 28
3.4.3 Dokumente me gjatësi njëjtë . . . . . . . . . . . . . . . . . 28
iv
3.4.4 Identifikimi i shqipes shkruar dialektin geg . . . . . . . . 29
3.4.5 Eksperiment me një trajnim të posaçëm të langid.py ..... 30
3.5 Përfundime ................................ 30
4 Dallimi i Entiteteve të Emëruara në Gjuhën Shqipe 32
4.1 Përshkrimi i Problemit . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Gjenerimi Automatik i Korpuseve për DEE . . . . . . . . . . . . . . . 34
4.3 Gjenerimi i një Gazetteer për Entitetet e Emëruara në Shqip . . . . . 36
4.4 Etiketimi i Korpusit Entiteteve Emëruara . . . . . . . . . . . . . 41
4.5 Ekspertimente dhe Rezultate . . . . . . . . . . . . . . . . . . . . . . . 45
4.6 Përfundime dhe Rekomandime . . . . . . . . . . . . . . . . . . . . . . 47
5 Një Sistem Rekomandimi për Artikuj Shkencorë në Gjuhën Shqipe 49
5.1 Përshkrimi i Problemit . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 Qasje Rekomandimi për Artikuj Shkencorë . . . . . . . . . . . . . . . 51
5.3 RrënjëzuesiiShqipes........................... 52
5.4 DizenjimiiSistemit............................ 54
5.4.1 Modulet Përbërëse . . . . . . . . . . . . . . . . . . . . . . . . 54
5.4.2 Heuristika e Metrikës Ngjashmërisë . . . . . . . . . . . . . . 57
5.5 Eksperimente dhe Rezultate . . . . . . . . . . . . . . . . . . . . . . . 58
5.6 Përfundime dhe Rekomandime . . . . . . . . . . . . . . . . . . . . . . 60
6 Dallimi i Temave të Lajmeve Shqip 61
6.1 Përshkrimi i Problemit . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.1.1 Kriteret e Dizenjimit . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 MjetedheMetoda ............................ 63
6.2.1 Grumbullimi i Lajmeve . . . . . . . . . . . . . . . . . . . . . . 63
6.2.2 Indeksimi ............................. 63
6.3 QasjaeZhvilluar ............................. 64
6.3.1 Metrika e Grupimit . . . . . . . . . . . . . . . . . . . . . . . . 66
6.3.2 Konfigurimet e Mundshme . . . . . . . . . . . . . . . . . . . . 67
v
6.4 Rezultate ................................. 67
6.5 Përfundime dhe Rekomandime . . . . . . . . . . . . . . . . . . . . . . 71
7 Rezultate dhe Përfundime 73
Artikuj dhe Konferenca 76
Referenca 76
vi
Lista e Figurave
2-1 Zinxhiri i përpunimit gjuhës natyrore . . . . . . . . . . . . . . . . 5
2-2 Arkitektura e motorit kërkimit Google [7]. . . . . . . . . . . . . . . 12
2-3 Modeli probabilistik i LDA [14]. . . . . . . . . . . . . . . . . . . . . . 21
3-1 Krahasimi i modeleve n-grameve [19]. . . . . . . . . . . . . . . . . 24
4-1 Gjenerimi i gazetteer entiteteve emëruara. . . . . . . . . . . . . 39
4-2 Shembull i korpusit etiketuar për DEE. . . . . . . . . . . . . . . . 42
4-3 Procesi i krijimit korpusit etiketuar për DEE. . . . . . . . . . . 43
5-1 Qasjet e rekomandimit [35]. . . . . . . . . . . . . . . . . . . . . . . . 53
5-2 Arkitektura e sistemit të rekomandimit të artikujve shkencorë. . . . . 55
6-1 Arkitektura e dalluesit temave lajmeve. . . . . . . . . . . . . . . 64
6-2 Shembull i një dokumenti artikulli lajmesh në DB e indeksit. . . . . . 68
6-3 Shembull i EE dalluara një artikull lajmi. . . . . . . . . . . . . 71
6-4 Shembull i një lajmi të etiketuar me entitete të emëruara. . . . . . . . 71
vii
Lista e Tabelave
2.1 Shembull matrice term-dokument . . . . . . . . . . . . . . . . . . . . 9
3.1 Gjatësia e titullit dhe përmbajtjes së artikujve të lajmeve në bashkësinë
e dhënave testuese për identifikimin e gjuhës. . . . . . . . . . . . . 26
3.2 Saktësia në identifikimin e shqipes standarde të shkruar saktë. . . . . 27
3.3 Saktësia në identifikimin e shqipes në tekste që u mungojnë shkronjat
"Ë"dhe"Ç". ............................... 28
3.4 Saktësia në identifikimin e shqipes në tekste që u mungojnë pjesërisht
shkronjat"Ë"dhe"Ç"........................... 28
3.5 Saktësia në identifikimin e shqipes në tekste me gjatësi 500 byte. . . . 29
3.6 Saktësia në identifikimin e shqipes të shkruar në dialektin geg. . . . . 29
3.7 Saktësia në identifikimin e shqipes nëpërmjet langid.py duke përdorur
një trajnim posaçëm. . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Shoqërimi i klasave të WikiData me kategorinë koresponduese të en-
titetevetëemëruara. ........................... 40
4.2 Totali i kategorive të entiteve të emëruara në gazetteer e gjeneruar. . 41
4.3 Detajet statistikore korpusit gjeneruar për DEE. . . . . . . . . . 45
4.4 Rezultatet e vlerësimit të kryqëzuar 10-fish të korpusit të DEE. . . . 46
4.5 Rezultatet e vlerësimit të korpusit të gjeneruar të DEE ndaj një korpusi
testues etiketuar manualisht. . . . . . . . . . . . . . . . . . . . . . 47
5.1 Rezultatet e eksperimenteve me rekomandimin e artikujve shkencorë. 59
viii
6.1 Konfigurimet e prototipit të dallimit të temave që arritën rezultatet
mëbindëse. ................................ 68
6.2 Totali i lajmeve mbledhura për çdo ofrues lajmesh. . . . . . . . . . 69
6.3 Totalet e grupimeve për metrikat e ngjashmërisë të përdorura. . . . . 69
6.4 Shembull grupimi me metrikën e kombinuar (tf-idf / LDA). . . . . . . 70
6.5 Shembull grupimi me metrikën e bazuar LDA. . . . . . . . . . . . 70
6.6 Totalet e EE dalluara për çdo kategori. . . . . . . . . . . . . . . . 70
ix
Kreu 1
Hyrje
Gjetja e Informacionit (Information Retrieval) ka të bëjë me identifikimin e informa-
cionit që i nevojitet përdoruesve bazuar tek kërkesa konkrete për këtë të fundit [53].
Kjo ka krijuar një fushë më vete që ka ecur në paralel me zhvillimet e tjera të infor-
matikës.
Rritja eksponenciale e të dhënave që janë publikuar në internet, së bashku me
rritjen dhe diversifikimin e aksesit në rrjet e ka bërë edhe më të nevojshme aksesin e
shpejtë në informacion. Disiplina në fjalë reflektohet në mënyrë direkte në sistemet
e gjetjes së informacionit. Tradicionalisht, ato përfshijnë arkitektura të bazuara tek
sistemet e informacionit në përgjithësi, me një bazë të dhënash (ose abstragim të saj)
në qendër të veprimeve bazë. Në kontekstin e sistemeve të gjetjes së informacionit
kjo quhet indeks.
Gjetja e informacionit është e lidhur ngushtë me përpunimin e gjuhës natyrore [37],
rrjedhimisht ka një varësi direkte nga gjuha në të cilën janë shkruar dokumentet në
fjalë. Fatkeqësisht, shqipja është një gjuhë me burime të kufizuara në këtë drejtim
[32, 33], si rrjedhojë kjo është reflektuar dhe në mungesën e sistemeve të gjetjes së
informacionit serioze në krahasim me gjuhët globale, por edhe disa gjuhë të rajonit.
Shoqëria shqiptare mund të konsiderohet tashmë pa frikë një shoqëri informacioni
[93], e prirur nga aksesi i madh në informacion, rritja e informacionit në gjuhën shqipe
të disponueshëm në formë elektronike, si dhe mbingarkesa e këtij të fundit, duke e
vështirësuar gjetjen e informacionit brenda një kohe të shpejtë.
1
Qëllimi i punës kërkimore të paraqitur në këtë disertacion është aplikimi i teknikave
të ndryshme të gjetjes së informacionit në koleksione dokumentesh të shkruara në
shqip. Sfidat janë të ndryshme, duke nisur nga sigurimi i koleksioneve në fjalë,
mungesa e mjeteve bazë të përpunimit kompjuterik të gjuhës shqipe, deri tek mungesa
e bashkësive të të dhënave testuese të cilat janë mjeti më i rëndësishëm i vlerësimit
të sistemeve të gjetjes së informacionit.
Puna e raportuar kombinon kontribute në zhvillimin e mjeteve bazë të përpunimit
të gjuhës natyrore me zhvillimin e prototipeve që provojnë mundësinë (proof of con-
cept) e krijimit të sistemeve konkrete duke përdorur teknika të caktuara. Si koleksione
të dhënash janë shfrytëzuar artikuj shkencorë të shkruar në shqip dhe artikuj lajmesh
në shqip të publikuara online. Këto të fundit u përzgjodhën për shkak të morisë së
madhe të tyre të publikuar online së fundmi si dhe skenarëve të ndryshëm të për-
dorimit të tyre nga përdorues fundorë.
Konkretisht në këtë punim paraqiten eksperimentime dhe prototipe konkrete në
lidhje me këto nënfusha të sistemeve të gjetjes së informacionit: identifikimi i gjuhës,
sistemet e rekomandimit, dallimi i entiteteve të emëruara, dhe dallimi dhe ndjekja e
temave.
Ky disertacion organizohet si në vijim. Në Kreun 2 paraqiten konceptet themelore
teorike mbështetëse për punën eksperimentale të përfshirë në këtë punim. Kreu 3
trajton një punë kërkimore [32] të kryer në lidhje me identifikimin automatik të
gjuhës shqipe. Pas prezantimit me metoda të ndryshme të trajtimit të kësaj çështje,
raportohen rezultatet e eksperimenteve konkrete duke vënë në dukje algoritmin dhe
konfigurimin më të mirë të tij që prodhon saktësi maksimale në identifikimin e shqipes
në tekste të shkurtra dhe të gjata.
Në Kreun 4 përshkruhet ndërtimi automatik nëpërmjet artikujve në shqip të pub-
likuara në WikiPedia i një korpusi të etiketuar në ndihmë të algoritmeve të mësimit
të makinës për dallimin e entiteve të emëruara në një tekst (persona, vendndodhje,
organizata) [33]. Korpuse të tilla shërbejnë si bazë për uljen e kostos dhe të kohës së
nevojitur për krijimin e një korpusi të tillë nëpërmjet etikitimit manual nga ekspertë
njerëzorë. Saktësia e arritur nga korpuse të tilla është më e ulët, por mund të përdoren
2
gjithashtu dhe në industri në rast se mungon një korpus i cilësisë më të lartë (gold
standard). Në dijeninë tonë, ky është korpusi i parë i gjeneruar me këtë metodologji
për gjuhën shqipe. Teknika të ngjashme mund aplikohen dhe në skenarë të tjerë të
përpunimit të gjuhës natyrore.
Në Kreun 5 paraqesim një prototip sistemi rekomandimi në lidhje me artikuj
shkencorë të shkruar në gjuhën shqipe [36]. Si bashkësi të dhënash testuese përdoren
artikujt shkencorë në shqip të publikuar në Buletin e Shkencave të Natyrës, botim
periodik shkencor i Fakultetit të Shkencave të Natyrës, Universiteti i Tiranës. Rezul-
tatet e arritura mbështesin fizibilitetin e ndërtimit të sistemeve të rekomandimit për
dokumente në shqip edhe në skenarë që përfshijnë dokumente të tjera (jo artikuj
shkencorë).
Në Kreun 6 është prezantuar një prototip sistemi që dallon në mënyrë automatike
temat e artikujve të lajmeve në sqip të botuara nga media të ndryshme online [31].
Puna kërkimore e paraqitur në këtë kre, përfshin një metrikë të posaçme në lidhje
me grupimin e lajmeve. Si rezultat krijohet një bashkësi të dhënash të etiketuara me
mbi 300 mijë lajme. Konkretisht lajmet në këtë bashkësi të dhënash janë të grupuara
sipas temave, përmbajnë të dhëna shoqëruese të mbledhura nga versioni i tyre në
internet, si dhe janë të etiketuara me entitete të emëruara (persona, vendndodhje,
organizata).
Disertacioni përmbyllet me rezulatet dhe përfundimet e paraqitura në Kreun 7.
3
Kreu 2
Baza Teorike
Në këtë kre do të trajtohen konceptet kryesore në lidhje me punën kërkimore të
paraqitur në këtë disertacion. Trajtimi ka qëllim kategorizues (jo shterues). Në kretë
e mëposhtme gjenden aplikime konkrete të koncepteve të përmendura në këtë kre.
2.1 Përpunimi Kompjuterik i Gjuhës Natyrore
Përpunimi kompjuterik i gjuhës natyrore (gjuhës së folur dhe shkruar nga njerëzit)
është një nga aplikimet më të rëndësishme të informatikës [37]. Në ditët e sotme,
sistemet informatike po synojnë gjithnjë e më tepër të ofrojnë shërbime inteligjente
që shkurtojnë kohën e duhur për të realizuar veprime të ndryshme të përditshmërisë,
pa cënuar cilësinë e rezultateve. Shembujt mund të gjenden që tek analiza e të
dhënave të panumërta të krijuara çdo ditë nga njerëzit në internet (p.sh. në mediat
sociale dhe mediat online) deri tek agjentët virtualë që synojnë të shkurtojnë kohën e
gjetjes së informacionit në shërbime online të ndryshme (p.sh. kërkesa për një anullim
të një rezervimi të një pakete turistike). Gjithashtu, përpunimi kompjuterik i gjuhës
natyrore është nga mundësuesit kryesorë të sistemeve të gjetjes së informacionit [53],
temë kryesore e këtij disertacioni.
Në këtë nënkre do paraqesim konceptet kryesore në lidhje me përpunimin kom-
pjuterik të gjuhës natyrore si dhe gjendjen aktuale të zhvillimeve në lidhje me këtë
drejtim. Edhe pse përpunimi kompjuterik përfshin gjuhën e shkruar dhe të foluar [37],
4
do të limitohemi tek gjuha e shkruar për shkak të fokusit të këtij disertacioni.
2.1.1 Zinxhiri i Përpunimit
Përpunimi i gjuhës natyrore mund të përshkruhet si një zinxhir i përbërë nga hallka
të ndryshme përpunimi që kalojnë rezultatet e njërës si input tek hallka e rradhës
(Figura 2-1).
Hallka 1 ... Hallka n-1 Hallka n
Figura 2-1: Zinxhiri i përpunimit të gjuhës natyrore
Hallkat variojnë në varësi të problemit që po tentohet të zgjidhet. Disa nga hallkat
më të zakonshme janë:
1. Dallimi i gjuhës (language identification). Ka të bëjë me përcaktimin e gjuhës
në të cilën është shkruar një dokument [32]. Kjo mund të jetë e dobishme për
hallkat e mëtejshme, pasi disa prej tyre varen nga specifikat e gjuhës në fjalë.
Gjithashtu nëse puna është e fokusuar tek dokumente në një gjuhë të vetme,
dallimi i gjuhës mund të rrisë performancën duke mënjanuar dokumente që
nuk janë të shkruara në gjuhën në fjalë (kjo ndodh rëndom në nëse jemi duke
përpunuar dokumente të publikuara në internet, të pa sistemuara paraprakisht).
2. Copëzimi (tokenization). Teksti i shkruar ndahet në copëza elementare të cilat
do përpunohen nga hallkat e mëvonshme [94]. Në këtë fazë mjaftohemi me
ndarjen në copa, pa u etiketuar ende në lidhje me rolin konkret që luajnë në
tekstin e shkruar. Duke qenë se rregullat e formimit të fjalëve dhe fjalive variojnë
në gjuhë ndryshme, ky është një proces që varet nga gjuha konkrete.
3. Etiketimi i pjesëve të ligjëratës (part-of-speech tagging, PoS. Copëzat e iden-
tifikuara të tekstit etiketohen në lidhje me rolin që luajnë në ligjeratë (lid-
hëza, emra, folje, etj.) [88]. Bashkësia e kategorive të etiketave merr nuanca të
ndryshme në varësi të kontekstit [37]. Kjo është një hallkë e rëndësishme që
5
mundëson analizën e fjalive si dhe uljen e përllogaritjeve të mundshme që mund
të nevojiten në aplikime si gjetja e informacionit [53].
4. Dallimi i entiteve të emëruara (named entities recognition NER). Ka të bëjë
me dallimin (etiketimin) e emrave të përveçëm (vendndodhje gjeografike, or-
ganizata, njerëz, etj.) në tekste të shkruara. Mundëson skenarë të ndryshëm
sistemesh inteligjente si dhe ndihmon në identifikimin e semantikës (kuptimit)
të fjalive në një tekst, duke u përqendruar tek marrëdhëniet konkrete midis
entiteve të tilla në tekst [33,37]
2.1.2 Algoritmet e Përpunimit
Jurafski dhe Martin [37] vënë në dukje që pavarësisht natyrës së gjerë të problemit,
zhvillimet disa vjeçare në fushën e përpunimit të gjuhës natyrore kanë prodhuar një
numër të kufizuar metodash të bazuara kryesisht në koncepte themelore të matem-
atikës dhe informatikës.
Hapi i parë në pothuajse çdo detyrë (p.sh. identifikimi i gjuhës) është përfaqësimi i
tekstit të shkruar në një formë matematikore / informatike të përpunueshme kompju-
terikisht. Për këtë mund të përdoren elementë si shpeshtësisa e fjalëve / shkronjave,
n-grams, makina me gjendje (state machines), pemë sintaksore, etj. Një model shumë
i përhapur janë dhe hapësirat lineare (vector spaces).
Një mbështetje shumë e gjerë në përpunimin kompjuterik të gjuhës natyrore
vjen nga modelet probabilistike. Ato mund të aplikohen në pothuajse çdo hallkë
të përpunimit të gjuhës duke u shfaqur kryesisht nëpërmjet "të mësuarit të makinës"
(machine learning). Dallojmë dy lloje kryesore: klasifikuesit (përdoren gjerësisht në
etiketime të ndryshme) si dhe zinxhirët e Markovit përfshirë modele të entropisë mak-
simale [43, 46,54, 96]. Shumica e këtyre metodave janë të supervizuara, mbështeten
mbi korpuse dokumentesh të etiketuara nga njerëz (preferohet ekspertë të fushës). Si
rrjedhojë suksesi i tyre varet nga disponueshmëria e korpuseve të tilla për gjuhën në
fjalë. Për gjuhët e "mëdha", ato janë përgjithësisht të disponueshme, por kjo në të
shumtën e rasteve nuk është e vërtetë për gjuhët me pak folës në botë, duke përfshirë
6
dhe shqipen [33, 76].
2.2 Gjetja e Informacionit
Gjetja e informacionit (information retrieval) është fokusi kryesor i këtij disertacioni.
Disiplina ka të bëjë me çështje si: gjetja e dokumenteve që përmbajnë informacionin
që i nevojitet përdoruesit (në një koleksion të madh dokumentesh), shkurtimi i kohës
së kërkimit nëpërmjet rekomandimeve inteligjente (p.sh. bazuar tek preferencat e
përdoruesit).
Si problem ka lindur që përpara kompjuterëve apo internetit, duke u konkretizuar
në sistemet e skedimit në librari fizike. Megjithatë popullariteti dhe nevoja kryesore
për përmirësim të këtyre teknikave u zhvillua paralelisht me ecurinë e internetit dhe
rritjes së informacionit të gjendur në të në forma të ndryshme.
Në ditët e sotme shembulli më i përdorur i sistemeve të informacionit janë motorët
e kërkimit, megjithatë skenarët e përdorimit nuk janë të kufizuar aty, duke përfshirë
dhe përmirësuar ndjeshëm cilësinë e shërbimit në sistemet e tregtisë elektronike, të
informimit, etj.
Në këtë nënkre do trajtohen konceptet dhe aplikimet kryesore të gjetjes së infor-
macionit.
2.2.1 Përcaktime Bazë
Rasti më përfaqësues i problemit të gjetjes së informacionit është identifikimi i të
gjithë dokumenteve (nga një koleksion i madh dokumentesh) që përmbajnë infor-
macionin e nevojshëm për përdorues të caktuar. Informacioni i nevojshëm mund të
përcaktohet si një ose disa fjalë (tema) të caktuara. Këto mund të përcaktohen në
mënyrë eksplicite (të shprehura nga vetë përdoruesit) ose implicite (të identifikuara
në mënyrë inteligjente nga sistemi). Dokumentet në fjalë mund të jenë të struktu-
ruara (baza të dhënash informatike) ose të pastrukturuara (faqe interneti, postime
në mediat sociale, etj.). Rasti i fundit është më i zakonshmi kur flasim për gjetje
informacioni si një term përshkrues i fushës përkatëse të informatikës.
7
Për të realizuar qëllimin e mësipërm, nevojitet një mënyrë përfaqësimi kompjuterik
(matematikor) e dokumenteve si dhe një metrikë ngjashmërie e përshtatshme [53].
Pavarësisht përfaqësimeve dhe metodave të ndryshme të paraqitura në literaturë dhe
praktikën e përditshme të industrisë, dy mjetet kryesore që i kanë mbijetuar viteve
janë "modeli i hapësirës lineare" dhe "ngjashmëria e bazuar në kosinus".
Modeli i Hapësirës Lineare
Modeli i hapësirës lineare (vector space model) [74] i paraqet dokumentet dhe kërke-
sat për informacion në të njëjtën hapësirë lineare. Si bazë e saj përdoret bashkësia e
të gjithë copëzave / termave (fjalë, sekuenca shkronjash, etj.) të mundshme të kolek-
sionit të dokumenteve në fjalë. Vektorët e kësaj hapësire përmbajnë vlera buleane (0,
1) që shprehin prezencën ose jo të një elementi të bazës, ose mund të jenë të peshuara
(p.sh. sipas shpeshtësisë së hasjes në dokument: 𝑡𝑓𝑑,𝑡, ose shpeshtësisë së hasjes në
koleksionin e dokumenteve siç përshkruhet më poshtë).
Nëse konsiderojmë dy fjalitë e mëposhtme:
Dokumenti1: Studentët e Fakultetit të Shkencave të Natyrës vizituan Parkun
Kombëtar të Dajtit.
Dokumenti2: Parkut të madh të Tiranës ju shtuan 300 pemë të reja.
Paraqitja vektoriale e tyre do ngjante si në Tabelën 2.1 (matrica term-dokument,
vlerat e vektorëve janë peshuar sipas shpeshtësisë së paraqitjes së tyre në dokument).
Siç duket nga paraqitja, peshimi sipas shpeshtësisë së fjalëve në dokument i rrit
rëndësinë fjalëve më të shpeshta të gjuhës (lidhësave në rastin konkret). Rrjedhimisht
kjo mund të na largojë nga qëllimi i gjetjes së informacionit, duke i dhënë rëndësi
fjalëve që nuk përmbajnë kuptimin themelor të fjalisë. Situata mund të përmirësohet
duke i përpunuar paraprakisht dokumentet, p.sh. të hiqen të gjithë fjalët më të
shpeshta të gjuhës ose duke përdorur një peshim që ju ul rëndësinë fjalëve më të
shpeshta në koleksionin e dokumenteve nën shqyrtim.
Një indeks i tillë i mundshëm është IDF [53], i realizuar nëpërmjet një peshimi të
tillë:
8
𝑖𝑑𝑓𝑡= log 𝑁
𝑑𝑓𝑡
Pra përllogaritet në shkallë logaritmike raporti i numrit total të dokumenteve me
numrin e dokumenteve që përmbajnë një term të caktuar (𝑑𝑓𝑡). Në këtë rast, pesha
e elementëve të vektorit që u përkasin termave më të shpeshta në gjithë koleksionin
do jetë më e ulët.
Dokumenti 1 Dokumenti 2
e1 0
2 2
Parkun(t) 1 1
Natyrës 1 0
Studentët 1 0
... ... ...
Tabela 2.1: Shembull matrice term-dokument
Në fakt peshimi që përdoret më gjerësisht në industri [31,36] është 𝑡𝑓-𝑖𝑑𝑓 :
𝑡𝑓-𝑖𝑑𝑓𝑡,𝑑 =𝑡𝑓𝑑,𝑡 ×𝑖𝑑𝑓𝑡
Ky peshim prodhon vlera të larta për termat që hasen më shpesh në një dokument,
por më rrallë në të gjithë koleksionin e dokumenteve.
Pavarësisht nga peshimi i përdorur, ngjashmëria midis dokumenteve mund të llog-
aritet duke përdorur ngjashmërinë e bazuar në kosinus (cosine similarity) [53]:
𝑐𝑜𝑠𝑖𝑛𝑒_𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝐴, 𝐵) =
𝐴·
𝐵
𝐴
𝐵
=𝑛
𝑖=1 𝐴𝑖𝐵𝑖
𝑛
𝑖=1𝐴2
𝑖𝑛
𝑖=1 𝐵2
𝑖
Kjo metrikë ngjashmërie mat kosinusin e këndit midis dy vektorëve në hapësirë,
si rrjedhojë një vlerë më e madhe tregon një kënd më të ngushtë (vektorët janë më të
ngjashëm). Në mënyrë të ngjashme mund të matet ngjashmëria midis dokumenteve
dhe kërkesave për informacion (query), mjafton që dhe kërkesa në fjalë të paraqitet
9
si një vektor i të njëjtës hapësirë lineare.
2.2.2 Mjete dhe Metoda Mbështetëse
Sistemet e gjetjes së informacionit mbështeten gjerësisht tek metodat e përpunimit
kompjuterik të gjuhës natyrore (nënkreu 2.1 më sipër). Gjithsesi përveç tyre ekzisto-
jnë dhe mjete / metoda specifike për skenarët e sistemeve të gjetjes së informacionit.
Rrënjëzuesit (stemmers)
Në shembullin e Tabelës 2.1 mund të vihet re që fjala "park" paraqitet në dy forma të
ndryshme (rasa): parkun dhe parkut. Nëse do ruheshin të gjithë format e mundshme
të një fjale si terma të matricës term-dokument do të rritej në mënyrë të panevo-
jshme dimensioni i saj si dhe do të largoheshim nga rezultati i pritur. Konkretisht
pavarësisht nga trajta në të cilën paraqitet fjala "park", kuptimi është i njëjtë.
Në sistemet e gjetjes së informacionit, mjeti që realizon shndërrimin e fjalëve në
rrënjën e tyre quhet rrënjëzues (stemmer). Ndërsa për gjuhët e mëdha ekzistojnë prej
vitesh rrënjëzues me cilësi shumë të lartë të provuar nga përdorimi disa vjeçar i tyre
në sisteme të ndryshme [39, 67], fatkeqësisht për shqipen ende nuk kemi një të tillë
në momentin që po shkruhet ky disertacion.
Për gjuhën shqipe, gjatë punës kërkimore në lidhje me këtë disertacion u iden-
tifikuan dy variante të rrënjëzuesve të raportuara në literaturë [40, 73]. Të dy janë
zhvilluar me qasje të bazuar në rregulla (rule based) të përcaktuara duke shfletuar
librat në lidhje me morfologjinë dhe drejtshkrimin e gjuhës shqipe. Të dy qasjet në
fjalë nuk përdorin më shumë se një hap në heqjen e prapashtesave dhe parashtesave
të fjalëve. Në kretë e mëposhtëm kemi eksperimentuar me një version të modifikuar
të [73] që rrënjëzon fjalët me më shumë se një kalim.
Indekset
Sipas Nielsen [63], nëse përgjigja e sistemit vonon më shumë se 1 sekondë, përdoruesit
fillojnë të mendojnë që diçka nuk po funksionon, ndërkohë që pas 10 sekondash pjesa
10
dërrmuese e tyre e braktis veprimin që po tentonte të kryente.
Për këtë arsye sistemet e gjetjes së informacionit mbështeten gjerësisht në arkitek-
tura softuerike që mundësojnë një performancë të shpejtë të tyre. Konkretisht, nëse
do përdorim ngjashmërinë e bazuar në kosinus (të paraqitur më lart) si metrikë për
të identifikuar dokumentet që mbulojnë më mirë një kërkesë për informacion, proce-
set e llogaritjes së ngjashmërisë me çdo dokument dhe rradhitja përfundimtare janë
të kushtueshme. Megjithatë indekset tf-idf dhe ngjashmëria e bazuar në kosinus
mbeten ende mjetet më të përdorura nga sistemet e gjetjes së informacionit prezente
prej vitesh në industri1.
Kowalski [44] vë në dukje që mënyra standarde që ndiqet nga shumica e sistemeve
të gjetjes të informacionit është limitimi i listës së dokumenteve relevante që kthehen
nga sistemi. Kjo do të thotë që në momentin që janë gjetur të paktën një numër
X dokumentesh mbi një prag të caktuar ngjashmërie, nuk kërkohet më për të tjera.
Ky kufizim ndihmon në rastet kur kërkimi kryhet mbi një numër të konsiderueshëm
dokumentesh (miliona). Pavarësisht kufizimit të mësipërm, për të përmirësuar ekspe-
riencën e përdoruesve mund të përafrohet numri total i dokumenteve që pritet të
plotësojnë kriteret e kërkimit.
Në rastin e sistemeve që përpunojnë të dhëna të mëdha, si p.sh. motorët e
kërkimit, përdoren arkitektura softuerike të mbështetura nga shumë grupime serverash
harduerik [7] (Figura 2-2).
Grupimi
Metrikat e ngjashmërisë mund të përdoren për të grupuar (cluster) bashkë doku-
mente të ngjashme. Qëllimi kryesor është ulja e mbingarkesës së informacionit duke
ndihmuar në fokusimin e shpejtë të përdoruesve tek ajo që kanë më shumë in-
teres [31,36,44]. Mund të grupohen rezultatet e kërkimit, dokumente të rekomanduara
nga sisteme rekomandimi, apo thjesht paraqitja e listës së dokumenteve në kontekste
shfletuese (p.sh. në sistemet online të ofrimit të lajmeve).
Në dallim nga grupimi i pasupervizuar i përdorur zakonisht në algoritmet e mësimit
1https://lucene.apache.org/core/3_5_0/scoring.html
11
Figura 2-2: Arkitektura e motorit të kërkimit Google [7].
të makinës [77], në kontekstin e gjetjes së informacionit dokumentet "bërthamë" nuk
përzgjidhen rastësisht, por përvijëzohen në lidhje me kërkesat për informacion të
paraqitura (ose zbuluar automatikisht) nga përdoruesit.
Grupimi mund të kryhet në kohë reale (gjenden dokumente të ngjashme me një
dokument të dhënë gjatë momentin të shfaqjes së rezultateve të kërkimit), ose i par-
allogaritur. Në rastin e fundit dokumentet indeksohen të grupuara paraprakisht dhe
kërkimi fokusohet tek përfaqësues të këtyre grupimeve. Në këtë mënyrë përshpejtohet
dhe performanca e algoritmeve të kërkimit duke qenë se ulet numri i dokumenteve të
cilave duhet t’u llogaritet ngjashmëria me kërkesën për informacion.
Në rastet kur kemi të bëjmë me dokumente që prodhohen vazhdimisht përgjatë
një intervali kohor (p.sh. lajmet përgjatë ditës për një ngjarje të ndodhur), dobi të
veçantë shfaq grupimi inkremental [8]. Në këtë rast çdo dokument i ri që paraqitet për
indeksim (përpunim) krahasohet me përfaqësues të grupimeve ekzistuese. Bazuar tek
një prag ngjashmërie i caktuar paraprakisht, nëse asnjë prej tyre nuk është mjaftuesh-
12
mërisht i ngjashëm me dokumentin në fjalë, atëherë krijohet një grupim i ri me doku-
mentin në fjalë të përdorur si bërthamë (Algoritmi 1). Grupimi inkremental mund të
kufizohet dhe brenda një kornize kohore të paracaktuar [58].
Algoritmi 1: Grupimi inkremental i dokumenteve
Rezultati: Përcaktimi i grupimit të dokumentit që po përpunohet
dokument = dokumentiIrradhës();
rezultatet = [];
pragu = pragu i ngjashmërisë;
për çdo grupim ekzistues bëj
llogarit ngjashmërinë kosinus;
shtoje tek rezultatet;
përfundo
rradhit rezultatet në rend zbritës;
kreu = rezultatet[1];
nqs kreu.vlera >= pragu ath
caktoji lajmit grupimin kreu.grupimi;
përndryshe
krijo një grupim të ri me dokumentin në fjalë si bërthamë;
përfundo
2.2.3 Sistemet e Rekomandimit
Sistemet e rekomandimit kanë krijuar një revolucion në sistemet e gjetjes së informa-
cionit në dy dekadat e fundit. Qëllimi kryesor është shkurtimi i kohës së gjetjes së
informacionit si dhe ofrimi i një alternative tjetër kërkimi të ndryshme nga kërkesat
e shprehura në mënyrë tekstuale (fjalë kyçe, fjali). Aplikimet janë kryer në industri
të ndryshme si tregtia elektronike, mediat online, libraritë akademike [10,25, 79].
Rekomandimi në këto sisteme realizohet nëpërmjet modeleve të profileve të për-
doruesve, modeleve të përmbajtjes, si dhe një algoritmi shfrytëzues të tyre [45]. Ekzis-
tojnë tre qasje bazë të këtyre algoritmeve [16,36]:
1. Rekomandimi i bazuar në përmbajtje. Në këtë rast rekomandimi shfrytëzon
përshkrimet e përmbajtjes dhe preferencave të përdoruesve për të bërë lidhjen
midis tyre [65]. Modeli më i zakonshëm është ai i hapësirave lineare (shiko
13
nënkreun 2.2.1). Në këtë rast përmbajtja dhe profilet e përdoruesve modelohen
si vektorë të së njëjtës hapësirë, duke mundësuar kështu përdorimin e ngjash-
mërisë kosinus për të dalluar afërsinë midis tyre. Profilet e përdoruesve mund
të përcaktohen në mënyrë eksplicite (të shprehura nga vetë përdoruesit) ose
implicite (të dalluara nga sjellja e tyre në sistem, p.sh. vizitat e mëpashtme në
një faqe interneti) [45].
2. Filtrimi bashkëpunues (collaborative filtering). Rekomandimi në këtë rast bazo-
het tek preferencat e përdoruesve të tjerë të ngjashëm të sistemit [29]. Supozimi
bazë është që përdorues të ngjashëm, kanë preferenca të ngjashme. Modelimi
fokusohet kryesisht tek tiparet përshkruese të përdoruesve që do përfshihen në
model. Si mjet teknik mund të përdoret përsëri hapësira lineare, por ka dhe
qasje të të tjera të bazuara në grafe [59].
3. Qasje hibride e rekomandimit. Në këtë qasje kombinohen dy qasjet e mësipërme
ose qasje të tjera të mundshme, p.sh. rekomandimi i bazuar në njohuri. [16].
Arsyeja kryesore e kombinimit ka të bëjë me faktin që qasjet e bazuara në
profilet e përdoruesve kërkojnë që sistemi të ketë një numër të konsiderueshëm
përdoruesish për të marrë rezultate cilësore. Në fazat e para të përdorimit të
një sistemi informatik kjo nuk është e mundur.
Duke marrë parasysh aplikimet e gjera në industri, kërkimi në lidhje me sistemet
e rekomandimit është gjithmonë aktiv. Puna kryesore fokusohet tek kombinimi i
mënyrave të ndryshme të rekomandimit (qasjet hibride). Megjithatë, në mungesë të
një historiku përdorimi, apo të dhënave publike nga sisteme të tjera, qasja e parë që
përdoret është rekomandimi i bazuar në përmbajtje.
Për shkak të përllogaritjeve të rënda që nevojiten në ndihmë të qasjeve të ndryshme
të rekomandimit, tradicionalisht shumica e tyre janë kryer paraprakisht (offline). Pra
gjatë përdorimit të sistemit të gjetjes së informacionit, përdoruesve ju paraqiten reko-
mandime të parallogaritura. Zhvillimet teknologjike të kohëve të fundit kanë mundë-
suar skenarë të rekomandimit në kohë reale [20]. Në momentin e shkrimit të këtij
14
disertacioni kjo është ende një temë aktive kërkimore që shkon në të njëjtën linjë me
arritjen e pjekurisë të sistemeve që përpunojnë rrjedha të dhënash [18].
2.2.4 Metoda Vlerësimi
Mënyra kryesore si realizohet vlerësimi (evaluation) i saktësise dhe efikasitetit të një
sistemi të gjetjes së informacionit është nëpërmjet një koleksioni testues. Manning et
al. [53] vënë në dukje elementët që duhet të përmbajë ai:
Një koleksion dokumentesh
Kërkesa për informacion që paraqesin nevojën konkrete për informacion (queries)
Për çdo çift kërkesë/dokument duhet të kemi një të dhënë nëse dokumenti në
fjalë ka informacion për kërkesën përkatëse ose jo (zakonisht në formë binare
0/1).
Të dhënat e mësipërme mund të interpretohen në varësi të situatës konkrete që
është në shqyrtim. Mungesa e tyre sjell në vështirësi të vlerësimit cilësor të një sistemi
gjetje informacioni. Metrikat më të zakonshme bazuar tek elementët e mësipërme
janë [53]:
Saktësia (precision), pjesa e dokumenteve të kthyera nga sistemi (rezultati) që
kanë lidhje me kërkën për informacion.
Saktësia (P) =Numri i rezultateve që kanë lidhje me kërkesën
Numri total i rezultateve të kthyera
Kthimi (recall), pjesa e dokumenteve me lidhje me kërkesën (në koleksionin e plotë
dokumenteve) që u kthyen si rezultate.
Kthimi (R) =Numri i rezultateve që kanë lidhje me kërkesën
Numri total i rezultateve të mundshme që kanë lidhje me kërkesen
Këto metrika mund të shprehen në përqindje ose si vlera nga 0 në 1. Rëndësia
e njërës apo tjetrës varet nga problemi konkret. Jo gjithmonë është e nevojshme që
15
të kthehen të gjithë rezultatet e mundshme në lidhje me një kërkesë, p.sh. të gjithë
recetat e gatimit që përdorin domate në to, nga ana tjetër në rastin e një kërkese për
të gjithë personat e vaksinuar me një vaksinë të caktuar, kthimi duhet të jetë i lartë.
Shpesh përdoret dhe një metrikë e kombinuar e dy të mësipërmëve:
𝐹1=2𝑃 𝑅
𝑃+𝑅
Në këtë rast sistemi vlerësohet në lidhje me të dy metrikat e mësipërme njëkohë-
sisht.
2.3 Dallimi i Temave të një Dokumenti
Në kontekstin e gjetjes së informacionit, është shpesh e nevojshme të etiketojmë
automatikisht dokumentet në lidhje me temat që ato trajtojnë [14, 82]. Në këtë rast
kemi të bëjmë me një lloj grupimi (i përmendur më sipër). Ndryshimi qëndron në
faktin që të grupohen dokumentet në lidhje me ngjashmërinë e bazuar në përmbajtjen
e plotë tekstuale të tyre, fokusohemi tek tematika që ato trajtojnë.
Nëse marrim si shembull një sistem gjetje informacioni në ndihmë të shfletimit
të lajmeve, temat mund të jenë që nga kategori të përgjithshme si sport, politikë,
ekonomi, etj., deri tek tema me një rreze më të ngushtë si "lëvizje të bursës", "vizita
të një politikani të huaj", "finale kompeticionesh sportive", etj.
2.3.1 Përcaktimi Formal
Problemi i parë që haset për të identifikuar temat, është formalizimi i problemit.
poshtë do të përshkruajmë një formalizim të kryer nga Stein dhe Myer [82].
Nëse 𝐷është një bashkësi dokumentesh, mund të ndërtohet një kategorizim 𝒞=
{𝐶|𝐶𝐷}që plotëson kushtin 𝐶𝑖𝐶𝐶𝑖=𝐷. Elementët a bashkësisë 𝒞quhen
kategori. Kategorizimi mund të quhet eskluziv nëse 𝐶𝑖𝐶𝑗̸=𝑖=, ku 𝐶𝑖, 𝐶𝑗𝐶, pra
nuk ka prerje midis dy kategorive, dhe nëse ky kusht nuk plotësohet atëherë quhet jo
eskluziv. Kjo e fundit reflektohet shumë mirë në rastin kur një kategori mund të ketë
16
nënkategori të saj.
Nuk duhet të ngatërrohemi nga përdorimi i termit kategorizim më sipër. Edhe
pse ngjan me problemet e klasifikimit, si një nga aplikimet e mësimit të makinës, në
rastin e identifikimit të temave të një dokumenti, kategoritë nuk dihen paraprakisht.
Pra pjesë e problemit është pikërisht identifikimi i këtyre kategorive (temave).
Vijojmë me përshkrimin formal të ofruar nga Stein dhe Myer [82].
Dokumentet, pra elementët e 𝐷janë abstragime të dokumenteve konkrete 𝑑𝑖me
anë të një mekanizmi matematikor. Duke përcaktuar si 𝑊𝑑bashkësinë e termave të një
dokumenti 𝑑, duhet përdorur një funksion që i shndërron këto terma në numra reale
pozitive. Për këtë mund të përdoren funksionet e peshimit të termave përshkruara
tek nënkreu 2.2.1.
Nëse 𝑊=𝑑𝐷𝑊𝑑është bashkësia e të gjithë termave të mundshme të kolek-
sionit të dokumenteve, për problemin e identifikimit të temave, duhet përcaktuar një
funksion 𝜏që për çdo kategori 𝐶∈ 𝒞 përcakton një bashkësi 𝑇𝐶𝑊. Ky funksion
njihet si etiketim:
𝜏(𝐶)↦→ 𝑇𝐶
Pra, problemi i identifikimit përdor shprehjen e dokumenteve si lista me terma të
peshuara dhe fokusohet pikërisht tek përcaktimi i funksionit 𝜏, i cili cakton një listë
me terma që përcaktojnë një temë të caktuar.
Për ta ilustruar këtë formalizim, le të marrim një shembull. Le të konsiderojmë
këtë pjesë të një artikulli lajmi:
Sot mbyllet faza e 1/8 e Euro 2020 me një klasike të futbollit
evropian. Në mitikun “Wembley” duke nisur nga ora 18:00 Anglia
dhe Gjermania përballen në betejën e radhës. Gjermania humbjen e
fundit në këtë stadium ndaj Anglisë e ka në finalen e Botërorit në
1966-të dhe që atëherë ka fituar 5 e barazuar dy nga shtatë ndeshjet
17
me Anglinë në “Wembley”. Por “tre luanët” duan të bëjnë historinë
dhe i kanë të gjitha mundësitë. Anglia ende nuk ka pësuar gol në këtë
evropian dhe trajneri Gareth Southgate deklaron: Është shumë herët
për një Angli-Gjermani por për skuadrën time është një mundësi e
artë për të bërë historinë”. Anglia e mbylli në vend të parë në grupin
D dhe pritet që titullar të rikthehet Foden, të konfirmohet Saka e të
luajë në mesfushë Henderson. Gjermania ka historinë në favor por nuk
ka treguar qëndrueshmëri në ndeshjet e grupit dhe mbi skuadrën janë
ngritur shumë pikëpyetje.”.
Në këtë dokument, mund të dallohen tema të tilla:
Tema 1: stadium humbje histori ndeshje
Tema 2: euro 2020 angli gjermani
Pra një listë (vektor) termash (në fakt, termat zakonisht më parë u nënshtrohen
rrënjëzimit paraprakisht) përcaktojnë një temë. Numri i termave që përcaktojnë një
temë përgjithësisht konfigurohet në mënyrë heuristike.
Është e mundur që vektorët e temave të përdoren dhe për të implementuar metrika
ngjashmërie, siç veprohet edhe për vektorët e dokumenteve.
2.3.2 Modelimi i Temave
Në nënkreun e mësipërm treguam që një temë e një dokumenti mund të paraqitet si
një grup termash të tij. Ekzistojnë mënyra të ndryshme se si mund përzgjidhet ky
grup termash, madje ky supozim është mjaft thjeshtëzues. Pra supozohet që tematika
e një dokumenti fshihet pas shpeshtësisë së fjalëve dhe metrikave të lidhura me të në
sistemet e gjetjes së informacionit.
Në fakt ekzistojnë dhe metoda probabilistike / statistikore që tentojnë të dallo-
jnë kuptime të fshehura në një dokument (tema). Në këtë rast kemi të bëjmë me
18
të ashtuquajturin "modelim të temave" (topic modeling) [14]. Kur përdoren këto
metoda, nuk është gjithnjë e dukshme nga një shfletues njerëzor se cila është tem-
atika përkatëse e identifikuar nga këto modele. Por nëse krahasohen dy dokumente
të ngjashme në lidhje me tematikën e zbuluar nga këto modele, mund të arsyetohet
mbi arsyen pse janë deklaruar si të ngjashme.
Pra këto metoda, nuk e bazojnë zbulimin e temave në perceptimin njerëzor, por
në llogaritje probablilitare / statistikore që mund të jenë dhe të aplikuara në metodat
e mësimit të makinës. Ideja kryesore e tyre ka të bëjë me probabilitetin e hasjes së
fjalëve të caktuara nëse dokumenti trajton një tematikë konkrete [2]. Më poshtë do të
përmendim dy prej tyre të cilat përdoren shpesh në sistemet e gjetjes së informacionit.
Analiza e Kuptimit të Fshehur (Latent Semantic Analysis, LSA)
Matrica term-dokument, ose versioni tf-idf i saj (shiko nënkretë më sipër) ka përmasa
relativisht të mëdha. Një problem i zakonshëm i saj është fakti që kjo matricë është
shumë e rrallë (sparse), ka terma që përmbahen nga vetëm pak dokumente, pra kolona
në matricë duhet të ekzistojë vetëm për to. Një zgjidhje mund të ishte që matrica
të kufizohet tek termat më të shpeshta, por kjo do të thotë që mund të humbasim
kuptimin e fshehur të dokumenteve, për të cilin mund të duhet të merren parasysh
të gjithë termat.
Analiza e kuptimit të fshehur (LSA) synon pikërisht këtë. Si fillim zvogëlohet
dimensioni i matricës term-dokument duke e zëvendësuar me një matricë me dimen-
sione të reduktura në të ashtuquajturën "hapësirë e fshehur" [30]. Synimi është që
krahasimet e mëtejshme në lidhje me ngjashmërinë midis dokumenteve, apo përkatës-
inë e një teme të kryhen në këtë hapësirë.
Zvogëlimi i dimensioneve realizohet nëpërmjet dekompozimit të vlerës së vlefshme
(singular decomposition, SVD) [92], pra me anë të faktorizimit të matricës term-
dokument.
Modeli probabilistik i analizës së kuptimit të fshehur, pLSA, është një modifikim
i LSA që ofrohet si model gjenerues probabilitar. Një tekst shprehet si lista e proba-
biliteteve të hasjes së secilës fjalë në të [2], në këtë mënyrë kemi një mekanizëm se si
19
mund të gjenerohet. Edhe në këtë rast mund të formohet një matricë me dimensione
të reduktuara.
Në matricat e ndërtuara nga ky model, ne vend të frekuencës së termave, ruhet
një vlerë që tregon "përkatësinë" e një dokumenti në një temë të caktuar. Pra sa më
e madhe të jetë kjo vlerë, aq më e madhe përkatësia në këtë temë.
Caktimi i Fshehtë i Dirikleut (Latent Dirichlet Allocation, LDA)
Edhe ky është një model gjenerues probabilitar. Pra paraqitet një metodë probabil-
itare për përftimin e një teksti të caktuar. Tematikat që preken nga një tekst i dhënë,
paraqiten si probabilitete përkatëse. Supozohet që ekziston një proces rasti që arrin
të prodhojë një dokument tekstual bazuar tek probabilitetet e dhëna [2,14].
Supozimi kryesor në këtë model është që një bashkësi dokumentesh përmend një
bashkësi të caktuar temash. Secili dokument mund të përmendi tema të ndryshme
me probabilitet të ndryshëm [14]. Nëse interesohemi për temën kryesore, do të kon-
trollonim për temën me probabilitet më të madh për t’u përmendur nga dokumenti
përkatës.
Në Figurën 2-3 paraqitet modeli probabilistik i LDA i paraqitur nga Blei [14], si
një trajtë alternative e paraqitjes nëpërmjet kësaj formule:
Në këtë model temat paraqiten si 𝛽1:𝐾, secila është një shpërndarje probabilitare
e fjalëve për temën përkatëse. Përkatësia e dokumentit 𝑑në një temë të caktuar ësh
shënuar si 𝜃𝑑dhe 𝜃𝑑,𝑘 jep përkatësinë e dokumentit 𝑑tek tema 𝑘(vlerë numerike reale).
Caktimi i temave për dokumentin 𝑑është shënuar si 𝑧𝑑, dhe konkretisht përkatësia në
një temë të caktuar e fjalës së 𝑛-të të dokumentit 𝑑shënohet si 𝑧𝑑,𝑛. E vetmja vlerë
e observuar është paraqitja e fjalëve në një dokument të caktuar, 𝑤𝑑,𝑛, fjala e n-të e
dokumentit d.
20
Figura 2-3: Modeli probabilistik i LDA [14].
Ajo çka realizon LDA nga pikëpamja përllogaritëse, është inxhinjerimi mbrapsht
i këtij procesi, sepse ato që duhet të zbulohen janë pikërisht tematikat që mbulon një
dokument.
21
Kreu 3
Identifikimi i Gjuhës Shqipe
Në këtë kre do të paraqesim punën kërkimore të publikuar në artikullin [32].
3.1 Përshkrimi i Problemit
Identifikimi i gjuhës është detyra e identifikimit kompjuterik të gjuhës në të cilën
është shkruar një dokument tekstual. Në ditët e sotme, interneti është i kudogjendur,
dhe në çdo kohë përditësohet informacion i larmishëm në gjuhë të ndryshme. Kjo
sasi e pamasë të dhënash dhe faktesh përpunohet nga sisteme të ndryshme gjetje
informacioni (motorë kërkimi, baza njohurish, sisteme rekomandimi, etj). Si rrjed-
hojë, identifikimi i gjuhës është një hap vendimtar dhe i rëndësishëm në zinxhirët e
përpunimit të gjuhës natyrore (nënkreu 2.1.1).
Qasjet e para të identifikimit të gjuhës shfrytëzonin faktin që fjalët e shkurtra më
të zakonshme kanë frekuenca të ndryshme në gjuhë të ndryshme. Ato u pasuan nga
qasje të bazuara në N-grame (sekuenca prej Nkarakteresh në një tekst).
Në ditët e sotme, mjetet e identifikimit të gjuhës kanë arritur një saktësi më të
madhe se 99%, për këtë arsye shumë autorë e konsiderojnë të zgjidhur këtë problem.
Megjithatë, për shkak se shumica e metodave të identifikimit të gjuhës janë të super-
vizuara, pra varen nga trajnime paraprake të modeleve me të dhëna te etiketuara, ka
ende interes hulumtimi i konfigurimeve më të mira për secilën gjuhë.
Pavarësisht se shqipja është një gjuhë indo-evropiane [52] e folur nga rreth 8 milion
22
njerëz në botë, mjetet themelore që adresojnë shqipen të zinxhirit të përpunimit të
gjuhëve natyrore ende mungojnë. Kjo rezulton në një pengesë të madhe në krijimin
e sistemeve cilësore të gjetjes së informacionit [34].
Në këtë kre do të vlerësojmë performancën e identifikimit të shqipes nga qasjet
më të zakonshme të identifikimit të gjuhës. Shumica prej tyre raportojnë një saktësi
të madhe në dallimin e shqipes, por eksperimentet e raportuara në literaturë janë
zhvilluar mbi bashkësi të dhënash "pa zhurmë" të cilat nuk reflektojnë morinë e
teksteve që gjendet në internet nga tekstshkrues në kontekste jo gjithnjë zyrtare
(p.sh. komunikimi në rrjetet sociale). Si shembull mund të marrim mos përdorimin
e shkronjave "Ë" dhe "Ç" duke qenë se tastierat për gjuhën shqipe nuk janë shumë
të përhapura.
3.2 Qasjet e Identifikimit të Gjuhës
Në këtë nënkre do të përshkruajmë qasjet më të zakonshme të identfikimit të gjuhës.
Fjalët e Shkurtra më të Zakonshme
Që në fillim të viteve 90’, Grefenstette [26] ka propozuar një qasje të identifikimit
të gjuhës të bazuar tek probabiliteti i hasjes së një fjale të shkurtër në një gjuhë të
caktuar. Qasja përdor profile gjuhësore ku ruhen fjalët më të shpeshta të shkurtra
për secilën gjuhë. Dobësia e kësaj qasje qëndron në faktin që saktësia për tekste të
shkurtra (më pak se 15 fjalë) ulet ndjeshëm.
Metodat e Bazuara në N-grame
N-gramet janë sekuenca prej Nkarakteresh të nxjerra nga një tekst. Duke qenë se
janë më pak të ndjeshme ndaj gabimeve drejtshkrimore dhe gramatikore, janë më të
përshtatshme për identifikimin e gjuhës të një teksti [55].
Cavnar dhe Trenkle [19] kanë publikuar punimin e parë në këtë kategori metodash.
Shumë punë të mëparshme janë adaptime të punës së tyre. Elementi kryesor i metodës
së tyre janë profilet gjuhësore të përbëra nga tabela hash të shpeshtësisë së n-grameve
23
të rradhitura në zbritje (n-gramet më të shpeshta janë në krye). Pasi krijohet një
profil i ngjashëm për tekstin që do testohet, llogaritet për çdo N-gram "distanca"
nga vendndodhja e tij në profilin gjuhësor (Figura 3-1). Shuma e këtyre distancave
përdoret më pas si metrikë për identifikimin e gjuhës.
Figura 3-1: Krahasimi i modeleve të n-grameve [19].
Saktësia mesatare e kësaj qasje raportohet si 99% për tekste me të paktën 300
karaktere dhe profile gjuhësore me 300 N-gramet më të shpeshta. Ngjashmëria e
raportuar për tekste më të shkurtra është 99,8% (pothuajse e njëjtë).
Versione të modifikuara të algoritmit të Cavnar dhe Trenkle paraqiten tek [55]
dhe [1]. Ato eksperimentojnë me metrika të tjera krahasimi të profileve të n-grameve.
Saktësia e arritur është pothuajse e njëjtë, por metrika e përdorur tek [1] performon
3-10 herë më shpejt.
Në literaturë janë raportuar dhe metoda të mësimit të makinës të aplikuara mbi
modele N-gramesh. Një nga mjetet moderne të identifikimit të gjuhës [60] përdor
kombinimin e një qasjeje të klasifikimit "naive Bayes" me disa teknika normalizimi për
të ulur "zhurmat" në bashkësitë e të dhënave testuese. Kjo ofrohet si librari e JAVA
dhe saktësia e raportuar është 99,8% për 49 gjuhë. Lui dhe Baldwin [50] pëshkruajnë
një të tillë të ofruar gjithashtu si një modul Python me kod burim të hapur [51]. Është
një qasje e të mësuarit të makinës që përdor një mësues "naive Bayes" multinomial.
Si veçori klasifikimi nuk përdoret sekuenca e N-grameve por një metrikë e teorisë së
informacionit (përftimi i informacionit) mbi N-gramet. Trajnimi i modelit bëhet duke
përdorur tekste nga fusha të ndryshme, në mënyrë që të minizohet rënia e saktësisë
kur klasifikohen dokumente jashtë fushave të koleksionit trajnues. Saktësia e arritur
24
ishte 99% dhe kohëzgjatja e identifikimit në mënyrë të konsiderueshme më e shpejtë
se qasjet e tjera të krahasuara.
Qasje të Tjera
Brown [15] ka propozuar një qasje të bazuar tek ngjashmëria kosinus me një saktësi
99,2% për tekste me maksimumi 65 karaktere. Madhësia e modelit trajnues kishte
3500 n-grame. Modeli i "shportës me fjalë" (matrica term-dokument, Tabela 2.1)
është shfrytëzuar nga [95] për të identifikuar gjuhën me një qasje të të mësuarit të
makinës. Saktësia e arritur në këtë rast ishte 96,8% ndërkohë që bazuar në eksperi-
mentet e kryera u vu re një saktësi e lartë në dallimin e varianteve të së njëjtës gjuhë
(p.sh. gjuha braziliane dhe portugeze).
3.3 Bashkësitë e të Dhënave Testuese
Për të vlerësuar performancën e qasjeve të ndryshme të identifikimit të gjuhës në
lidhje me shqipen kemi krijuar bashkësi të dhënash testuese në gjuhën shqipe që janë
shumë afër kushteve reale të hasjes së teksteve në përditshmëri.
Për këtë qëllim u mblodhën artikuj lajmesh nga dhjetë ofrues lajmesh në Shqipëri
dhe një në Kosovë. Ky i fundit u zgjodh për të siguruar dhe artikuj në dialektin
geg, pasi media në fjalë përdor eskluzivisht dialektin geg në lajmet e publikuara.
Lajmet në fjalë mbulojnë tema të ndryshme si politikë, showbiz, kulturë, ekonomi,
shëndetësi, etj. Artikujt u mblodhën duke bredhur faqet e internetit të tyre nëpërmjet
një programi të posaçëm. U siguruam që lajmet e grumbulluara të jenë unike, pa
duplikata, dhe secila prej tyre është verifikuar që është e shkruar në gjuhën shqipe.
Për të mundësuar eksperimentimin me tekste të shkurtra, për secilin artikull janë
veçuar titulli dhe përmbajtja. Në paragrafet vijuese përshkruhet në detaje secila
bashkësi të dhënash që është përdorur për eksperimentet e paraqitura në këtë kre.
Bashkësia e të dhënave 1 (D1). Përmban 4575 artikuj lajmesh të botuara në
Shqipëri. Këto lajme janë shkruar në shqipen standarde (e bazuar kryesisht në di-
alektin tosk), me fjalë të shkruara me drejtshkrim të saktë dhe sipas rregullave të
25
gramatikës.
Bashkësia e të dhënave 2 (D2). Këtu janë simuluar gabime drejtshkrimore të
shkronjave “Ë” dhe “Ç” të cilat vijnë si pasojë e mungesës së përdorimit të tastierave
shqip. Për këtë qëllim tek artikujt e D1 janë zëvendësuar shkronjat në fjalë me "E"
dhe "C" përkatësisht.
Bashkësia e të dhënave 3 (D3). Në këtë bashkësi të dhënash janë simuluar per-
sonat që i përdorin jo rregullisht shkronjat “Ë” dhe “Ç”. Për këtë qëllim, kemi zëvendë-
suar përsëri shkronjat në fjalë tek lajmet e D1 me shkronjat “E” dhe “C”, por këtë
herë zëvendësimi është kryer me probabilitet 0,5.
Bashkësia e të dhënave 4 (D4). Kjo bashkësi të dhënash përmban copëza të
përmbajtjes së lajmeve të D1 prej 500 byte. Artikujt me gjatësi më të vogël se 500
byte janë eleminuar. Në total ky dataset përmban 4178 artikuj lajmesh.
Bashkësia e të dhënave 5 (D5). Përmban 2192 artikuj të shkruara në dialektin
geg të shqipes.
Një paraqitje përmbledhëse e gjatësive të përmbatjes dhe titullit të artikujve të
lajmeve të bashkësive të të dhënave testuese gjendet në Tabelën 3.1.
Bashkësia e të Dhënave MIN MAX AVG
D1-D3 (Titulli) 5 183 65
D1-D3 (Përmbajta) 150 43988 2716
D4 500 500 500
D5 (Titulli) 17 148 63
D5 (Përmbajtja) 150 25496 800
Tabela 3.1: Gjatësia e titullit dhe përmbajtjes së artikujve të lajmeve në bashkësinë
e të dhënave testuese për identifikimin e gjuhës.
26
3.4 Eksperimentet dhe Rezultatet
Eksperimentet u zhvilluan me mjete me kod të hapur që implementojnë disa nga
qasjet e përmendura më sipër. TextCat1është një mjet që implementon algoritmin
origjinal të Cavnar dhe Trenkle [19]. WhatLang2është një implementim i qasjes të
bazuar në të mësuarit e makinës mbi profile N-gramesh të përshkruar nga Brown
[15]. LangDetect3është një librari JAVA e propozuar nga Shuyo [60] e cila përsëri
shfrytëzon mësimin e makinës dhe profile N-gramesh. Ndërkohë që qasja e bazuar
në mësimin e makinës e implementuar nga langid.py4, përveç veçorive të bazuara në
N-grame brenda një gjuhe, kombinon dhe veçori të nxjerra nga e gjithë bashkësia e
gjuhëve të mbështetura nga ky mjet [50].
Qëllimi kryesor është të përcaktohen metodat dhe konfigurimet përkatëse që ar-
rijnë saktësinë më të madhe në identifikimin e shqipes në dokumente të shkruara në
shqip të gjendura në internet.
3.4.1 Identifikimi i shqipes standarde të shkruar saktë
Në këtë eksperiment u përdor bashkësia e të dhënave D1. Rezultatet paraqiten në
Tabelën 3.2. Mjetet që performuan më mirë ishin LangDetect and langid.py.TextCat
performoi shumë keq në tekste të shkurtra (titujt e lajmeve), ndërkohë që mjeti që
performoi më mirë në këtë drejtim ishte LangDetect. Rezultatet tregojnë që qasjet e
bazuara në të mësuarit e makinës kanë arritur saktësi më të lartë.
MJETI TITULLI PËRMBAJTJA
LangDetect 0,9593 0,9996
langid.py 0,9454 0,9996
TextCat 0,1657 0,9604
WhatLang 0,8997 0,9993
Tabela 3.2: Saktësia në identifikimin e shqipes standarde të shkruar saktë.
1https://www.let.rug.nl/vannoord/TextCat/
2https://sourceforge.net/projects/la-strings/
3https://github.com/shuyo/language-detection/blob/wiki/ProjectHome.md
4https://github.com/saffsd/langid.py
27
3.4.2 Tekstet shqip që nuk përmbajnë "Ë" dhe "Ç"
Në këtë eksperiment u përdor bashkësia e të dhënave D2 dhe të njëjtat mjete të
përmendura më sipër. Rezultatet paraqiten në Tabelën 3.3. Rezultatet janë ndikuar
ndjeshëm nga mungesat e shkronjave në fjalë. Kjo është më e dukshme tek titulli i
lajmeve. Arsyeja mund të ketë të bëjë me faktin që profilet gjuhësore të mjeteve në
fjalë janë ndërtuar duke përdorur dokumente të shkruara saktë në shqipen standarde.
Rezultatet janë të ngjashme edhe për eksperimentet e zhvilluara me bashkësinë e
të dhënave D3 ku shkronjat "Ë" dhe "Ç" mungojnë në një pjesë të rasteve (Tabela
3.4).
MJETET TITULLI PËRMBAJTJA
LangDetect 0,8323 0,9996
langid.py 0,6490 0,9987
TextCat 0,1170 0,9545
WhatLang 0,7233 0,9991
Tabela 3.3: Saktësia në identifikimin e shqipes në tekste që u mungojnë shkronjat
"Ë" dhe "Ç".
MJETET TITULLI PËRMBAJTJA
LangDetect 0,9339 0,9996
langid.py 0,8879 0,9993
TextCat 0,1668 0,9515
WhatLang 0,8223 0,9991
Tabela 3.4: Saktësia në identifikimin e shqipes në tekste që u mungojnë pjesërisht
shkronjat "Ë" dhe "Ç".
3.4.3 Dokumente me gjatësi të njëjtë
Në këtë eksperiment u shfrytëzua bashkësia e të dhënave D4. Qëllimi ishte që të
shqyrtohej ndikimi i gjatësisë së tekstit në saktësinë e algoritmeve të identifikimit të
gjuhës. Rezultatet janë paraqitur në Tabelën 3.5. Ato tregojnë që saktësia e mjeteve
28
të bazuara në të mësuarit e makinës u rrit disi, ndërkohë që saktësia e qasjes klasike
të bazuar në n-grame ra 10%.
MJETET TITULLI PËRMBAJTJA
LangDetect N/A 0,9998
langid.py N/A 1,0000
TextCat N/A 0,8621
WhatLang N/A 0,9998
Tabela 3.5: Saktësia në identifikimin e shqipes në tekste me gjatësi 500 byte.
3.4.4 Identifikimi i shqipes të shkruar në dialektin geg
Duke qenë se shqipja standarde bazohet kryesisht tek dialekti tosk, shumë fjalë të
shkruara në dialektin geg dallojnë përmbajnë prapashtesa ose struktura fonetike të
ndryshme nga standardi. Për këtë eksperiment u përdor bashkësia e të dhënave
D5 që përmban artikuj lajmesh në shqip të shkruara në dialektin geg (publikuar në
Kosovë). Rezultatet paraqiten në Tabelën 3.6. Mjeti me saktësinë më të ulët në
këtë eksperiment ishte TextCat, i cili përdor qasjen klasike të bazuar në N-grame.
Rezultatet e mjeteve të tjera ndryshojnë shumë pak nga ato për shqipen standarde.
Është jashtë fokusit të këtij disertacioni për të dalë në konkluzione gjuhësore, por
mbetet për t’u shqyrtuar nëse rezultati është një tregues i uniformitetit të shqipes
(pavarësisht dialektit), apo ka të bëjë me bashkësitë e të dhënave që janë përdorur
nga mjetet përkatëse për të gjeneruar profilin e gjuhës .
MJETET TITULLI PËRMBAJTJA
LangDetect 0,9772 0,9995
langid.py 0,9567 0,9991
TextCat 0,1241 0,7509
WhatLang 0,9015 0,9986
Tabela 3.6: Saktësia në identifikimin e shqipes të shkruar në dialektin geg.
29
3.4.5 Eksperiment me një trajnim të posaçëm të langid.py
Në këtë eksperiment u tentua të rritet saktësia e langid.py [51] duke përdorur një
bashkësi të dhënash trajnuese të posaçme. langid.py, një mjet që përdor një qasje
të bazuar në të mësuarit e makinës, ishte një nga mjetet me saktësi më të lartë në
eksperimentet e mësipërme (së bashku me LangDetect ).
Duke supozuar që saktësia mund të përmirësohet duke realizuar një trajnim me
dokumente tekstuale të shkruara jo plotësisht me kujdes, u përdor një bashkësi prej
2000 artikuj lajmesh të bashkësisë së të dhënave D3. Artikujt e përzgjedhur i përkasin
tematikave të ndryshme si politikë, ekonomi, showbiz, ushqim, sport, dhe teknologji.
Duhet theksuar se trajnimi u fokusua në klasifikimin e teksteve si të shkruara në
shqip ose anglisht, pra nuk u konsideruan gjuhë të tjera. Për këtë qëllim u ndërtua
dhe një korpus lajmesh në anglisht që trajtojnë të njëjtat tema si ato në shqip.
Si një bashkësi të dhënash testuese u përdorën artikujt e D2 që nuk u përdorën për
gjenerimin e të dhënave trajnuse nga D3. Bashkësia në fjalë u quajt D2’. U realizuan
eksperimente dhe me D5, për të testuar performancën në identifikimin e shqipes në
dialektin geg nga ky profil gjuhësor.
Rezulatet paraqiten në Tabelën 3.7. Saktësia u rrit ndjeshëm si për përmbajtjen
(saktësi e plotë) ashtu dhe për titujt. Kjo ishte e vërtetë dhe për dokumentet e
shkruara në shqipen e dialektit geg.
BASHKËSIA E TË DHËNAVE TITULLI PËRMBAJTJA
D2’ 0,9981 1,0000
D5 (shqip në dialektin geg) 0,9991 1,0000
Tabela 3.7: Saktësia në identifikimin e shqipes nëpërmjet langid.py duke përdorur një
trajnim të posaçëm.
3.5 Përfundime
Në këtë kre u shqyrtua saktësia e katër metodave standarde për identfikimin e gjuhës
nëpërmjet eksperimenteve të ndryshme në lidhje me identifikimin e gjuhës shqipe.
30
Eksperimentet përdorën bashkësi të dhënash të gjeneruara nga artikuj lajmesh në
shqip të publikuara në internet që trajtojnë tematika të ndryshme. Një nga bashkësitë
në fjalë përmban artikuj lajmesh të shkruara në dialektin geg të shqipes.
Duke qenë se artikujt e publikuar në media përgjithësisht i nënshtrohen një procesi
redaktimi të gjuhës, shqipja prezente në to pritet të jetë me shumë pak gabime
drejtshkrimore apo gramatikore. Si rrjedhojë u simuluan gabime të tilla që kanë
lidhje me mos përdorimin korrekt të shkronjave "Ë" dhe "Ç".
Rezultatet e eksperimenteve treguan që algoritmet me saktësi maksimale pavarë-
sisht nga gjatësia e tekstit përdorin qasje të bazuara në mësimin e makinës. Saktësia
e arritur nga LangDetect dhe langid.py ishte përafërsisht 95% për tekste shumë të
shkurtra (titujt e lajmeve) dhe 99% për tekste të gjata. E njëjta saktësi u arrit si për
shqipen standarde ashtu edhe për dialektin geg të shqipes. Të dy këto mjete përdorin
klasifikues "naive Bayes" si dhe veçori klasifikimi të bazuara në n-grame.
Në eksperimentet tona u tregua që mos shkrimi korrekt i shkronjave "Ë" dhe "Ç"
ndikon në saktësinë e algoritmeve nëse ato përdorin profile gjuhësore të gjeneruara
nga tekste te shkruara me një drejtshkrim dhe gramatikë të saktë. Për të adresuar
këtë problematikë u ndërtua një profil gjuhësor i posaçëm për langid.py i trajnuar
me tekste që simulojnë shkrimin e shkujdesur në lidhje me përdorimin e shkronjave
"Ë" dhe "Ç". Saktësia e arritur nga ky profil gjuhësor ishte mbi 99% për shqipen
standarde gjithashtu edhe për dialektin geg. Kjo vlen dhe për tekstet e shkurtra
(titujt e artikujve).
Në përmbyllje mund të theksojmë që u vu në dukje se përveç diversifikimit të tem-
atikave gjatë krijimit të korpuseve trajnuse për algoritme të identifikimit të gjuhës,
përdorimi i teksteve të shkruara në forma jo gjithnjë korrekte për gjenerimin e pro-
fileve gjuhësore rrit ndjeshëm saktësinë.
31
Kreu 4
Dallimi i Entiteteve të Emëruara në
Gjuhën Shqipe
Në këtë kre do të paraqesim punën kërkimore të publikuar në artikullin [33].
4.1 Përshkrimi i Problemit
Dallimi i entiteteve të emëruara (named entity recognition, NER) [85], është problemi
i identifikimit të entiteteve të emëruara (person, vendndodhje, organizata, etj.)
dokumente tekstuale. Qasje të ndryshme për këtë problem janë trajtuar së fundmi
në literaturë. Shumica prej tyre bazohen në metoda të supervizuara të të mësuarit të
makinës, duke përdorur korpuse tekstuale të mëdha të etikuara për këtë qëllim [12,56].
Krijimi i këtyre korpuse është një proces i kushtueshëm dhe i ndjeshëm ndaj gabimeve,
të cilat kërkojnë metoda të posaçme të sigurimit të cilësisë.
Dallimi i entiteve të emëruara (DEE), është kthyer në një hap mjaft të rëndësishëm
paraprak në gjenerimin e bazave të njohurive [69], duke ndihmuar procesin e lidhjes së
entiteteve të emëruara të përmendura në një tekst me zërat përkatës në bazën e njo-
hurive. Këto të fundit mbështesin në ditët e sotme shumë sisteme gjetje informacioni
duke rritur në mënyrë të ndjeshme eksperiencën e përdoruesve me sistemin [3].
Ndërkohë që mjetet më të fundit të DEE kanë arritur një saktësi mjaft të lartë kur
trajnohen me korpuse brenda fushës së trajtuar nga teksti, gjendja e këtyre korpuseve
32
me lehtësi është e limitur vetëm për gjuhët më popullore të botës. Në mënyrë që të
përmbushet kërkesa për mjete të DEE për çdo gjuhë, janë propozuar mënyra për
të ulur koston e gjenerimit të korpuse trajnuese të mësimit të makinës, mënyra më
efikase për trajtimin e këtij problemi. Konkretisht, janë propozuar metoda gjysëm au-
tomatike për gjenerimin këtyre korpuse. Shumë prej tyre mbështeten tek WikiPedia
(WP)1, një koleksion dokumentesh i shkruar në mënyrë bashkëpunuese nga komu-
niteti. Në artikujt e WikiPedia përmenden shumë entitete të emëruara [3, 69].
Shqipja është një gjuhë me burime të kufizuara në lidhje me përpunimin kom-
pjuterik të gjuhës natyrore. Kjo bëhet është më e dukshme pikërisht në mungesën e
korpuseve tekstuale trajnuese për algoritme të mësimit të makinës në lidhje me këtë
drejtim. Punimet e mëparshme në këtë drejtim të lidhura me gjuhën shqipe kanë
qenë kryesisht eksperimentale. Në të njëjtën kohë, numri i mjeteve të disponueshme
të përpunimit të gjuhës natyrore që mbështesin gjuhën shqipe është tejet i kufizuar.
Në momentin e shkrimit të këtij disertacioni, nuk është arritur të identifikohet një
korpus i hapur i cilësisë së lartë në lidhje me DEE në gjuhën shqipe. Megjithatë, në
disa punime të mëparshme, është treguar që qasjet e mjeteve më të zakonshme të
DEE funksionojnë mirë nëse trajnohen siç duhet.
Konkretisht, përsa i përket korpuseve të tjera në lidhje me DEE në shqip, mund të
përmendim disa qasje të etiketimet manual (nga njerëz) të raportuara në literaturë.
Kono dhe Hoxha [43], kanë ndërtuar një korpus DEE me madhësi modeste (1000 fjali)
nëpërmjet etiketimit manual të disa studentëve të degëve të informatikës të Fakultetit
të Shkencave të Natyrës, U.T., Tiranë. Strategjia e përdorur u propozonte etiketuesve
N-grame fjalësh si kandidatë të mundshëm për t’u etiketuar si entitete të emëruara.
Gjatë vlerësimit të këtij korpusi në përdorim nga një qasje CRF [56], u dallua një F1-
Score (shiko nënkreun 2.2.4) prej 70%. Në një tjetër punim, Skënduli dhe Biba [78]
kanë ndërtuar një korpus të etiketuar prej rreth 3000 fjalishë. F1-score e raportuar
në këtë punim që përdor një qasje të entropisë maksimale [12] është 75%. Një tjetër
korpus i paraqitur nga Trandafili et al. [89], përmban 3204 fjali të etiketuara që kanë
të paktën një entitet të emëruar në to. F1-Score e vlerësuar për këtë korpus, kur u
1https://www.wikipedia.org/
33
përdor nga një qasje e bazuar në rrjeta neurale, ishte 75,46%
Të tre këto korpuset të etiketuara për këto punime kanë një madhësi modeste dhe
nuk janë etiketuar nga përdorues ekspertë. Si rrjedhojë ato janë larg standardeve të
industrisë (gold standard).
Në këtë kre do të paraqesim qasjen tonë në gjenerimin e një korpusi të etiketuar
në mënyrë automatike për DEE në gjuhën shqipe. Një korpus i tillë njihet si i cilësisë
së argjentë (silver corpus). Bazuar në kërkimet tona, ky është korpusi i parë i tillë
mjaftueshëm i madh i ndërtuar për gjuhën shqipe.
Për ndërtimin e korpusit në fjalë është janë shfrytëzuar versioni në shqip i WikiPedia
si dhe baza e njohurive e ndërtuar mbi të WikiData2për të gjeneruar lista me en-
titete të emëruara në gjuhën shqipe (gazetteer). Këto lista u përdorën më pas për
të etiketuar automatikisht artikuj lajmesh të botuara në shqip në media online.
korpusin tonë përfshihen tri kategoritë kryesore të përshkruara nga ConLL [85]: per-
sona, vendndodhje, organizata. Për të përcaktuar që një zë i përket një kategorie të
caktuar u përdor udhëzimi përkatës i ConLL3. Qasja jonë është në të njëjtën linjë me
qasje të tjera të propozuara për këtë problem.
Një korpus i gjeneruar automatikisht nuk mund të konsiderohet i një standardi të
lartë (gold standard), por mund të shërbejë si pikënisje për procese krijimi korpusesh
të etiketuara manualisht nga etiketues njerëz. Gjithashtu në rast të mungesës së një
korpusi të cilësisë maksimale, mund të shërbejë si korpus për një proces të limituar
DEE.
Në vijim të këtij kreu do të paraqesim në detaje qasjen tonë dhe rezultatet e
arritura.
4.2 Gjenerimi Automatik i Korpuseve për DEE
Qasjet e krijimit automatik të korpuseve për DEE përdorin mjete të implementuara
posaçërisht që gjenerojnë lista me entitete të emëruara në gjuhë të ndryshme nga
2https://www.wikidata.org/
3https://www.clips.uantwerpen.be/conll2003/ner/annotation.txt
34
dokumente gjysëm të strukturuara, ose nëpërmjet heuristikave të drejtpërdrejta. Një
e mirë e përbashkët e këtyre qasjeve është që duke qenë mjete automatike (të progra-
muara), mund të ri-ekzekutohen për të përditësuar korpusin në rast se burimi tek i cili
bazohet është përditësuar gjithashtu. Si shembull mund të marrim rastin e korpuseve
që shfrytëzojnë WikiPedia, e cila përditësohet vazhdimisht.
Në këtë nënkre do të përmendim disa prej këtyre qasjeve të raportuara në liter-
aturë.
Gazetteers, në kontekstin e DEE janë lista emrash, vendndodhjesh, organizatash,
etj. në një gjuhë të caktuar. Ato mund të përdoren për të etiketuar automatikisht
tekste të cilat përmendin zërat e tyre. Toral dhe Munoz [86] kanë shfrytëzuar një
metodologji për gjenerimin automatik të gazetters nga WikiPedia. Qasja e tyre foku-
sohet tek analiza e fjalive të para të artikujve të WikiPedia për të dalluar indikues të
një kategorie të caktuar entiteti të emëruar. Për këtë qëllim shfrytëzohen etiketues
të pjesëve të ligjëratës (PoS taggers) dhe WordNet [90]. Qasja e propozuar nga ta
është e pavaruar nga gjuha, por mjetet nga të cilat ajo varet mungojnë (në cilësinë e
duhur, të përdorshme publikisht) për shumë gjuhë me burime të kufizuara, përfshirë
dhe shqipen.
Një qasje që nuk shfrytëzon etiketues të pjesëve të ligjëratës apo WordNet ësh
paraqitur nga Richman dhe Schone [71]. Shfrytëzohet përsëri WikiPedia, si dhe
konkretisht lidhjet midis artikujve (links). Kategorizimi i tipit të entitetit kryhet duke
u bazuar tek lidhjet e gjendura tek artikutj për tek faqe kategorishë të WikiPedia,
p.sh. kategoria persona. Në rastet kur trajtohet një artikull jo në gjuhën angleze,
kërkohet për ekuivalentin e tij në këtë gjuhë.
Një tjetër qasje e ngjashme me atë të Richman dhe Schone është ajo e raportuar
nga Nemeskey dhe Simon [62]. Përveç lidhjeve për tek faqet e kategorive të WikiPedia,
ato shfrytëzojnë dhe DBPedia [6], një bazë njohurishë për entitetet e përmendura në
WikiPedia. Klasat e ontologjive të DBPedia janë shoqëruar (lidhur) manualisht me
kategori të WikiPedia, kjo përdoret pikërisht për identifikimin e llojit të entitetit të
emëruar. Autorët etiketojnë tekstet e artikujve të WikiPedia, bazuar tek lidhjet që
përmbahen në to për tek faqe të tjera. Duke qenë se korpusi i krijuar është dygjuhësh
35
(anglisht dhe hungarisht), autorët kanë shfrytëzuar përsëri si tek [86] lidhjen e ar-
tikujve në hungarisht me ato në anglisht. Kjo është bërë sepse nuk ka një version
hungarisht të DBPedia.
Dy qasjet e mësipërme mund të aplikohen edhe për gjuhën shqipe, sepse nuk kanë
varësi nga mjete të posaçme në ndihmë të përpunimit kompjuterik të gjuhës natyrore.
Attardi et al. në dy punime të tyre [4, 5] për DEE mjekësore (medikamente,
parametra mjekësore, etj.) në italisht shfrytëzojnë fjalorë, përkthim automatik të
korpuseve, dhe në mungesë të tillje qasje të bazuara në rregulla (rule based) RegEx
për të etiketuar automatikisht një korpus. Qasja e tyre është e mundshme kur ka një
numër të kufizuar entitetesh të emëruara të mundshme, ose kur ekzistojnë korpuse
në gjuhë të tjera që mund të përkthehen.
Gjatë punës kërkimore për këtë punim, nuk arritëm të identifikojmë qasje të më-
parshme të gjenerimit automatik të korpuseve të etiketuara në ndihmë të përpunimit
kompjuterik të gjuhës shqipe.
4.3 Gjenerimi i një Gazetteer për Entitetet e Emëru-
ara në Shqip
Në këtë nënkre do të përshkruajmë qasjen tonë të gjenerimit të një gazetteer në shqip
(listë entitetesh të emëruara) nëpërmjet WikiPedia (WP) në shqip dhe WikiData.
Në korpusin tonë përfshihen tri kategoritë kryesore të përshkruara nga ConLL [85]:
person, vendndodhje, organizata. Për të përcaktuar që një zë i përket një kategorie
të caktuar u përdor udhëzimi përkatës i ConLL4.
Shqipja është një gjuhë me burime të kufizuara në lidhje me mjetet e përpunimit
të gjuhës natyrore. Gjatë këtij punimi, nuk arritëm të gjenim etiketues të pjesëve të
ligjëratës (PoS tagger) për shqipen (të gatshëm për përdorim publik), si dhe versioni
shqip i WordNet [72] është i limituar dhe në momentin e shkrimit të këtij disertacioni
nuk është më i përdorshëm publikisht nga të gjithë. Si rrjedhojë qasja jonë nuk
4https://www.clips.uantwerpen.be/conll2003/ner/annotation.txt
36
bazohet në këto mjete, por në shfrytëzimin e artikujve të WikiPedia si dhe të dhënat
shoqëruese të publikuara në arkivat e saj5.
Qasja jonë është e ngjashme me qasjet e [62] dhe [71], por e përshtatur për gjendjen
aktuale të arkivave të WikiPedia si dhe shfrytëzohet WikiData [91] si bazë njohurishë.
Si kandidatë për entitete të emëruara u konsideruan artikujt e WP. Në momentin
e realizimit të këtij punimi, ekzistonin më shumë se 70.000 artikuj dhe mbi 20.000
faqe ridrejtuese të këtyre artikujve në versionin shqip të WikiPedia. Për të gjeneruar
gazetteer tonë, u përdorën burimet e mëposhtme të arkivave të WP:
1. Arkiva të artikujve të WP të ofruara në formatin XML. Këto u parsuan nëpër-
mjet WikiExtractor, një mjet Python. U hoqën të gjitha etiketat (tags) e for-
matimit, përveç atyre që të dërgojnë në faqe të tjera të WP shqip6.
2. Tabela "page"7e arkivave të WP në format SQL. Përmban një indeks të të
gjithë faqeve të WP të gjendura në arkivat në format XML. U fokusuam tek
faqet e artikujve (duke përfshirë ridrejtime drejt tyre).
3. Tabela "categorylinks"8e arkivave të WP në format SQL. Përmban të gjithë
kategoritë që i përkasin faqeve përkatëse.
4. Tabela "langlinks"9e arkivave të WP në format SQL. Përmban të gjithë lidhjet
e brendshme (interwiki links) që dërgojnë tek versione të të njëjtit artikull në
gjuhë të tjera. Nëpërmjet kësaj tabele mund të gjendet versioni anglisht i një
artikulli, nëse është i disponueshëm.
Gjatë gjenerimit të gazetteer, u supozua që një entitet i përket vetëm një kategorie.
Kjo mund të ulë kthimin (shiko nënkreun 2.2.4) për kategoritë individuale, megjithatë
është një limitim i gjendur pothuajse në çdo qasje të gjenerimit të korpuseve të tilla
në mënyrë automatike.
5https://dumps.wikimedia.org/sqwiki/
6https://github.com/attardi/wikiextractor
7https://www.mediawiki.org/wiki/Manual:Page_table
8https://www.mediawiki.org/wiki/Manual:Categorylinks_table
9https://www.mediawiki.org/wiki/Manual:Langlinks_table
37
Në mënyrë të ngjashme me [71], si hap të parë të kategorizimit të entiteve u shfry-
tëzuan kategoritë e faqeve në WP. Për këtë qëllim u shfrytëzua tabela categorylinks e
përmendur më sipër. Puna u bazua mbi një listë të ndërtuar manualisht të kategorive
që tregojnë përkatësinë në një kategori të entiteteve të emëruara konkrete.
Për shembull, titujt e artikujve që u përkasin kategorive "politikan" apo "shkrim-
tar", u etiketuan si "persona", ndërsa titujt e artikujve që u përkasin kategorive
"qytet" ose "fshat" u etiketuan si "vendndodhje".
Për të shmangur etiketimin e gabuar, u ndërtua dhe një "listë e zezë" e posaçme
kategorishë që nuk tregojnë entitete të emëruara "persona", "vendndodhje", apo "or-
ganizata". P.sh. fjamuj, ushqime, libra, filma, etj.
Pas këtij procesi, një pjesë prej entiteteve kandidate mbeten të pa etiketuara
(nuk i përkasin asnjë kategorie). Për to u ndoq një metodë etiketimi që shfrytëzon
ontologjinë e WikiData për të klasifikuar entitetet. Në mënyrë të ngjashme, Nemeskey
dhe Simon [62] përdorën DBPedia në punimin e tyre.
Dallimi kryesor midis DBPedia dhe WikiData është fakti që kjo e fundit mund të
editohet edhe në mënyrë të pavaruar nga WikiPedia, ndërkohë që DBPedia të gjitha
faktet i nxjerr në mënyrë automatike nga DBPedia. Për më tepër, WikiData është
e ndërlidhur shumë mirë me WikiPedia. Artikujt e WP përgjithësisht përmbajnë
një lidhje për tek zëri përkatës tek WikiData. Kjo shmang nevojën për lidhjen e
entiteve [69], një proces kompleks dhe i ndjeshëm ndaj gabimeve.
Në rastin tonë, pikërisht lidhjet për tek zërat në WikiData u përdorën për të
realizuar hapin e kategorizimit sipas WikiData. Nëse një lidhje e tillë mungonte,
dhe artikulli në shqip përmbante një lidhje për tek versioni anglisht, lidhjen për tek
WikiData e kërkuam aty. Zërat në WikiData ofrohen në gjuhë të ndryshme, por
nëpërmjet të njëjtës URI.
Konkretisht, u përdorën veçoritë (predikatet) instance of (P31) dhe subclass of
(P279) të zërave në WikiData për të identifikuar entitete të emëruara të kategorive
tona të interesit (persona, vendndodhje, organizata). Hierarkia e nënklasave (sub-
class) u ndoq derisa të gjendej një klasë me lidhje me kategoritë më sipër. Ky kërkim
u limitua deri në tre nivele thellësie.
38
Tabela 4.1 paraqet klasat e WikiData (emrat dhe identifikuesit unikë) që u për-
dorën për të dalluar kategori të ndryshme entitetesh të emëruara. Ky shoqërim u
përcaktua manualisht nga ne.
Në fund të këtij hapi, të gjithë artikujt e WP në shqip që mbeten të pa etiketuara
në një nga kategoritë në fokus, u etiketuan si "të panjohura" (UNK) dhe nuk u
përfshinë në gazetteer e gjeneruar.
Si hap të fundit, të gjithë faqet e WP që ridrejtohen në faqe të tjera, etiketohen
sipas faqes ku shkojnë. Kjo e zgjeron gazetteer me një listë emërtimesh alternative
për shumë entitete të emëruara. Gazetter i gjeneruar ruhet si një fjalor (dictionary)
Python i serializuar. Ky i fundit do përdoret në hapin e etiketimit të tekstit.
Figura 4-1 jep një pamje të përgjithshme të qasjes së implementuar në gjenerimin
e gazetteer. Tabela 4.2 tregon numrin total të entiteve në gazetteer për çdo kategori
si dhe densitetet përkatëse (të përllogaritura si raporti në përqindje i tyre në lidhje
me numrin total të entiteteve të emëruara kandidate). Më shumë se gjysma e titu-
jve të artikujve të gjendura në arkivat e WP të përpunuara rezultuan t’i përkisnin
tri kategorive në fokus. Kategoria "organizatë" përmban numrin më të vogël të en-
titeteve, ndërkohë që rreth 40% e titujve të artikujve të WP u përkasin kategorisë
"vendndodhje".
Dallo kategorinë e
EE bazuar tek klasat
e WP
Shoqërimet e
kategorive të
WP
Lista e zezë
e kategorive
WP
Klasa EE është
e panjohur?
Dallo kategorinë e EE
bazuar tek onologjia e
Wikidata
Shoqërimet e
kategorive të
WikiData
Etiketo faqet e
ridrejtuara
Lista e artikujve
të WP
Gjenero
Gazetteer
Jo
Po
Figura 4-1: Gjenerimi i gazetteer të entiteteve të emëruara.
39
Klasat e WikiData Kategoria e
Entiteve të Emëruara
human (Q5), person (Q215627) Person
country (Q6256), district (Q149621), island nation
(Q112099), capital (Q5119), city (Q515), municipal
unit (Q28017630), administrative region (Q3455524),
geographic location (Q2221906), location (Q17334923),
mountain (Q8502), terrain (Q14524493), geographical ob-
ject (Q618123), river (Q4022), watercourse (Q355304), land
waters (Q863944), island (Q23442), landform (Q271669),
landscape (Q107425), territorial entity (Q1496967),
beach (Q40080), coastal landform (Q19817101), continent
(Q5107), national park (Q46169), fortress (Q57831), for-
tification (Q57821), military building (Q6852233), church
(Q16970), temple (Q44539), teaching hospital (Q1059324),
hospital (Q16917), public building (Q294422), sports
venue (Q1076486), football stadium (Q1154710), stadium
(Q483110)
Vendodhje
political party (Q7278), political organization Q7210356),
organization (Q43229), international organization
(Q484652), ministry (Q192350), rock band (Q5741069),
musical ensemble (Q2088357), newspaper (Q11032), mag-
azine (Q41298), school (Q3914), general education school
(Q12379547), commercial building (Q655686), shopping
mall (Q11315), university (Q3918), higher education
institution (Q38723), association football club (Q476028),
football club (Q17270000), sports club (Q847017), sports
organization (Q4438121), court (Q41487), bank (Q22687),
administrative territorial entity (Q56061), government
agency (Q327333), regional organization (Q4120211),
broadcaster (Q15265344)
Organizatë
Tabela 4.1: Shoqërimi i klasave të WikiData me kategorinë koresponduese të en-
titeteve të emëruara.
40
Klasa EE Totali Densiteti
Person 13,639 14,9%
Vendodhje 36,368 39,8%
Organizatë 2,903 3,2%
Totali 52,910 57,9%
Tabela 4.2: Totali i kategorive të entiteve të emëruara në gazetteer e gjeneruar.
4.4 Etiketimi i Korpusit të Entiteteve të Emëruara
Si bazë e korpusit të etiketuar u shfrytëzuan artikuj lajmesh në shqip të publikuara
online. Qëllimi është që të krijohet një bashkësi të dhënash që prodhon një kthim
(recall) dhe saktësi të lartë në skenarë sistemesh për gjetjen e lajmeve. Për të për-
mirësuar kthimin e algoritmit të trajnuar me korpusin që do gjenerohet gazetteer të
përshkruar më sipër ju bashkëngjitën elementët e mëposhtëm:
1. Lista e emrave (të personave) më të shpeshtë në shqip (366 emra).
2. Lista e mbiemrave (të personave) më të shpeshtë në shqip (356 mbiemra).
3. Lista e frazave në shqip që janë tregues për një entitet person (p.sh. Z., Znj.,
Dr, Prof., etj.).
4. Lista e frazave në shqip që janë tregues për një entitet vendndodhje (p.sh. qarku,
qyteti, lagjia, etj.).
5. Lista e frazave në shqip që janë tregues për një entitet organizatë (p.sh. uni-
versiteti, departamenti, instituti, etj.).
Duke qenë se na mungon një etiketues i pjesëve të ligjëratës, kandidatët për en-
titete u nxorën nga teksti bazuar tek kapitalizimi i tyre (pra grupe fjalësh që fillojnë
me shkronjë të madhe, duke përjashtuar lidhëzat). Kjo solli probleme me dallimin e
entiteteve në fillim të fjalisë, por duke qenë se zgjidhja e kësaj situate vjen pikërisht
nëpërmjet një etiketuesi të pjesës së ligjëratës [62], u la jashtë fokusit të këtij punimi.
41
Një problem tjetër rrjedh nga lakimi i emrave, p.sh. Arbër, Arbrit, Arbrin. Duke
qenë se në shqip zakonisht lakimi ndodh në fund të fjalëve, për të adresuar këtë të
fundit, kërkimi në tekst për entitete të emëruara tek frazat e fjalëve me shkronja të
mëdha u bë me hapësirë lirie (jo përputhje e plotë).
U gjeneruan tre korpuse, një për secilën kategori fokus (person, vendndodhje,
organizatë). Kjo rekomandohet nga mjeti Apache OpenNLP NER toolkit10, ai që u
përdor për vlerësimin e korpusit të gjeneruar. Etiketimi u bë në formatin e të njëjtit
mjet i cili përmban një fjali për rresht dhe entitetet e emëruara etiketohen me etiketa
specifike (tags). Një rresht bosh shënon fillimin e një dokumenti të ri. Në Figurën
4-2 paraqitet një shembull i formatit në fjalë.
Figura 4-2: Shembull i korpusit të etiketuar për DEE.
Për coptimin e tekstit në fjalë dhe fjali u përdor implementimi i algoritmit për
ndarjen e teksteve Unicode [21] nga polyglot toolkit11. U dallua që coptimi i bërë nga
ky algoritëm nuk është perfekt për shqipen, por nuk u arritën të identifikohen korpuse
trajnuese për mësimin e makinës për coptimin e tekstit.
Figura 4-3 paraqet një pamje të përgjithsme të procesit të etiketimit. Edhe njëherë
theksojmë që kandidatët për entitete të emëruara janë fraza teksti ku të gjithë fjalët
(përveç lidhësave) fillojnë me shkronjë të madhe. Për secilën prej tyre u aplikuan
hapat e mëposhtëm.
10https://opennlp.apache.org/
11https://polyglot.readthedocs.io/
42
Artikull Lajmesh Copëtoje dhe Ndaje
në Fjali
Nxirr Entitetet
Kandidate
Gazetteer Tento Përkim të
Plotë
Tento Përkim të
Përafërt
Cila kategori EE është në
fokus?
Kërko për Tregues
të Kategorive të EE
Etiketo Frazat me
Shkronja të Mëdha
Etiketo Emrat e
Zakonshme të
Njerëzve
Etiketo Variante të
Tjera të EE të
Hasura më Parë
Dokumenti përmban > 2
Fjali të Etiketuara
Shtoje në Korpus Përfundo
Jo
Organizatë
Vendndodhje
Po
Person
Figura 4-3: Procesi i krijimit të korpusit të etiketuar për DEE.
43
Si fillim, tentohet të gjenden një përkim i plotë në gazetteer. Nëse kjo rezul-
ton e pasuksesshme, hapi i rradhës është të tentohet një përkim i përafërt (për të
adresuar problemin e lakimit, apo shndërrimeve gramatikore). Për këtë qëllim u për-
dor libraria difflib12 e Python. Ajo përdor algoritmin Ratcliff-Obershelp [70]. Pragu
i ngjashmërisë i përdorur ishte 0,75. Këto dy hapa i aplikohen të gjithë kategorive
të entiteteve të emëruara. Hapat e mëtejshëm ndryshojnë në bazë të kategorisë të
entiteteve të emëruara në fjalë.
Për kategorinë "organizatë", etiketohen si organizata të gjithë entitetet kandidate
që kanë të paktën dy shkronja, dhe që përbëhen vetëm nga shkronja të mëdha. Kjo
u krye sepse artikujt e lajmeve përmbajnë shumë akronime. U përdor një listë e zezë
për të përjashtuar grupe shkronjash të mëdha që nuk janë entitete të emëruara. Hapi
i fundit tek kjo kategori është kërkimi për tregues organizatash (fraza) tek entitetet
kandidate. Nëse kemi një të tillë, ato etiketohen si organizata.
Për kategorinë "person", si hap i rradhës kërkohet prezenca e treguesve të per-
sonave (fraza). Në fund tentohet të gjendet një përkim i entiteve kandidate me një
kombinim të emrave dhe mbiemrave të shpeshtë. Kërkimi për këtë bëhet me shkallë
lirie, ngjashmëri 0,8.
Për kategorinë "vendndodhje", si hap i fundit, tentohet të gjenden fraza treguese
vendndodhjesh. Nëse gjendet një e tillë, kandidati etikohet si vendndodhje.
Duke qenë se ndonjëherë në tekstet e artikujve të lajmeve i ri-referohemi një
entiteti të emëruar më poshtë jo në formën e plotë (p.sh. vetëm mbiemri i një personi),
si hap i fundit kërkohet për prezenca të tilla duke përdorur listën e entiteteve të
emëruara nga fazat e mësipërme.
Fjalitë pa entitete të emëruara, nuk eleminohen. Kjo është bërë për të ruajtur
shpërndarjen e fjalëve si në origjinal në korpusin trajnues. Megjithatë, dokumentet
me më pak se dy fjali të etiketuara nuk përdoren për trajnim të algoritmit të mësimit
të makinës. Tabela 4.3 paraqet detajet statistikore të korpusit të etiketuar të krijuar.
12https://docs.python.org/3/library/difflib.html
44
Persona Vendodhje Organizata
Fjalitë 123.395 102.197 123.898
Fjalitë e Etiketuara 25.007 25.008 25.006
Nr. Total i Entiteteve 30.235 33.945 31.898
Entitete/Fjali 0,25 0,33 0.,26
Madhësia (në MB) 15,9 19,8 18,9
Tabela 4.3: Detajet statistikore të korpusit të gjeneruar për DEE.
4.5 Ekspertimente dhe Rezultate
Për të vlërësuar korpusin e gjeneruar, u realizuan eksperimente me anë të Apache
OpenNLP NER toolkit. Qasja e implementuar nga ky i fundit për DEE është e
bazuar tek një algoritëm i supervizuar i mësimit të makinës nëpërmjet maksimizimit
të entropisë. Metodat që shfrytëzojnë këtë model kanë arritur rezultate të mira për
shumë gjuhë, duke përfshire dhe disa tentativa të para për shqipen [12,62, 78].
Modelet e bazuara në entropinë maksimale shfrytëzojnë veçori të ndryshme për
qasjen e tyre klasifikuese. Mund të përmendim veçoritë e bazuara në fjalorë (krahaso-
hen entitetet kandidate me zëra të një fjalori), fjalë (p.sh. kontrollohet nëse fjala fillon
me shkronjë të madhe), veçori tranzitimi (shiko etiketimet e mëparshme të entiteteve
të emëruara) [12].
Për eksperimentet tona u përdorën gjeneruesit e paracaktuar të veçorive të përf-
shirë tek DEE i OpenNLP. Ato bazohen kryesisht në kontekst, konsiderohen fjalët
rrethuese të një kandidati për entitet, hasje të mëparshme të një fjale, veçori të
bazuara në bigrame, si dhe veçori që konsiderojnë pozicionimin e një fjale në fjali.
Bazuar në një testim paraprak, u përpilua një listë të zezë (blacklist) me entitete të
cilat ishin etiketuar gabim. Kjo reduktoi numrin e rezultateve të etiketuara gabimisht
(false positives) nga qasja e implementuar e dallimit të entiteteve të emëruara në
mënyrë automatike. Lista e zezë përfshin fjalë/fraza konkrete, si dhe dhe kufizime
të gjatësisë së karaktereve të entiteteve të emëruara bazuar tek kategoria përkatëse e
tyre.
Korpusi fillimisht u vlerësua me veten e tij, duke përdorur një procedure 10-
fishe të vlerësimit të kryqëzuar e cila e ndan bashkësinë e të dhënave në nënbashkësi
45
trajnimi/testimi në raport 9/1. Kjo u mundësua nëpërmjet vlerësuesit të kryqëzuar
të përfshirë në Apache OpenNLP.
U eksperimentua me konfigurime të ndryshme të gjenerimit të gazetteer dhe pro-
cedurës së dallimit të entiteteve në mënyrë automatike. Rezultatet më të mira të
arritura janë paraqitur në Tabelën 4.4. Ato janë dukshëm më të mira se rezultatet e
arritura nga korpuset e etiketuara nga njerëz të raportuara tek [43] dhe [78].
Saktësia e arritur (precision) është më e lartë në krahasim me rezultate të arritura
me eksperimentim me korpuse të ngjashme të gjeneruara për gjuhë të tjera, ndërkohë
që kthimi (recall) është disi më i ulët [62,71]. Kjo mund të shpjegohet me shmangien
e trajtimit të polisemisë (përkatësisë të një EE në më shumë se një kategori), ose me
faktin që gazetteer u gjenerua nga WikiPedia. Shumë entitete të emëruara në artikujt
e lajmeve, ende nuk përmenden në versionin shqip të WP.
Saktësia Kthimi Metrika 𝐹1
Person 89,03% 72,51% 79,92%
Vendodhje 91,92% 77,00% 83,80%
Organizatë 93,92% 75,03% 83,42%
Mesatarja 91,62% 74,85% 82,38%
Tabela 4.4: Rezultatet e vlerësimit të kryqëzuar 10-fish të korpusit të DEE.
Korpusi i gjeneruar u vlerësua edhe nëpërmjet një korpusi prej 1000 fjalishë
të etiketuara nga njerëz [43]. Ky i fundit theksojmë që nuk është etiketuar nga
ekspertë të gjuhës, por nga studentë vullnetarë të programeve të Departamentit të
Informatikës, F.SH.N., U.T. Eksperimentet u zhvilluan përsëri nëpërmjet Apache
OpenNLP, këtë herë duke shfrytëzuar vlerësuesin e përfshirë në të për bashkësi të
dhënash testuese të veçanta. Rezulatet më të mira të arritura janë paraqitur në
Tabelën 4.5.
Siç pritej, ato janë më të ulëta në krahasim me rastin kur përdoren korpuse cilë-
sore të etiketuara manualisht, megjithatë mund të shërbejnë si një bazë e mirë për
etiketimin fillestar të shumë rasteve të përdorimit.
Kthimi për kategorinë "person" në këto eksperimente rezultoi shumë i ulët. U vu
re që kjo mund të jetë si shkak i qasjes së etiketimit që u ndoq (sekuencë fjalësh me
46
Saktësia Kthimi Metrika 𝐹1
Person 74,70% 24,75% 37,18%
Vendndodhje 87,79% 51,85% 65,20%
Organizatë 76,04% 45,06% 56,59%
Mesatarja 79,51% 40,55% 52,99%
Tabela 4.5: Rezultatet e vlerësimit të korpusit të gjeneruar të DEE ndaj një korpusi
testues të etiketuar manualisht.
shkronja të mëdha pa përfshirë lidhëzat). P.sh. ka raste ku emri i një vendndodhje
shkruhet ngjitur me emrin e një personi, kjo ndikon dhe tek kthimi për kategorinë
"vendndodhje". Përveç kësaj u vu re që një pjesë e etiketimeve të gabuara (false posi-
tives) janë shkaktuar nga probleme në drejtshkrimin e artikujve të lajmeve (përdorim
i gabuar i shkronjave të mëdha). Për ta adresuar këtë problem mund të ndihmonte
një etiketues i pjesëve të ligjëratës. Në këtë mënyrë qasja e përdorur për të nxjerrë
në pah entitetet kandidate do të ishte më e saktë.
Një përmirësim tjetër i mundshëm, i cili mund të funksiononte në kontekstin e
etiketimit të lajmeve, mund të ishte zgjerimi i gazetteer me emra të huaj njerëzish të
nxjerra nga versionet në gjuhë të huaj të WP.
4.6 Përfundime dhe Rekomandime
Në këtë kre u përshkrua procesi i gjenerimit automatik dhe veçoritë e një korpusi
të gjeneruar automatikisht për etiketimin e entiteteve të emëruara në gjuhën shqipe.
Në dijeninë tonë, ky është korpusi i parë i këtij lloji i propozuar për shqipen. Ai
përmban 25.000 fjali të etiketuara me EE për secilën prej kategorive të adresuara
(person, vendndodhje, organizatë).
Paralelisht u ndërtua një gazetteer në ndihmë të DEE në shqip i cili përmban
52.910 zëra në total.
Duke qenë se shqipja kategorizohet si një gjuhë me burime të kufizuara në lidhje
me korpuset e etiketuara për qëllime përpunimi të gjuhës natyrore, ndjekja e një pro-
cesi automatik për gjenerimin e një korpusi (edhe pse jo të cilësisë maksimale) të tillë
mund të shërbejë si shtysë në përmbushjen e nevojave që kanë sistemet informatike
47
për mjete të tilla.
Në mungesë të një korpusi të etiketuar nga njerëz ekspertë (që prodhon rezultate
maksimale), një korpus i tillë do të zhbllokonte shumë aplikime që janë të varuara
nga DEE, si p.sh. gjenerimi bazave të njohurive për fusha të caktuara. Gjithashtu
korpuset automatike mund të shfrytëzohen si hap i parë i procesit të ndërtimit manual
të korpuseve të këtij lloji.
48
Kreu 5
Një Sistem Rekomandimi për Artikuj
Shkencorë në Gjuhën Shqipe
Në këtë kre do të paraqesim punën kërkimore të publikuar në artikullin [36].
5.1 Përshkrimi i Problemit
Gjetja e informacionit është mjaft e rëndësishme për komunitetin shkencor, por në të
njëjtën kohë është një proces që kërkon shumë kohë. Motorët e kërkimit akademik,
zakonisht përdorin fjalë kyçe për të gjetur artikujt përkatës. Kjo qasje shpesh herë
prodhon rezultate jo fort të kënaqshme. Si një qasje alternative sugjerohet përdorimi
i një sistemi rekomandues i cili lehtëson gjetjen e informacionit të dobishëm për
përdoruesit potencialë [45].
Sistemet e rekomandimit (shiko nënkreun 2.2.3) ndihmojnë në gjetjen e informa-
cionit që nevojitet më shpejt, sidomos në situata me mbingarkesë të madhe informa-
cioni. Ofrimi i sugjerimeve të personalizuara (pa përdorur fjalë kyçe) është një nga
dobitë më të mëdha të këtyre sistemeve. Aplikimet janë në sektorë të ndryshëm si
librari online, sisteme argëtimi, tregti elektronike, etj., si rrjedhojë rëndësia e tyre në
shoqëri është rritur ndjeshëm.
Një nga aplikimet e sistemeve të rekomandimit është pikërisht në kontekste të
kërkimit shkencor ku sigurimi i literaturës që ka lidhje me një çështje kërkimore ësh
49
një element kyç. Në Shqipëri ekzistojnë botime në gjuhën shqipe në revista shkencore
apo proceedings të konferencave të cilat ofrohen në forma të ndryshme si libra të
shtypur, media optike (CD-ROM), apo të publikuara në internet. Për shkak të këtij
diversiteti, gjetja e artikujve me interes për një kërkues është mjaft e vështirë.
rastin më të mirë ky kërkim kryhet nëpërmjet fjalëve kyçe ose motorëve të kërkimit
gjeneralistë (p.sh. Google). Në rastin e botimeve tradicionale (jo në internet) procesi
bëhet edhe më i vështirë. Sistemet e rekomandimit do të ofronin një ndihmë të madhe
në këtë drejtim.
Në këtë kre do të detajojmë dizenjimin e një sistemi në ndihmë të revistës shken-
core "Buletini i Shkencave të Natyrës" e cila është një botim shkencor periodik i nisur
si botim tradicional, por prej disa vitesh i ofruar edhe në versionin e publikuar në
internet. Shumica e artikujve të botuar në këtë periodik janë të shkruara në gjuhën
shqipe. Arkitektura e sistemit të propozuar është modulare, duke lejuar përditësimin
e pjesëve përbërëse si dhe eksperimentimin me lehtësi të algoritmeve të ndryshme.
Qëllimi është që të hidhen hapat a parë drejt një sistemit rekomandimi për dokumente
të shkruara në shqip, në rastin tonë artikuj shkencorë.
Sistemi duhet të lejojë kërkimin sipas fjalëve kyçe si dhe rekomandimin e artikujve
shtesë bazuar të një artikull i dhënë. Supozimi në këtë rast është që pasi përdoruesi ka
gjetur një artikull nëpërmjet fjalëve kyçe dhe është duke e shfletuar atë, rekomandimi
i artikujve të ngjashëm me këtë të fundit mund ta kanalizojë drejt kërkesës për infor-
macion që i nevojitet konkretisht. Për këtë arsye nevojitet një indeks i posaçëm tf-idf
që ruan të dhëna shoqëruese mbi artikujt shkencorë që do integrohen.
Si bashkësi të dhënash testimi u përdorën pikërisht artikujt e botuar tek Buletini i
Shkencave të Natyrës. Ato trajtojnë pesë tema të ndryshme kërkimore: matematikë,
fizikë, biologji, kimi, dhe informatikë. Artikujt janë në format PDF dhe ndjekin një
shabllon specifik formatimi.
Bashkësia e të dhënave të përdorura është e vogël, vetëm 226 artikuj në total.
Megjithatë duke qenë një punim eksperimental, është i mundshëm investigimi i kon-
figurimeve të duhura të sistemit që prodhojnë rezultate më të mira.
50
5.2 Qasje Rekomandimi për Artikuj Shkencorë
Artikujt shkencorë, në dallim nga artikuj të tjerë kanë një format të strukturuar. Kjo
reflektohet nga të dhëna shoqëruese të tyre si titulli, abstrakti, fjalët kyçe, emrat e
autorëve, dhe seksionet e ndryshme të përmbajtjes.
Qasjet e rekomandimit të artikujve shkencorë qëndrojnë në të njëjtën linjë me
qasjet e përgjithshme të këtyre sistemeve: rekomandim i bazuar në përmbajtje, filtrim
bashkëpunues, dhe qasje hibride.
Modeli i hapësirës lineare (shiko nënkreun 2.2.1) mbetet shumë i përdorur dhe
në këtë kontekst [61, 75,83]. Qasjet e mësipërme ndërtojnë vektorë për të modeluar
përmbajtjen (artikujt në këtë rast) ose profilet e përdoruesve.
Rekomandimi i bazuar në përmbajtje ofron avantazhe dhe lehtësi ndaj qasjeve të
tjera sepse nuk kërkon një gamë të madhe përdoruesish paraprakisht apo të dhëna
rreth tyre. Shumica e librarive digjitale të artikujve shkencorë nuk kanë të dhëna
përdoruesish në fazën e tyre fillestare të adoptimit [61]. Rekomandimi në këtë rast
mund të fokusohet vetëm tek përshkrimi i artikujve, pa shfrytëzuar profile përdorue-
sish. Metrika e krahasimit (p.sh. ngjashmëria e bazuar në kosinus) mund të fokusohet
vetëm tek vektorët që përshkrujanë artikujt. Supozimi në këtë rast është që përdoruesi
ka interes për një artikull të caktuar që po shfleton, rrjedhimisht rekomandohen ar-
tikuj të tjerë të ngjashëm me të.
Nascimento et al. [61] përshkruajnë një sistem që shfrytëzon pikërisht një qasje të
bazuar tek përmbajtja për të rekomanduar artikuj shkencorë. Supozimi i tyre është
që ekziston një koleksion i madh artikujsh shkencorë paraprakisht, siç është rasti i
librarive digjitale të mëdha si IEEE XPlore, por nuk është e vërtetë për shumë raste të
tjera. Sistemi i tyre simulon kërkime në librari digjitale publike, por në vend të fjalëve
kyçe të përcaktuara nga vetë përdoruesit, ato gjenerohen automatikisht nga sistemi
bazuar tek një artikull mbi të cilin përdoruesi ka shfaqur interes. Ngjashmëria e
përdorur është ajo e bazuar në kosinus, e përdorur dhe nga ne në sistemin e përshkruar
më poshtë. Rezultatet e arritura nga ky sistem ishin pozitive, edhe pse rekomandimi
u fokusua vetëm tek titulli dhe abstrakti i artikujve.
51
Një qasje e ngjashme është përshkruar tek [48]. Autorët përdorin përsëri modelin
e hapësirës lineare për të dalluar ngjashmëritë midis artikujve dhe preferencave të
përdoruesve, në këtë rast të identifikuara bazuar tek artikujt e shkruar më parë nga
një autor. Koleksioni i artikujve sigurohet nga një bredhës (crawler) i ueb-it i fokusuar
tek libraritë digjitale IEEE Xplore dhe ACM Digital Library. Qasja e rekomandimit
të bazuar tek përmbajtja përdoret dhe nga Docear [11].
Në literaturë janë raportuar dhe qasje hibride të rekomandimit në sisteme reko-
mandimi për librari digjitale (artikuj shkencorë). Torres et al. [87] propozojnë një
të tillë. Sistemi i tyre eksperimentoi dhe me rekomandimin me dy hapa sekuenciale,
së pari realizohet filtrimi bashkëpunues dhe më pas rekomandimi sipas përmbajtjes.
Ata nuk dalluan përmirësime të ndjeshme nga kjo qasje sekuenciale, por kombinimi
i dy qasjeve në përgjithësi rezultoi i suksesshëm. Qasjet hibride përveç përmbajtjes
së artikujve mund të shfrytëzojnë dhe citimet e tyre, siç është raportuar tek [24].
këtë nevojitet akses tek të dhëna mbi citimet.
Gjatë punës kërkimore për këtë sistem, nuk u gjendën punime paraardhëse në
lidhje me sisteme rekomandimi për artikuj shkencorë të shkruar në gjuhën shqipe.
situatën tonë, mungesa e të dhënave në lidhje me përdoruesit e sistemit apo citimet
e bën të pamundur aplikimin e qasjeve që shfrytëzojnë filtrimin bashkëpunues apo
hibride. Si rrjedhojë qasja e implementuar është ajo e bazuar në përmbajtje [35, 65]
(Figura 5-1).
5.3 Rrënjëzuesi i Shqipes
Një sistem i gjetjes së informacionit, përfshirë dhe sistemet e rekomandimit, nuk mund
të funksionojë pa një rrënjëzues të gjuhës përkatëse (shiko nënkreun 2.2.2. Gjatë
realizimit të këtij punimi u konsideruan rrënjëzuesit e propozuar nga Karanikolas [40]
dhe Sadiku dhe Biba [73].
Versioni i propozuar nga Sadiku dhe Biba [73] ka një mbulim më të mirë të parasht-
esave dhe prapashtesave të fjalëve. Qasja e përdorur për rrënjëzim është e bazuar në
rregulla (rule-based). Algoritmi është testuar nga ta në një kontekst klasifikimi doku-
52
Përdoruesi
Artikulli i
pëlqyer
Koleksioni i
artikujve
Artikulli i rekomanduar
Rekomandim i bazuar në përmbajtje
Pëlqen
Krahaso me
rekomando
Përdoruesi
1
Përdoruesi
2
Artikujt e pëlqyer nga
përdoruesi 2
Rekomando
tek përdoruesi
1
Rekomandim me filtrim
bashkëpunues
pëlqen
i ngjashëm me
Figura 5-1: Qasjet e rekomandimit [35].
53
mentesh nga tematika të ndryshme si biologji, histori, letërsi, dhe kimi. Rezultatet
tregojnë një saktësi të rritur në rastet kur përdoret rrënjëzuesi në fjalë.
Në punimin tonë ne eksperimentuam me dy variante të këtij rrënjëzuesi. I pari
e përdor atë siç është propozuar nga autorët, ndërsa i dyti kryen më shumë se një
ekzekutim të algoritmit. Pra rezultati i ekzekutimit të parë i nënshtrohet përsëri
algoritmit derisa mos të ketë më ndryshime në rezultat. Kjo u tentua pasi disa nga
fjalët shqipe mund të reduktohen përsëri pas një ekzekutimi tjetër të algoritmit.
Rrënjëzuesi u kombinua gjithashtu me heqjen e një listë fjalësh të papërdorshme
(stopwords), fjalët më të shpeshta të hasura në shqip [80].
5.4 Dizenjimi i Sistemit
Arkitektura e sistemit të dizenjuar është modulare (Figura 5-2). Modulet përbërëse
kanë çiftim të ulët me njëri tjetrin. Secili modul është dizenjuar që të jetë sa më i
pavaruar në mënyrë që të mundësohen zgjerime ose përditësime me lehtësi të sistemit
në të ardhmen. Gjithashtu është bërë e mundur nëpërmjet një abstragimi përkatës
që sistemi të mos jetë i lidhur ngushtë me formatin e artikujve që po indeksohen.
Pra është e mundur të specifikohen rregulla të ndryshme formatimi për artikuj të
ndryshëm.
Sistemi është ndërtuar duke përdorur JAVA EE 7 dhe shfrytëzon Java Persistence
API (JPA) për të ndryshuar të dhënat që gjenden në bazën e të dhënave të artikujve.
Artikujt e Buletinit të Shkencave të Natyrës u ngarkuan në sistem nga formati PDF.
Gjithsesi duke shkruar një parser të posaçëm mund të mbështeten dhe formate të
tjera.
5.4.1 Modulet Përbërëse
Më poshtë do detajojmë pjesët përbërëse të sistemit.
Baza e të dhënave (DB) e artikujve ruan të dhënat shoqëruese (metadata) për
artikujt shkencorë, titullin, abstraktin, autorët, fjalët kyçe, përmbajtjen, si dhe pjesët
përbërëse të përmbajtjes (seksionet). Një e dhënë shoqëruese e rëndësishme që ruhet
54
Populluesi i DB
DB e
Artikujve
Kërkuesi i
Artikujve
Ekstraktues të
dhënash
shoqëruese
(metadata)
Rekomanduesi i
Artikujve
Artikull
Artikujt e rekomanduar
Rrjedhë të dhënash
Modul
Figura 5-2: Arkitektura e sistemit të rekomandimit të artikujve shkencorë.
është frekuenca e termave për secilin term (sa herë shfaqet një term i caktuar në
dokument?) [53]. Ruhen frekuenca të ndryshme në varësi të pjesëve përbërëse të
artikullit. Dallojmë midis "frekuencës në gjithë përmbajtjen e artikullit", "frekuencës
në titullin e artikulli", "frekuencën në abstraktin e artikullit", si dhe "frekuencën në
pjesët përbërëse të përmbajtjes së artikullit (seksionet)".
Frekuencat nuk ruhen të peshuara, por kjo mund të realizohet me lehtësi gjatë
përpunimit të informacionit. Të dhënat ruhen në një bazë të dhënash relacionale
MySQL.
Populluesi i bazës së të dhënave (DB) ruan në bazën e të dhënave të dhënat
shoqëruese të nxjerra nga artikujt. Përdor modulin ekstraktues të të dhënave shoqëruese,
55
por nuk varet nga parseri i implementuar për artikujt në fjalë. Si shtresë abstragimi
për këtë modul u përdor JPA, përgjegjëse për të ruajtur të dhënat në bazën e të
dhënave.
Esktraktuesi i të dhënave shoqëruese (metadata) është përgjegjës për nxjerrjen e
të dhënave shoqëruese nga skedarët e artikujve.
Mund të ndërtohen parsers të ndryshëm për t’ju përshtatur rregullave të for-
matimit. Ky modul nuk përdor qasje të mësimit të makinës për të dalluar pjesët
përbërëse të artikujve (titulli, abstrakti, etj.) [42]. Duke qenë se punimi ynë ka një
fokus tjetër, u ndoq një qasje më e thjeshtë, e bazuar në përcaktime manuale të rreg-
ullave të formatimit, duke konsultuar formatin e artikujve si dhe udhëzimet përkatëse
të botimit në këtë periodik. Për të përpunuar tekstin e gjendur në skedarët PDF u
përdor pdfbox 1, pra të dhënat u morën drejtpërdrejt nga ai format, pa konvertime në
formate të tjerë të ndërmjetme. Artikujt ju nënshtruan rrënjëzimit, siç përshkruhet
në nënkreun më sipër.
Kërkuesi i artikujve përdoret për të kërkuar artikujt nëpërmjet fjalëve kyçe. Si
indeks, përdor të dhënat shoqëruese të ruajtura në bazën e të dhënave. Rezultatet fil-
trohen në bazë të prezencës të fjalëve kyçe në dokument, të rradhitura sipas frekuencës
së këtyre të fundit.
Rekomanduesi i artikujve mundëson rekomandimin e artikujve të tjerë për një
artikull të dhënë. Moduli kyç i sistemit të implementuar. Siç e përmendëm dhe më
sipër, për shkak të mungesës së të dhënave mbi përdoruesit e sistemit, përdoret një
qasje rekomandimi e bazuar në përmbajtjen e artikujve [65]. Si metrikë ngjashmërie
përdoret një heuristikë që kombinon rëndësinë e frekuencës së termave bazuar në
vendndodhjen e tyre në artikull. Heuristika në fjalë detajohet më poshtë. Artikujt e
rekomanduar parallogariten për çdo artikull të koleksionit tonë.
1https://pdfbox.apache.org/
56
5.4.2 Heuristika e Metrikës së Ngjashmërisë
Si metrikë kryesore është përdorur ngjashmëria e bazuar në kosinus e modelit të
hapësirës lineare. Ajo është përdorur me sukses dhe në sisteme të tjera të ngjashme
të rekomandimit të artikujve shkencorë [48, 61,75]. Peshimi i frekuencës së termave
u peshua me një heuristikë të posaçme.
𝑠𝑖𝑚(𝑑1, 𝑑2) =
𝑑1·
𝑑2
𝑑1
𝑑2
=𝑛
𝑖=1 𝑤1𝑖𝑤2𝑖
𝑛
𝑖=1𝑤2
1𝑖𝑛
𝑖=1 𝑤2
2𝑖
ku 𝑤𝑗𝑖 është frekuenca e peshuar e termit 𝑖në dokumentin 𝑑𝑗. Peshimi bëhet sipas
kësaj heuristike:
𝑤𝑗𝑖 =𝜅 𝑤𝑘
𝑗𝑖 +𝜏 𝑤𝑡
𝑗𝑖 +𝛼 𝑤𝑎
𝑗𝑖 +𝛽 𝑤𝑏
𝑗𝑖
në të cilën frekuencat e termave 𝑖në listën e fjalëve kyçe, titullit, abstraktit, dhe
përmbajtjes së artikullit 𝑗janë shënuar përkatësisht si 𝑤𝑘
𝑗𝑖 ,𝑤𝑡
𝑗𝑖 ,𝑤𝑎
𝑗𝑖 ,𝑤𝑏
𝑗𝑖 . Frekuencat e
termave janë të peshuara sipas tf-idf (shiko nënkreun 2.2.1), termat i janë nënshtruar
rrënjëzimit dhe pastrimit nga fjalët e shpeshta, siç është përshkruar më lart.
Koeficientët 𝜅,𝜏,𝛼, dhe 𝛽përcaktohen në bazë të rëndësisë që duhet t’i jepet
pjesëve të ndryshme të artikullit në metrikën e ngjashmërisë (fjalëve kyçe, titullit,
abstraktit, dhe përmbajtjes). 𝑤𝑖𝑗 është kombinim linear afin, si rrjedhojë:
𝜅+𝜏+𝛼+𝛽= 1
Për një artikull të dhënë, sistemi llogarit ngjashmërinë me të gjithë artikujt e
tjerë. Rezultatet renditen në rendin zbritës dhe përdoruesit i tregohen xrezultatet
e para (p.sh. 10). Rekomandimet parallogariten dhe rezultatet ruhen në bazën e të
dhënave të artikujve.
Duke qenë se bashkësia e të dhënave testuese, artikujt e Buletinit të Shkencave
të Natyrës, përmbajnë tematika të kategorive të ndryshme, kërkimi i dokumenteve të
ngjashme limitohet brenda së njëjtës kategori.
57
5.5 Eksperimente dhe Rezultate
Për të testuar sistemin tonë u ekzekutuan disa eksperimente duke provuar vlera të
ndryshme të koeficientëve të detajuar më sipër dhe mënyrën se si u aplikua rrënjëzimi
i fjalëve. Përzgjedhja e koeficientëve për eksperimente të ndryshme u bë si më poshtë:
1. 𝜅= 0.4, 𝜏 = 0.3, 𝛼 = 0.2, 𝛽 = 0.1, duke i dhënë më shumë rëndësi fjalëve kyçe
dhe titullit të artikullit në llogaritjen e ngjashmërisë.
2. 𝜅= 0.0, 𝜏 = 0.6, 𝛼 = 0.4, 𝛽 = 0.0, fjalët kyçe dhe përmbajtja e artikullit
përjashtohen nga përllogaritja, ajo fokusohet vetëm tek titulli dhe abstrakti.
3. 𝜅= 0.4, 𝜏 = 0.0, 𝛼 = 0.0, 𝛽 = 0.6, përdoren vetëm fjalët kyçe dhe përmbajtja e
artikullit në përllogaritje
Ndërkohë, u përdorën dy mënyra të ndryshme rrënjëzimi bazuar tek algoritmi i
propozuar nga Sadiku dhe Biba [73]:
1. Fjalët u rrënjëzuan duke përdorur vetëm një ekzekutim të algoritmit
2. Fjalët u rrënjëzuan duke përdorur një ekzekutim iterativ të algoritmit që ndalon
kur fjala e mbetur (rrënjës) nuk mund të reduktohet më nga ekzekutime të
mëpasshme.
Bashkësia e të dhënave testuese është e vogël. Ajo përmban vetëm 226 artikuj shken-
corë të shkruar në gjuhën shqipe, të shpërndara në këtë mënyrë: 19 artikuj i përkasin
kategorisë fizikë, 22 kategorisë matematikë, 25 kategorisë informatikë, 78 kategorisë
kimi, dhe 82 kategorisë biologji.
Vlerësimi u realizua duke përdorur metrikat standarde të vlerësimit të sistemeve
të gjetjes së informacionit (shiko nënkreun 2.2.4). Shpejtësia e rekomandimit nuk
ishte fokus vlerësimi.
Llogaritja e metrikave të mëposhtme u krye duke shqyrtuar artikujt e rekoman-
duar për 10 artikuj të rastësishëm të koleksionit tonë. Për të identifikuar artikujt e
ngjashëm (relevantë) me artikullin input, secili prej tyre u etiketua si "me lidhje" ose
58
"pa lidhje", skemë e përdorur edhe tek [61], por në rastin tonë u përdor një shkallë
vlerësimi binare.
Rezulatet e eksperimenteve paraqiten në Tabelën 5.1. E para që mund të dallohet
nga to është që përgjithësisht ekzekutimi i vetëm i rrënjëzuesit ka rezultuar në rezul-
tate më të mira. Kjo mund të shpjegohet me faktin që një pjesë prej fjalëve mund të
humbasin kuptimin nëse u aplikohet një ekzekutim iterativ i algoritmit të rrënjëzimit
të përdorur.
Rrënjëzimi Koeficientët e përdorur
𝜅= 0,4
𝜏= 0,3
𝛼= 0,2
𝛽= 0,1
𝜅= 0,0
𝜏= 0,6
𝛼= 0,4
𝛽= 0,0
𝜅= 0,4
𝜏= 0,0
𝛼= 0,0
𝛽= 0,6
Rrënjëzim me një ekzekutim
P = 0,31
R = 0,18
𝐹1= 0,23
P = 0,34
R = 0,20
𝐹1= 0,25
P = 0,32
R = 0,18
𝐹1= 0,23
Rrënjëzim me ekzekutim iterativ
P = 0,26
R = 0,15
𝐹1= 0,19
P = 0,29
R = 0,17
𝐹1= 0,21
P = 0,21
R = 0,12
𝐹1= 0,15
Tabela 5.1: Rezultatet e eksperimenteve me rekomandimin e artikujve shkencorë.
Pavarësisht rezultateve të ngushta mund të vëmë re që skema e peshimit që përdor
vetëm titullin dhe abstraktin performoi disi më mirë se ato që përfshinë dhe fjalët
kyçe në të. Kjo mund të jetë një tregues që në rastin e sistemeve të rekomandimit,
fjalët kyçe të zgjedhura manualisht jo gjithnjë ndihmojnë në gjetjen e informacionit
që kërkohet nga palët e interesuara.
Rezultatet nuk janë më të mira në rastin e përfshirjes së përmbajtjes së artikullit
në skemën e peshimit. Kjo mund të merret parasysh në ndërtimin e sistemeve reko-
manduese për artikuj shkencorë, duke qenë se shmangia e përdorimit të përmbajtjes
së artikujve ul ndjeshëm numrin e përllogaritjeve të nevojitura për rekomandimin.
sistemin e rekomandimit të ndërtuar nga Nascimento et al. [61] rezulatet e vlerësimit
në lidhje me cilësinë e rekomandimit ishin të ngjashme me tonat.
59
5.6 Përfundime dhe Rekomandime
Në këtë kre u përshkrua një sistem me arkitekturë modulare për të rekomanduar
artikujt shkencorë të shkruar në gjuhën shqipe. Pavarësisht bashkësisë të vogël të
testimit, rezultatet treguan fizibilitetin e një qasje të tillë edhe për aplikime në sisteme
të tjera gjetje informacioni.
Qasja e përdorur për rekomandim ishte e bazuar tek përmbajtja e artikujve [65].
Rrënjëzuesi i përdorur peformoi deri diku mirë për qëllimet e prototipit të ndërtuar,
por për situata më afër reales do të rekomandonim që lista e fjalëve të papërdorshme të
përditësohej me disa terma shumë të zakonshme në kontekstin e artikujve shkencorë.
Qëllimi i këtij sistemi ishtë të ofronte një "provë koncepti" (proof of concept), si
rrjedhojë qasja manuale e indeksimit që u krye ishte e mjaftueshme. Megjithatë kjo
qasje është larg asaj që do duhet të kishte një librari digjitale serioze.
Në momentin e shkrimit të këtij disertacioni, nuk ekziston ende një librari digjitale
publike kombëtare ku të jenë të indeksuara të gjithë punimet kërkimore të kryera në
Shqipëri. Kjo shërben si një pengesë për zhvillimin e kërkimit në vendin tonë dhe sh-
pesh herë rezultatet kërkimore "humbasin" duke penguar kërkuesit të zhvillojnë punë
kërkimore vijuese. Një librari e tillë që përfshin të integruar një sistem rekomandimi
të ngjashëm me atë çka u paraqit në këtë kre, do ishte një shtysë e madhe në këtë
drejtim. Fizibiliteti teknik i saj u tregua që është i mundshëm, pavarësisht faktit që
mjetet e përpunimit kompjuterik të gjuhës shqipe janë ende të pa pjekura plotësisht.
Artikujt në këtë librari digjitale mund të indeksohen nga vetë publikuesit siç
propozohet tek [36] dhe [35], ose të grumbullohen me një bredhës të posaçëm të
uebit, siç është propozuar tek [61] apo [11]. Të dyja qasjet janë të mundshme për
Shqipërinë, sepse duke qenë një vend relativisht i vogël, numri i publikimeve nuk
është shumë i madh.
60
Kreu 6
Dallimi i Temave të Lajmeve Shqip
Në këtë kre do të përshkruajmë një prototip të ndërtuar për dallimin e temave (shiko
nënkreun 2.3). Pikënisja e tij është përshkruar në punimin e botuar tek [31].
6.1 Përshkrimi i Problemit
Tashmë shumica e mediave shqiptare publikojnë një version online të tyre. Qofshin
këto gazeta, revista, radio, televizione, dhe së fundmi të ashtuquajturat portale (media
të publikuara vetëm online).
Edhe pse numri i lajmeve që publikohen çdo ditë në Shqipëri nuk është mjaftueshëm
i madh në krahasim me mediat botërore, përsëri mbingarkesa e informacionit që kri-
johet nga to e vështirëson ndjekjen e tyre. Problematika kryesore lind nga fakti
që i njëjti lajm mund të mbulohet nga disa media, ka dhe raste kur një version i
pandryshuar i një lajmi botohet në disa vende (p.sh. kur lajmi është prodhuar nga
një agjenci lajmesh). Kjo krijon një mori informacioni të duplikuar.
Është treguar që pastrimi i duplikatave i shoqëruar me një shfletim të orientuar
ndaj temës së lajmit rrit ndjeshëm eksperiencën e përdoruesve me sisteme gjetje
informacioni në ndihmë të shfletimit të lajmeve [68].
Shumica e motorëve të kërkimit për lajme të gjendura në internet, si dhe pro-
totipet akademike në këtë drejtim ofrojnë kategorizim të lajmeve në disa kategori
të paracaktuara (sport, politikë, ekonomi, etj.) [27]. Megjithatë kjo nuk mjafton,
61
përdoruesit mund të jenë të interesuar për një tematikë që shfaqet spontalisht (p.sh.
një problem me zgjedhjet elektronike në Shqipëri) dhe duan të lexojnë përditësime
të shpeshta për të. Përveç ngjarjeve të përditshme, ka raste kur tematika për një
ngjarje të caktuar zgjat më shumë se zakonisht (p.sh. mbulimi i ecurisë së zbulimeve
me rrëzimin e një avioni). Kjo lind nevojën për implementimin e dallimit automatik
të temave të lajmeve si dhe ndjekjes së vazhdueshme të lajmeve të reja në lidhje me
to (topic detection and tracking).
Ky i fundit është një problem i njohur prej vitesh në komunitetin kërkimor, me
shumë punime të botuara në lidhje me të [17,28,66]. Megjithatë, në dijeninë tonë, ky
është prototipi i parë i publikuar që trajton një sistem të tillë për lajmet e shkruara
në shqip.
Për rastin e studimit që jemi duke trajtuar, dallimi i temave duhet të kombinohet
me një grupim inkremental [8] të artikujve të lajmeve (shiko Algoritmin 1 më sipër).
Kjo për shkak të natyrës së krijimit të dokumenteve përkatëse, artikuj të rinj shtohen
në vijimësi të një ngjarje, ose mbulime të reja botohen nga media të ndryshme.
Në vijim të këtij kreu do të detajojmë dizenjimin dhe implementimin e prototipit
tonë si dhe do të përshkruajmë tiparet e bashkësisë së të dhënave të krijuar me këtë
rast.
6.1.1 Kriteret e Dizenjimit
Për prototipin e implementuar, u dizenjua paraprakisht një arkitekturë bazuar në
disa kritere dizenjimi. Më poshtë po rendisim këto të fundit:
1. Duhet të jetë i zgjerueshëm dhe i konfigurueshëm duke lejuar përdorimin dhe
eksperimentimin me algoritme të ndryshme.
2. Duhet të lejojë integrimin e mjeteve të ndryshme të përpunimit të gjuhës naty-
rore si p.sh. dallues të entiteve të emëruara (shiko kreun 4).
3. Duhet të indeksojë artikuj lajmesh të grumbulluara nga burime të ndryshme.
Kjo duhet të jetë një shtresë / modul i pavarur nga pjesa e dallimit dhe ndjekjes
së temave.
62
4. Parametrat e ekzekutimit të algoritmeve duhet të jenë të konfigurueshme.
6.2 Mjete dhe Metoda
6.2.1 Grumbullimi i Lajmeve
Shumica e punimeve të raportuara në literaturë në lidhje me sisteme të ngjashme,
shfrytëzojnë formatin RSS1ose ATOM2për sigurimin e lajmeve [9, 27,41, 49].
Problematika me këtë qasje qëndron në faktin që jo të gjithë sistemet e publikimit
online të mediave i mbështesin këto formate. Lehtësia në implementim nga ana tjetër
është shume e madhe. Duke qenë formate standarde, nuk nevojitet shkrimi i moduleve
specifike softuerike për sigurimin e artikujve të lajmeve nga media të ndryshme.
Alternativa tjetër e sigurimit të lajmeve është shkrimi i mbledhësve (crawler) të
lajmeve nga faqet e internetit në format HTML, pra të dhëna gjysëm të strukturuara
[64]. Ky proces kërkon punë specifike, shpesh herë jo të ripërdorshme. Për më tepër
është i ndjeshëm ndaj ndryshimeve, struktura e faqeve të internetit mund të ndrysho
shpesh. Nga ana tjetër, mbledhja e lajmeve nga formati HTML, mund të siguro
të dhëna konteksti më të mira, si p.sh. pozicionimi i lajmeve në faqen e parë, i cili
mund të përdoret si tregus rëndësie / aktualiteti të tematikës që ai trajton.
6.2.2 Indeksimi
Indekset tf-idf kombinuar me metrikën e ngjashmërisë të bazuar në kosinus, janë më
të përdorurat edhe për sisteme të tilla [9, 17,27, 66].
E njëjta qasje përdoret edhe në një prototip grupimi të lajmeve të botuara në shqip
raportuar nga Kadriu [38]. Në këtë punim autorja nuk përdor përpunime paraprake
të fjalëve specifike për gjuhën shqipe (rrënjëzim, eleminim të fjalëve më të shpeshta).
Grupimi ka arritur rezultate të mira (saktësi, kthim) për një grup kategorishë të
paracaktuara (lajme të fundit, botë, sport, ekonomi, teknologji, kulturë, showbiz).
1https://www.rssboard.org/rss-specification
2https://datatracker.ietf.org/doc/html/rfc5023
63
Si alternativë janë provuar metrika ngjashmërie të bazuara tek konceptet [13,84],
zakonisht duke shfrytëzuar WordNet [90]. Këto metrika shfrytëzojnë sinonimet e
fjalëve duke tentuar një qasje semantike për kuptimin e përmbajtjes së dokumenteve.
Siç e kemi përmendur dhe më parë, WordNet në shqip është i limituar, si rrjedhojë
një qasje e tillë nuk është ende fizible për shqipen. Gjithsesi shumica e punimeve të
hulumtuara gjatë zhvillimit të këtij prototipi nuk raportojnë mbi rezultate mjaftuesh-
mërisht më të mira në krahasim me metrikat që shfrytëzojnë tf-idf.
6.3 Qasja e Zhvilluar
Në Figurën 6-1 paraqitet arkitektura e prototipit të implementuar në përputhje me
kriteret e dizenjimit të përmendura më lart. Në mënyrë të ngjashme me sistemet
paraqitura në kretë e tjera të këtij disertacioni, edhe kjo arkitekturë është modulare
dhe modulet janë ndërtuar me çiftim të ulët. Prototipi është zhvilluar në gjuhën e
programimit Python.
Mbledhësit
e Lajmeve
Përpunuesi
Paraprak Indeksuesi
Grupuesi
Dalluesi i Temave
(LDA)
Dalluesi i
Entiteteve të
Emëruara
DB e Indeksit të
Lajmeve
Figura 6-1: Arkitektura e dalluesit të temave të lajmeve.
Më poshtë do të detajojmë modulet përbërëse.
Mbledhësit e lajmeve, të zhvilluar në kornizën e programimit Scrapy3të gjuhës
Python, shfrytëzojnë versionet HTML të faqeve të internetit të mediave të ndryshme.
3https://scrapy.org/
64
Kjo kërkon që të zhvillohen mbledhës të posaçëm për secilin nga botuesit e lajmeve
që do të indeksohen nga ky sistem.
Përpunuesi paraprak ka disa detyra: eleminon fjalët më të shpeshta në shqip
(stopwords), aplikon rrënjëzuesin e shqipes (është përdorur versioni i algoritmit i
Sadiku dhe Biba [73]), si dhe eleminon të gjithë elementët e tekstit që nuk janë
fjalë (sekuenca numrash, shenja pikësimi, etj.). Për më tepër sigurohemi që të gjithë
artikujt që do të përfshihen në koleksion janë shkruar në gjuhën shqipe. Për këtë
përdoret konfigurimi i përshkruar për identifikimin e gjuhës në Kreun 3.
Dalluesi i temave shfrytëzon caktimin e fshehtë të Dirikleut (LDA, shiko nënkreun
2.3) për të dalluar tematikat e trajtuara nga lajmet. Temat konkrete që dallohen
paraqiten si vektorë me vlera numerike. Për këtë modul është shfrytëzuar versioni i
implementuar nga libraria scikit-learn4e Python.
Grupuesi implementon qasjen tonë të grupimit të temave. Shfrytëzon një heuris-
tikë të posaçme që kombinon modelet e temave me indeksin tf-idf. Modelet e temave
ofrohen nga moduli i posaçëm i dallimit të tyre. E njëjta vlen dhe për indeksin tf-idf.
Indeksuesi është përgjegjës për indeksimin e artikujve të lajmeve dhe ruajtjen e
tyre në bazën e të dhënave të indeksit. Për çdo lajm ruhen të dhënat shoqëruese të
mbledhura nga mbledhësit (titulli, data, kategoria, etj.) si dhe metrikat e përllogarit-
ura (tf-idf, lda, grupimi). Për përllogaritjen e indeksit tf-idf përdoret përsëri versioni
i implementuar nga libraria scikit-learn5.
Dalluesi i Entiteteve të Emëruara shfrytëzon versionin e ofruar nga Apache OpenNLP
dhe korpusin e gjeneruar automatikisht të përshkruar në kreun 4. Ky modul vepron
i pavarur nga pjesa tjetër e prototipit, duke përditësuar drejtpërdrejtë DB e indeksit
të lajmeve.
Baza e të Dhënave (DB) të Indeksit të Lajmeve u implementua duke shfrytëzuar
4https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.
LatentDirichletAllocation.html
5https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.
text.TfidfVectorizer.html
65
MongoDB6, një bazë të dhënash NoSQL. Për çdo lajm ruajmë një dokument në një
koleksion të posaçëm. Në të ruhen të dhënat shoqëruese të lajmeve (metadata) si
dhe të gjithë të dhënat e përllogaritura nga indeksuesi dhe dalluesi i entiteteve të
emëruara.
6.3.1 Metrika e Grupimit
Për grupimin e lajmeve u përdor Algoritmi 1 i përshkruar tek nënkreu 2.2.2. Si
metrikë ngjashmërie u përdor ngjashmëria e bazuar në kosinus e hapësirës lineare.
Pragu i ngjashmërisë është i konfigurueshëm (minimumi i kosinusit të ngjashmërisë
që dy lajme të grupohen bashkë).
Përdoren dy variante konkrete, që prodhojnë dy grupime (kategorizime, shih
nënkreun 2.3.1) të ndryshme:
1. Grupimi sipas një metrike indeksimi që kombinon ngjashmërinë sipas indeksit
tf-idf (duke përdorur të gjithë përmbajtjen e artikullit) me ngjashmërinë sipas
modelit të temave LDA.
𝑠𝑖𝑚(𝑑1, 𝑑2) = 𝛼 𝑠𝑖𝑚𝑡𝑓𝑖𝑑𝑓 (𝑑1, 𝑑2) + 𝛽 𝑠𝑖𝑚𝐿𝐷𝐴 (𝑑1, 𝑑2)
ku 𝛼+𝛽= 1,0. Arsyeja e përdorimit të kësaj metrike të kombinuar ishte për të
ulur numrin e lajmeve të pagrupuara gabimisht (false negatives) si shkak i ng-
jashmërisë të ulët tf-idf për rrjedhojë të problematikave që ka faza e përpunuesit
paraprak (e cila varet nga mjetet e përpunimit të gjuhës natyrore).
2. Grupimi sipas ngjashmërisë së vektorëve të temave të prodhuar nga LDA. Në
fakt kjo është e barazvlefshme me përdorimin e metrikës më sipër me këto
koeficientë: 𝛼= 0, 𝛽 = 1.
6https://www.mongodb.com/
66
6.3.2 Konfigurimet e Mundshme
Për të plotësuar kriterin e dizenjimit të lidhur me një konfigurueshmëri të lartë,
prototipi i ndërtuar ofron përdorimin e konfigurimeve të mëposhtme:
1. Korniza kohore e përdorur për grupimin. Distanca maksimale kohore midis dy
lajmeve në mënyrë që ato të grupohen bashkë (pavarësisht ngjashmërisë).
2. Pragu i ngjashmërisë i përdorur nga algoritmi i grupimit.
3. Koeficientët e metrikës së ngjashmërisë.
4. Numri maksimal i termave të përdorura në matricën e indeksit tf-idf.
5. Numri i komponentëve LDA (i kërkuar nga implementimi i kryer nga scikit-learn
për këtë algoritëm).
6.4 Rezultate
Vlerësimi i prototipit të ndërtuar ishte i pamundur të realizohej sipas rekomandimeve
në literaturë dhe punëve të ngjashme të autorëve të tjerë [17, 23]. Qasja e zakon-
shme është krahasimi i rezultateve të algoritmeve me bashkësi të dhënash testuese të
etiketuara manualisht. Krijimi i saj kërkon burime të konsiderueshme (duke qenë se
etiketimi kryhet manualisht). Në momentin e shkrimit të këtij disertacioni, ende nuk
ka një bashkësi të tillë testuese për artikuj lajmesh të shkruara në gjuhën shqipe.
Si rrjedhojë, më poshtë do të detajojmë rezulatet e arritura bazuar në testime
manuale (shqyrtim rezultatesh të eksperimenteve) si dhe përshkrimin në detaje të
bashkësisë së të dhënave të krijuar. Pas eksperimenteve të shumta, rezultatet më
bindëse u arritën për konfigurimin e prototipit me parametrat e paraqitura në Tabelën
6.1.
U shkruajtën mbledhës (crawlers) për 10 media online që botojnë artikuj në shqip.
Për secilin lajm ruhen të dhëna si: titulli, përmbajtja, data e publikimit, foto kryesore,
video kryesore, a është publikuar në faqen e parë, kategori (bazuar tek kategorizimi
67
Parametri Vlera
Korniza kohore e përdorur për grupim 3 ditë
Pragu i ngjashmërisë i përdorur nga algoritmi i grupimit 0,6
Koeficientët e metrikës së ngjashmërisë 𝛼= 0,6,𝛽= 0,4
Numri maksimal i termave të matricës tf-idf 5000
Numri i komponenteve LDA (temave) 50
Tabela 6.1: Konfigurimet e prototipit të dallimit të temave që arritën rezultatet më
bindëse.
manual nga ofruesi), etj. Në Figurën 6-2 paraqitet një shembull i një dokumenti
artikulli lajmesh nga DB e indeksit.
Figura 6-2: Shembull i një dokumenti artikulli lajmesh në DB e indeksit.
Për bashkësinë e të dhënave të këtij punimi u grumbulluan 388.325 lajme të pub-
likuara nga 25 qershor 2008 (disa nga ofruesit e lajmeve përmbanin në faqen e tyre
dhe arkivën e lajmeve) në 5 Dhjetor 2019. Shpërndarja sipas mediave ofruesve të
lajmeve paraqitet në Tabelën 6.2.
Totalet e grupimeve të përftuara janë paraqitur në Tabelën 6.3. Numri i grupimeve
është i madh. Një nga arsyet që kanë rezultuar në këtë numër është shpërndarja kohore
68
Publikuesi Totali i Lajmeve
Gazeta Panorama 107.745
Gazeta Shqip 44,133
Gazeta 55 30.405
Gazeta Tema 71.990
Top Channel 8.987
TV Klan 27.535
Ora News 17.134
BalkanWeb 63.103
ABC News 6.565
Shekulli 10.728
Totali 388.325
Tabela 6.2: Totali i lajmeve të mbledhura për çdo ofrues lajmesh.
e lajmeve. Pra lajmet e përfshira në bashkësinë e të dhënave testuese janë publikuar
në një periudhë të gjatë kohore.
Në Tabelën 6.4 paraqitet një shembull grupimi me anë të metrikës së kombinuar,
ndërsa në Tabelën 6.5 paraqitet një shembull grupimi me anë të metrikës së bazuar
në LDA.
Metrika e Ngjashmërisë Totali i Grupimeve
Kombinimi i TF-IDF me LDA 264.001
Vetëm LDA 383.325
Tabela 6.3: Totalet e grupimeve për metrikat e ngjashmërisë të përdorura.
Përsa i përket dallimit të entiteve të emëruara (DEE), në Tabelën 6.6 paraqiten
totalet e dokumenteve me të paktën një entitet të emëruar në to sipas kategorive
përkatëse. Ndërsa në Figurën 6-3, është paraqitur një shembull i entiteteve të emëru-
ara të dalluara tek një lajm. Mund të vihen re dhe dy entitete të dalluara gabim, ku
mesa duket problemi ka lindur nga fakti që frazat në fjalë janë shkruar me shkronja
të mëdha.
Më poshtë (Figura 6-4) paraqiten disa fjali të etiketuara me entitete vendndodhje
nga teksti i lajmit të paraqitur në Figurën 6-3. Edhe këtu mund të vihet re një
69
Data Media Titulli i Lajmit
2018-07-05 shqip “Peshqit e mëdhenj”, Basha, Lu-së: Mos gënjeni veten, ulen
pranë teje
2018-07-05 balkanweb “Peshqit e mëdhenj”, Basha-ambasadorit Lu: Mos gënjeni
veten, peshqit e mëdhenj i keni në krah
2018-07-05 balkanweb “Qeveria dështoi me Klement Balilin”, Rama i përgjigjet am-
basadorit Lu: Do të kapet (Video)
2018-07-05 panorama Basha thirrje ambasadorëve: Mos gënjeni veten tuaj, ja ku
i keni peshqit e mëdhenj! (video)
Tabela 6.4: Shembull grupimi me metrikën e kombinuar (tf-idf / LDA).
Data Media Titulli i Lajmit
2017-10-27 balkanweb Veliaj: Rrjet tregjesh publike moderne në çdo njësi, fund
fenomenit të shitjes në rrugë
2017-10-27 panorama Nisin punimet për rehabilitim e tregut te “Mine Peza” ,
Veliaj: S’ka më shitje në rrugë
2017-10-27 tema Fund shitjes në rrugë, Veliaj: Rrjet tregjesh publike mod-
erne në çdo njësi
2017-10-27 klan Rrjet tregjesh publike në çdo njësi
Tabela 6.5: Shembull grupimi me metrikën e bazuar në LDA.
Kategoria EE Totali i Dokumenteve Totali në Përqindje
Person 116.139 30,3%
Vendndodhje 196.807 50,7%
Organizatë 136.404 35,1%
Tabela 6.6: Totalet e EE të dalluara për çdo kategori.
70
Figura 6-3: Shembull i EE të dalluara në një artikull lajmi.
etiketim jo plotësisht i saktë tek fjalia e parë. Fjala "Shqipëria" në atë kontekst është
pjesë e emrit të një partie politike.
Gjithashtu shumë fjali të tjera të këtij lajmi nuk janë etiketuar siç duhet (kthimi
është i ulët). Problematika në fakt është konfirmim i rezultateve të arritura me
korpusin e paraqitur në Kreun 4.
Figura 6-4: Shembull i një lajmi të etiketuar me entitete të emëruara.
6.5 Përfundime dhe Rekomandime
Në këtë kre u përshkrua prototipi i një sistemi të dallimit dhe ndjekjes së temave të
artikujve të lajmeve të shkruara në shqip. Në dijeninë tonë, ky është prototipi i parë
71
i tillë i raportuar në literaturë. Ai shërben si vërtetim koncepti (proof of concept) për
zhvillimin e sistemeve të tilla në industri.
Bashkësia e të dhënave të krijuara, 388.325 artikuj lajmesh të grupuara dhe etike-
tuara me entitete të emëruara mund të shërbejë si bazë për punime të mëtejshme.
Bllokues në zhvillimin e mëtejshëm të sistemeve të tilla është fakti që mungon
një bashkësi të dhënash testuese për këtë qëllim. Në mungesë të saj vështirësohet
shumë eksperimentimi me konfigurime të larmishme të sistemeve të tilla, meto
bazë e punës me sistemet e gjetjes së informacionit. Do të rekomandonim punime të
ardhshme në këtë drejtim. Për të ulur koston e krijimit të një bashkësie të dhënash të
tillë, mund të konsiderohen qasje që shfrytëzojnë kontributin e komunitetit, nëpërmjet
incentivave të ndryshme si shpërblimi apo lojëra angazhuese [47,57].
Dallimi i entiteteve të emëruara mundëson aplikimin e algoritmeve të person-
alizimit të përmbajtjes bazuar tek entitetet përfshirëse. Gjithashtu nëse zbulohen
marrëdhëniet (relations) midis entiteteve të emëruara në tekst, mund të kalohet drejt
krijimit të një bazë njohurishë me fakte të nxjerra nga lajmet [34, 81].
72
Kreu 7
Rezultate dhe Përfundime
Në këtë disertacion u paraqiten aplikime të teknikave të sistemeve të gjetjes së in-
formacionit në koleksione dokumentesh (artikuj lajmesh dhe artikuj shkencorë) në
gjuhën shqipe. Duke qenë se këto sisteme janë të lidhura ngushtë me metodat e për-
punimit të gjuhës natyrore, u kryen hulumtime dhe u krijuan rezulate konkrete edhe
në këtë drejtim.
Më poshtë po rendisim rezultatet konkrete të punës kërkimore të paraqitur në
këtë disertacion:
1. U identifikua algoritmi më i saktë i identifikimit të gjuhës shqipe si dhe u ndërtua
një model trajnues për qasjen e mësimit të makinës të implementuar në të që
maksimizon saktësinë e identifikimit.
2. U ndërtua një korpus i gjeneruar automatikisht nëpërmjet WikiPedia dhe Wiki-
Data për dallimin e entiteteve të emëruara në gjuhën shqipe. Korpusi në fjalë,
në dijeninë tonë i pari i këtij lloji, përmban rreth 25.000 fjali të etiketuara me
entitete të emëruara të këtyre kategorive: person, vendndodhje, organizatë.
3. U ndërtua një gazetteer (listë entitesh) në ndihmë të dallimit të entiteteve të
emëruara që përmban 52.910 zëra në total.
4. U propozua një arkitekturë dhe një implementim konkret i saj në një sistem
rekomandimi artikujsh shkencorë në gjuhën shqipe. Kjo shërben si provë e
73
fizibilitetit të sistemeve të tilla edhe për dokumente të ndryshme nga artikujt
shkencorë.
5. U dizenjua arkitektura dhe u implementua një prototip i një sistemi për dallimin
dhe ndjekjen e temave të dokumenteve në gjuhën shqipe (konkretisht në rastin
tonë artikujt e lajmeve). Kjo gjithashtu shërben si provë fizibiliteti për krijimin
e sistemeve të tilla të ngjashme.
6. U krijua një korpus prej 388.325 artikuj lajmesh që përfshijnë të dhëna shoqëruese
të mbledhura nga versioni i tyre i publikuar online. Lajmet në këtë korpus janë
të grupuara sipas një metrike të posaçme që kombinon dallimin e temave nëpër-
mjet LDA me metodën tradicionale të grupimit nëpërmjet ngjashmërisë bazuar
tek një indeks tf-idf. Gjithashtu një pjesë e mirë e artikujve të lajmeve në
këtë korpus përmbajnë etiketime të entiteteve të emëruara në kategoritë per-
son, vendndodhje, organizatë. Kjo u realizua nëpërmjet korpusit të përmendur
në pikën 2 më sipër.
Vështirësia kryesore e punës në lidhje me këtë disertacion ishte fakti që shqipja
është një gjuhë me burime të kufizuara në lidhje me mjetet e përpunimit të gjuhës
natyrore, të cilat shumica përdorin një qasje të mësimit të makinës. Kontributi ynë
në këtë drejtim është shumë larg të qenurit shterues. Nevojiten punë të mëtejshme
që të prodhojnë mjete themelore që i mungojnë këtij lëmi si: etiketues të pjesëve
të ligjëratës (part-of-speech tagger), rrënjëzues me cilësi të lartë (stemmer), korpuse
trajnuese në lidhje me dallimin e entiteteve të emëruara (gold standard), etj.
Një pengesë tjetër ishte mungesa e bashkësive të të dhënave testuese që shër-
bejnë për zhvillimin e algoritmeve të ndryshme në lidhje me sistemet e gjetjes së
informacionit. Në mënyrë që të nxitet zhvillimi i këtyre të fundit, nevojiten punë të
mëvonshme në këtë drejtim.
Për të qënë në të njëjtën linjë me zhvillimet e përpunimit të gjuhës natyrore
për gjuhë të tjera, të cilat tashmë po orientohen drejt "të kuptuarit të gjuhës" [22],
punime në të ardhmen mund të hulumtojnë mbi aplikimin e metodave të bazuara në
rrjetet neurale për përpunimin dhe kuptimin e gjuhës natyrore.
74
Duke e përmbyllur, mund të theksojmë që mjetet dhe teknikat ekzistuese të sis-
temeve të gjetjes së informacionit për gjuhë të tjera funksionojnë mjaft mirë edhe
për shqipen nëse disponohen mjetet mbështetëse në lidhje me to të përshkruara më
sipër. Zhvillimi i mëtejshëm i sistemeve të gjetjes së informacionit për dokumente në
gjuhën shqipe (në akademi dhe industri) do ishte një nxitje në ndihmë të vijimësisë
së përdorimit të shqipes në fusha të ndryshme të shoqërisë.
75
Artikuj dhe Konferenca
[1] Klesti Hoxha. Towards a topic detection and tracking framework for albanian
news. In Proceedings of the Annual South-East European Doctoral Student Con-
ference, pages 421–432, 2014.
[2] Klesti Hoxha and Artur Baxhaku. Albanian language identification in text docu-
ments. Buletini i Shkencave të Natyrës, 23, 2017.
[3] Klesti Hoxha and Artur Baxhaku. An automatically generated annotated corpus
for albanian named entity recognition. Cybernetics and Information Technologies,
18(1):95–108, 2018.
[4] Klesti Hoxha, Artur Baxhaku, and Ilia Ninka. Bootstrapping an online news
knowledge base. In International Conference on Web Engineering, pages 501–506.
Springer, 2016.
[5] Klesti Hoxha, Alda Kika, and Eriglen Gani. A service-oriented digital library for
scientific articles published in albania. In Proceedings of the 5th International
Conference on Information Systems and Technology Innovations, pages 421–432,
2014.
[6] Klesti Hoxha, Alda Kika, Eriglen Gani, and Silvana Greca. Towards a modu-
lar recommender system for research papers written in albanian. International
Journal of Advanced Computer Science and Applications, 5(4), 2014.
[7] Gridi Kono and Klesti Hoxha. Named entity recognition in albanian based on
crfs approach. In Proceedings of the 2nd International Conference Recent Trends
and Applications in Computer Science and Information Technology, pages 47–52,
2016.
[8] Eleni Stefani and Klesti Hoxha. Implementing triple-stores using nosql databases.
In RTA-CSIT, pages 86–92, 2018.
76
Referenca
[1] Bashir Ahmed, Sung-Hyuk Cha, and Charles Tappert. Language identification
from text using n-gram based cumulative frequency addition. Proceedings of Stu-
dent/Faculty Research Day, CSIS, Pace University, pages 12–1, 2004.
[2] Rubayyi Alghamdi and Khalid Alfalqi. A survey of topic modeling in text mining.
International Journal of Advanced Computer Science and Applications, 6(1), 2015.
[3] Ioannis Arapakis, Luis A Leiva, and B Barla Cambazoglu. Know your onions:
Understanding the user experience with the knowledge module in web search. In
Proceedings of the 24th ACM International on Conference on Information and
Knowledge Management, pages 1695–1698. ACM, 2015.
[4] Giuseppe Attardi, Vittoria Cozza, and Daniele Sartiano. Adapting linguistic tools
for the analysis of italian medical records. In Proceedings of the First Italian Con-
ference on Computational Linguistics CLiC-it & the Fourth International Work-
shop EVALITA, pages 17–22, December 2014.
[5] Giuseppe Attardi, Vittoria Cozza, and Daniele Sartiano. Annotation and extrac-
tion of relations from italian medical records. In IIR, 2015.
[6] Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak,
and Zachary Ives. Dbpedia: A nucleus for a web of open data. In Proceedings of
the 6th International The Semantic Web and 2Nd Asian Conference on Asian Se-
mantic Web Conference, ISWC’07/ASWC’07, pages 722–735, Berlin, Heidelberg,
2007. Springer-Verlag.
[7] Grant Ayers, Jung Ho Ahn, Christos Kozyrakis, and Parthasarathy Ranganathan.
Memory hierarchy for web search. In 2018 IEEE International Symposium on High
Performance Computer Architecture (HPCA), pages 643–656. IEEE, 2018.
[8] Joel Azzopardi and Christopher Staff. Incremental clustering of news reports.
Algorithms, 5(3):364–378, 2012.
[9] Joel Azzopardi and Christopher Staff. Incremental clustering of news reports.
Algorithms, 5(3):364–378, 2012.
[10] Xiaomei Bai, Mengyang Wang, Ivan Lee, Zhuo Yang, Xiangjie Kong, and Feng
Xia. Scientific paper recommendation: A survey. IEEE Access, 7:9324–9339, 2019.
77
[11] Joeran Beel, Bela Gipp, Stefan Langer, and Marcel Genzmehr. Docear: An aca-
demic literature suite for searching, organizing and creating academic literature.
In Proceedings of the 11th annual international ACM/IEEE joint conference on
Digital libraries, pages 465–466, 2011.
[12] Oliver Bender, Franz Josef Och, and Hermann Ney. Maximum entropy models
for named entity recognition. In Proceedings of the Seventh Conference on Natural
Language Learning at HLT-NAACL 2003 - Volume 4, CONLL ’03, pages 148–151,
Stroudsburg, PA, USA, 2003. Association for Computational Linguistics.
[13] Sonia Bergamaschi, Francesco Guerra, Mirko Orsini, Claudio Sartori, and Maur-
izio Vincini. Relevant news: a semantic news feed aggregator. SEMANTIC WEB
APPLICATIONS AND PERSPECTIVES (SWAP 2007), page 150, 2007.
[14] David M Blei. Probabilistic topic models. Communications of the ACM,
55(4):77–84, 2012.
[15] Ralf D Brown. Selecting and weighting n-grams to identify 1100 languages. In
International Conference on Text, Speech and Dialogue, pages 475–483. Springer,
2013.
[16] Robin Burke. Hybrid recommender systems: Survey and experiments. User
modeling and user-adapted interaction, 12(4):331–370, 2002.
[17] Fazli Can, Seyit Kocberber, Ozgur Baglioglu, Suleyman Kardas, H Cagdas
Ocalan, and Erkan Uyar. New event detection and topic tracking in turkish. Jour-
nal of the American Society for Information Science and Technology, 61(4):802–
819, 2010.
[18] Paris Carbone, Asterios Katsifodimos, Stephan Ewen, Volker Markl, Seif Haridi,
and Kostas Tzoumas. Apache flink: Stream and batch processing in a single
engine. Bulletin of the IEEE Computer Society Technical Committee on Data
Engineering, 36(4), 2015.
[19] William B Cavnar, John M Trenkle, et al. N-gram-based text categorization.
In Proceedings of SDAIR-94, 3rd annual symposium on document analysis and
information retrieval, volume 161175, 1994.
[20] Shiyu Chang, Yang Zhang, Jiliang Tang, Dawei Yin, Yi Chang, Mark A
Hasegawa-Johnson, and Thomas S Huang. Streaming recommender systems. In
Proceedings of the 26th international conference on world wide web, pages 381–389,
2017.
[21] Mark Davis and L Iancu. Unicode text segmentation. Unicode Standard Annex,
29, 2012.
[22] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert:
Pre-training of deep bidirectional transformers for language understanding. arXiv
preprint arXiv:1810.04805, 2018.
78
[23] Jonathan G Fiscus and George R Doddington. Topic detection and tracking
evaluation overview. In Topic detection and tracking, pages 17–31. Springer, 2002.
[24] Bela Gipp, Jöran Beel, and Christian Hentschel. Scienstein: A research paper
recommender system. In Proceedings of the international conference on Emerging
trends in computing (ICETiC’09), pages 309–315, 2009.
[25] Carlos A Gomez-Uribe and Neil Hunt. The netflix recommender system: Al-
gorithms, business value, and innovation. ACM Transactions on Management
Information Systems (TMIS), 6(4):1–19, 2015.
[26] Gregory Grefenstette. Comparing two language identification schemes. In Pro-
ceedings of Analisi Statistica dei Dati Testuali (JADT), pages 263–268, 1995.
[27] Antonio Gulli. The anatomy of a news search engine. In Special interest tracks
and posters of the 14th international conference on World Wide Web, pages 880–
881. ACM, 2005.
[28] Viet Ha-Thuc, Yelena Mejova, Christopher Harris, and Padmini Srinivasan. A
relevance-based topic model for news event tracking. In Proceedings of the 32nd
international ACM SIGIR conference on Research and development in informa-
tion retrieval, pages 764–765. ACM, 2009.
[29] Jonathan L Herlocker, Joseph A Konstan, Loren G Terveen, and John T Riedl.
Evaluating collaborative filtering recommender systems. ACM Transactions on
Information Systems (TOIS), 22(1):5–53, 2004.
[30] Thomas Hofmann. Unsupervised learning by probabilistic latent semantic anal-
ysis. Machine learning, 42(1):177–196, 2001.
[31] Klesti Hoxha. Towards a topic detection and tracking framework for albanian
news. In Proceedings of the Annual South-East European Doctoral Student Con-
ference, pages 421–432, 2014.
[32] Klesti Hoxha and Artur Baxhaku. Albanian language identification in text doc-
uments. Buletini i Shkencave të Natyrës, 23, 2017.
[33] Klesti Hoxha and Artur Baxhaku. An automatically generated annotated corpus
for albanian named entity recognition. Cybernetics and Information Technologies,
18(1):95–108, 2018.
[34] Klesti Hoxha, Artur Baxhaku, and Ilia Ninka. Bootstrapping an online news
knowledge base. In International Conference on Web Engineering, pages 501–506.
Springer, 2016.
[35] Klesti Hoxha, Alda Kika, and Eriglen Gani. A service-oriented digital library
for scientific articles published in albania. In Proceedings of the 5th International
Conference on Information Systems and Technology Innovations, pages 421–432,
2014.
79
[36] Klesti Hoxha, Alda Kika, Eriglen Gani, and Silvana Greca. Towards a modu-
lar recommender system for research papers written in albanian. International
Journal of Advanced Computer Science and Applications, 5(4), 2014.
[37] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2Nd
Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 2009.
[38] Arbana Kadriu. Albanian news clustering. In Proceedings of the 4th International
Conference on Information Systems and Technology Innovations, 2013.
[39] Wahiba Ben Abdessalem Karaa and Nidhal Gribâa. Information retrieval with
porter stemmer: a new version for english. In Advances in computational science,
engineering and information technology, pages 243–254. Springer, 2013.
[40] Nikitas N Karanikolas. Bootstrapping the albanian information retrieval. In
2009 Fourth Balkan Conference in Informatics, pages 231–235. IEEE, 2009.
[41] Ioannis Katakis, Grigorios Tsoumakas, Evangelos Banos, Nick Bassiliades, and
Ioannis Vlahavas. An adaptive personalized news dissemination system. Journal
of Intelligent Information Systems, 32(2):191–212, 2009.
[42] Roman Kern, Kris Jack, Maya Hristakeva, and Michael Granitzer. Teambeam-
meta-data extraction from scientific literature. D-Lib Magazine, 18(7):1, 2012.
[43] Gridi Kono and Klesti Hoxha. Named entity recognition in albanian based on
crfs approach. In Proceedings of the 2nd International Conference Recent Trends
and Applications in Computer Science and Information Technology, pages 47–52,
2016.
[44] Gerald Kowalski. Information retrieval architecture and algorithms. Springer,
New York, 2011.
[45] Matevž Kunaver and Tomaž Požrl. Diversity in recommender systems–a survey.
Knowledge-based systems, 123:154–162, 2017.
[46] John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional random
fields: Probabilistic models for segmenting and labeling sequence data. In Pro-
ceedings of the eighteenth international conference on machine learning, ICML,
volume 1, pages 282–289, 2001.
[47] Matthew Lease and Emine Yilmaz. Crowdsourcing for information retrieval:
introduction to the special issue. Information retrieval, 16(2):91–100, 2013.
[48] Joonseok Lee, Kisung Lee, and Jennifer G Kim. Personalized academic research
paper recommendation system. arXiv preprint arXiv:1304.5457, 2013.
[49] Xin Li, Jun Yan, Zhihong Deng, Lei Ji, Weiguo Fan, Benyu Zhang, and Zheng
Chen. A novel clustering-based rss aggregator. In Proceedings of the 16th inter-
national conference on World Wide Web, pages 1309–1310. ACM, 2007.
80
[50] Marco Lui and Timothy Baldwin. Cross-domain feature selection for language
identification. In Proceedings of 5th international joint conference on natural
language processing, pages 553–561, 2011.
[51] Marco Lui and Timothy Baldwin. langid. py: An off-the-shelf language identifi-
cation tool. In Proceedings of the ACL 2012 system demonstrations, pages 25–30,
2012.
[52] James P Mallory, Douglas Q Adams, and Douglas Q Adams. Encyclopedia of
Indo-European Culture. Taylor & Francis, 1997.
[53] Christopher Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction
to information retrieval. Cambridge University Press, New York, 2008.
[54] Lluis Marquez, Lluis Padro, and Horacio Rodriguez. A machine learning ap-
proach to pos tagging. Machine Learning, 39(1):59–91, 2000.
[55] Bruno Martins and Mário J Silva. Language identification in web pages. In
Proceedings of the 2005 ACM symposium on Applied computing, pages 764–768,
2005.
[56] Andrew McCallum and Wei Li. Early results for named entity recognition with
conditional random fields, feature induction and web-enhanced lexicons. In Pro-
ceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL
2003 - Volume 4, CONLL ’03, pages 188–191, Stroudsburg, PA, USA, 2003. As-
sociation for Computational Linguistics.
[57] Richard MC McCreadie, Craig Macdonald, and Iadh Ounis. Crowdsourcing a
news query classification dataset. In Proceedings of the ACM SIGIR 2010 work-
shop on crowdsourcing for search evaluation (CSE 2010), pages 31–38. Citeseer,
2010.
[58] Ida Mele and Fabio Crestani. Event detection for heterogeneous news streams.
In International Conference on Applications of Natural Language to Information
Systems, pages 110–123. Springer, 2017.
[59] Ruihui Mu and Xiaoqin Zeng. Collaborative filtering recommendation algorithm
based on knowledge graph. Mathematical Problems in Engineering, 2018, 2018.
[60] Shuyo Nakatani. Language detection library for java, 2010.
[61] Cristiano Nascimento, Alberto HF Laender, Altigran S da Silva, and Marcos An-
dré Gonçalves. A source independent framework for research paper recommenda-
tion. In Proceedings of the 11th annual international ACM/IEEE joint conference
on Digital libraries, pages 297–306, 2011.
[62] Dávid Márk Nemeskey and Eszter Simon. Automatically generated ne tagged
corpora for english and hungarian. In Proceedings of the 4th Named Entity Work-
shop, pages 38–46. Association for Computational Linguistics, 2012.
81
[63] Jakob Nielsen. Usability engineering. Academic Press, Boston, 1993.
[64] Georgios Paliouras, Alexandros Mouzakidis, Vassileios Moustakas, and Christos
Skourlas. Pns: A personalized news aggregator on the web. In Intelligent inter-
active systems in knowledge-based environments, pages 175–197. Springer, 2008.
[65] Michael J Pazzani and Daniel Billsus. Content-based recommendation systems.
In The adaptive web, pages 325–341. Springer, 2007.
[66] Raymond K Pon, Alfonso F Cardenas, David Buttler, and Terence Critchlow.
Tracking multiple topics for finding interesting articles. In Proceedings of the 13th
ACM SIGKDD international conference on Knowledge discovery and data mining,
pages 560–569. ACM, 2007.
[67] Martin F Porter. An algorithm for suffix stripping. Program, 14(3):130–137,
1980.
[68] Dragomir Radev, Jahna Otterbacher, Adam Winkel, and Sasha Blair-
Goldensohn. Newsinessence: summarizing online news topics. Communications
of the ACM, 48(10):95–98, 2005.
[69] Delip Rao, Paul McNamee, and Mark Dredze. Entity linking: Finding extracted
entities in a knowledge base. In Multi-source, multilingual information extraction
and summarization, pages 93–115. Springer, 2013.
[70] John W Ratcliff and David E Metzener. Pattern-matching-the gestalt approach.
Dr Dobbs Journal, 13(7):46, 1988.
[71] Alexander E Richman and Patrick Schone. Mining wiki resources for multilingual
named entity recognition. In ACL, pages 1–9, 2008.
[72] Ervin Ruci. On the current state of albanet and related applications. Technical
report, Technical report, University of Vlora.(http://fjalnet. com .. . , 2008.
[73] J Sadiku and M Biba. Automatic stemming of albanian through a rule-based
approach. Journal of International Research Publications: Language, Individuals
and Society, 6, 2012.
[74] Gerard Salton, Anita Wong, and Chung-Shu Yang. A vector space model for
automatic indexing. Communications of the ACM, 18(11):613–620, 1975.
[75] SB Shirude and SR Kolhe. A library recommender system using cosine similarity
measure and ontology based measure. Advances in Computational Research, 4(1),
2012.
[76] Eszter Simon and Dávid Márk Nemeskey. Automatically generated NE tagged
corpora for English and Hungarian. In Proceedings of the 4th Named Entity Work-
shop (NEWS) 2012, pages 38–46, Jeju, Korea, July 2012. Association for Compu-
tational Linguistics.
82
[77] Kristina P Sinaga and Miin-Shen Yang. Unsupervised k-means clustering algo-
rithm. IEEE Access, 8:80716–80727, 2020.
[78] Marjana Prifti Skënduli and Marenglen Biba. A named entity recognition ap-
proach for albanian. In Advances in Computing, Communications and Informatics
(ICACCI), 2013 International Conference on, pages 1532–1537. IEEE, 2013.
[79] Brent Smith and Greg Linden. Two decades of recommender systems at amazon.
com. Ieee internet computing, 21(3):12–18, 2017.
[80] Agim Spahiu. 100 fjalët më të shpeshta në gjuhën shqipe. http://www.shkenca.
org/pdf/gjuhe/100_fjale.pdf, 2010.
[81] Eleni Stefani and Klesti Hoxha. Implementing triple-stores using nosql databases.
In RTA-CSIT, pages 86–92, 2018.
[82] Benno Stein and Sven Meyer Zu Eissen. Topic identification: Framework and
application. In Proceedings of the International Conference on Knowledge Man-
agement, volume 399, pages 522–531, 2004.
[83] Álvaro Tejeda-Lorente, Carlos Porcel, Eduardo Peis, Rosa Sanz, and Enrique
Herrera-Viedma. A quality based recommender system to disseminate information
in a university digital library. Information Sciences, 261:52–69, 2014.
[84] Nava Tintarev and Judith Masthoff. Similarity for news recommender systems.
In Proceedings of the AH’06 Workshop on Recommender Systems and Intelligent
User Interfaces. Citeseer, 2006.
[85] Erik F. Tjong Kim Sang and Fien De Meulder. Introduction to the conll-
2003 Shared task: Language-independent named entity recognition. In Proceedings
of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003 -
Volume 4, CONLL ’03, pages 142–147, Stroudsburg, PA, USA, 2003. Association
for Computational Linguistics.
[86] Antonio Toral and Rafael Munoz. A proposal to automatically build and main-
tain gazetteers for named entity recognition by using wikipedia. In Proceedings of
EACL, pages 56–61, 2006.
[87] Roberto Torres, Sean M McNee, Mara Abel, Joseph A Konstan, and John Riedl.
Enhancing digital libraries with techlens+. In Proceedings of the 4th ACM/IEEE-
CS joint conference on Digital libraries, pages 228–236, 2004.
[88] Kristina Toutanova, Dan Klein, Christopher D Manning, and Yoram Singer.
Feature-rich part-of-speech tagging with a cyclic dependency network. In Proceed-
ings of the 2003 Human Language Technology Conference of the North American
Chapter of the Association for Computational Linguistics, pages 252–259, 2003.
83
[89] Evis Trandafili, Elinda Kajo Meçe, and Enea Duka. A named entity recognition
approach for albanian using deep learning. In Complex Pattern Mining, pages
85–101. Springer, 2020.
[90] Princeton University. Princeton university "about wordnet.". https://
wordnet.princeton.edu/, 2010.
[91] Denny Vrandečić and Markus Krötzsch. Wikidata: A free collaborative knowl-
edgebase. Commun. ACM, 57(10):78–85, September 2014.
[92] Michael E Wall, Andreas Rechtsteiner, and Luis M Rocha. Singular value decom-
position and principal component analysis. In A practical approach to microarray
data analysis, pages 91–109. Springer, 2003.
[93] Frank Webster. Theories of the information society. Routledge, 2014.
[94] Jonathan J Webster and Chunyu Kit. Tokenization as the initial phase in nlp. In
COLING 1992 Volume 4: The 15th International Conference on Computational
Linguistics, 1992.
[95] Marcos Zampieri. Using bag-of-words to distinguish similar languages: How
efficient are they? In 2013 IEEE 14th international symposium on computational
intelligence and informatics (CINTI), pages 37–41. IEEE, 2013.
[96] Li Zhang, Yue Pan, and Tong Zhang. Focused named entity recognition using
machine learning. In Proceedings of the 27th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, SIGIR ’04,
pages 281–288, New York, NY, USA, 2004. ACM.
84
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
The number of publications in scientific journals and conference proceedings published in Albania has faced a considerable increase in the recent years. However it is very difficult for Albanian researchers to find out relevant articles to their research field. In the case of research papers that deal with local research questions, it is even more important that the research results can be easily retrieved by fellow researches in order to allow for continued research in the concrete area. In this paper we propose the design of a modular service-oriented digital library that allows various scientific publishers and authors to index their articles and increase their visibility for potential interested researchers. The library can be used by the actual researchers in order to help them on automatic literature recommendation based on their research interests. The service-oriented design also allows for easy integration with third-party systems (other libraries, personal websites, etc.).
Article
Full-text available
The k-means algorithm is generally the most known and used clustering method. There are various extensions of k-means to be proposed in the literature. Although it is an unsupervised learning to clustering in pattern recognition and machine learning, the k-means algorithm and its extensions are always influenced by initializations with a necessary number of clusters a priori. That is, the k-means algorithm is not exactly an unsupervised clustering method. In this paper, we construct an unsupervised learning schema for the k-means algorithm so that it is free of initializations without parameter selection and can also simultaneously find an optimal number of clusters. That is, we propose a novel unsupervised k-means (U-k-means) clustering algorithm with automatically finding an optimal number of clusters without giving any initialization and parameter selection. The computational complexity of the proposed U-k-means clustering algorithm is also analyzed. Comparisons between the proposed U-k-means and other existing methods are made. Experimental results and comparisons actually demonstrate these good aspects of the proposed U-k-means clustering algorithm.
Chapter
Full-text available
Named Entity Recognition (NER) is an information extraction task that deals with the identification and tagging of generic named entities and/or domain-specific named entities. NER is a crucial task in semantic processing of text data, making it a key component in different Natural Language Processing applications such as Question Answering, Machine Translation, etc. In this paper we propose an approach for Named Entity Recognition based on Deep Learning models using an Albanian corpus. We focused on the generic named entities such as person’s name, geographical location, name of organization/institution and other categories. Given that there is no publicly available Albanian annotated corpus, we have manually created one. Furthermore, we have built a deep neural network using LSTM cells as the hidden layers and a Conditional Random Field as the output, using both word and character tagging. Taking into consideration the complexity of the Albanian language and the little research done in NLP for Albanian, the results achieved are promising. The results obtained from the experiments demonstrate that the NER performance can be further improved by using a larger annotated corpus to train the model.
Article
Full-text available
Globally, recommendation services have become important due to the fact that they support e-commerce applications and different research communities. Recommender systems have a large number of applications in many fields including economic, education, and scientific research. Different empirical studies have shown that recommender systems are more effective and reliable than keyword-based search engines for extracting useful knowledge from massive amounts of data. The problem of recommending similar scientific articles in scientific community is called scientific paper recommendation. Scientific paper recommendation aims to recommend new articles or classical articles that match researchers’ interests. It has become an attractive area of study since the number of scholarly papers increases exponentially. In this survey, we first introduce the importance and advantages of paper recommender systems. Second, we review the recommendation algorithms and methods, such as Content-Based methods, Collaborative Filtering methods, Graph-Based methods and Hybrid methods. Then, we introduce the evaluation methods of different recommender systems. Finally, we summarize open issues in the paper recommender systems, including cold start, sparsity, scalability, privacy, serendipity and unified scholarly data standards. The purpose of this survey is to provide comprehensive reviews on scholarly paper recommendation.