Conference PaperPDF Available

Abstract and Figures

Nous nous intéressons à l'extraction de connaissances à partir d'un texte non structuré en Arabe standard. L'extraction de la thématique d'un texte figure parmi les résultats importants de nos travaux. Dans cet article, nous montrons comment la recherche de quelques marqueurs peut aider à l'extraction automatique de la thématique du texte.
Content may be subject to copyright.
Repérage de marqueurs pouvant conduire à
l'extraction automatique de la thématique d'un texte
en Arabe standard
Mourad Loukam* , Djamila Hammouche*, Fatma Zohra Belkredim*
* Natural Language Processing Team, LMA Laboratory, Faculty of Sciences, Hassiba Benbouali University of Chlef, Algeria
mourad.loukam@univ-chlef.dz
Résumé—Nous nous intéressons à l'extraction de connaissances
à partir d'un texte non structuré en Arabe standard. L'extraction
de la thématique d'un texte figure parmi les résultats importants
de nos travaux. Dans cet article, nous montrons comment la
recherche de quelques marqueurs peut aider à l'extraction
automatique de la thématique du texte.
Mots clés —Text mining, Arabe standard, marqueur
sémantique, extraction.
I. I
NTRODUCTION
Le text mining est une discipline qui s'occupe de la fouille
de connaissances et leur extraction à partir de textes non
structurés [1]. Elle peut s'allier avec d'autres disciplines comme
le traitement du langage naturel, la recherche d'informations, la
classification de textes, le clustering, ...etc pour proposer des
solutions à problèmes divers comme : l'extraction
d'informations de veille technologique dans des textes du
domaine financier, l'extraction d'éléments significatifs à partir
de dépêches ou articles de presse, ...etc [2].
Nous nous intéressons à l'extraction de connaissances à
partir d'un texte non structuré en Arabe standard. L'extraction
de la thématique du texte constitue un résultat partiel important
pour nos travaux. Dans cet article, nous montrons comment la
recherche de quelques marqueurs peut aider à l'extraction
automatique de la thématique du texte.
II. A
RRIÈRE PLAN
L'objet de notre projet est l'analyse d'un texte en Arabe
standard en vue d'en extraire des connaissances (mots clés,
termes, concepts) qui permettent de reconstituer au mieux la
sémantique contenue dans le texte et aussi d'en construire une
signature sémantique. L'extraction de la thématique du texte
fait partie des résultats partiels importants que nous visons.
Nous entendons par "thématique d'un texte", le sujet principal
que véhicule le texte, par exemple "sport", "économie",
"politique", ...etc. Elle est différente de la "catégorie de textes",
qui elle regroupe des textes ayant la même nature, par exemple
: les "articles de presse", les "articles scientifiques", les "textes
littéraires", ...etc. La figure 1 donne l'exemple d'un article de
journal (quotidien "Echourouk" du 20 Mars 2014) dont le
thème pourrait être "économie".
         
 2014 ! "#$ %&' ()*+, -$ .
/  01 230#14+ ' .05+# 6& "7+
!890+3:;<,$01)+:.
-=>? .&$ : ! @$3 +  A
3!.B*2301)+:,0#14+#-
C5+: #'/01.D7&C/,+,E*
8F1G)$%HI&1C/,+'A1
1J7 41 K!  L$05+ #' %&'M ()*+
N7+I&1O9,P"+1P"4F1.
(#+*  P' Q/+ J$  R+$    >3
N# J 5 #' S)7 , 89  C5+:
TE1,I&1OU'VF1(#+*1W0"16IX
.UWF+A"Y >1  U< >?W+ ! Z '
,*10J+C5+:(#+*1[!UY01&3.
Echourouk, le Jeudi 20 Mars 2014
Fig. 1. Exemple d'un texte de thème "économie".
La figure 02 résume l'architecture générale du système
d'analyse et d'extraction projeté.
L'entrée du système est un texte en Arabe standard non
structuré; c'est à dire un texte libre ne contenant pas de zones
préformatées.
La sortie est un ensemble de connaissances permettant de
rendre au mieux la sémantique du document.
Le schéma fait apparaitre deux sous-systèmes essentiels :
celui des "ressources linguistiques" et celui de
"l'apprentissage":
Les ressources linguistiques comprennent les mots clés, les
concepts, les mots vides, ...etc.
Le sous-système d'apprentissage vise à implémenter les
algorithmes d'apprentissage les plus connus (SVM, HMM,
Kmeans, ...etc) .
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 46
Fig. 2. Architecture générale du système d'analyse et d'extraction projeté.
Pour ce qui est de la chaine de traitements que doit subir le
texte d'entrée, celle-ci peut être résumée ainsi :
Le texte d'entrée est soumis à un prétraitement qui consiste
à supprimer tous les mots vides (stop words en anglais) ;
c'est à dire les mots qui n'apportent aucun élément
signifiant à l'opération d'extraction. Ce sont généralement
les pronoms, les articles, et quelques autres particules de
la langue Arabe.
Le texte réduit résultant de la première opération subit une
"vectorisation" qui consiste à le représenter sous une
structure de données informatique adéquate sur laquelle se
front les traitements ultérieurs.
Plusieurs modules de traitement linguistiques vont alors se
relayer sur le texte vectorisé : un module de racinisation
pour réduire encore les mots à leur racine, un extracteur
d'entités nommés et un extracteur de concepts .
Les programmes d'apprentissage vont inférer sur le texte
pour en extraire les connaissances souhaitées.
Dans cet article, nous n'aborderons que le résultat partiel de
l'extraction de la thématique d'un texte. Les autres modules et
sous-système feront l'objet d'autres publications.
III. T
RAVAUX CONNEXES
Les approches appliquées au text mining sont
essentiellement de trois types : statistiques, sémantiques et
hybrides [2].
Les approches statistiques utilisent les méthodes de
"machine learning" comme les Support Vector Machines
(SVM) [3], les Modèles de Markov cachés (HMM) [4], les
champs conditionnels aléatoires[5], le maximum d'entropie [6],
les KNN[7], …etc. L'avantage des méthodes statistiques est
qu'elles sont générales et peuvent en théorie s'appliquer
quelque soit la langue des textes étudiés. Leur inconvénient est
qu'elles nécessitent de gros corpus d'entrainement pour donner
des résultats acceptables, de plus elles abordent l'étude de
textes sous une forme purement statistique et ignorent
complètement la portée sémantique des différents éléments du
texte
Les méthodes sémantiques, dites aussi à base de règles,
utilisent les caractéristiques linguistiques intrinsèques des
textes pour rendre compte de leur contenu sémantique. Ce qui
en fait leur avantage. Mais, leur inconvénient est le coût élevé
de leur mise en œuvre puisqu'elle nécessitent un travail de
recensement exhaustif par les experts des éléments à étudier.
Les méthodes hybrides constituent une troisième voie qui
suggère à combiner les méthodes statistiques et sémantiques
pour tenter de tirer profit des avantages des unes et des autres.
Pour ce qui est des travaux de text mining sur l'Arabe
standard, nous pouvons dire que la plupart semblent privilégier
les méthodes statistiques, comme dans les travaux
d'identification du thème d'un texte [8-14]. Les travaux utilisant
l'approche sémantique ou hybride sont plus rares, par exemple
le travail [15] propose une méthode hybride pour la
classification de textes.
IV. L
A METHODE PROPOSEE
La méthode que nous proposons fait partie des méthodes
sémantiques. Elle s'appuie sur le repérage de quelques
marqueurs sémantiques pouvant exister dans le texte qui
marquent les passages reflétant les idées significatives du texte
. Par exemple, on peut voir dans le texte exemple de la figure
01 que le mot "  " (a affirmé) est un marqueur portant une
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 47
valeur sémantique de "confirmation" et permettant de déduire
que le passage qui le suit a une grande probabilité de contenir
une idée importante du texte (voir figure 3) et peut ainsi rendre
compte de sa thématique ("économie").
         
 2014 ! "#$ %&' ()*+, -$ .
/  01 230#14+ ' .05+# 6& "7+
!890+3:01)+:;<,$.
Fig. 3. Exemple d'idée importante dénotée par le marqueur sémantique "

" (a affirmé).
La figure 4 donne d'autres exemples de marqueurs
sémantiques, soulignés dans le texte, repérés dans trois (3)
articles de presses : quotidien"Echourouk" du 20 Mars 2014,
chaîne d'information "Al Jazeera net" du 25 Novembre 2014 et
quotidien "Al Khabar" du 25 Novembre 2014.

        
 2014 %&' ()*+, -$ . ! "#$
/  01 230#14+ ' .05+# 6& "7+
!890+3:;<,$01)+:.

>? .&$ : ! @$3 +  A
3!.B*+:,0#14+#-2301)
C5+: #'/01.D7&C/,+,E*
8F1G)$%HI&1C/,+'A1
1J7 41 K!  L$05+ #' %&'M ()*+
N7+I&1O9,P"+1P"4F1.
(#+*  P' Q/+ J$  R+$   
N# J 5 #' S)7 , 89  C5+:
TE1VF1(#+*1W0"16IX,I&1OU'
.UWF+A"Y >1  U< >?W+ ! Z '
10J+,*C5+:(#+*1[!UY01&3.
Echourouk, le Jeudi 20 Mars 2014
 , -1 #' >7 V3+$ " M 1J71.128
#1)1.590:#1 (U& \4 >?2015"1.806
 0?1)1.1:#1 (> 0143+1.Q#*322#1
 )454: #1 (" #' 7 > 01 43+1
7+C:.

\4 #\4  ]9 1J72015@13 D;
Y!^&5$ M B1%1] B# 3K1 
'8.1C#1)11.3:#1(<.@$_"
\4#2014'+A'`+1a)*`b_c1.
700 #1)987:#1(& UJF 1< .2.5 %01
Yd#7Q$.
3KV3$-8F1N- !J#18)$21#1
)29.6:#1(7 !F1.5C#1)77
:C#1 (G9#%,"JI #'+1<.
<+C+01PO #'C43+G;<C%Y
\':D#101M%,"JI/2)*,2014
 ! #'<4V1J73+U&\4:#17
\'V#9101&+'0J#"+2015.
Al Jazeera net, le Lundi 25 Novembre 2014
^"Y + #JF+ B), > D=1 0  ]
 D; &J %M ! R, .e7 7$&'? G.
014 #'f+N7$D=1)9]U1g
1Z015]+3:UY.
Z ;<  .
 D=1"J# + C), 3 & 4
01V=;<>?W+>707",+h)#1 PO
)N7$UY !#,dQ/+## #'R7
.J  +
P"" e7 V1 #4  41 )   3 <Y i
j>7,) .
J,JE@&':-1kB/
l,  .! >9, 9, mgJ, ) 71 U7$200#1
, % ;<&, E71 0'0#4  .T':UJ P+
= !0&'?>U&3B,?nOUP+0?1F'
>;, ! @&': V + e7 7$ &1  @#4 #51 
OPJ7<+&G;",)#" 3>,.
Al Khabar du 25 Novembre 2014
Fig. 4. Exemples de repérage de marqueurs sémantiques dans des
articles de presse.
Nous donnons ci-après une brève analyse de ces documents
:
Analyse du premier document du quotidien "Echourouk"
du 20 Mars 2014 : trois marqueurs conduisant à l'extraction de
trois idée de la thématique "économie".
Marqueur Idée dénotée

a affirmé

    
     
2014 ! "#$ %&'()*+, -$ .
0123/.05+#6&"7+
! 89  0+3: 0#14+ '
Marqueur
sémantique
Idée importante dénotée par le marqueur :
Le Ministre de la Pêche et des Ressources halieutiques
a affirmé que les investisseurs dans le secteur
bénéficieront d'allègements fiscaux dans le cadre du
nouveau dispositif de la loi de Finance 2014.
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 48
;<,$01)+:.
Le Ministre de la Pêche et des
Ressources halieutiques a affirmé que
les investisseurs dans le secteur
bénéficieront d'allègements fiscaux
dans le cadre du nouveau dispositif de
la loi de Finance 2014.

a précisé , a
indiqué

>? @$3 +  A
3 ! .B*.&$: !
 01 23 01 )+:, 0#14+# -
C5+: #' /,+, E*C/ 
8F1G)$%HI .D7&
L$  &1  C/ ,+ 'A1
1J7 41 K!  #' %&'M ()*+
N7+I&1O9,P"+105+
P"4F1.
Le Ministre a indiqué pendant sa visite
à la wilaya de Tipaza que la nouvelle
loi de Finances permettra aux
professionnels du domaine de
bénéficier de crédits sans intérêts sur
les investissements concernant
l'aquaculture et la pêche.

a dit, a
indiqué

P'Q/+J$R+$
(#+* , 89 C5+:
TE1 N# J 5 #' S)7U'
(#+*1W0"16IX,I&1O
.UWF+ A"Y VF1  ! Z  '
,*1 0J+ >1   U< >?W+
C5+:(#+*1[!UY01&3.
M. Ferroukhi a dit que le Ministère
s'attend à ce que les retombées des
nouvelles mesures soient positives
aussi bien sur les ressources
halieutiques que sur la création
d'emplois dans le secteur.
Analyse du seconde document de la chaîne d'information
"Al Jazeera net" du 25 Novembre 2014 : deux marqueurs
conduisant à l'extraction deux idées de la thématique
"économie".
Marqueur Idée dénotée

a annoncé

 #' >7V3+$ " M1J7
 , -11.128  #1)1.590#1
: (U&\4>?2015"1.8060?1
)1.1: #1 (.Q#* >01 43+1
322#1)454:#1 (01 43+1
7>7+C:" #'.
Le Gouvernement jordanien a annoncé
qu'il prévoit des donations de l'ordre de
1.128 dinars jordaniens (environs 1.590
millards de dollars) pour l'année
prochaine 2015, dont 1.1 milliard prévu
des pays du Golfe , 322 millions de
dinars (454 millions de dollards) des
pays donateurs, et principalement les
USA.

a affirmé

# \4  ]9  1J7
 \420153K 1   @13 D;
Y! ^&5$ M B1 %1 ] B#
 ' 8.1 C#1) 11.3#1
:(< .  \4# @$_ "2014 c1 .
'+A'`+1a)*`b_
700  #1)987: #1(1 < .
&UJF2.5 %Yd#7Q$01.
Le Gouvernement a affirmé que le
budget de l'Etat de l'année 2015 qu'a
présenté Oumeya Tawqan , le Ministre
des Finances, prévoit un total de 8.3
milliards de dinars (11.3 milliards de
dollars) , soit le même niveau que celui
de l'année 2014, avec un déficit de 700
millions de dinars (soit 987 millions de
dollars).
Analyse du troisième document du quotidien "Al Khabar"
du 26 Novembre 2014 : trois marqueurs conduisant à
l'extraction de trois idées de la thématique "sport".
Marqueur Idée dénotée

a décidé

B), > D=1 0  ]
 ! R, .e7 7$ ^"Y + #JF+
&'? G D; &J %M.
N7$  D=1 )9 ] U1g
015]+3:UY014 #'f+
1Z.
L'entraineur Kheireddine Madhoui a
décidé de garder la même équipe qui a
joué contre l'USMH, eu égard à la
bonne prestation des joueurs.
L'entraineur sétifien espère réaliser une
autre victoire sur le doyen MCA pour
se rapprocher davantage des équipes en
haut du classement.

a dit, a
indiqué
Z ;<  .
 D=13 & 4
+h)#1PO"J#+C),
UY 01 V= ;< >?W+ >7 07 ",
,dQ/+## #'R7)N7$
 !#.
A ce propos, Madhoui a dit "le Doyen
MCA reste une bonne équipe avec les
individualités qu'il possède , malgré la
méforme qu'il traverse actuellement.
Nous essaierons de profiter de cette
situation pour réaliser une victoire et
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 49
continuer notre série de bons résultats".

nous
indiquons
  
JE @&': -1 k B/
.!>9,9,mgJ,)71U7$J,
l,2000#4.T':UJP+#1
F' , % ;< &, E 71 0'
> U&3 B,? nO U P+ 0?1
#51  = ! 0&'?&1  @#4
 3 >;, ! @&': V + e7 7$
PJ7 < + & G;", )# "
>,O.
Nous indiquons que le Président
Hammar a délivré des chèques d'une
valeur de 200 millions de centimes aux
joueurs, représentant la prime
d'obtention de la Coupe d'Afrique des
clubs champions, de même qu'il
précisera le montant d'une prime
spéciale pour ce match.
L'examen d'un corpus d'articles de presse, qui est décrit
dans la partie évaluation, nous a permis d'isoler une liste de 29
marqueurs qui , selon notre approche, permettent d'extraire les
idées importantes d'un texte en Arabe standard et donc de
"deviner" sa thématique (voir table 1) :
TABLE I.
M
ARQUEURS SEMANTIQUES POUVANT CONDUIRE A
L
'
EXTRACTION DE LA THEMATIQUE D
'
UN TEXTE ARABE
Marqueur Signification

a dit, a indiqué
L'affirmation, légère ou forte, d'un fait
ou d'une information

a affirmé
L'affirmation d'un fait ou d'une
information

a précisé , a indiqué
La précision d'un fait ou d'une
information

a ajouté Ajouter une information à un propos

a fait remarquer, a
indiqué
Faire remarquer un fait

a annoncé L'annonce d'un fait

a évoqué, a indiqué Evoquer , indiquer

A insisté
Marquage fort d'une affirmation ou
infirmation

a témoigné, a
rapporté
Apporter un témoignage ou rapporter
un fait
 Révéler une information ou un fait
a révélé
!
A noté, a fait
remarquer
Faire remarquer un fait ou une
information
"
a décidé, a émis
Prendre une décision ou émettre un
avis

A décidé Prendre une décision
#!$
A ajouté Ajouter une information à un propos

a invité, a exhorté Inviter ou exhorter
%
a exprimé Exprimer un sentiment, une réaction
&
a connu, a subit Décrire un fait
'()
a étayé Etayer ses propos

a appelé Appeler quelqu'un à faire quelque
chose
*!
a précisé , a
expliqué
Préciser, Expliquer
+!
a exprimé Exprimer un sentiment
,
a informé Informer d'un fait
&-
a montré Montrer un fait une information
.
a montré Montrer un fait une information
/(
a considéré Considérer un élément, un fait
*
a répété Répéter , confirmer une information
"
a recommandé Recommander
0*"
a dit, a indiqué
L'affirmation, légère ou forte, d'un
fait ou d'une information

a ajouté Ajouter une information à un propos
Une modélisation de la liste de marqueur a été réalisée avec
la plateforme de traitement linguistique Nooj (plateforme libre
développée à l'Université Franche Comté, France) sous forme
d'une grammaire restreinte.
La figure 5 donne une capture de l'analyse faite de notre
texte exemple.
La figure 6 donne une capture de l'extraction faite par Nooj
des différents marqueurs du texte exemple.
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 50
Fig. 5. Modélisation de la liste de marqueurs et analyse du texte exemple dans la plateforme Nooj.
Fig. 6. Repérage des marqueurs sémantiques du texte exemple
V. E
VALUATION
&
DISCUSSION
Pour les besoins de notre étude, un corpus composé de 56
articles de presses appartenant à cinq médias a été constitué:
Le quotidien Al Sharq Al Awsat (5), le site d'informations Al
Jazeera net (19), le site d'informations Al Arabiyya (17), le
quotidien algérien Echourouk (10) et Al Ahram (05). Les 56
articles du corpus sont répartis entre 6 thèmes (table 2) :
Politique (36%), économie (23%), culture (9%), sport (11%),
santé (9%) et société (13%).
Notons que le choix de la catégorie "articles de presse"
pour notre corpus n'est pas fortuit; en effet, nous pensons que
notre méthode convient bien à cette catégorie de textes, comme
cela est discuté ci-après.
TABLE II.
D
ESCRIPTION DU CORPUS D
'
ARTICLES UTILISE
Média / Thème 1
2 Politique Economie Culture Sport Santé Société Totaux
Al Sharq Al Awsat 02 02 01 05
Al Jazeera net 10 01 01 03 03 01 19
Al Arabiyya 08 04 03 01 01 17
Echourouk 03 01 01 05 10
Al Ahram 03 01 01 05
Totaux 20 13 05 06 05 07 56
% 36% 23% 9% 11% 9% 13% 100%
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 51
L'étude de notre corpus d'étude a permis de repérer 253 cas
de marquage sémantique dénotés par les 29 marqueurs de notre
liste sur l'ensemble des 56 articles, soit en moyenne plus de 4
marquages par article. Cela veut dire que notre méthode permet
d'extraire en moyenne 4 idées significatives de chaque article,
et de calculer ainsi la thématique de l'article.
Ce résultat nous conforte dans notre hypothèse de départ, à
savoir que la méthode de repérage de la liste de marqueurs que
nous proposons, donne de bons résultats pour les textes
utilisant le style "citationnel", comme ceux appartenant à la
catégorie "articles de presse" qui contiennent essentiellement
des idées exprimées sous forme de citations ("a dit", "a révélé",
"a indiqué", ...) rapportant des faits, des situations ou des
attitudes. Ces citations s'accompagnent souvent , comme nous
l'avons vu, de marqueurs sémantiques. Notons qu'il existe
quelques rares travaux, comme ceux de Ghassan Mourad, sur
l'étude de la "citation" dans le discours [16].
Par ailleurs, un calcul de fréquence de chaque marqueur a
été fait (fig 7). Les résultats révèlent une disparité importante
entre les marqueurs; 07 marqueurs sont présents dans près de
80% des cas de marquage dans le corpus. Il s'agit des
marqueurs : >3 (a dit),  (a affirmé), n= (a ajouté), I (a
fait remarquer) , -= (a précisé), 0#' (a annoncé), _ (a
indiqué).
Fig. 7. Fréquence des marqueurs sémantiques dans le corpus d'étude
VI. C
ONCLUSION
Dans cet article, nous avons proposé une méthode
d'extraction de connaissances utilisant une liste de marqueurs
sémantiques dont le repérage permet d'extraire les idées
significatives contenues dans un texte en Arabe standard , et
ainsi d'en calculer la thématique générale.
L'évaluation faite sur un corpus a permis de montrer que
cette méthode donne de bons résultats pour les textes utilisant
le style "citationnel", comme ceux de la catégorie "articles de
presses". Ce n'est pas le cas des autres textes utilisant un style
plus "conversationnel" ou "descriptif", comme ceux des
catégories "textes scientifiques" ou "textes littéraires", et pour
lesquels d'autres méthodes d'extractions sont en cours
d'exploration.
Par ailleurs, il est à noter que le repérage des marqueurs
sémantiques n'est qu'un résultat partiel qui a été décrit dans cet
article. Les développements futurs œuvreront à délimiter le
champ d'action de chaque marqueur trouvé dans le texte, ce qui
conduira à un fragment de texte dont l'analyse permettra de
capturer la sémantique.
REMERCIEMENTS
Ce projet est financé par le Ministère Algérien de
l'Enseignement Supérieur et de la Recherche Scientifique sous
la référence CNEPRU B*00720130022.
R
EFERENCES
[1] A.Kao and S.R.Poteet. Natural Language Processing and Text
Mining, Springer, 2007.
[2] J.Jiang. "Information Extraction from Text" in Mining Text
Data, Springer, 2012, pp 11-41.
[3] W. Zhang, T.Yoshida and X.Tang. "Text classification based on
multi-word with support vector machine", Knowledge-Based
Systems Journal, (2008) 879–886.
[4] L. Borrajo, A. Seara Vieira and E.L. "Iglesias. TCBR-HMM: An
HMM-based text classifier with a CBR system". Applied Soft
Computing, Volume 26, January 2015, Pages 463–473.
[5] Sobhana N.V, Pabitra Mitra and S.K. Ghosh. "Conditional
Random Field Based Named Entity Recognition in Geological
Text", 2010 International Journal of Computer Applications
(0975 – 8887) Volume 1 – No. 3
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 52
[6] Oliver Bender, Franz Josef Och, and Hermann Ney. Maximum
entropy models for named entity recognition. In Proceedings of
the 7th Conference on Natural Language Learning, 2003.
[7] W.Hamood Khaled, H.Saleem Al-Sarrayrih and L.Knipping. "
Arabic Text Categorization Using Improved k-Nearest
neighbour Algorithm". Journal of Applied Computer Science &
Mathematics, no. 18 (8) /2014.
[8] M.Abbas, K.Smaili and D.Berkani. "Evaluation of Topic
Identification Methods on Arabic Corpora", Journal of Digital
Information Management, 2011, pp 185-192
[9] M.Abbas, K.Smaili and D.Berkani. "Identification de thème :
cas de l'Arabe standard", Conférence Traitement et analyse de
l’information: Méthodes et Applications, Hammamet, Tunisia ,
2009.
[10] L.Fodil, H.Sayoud and S.Ouamour. Theme Classification of
Arabic Text : A statistical Approch. Terminology and
Knowledge Engineering 2014, Jun 2014, Berlin, Germany. 10 p
[11] S.Alsaleem. "Automated Arabic Text Categorization Using
SVM and NB", International Arab Journal of e-Technology,
Vol. 2, No. 2, June 2011
[12] F. Thabtah, W. Hadi, G. Al-Shammare, “VSMs with K-Nearest
Neighbour to Categorise Arabic Text Data.”, In The World
Congress on Engineering and Computer Science 2008. (pp.778-
781), 22-44 October 2008. SanFrancisco, USA.
[13] Laila Khreisat, Arabic Text Classification Using NGram
Frequency Statistics A Comparative Study”.DMIN 2006: 78-82,
2006.
[14] M. El-Kourdi, A. Bensaid, T. Rachidi, “Automatic Arabic
Document Categorisation Based on the Naïve Bayes
Algorithm”. 20th International Conference on Computational
Linguistics . August 28th. Geneva, 2004.
[15] Y.Haralambous, Y. Elidrissi and Philippe Lenca, " Arabic
Language Text Classification Using Dependency Syntax-Based
Feature Selection", CITALA 2014, Oujda, Morocco
[16] G.Mourad. " /hasb/, selon, ... repérage automatique du discours
rapporté en arabe". Communication sur la veille stratégique,
Lyon, France, 26-27 Mars 2010.
Séminaire National d’Informatique de Biskra, 20-22 Janvier 2015
SNIB’2015 53
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
The huge amount of textual documents that is stored in a lot of domains continues to increase at high speed; there is a need to organize it in the right mannerso that a user can access it very easily. Text-Mining tools help to process this growing big data and to reveal the important information embedded in those documents. However, the field of information retrieval in the Arabic language is relatively new and limited compared to the quantity of research works that have been done in other languages (eg. English, Greek, German, Chinese .). In this paper, we propose two statistical approaches of text classification by theme, which are dedicated to the Arabic language. The tests of evaluation are conducted on an Arabic textual corpus containing 5 different themes: Economics, Politics, Sport, Medicine and Religion. This investigation has validated several text mining tools for the Arabic language and has shown that the two proposed approaches are interesting in Arabic theme classification (classification performance reaching the score of 95%).
Article
Full-text available
The quantity of text information published in Arabic language on the net requires the implementation of effective techniques for the extraction and classifying of relevant information contained in large corpus of texts. In this paper we presented an implementation of an enhanced k-NN Arabic text classifier. We apply the traditional k-NN and Naive Bayes from Weka Toolkit for comparison purpose. Our proposed modified k-NN algorithm features an improved decision rule to skip the classes that are less similar and identify the right class from k nearest neighbours which increases the accuracy. The study evaluates the improved decision rule technique using the standard of recall, precision and f-measure as the basis of comparison. We concluded that the effectiveness of the proposed classifier is promising and outperforms the classical k-NN classifier.
Article
Full-text available
We study the performance of Arabic text classification combining various techniques: (a) tfidf vs. dependency syntax, for feature selection and weighting; (b) class association rules vs. support vector machines, for classification. The Arabic text is used in two forms: rootified and lightly stemmed. The results we obtain show that lightly stemmed text leads to better performance than rootified text; that class association rules are better suited for small feature sets obtained by dependency syntax constraints; and, finally, that support vector machines are better suited for large feature sets based on morphological feature selection criteria.
Article
Full-text available
This paper deals with automatic classification of Arabic web documents. Such a classification is very useful for affording directory search functionality, which has been used by many web portals and search engines to cope with an ever-increasing number of documents on the web. In this paper, Naive Bayes (NB) which is a statistical machine learning algorithm, is used to classify non-vocalized Arabic web documents (after their words have been transformed to the corresponding canonical form, i.e., roots) to one of five pre-defined categories. Cross validation experiments are used to evaluate the NB categorizer. The data set used during these experiments consists of 300 web documents per category. The results of cross validation in the leave-one-out experiment show that, using 2,000 terms/roots, the categorization accuracy varies from one category to another with an average accuracy over all categories of 68.78 %. Furthermore, the best categorization performance by category during cross validation experiments goes up to 92.8%. Further tests carried out on a manually collected evaluation set which consists of 10 documents from each of the 5 categories, show that the overall classification accuracy achieved over all categories is 62%, and that the best result by category reaches 90%.
Article
Full-text available
Topic Identification is one of the important keys for the success of many applications. Indeed, there are few works in this field concerning Arabic language because of lack of standard corpora. In this study, we will provide directly comparable results of six text categorization methods on a new Arabic corpus Alwatan-2004. Hence, Topic Unigram Language Model (TULM), Term Frequency/Inverse Document Frequency (TFIDF), Neural Network, SVM, M-SVM and TR have been experimented, and showed that TR-Classifier is the most efficient among the set of classifiers, nevertheless, only binary SVM outperformed it thanks to its characteristics. Moreover, we should note that the size of Alwatan-2004 corpus used to achieve our experiments is considered the most important compared to any other Arabic corpus which had been used for topic identification experiments until now. In addition, we aim through using small sizes of vocabularies to reduce the time of computation. This is important for adaptive language modeling, particularly Topic Adaptation, which is required in real time applications such as speech recognition and machine translation systems. Our experiments indicate that the results are better than other works dealing with Arabic text categorization.
Article
Abstract This paper presents an innovative solution to model distributed adaptive systems in biomedical environments. We present an original TCBR-HMM (Text Case Based Reasoning-Hidden Markov Model) for biomedical text classification based on document content. The main goal is to propose a more effective classifier than current methods in this environment where the model needs to be adapted to new documents in an iterative learning frame. To demonstrate its achievement, we include a set of experiments, which have been performed on OSHUMED corpus. Our classifier is compared with Naive Bayes and SVM techniques, commonly used in text classification tasks. The results suggest that the TCBR-HMM Model is indeed more suitable for document classification. The model is empirically and statistically comparable to the SVM classifier and outperforms it in terms of time efficiency.
Article
The problem of text mining has gained increasing attention in recent years because of the large amounts of text data, which are created in a variety of social network, web, and other information-centric applications. Unstructured data is the easiest form of data which can be created in any application scenario. As a result, there has been a tremendous need to design methods and algorithms which can effectively process a wide variety of text applications. This book will provide an overview of the different methods and algorithms which are common in the text domain, with a particular focus on mining methods
Article
One of the main themes which support text mining is text representation; that is, its task is to look for appropriate terms to transfer documents into numerical vectors. Recently, many efforts have been invested on this topic to enrich text representation using vector space model (VSM) to improve the performances of text mining techniques such as text classification and text clustering. The main concern in this paper is to investigate the effectiveness of using multi-words for text representation on the performances of text classification. Firstly, a practical method is proposed to implement the multi-word extraction from documents based on the syntactical structure. Secondly, two strategies as general concept representation and subtopic representation are presented to represent the documents using the extracted multi-words. In particular, the dynamic k-mismatch is proposed to determine the presence of a long multi-word which is a subtopic of the content of a document. Finally, we carried out a series of experiments on classifying the Reuters-21578 documents using the representations with multi-words. We used the performance of representation in individual words as the baseline, which has the largest dimension of feature set for representation without linguistic preprocessing. Moreover, linear kernel and non-linear polynomial kernel in support vector machines (SVM) are examined comparatively for classification to investigate the effect of kernel type on their performances. Index terms with low information gain (IG) are removed from the feature set at different percentages to observe the robustness of each classification method. Our experiments demonstrate that in multi-word representation, subtopic representation outperforms the general concept representation and the linear kernel outperforms the non-linear kernel of SVM in classifying the Reuters data. The effect of applying different representation strategies is greater than the effect of applying the different SVM kernels on classification performance. Furthermore, the representation using individual words outperforms any representation using multi-words. This is consistent with the major opinions concerning the role of linguistic preprocessing on documents’ features when using SVM for text classification.