Conference PaperPDF Available

Evaluador de Eficiencias de Técnicas de Clasificación en R

Authors:

Abstract

Dentro del Aprendizaje Automático supervisado con datos discretos existen técnicas de clasificación basadas en diferentes enfoques. Comúnmente estas son utilizadas para generar un modelo que explique la naturaleza de la información. Sin embargo no existe un clasificador general que funcione para cualquier conjunto de datos, ya que cada uno tienen características diferentes. Para este trabajo se implementaron los clasificadores KNN, J48, Lineal de Fisher, Ingenuo Bayesiano y un ensamble de clasificadores en el lenguaje R, con el fin de observar su efectividad en un conjunto de datos determinado. El objetivo es proporcionar criterios para la utilización de clasificadores dado las características particulares de los datos, además de incluir el comportamiento del ensamble. Como método de validación de las técnicas de clasificación utilizando validación cruzada.
Evaluador de Eficiencias de T´ecnicas de
Clasificaci´on en R
Francisco Javier Landa Torresa
Sergio Hern´andez Gonz´alezb,Genaro Rebolledo M´endezc,ector Francisco
Coronel Briziod,Nery Sof´ıa Huerta Pachecoe
Universidad Veracruzana
Clasificaci´on: Trabajo de Investigaci´on
´
Area: C´omputo Estad´ıstico
Sub´area: Lenguaje R
Trabajo presentado en: XXVIII Foro Nacional de Estad´ıstica
1. Introducci´on
La clasificaci´on es una tarea utilizada en el proceso de descubrimiento de conocimiento du-
rante la etapa de Miner´ıa de Datos, en estudios cuyo principal objetivo es la de encontrar
patrones que suceden en un fen´omeno de estudio dado la existencia de una variable discreta
que representa la clase. El inter´es de esto radica en poder realizar discriminaci´on de obser-
vaciones basados en caracter´ısticas semejantes, o bien tener la capacidad de desarrollar un
modelo para predicci´on.
Este trabajo consiste en la implementaci´on de una herramienta de evaluaci´on de 5 cla-
sificadores en el lenguaje R (R Core Team 2003) con diferentes enfoques, con el objetivo
de verificar el rendimiento de cada uno en diferentes conjuntos de datos. Posteriormente,
´estos fueron sometidos a un proceso de evaluaci´on que permiti´o observar el rendimiento de
a fco.j.landa@gmail.com
b sehernandez@uv.mx
c grebolledo@uv.mx
d hcoronel@uv.mx
e nehuerta@uv.mx
66 Evaluador de Eficiencias de Técnicas de Clasificación en R
cada uno con cada conjunto de datos con clases binarias, empleando la t´ecnica de Valida-
ci´on Cruzada (dejando uno fuera)(Kohavi et al. 1995). Las m´etricas utilizadas para validar
el rendimiento fueron: precisi´on, exactitud, recuerdo, valor-F y el Error Cuadr´atico Medio
(ECM) (Tan, Steinbach, and Kumar 2005).
2. Marco te´orico
Un clasificador es una funci´on f(x) cuya funci´on principal es mapear las variables de un
conjunto de datos de acuerdo al valor de la clase c1, ...c
nC,porloquetambi´en es conocido
como modelo de clasificaci´on. (Tan, Steinbach, and Kumar 2005)
Los K vecinos m´as cercanos (KNN por sus siglas en ingl´es) es un modelo de clasificaci´on
perezoso, ya que recuerda la distancia euclideana de cada instancia con respecto a un punto,
para posteriormente obtener los K puntos m´as cercanos. Cuando el valor de K=1,la
ecnica asignar´a la clase perteneciente al punto m´as cercano, mientras que si el valor de
K>1 entonces la clase electa ser´a la que predomine entre el vecindario conformado por los
K puntos m´as cercanos (Tan, Steinbach, and Kumar 2005).
El Discriminante Lineal de Fisher (DLF) es una t´ecnica de clasificaci´on que consiste en
proyectar un conjunto de datos de alta dimensionalidad en una, para llevar a cabo en ese
espacio la clasificaci´on, maximizando la distancia entre las medias de dos clases (interclase) y
a la vez minimizando la varianza intraclase, cuando la cantidad de clases es igual a 2 (Murty
and Devi 2011).
Ingenuo Bayesiano (IB) es un m´etodo de clasificaci´on que consiste en la determinaci´on
de la clase tomando como base a la probabilidad condicional, asumiendo que los atributos
son condicionalmente independientes entre si seg´un el valor de la variable clase. Este es
considerado un clasificador probabil´ısta, ya que proporciona el porcentaje de ocurrencia
(Tan, Steinbach, and Kumar 2005)
C4.5 es un ´arbol de decisi´on utilizado para la tarea de clasificaci´on, cuyo proceso de
contrucci´on se basa en la maximizaci´on del Porcentaje de Ganancia por cada atributo pa-
ra identificar los nodos del ´arbol de acuerdo a los valores de la clase. Una propiedad de
este modelo es el procesamiento de la informaci´on continua implementando un m´etodo de
discretizaci´on (Tan, Steinbach, and Kumar 2005)
El Clasificador por Mayor´ıa de Votos (CMV) es un m´etodo de clasificaci´on ensamblador
2. Marco Teórico
67Evaluador de Eficiencias de Técnicas de Clasificación en R
asico cuyo esquema est´a formado por la participaci´on de varios clasificadores, determinando
como clase inferida aquella con mayor frecuencia entre los resultados individuales de cada
clasificador. Es recomendable utilizar una cantidad de modelos nones cuando la cantidad de
clases son 2, debido a la posibilidad de ocurrencia de igualdad entre las clases (Rokach 2010)
3. Materiales y M´etodos
3.1. Conjunto de datos
Las bases de datos utilizadas fueron se muestran en la tabla 1, obtenidas del repositorio
de datos UCI Machine Learning Repository (Bache and Lichman 2013). La selecci´on se
realiz´o identificando diferentes caracter´ısticas como informaci´on faltante, variables num´eri-
cas, categ´oricas, cantidad de instancias y de atributos; adem´as de ser biclases con diferente
proporci´on.
ID Tipo Instancias Variables Valores faltates Clase
BD1 Num 748 5N/A C1 (307) C2 (383)
BD2 Cat/Num 690 15 Si C1 (307) C2 (383)
BD3 Cat/Num 1000 21 No 1 (700) 2 (300)
BD4 Cat/Num 270 14 No 1 (150) 2 (120)
BD5 Cat 432 7 No 0 (216) 1 (216)
BD6 Num 1372 5N/A 0 (762) 1 (610)
Tabla 1: Descripci´on del conjunto de datos. BD1) Blood Transfusion Service center, BD2) Credit
Approval, BD3) German, BD4) Heart, BD5)MONK’s Problem, BD6) Bank Authentica-
tion Data Set. Cat = Categ´oricos, Num= Num´ericos. Los valores dentro de los par´entesis
representa la cantidad de instancias por valor de la clase.
3.2. Metodolog´ıa
Una vez cargadas las bases de datos en el ambiente de R, se particiona la informaci´on original
en conjunto de prueba que est´a conformado por la instancia con el ´ındice i=1, mientras
Las bases de datos utilizadas se muestran en la tabla 1, obtenidas del repositorio
de datos UCI Machine Learning Repository (Bache and Lichman 2013). La selección se
realizó identificando diferentes características como información faltante, variables numéri-
cas, categóricas, cantidad de instancias y de atributos; además de ser biclases con diferente
proporción.
Cat/Núm
Cat/Núm
Cat/Núm
Núm
68 Evaluador de Eficiencias de Técnicas de Clasificación en R
que el conjunto de entrenamiento es su cumplemento. Este ´ultimo funge como entrada de
informaci´on para el aprendizaje de cada uno de los clasificadores: KNN con K=3, DLF, C4.5,
IB y CMV, valid´andose cada uno con la instancia del conjunto de prueba, corroborando que
el valor inferido sea igual al original (denominado objetivo).
Una vez realizado el proceso anterior, se contabilizan las concordancias entre los valores
inferidos y objetivos, para conformar la matriz de confusi´on. El valor del ´ındice i inicia en 1
hasta la cantidad de instancias total de la base de datos repitiendo el proceso. Finalmente,
se procede a calcular las medidas de rendimiento anteriormente mencionados.
Es importante resaltar que para la discretizaci´on de los datos en algunas t´ecnicas se
realiz´o una partici´on de la variable tomando como umbral su mediana; mientras que por
otro lado se convirtieron las variables marginales y nominales a num´ericos asignando un
entero seg´un al valor identificado. Por ´ultimo, para la soluci´on del problema de la obtenci´on
de una matriz singular durante el proceso del ADF se procedi´o a tomar los primeros 3
componentes principales de la matriz de datos originales.
4. Resultados
Los resultados muestra en la tabla 2, las cuales de manera general se puede visualizar que
ning´un clasificador tuvo el mejor rendimiento en todos los conjuntos de datos considerando
la cantidad de instancias clasificadas correctamente; aunque cada uno predomin´o al menos
una vez.
Otro punto importante a observar es que cada medida de rendimiento propuesto no
necesariamente coincidieron con el mayor porcentaje de instancias correctas, a excepci´on del
ECM, esto se debe a que el c´alculo de este valor se realiza con el complemento de la cantidad
de correctos.
Adem´as, se percibi´o que en el cuarto conjunto de datos, el porcentaje de efectividad fue
el escenario en donde los modelos tuvieron un desempe˜no competitivo. Por ´ultimo se observa
que C4.5 pudo clasificar correctamente todos los datos.
69Evaluador de Eficiencias de Técnicas de Clasificación en R
BD1 BD2
KNN DLF C4.5 IB CMV KNN DLF C4.5 IB CMV
Correctos 560 494 382 178 479 473 594 391 307 548
Precisi´on 0.748 0.660 0.510 0.237 0.640 0.685 0.860 0.566 0.444 0.794
Exactitud 0.459 0.388 0.240 0.237 0.376 0.663 0.785 0.513 0.444 0.696
Recuerdo 0.320 0.747 0.488 10.780 0.596 0.944 0.488 10.951
Valor-F 0.377 0.511 0.322 0.384 0.508 0.627 0.857 0.500 0.615 0.804
ECM 0.251 0.333 0.489 0.762 0.359 0.314 0.139 0.433 0.555 0.205
BD3 BD4
Correctos 727 571 662 719 728 214 224 199 225 219
Precisi´on 0.727 0.571 0.662 0.719 0.728 0.792 0.822 0.737 0.833 0.811
Exactitud 0.772 0.846 0.756 0.853 0.811 0.771 0.803 0.699 0.815 0.800
Recuerdo 0.862 0.472 0.762 0.722 0.797 0.758 0.816 0.716 0.808 0.766
Valor-F 0.815 0.606 0.759 0.782 0.804 0.764 0.809 0.707 0.811 0.782
ECM 0.273 0.420 0.338 0.281 0.272 0.207 0.170 0.262 0.166 0.188
BD5 BD6
Correctos 322 288 432 216 360 1371 1340 683 610 1344
Precisi´on 0.745 0.666 10.5 0.833 0.999 0.976 0.497 0.444 0.979
Exactitud 0.827 0.666 10.5 0.75 1 1 0.553 N/A 1
Recuerdo 0.620 0.666 1 1 1 0.998 0.958 0.497 00.963
Valor-F 0.708 0.666 10.666 0.857 0.999 0.978 0.523 00.981
ECM 0.254 0.333 00.5 0.166 0.001 0.023 0.523 0.555 0.029
Tabla 2: Resultados de ejecuci´on de las 6 bases de datos. N/A = No Aplica, debido a que el
resultado fue propiciado por una divisi´on entre 0.
Referencias 6
5. Conclusi´on
Las t´ecnicas de clasificaci´on son utilizadas con la finalidad de describir o predecir, sin em-
bargo una no puede ser funcional para cualquier escenario debido a sus caracter´ısticas. Del
mismo modo, las medidas de rendimiento tienen un criterio diferente para calificar a cada
modelo,aunque pudieron verse afectadas por el tipo de validaci´on, pues la t´ecnica de dejar
uno fuera tiene un importante sesgo debido a la cantidad de clases, pues el modelo puede
aprender mejor un clase con mayor proporci´on.
Tamb i´en es de mencion a r q u e e l r endimiento de l D L F p u d o verse inuido por la consid e -
raci´on de tomar 3 componentes principales de manera est´atica tras el problema de la matriz
singular provocado al realizar la inversa, pues es posible no considerar los suficientes compo-
nentes para conservar la esencia de los datos. Del mismo modo ocurre con el comportamiento
del ´arbol de decisi´on desde el proceso de discretizaci´on.
Como trabajos a futuro se plantea la implementaci´on de este evaluador de eficiencias en
un paquete del lenguaje R con las medidas de rendimiento utilizadas y a˜nadiendo diferentes
tipos de validaci´on cruzada para evitar en lo posible el sesgo provocado por el desbalance de
la proporci´on de las clases.
Referencias
Bache, K., and M. Lichman. 2013. UCI Machine Learning Repository.
Kohavi, Ron, et al. 1995. “A study of cross-validation and bootstrap for accuracy estimation
and model selection.” IJCAI. 1137–1145.
Murty, M Narasimha, and V Susheela Devi. 2011. Pattern recognition: An algorithmic
approach. Springer.
R Core Team. 2003. R: A Language and Environment for Statistical Computing. Vienna,
Austria: R Foundation for Statistical Computing.
Rokach, Lior. 2010. “Ensemble-based classifiers.” Artificial Intelligence Review 33 (1-2):
1–39.
Tan, Pang-Ning, Michael Steinbach, and Vipin Kumar. 2005. Introduction to Data Mining.
First Edition. Addison-Wesley Longman Publishing Co., Inc.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
The idea of ensemble methodology is to build a predictive model by integrating multiple models. It is well-known that ensemble methods can be used for improving prediction performance. Researchers from various disciplines such as statistics and AI considered the use of ensemble methodology. This paper, review existing ensemble techniques and can be served as a tutorial for practitioners who are interested in building ensemble based systems.
Article
Full-text available
We review accuracy estimation methods and compare the two most common methods: crossvalidation and bootstrap. Recent experimental results on artificial data and theoretical results in restricted settings have shown that for selecting a good classifier from a set of classifiers (model selection), ten-fold cross-validation may be better than the more expensiveleaveone -out cross-validation. We report on a largescale experiment---over half a million runs of C4.5 and a Naive-Bayes algorithm---to estimate the effects of different parameters on these algorithms on real-world datasets. For crossvalidation, wevary the number of folds and whether the folds are stratified or not# for bootstrap, wevary the number of bootstrap samples. Our results indicate that for real-word datasets similar to ours, the best method to use for model selection is ten-fold stratified cross validation, even if computation power allows using more folds. 1 Introduction It can not be emphasized eno...
Introduction to Data Mining. First Edition
  • Tan
  • Michael Pang-Ning
  • Vipin Steinbach
  • Kumar
Tan, Pang-Ning, Michael Steinbach, and Vipin Kumar. 2005. Introduction to Data Mining. First Edition. Addison-Wesley Longman Publishing Co., Inc.