Conference Paper

Nomograms for Visualization of Naive Bayesian Classifier.

Conference: Knowledge Discovery in Databases: PKDD 2004, 8th European Conference on Principles and Practice of Knowledge Discovery in Databases, Pisa, Italy, September 20-24, 2004, Proceedings
Source: DBLP
Download full-text

Full-text

Available from: Blaz Zupan, Aug 21, 2014
0 Followers
 · 
80 Views
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: Recent research hasdemonstrated theutility ofusing supervised classification systems forautomatic identification of lowquality microarray data.However, this approach requires annotation ofalarge training setbyaqualified expert. Inthis paperwe demonstrate the utility of an unsupervised classification technique basedontheExpectation-Maximization (EM)algorithm andnaive Bayesclassification. On ourtestset, thissystemexhibits performance comparable tothatofan analogous supervised learner constructed fromthesametraining data. Keywords-microarray, quality control, EM algorithm, Naive Bayes
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: Resumen El modelado de usuarios en Sistemas de Reco-mendación en Internet a través de sus acciones de uso del sitio web contribuye a aliviar el pro-blema de la sobrecarga de información al usua-rio. Sin embargo, la extracción de los datos útiles para construir modelos de usuarios en la Minería de Uso Web (WUM) constituye sin lugar a dudas la fase más compleja y costosa en términos de tiempo y recursos computaciona-les. Conocida como fase de preprocesamiento de datos, esta etapa de selección, limpieza, me-joramiento, reducción y transformación de las bases de datos masivas y multi-dimensionales y de los logs requiere de una combinación si-nérgica de la experiencia del analista en la apli-cación de técnicas de aprendizaje automático, aplicación de algoritmos de minería de datos y el uso de herramientas específicas para obtener datos fiables. Analizamos con un caso real esta fase de preprocesamiento en la Minería de Uso Web y desarrollamos una comparación entre las herramientas más usadas para este propó-sito creando una taxonomía de caracteríticas y los algoritmos usados en cada una. El caso de estudio tiene 2.161.159 usuarios que pueden ser modelados a partir de un máximo de 984 atributos y los logs son del orden de 50 Gb.
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: The main advantage of unordered classiflcation rules is in their power to spot and explain local regularities. However, using them in classiflcation often poses problems due to con∞icts between rules, when some resolution principle needs to be applied. On the other hand, most of the machine learning methods try to learn con∞ict-free hypotheses covering the whole domain space and are not concerned with single pat- terns only. In this paper we propose an algorithm named PILAR that combines the advantages of both approaches. Our algorithm aims at im- proving any machine learning algorithm by comparing its predictions with predictions of rules, and applying changes to the predictions of ini- tial model when necessary. Moreover, if a dummy classifler (e.g. majority classifler) is used, then this procedure acts as a classifler from rules only and can be compared to other methods for classiflcation from rules. We experimentally validated our method with two basic classiflcation meth- ods. In the flrst one dummy classifler was used and in the second logistic regression.
Show more