ChapterPDF Available

Propuesta de análisis visual de datos en Big Data usando reducción de dimensión interactiva Proposal for visual analysis of Big Data using interactive dimensionality reduction

Authors:

Abstract and Figures

Resumen—En la actualidad se puede evidenciar un crecimiento exponencial del volumen de datos, dando lugar al área emergente denominada Big Data. Paralelamente a este crecimiento, ha aumentado la demanda de herramientas, técnicas y dispositivos para almacenar, transmitir y procesar datos de alta dimensión. La mayoría de metodologías existentes para procesar datos de alta dimensión producen resultados abstractos y no envuelven al usuario en la elección o sintonización las técnicas de análisis. En este trabajo proponemos una metodología de análisis visual de Big Data con principios de interactividad y controlabilidad de forma que usuarios (incluso aquellos no expertos) puedan seleccionar intuitivamente un método de reducción de dimensión para generar representaciones inteligibles para el ser humano. Palabras Clave—Big Data, reducción de dimensión, análisis visual Abstract— Today, the volume of available data is experiencing an exponential growing, introducing an emergent are so-called Big Data. Along with the data growing, the demand of tools, techniques and devices to store, transmit and process high-dimensional data (HD) is increased. Most available methodologies to process HD output abstract outcomes and user is not involved in the selection or parameter tuning processes of data analysis techniques. In this work, we propose a visual analysis methodology following principles of interactivity and controllability. Doing so, users (even non-expert ones) can intuitively select a dimensionality reduction method to generate intelligible representations for human beings. Palabras Clave—Big Data, reducción de dimensión, análisis visual I. INTRODUCCIÓN El crecimiento del volumen de datos de diferente tipo (estructurados, no estructurados, semiestructurados) es exponencial y actualmente en términos de almacenamiento alcanza el orden de petabytes, y exabytes. Dichos datos son generados por diferentes fuentes, entre ellas: Los seres humanos, la comunicación máquina a máquina (también denominada como M2M), los grandes datos transaccionales, la información biométrica [1], [2], entre otros. El gran volumen de información se debe a los avances electrónicos e informáticos, como sensores, satélites, bandas magnéticas, GPS, tecnologías web, cloud computing, y redes sociales [3], [4]. Uno de los desafíos del manejo de información que presenta el mercado es analizar, descubrir y entender más allá de lo que sus procesos y herramientas tradicionales reportan sobre su información [1]. En efecto, si la información no puede ser fácilmente interpretada, se genera un mayor consumo de recursos tecnológicos, económicos, tiempo, y talento humano (presencia requerida de expertos en análisis de datos). Las técnicas comunes de tratamiento de datos no permiten recuperar la información oculta en su totalidad o no tienen la capacidad para tratarlos, en consecuencia la visualización de datos en muchos casos se vuelve imprescindible, en especial, en las etapas de análisis en donde se realizan las hipótesis significativas sobre los datos [5] [4], de forma que los usuarios (no necesariamente expertos) puedan obtener representaciones visuales que permitan analizar de forma intuitiva los resultados
Content may be subject to copyright.
Propuesta de análisis visual de datos en Big Data
usando reducción de dimensión interactiva
Proposal for visual analysis of Big Data using
interactive dimensionality reduction
A. C. Umaquinga-Criollo
D. H. Peluffo-Ordóñez
P. D. Rosero-Montalvo
Universidad Técnica del Norte
Ibarra, Ecuador
acumaquinga@utn.edu.ec
dhpeluffo@utn.edu.ec
pdrosero@utn.edu.ec
M. V. Cabrera-Álvarez
J. C. Alvarado-Pérez
A. J. Anaya-Isaza
Corporación Universitaria Autónoma de Nariño
Pasto, Colombia
Universidad Surcolombiana
Neiva, Colombia
milton.cabrera@aunar.edu.co
jcalvarado@usal.es
andres.anaya@usco.edu.co
ResumenEn la actualidad se puede evidenciar un crecimiento
exponencial del volumen de datos, dando lugar al área emergente
denominada Big Data. Paralelamente a este crecimiento, ha aumentado
la demanda de herramientas, técnicas y dispositivos para almacenar,
transmitir y procesar datos de alta dimensión. La mayoría de
metodologías existentes para procesar datos de alta dimensión
producen resultados abstractos y no envuelven al usuario en la elección
o sintonización las técnicas de análisis. En este trabajo proponemos
una metodología de análisis visual de Big Data con principios de
interactividad y controlabilidad de forma que usuarios (incluso
aquellos no expertos) puedan seleccionar intuitivamente un método de
reducción de dimensión para generar representaciones inteligibles para
el ser humano.
Palabras ClaveBig Data, reducción de dimensión, análisis
visual
Abstract Today, the volume of available data is experiencing an
exponential growing, introducing an emergent are so-called Big Data.
Along with the data growing, the demand of tools, techniques and
devices to store, transmit and process high-dimensional data (HD) is
increased. Most available methodologies to process HD output abstract
outcomes and user is not involved in the selection or parameter tuning
processes of data analysis techniques. In this work, we propose a visual
analysis methodology following principles of interactivity and
controllability. Doing so, users (even non-expert ones) can intuitively
select a dimensionality reduction method to generate intelligible
representations for human beings.
Palabras ClaveBig Data, reducción de dimensión, análisis
visual
I. INTRODUCCIÓN
El crecimiento del volumen de datos de diferente tipo
(estructurados, no estructurados, semiestructurados) es
exponencial y actualmente en términos de almacenamiento
alcanza el orden de petabytes, y exabytes. Dichos datos son
generados por diferentes fuentes, entre ellas: Los seres humanos,
la comunicación máquina a máquina (también denominada
como M2M), los grandes datos transaccionales, la información
biométrica [1], [2], entre otros. El gran volumen de información
se debe a los avances electrónicos e informáticos, como
sensores, satélites, bandas magnéticas, GPS, tecnologías web,
cloud computing, y redes sociales [3], [4].
Uno de los desafíos del manejo de información que presenta
el mercado es analizar, descubrir y entender más allá de lo que
sus procesos y herramientas tradicionales reportan sobre su
información [1]. En efecto, si la información no puede ser
fácilmente interpretada, se genera un mayor consumo de
recursos tecnológicos, económicos, tiempo, y talento humano
(presencia requerida de expertos en análisis de datos).
Las técnicas comunes de tratamiento de datos no permiten
recuperar la información oculta en su totalidad o no tienen la
capacidad para tratarlos, en consecuencia la visualización de
datos en muchos casos se vuelve imprescindible, en especial, en
las etapas de análisis en donde se realizan las hipótesis
significativas sobre los datos [5] [4], de forma que los usuarios
(no necesariamente expertos) puedan obtener representaciones
visuales que permitan analizar de forma intuitiva los resultados
[6], [4]. La tarea de presentar y/o representar datos, de manera
comprensible, intuitiva y dinámica, no es una tarea trivial,
puesto que dichos datos en muchas ocasiones se encuentran
dispersos, y proceden de diversas fuentes. Además, al ser
combinados pueden generar un nuevo conjunto de datos de
estructura inconsistente e impredecible [7].
Para lograr descubrir el conocimiento inmerso en Big Data
(grandes volúmenes de datos), la visualización de
datos/información (denominado VI/ IV/ Info Vis/ Data Vis)
pretende representar los datos de forma inteligible con el
objetivo de ayudar a los usuarios en la exploración, la
comprensión y el análisis de datos a través de la inspección
visual progresiva e iterativa [8] [9]. Una forma de lograr esto, es
a través de técnicas de reducción de dimensión (RD), que le
permite transformar los datos en representaciones visuales de
objetos en 1, 2 ó 3 dimensiones [10] desde el punto de vista de
la percepción humana [11] y podría representar una mejora
substancial en el costo computacional. De ahí la importancia de
contar con métodos de reducción de dimensión (denominados
MRD) que garanticen eficiencia en los resultados y en el tiempo
de procesado [12].
Uno de los mayores problemas que enfrenta la
representación visual es la alta dimensionalidad o dimensión, es
decir, un número significativamente grande de variables o
atributos que caracterizan a un objeto. Además, las herramientas
de VI /IV, en su mayoría, implican etapas de pre procesamiento,
uso de métodos de minería de datos como rol importante [13],
[10], [14], [15], post procesamiento y/o la visualización. Sin
embargo, no todas las herramientas integran todas las etapas
mencionadas, terminando en resultados abstractos de la
información. Asimismo, las herramientas que integran todas las
etapas no tienen especial énfasis en la visualización, por lo que
los resultados, a pesar de que involucran un análisis visual,
también tienden a ser abstractos [16], [17] o ambiguos, y tan
lo algunas pocas pueden usarse sin conocimiento a priori
acerca de los datos [18], [4].
En efecto, los métodos de reducción de dimensión (MRD)
son desarrollados bajo determinados parámetros de diseño y
criterios de optimización preestablecidos, los cuales, al
ejecutarse como procesos en caja negra, carecen de propiedades
tales como la interacción síncrona con el usuario y la capacidad
de control en etapas de ejecución de algoritmos, permitiendo
modificar los parámetros solo en la etapa inicial o después de
alguna retroalimentación al finalizar el proceso del algoritmo en
ejecución, ocultando los pasos intermedios que permiten una
mejor compresión y acercamiento a la técnica u algoritmo
empleado, es decir, si el usuario desea modificar los parámetros
de ingreso de la técnica a aplicar, es necesario ejecutarla
nuevamente desde su inicio y por tanto se perderían todos los
cálculos procesados, por lo que el usuario se ve obligado a
realizar una serie de pasos de ensayo y error a modo de
retroalimentación para encontrar los parámetros que generen la
construcción más óptima del modelo y que permita evaluarlo al
final del proceso.
En el presente trabajo, se presenta una metodología de
visualización interactiva y eficaz de datos, usando un modelo
matemático-geométrico de combinación de técnicas kernel no
supervisadas de reducción de dimensión que presente un buen
compromiso entre el desempeño en la representación de los
datos y el costo computacional.
Esta metodología de visualización interactiva de datos
combina diferentes métodos de RD no supervisados y
representados en matrices kernel, y permite realizar la mezcla de
métodos de forma interactiva, a través de una combinación lineal
de las correspondientes matrices kernel cuyos coeficientes se
relacionan con las coordenadas geométricas de los puntos
interiores de una determinada figura geométrica de tal forma que
sea de uso fácil e intuitivo inclusive para un usuario no experto,
ya que le permite seleccionar un método específico o
combinarlos de acuerdo a sus necesidades .
El resto del documento se organiza como se explica a
continuación: En la Sección II, se realiza una breve revisión de
los métodos de reducción de dimensión existentes y de técnicas
de visualización. En la Sección III, se presenta la explicación de
la metodología de visualización propuesta. En la Sección IV,
aspectos de discusión. Por último, en la Sección V se expone las
principales conclusiones de la investigación realizada.
II. BREVE REVISIÓN DE LOS MÉTODOS DE REDUCCIÓN DE
DIMENSIÓN EXISTENTES, Y TÉCNICAS DE VISUALIZACIÓN
A. Métodos de reducción de dimensión (MRD)
Los MRD favorecen a la compresión de la información
subyacente, eliminación de redundancia y mejora de los
procesos de clasificación y visualización de los datos,
implicando un costo computacional razonable [12].
Entre los métodos clásicos de RD, se encuentra el análisis
de componentes principales - principal component analysis
(PCA)[19] y classical multidimensional scaling (CMDS), los
cuales se basan en criterios de conservación de la varianza y la
distancia, respectivamente [20]. Recientemente, los métodos de
RD se enfocan en criterios orientados a la preservación de la
topología de los datos. Normalmente, dicha topología se
representa mediante una matriz de similitud o afinidad que
representa el grado de relación o conexión entre los puntos
coordenados (coordenadas cartesianas que representan los
datos). Desde un punto de vista de teoría de grafos, los datos
pueden representarse a través de un grafo ponderado (grafo con
un valor de peso por cada adyacencia o arista) y no dirigido, en
el cual los nodos representan los puntos coordenados, y la
matriz de similitud o afinidad contiene los pesos de cada arista.
Los métodos pioneros en incluir similitudes son Laplacian
eigenmaps (LE) [21] y locally linear embedding (LLE) [22], los
cuales son de tipo espectral, es decir que usan la información de
los valores vectores y vectores propios de una matriz cuadrada
obtenida como una nueva representación de los datos
originales.
Por otra parte, dado que la matriz de similitud normalizada
puede interpretarse como distribuciones de probabilidad, han
surgido otros enfoques basados en divergencias, tales como
stochastic neighbour embedding (SNE) [23], y sus variantes y
mejoras, tales como t-SNE que usa una distribución t-Student y
JSE que usa la divergencia de Jensen-Shanon. [24] [25].
En la Figura 1, se muestra los espacios de baja dimensión
resultantes de aplicar algunos métodos de RD sobre un conjunto
de datos artificiales que representa un cascarón esférico. Este
conjunto de datos es simple y la tarea de reducción consiste, de
algún modo, en desdoblar la esfera, es decir, generar una
representación plana de la esfera conservando la relación entre
puntos vecinos.
Debido a su naturaleza topológica, los métodos basados en
similitudes son susceptibles de ser naturalmente representados
a través de matrices kernel[26]. En el estudio realizado en [27]
se comprueba que las aproximaciones kernel son versátiles y
adecuadas para representar métodos de reducción de
dimensión.
Figura 1. En las figuras se muestra los espacios de baja
dimensión de un cascarón esférico obtenidos de aplicar: (b)
classical multidimensional scaling (CMDS), (c) Laplacian
eigenmaps (LE), (d) t-Distributed stochastic neighbor
embedding (t-SNE), (e) JSE.
B. Técnicas de visualizcación
Existen decenas de herramientas de software que usan un
sinnúmero de técnicas de visualización [9] [10], entre ellas las
técnicas de dimensión lineal o no lineal, que se basan en
métodos matemáticos, geométricos, estadísticos, y topológicos
[28] [29].
A continuación, se presenta un breve resumen de algunas
clasificaciones de técnicas de visualización:
Según algunos autores [30] [31], las directrices de las
técnicas estándar de visualización pueden clasificarse en:
o Gráficos en 1,2,3 dimensiones
o Técnicas iconográficas
o Técnicas geométricas
o Técnicas orientadas al pixel
o Técnicas basadas en gráficos o jerarquías
El autor [32] sugiere la siguiente clasificación, que es
considerada por [9] [10]:
o Geometric Projection:
Scatter Plots
Scatter Plots Matrix
Landscape
Projection pursuit
Prosection View
HyperSlice
Parallel Coordinates
o Icon-Based:
Chernoff Faces
Stick Figures
Shape-Coding
Color Icons
TileBars
o Pixel-Oriented:
Recursive Pattern Technique
Circle Segments Technique
Spiral- & Axes-Techniques
o Hieralchical:
Dimensional Stacking
Worlds-within-Worlds
Tree map
Cone Trees
Info Cube
o Graph-Based:
Basic Graphs (Straight-Line, Polyline,
Curved-Line, ...)
Specific Graphs (e.g., DAG, Symmetric,
Cluster, ...),
Systems (e.g., Tom Sawyer,
Hy+,SeeNet,Narcissus, ...)
Adicionalmente, [31] realiza un estudio considerando la
clasificación por el método analítico de esta manera:
o Comparison:
With shaft:
- Bar Graph,
- Stacket Bar Graph,
- Histogram,
- Multi-Set Bar Chart,
- Population Pyramid,
- Radial Bar Char,
- Stacket Area Graph,
- Line Graph,
- Bubble Chart,
- Box Plot,
- Span Chart,
- Marimekko Chart,
- Nightlingate Rome Chart.
Shaftless:
- Proportional Area Chart
- Pictogram Chart
- Dot Matriz Chart
- Tree Map
- Donut Chart
- Choropleth Map
- Tally Chart
- Chord Diagram.
o Pattern:
Bar Graph
Stacket Bar Graph
Histogram
Multi-Set Bar Chart
Population Pyramid
Stacket Area Graph
Line Graph
Bubble Chart
Scatter Plot
Box Plot
Dot Matriz Chart
Arc Diagram.
o Proportion:
Between values:
- Stacket Bar Graph
- Proportional Area Chart
- Bubble Chart
- Bubble Map
- Dot Matriz Chart
- Cicle Packing
- Nightlingate Rome Chart
- Word Cloud.
A whole:
- Stacket Bar Graph
- Tree Map
- Marimekko Chart
- Pie Chart
- Donut Chart
o Part of a whole:
Stacket Bar Graph
Tree Map
Marimekko Chart
Pie Chart
Donut Chart
o Concepts:
Ven Diagram
Mind Map
o Hierarchy:
Tree Map
Cicle Packing
Tree Diagram
o Location:
Bubble Map
Flow Map
Choropleth Map
o Text:
Individual data:
- Time Table.
Organizational:
- Tree Diagram.
Time:
- Timeline.
o Relationship:
Bar Graph
Stacket Bar Graph
Radial Bar Char
Stacket Area Graph
Line Graph
Bubble Chart
Scatter Plot
Tree Diagram
Marimekko Chart
Arc Diagram
Ven Diagram
Radial Chart
Chord Diagram.
o Distribution:
Geographic:
- Flow Map.
Frequency:
- Histogram,
- Multi-Set Bar Chart,
- Bubble Chart,
- Box Plot,
- Pictogram Chart,
- Dot Matriz Chart,
- Tally Chart,Timeline.
Population / text:
- Population Pyramid
- Word Cloud
o Movement:
Flow Map
o Over time:
Histogram
Area Graph
Stacket Area Graph
Line Graph
Bubble Chart
Nightlingate Rome Chart
Time Table
Timeline
Por su parte [33] sugiere los siguientes tipos de técnicas:
o Numeric Data:
Bar-line -Pie-Chart
Histogram
Scatter plot
Parallel Coordinates
Scatter Plot Matrix
o Geo-Related Data:
Projection on Map
o Network Data:
Tree Map
Other Graphs.
Si bien, son varias las técnicas de visualización existentes,
los estudios que analizan las técnicas utilizadas en herramientas
de tipo open source [34], comerciales[33], evidencia para éste
último, la dificultad para analizar algunas de sus herramientas
por la falta de apertura en las respuestas de cuestionarios de
estudio y la limitación de análisis con versiones de prueba. [33]
[9].
III. METODOLOGÍA DE VISUALIZACIÓN PROPUESTA
En esta propuesta se presenta la integración sinérgica de dos
áreas: Reducción de dimensión y visualización de información.
Específicamente, se propone un nuevo sistema de visualización
basado en reducción de dimensión, siguiendo las reglas de la
percepción humana, en las cuales se tiene en cuenta el color, la
intensidad, la luminosidad, el sombreado, el brillo, el contraste,
la textura, la forma, la orientación, el movimiento, la
estereoscopia, entre otros conceptos, para proponer un diseño
visualmente significante para la cognición humana. Este nuevo
método de visualización interactiva de datos consiste en la
combinación de diferentes métodos de reducción de dimensión
no supervisados y representados en matrices kernel.
A. Combinación de MRD usando un modelo matemático-
geométrica
La combinación de MRD propuesta se basa en un modelo
matemático-geométrico que permite realizar la mezcla de
métodos de forma interactiva, a través de una combinación
lineal de las correspondientes matrices kernel, cuyos
coeficientes se relacionan con las coordenadas geométricas de
los puntos interiores de una determinada figura geométrica. Así,
un usuario -incluso, no experto- podría fácil e intuitivamente
seleccionar un método en específico o realizar una combinación
de métodos que satisfaga sus necesidades por medio de la
exploración de una figura geométrica y de la selección de
puntos de la superficie de la misma. En la Figura 2, se muestra
gráficamente la aplicación de un posible modelo matemático-
geométrico con un enfoque basado en polígonos, en donde, en
general los métodos son representados por un conjunto de
funciones {f1,..., fM}, donde M es el número de funciones.
Una manera de mezclar dos funciones es la deformación
continua de una función en otra, usando principios sicos de
homotopía[35]. Un modelo simple de homotopía es
h( f1, f2, λ) = λ f1 + (1 λ) f2, donde λ es un parámetro de
homotopía, que en rminos de una interfaz serviría de barra
deslizante. Gráficamente, este modelo podría representarse
como una línea de longitud 1 trazada entre dos puntos que
representan las funciones, como se aprecia en la Figura 2(a).
Este modelo podría extenderse naturalmente a más de dos
métodos de forma que tres funciones se representarían con un
triángulo (Figura 2(b)) cuatro funciones con un rombo (Figura
2(c)), y así sucesivamente. Para efectos de visualización de
datos a través de métodos de reducción de dimensión, los
términos a combinar serían matrices kernel correspondientes a
los métodos. Por tanto, la matriz 𝑲
̂ resultante de la mezcla de
un conjunto de M matrices kernel {𝑲(1), … , 𝑲(𝑀)} podría
escribirse como 𝑲
̂ = 𝛼𝑚𝑲(𝑚)𝑁
𝑚=1 , donde 𝛼𝑚 es la
ponderación correspondiente al método m. Los coeficientes de
ponderación deberán estar asociados con las coordenadas
geométricas de los puntos al interior de la superficie del
polígono. En la Figura 3 se muestra un ejemplo del modelo con
4 métodos y sus correspondientes parámetros geométricos. El
parámetro de homotopía λ, los niveles de profundidad al
interior de la superficie {𝜇1, … , 𝜇𝑛} y el parámetro de
resolución de profundidad 𝜀 determinan los coeficientes 𝛼𝑚 .
Como se mencionó previamente, el método KPCA permite
obtener espacios de baja dimensión a través de cualquier
método de RD, siempre y cuando éste último pueda
representarse adecuadamente en una matriz kernel. No
obstante, la ejecución del algoritmo KPCA y el cálculo de las
matrices kernel pueden significar un costo computacional
elevado de acuerdo con la complejidad de los datos, y por tanto
podría afectarse el propósito de lograr una interactividad
síncrona con el usuario. Además, la representación resultante
de los datos debe ser altamente controlable de forma que se
ajuste lo mejor posible a los criterios y necesidades del usuario.
Dicho esto, el método propuesto de visualización de datos
debe alcanzar un buen compromiso entre desempeño en la
representación de los datos y costo computacional.
Figura 2. Enfoque poligonal para mezcla de un conjunto de
funciones {f1,..., fM}. El parámetro λ configura la mezcla de dos
métodos.
Figura 3. Homotopía geométrica para 4 métodos kernel. Este
modelo permite al usuario combinar métodos seleccionando
puntos dentro de la superficie del polígono. Cada punto es
localizado por medio de su correspondiente par (λ, μ), el cual a
su vez está asociado con un conjunto de M coeficientes 𝛼𝑚
IV. DISCUSIÓN
Este trabajo busca solventar las dificultades mencionadas,
siendo un puente entre el dominio de dos contextos de
investigación, como lo son la RD e IV, dos campos que hacen
parte del Aprendizaje de máquina (Machine learning),
específicamente de Minería de datos (Data Mining) y
Reconocimiento de patrones (Pattern recognition) y se refieren
respectivamente a la representación y visualización de
información cuantitativa multivariada, especialmente con un
número significativamente grande de variables. Esto se puede
hacer importando los conceptos de controlabilidad e interacción
que están en el dominio de la IV y proyectándolos al RD para
hacer un método de pattern recognition controlable e
interactivo, ya que el objetivo de la IV, es desarrollar métodos
gráficos que presenten la información más relevante para el
usuario, bajo criterios de controlabilidad, donde el usuario
pueda decidir cuál es el mejor modo de representar la
información subyacente de sus datos en base a su objetivo de
análisis, utilizando una interfaz que responda rápidamente a los
cambios de parámetros, es decir, utilizar las propiedades de la
visualización para hacer más legibles los resultados de la
reducción de dimensión, así como más cercanos al usuario a
través de combinaciones de diversos métodos de manera
interactiva y amigable, de tal forma que permita la consecución
gradual del objetivo en donde los pasos intermedios sean
abordados en base a las teorías de la percepción humana, dando
lugar a nuevos diseños de interfaces que permitan: Operaciones
mentales con un rápido acceso a grandes cantidades de datos
fuera de la mente, inferencia cognitiva, reducción de la
demanda de la memoria de trabajo y co-participación de la
máquina en una tarea conjunta, mediante el cambio gradual de
las visualizaciones de forma dinámica a medida que avanza el
trabajo[36].
Uno de los factores más importantes del método propuesto
es la interactividad síncrona que permitirá que los métodos RD
se ajusten de acuerdo al criterio del usuario, quien -aún sin
conocer específicamente los métodos que se han aplicado-
podrá obtener resultados confiables, involucrando un costo
computacional bajo.
Este trabajo podría representar un aporte en el área de
Aprendizaje de máquina (Machine learning), y
Reconocimiento de patrones (Pattern recognition) en términos
de realizar una visualización eficiente permitiendo a un usuario,
no experto o sin previo conocimiento de los métodos, obtener
resultados visuales de fácil interpretación mediante el uso de
una interfaz interactiva de fácil manejo que requiera de un costo
computacional adecuado y que responda eficientemente a las
necesidades planteadas.
V. CONCLUSIONES
En este trabajo se presenta una metodología para el análisis
visual de datos de alta dimensión en un contexto de Big Data.
El objetivo de esta metodología es facilitar al usuario la
tarea de seleccionar y/o sintonizar los parámetros de una técnica
de visualización de una forma interactiva. En particular, en este
trabajo la visualización se basa en reducción de dimensión y la
interactividad está dada por la posibilidad del usuario de
seleccionar los pesos o factores de ponderación de una
combinación lineal de matrices kernel que representan métodos
de reducción de dimensión. Como trabajo futuro, se proponer
realizar interfaces interactivas y visuales que permitan evaluar
el modelo.
AGRADECIMIENTOS
Los autores agradecen a la Universidad Técnica del Norte, a la
Corporación Universitaria Autónoma de Nariño, y a la
Universidad Surcolombiana.
REFERENCIAS
[1] “¿Qué es Big Data?”, 18-jun-2012. [En línea]. Disponible en:
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-
data/index.html. [Consultado: 09-nov-2016].
[2] J. J. Camargo-Vega, J. F. Camargo-Ortega, y L. Joyanes-Aguilar,
“Knowing the Big Data”, Fac. Ing., vol. 24, núm. 38, pp. 6377, ene.
2015.
[3] “El Impacto de las Redes Sociales en la Propiedad Intelectual”. [En
línea]. Disponible en:
http://www.redalyc.org/articulo.oa?id=189020164008. [Consultado: 09-
nov-2016].
[4] J. C. Alvarado-PéRez, D. H. Peluffo-OrdóñEz, y R. TheróN, “Bridging
the gap between human knowledge and machine learning”, ADCAIJ Adv.
Distrib. Comput. Artif. Intell. J., vol. 4, núm. 1, p. 54, oct. 2015.
[5] E. Bertini y D. Lalanne, “Surveying the Complementary Role of
Automatic Data Analysis and Visualization in Knowledge Discovery”, en
Proceedings of the ACM SIGKDD Workshop on Visual Analytics and
Knowledge Discovery: Integrating Automated Analysis with Interactive
Exploration, New York, NY, USA, 2009, pp. 1220.
[6] D. Larose, Discovering Knowledge in Data: An Introduction to Data
Mining. 2014.
[7] W. Dai y P. Hu, “Research on Personalized Behaviors Recommendation
System Based on Cloud Computing”, Indones. J. Electr. Eng. Comput.
Sci., vol. 12, núm. 2, pp. 14801486, ago. 2013.
[8] S. Liu, W. Cui, Y. Wu, y M. Liu, “A survey on information visualization:
recent advances and challenges”, Vis. Comput., vol. 30, núm. 12, pp.
13731393, dic. 2014.
[9] A. C. Umaquinga, D. Peluffo, J. C. Alvarado P., y M. V. Cabrera A.,
“Estudio descriptivo de técnicas aplicadas en herramientas Open Source
y comerciales para visualización de información de Big Data.”, en
Generando Ciencia: Memorias de las I Jornadas Internacionales de
Investigación Científica UTN, 2016.
[10] J. C. Alvarado-Pérez, H. Bolaños-Ramírez, D. H. Peluffo-Ordóñez, y S.
Murillo, “Knowledge discovery in databases from a perspective of
intelligent information visualization”, en 2015 20th Symposium on Signal
Processing, Images and Computer Vision (STSIVA), 2015, pp. 17.
[11] P. Shirley, M. Ashikhmin, S. Marschner, y T. Munzner, Fundamentals of
Computer Graphics. CRC Press, 2009.
[12] J. A. Hernández, “Métodos de reducción de dimensionalidad: Análisis
comparativo de los métodos APC, ACPP y ACPK”, Uniciencia, vol. 30,
núm. 1, pp. 115122, 2016.
[13] M. F. Usama, “Mining Databases: Towards Algorithms for Knowledge
Discover”, vol. 21, pp. 39–48, 1998.
[14] S. Vallejos, “Minería de Datos”. 2006.
[15] J. C. Riquelme, R. Ruiz, y K. Gilbert, “Minería de Datos: Conceptos y
Tendencias”, Intel. Artif. Rev. Iberoam. Intel. Artif., 2006.
[16] P. C. Wong, “Visual data mining”, IEEE Comput. Graph. Appl., vol. 19,
núm. 5, pp. 2021, sep. 1999.
[17] A. Kerren, A. Ebert, y J. Meyer, Eds., Human-centered Visualization
Environments. Berlin, Heidelberg: Springer-Verlag, 2007.
[18] Y. Wang y Q. Li, “Review on the Studies and Advances of Machine
Learning Approaches”, Indones. J. Electr. Eng. Comput. Sci., vol. 12,
núm. 2, pp. 14871494, feb. 2014.
[19] “Estudio comparativo de métodos espectrales para reducción de la
dimensionalidad: LDA versus PCA Comparative study between spectral
methods for dimension reduction LDA versus PCA”. [En línea].
Disponible en:
https://www.researchgate.net/publication/311450410_Estudio_comparat
ivo_de_metodos_espectrales_para_reduccion_de_la_dimensionalidad_L
DA_versus_PCA_Comparative_study_between_spectral_methods_for_
dimension_reduction_LDA_versus_PCA. [Consultado: 24-ene-2017].
[20] I. Borg y P. J. F. Groenen, Modern Multidimensional Scaling: Theory and
Applications. Springer Science & Business Media, 2005.
[21] M. Belkin y P. Niyogi, “Laplacian Eigenmaps for Dimensionality
Reduction and Data Representation”, Neural Comput, vol. 15, núm. 6, pp.
13731396, jun. 2003.
[22] S. T. Roweis y L. K. Saul, “Nonlinear dimensionality reduction by locally
linear embedding”, Science, vol. 290, núm. 5500, pp. 23232326, dic.
2000.
[23] G. Hinton y S. Roweis, “Stochastic Neighbor Embedding”. .
[24] “Type 1 and 2 mixtures of Kullback–Leibler divergences as cost
functions in dimensionality reduction based on similarity preservation
(PDF Download Available)”. [En línea]. Disponible en:
https://www.researchgate.net/publication/257352201_Type_1_and_2_m
ixtures_of_Kullback-
Leibler_divergences_as_cost_functions_in_dimensionality_reduction_b
ased_on_similarity_preservation. [Consultado: 10-nov-2016].
[25] J. A. Lee, D. H. Peluffo-Ordóñez, y M. Verleysen, “Multi-scale
similarities in stochastic neighbour embedding: Reducing dimensionality
while preserving both local and global structure”, ResearchGate, vol.
169, abr. 2015.
[26] J. Ham, D. D. Lee, S. Mika, y et al, “A kernel view of the dimensionality
reduction of manifolds”, en Twenty-First International Conference on
Machine Learning 2004. Proceedings, 2004, pp. 369376.
[27] D. H. Peluffo-Ordóñez, J. A. Lee, y M. Verleysen, “Generalized kernel
framework for unsupervised spectral methods of dimensionality
reduction”, en 2014 IEEE Symposium on Computational Intelligence and
Data Mining (CIDM), 2014, pp. 171177.
[28] V. Snášel, J. Nowaková, F. Xhafa, y L. Barolli, “Geometrical and
topological approaches to Big Data”, Future Gener. Comput. Syst.
[29] G. Carlsson, “Topology and data”, pp. 255–308.
[30] D. A. Keim, “Information visualization and visual data mining”, IEEE
Trans. Vis. Comput. Graph., vol. 8, núm. 1, pp. 18, Enero 2002.
[31] F. P. A. Pereira, “Big data e data analysis: visualização de informação”,
Universidade do Minho, 2015.
[32] Keim Daniel, “Visual Techniques for Exploring Databases”. .
[33] L. Zhang et al., “Visual analytics for the big data era - A comparative
review of state-of-the-art commercial systems”, en 2012 IEEE
Conference on Visual Analytics Science and Technology (VAST), 2012,
pp. 173182.
[34] J. R. Harger y P. J. Crossno, “Comparison of open-source visual analytics
toolkits”, en IS&T/SPIE Electronic Imaging, 2012, p. 82940E82940E.
[35] J. Haarmann, M. P. Murphy, C. S. Peters, y P. C. Staecker, “Homotopy
equivalence of finite digital images”, ArXiv E-Prints, vol. 1408, p.
arXiv:1408.2584, Agosto 2014.
[36] E. R. Tufte, The Visual Display of Quantitative Information
PAPERBACK: Second Edition PAPERBACK. Graphics Press, 2001.
... Machine denominado M2M), las grandes transacciones de datos, la biometría (IBM, 2012), entre otros, se debe en gran parte al avance de la tecnología(Camargo-Vega, Camargo-Ortega, & Joyanes-Aguilar, 2014) (Umaquinga-Criollo et al., 2017) y a la frecuencia de su uso (Camargo-Vega et al., 2014). El rango de almacenamiento oscila en exabytes (Hammer, He, & Martinetz, 2014) (Hilbert & López, 2011), petabytes y va en aumento, tan solo con el Internet de las cosas (del inglés Internet of Things denominado IoT) se estima 6,4 mil millones de "cosas" conectadas en el año 2016 (Gartner, 2015). ...
Chapter
Full-text available
Resumen: Ante el crecimiento exponencial y vertiginoso del volumen de los datos de diferente tipo: estructurados, semiestructurados y no estructurados provenientes de una variedad de fuentes entre ellas: la web, redes sociales, bases de datos, archivos de audio/video, datos transaccionales, sensores, comunicación máquina a máquina (denominado M2M). El área de Big Data pretende dar respuesta a los desafíos del tratamiento de la información. Es por ello, que el proceso de análisis de grandes volúmenes de datos Big Data Analytics (denominado BDA) facilita el descubrimiento de patrones, predicciones, fraudes, tendencias de mercado, comportamientos y preferencias de los clientes e información de utilidad, que no sería posible con las herramientas convencionales. BDA se convierte en una de las herramientas de soporte para la toma de decisiones empresariales y ventaja competitiva en tiempo real o en el menor tiempo posible frente a sus competidores, ofreciendo nuevos niveles de competitividad, procesos, modelos de negocio basados en datos y reducción del riesgo para conservar, fidelizar y captar una mayor cantidad de clientes generando un aumento en las fuentes de ingreso de las empresas. El presente artículo es de tipo exploratorio, descriptivo y documental. Se realiza un estudio descriptivo del impacto de Big Data Analytics (BDA) en el campo empresarial, así como un breve recorrido por sus tendencias, oportunidades, dificultades y retos. Este estudio pretende contribuir a la comunidad de investigadores, así como al personal de las empresas y a quienes se inician en el conocimiento de Big Data Analytics para una mejor comprensión en este campo. Abstract: By the exponential and vertiginous growth of the volume of data of different types: structured, semi-structured and unstructured from a variety of sources including: the web, social networks, databases, audio / video files, transactional data, sensors, machine-to-machine communication (denominated M2M). The Big-Data-area is intended to address the challenges of information processing. Therefore, the Big Data Analytics (BDA) process of large volumes of data facilitates the discovery of patterns, predictions, fraud, market trends, customer behaviours and preferences and useful information that would not be possible with conventional tools. BDA becomes one of the tools to support business decision-making and competitive advantage in real time or in the shortest possible time in relation its competitors, offering new levels of competitiveness, processes, business models based in data and risk reduction, to conserve, retain and attract a greater number of customers generating an increase in the sources of income of companies. This article is exploratory, descriptive and documentary. A descriptive study of the impact of Big Data Analytics (BDA) in the business field, as well as a brief tour of its tendencies, opportunities, difficulties and challenges. This study aims to contribute to the research community, as well as the staff of the companies and those who are introduced to the knowledge of Big Data Analytics for a better understanding in this field.
Chapter
Full-text available
Resumen En el campo de visualización de la información (VI) en Big Data (también denominado DataVis, InfoVis, Analítica Visual, VA), se han realizado innumerables esfuerzos, a nivel empresarial, educación e investigación, entre otros, que han dado como resultado diversas propuestas de herramientas de software que usan interfaces y técnicas de VI. En la actualidad, existen decenas de herramientas que potencializan y se especializan en determinadas técnicas de visualización. Por tanto, para un usuario, la elección de una herramienta en particular no es una tarea trivial. En este trabajo, se presenta un estudio descriptivo de técnicas de visualización de información abarcando diferentes grupos o tipos de técnicas, tales como: Geometric Projection, Interactive, Icon-based, y Hierarchical, entre otros. Para este fin, se realiza una tabulación de información, presentando las herramientas de software y técnicas de visualización consideradas en este estudio, de forma que pueda realizarse la identificación de las técnicas más comúnmente utilizadas y recomendadas para uso en entornos de tipo Open Source y Soluciones Empresariales. Para ello, se parte de la revisión de análisis de literatura de VI, Analítica Visual y artículos científicos sobre herramientas de análisis de Big Data enfocados en establecer herramientas de software y técnicas de visualización. Dichos análisis y revisiones se realizan sobre un total de 58 técnicas de visualización y 31 herramientas de software. Como resultado, se obtiene una valoración de técnicas de visualización y se establece aspectos clave y recomendaciones para realizar la selección de técnicas de visualización de acuerdo con los requerimientos del usuario. Palabras clave: Data Vis, Herramientas de Visualización de Big Data, Técnicas de visualización, Software Comercial, Software Open Source. Abstract In the field of information visualization (IV) in Big Data (also called DataVis, InfoVis, Visual Analytics, VA), there have been countless efforts, in enterprise, education and research spheres, among others. Such efforts have led to different proposals for software tools using IV interfaces and techniques. Currently, there are dozens of tools that enhance and specialize in certain visualization techniques. Therefore, the choice of a particular tool is not a trivial task for users. In this work, we present a descriptive study on IV techniques encompassing several groups or types of techniques, such as: geometric projection, IV hierarchical, IV interactive, and icon-based IV, among others. To this end, a tabulation of information is performed, presenting software tools and visualization techniques considered in this study, so that the identification of the techniques most commonly used and recommended for use in environments such Open Source Solutions and business software can be readily performed. To do this, we start by a review of literature on IV, Visual Analytics, as well as scientific articles about Big Data analysis tools focused on establishing software tools and visualization techniques. Such a review is conducted on a total of 58 visualization techniques and 21 software tools. As a result, an assessment of visualization techniques is obtained and key issues and recommendations for the selection of visualization techniques according to user’s requirements are established. Key words: Big Data Visualization tools, Commercial Software, DataVis, Open Source Software Tools, Visualization Techniques.
Article
Full-text available
Modern data science uses topological methods to find the structural features of data sets before further supervised or unsupervised analysis. Geometry and topology are very natural tools for analysing massive amounts of data since geometry can be regarded as the study of distance functions. Mathematical formalism, which has been developed for incorporating geometric and topological techniques, deals with point cloud data sets, i.e. finite sets of points. It then adapts tools from the various branches of geometry and topology for the study of point cloud data sets. The point clouds are finite samples taken from a geometric object, perhaps with noise. Topology provides a formal language for qualitative mathematics, whereas geometry is mainly quantitative. Thus, in topology, we study the relationships of proximity or nearness, without using distances. A map between topological spaces is called continuous if it preserves the nearness structures. Geometrical and topological methods are tools allowing us to analyse highly complex data. These methods create a summary or compressed representation of all of the data features to help rapidly uncover particular patterns and relationships in data. The idea of constructing summaries of entire domains of attributes involves understanding the relationship between topological and geometric objects constructed from data using various features.
Article
Full-text available
Los métodos de reducción de dimensionalidad son algoritmos que mapean el conjunto de los datos a subespacios derivados del espacio original, de menor dimensión, que permiten hacer una descripción de los datos a un menor costo. Por su importancia, son ampliamente usados en procesos asociados a aprendizaje de máquina. Este artículo presenta un análisis comparativo sobre los métodos de reducción de dimensionalidad: ACP, ACPP y ACPK. Se realizó un experimento de reconstrucción de los datos de formas vermes, por medio de estructuras de hitos ubicados en el contorno de su cuerpo, con los métodos con distinto número de componentes principales. Los resultados evidenciaron que todos los métodos pueden verse como procesos alternativos. Sin embargo, por el potencial de análisis en el espacio de características y por el método del cálculo de su preimagen presentado, el ACPK muestra un mejor método para el proceso de reconocimiento y extracción de patrones
Article
Full-text available
Nowadays, great amount of data is being created by several sources from aca-demic, scientific, business and industrial activities. Such data intrinsically con-tains meaningful information allowing for developing techniques, and have scientific validity to explore the information thereof. In this connection, the aim of artificial intelligence (AI) is getting new knowledge to make decisions proper-ly. AI has taken an important place in scientific and technology development communities, and recently develops computer-based processing devices for modern machines. Under the premise, the premise that the feedback provided by human reasoning -which is holistic, flexible and parallel- may enhance the data analysis, the need for the integration of natural and artificial intelligence has emerged. Such an integration makes the process of knowledge discovery more effective, providing the ability to easily find hidden trends and patterns belong-ing to the database predictive model. As well, allowing for new observations and considerations from beforehand known data by using both data analysis meth-ods and knowledge and skills from human reasoning. In this work, we review main basics and recent works on artificial and natural intelligence integration in order to introduce users and researchers on this emergent field. As well, key aspects to conceptually compare them are provided.
Conference Paper
Full-text available
This work introduces a generalized kernel perspective for spectral dimensionality reduction approaches. Firstly, an elegant matrix view of kernel principal component analysis (PCA) is described. We show the relationship between kernel PCA, and conventional PCA using a parametric distance. Secondly, we introduce a weighted kernel PCA framework followed from least-squares support vector machines (LS-SVM). This approach starts with a latent variable that allows to write a relaxed LS-SVM problem. Such a problem is addressed by a primal-dual formulation. As a result, we provide kernel alternatives to spectral methods for dimensionality reduction such as multidimensional scaling, locally linear embedding, and laplacian eigenmaps; as well as a versatile framework to explain weighted PCA approaches. Experimentally, we prove that the incorporation of a SVM model improves the performance of kernel PCA.
Conference Paper
Full-text available
This paper reviews some recent and classical, relevant works on information visualization with a special focus on those applied to big data. The central idea dealt in this work relies on how to perform data mining tasks in a visual fashion; that is, using graphical correlation and interaction techniques. The scope of this review encompasses visualization techniques, formal visualization systems, and smart information visualization models. As well, newest approaches consisting of visualization and data mining integration process are explained.
Article
Given the importance acquired by the term Big Data, the present investigation aims to study and analyze thoroughly the Big Data state of art. Moreover, a second objective is to study the features, tools, technologies, models and standards related to Big Data. And finally it seeks to identify the most relevant features that manage Big Data, so it can be known everything about the focus of the investigation. Regarding the methodology used in the development of the research, included to review the state of the art of Big Data, and show what is its current situation, to know the Big Data technologies, to present some of the NoSQL databases, which are those that allow to process unstructured data formats. Also display data models and the analysis technologies they offer, to end with some benefits from Big Data. The methodology desing used in this investigation, was not experimental, because no variables are manipulated, neither exploratory ones, because with the present investigation, only begins to know the Big Data evirioment.
Article
Artificial intelligence is a frontier field of computer science, and achieved considerable progress in the past few decades. Being an important research branch of artificial intelligence, machine learning has been successfully applied to many fields in recent years, such as expert system, automatic reasoning, natural language processing, pattern recognition, computer vision, intelligent robots, and so on. This article comprehensively introduces the main strategies of machine learning, and summarizes the existing problems and challenges.