ArticlePDF Available

El Problema de la Dispersión Máxima en un entorno Multi-Objetivo

Authors:
El Problema de la Dispersi´
on M´
axima en un entorno
Multi-Objetivo
Mauricio Machuca Cabral
Facultad Polit´
ecnica
Universidad Nacional de Asunci´
on
Email: mmachuca78@gmail.com
Benjam´
ın Bar´
an
Facultad Polit´
ecnica
Universidad Nacional de Asunci´
on
Email: bbaran@pol.una.py
Fernando Sandoya
School of Natural Sciences and Mathematics
Escuela Superior Polit´
ecnica del Litoral
Guayaquil, Ecuador
Email: fsandoya@espol.edu.ec
Abstract—El problema de la diversidad m´
axima (MDP) es
un ´
area que presenta un gran numero de aplicaciones pr´
acticas
a trav´
es de la b´
usqueda de los elementos mas dis´
ımiles de
un conjunto dado. Este tipo de problema utiliza modelos de
diversidad y definiciones de distancia como forma de medir
la disimilitud entre elementos. De complejidad computacional
elevada, motivo por el cual se propone un algoritmo evolutivo
(NSGA-II) para resolver este tipo de problema. Como no existe
una visi´
on unificada sobre que definiciones de distancia utilizar
para cada problema, se propone resolver el MDP con un enfoque
multi-objetivo, tomando la cantidad de definiciones de distancia
que precisen los investigadores interesados en este tipo de pro-
blemas. Tambi´
en se presentan casos de prueba que demuestran
la eficiencia del algoritmo en comparaci´
on a resolver el problema
por b´
usqueda exhaustiva.
KeywordsMaximum Dispersion Problem, MultiObjective Op-
timization Problem, MultiObjective Evolutionary Algorithm.
I. INTRODUCCI ´
ON
El problema de la m´
axima diversidad consiste en selec-
cionar un subconjunto M=i, i = 1, ..., |M|de un conjunto
N=j, j = 1, ..., |N|, de forma a maximizar la diversidad
entre los elementos seleccionados. En los ´
ultimos a˜
nos se han
propuesto diferentes modelos para la resoluci´
on de este tipo
de problema, como por ejemplo:
Maximum Diversity Problem (MDP) [1];
Max-Min Diversity Problem (MMDP) [2];
Maximum Mean Dispersion Problem (Max-Mean DP)
[3];
Minimum Differential Dispersion Problem (Min-Diff
DP) [3].
Cada uno de estos modelos utiliza una manera diferente
de interpretar el concepto de diversidad/dispersi´
on, pero todos
tienen la caracter´
ıstica com´
un de que necesitan para su imple-
mentaci´
on de una medida de diversidad o distancia (div(M))
a ser aplicada sobre el conjunto de elementos seleccionados.
En la literatura podemos encontrar varias heur´
ısticas como
GRASP and Path Relinking [4], Iterated Local Search [5],
Variable Neighborhood Search (VNS) [6], Learnable Tabu
Search (LTS) [7], Iterated Tabu Search (ITS) [8], as´
ı como
tambi´
en meta-heur´
ısticas como Memetic self-adaptive evolu-
tion strategies [9], A tabu search based memetic algorithm
[10], Opposition-based Memetic Search [11], Maximum-score
Diversity Selection [12] entre otros. En cuanto a las ´
areas
de aplicaci´
on se pueden citar: selecci´
on eficiente de equipos
de trabajo [13], preservaci´
on de la diversidad biol´
ogica [14],
descubrimiento temprano de medicamentos [12], dise˜
no de la
estructura molecular, existencias de cr´
ıa agr´
ıcola, composici´
on
de jurados [15], ubicaci´
on de instalaciones, dise˜
no de pro-
ductos, gen´
etica, sistemas ecol´
ogicos, tratamientos m´
edicos
y promoci´
on de la diversidad ´
etnica entre inmigrantes [16]
entre otros. La medida de diversidad est´
a relacionada a una
definici´
on de distancia o similitud, lo que nos lleva a que para
resolver el M DP , necesitamos generar la matriz de distancia
de los datos a procesar, para luego maximizar la diversidad (la
definici´
on de distancia utilizada depende en general del campo
de aplicaci´
on del problema sobre el que se est´
e trabajando y del
experto que lo escoje). En este contexto, este trabajo propone
resolver el MDP multi-objetivo, donde se utilizan varias
matrices de distancia (obtenidas cada una con una definici´
on
diferente) sobre la misma base de datos, convirtiendose as´
ı
cada una de ellas, en un objetivo del problema. De entre las
meta-heuristicas disponibles para la resoluci´
on de problemas
multi-objetivo, en este trabajo se utiliza el Nondominated
Sorting Genetic Algorithm II (NSGA-II) para la resoluci´
on del
modelo Maximum Diversity Problem (MDP), y comparamos
los resultados obtenidos contra el mismo problema resuelto
por b´
usqueda exhaustiva (BE).
El presente trabajo est´
a organizado de la siguiente manera:
en la Secci´
on II se discuten los trabajos relacionados al
Maximum Dispersion Problem, en la Secci´
on III se presentan
las definiciones de distancia, diversidad y el problema de la
diversidad m´
axima, la Secci´
on IV resume la optimizaci´
on
multi-objetivo, la Secci´
on V presenta el planteamiento y la
formulaci´
on matem´
atica del problema; la Secci´
on VI presenta
nuestra propuesta de aplicaci´
on del NSGA-II para resolver el
M DP ; en la Secci´
on VII se discuten los resultados experi-
mentales obtenidos, y finalmente, la Secci´
on VIII presenta las
conclusiones y l´
ıneas de trabajo futuro.
II. TRABAJOS REL ACIONAD OS
Diferentes heur´
ısticas y metaheur´
ısticas se han presentado
en el pasado para el problema de dispersi´
on m´
axima.
En el trabajo de Mart´
ı et al. [4] se resuelve el Max-Mean
Dispersion Problem, aplicando un GRASP (Greedy Random-
ized Adaptive Search Procedure) con un Path Relinking en
el cual la b´
usqueda local fue basada en la metodolog´
ıa Vari-
able Neighborhood. Los valores de distancia que considera-
ron pod´
ıan tomar tanto valores positivos como negativos, y
no necesariamente satisfacer las propiedades usuales de una
distancia, como ser la desigualdad triangular. Los resultados
fueron comparados con trabajos previos tambi´
en basados en
GRASP demostrando que su m´
etodo propuesto present´
o un
mejor desempe˜
no.
Sandoya et al. [17] describen modelos matem´
aticos para los
modelos de diversidad y equidad, los cuales son presentados
en la siguiente secci´
on; as´
ı como tambi´
en un compendio de
heur´
ısticas y meta-heur´
ısticas para los mismos. La mayor´
ıa de
estas heur´
ısticas y meta-heur´
ısticas, est´
an basadas en m´
etodos
de construcci´
on y b´
usqueda local, como lo son el GRASP y el
Tabu Search. Dentro de las conclusiones finales se detallan que
existen implementaciones muy espec´
ıficas para estos modelos,
quedando todav´
ıa pendiente, la implementaci´
on de soluciones
m´
as gen´
ericas.
Zhou et. al. [11] presentan un Opposition-based memetic
algorithm (OBMA) para la resoluci´
on del M DP . En el,
integraron el concepto de opposition-based learning (OBL)
con el memetic search framework, explorando las soluciones
candidatas y sus soluciones opuestas durante los procesos
de inicializaci´
on y evoluci´
on. La diferenciaci´
on del OBMA
con otros algoritmos memeticos radica en las siguientes tres
caracter´
ısticas: un procedimiento de b´
usqueda de trayectoria
doble que simult´
aneamente busca una soluci´
on candidata y su
opuesto, la aplicaci´
on de tabu search para una optimizaci´
on
local efectiva y para mantener la diversidad de la poblaci´
on
propusieron un rank-based quality-and-distance pool updating
strategy el cual utiliza una f´
ormula de distancia para determinar
si la nueva soluci´
on generada, debe o no ser agregada a la
poblaci´
on.
III. DISTANCIAS, DIVERSIDAD Y E L PROB LE MA D E LA
DIVERSIDAD M´
AX IM A
En Smyth y McClave [18] se define a la diversidad de
un conjunto Mcomo la disimilitud promedio entre todas
las parejas de elementos. Y a los efectos de poder hacer la
medici´
on de dicha diversidad div(M), se debe establecer una
relaci´
on dij que establezca la distancia o similitud entre cada
pareja de elementos del conjunto. La definici´
on espec´
ıfica de
distancia a ser utilizada depende del problema con el que se
este trabajando y de las consideraciones del experto.
Siendo dij la distancia entre los elementos iyj, y teniendo
cada elemento Katributos, se definen las variables xik y
xjk como el k-´
esimo atributo de los elementos iyjre-
spectivamente. A continuaci´
on como ejemplo, se presenta la
definici´
on de la distancia Euclidiana utilizando la notaci´
on
arriba presentada.
dij =v
u
u
t
K
X
k=1
(xik xjk )2(1)
Establecida la distancia dij entre elementos de un conjunto
M, se puede pasar a definir la medida de diversidad en dicho
conjunto. A continuaci´
on se presentan diferentes medidas de
diversidad que ya se utilizan en la bibliograf´
ıa autorizada.
A. Dispersi´
on de la suma
Medida de diversidad calculada como la suma de las
distancias inter-elementos de todos los elementos del conjunto
M. Esta medida es utilizada en el problema de optimizaci´
on
Max-Sum. [17]
div(M) = X
i<j,i,jM
dij (2)
B. Dispersi´
on de la m´
ınima distancia
Medida de diversidad calculada como la m´
ınima de las
distancias inter-elementos de todos los elementos del conjunto
M. Esta medida es utilizada en el problema de optimizaci´
on
Max-Min. [17]
div1(M) = min
i<j,i,jMdij (3)
C. Dispersi´
on promedio
Medida de diversidad calculada como la media de las
distancias inter-elemento de todos los elementos del conjunto
M. Esta medida es utilizada en el problema de optimizaci´
on
Max-Mean. [17]
div2(M) = Pi<j,i,jMdij
|M|(4)
D. Dispersi´
on de la m´
ınima suma
Medida de diversidad calculada como la m´
ınima dispersi´
on
agregada por cada elemento del conjunto. Esta medida es
utilizada en el problema de optimizaci´
on Max-MinSum. [17]
div3(M) = min
iMX
jM,j6=i
dij (5)
E. Dispersi´
on del diferencial
Medida de diversidad calculada como la diferencia entre
la m´
axima y la m´
ınima suma de las distancias desde cada
elemento seleccionado a los otros elementos del conjunto. Esta
medida es utilizada en el problema de optimizaci´
on Min-Diff.
[17]
div4(M) = max
iM
X
jM,j6=i
dij
min
iM
X
jM,j6=i
dij
(6)
F. El Problema de la Diversidad M´
axima
Este tipo de problema consiste en seleccionar un subcon-
junto de elementos de forma que la medida de diversidad o
dispersi´
on del conjunto sea maximizada [19]. Este problema
es ya conocido como un problema NP Hard [1].
IV. OPTIMIZACI ´
ON MULTIOBJETIVO
La Optimizaci´
on Multiobjetivo (MOP, Multiobjective Op-
timization Problem) consiste en hallar las soluciones que
optimicen los lobjetivos de un problema cumpliendo con
un conjunto de mrestricciones. Las funciones objetivo y las
restricciones son funciones de las variables de decisi´
on. Luego,
el MOP puede expresarse como:
Optimizar z=f(x) = [f1(x), f2(x), . . . , fl(x)]T
Sujeto a e(x) = [e1(x), e2(x), . . . , em(x)]T0(7)
Definiciones de distancia no utilizadas Definici´
on equivalente
Norma 1 Manhattan Distance
Norma 2 Euclidian Distance
Norma 3 Chessboard Distance
Norma Infinito Chessboard Distance
Gower Distance Modified Diference
Intersection Non Is Distance Manhattan Distance
Bray Curtis Distance Sorensen Distance
Czekanowski Distance Sorensen Distance
Ruzicka Similarity Soergel Distance
Tanimoto Distance Soergel Distance
Jaccard Similarity Jaccard Distance
Kumar Hassebrook Similarity Jaccard Similarity
Dice Similarity Dice Distance
Prob Symmetric X2 Distance Chi Square Distance
Jensen Difference Distance Jensen Shannon Distance
Tabla I. DEFINICIONES DE DISTANCIA NO UTILIZADAS EN LAS
PRU EBA S EXP ER IME NTAL ES Y S US DE FIN ICI ON ES EQ UIVAL EN TES
donde x= [x1, x2, . . . , xn]TXRnDominio del Problema
yz= [z1, z2, . . . , zl]TZRlEspacio de desici´
on
Conjunto de soluciones factibles Xf={xXn|e(x)0}
Conjunto de vectores objetivo Zf={z=F(x)Zl|xXf}
siendo xXel vector de decisi´
on y zZel vector objetivo.
El dominio del problema se denota por Xn, y el espacio de
decisi´
on por Zl.
En este contexto, para determinar si una soluci´
on es mejor que
otra, se utiliza el concepto de dominancia Pareto [20] en el que
se pueden dar las siguientes condiciones entre dos vectores u
yv:
uv:udomina a vsi no es peor en ninguna funci´
on objetivo
y es estrictamente mejor en al menos un objetivo.
uv:uyvse dicen no comparables si ninguno domina al
otro, i.e. ni udomina a v, ni vdomina a u.
Dadas las condiciones expuestas, se pueden tener un
conjunto de soluciones compuesto por todas las soluciones
no dominadas del dominio factible Xf. A este conjunto de
soluciones ´
optimas se denomina conjunto Pareto (Ptrue) y su
respectiva imagen en el espacio objetivo se conoce como frente
Pareto (P Ftrue).
V. PLANTEAMIENTO DEL PROBLEMA
A. M´
etricas diversas de distancias
Cada ´
area que actualmente trabaja con un problema es-
pec´
ıfico considerando la diversidad m´
axima define la m´
etrica
de distancia a utilizar. Es decir, no existe un acuerdo entre
los investigadores sobre que definici´
on utilizar, y es de ah´
ı
donde surge la necesidad de resolver este problema, como un
problema de optimizaci´
on multi-objetivo, dado que diferentes
investigadores pueden preferir definiciones distintas de distan-
cia (o disimilitud).
En el Anexo I, se presentan 65 definiciones de distancia
encontradas en la literatura [21], [22] y [23]. Inicialmente
se ha calculado la correlaci´
on (ρ) entre todos los pares de
definiciones, y luego, las que presentaron una correlaci´
on
unitaria (ρ= 1) fueron re-clasificadas para este trabajo. En
la tabla I se muestran dichas definiciones y sus equivalencias.
Finalmente, la novedad en este trabajo consiste en permitir
la realizaci´
on de una optimizaci´
on del problema MDP uti-
lizando todas las definiciones de distancia presentadas (dejando
de lado las definiciones correlacionadas, quedan 50 defini-
ciones disponibles).
B. Formulaci´
on del Problema
El problema MDP puede ser planteado como:
Maximizar
div(M)=[div1(M)...divp(M)]TRp(8)
donde la l-esima funci´
on objetivo divl(M)se define como:
divl(M) = X
i<j
dl
ij ; donde l∈ {1...p}(9)
dl
ij representa la l-esima definici´
on utilizada de distancia
(ver las tablas VII, VIII, IX y X en el Anexo I con m´
as de 60
definiciones).
VI. ALGORITMO MULTIOBJETIVO PARA EL PROB LEMA
DE L A M´
AX IM A DIVERSIDAD
A. B´
usqueda Exhaustiva
El problema de la diversidad m´
axima considerado en este
trabajo es el Max-Sum Dispertion Problem, ver (8) y (9).
Al no contar con un frente Pareto ´
Optimo conocido, por ser
la primera vez que se plantea este problema en un contexto
puramente multi-objetivo, se ha implementado un algoritmo
de B´
usqueda exhaustiva (BE) para resolver el M DP multi-
objetivo. El Algoritmo 1 presenta el pseudo-c´
odigo b´
asico de la
BE. En la linea 4, el m´
etodo CrearNuevaSolucion es el que va
generando como posibles soluciones, todas las combinaciones
posibles entre los elementos de la base de datos. Finalmente se
retorna el conjunto total de soluciones no dominadas, el cual
define al Conjunto Pareto Pal final del proceso junto con su
correspondiente Frente Pareto FP.
Algoritmo 1 Algoritmo de B´
usqueda Exhaustiva para MDP
Entrada: Nbase de datos de elementos, dd vector de defini-
ciones de distancia (2 a 50 definiciones disponibles), kMk
cantidad de elementos dis´
ımiles a seleccionar.
Salida: Soluci´
on P conjunto Pareto, PF frente Pareto
max(div(M)).
1: CalcularMatricesDistancia(N, md)
2: Pi←  [Poblaci ´
on Inicial]
3: mientras Condici´
onDeParada = falso hacer
4: SiCrearNuevaSolucion(M)
5: EvaluarSolucion(Si)
6: Pi+1 PiSi
7: P F EvaluarPoblacion(Pi+1)
8: fin mientras
9: devolver P, PF
Si bien la BE puede encontrar la totalidad de los elementos
m´
as dis´
ımiles de una base de datos dada, en la Secci´
on III se ha
mencionado que el MDP est´
a categorizado como NP Hard,
por tanto, este algoritmo no representa una soluci´
on escalable
para este tipo de problemas, pues si aumenta el tama˜
no de la
base de datos o la cantidad de objetivos utilizados, el mismo
no es capaz de realizar toda la b´
usqueda en tiempo polinomial,
haciendo intratable el problema para la mayor´
ıa de los casos
pr´
acticos.
B. Algoritmo Evolutivo
El presente trabajo propone un MOEA eficiente basado en
el Nondominated Sorting Genetic Algorithm II (NSGA-II) [24]
para la resoluci´
on del problema.
El NSGA-II ha sido utilizado para resolver eficientemente pro-
blemas multiobjetivo con y sin restricciones. En [24] se lo ha
comparado con otros algoritmos multiobjetivo como el Pareto-
archived evolution strategy (PAES) [25] y Strength-Pareto EA
(SPEA) [26] donde ha presentado mejores resultados.
Utilizando los conceptos de un procedimiento de ordenamiento
de soluciones no dominadas, un procedimiento de distancia
de amontonamiento (crowded distance) y un operador de
comparaci´
on de amontonamiento, el NSGA-II asigna a cada
soluci´
on una aptitud (fitness), el cual define la calidad de dicha
soluci´
on con respecto a las dem´
as. El operador de amonton-
amiento decrementa la aptitud de una soluci´
on en funci´
on a
la distancia con sus vecinos, con el objetivo de mantener la
diversidad de las soluciones y evitar un estancamiento en zonas
del espacio de b´
usqueda que no sean prometedoras.
El Algoritmo 2 presenta el pseudo-c´
odigo b´
asico del NSGA-
II para resolver el problema de la M´
axima Diversidad, el
cual recibe como datos de entrada: una base de datos de |N|
elementos, que conforman el conjunto N, un vector de defini-
ciones de distancia dd (para este trabajo se tienen disponibles
50 definiciones distintas de distancia), la cantidad de elementos
dis´
ımiles a seleccionar |M|, el tama¯
no de la poblaci´
on PopSize,
probabilidad de cruzamiento pc, probabilidad de mutaci´
on pm
y la cantidad de iteraciones a realizar por el algoritmo iter.
Al inicio, es creada de forma aleatoria una poblaci´
on Pide
PopSize individuos (l´
ınea 2), luego la poblaci´
on Pies evaluada
(l´
ınea 3), se crea una poblaci´
on auxiliar Q.
En cada iteraci´
on i, los operadores evolutivos como la se-
lecci´
on, el cruzamiento y la mutaci´
on son aplicados a los ele-
mentos de la poblaci´
on Pipara calcular una nueva poblaci´
on
Qi(l´
ınea 6). Las nuevas soluciones son evaluadas, de acuerdo a
las funciones objetivo explicadas en la Secci´
on de Formulaci´
on
del Problema, en las l´
ıneas 3 y 7 del Algoritmo 2.
Una poblaci´
on combinada Fi=QiPies generada, donde
Fiser´
a de tama¯
no 2P opSiz e (l´
ınea 8). Entonces, en la
l´
ınea 9, la poblaci´
on Pies ordenada de acuerdo a criterios de
no dominancia, de esta manera, varios frentes son obtenidos
en Fi= (Fi1,Fi2, ...)donde Fir  Fir+1.
Se dice que un individuo tiene rango rsi pertenece al frente
Fir. La nueva poblaci´
on de padres Pi+1 est´
a compuesta por
la adici´
on de soluciones desde el conjunto Fihasta exceder el
tama¯
no PopSize (l´
ıneas 11 a 15). Despu´
es, las soluciones del
´
ultimo frente aceptado son ordenados de acuerdo al operador
de comparaci´
on de amontonamiento n. Este ordenamiento
es llevado de forma lexicogr´
afica considerando el rango y la
distancia de amontonamiento de las soluciones [24].
Finalmente, las primeras PopSize soluciones son tomadas
hasta conseguir que la poblaci´
on Pi+1 tenga tama¯
no PopSize
(l´
ınea 17). El Algoritmo 2 retorna el mejor conjunto de
soluciones no dominadas Py el frente Pareto correspondiente
P F al final del proceso evolutivo.
VII. RES ULTAD OS EX PE RI ME NTAL ES
En esta secci´
on se exponen los experimentos realizados.
Como para el problema tratado en este trabajo, no se cuenta
con un frente Pareto ´
optimo conocido, tomamos los datos
obtenidos por la BE como frente Pareto de referencia, cuando
Algoritmo 2 Algoritmo Gen´
etico NSGA-II para MDP
Entrada: Nbase de datos de elementos, dd vector de defini-
ciones de distancia (2 a 50 m´
etricas disponibles), M
cantidad de elementos dis´
ımiles a seleccionar, PopSize
Tama¯
no de la poblaci´
on, pcprobabilidad de cruzamiento,
pmprobabilidad de mutaci´
on, iter: n´
umero de iteraciones
a realizar.
Salida: Soluci´
on P conjunto Pareto, PF frente Pareto
max(div(M)).
1: i0
2: PiInicializarPoblaci´
on(PopSize)
3: EvaluarPoblaci´
on(Pi)
4: Qi←  [Poblaci ´
on Auxiliar]
5: mientras Condici´
onDeParada = falso hacer
6: QiCrearNuevaPoblaci´
on(Pi,PopSize) [usar se-
lecci´
on, cruzamiento y mutaci´
on sobre Jipara crear una
nueva poblaci´
on Qide PopSize individuos]
7: EvaluarPoblaci´
on(Qi)
8: FiQiPi
9: FiOrdenamientoNoDominado(Fi)
10: j0
11: mientras |Pi+1|<PopSize hacer
12: AsignarDistancia(Fij )
13: Pi+1 Pi+1 ∪ Fij
14: jj+ 1
15: fin mientras
16: ORDENAR(Pi+1,n)
17: Pi+1 Pi+1[0 : P opS ize]
18: ii+ 1
19: fin mientras
20: P F ← Fi1
21: devolver P, PF
este conjunto puede ser computacionalmente calculado.
Hemos trabajado con dos bases de datos a los efectos de
buscar los |M|elementos mas dis´
ımiles. Cada una de estas
BD consisten en un conjunto de datos num´
ericos generados
aleatoriamente. Las bases de datos utilizadas en los experi-
mentos est´
an disponibles en ...
En los experimentos se han utilizado diferentes m´
etricas de
distancia, donde combinamos desde 2 y hasta 5 definiciones,
representando cada definici´
on un objetivo del problema.
Se realizaron tres casos diferentes de pruebas en los que
fuimos variando el tama˜
no de la base de datos de entrada,
la cantidad de elementos dis´
ımiles a seleccionar y la cantidad
de objetivos considerados. Para las definiciones de distancia
fueron utilizadas las no correlacionadas (50 definiciones de
las 65 con las que trabajamos inicialmente). Los algoritmos
fueron implementados con el lenguaje de programaci´
on Java
y ejecutados sobre un computador Intel i3 de 1,40 GHZ, 12
GB de memoria RAM y sistema operativo Windows 10.
El procedimiento b´
asico consisti´
o en tomar la base de datos
de entrada y calcular todas las matrices de distancia entre
los elementos (tantas como objetivos se tengan). Una vez
obtenidas las matrices de distancia, se ha resuelto el problema
de la M´
axima Diversidad por B´
usqueda Exhaustiva; luego
el mismo procedimiento fue realizado con la utilizaci´
on del
NSGA-II. A continuaci´
on se explican con m´
as detalles los
tres experimentos realizados.
Para el caso 1 se tomo una base de datos de 40 elementos y
Caso 1: BE utilizando 2 objetivos
Elementos |M|t (seg) Cant. Soluciones
40 3 1,049 6
40 6 65,475 23
40 8 771,477 31
40 10 10.141,752 43
Tabla II. CA SO 1. R ES ULTADO S DE L A B´
US QUE DA EXH AUST IVA
Caso 2: BE utilizando 5 objetivos
Elementos |M|t (seg) Cant. Soluciones
40 3 1,653 15
40 6 329,344 890
40 8 7.163,336 852
40 10 * *
Tabla III. CA SO 2. R ES ULTADO S DE L A B´
US QUE DA EXHAUSTIVA. *
TRA S M ´
AS D E 7HORAS DE EJECUCI´
ON DEL ALGORITMO NO FUE POSIBLE
LA OB TENS I ´
ON DE LAS SOLUCIONES
las definiciones de distancia Euclidean Distance yCanberra
Distance como objetivos. Cuatro corridas fueron realizadas,
buscando los 3, 6, 8 y 10 elementos m´
as dis´
ımiles. Claramente
se puede ver como aumenta significativamente el tiempo de
procesamiento en la medida que aumenta la cantidad de ele-
mentos dis´
ımiles a seleccionar. Para el caso de 10 elementos,
se necesitaron casi 3 horas de computo para encontrar todas las
soluciones. En la tabla II se muestran los resultados obtenidos
con la BE para el caso 1.
En el caso 2 se tom´
o la misma base de datos de 40
elementos, pero en vez de dos, se tomaron 5 definiciones de
distancia como objetivos (Euclidean Distance,Canberra Dis-
tance,Sorensen Distance,Jaccard Distance yClark Distance).
En este caso, la selecci´
on de los 10 elementos m´
as dis´
ımiles
ya no se pudo calcular por b´
usqueda exhaustiva (el tiempo
de procesamiento fue de m´
as de 7 horas). En la tabla III se
muestran los resultados obtenidos con la BE para el caso 2.
Para el caso 3, se tom´
o una base de datos de 100 elementos,
las definiciones Euclidean Distance yCanberra Distance
como objetivos y se repitieron las corridas para la selecci´
on
de 3, 6, 8 y 10 elementos. Bajo ´
estas condiciones, la BE solo
pudo encontrar soluciones para |M|= 3 y6elementos. Para
la b´
usqueda de 8 y 10 elementos se tuvieron m´
as de 8 horas de
procesamiento sin poder encontrar todas las soluciones. En la
tabla IV se muestran los resultados obtenidos con la BE para
el caso 3.
En la segunda parte de los experimentos, se repitieron
los 3 casos de pruebas explicados anteriormente, pero ahora
aplicando el Algoritmo NSGA-II, ejecutando dicho algoritmo
con 20, 50, 100 y 250 iteraciones. En la tabla V se muestra la
configuraci´
on utilizada.
Caso 3: BE utilizando 2 objetivos
Elementos |M|t (seg) Cant. Soluciones
100 3 2,362 18
100 6 10.825,67 35
100 8 ** **
100 10 ** **
Tabla IV. CA SO 3. R ES ULTADO S DE L A B´
US QUE DA EXH AUST IVA. **
TRA S M ´
AS D E 8HORAS DE EJECUCI´
ON DEL ALGORITMO NO FUE POSIBLE
LA OB TENS I ´
ON DE LAS SOLUCIONES
Configuraci´
on para el NSGA-II
Par´
ametros Valor Descripci ´
on
|M|3, 6, 8 y 10 Cantidad de elementos dis´
ımiles a seleccionar
iter 20, 50, 100 y 250 Cantidad de Iteraciones
PopSize 100 Tama¯
no de la Poblaci´
on
pc0,9 Probabilidad de cruzamiento
pm1/|M|Probabilidad de mutaci´
on
Tabla V. CO NFIGU RACI ´
ON PAR A EL NSGA-II
Caso 1: NSGA-II utilizando 2 objetivos
Cantidad de Iteraciones
20 50 100 250
Elementos |M|t (seg) Soluciones BE Cantidad de Soluciones
40 3 4,285 6 4 3 4 5
40 6 4,806 23 9 14 17 21
40 8 4,643 31 16 20 21 26
40 10 4,608 43 10 14 30 33
Caso 2: NSGA-II utilizando 5 objetivos
Elementos |M|t (seg) Soluciones BE Cantidad de Soluciones
40 3 21,514 15 3 11 14 14
40 6 19,269 890 7 33 52 186
40 8 17,691 852 22 48 67 93
40 10 * * 37 86 83 82
Caso 3: NSGA-II utilizando 2 objetivos
Elementos |M|t (seg) Soluciones BE Cantidad de Soluciones
100 3 8,470 18 8 10 13 15
100 6 7,249 35 11 27 22 32
100 8 * * 8 13 29 37
100 10 * * 10 16 18 41
Tabla VI. RE SULTAD OS D EL NSGA-II
En la tabla VI se muestran los resultados obtenidos por
el NSGA-II. En la columna t (seg) se muestra el tiempo del
NSGA-II para las 250 iteraciones. Claramente se puede ver que
para estos casos, el NSGA-II es capaz de conseguir soluciones
que se aproximan al frente de referencia y en la medida que se
aumentan la cantidad de iteraciones, l´
ogicamente se encuentran
soluciones m´
as pr´
oximas al frente Pareto.
En la Figura 1 se puede ver la evoluci´
on del frente
calculado para el caso 1.
Figura 1. Caso 1. BE vs NSGA-II con 20, 50, 100 y 250 Iteraciones
Por otro lado, la Figura 2 muestra la misma evoluci´
on para
el caso 3.
VIII. CONCLUSIONES Y TRABAJOS FUTUROS
Como se ha mencionado, el problema de la Dispersi´
on
M´
axima MDP resulta muy relevante para ´
areas como bi-
Figura 2. Caso 3. Caso 1. BE vs NSGA-II con 20, 50, 100 y 250 Iteraciones
olog´
ıa, gen´
etica, medicina, para la justicia en la conformaci´
on
de jurados, en las empresas para la conformaci´
on de equipos
de trabajo entre otras aplicaciones. Existen varios modelos de
diversidad que pueden ser aplicados, y a su vez en cada modelo
se pueden utilizar diferentes definiciones de distancia. Dadas
las caracter´
ısticas mencionadas, y como no existe un consenso
entre los investigadores sobre que definiciones de distancia
utilizar, este trabajo propone maximizar la diversidad de una
base de datos determinada, con tantas definiciones de distancia
como lo requieran los diferentes especialistas interesados en el
problema.
Se han presentado ejemplos con bases de datos de 40 y 100
elementos respectivamente, y seleccionado los 3, 6, 8 y 10
elementos m´
as dis´
ımiles de cada base, para lo cual se propuso
un algoritmo evolutivo capaz de resolver el problema con
tantas definiciones de distancia como sean necesarias. Como lo
demuestran los resultados experimentales presentados, queda
claro que el algoritmo propuesto resuelve el problema de una
manera razonable.
Como trabajo futuro se podr´
an considerar no solamente difer-
entes definiciones de distancia, sino tambi´
en definiciones de
diversidad combinadas, seg´
un sea el problema espec´
ıfico y la
necesidad de los especialistas, ampliando tambi´
en as´
ı, la visi´
on
que puedan tener los mismos para problemas espec´
ıficos en los
que est´
en trabajando.
Anexos
IX. DEFINICIONES DE DISTANCIA
REFERENCIAS
[1] J. B. Ghosh, “Computational aspects of the maximum diversity pro-
blem,” Operations research letters, vol. 19, no. 4, pp. 175–181, 1996.
[2] M. G. Resende, R. Mart´
ı, M. Gallego, and A. Duarte, “Grasp and path
relinking for the max–min diversity problem,Computers & Operations
Research, vol. 37, no. 3, pp. 498–508, 2010.
[3] O. A. Prokopyev, N. Kong, and D. L. Martinez-Torres, “The equi-
table dispersion problem,” European Journal of Operational Research,
vol. 197, no. 1, pp. 59–67, 2009.
[4] R. Mart´
ı and F. Sandoya, “Grasp and path relinking for the equitable
dispersion problem,” Computers & Operations Research, vol. 40, no. 12,
pp. 3091–3099, 2013.
[5] F. Della Croce, A. Grosso, and M. Locatelli, “A heuristic approach for
the max–min diversity problem based on max-clique,Computers &
Operations Research, vol. 36, no. 8, pp. 2429–2433, 2009.
[6] J. Brimberg, N. Mladenovi´
c, D. Uroˇ
sevi´
c, and E. Ngai, “Variable neigh-
borhood search for the heaviest k-subgraph,” Computers & Operations
Research, vol. 36, no. 11, pp. 2885–2891, 2009.
[7] J. Wang, Y. Zhou, Y. Cai, and J. Yin, “Learnable tabu search guided
by estimation of distribution for maximum diversity problems,Soft
Computing, vol. 16, no. 4, pp. 711–728, 2012.
[8] G. Palubeckis, “Iterated tabu search for the maximum diversity pro-
blem,” Applied Mathematics and Computation, vol. 189, no. 1, pp. 371–
383, 2007.
[9] A. R. R. de Freitas, F. G. Guimar˜
aes, R. C. P. Silva, and M. J. F. Souza,
“Memetic self-adaptive evolution strategies applied to the maximum
diversity problem,Optimization Letters, vol. 8, no. 2, pp. 705–714,
2014.
[10] Y. Wang, J.-K. Hao, F. Glover, and Z. L¨
u, “A tabu search based
memetic algorithm for the maximum diversity problem,Engineering
Applications of Artificial Intelligence, vol. 27, pp. 103–114, 2014.
[11] Y. Zhou, J.-K. Hao, and B. Duval, “Opposition-based memetic search
for the maximum diversity problem,IEEE Transactions on Evolution-
ary Computation, 2017.
[12] T. Meinl, C. Ostermann, and M. Berthold, “Maximum-score diversity
selection for early drug discovery,” Journal of chemical information and
modeling, vol. 51, no. 2, pp. 237–247, 2011.
[13] F. Sandoya and R. Aceves, Grasp and path relinking to solve the
problem of selecting efficient work teams. INTECH Open Access
Publisher, 2013.
[14] F. Glover, K. Ching-Chung, and K. S. Dhir, “A discrete optimization
model for preserving biological diversity,” Applied mathematical mod-
elling, vol. 19, no. 11, pp. 696–701, 1995.
[15] F. Glover, C.-C. Kuo, and K. S. Dhir, “Heuristic algorithms for the
maximum diversity problem,Journal of information and Optimization
Sciences, vol. 19, no. 1, pp. 109–132, 1998.
[16] R. Mart´
ı, M. Gallego, A. Duarte, and E. G. Pardo, “Heuristics and meta-
heuristics for the maximum diversity problem,Journal of Heuristics,
vol. 19, no. 4, pp. 591–615, 2013.
[17] F. Sandoya, A. Martınez-Gavara, R. Aceves, A. Duarte, and R. Martı,
“Diversity and equity models,” in Handbook of Heuristics, pp. 1–20,
Springer, 2015.
[18] B. Smyth and P. McClave, “Similarity vs. diversity,” in International
Conference on Case-Based Reasoning, pp. 347–361, Springer, 2001.
[19] C.-C. Kuo, F. Glover, and K. S. Dhir, “Analyzing and modeling
the maximum diversity problem by zero-one programming,Decision
Sciences, vol. 24, no. 6, pp. 1171–1185, 1993.
[20] E. Zitzler, M. Laumanns, and S. Bleuler, “A tutorial on evolutionary
multiobjective optimization,Metaheuristics for multiobjective optimi-
sation, pp. 3–37, 2004.
[21] S.-H. Cha, “Comprehensive survey on distance/similarity measures
between probability density functions,” City, vol. 1, no. 2, p. 1, 2007.
[22] B. McCune, J. B. Grace, and D. L. Urban, Analysis of ecological
communities, vol. 28. MjM software design Gleneden Beach, 2002.
[23] A. Huang, “Similarity measures for text document clustering,” in
Proceedings of the sixth new zealand computer science research student
conference (NZCSRSC2008), Christchurch, New Zealand, pp. 49–56,
2008.
[24] K. Deb, S. Agrawal, A. Pratap, and T. Meyarivan, “A fast elitist non-
dominated sorting genetic algorithm for multi-objective optimization:
Nsga-ii,” in International Conference on Parallel Problem Solving From
Nature, pp. 849–858, Springer, 2000.
[25] J. Knowles and D. Corne, “The pareto archived evolution strategy:
A new baseline algorithm for pareto multiobjective optimisation,” in
Evolutionary Computation, 1999. CEC 99. Proceedings of the 1999
Congress on, vol. 1, pp. 98–105, IEEE, 1999.
[26] E. Zitzler, “Evolutionary algorithms for multiobjective optimization:
Methods and applications,” 1999.
[27] “Wolfram computation meets knowledge.” http://reference.wolfram.
com/language/guide/DistanceAndSimilarityMeasures.html.
[28] “Lee distance.” https://en.wikipedia.org/wiki/Lee distance.
[29] “Norm distance.” https://en.wikipedia.org/wiki/Norm (mathematics).
# Nombre Definici´
on Referencia
1Euclidean Distance v
u
u
t
K
X
k=1 |xik xjk |2[21]
2Cosine Similarity
K
X
k=1
xikxj k
v
u
u
u
u
t
K
X
k=1
x2
ik
v
u
u
u
u
t
K
X
k=1
x2
jk
[4]
3Modified Difference
K
X
k=1
δ(xik, xj k)
K[4]
4City Block Distance
K
X
k=1 |xik xjk |[21]
5Chebyshev Distance maxi|xik xj k|[21]
6Bray Curtis Distance X|xik xjk |
X|xik +xjk |[27]
7Canberra Distance
K
X
k=1
|xik xjk |
|xik +xjk |[21]
8Binary Distance
0si xik =xjk
1si xik 6=xjk
[27]
9Hamming Distance d=Phdonde h=
0si xik =xjk
1si xik 6=xjk
[27]
10 Levenshtein Distance
max(xi,xj)si min(xi,xj)=0
min
levxixj(xi1,xj)+1
levxixj(xi,xj1)+1 de otra manera
levxixj(xi1,xj1)+1(xi6=xj)
[27]
11 Lee Distance
K
X
k=1
min(|xik xjk |, q − |xik xj k|)[28]
12 Norma 1
K
X
k=1 |xiyi|[29]
13 Norma 2 v
u
u
t
K
X
k=1 |xiyi|2[29]
14 Norma 3 3
v
u
u
t
K
X
k=1 |xiyi|3[29]
15 Norma Infinito maxi|xiyi|[29]
16 Sorensen
K
X
k=1 |xik xjk |
K
X
k=1 |xik +xjk |
[21]
17 Gower 1
d
K
X
k=1
|xik xjk |
Ri
[21]
18 Soergel
K
X
k=1 |xik xjk |
K
X
k=1
max(xik, xj k)
[21]
19 Kulczynski
K
X
k=1 |xik xjk |
K
X
k=1
min(xik, xj k)
[21]
20 Lorentzian
K
X
k=1
ln(1 + |xik xjk |)[21]
Tabla VII. DEFINICIONES DE DISTANCIA
# Nombre Definici´
on Referencia
21 Insersection IS
K
X
k=1
min(xik, xj k)[21]
22 Insersection non-IS 1SIS =1
2PK
k=1 |xik xjk |[21]
23 Wave Hedges
K
X
k=1
(1 min(xik, xj k)
max(xik, xj k))[21]
24 Czekanowski Similarity
2
K
X
k=1
min(xik, xj k)
K
X
k=1
(xik +xjk )
[21]
25 Motyka
K
X
k=1
min(xik, xj k)
K
X
k=1
(xik +xjk )
[21]
26 Kulczynski Similarity
K
X
k=1
min(xik, xj k)
K
X
k=1 |xik xjk |
[21]
27 Ruzicka Similarity
K
X
k=1
min(xik, xj k)
K
X
k=1
max(xik, xj k)
[21]
28 Tanimoto
K
X
k=1
xik +
K
X
k=1
xjk 2
K
X
k=1
min(xik, xj k
K
X
k=1
xik +
K
X
k=1
xjk
K
X
k=1
min(xik, xj k
[21]
29 Inner Product Similarity
K
X
k=1
xikxj k [21]
30 Harmonic mean Similarity 2
K
X
k=1
xikxj k
xik +xjk
[21]
31 Kumar Hassebrook
K
X
k=1
xikxj k
K
X
k=1
x2
ik +
K
X
k=1
x2
jk
K
X
k=1
xikxj k
[21]
32 Jaccard Similarity
K
X
k=1
xikxj k
K
X
k=1
x2
ik +
K
X
k=1
x2
jk
K
X
k=1
xikxj k
[21]
33 Jaccard
d
X
j=1
(xik xjk )2
K
X
k=1
x2
ik +
K
X
k=1
x2
jk
K
X
k=1
xikxj k
[21]
34 Dice Similarity
2
K
X
k=1
xikxj k
K
X
k=1
x2
ik +
K
X
k=1
x2
jk
[21]
35 Dice
2
K
X
k=1
(xik xjk )2
K
X
k=1
x2
ik +
K
X
k=1
x2
jk
[21]
36 Fidelity
K
X
k=1
xikxj k [21]
Tabla VIII. DEFINICIONES DE DISTANCIA. CONTINUACI´
ON
# Nombre Definici´
on Referencia
37 Bhattacharyya ln
K
X
k=1
xikxj k [21]
38 Hellinger v
u
u
t2
K
X
k=1
(xik xjk )2[21]
39 Matusita v
u
u
t
K
X
k=1
(xik xjk )2[21]
40 Squared Chord
K
X
k=1
(xik xjk )2[21]
41 Squared Chord Similarity 2
K
X
k=1
xikxj k 1[21]
42 Squared Euclidean
K
X
k=1
(xik xjk )2[21]
43 Pearson X2
K
X
k=1
(xik xjk )2
xjk
[21]
44 Neyman X2
K
X
k=1
(xik xjk )2
xik
[21]
45 Squared X2PK
k=1
(xikxj k )2
xik+xj k [21]
46 Probabilistic Symmetric X22
K
X
k=1
(xik xjk )2
xik +xjk
[21]
47 Divergence 2
K
X
k=1
(xik xjk )2
(xik +xjk )2[21]
48 Clark v
u
u
t
K
X
k=1
(|xik xjk |
xik +xjk
)2[21]
49 Additive Symmetric X2
b
X
i=1
(xik xjk )2(xik +xjk )
xikxj k
[21]
50 Kullback-Leibler
K
X
k=1
xikln xik
xjk
[21]
51 Jeffreys
K
X
k=1
(xik xjk )ln xik
xjk
[21]
52 K Divergence
K
X
k=1
xikln 2xik
xik +xjk
[21]
53 Topsoe
K
X
k=1
(xikln(2xik
xik +xjk
) + xjk ln(2xjk
xik +xjk
)) [21]
54 Jensen-Shannon 1
2[
K
X
k=1
xikln(2xik
xik +xjk
) +
K
X
k=1
xjk ln(2xjk
xik +xjk
))] [21]
55 Jensen difference
K
X
k=1
[xiklnxik +xj klnxjk
2(xik +xjk
2)ln(xik +xjk
2)] [21]
56 Taneja
K
X
k=1
(xik +xjk
2)ln(xik +xjk
2xikxj k
)[21]
57 Kumar-Johnson
K
X
k=1
((x2
ik x2
jk )2
2(xikxj k)3/2)[21]
58 Avg (L1, L)
K
X
k=1 |xik xjk |+ max
i|xik xjk |
2[21]
59 Vicis-Wave Hedges
K
X
k=1
|xik xjk |
min(xik, xj k)[21]
60 Vicis-Symmetric X2
K
X
k=1
(xik xjk )2
min(xik, xj k)2[21]
61 Vicis-Symmetric X2
K
X
k=1
(xik xjk )2
min(xik, xj k)[21]
62 Vicis-Symmetric X2
K
X
k=1
(xik xjk )2
max(xik, xj k)[21]
Tabla IX. DEFINICIONES DE DISTANCIA. CONTINUACI´
ON
# Nombre Definici´
on Referencia
63 Max-Symmetric X2max(
K
X
k=1
(xik xjk )2
xik
,
K
X
k=1
(xik xjk )2
xjk
)[21]
64 Min-Symmetric X2min(
K
X
k=1
(xik xjk )2
xik
,
K
X
k=1
(xik xjk )2
xjk
)[21]
65 Chi square
K
X
k=1
(xik xjk )2
xik +xjk
[22]
Tabla X. DEFINICIONES DE DISTANCIA. CONTINUACI´
ON
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
As a usual model for a variety of practical applications, the maximum diversity problem (MDP) is computational challenging. In this paper, we present an opposition-based memetic algorithm (OBMA) for solving MDP, which integrates the concept of opposition-based learning (OBL) into the wellknown memetic search framework. OBMA explores both candidate solutions and their opposite solutions during its initialization and evolution processes. Combined with a powerful local optimization procedure and a rank-based quality-and-distance pool updating strategy, OBMA establishes a suitable balance between exploration and exploitation of its search process. Computational results on 80 popular MDP benchmark instances show that the proposed algorithm matches the best-known solutions for most of instances, and finds improved best solutions (new lower bounds) for 22 instances. We provide experimental evidences to highlight the beneficial effect of opposition-based learning for solving MDP.
Article
Full-text available
The challenge of maximizing the diversity of a collection of points arises in a variety of settings, including the setting of search methods for hard optimization problems. One version of this problem, called the Maximum Diversity Problem (MDP), produces a quadratic binary optimization problem subject to a cardinality constraint, and has been the subject of numerous studies. This study is focused on the Maximum Minimum Diversity Problem (MMDP) but we also introduce a new formulation using MDP as a secondary objective. We propose a fast local search based on separate add and drop operations and on simple tabu mechanisms. Compared to previous local search approaches, the complexity of searching for the best move at each iteration is reduced from quadratic to linear; only certain streamlining calculations might (rarely) require quadratic time per iteration. Furthermore, the strong tabu rules of the drop strategy ensure a powerful diversification capacity. Despite its simplicity, the approach proves superior to most of the more advanced methods from the literature, yielding optimally-proved solutions for many problems in a matter of seconds and even attaining a new lower bound.
Article
Full-text available
This paper presents a highly effective memetic algorithm for the maximum diversity problem based on tabu search. The tabu search component uses a successive filter candidate list strategy and the solution combination component employs a combination operator based on identifying strongly determined and consistent variables. Computational experiments on three sets of 40 popular benchmark instances indicate that our tabu search/memetic algorithm (TS/MA) can easily obtain the best known results for all the tested instances (where no previous algorithm has achieved) as well as improved results for six instances. Analysis of comparisons with state-of-the-art algorithms demonstrates statistically that our TS/MA competes very favorably with the best performing algorithms. Key elements and properties of TS/MA are also analyzed to disclose the benefits of integrating tabu search (using a successive filter candidate list strategy) and solution combination (based on critical variables).
Chapter
Full-text available
The process of selecting objects, activities, people, projects, resources, etc. is one of the activities that is frequently realized by human beings with some objective, and based on one or more criteria: economical, space, emotional, political, etc. For example, as a daily experience people should select what means of transportation and routes to utilize to arrive at a determined destination according to the price, duration of the trip, etc. In these cases, one must select the best subset of elements based on a large set of possibilities, the best in some sense, and in many cases there is an interest in the selected elements not appearing amongst themselves, if not it is better that they have different characteristics so that they can represent the existing diversity in the collection of original possibilities. Of course at this level people make these decisions intuitively, but commonsense, generally, is not a good advisor with problems that require optimized decision-making, and simple procedures that apparently offer effective solutions lead to bad decisions, thus this can be avoided by applying mathematical models that can guarantee obtainable effective solutions. In other human activities the selection of this subset has economic implications that involve a selection of a more diverse subset, a crucial decision, and difficult to obtain, which requires a correct process of optimization guided by a methodical form
Chapter
The challenge of maximizing the diversity of a collection of points arises in a variety of settings, and the growing interest of dealing with diversity resulted in an effort to study the management of equity. While the terms diversity and dispersion can be found in many optimization problems indistinguishable, we undertake to explore the different models behind them. In particular, this chapter describes the mathematical models for two diversity and three equity models. Additionally, we also review two related models that have recently received special attention. This chapter also reviews heuristics and metaheuristics for finding near-optimal solutions for these problems, where constructive and local search-based methods, such as greedy randomized adaptive search procedure (GRASP) and tabu search, play an important role.
Conference Paper
In many applications, continuous use of multiple queries has become the focal point of many researches. Various evaluations on document clustering methods reveal the need for effective methodology to capture the actual requirement of the user from the web browsers. An intelligent similarity measure with the concept of Neural Network algorithm has been proposed. Experiments show that application of Echo State Neural Network and Radial Basis Function to the training data set gives better clustering of text documents based on the stored weights in order to avoiding retrieval of irrelevant documents.
Article
Distance or similarity measures are essential to solve many pattern recognition problems such as classification, clustering, and retrieval problems. Various distance/similarity measures that are applicable to compare two probability density functions, pdf in short, are reviewed and categorized in both syntactic and semantic relationships. A correlation coefficient and a hierarchical clustering technique are adopted to reveal similarities among numerous distance/similarity measures.
Article
The maximum diversity problem consists in finding a subset of elements which have maximum diversity between each other. It is a very important problem due to its general aspect, that implies many practical applications such as facility location, genetics, and product design. We propose a method based on evolution strategies with local search and self-adaptation of the parameters. For all time limits from 1 to 300 s as well as for time to converge to the best solutions known, this method leads to better results when compared to other state-of-the-art algorithms.
Article
This paper presents a learnable tabu search (TS) guided by estimation of distribution algorithm (EDA), called LTS-EDA, for maximum diversity problem. The LTS-EDA introduces knowledge model and can extract knowledge during the search process of TS, and thus it adopts dual or cooperative evolution/search structure, consisting of probabilistic model space in clustered EDA and solution space searched by TS. The clustered EDA, as a learnable constructive method, is used to create a new starting solution, and the simple TS, as an improvement method, attempts to improve the solution created by the clustered EDA in the LTS-EDA. A distinguishing feature of the LTS-EDA is the usage of the clustered EDA with effective linkage learning to guide TS. In the clustered EDA, different clusters (models) focus on different substructures, and the combination of information from different clusters (models) effectively combines substructures. The LTS-EDA is tested on 50 large size benchmark problems with the size ranging from 2,000 to 5,000. Simulation results show that the LTS-EDA is better than the advanced algorithms proposed recently.