Page 1

Diplomarbeit

Ein Algorithmus

zur L¨ osung des

Farthest-Pair-Problems

Marco Stolpe

Diplomarbeit

am Fachbereich Informatik

der Universit¨ at Dortmund

9. April 2003

Betreuer:

Prof. Dr. Katharina Morik

Dipl.-Inform. Stefan R¨ uping

Page 2

Page 3

Inhaltsverzeichnis

Einleitung1

1 Clusteranalyse

1.1 Einf¨ uhrung und¨Uberblick . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.1Maschinelles Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.2Aufgabenstellung der Clusteranalyse

1.1.3 Repr¨ asentation der Instanzen . . . . . . . . . . . . . . . . . . . . . . .

1.1.4

¨Ahnlichkeits- und Abstandsfunktionen . . . . . . . . . . . . . . . . . .

1.1.5 Qualit¨ atsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Iteratives distanzbasiertes Clustering . . . . . . . . . . . . . . . . . . . . . . .

1.2.1 k-Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2 Maximum-Linkage (ML) . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.3Advanced-Maximum-Linkage (AML) . . . . . . . . . . . . . . . . . .

1.3Wahrscheinlichkeitsbasiertes Clustering . . . . . . . . . . . . . . . . . . . . .

1.3.1 Erwartungs-Maximierung . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Inkrementelles Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4.1COBWEB. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4.2 CLASSIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5 Hierarchisches Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5.1 Single-Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5.2 Complete-Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5.3 Average-Linkage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5.4 Ward’s Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6 Clustering mit k¨ unstlichen neuronalen Netzen . . . . . . . . . . . . . . . . . .

1.6.1 Biologische neuronale Netze . . . . . . . . . . . . . . . . . . . . . . .

1.6.2 K¨ unstliche neuronale Netze . . . . . . . . . . . . . . . . . . . . . . .

1.6.3 Alles-dem-Gewinner-Netze

1.6.4 Selbstorganisierende Merkmalskarten . . . . . . . . . . . . . . . . . .

5

5

5

7

9

. . . . . . . . . . . . . . . . . .

11

13

17

17

18

20

21

21

24

24

26

27

27

28

28

28

28

29

30

32

34

. . . . . . . . . . . . . . . . . . . . . . .

2 Digitale Bildverarbeitung

2.1 Einf¨ uhrung und¨Ubersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

37

i

Page 4

ii

INHALTSVERZEICHNIS

2.2

2.3

2.4

2.5

Digitale Schwarz/Weiß-Bilder . . . . . . . . . . . . . . . . . . . . . . . . . .

Digitale Farbbilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Der Prozess der digitalen Bildverarbeitung . . . . . . . . . . . . . . . . . . . .

Anwendung der Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . .

38

39

42

44

3Algorithmische Geometrie

3.1 Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2Was ist die konvexe H¨ ulle? . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.1Gift Wrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.2 Graham’s Scan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.3Divide and Conquer . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.4 Inkrementeller Algorithmus . . . . . . . . . . . . . . . . . . . . . . .

3.3.5Quickhull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Komplexit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

47

47

48

50

50

51

52

52

53

55

4 Das Farthest-Pair-Problem

4.1 Problemstellung und Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Laufzeitanalyse von AML . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.1 Best case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.2Worst case. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2.3 Average case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3 Definition des Farthest-Pair-Problems . . . . . . . . . . . . . . . . . . . . . .

4.4 L¨ osung mittels der konvexen H¨ ulle . . . . . . . . . . . . . . . . . . . . . . . .

4.5 Entwicklung eines Pruning-Algorithmus . . . . . . . . . . . . . . . . . . . . .

4.5.1 Grundideen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.5.2Modifikation des Pruning-Kriteriums . . . . . . . . . . . . . . . . . .

4.5.3 Reihenfolge der Abstandsberechnungen . . . . . . . . . . . . . . . . .

4.5.4Weitere m¨ ogliche Modifikationen . . . . . . . . . . . . . . . . . . . .

4.5.5 Der Algorithmus FastAML . . . . . . . . . . . . . . . . . . . . . . . .

57

57

58

60

60

61

62

63

67

67

69

76

82

83

5 Empirischer Vergleich der Clusteringverfahren

5.1 Implementation der Verfahren

5.2 Die Laufzeiten von FastAML, AML und Quickhull . . . . . . . . . . . . . . .

5.3 Vergleich anhand qualitativer G¨ utekriterien

5.3.1 Auswahl der Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3.2 Clusterungen der Luftaufnahme in Abb. 5.3(a)

5.3.3 Clusterungen der Luftaufnahme in Abb. 5.3(b) . . . . . . . . . . . . . 103

85

85

87

92

92

94

. . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . .

6Zusammenfassung und Ausblick 111

Page 5

Einleitung

Hintergrund

Die vorliegende Diplomarbeit ist in Zusammenarbeit mit dem Fachbereich Statistik der Univer-

sit¨ at Dortmund entstanden. Im Rahmen des Sonderforschungsbereiches 475 ist am Lehrstuhl

f¨ ur Wirtschafts- und Sozialstatistik durch die beiden Mitarbeiter M. Zerbst und L. Tschiersch

die Desertifikation der nordafrikanischen Landschaft analysiert und erforscht worden.

Ein besonderer Einflussfaktor ist die Erosion der B¨ oden. Erosion ist ein Vorgang, durch den

Gesteine und Mineralien der Erdoberfl¨ ache — und damit h¨ aufig auch fruchtbarer Mutterboden

— abgetragen werden. Nat¨ urliche Erosion wird hervorgerufen durch fließendes Wasser, durch

Gletscher (Exaration), durch Wind (Deflation) und durch die Brandung an Meeresk¨ usten (Ab-

rasion). Aber auch der Mensch verursacht Erosion durch die landwirtschaftliche Nutzung von

B¨ oden. So entstehen Steppen und Trockengebiete, deren Ausbreitung sp¨ atestens seit der großen

Hungerkatastrophe im Sahel Mitte der 70er und Anfang der 80er Jahre im Mittelpunkt ¨ offent-

lichen Interesses steht. In diesem Zusammenhang seien verschiedene Aufrufe der UN erw¨ ahnt,

das wachsende Problem der Erosion in den Griff zu bekommen [UNC94].

Messungen vor Ort k¨ onnen erg¨ anzt werden durch die Erstellung und Analyse von Luft-

aufnahmen der betroffenen Gebiete. Das langfristige Ziel ist die automatisierte Entdeckung

von Erosion. Ein erster Schritt in diese Richtung sind die Arbeiten von Zerbst [Zer01] und

Tschiersch [Tsc02], in denen die Clusteringverfahren Maximum-Linkage (ML) und Advanced-

Maximum-Linkage (AML) behandelt werden.

Im Rahmen meiner T¨ atigkeit als studentische Hilfskraft sind beide Algorithmen in Zusam-

menarbeit mit M. Zerbst und L. Tschiersch in der Anwendung PICANA (Picture Analysis)

implementiert worden. Als alternativer Ansatz f¨ ur die Clusterung wurden neuronale Netze be-

trachtet.

Page 6

2

EINLEITUNG

Problemstellung und Zielsetzung

Anhand verschiedener G¨ utekriterien kann gezeigt werden, dass die Verfahren ML und AML im

Bereich der Erosionsproblematik zu besseren Clusterungen als neuronale Netze f¨ uhren. Empi-

rische Vergleiche mit anderen bekannten Clusteringverfahren blieben bisher aus.

Bei einer geringen Anzahl von Farben in den zu analysierenden Bildern schneiden ML und

AML auch bez¨ uglich der Laufzeit besser als neuronale Netze ab [Zer01]. Eine umfassende

Analyse der Laufzeit f¨ ur den besten (best case) und schlechtesten Fall (worst case) oder die zu

erwartende Laufzeit (average case) wurde bisher jedoch nicht durchgef¨ uhrt.

Aus den genannten Punkten ergeben sich die Ziele dieser Diplomarbeit:

1. Analyse der Laufzeit von AML f¨ ur die F¨ alle best case, worst case und average case,

2. Verbesserung der Laufzeit durch Modifikation von AML und

3. empirischer Vergleich (Laufzeit, G¨ ute) mit anderen bekannten Clusteringverfahren.

In den einf¨ uhrenden Kapiteln 1, 2 und 3 werden zun¨ achst die Grundlagen der Clusteranaly-

se, der digitalen Bildverarbeitung und der algorithmischen Geometrie vorgestellt.

Kapitel 4 geht den zuvor genannten Zielen 1 und 2 nach. Es wird nachgewiesen, dass ML

und AML f¨ ur eine kleine Anzahl zu bestimmender Cluster k quadratische und f¨ ur eine große

Anzahl k im worst case sogar kubische Laufzeit haben. Eine Verbesserung der Laufzeit hat

große Bedeutung f¨ ur praktische Anwendungen, insbesondere in komplexeren Problemgebieten

als dem der Erosionserkennung. Der Schwerpunkt des restlichen Kapitels (und dieser Arbeit

insgesamt) liegt daher auf einer entsprechenden Modifikation von AML.

Dazu wird zun¨ achst gezeigt, dass der erste Schritt des Verfahrens dem aus der algorithmi-

schenGeometriebekanntenFarthest-Pair-Problementspricht.Daf¨ urexistiereneffizienteL¨ osun-

gen in der Ebene, die auf Algorithmen zur Berechnung der konvexen H¨ ulle einer Punktmenge

zur¨ uckgreifen. Im dreidimensionalen Raum f¨ uhrt ein Pruning-Algorithmus zu guten Laufzeiten.

F¨ ur h¨ oherdimensionale R¨ aume wird ein selbst entwickelter modifizierter Pruning-Algorithmus

vorgestellt.

In Kapitel 5 wird der modifizierte AML-Algorithmus (FastAML) gem¨ aß Zielsetzung 3 em-

pirisch mit anderen ausgew¨ ahlten Clusteringverfahren (AML, k-Mittelwert, EM, CLASSIT, neu-

Page 7

EINLEITUNG

3

ronale Netze) verglichen. Dabei kommt das von M. Zerbst und L. Tschiersch entwickelte G¨ ute-

kriterium der gewichteten mittleren Minimaldistanz (GMMD) erstmals in gr¨ oßerem Umfang

zum Einsatz. Die Algorithmen und die Testumgebung wurden dazu in der Programmiersprache

JAVA implementiert.

Da der Schwerpunkt auf der Verbesserung der Laufzeit des AML-Algorithmus liegt, kon-

zentriert sich Kapitel 5 auf die Demonstration herausragender Eigenschaften der verglichenen

Algorithmen anhand weniger Beispiele. Zur weiteren Vereinfachung orientiert sich die Arbeit

zudem bis auf Ausnahmen weiterhin am Anwendungsgebiet der Erosionserkennung auf Luft-

aufnahmen.

Das Fazit und der Ausblick in Kapitel 6 fassen die wesentlichen Ergebnisse der Arbeit

zusammen und weisen auf weitere Verbesserungen und Anwendungsm¨ oglichkeiten f¨ ur den

FastAML-Algorithmus hin.

Page 8

4

EINLEITUNG

Page 9

Kapitel 1

Clusteranalyse

Der erste Teil dieses Kapitels f¨ uhrt in die Clusteranalyse ein. Der Rest des Kapitels stellt die

Verfahren vor, die im Kapitel 5 anhand ihrer Laufzeit und verschiedenen G¨ utekriterien mitein-

ander verglichen werden.

1.1Einf¨ uhrung und¨Uberblick

1.1.1 Maschinelles Lernen

Clusteringverfahren lassen sich in das Gebiet der multivariaten Datenanalyse und des maschi-

nellenLernenseinordnen.NachWrobel etal.[WMJ00]besch¨ aftigtsichdas maschinelleLernen

mit der”computergest¨ utzten Modellierung und Realisierung von Lernph¨ anomenen“.

Da sich eine pr¨ azise inhaltliche Definition des Begriffs”Lernen“ gem¨ aß den zuvor genann-

ten Autoren als schwierig erweist, sei im Folgenden ein Textauszug aus [Fis99] genannt, wel-

cher sich auf unsere intuitive Vorstellung bezieht:

”Lernen ist der Prozess, durch Unterweisung, Experimente, Beobachtung oder Er-

fahrung Wissen oder F¨ ahigkeiten zu erwerben. Das Maschinelle Lernen befasst

sich mit der Umsetzung solcher Prozesse auf Maschinen, beziehungsweise in algo-

rithmische Verfahren.“

Die Aufz¨ ahlung der einzelnen Typen von Lernaufgaben, die bisher Gegenstand des For-

schungsgebietes gewesen sind, ist ebenfalls eine M¨ oglichkeit, den Begriff (extensional) zu defi-

Page 10

6

KAPITEL 1. CLUSTERANALYSE

nieren [WMJ00]. Eine solche Aufz¨ ahlung soll und kann im Rahmen dieser Arbeit nicht geleistet

werden. Stattdessen werden Unterscheidungen zwischen verschiedenen Typen von Lernverfah-

ren getroffen, die f¨ ur die Einordnung der in diesem Kapitel vorgestellten Clusteringverfahren

hilfreich sind.

Datenorientierte Algorithmen, die basierend auf Mustern in Daten Generalisierungen bilden

(Induktion), werden als ¨ ahnlichkeitsbasiert bezeichnet. Sie lassen sich abgrenzen von Lernver-

fahren,dieVorwissen,Erkl¨ arungen,AnalogienoderandereTechnikennutzen[Lug01].Indieser

Arbeit werden ausschließlich ¨ ahnlichkeitsbasierte Algorithmen behandelt, da kaum Vorwissen

¨ uber die Eigenschaften der zu lernenden Daten vorliegt.

Eine andere wichtige Unterscheidung ist die zwischen ¨ uberwachtem und nicht ¨ uberwachtem

Lernen.

¨Uberwachtes Lernen (supervised learning). Die Lernaufgabe besteht darin, ein sog. Zielkon-

zept aus einer Menge von klassifizierten Beispielen, der sog. Trainingsmenge, zu lernen.

Im Gegensatz zum reinen Auswendiglernen der Zuordnung von Objekten zu Klassen

w¨ unscht man sich, dass das Lernverfahren von den vorgelegten Beispielen abstrahiert.

Unklassifizierte, noch nicht vorgelegte Objekte sollen nach dem Training ebenfalls der

richtigen Klasse zugeordnet werden.

Wie gut ein Verfahren gelernt hat, l¨ asst sich mit Hilfe einer Testmenge von Objekten

¨ uberpr¨ ufen, deren Klassenzuordnung nur dem”Lehrer“ bekannt ist. Ein Maß f¨ ur die G¨ ute

k¨ onnte dabei z. B. die Anzahl der korrekt klassifizierten Objekte aus der Testmenge sein.

Beschreibungen verschiedener ¨ uberwachter Lernverfahren wie statistische Modellierung,

Entscheidungsb¨ aume,Klassifikationsregeln,lineareModelle,instanzbasiertesLernenoder

konnektionistische Modelle finden sich u.a. in [WF01], [WMJ00] und [Lug01].

Nicht ¨ uberwachtes Lernen (unsupervisedlearning).DieKlassenzugeh¨ origkeitderObjekteist

nicht bekannt und es gibt keinen”Lehrer“. Die Aufgabe des Lernverfahrens ist es, Be-

ziehungen und Gemeinsamkeiten zwischen den Objekten herauszufinden, selbstst¨ andig

Konzepte zu bilden und diese zu bewerten.

F¨ ur das hier beispielhaft ausgew¨ ahlte Anwendungsgebiet der Erosionserkennung auf Luft-

aufnahmen eignen sich ¨ uberwachte Lernverfahren, sofern Bilder vorliegen, bei denen die Klas-

senzugeh¨ origkeit der darauf abgebildeten Regionen bereits bekannt ist. Dies ist nicht der Fall.

Page 11

1.1. EINF¨UHRUNG UND¨UBERBLICK

7

Abb. 1.1: Aufteilung einer Beispielmenge von Instanzen

in 6 Cluster

Daher bietet sich der Einsatz von nicht ¨ uberwachten Lernverfahren an, um dem Substanzwis-

senschaftler einen besseren Einblick in die Datenlage zu gew¨ ahren.

Im Unterschied zur Entdeckung von neuem Wissen ¨ uber eine Dom¨ ane durch sog. Entde-

ckungssysteme (z. B. der Entdeckung naturwissenschaftlicher Gesetze) sollen die Luftaufnah-

men in verschiedene Kategorien eingeteilt werden.

Clusteringverfahren sind nicht ¨ uberwachte Lernverfahren, welche die¨Ahnlichkeit von Ob-

jektenmessenunddiesedaraufbasierendinKlasseneinteilen.SiebesitzenzudemdieF¨ ahigkeit,

die Komplexit¨ at (Anzahl, Dimension) einer Menge von Daten zu reduzieren. Die den Daten zu

Grunde liegende Struktur bleibt dabei weitestgehend erhalten. Dadurch wird eine große Anzahl

von Datenpunkten f¨ ur die weitere Verarbeitung erst handhabbar.

1.1.2Aufgabenstellung der Clusteranalyse

Gegeben sei eine Menge von Instanzen (Objekten) S aus einem Instanzenraum X. Gesucht

ist eine Einteilung der Menge S in Teilmengen (”Cluster“) dergestalt, dass die in einem Clus-

ter zusammengefassten Instanzen m¨ oglichst homogen sind. Objekte aus verschiedenen Clustern

solltenm¨ oglichstheterogensein.JenachLernaufgabek¨ onnensichdiegefundenenCluster ¨ uber-

lappen (Clumping) oder eine Partitionierung der Menge von Instanzen in disjunkte Teilmengen

bilden (siehe Abb. 1.1).

Formal l¨ asst sich das Problem der Clusterung wie folgt definieren [WMJ00]:

Page 12

8

KAPITEL 1. CLUSTERANALYSE

Definition 1.1 (Clusteranalyse) Sei X ein Instanzenraum und S ⊆ X eine Menge

von Instanzen. Sei weiterhin

dist : X × X → R+

eine Abstandsfunktion, und

q : 22X→ R

eine Qualit¨ atsfunktion. Gegeben S, dist und q besteht die Aufgabe der Clusterana-

lyse darin, eine Clusterung

C = {C1,...,Ck}, wobei Ci⊆ S ∀ i = 1,...,k,

zu finden, so dass q(C) maximiert wird, und (optional)

Ci∩ Cj= ∅

?

∀

i ?= j ∈ {1,...,k}

(Partitionierung).

und

i=1,...,kCi= S

Ein Verfahren zur Bestimmung der besten Partitionierung (im Sinne der gew¨ ahlten Qua-

lit¨ atsfunktion) l¨ asst sich umittelbar angeben: z¨ ahle alle M¨ oglichkeiten auf, die Instanzen aus

S in nicht leere Teilmengen einzuteilen. Alle Partitionierungen, welche die Qualit¨ atsfunktion

maximieren, sind eine m¨ ogliche L¨ osung. Dieses Verfahren ist nicht praktikabel, da es bereits

f¨ ur eine vorgegebene Anzahl von k Clustern

1

k!

k

?

j=0

(−1)k−j

?k

j

?

j|S|

m¨ ogliche Partitionierungen gibt [Tsc02, JW92, DH73]. Eine Absch¨ atzung mittels der For-

mel k|S|/k! ergibt z. B. f¨ ur die Einteilung von 100 Instanzen in 5 Cluster ungef¨ ahr 1067m¨ ogliche

Partitionierungen [DH73]. Alle weiteren in diesem Kapitel vorgestellten Clusteringverfahren

k¨ onnen somit allenfalls Ann¨ aherungen an gute Clusterungen finden, aber nicht notwendig die

beste Clusterung.

Bei Clumpingverfahren k¨ onnen sich die Cluster ¨ uberlappen. Da gem¨ aß der Zielsetzung die-

ser Arbeit einige bekannte Clusteringverfahren mit Maximum-Linkage und Advanced-Maxi-

mum-Linkage verglichen werden, seien o.B.d.A. Verfahren zur Erzeugung disjunkter Cluste-

rungen betrachtet. In diesem Zusammenhang beziehen sich alle in diesem Kapitel vorgestellten

Abstands- und Qualit¨ atsfunktionen auf partitionierende Clusteringverfahren.

Page 13

1.1. EINF¨UHRUNG UND¨UBERBLICK

9

1.1.3Repr¨ asentation der Instanzen

Im Bereich der k¨ unstlichen Intelligenz und des maschinellen Lernens gibt es verschiedene

Ans¨ atze, Wissen zu repr¨ asentieren. So unterscheidet Luger [Lug01] zwischen symbolbasier-

tem, konnektionistischem und emergentem Lernen. Im Rahmen der Clusteranalyse stellt sich

das Repr¨ asentationsproblem f¨ ur die Instanzen und die Bemessung ihrer¨Ahnlichkeit zueinander

(siehe Abschnitt 1.1.4).

Symbolbasierte Lernverfahren operieren auf Symbolen, die auf Entit¨ aten und Beziehungen

einer Problemdom¨ ane verweisen und durch den Menschen interpretierbar sind. Gesucht ist eine

Generalisierung, heuristische Regel oder ein Plan in der Symbolsprache (z. B. Pr¨ adikatenlogik,

semantische Netze oder Frames), so dass Trainingsbeispiele korrekt klassifiziert werden. Die

Arbeitsweise der Verfahren l¨ asst sich in etwa vergleichen mit der eines Mathematikers oder

Logikers, der Symbole auf einem Blatt Papier manipuliert und logische Regeln ableitet.

Konnektionistische Modelle hingegen orientieren sich am biologischen Vorbild des (tieri-

schen oder menschlichen) Gehirns. Wissen wird als Muster von Aktivit¨ aten in einem Netz dar-

gestellt, das aus kleinen voneinander unabh¨ angigen Arbeitseinheiten besteht (siehe Abschnitt

1.6). Muster einer Dom¨ ane werden nicht symbolisch, sondern als numerische Vektoren ko-

diert. Die Verbindungen zwischen den Arbeitseinheiten werden numerisch repr¨ asentiert und

die Transformation der Muster erfolgt mit Hilfe numerischer Verfahren.

Emergente Modelle des Lernens orientieren sich ebenfalls an einem biologischen Vorbild,

n¨ amlich der Genetik und dem Prozess der Evolution. Genetische Algorithmen erzeugen eine

Population von L¨ osungsm¨ oglichkeiten und bewerten die F¨ ahigkeit jedes Individuums, Proble-

minstanzen zu l¨ osen. Nur die F¨ ahigsten ¨ uberleben und gehen Verbindungen miteinander ein. So

entstehen Generationen von Individuen, die immer leistungsf¨ ahiger werden.

F¨ ur das uns vorliegende Problem der Erosionserkennung auf Luftaufnahmen ist eine geeig-

nete Repr¨ asentation bereits in den Arbeiten zu diesem Thema [Zer01, Tsc02] erarbeitet worden

und ausf¨ uhrlich in Abschnitt 2.5 beschrieben.

Die Art der gew¨ ahlten Repr¨ asentation f¨ ur die Objekte (Instanzen) aus S entspricht dabei

einer im Bereich der Clusteranalyse und des Data Minings [WF01] h¨ aufig verwendeten Dar-

stellung durch d-dimensionale Merkmalsvektoren. Die Komponenten der Vektoren entsprechen

den m¨ oglichen Eigenschaften (Attributen, Features) der repr¨ asentierten Objekte. Jedes der d

Attribute kann unterschiedliche Werte aus einem vorgegebenen — meist nominalen oder nume-

Page 14

10

KAPITEL 1. CLUSTERANALYSE

Taube

1

0

0

1

0

0

0

0

1

0

0

1

0

Henne

1

0

0

1

0

0

0

0

1

0

0

0

0

Ente

1

0

0

1

0

0

0

0

1

0

0

1

1

Gans

1

0

0

1

0

0

0

0

1

0

0

1

1

Eule

1

0

0

1

0

0

0

0

1

1

0

1

0

Falke

1

0

0

1

0

0

0

0

1

1

0

1

0

Adler

0

1

0

1

0

0

0

0

1

1

0

1

0

Fuchs

0

1

0

0

1

1

0

0

0

1

0

0

0

Hund

0

1

0

0

1

1

0

0

0

0

1

0

0

Wolf

0

1

0

0

1

1

0

1

0

1

1

0

0

Katze

1

0

0

0

1

1

0

0

0

1

0

0

0

Tiger

0

0

1

0

1

1

0

0

0

1

1

0

0

L¨ owe

0

0

1

0

1

1

0

1

0

1

1

0

0

Pferd

0

0

1

0

1

1

1

1

0

0

1

0

0

Zebra

0

0

1

0

1

1

1

1

0

0

1

0

0

Kuh

0

0

1

0

1

1

1

0

0

0

0

0

0

klein

mittel

groß

2 Beine

4 Beine

Haare

Hufe

M¨ ahne

Federn

jagen

rennen

fliegen

schwimmen

ist

hat

mag es

zu

Abb. 1.2: Tiere und ihre Eigenschaften (aus [Koh01])

rischen — Wertebereich annehmen. Betrachte dazu das Beispiel in Abb. 1.2. Die verschiedenen

Instanzen, in diesem Fall Tiere, k¨ onnen durch Eigenschaften wie Gr¨ oße, Anzahl der Gliedma-

ßen, Art der Fortbewegung usw. charakterisiert werden. Die Werte der Attribute sind bin¨ ar: die

Eigenschaft trifft zu oder nicht. Die Auswahl der in diesem Kapitel vorgestellten Distanzfunk-

tionen und Clusteringverfahren ergibt sich aus der genannten Art der Repr¨ asentation.

Die Auswahl der Attribute und ihrer Wertebereiche kann sich als schwierig erweisen. Wel-

che Attribute sind wichtig, um ein Objekt im Sinne der Lernaufgabe ausreichend zu beschrei-

ben? In manchen Anwendungen kann es z. B. sinnvoll sein, die Attribute a priori je nach ge-

w¨ unschtem Einfluss unterschiedlich zu gewichten [Eve86]. Wie viele Attribute sind n¨ otig? Wie

ist mit der Korrelation von Werten umzugehen?

Das angesprochene Problem bezieht sich auf die induktive Voreinstellung beim Lernen

[Lug01], d.h. auf die Vorannahmen, auf die der Programmentwickler oder Substanzwissen-

schaftler bei der Strukturierung des Lernprozesses zur¨ uckgreift. Einerseits erm¨ oglichen diese

Annahmen erst den Lernprozess, auf der anderen Seite beschr¨ anken sie unter Umst¨ anden den

Umfang dessen, was gelernt werden kann. So kann etwa eine ungeeignete Repr¨ asentation den

Suchraum eines Lernverfahrens so weit beschneiden, dass gute L¨ osungen nicht gefunden wer-

den. In der Praxis werden geeignete Attribute und deren Wertebereiche bis heute oft rein empi-

risch bestimmt. F¨ ur eine automatische Bestimmung wichtiger Attribute eignet sich die aus der

Statistik bekannte Hauptkomponentenanalyse [Eve86, JW92].

Page 15

1.1. EINF¨UHRUNG UND¨UBERBLICK

11

1.1.4

¨Ahnlichkeits- und Abstandsfunktionen

Das in Abschnitt 1.1.3 beschriebene Problem der Auswahl einer geeigneten Repr¨ asentation f¨ ur

Instanzen steht in engem Zusammenhang damit, die¨Ahnlichkeit oder den Abstand zwischen

zwei Objekten bestimmen zu wollen.

Abstandsfunktion

[WMJ00]:

F¨ ur eine Abstandsfunktion dist m¨ ussen folgende Eigenschaften gelten

1. dist : X × X → R+, dist(x,x) = 0 ∀x ∈ X

2. dist(x,y) = dist(y,x) ∀x,y ∈ X

3. dist(x,z) ≤ dist(x,y) + dist(y,z) ∀x,y,z ∈ X

Um eine¨Ahnlichkeitsfunktion handelt es sich, wenn nur die ersten beiden Eigenschaften

erf¨ ullt sind und der Wertebereich im Intervall [0,1] liegt.¨Ahnlichkeitsfunktionen werden nicht

weiter besprochen, da sie in dieser Arbeit nicht verwendet werden. Definitionen und Beispiele

f¨ ur h¨ aufig verwendete¨Ahnlichkeitsfunktionen finden sich u.a. in [Eve86, WMJ00].

Abstandsfunktionen haben einen beliebigen positiven Wertebereich und sind eine Metrik,

da sie zus¨ atzlich die Dreiecks-Ungleichung (Eigenschaft 3) erf¨ ullen. Es gibt viele verschiedene

M¨ oglichkeiten, Abstandsfunktionen zu definieren, solange diese den oben genannten Forde-

rungen entsprechen. Beispiele sind etwa die Hamming-Distanz, die City-Block-Metrik oder die

Mahalanobis-Distanz [Eve86]. Die Arbeit beschr¨ ankt sich auf die folgenden Abstandsmaße, da

diese durch die Arbeiten von Tschiersch [Tsc02] und Zerbst [Zer01] f¨ ur die Anwendung der

Erosionserkennung auf Luftaufnahmen bereits als geeignet ermittelt wurden.

Euklidischer Abstand

funktionistdereuklidischeAbstand.F¨ urdiePunktex = (x1,x2,...,xd)undy = (y1,y2,...,yd)

aus Rdist er definiert als:

Eine f¨ ur diese Arbeit und viele Anwendungen relevante Abstands-

dist(x,y) =

?

?

?

?

d

?

c=1

(xc− yc)2

.

(1.1)

Download full-text