ArticlePDF Available

Razvrščanje v skupine: Teorija in uporaba v druzboslovju

Authors:
  • Faculty of Social Sciences, University of Ljubljana

Abstract

In this monography an overview of the developments in cluster analysis are given in Slovene language. The second part of the monography deals with clustering with constraints and multi-criteria clustering.
METODOLO
ˇ
SKI ZVEZKI
ˇ
ST. 4
RAZVR
ˇ
S
ˇ
CANJE V SKUPINE
Teorija in uporaba
v druˇzboslovju
Anuˇska Ferligoj
Prepovedana prodaja in razmnoˇzevanje v tiskani
obliki.
Ljubljana 1989
Anuˇska Ferligoj: RAZVR
ˇ
S
ˇ
CANJE V SKUPINE
Zbirka METODOLO
ˇ
SKI ZVEZKI, ˇst. 4
Izdajat elj : Jugoslovansko zdruˇzenje za sociologijo,
Sekcija za metodologijo in statistiko
Ureja Anuˇska Ferligoj
Recenzent: prof.dr. Konstantin Momirovi´c
Zaloˇznik: Raziskovalni inˇstitut, Fakulteta za sociologijo, politi-
ˇcne vede in novinarstvo, Kardeljeva pl. 5, Ljubljana
Tisk: Edvard Usenik, Kadilnikova 8, Ljubljana
Naklada: 300 izvodov
Copyright (c) 1989, 2003 Anuˇska Ferligoj
Po sklepu Komiteja za kulturo SRS ˇst. 4210-31/88 z dne 19.1.1988
je zbirka Metodoloˇski zvezki oproˇsˇcena temeljnega in posebnega
davka od prometa proizvodov.
Kazalo
1 UVOD 9
1.1 OSNOVNI POJMI . . . . . . . . . . . . . . . . . . 9
1.2 RAZVOJ PODRO
ˇ
CJA . . . . . . . . . . . . . . . . 16
1.3 RAZLOGI ZA RAZVR
ˇ
S
ˇ
CANJE . . . . . . . . . . 18
1.4 PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE . . . . . 19
1.4.1 Izbira objektov, spremenljivk in podobnosti 20
1.4.2 Pregled metod razvrˇsˇcanja v skupine . . . . 25
1.4.3 Stabilne in objektivne razvrstitve . . . . . . 29
2 MERJENJE PODOBNOSTI 31
2.1
ˇ
STEVILSKI PODATKI . . . . . . . . . . . . . . . 33
2.2 BINARNI PODATKI . . . . . . . . . . . . . . . . 37
2.3 NOMINALNI PODATKI . . . . . . . . . . . . . . 42
2.4 ME
ˇ
SANI TIP PODATKOV . . . . . . . . . . . . . 44
2.5 ZVEZE MED MERAMI . . . . . . . . . . . . . . . 45
3 MATEMATIZACIJA 49
3.1 OSNOVNI POJMI . . . . . . . . . . . . . . . . . . 49
3.2 OPTIMIZACIJSKI PRISTOP . . . . . . . . . . . . 52
3.3 KRITERIJSKE FUNKCIJE . . . . . . . . . . . . . 52
3.4 PRIMER . . . . . . . . . . . . . . . . . . . . . . . 55
1
2 KAZALO
3.5 RE
ˇ
SEVANJE PROBLEMA RAZVR
ˇ
S
ˇ
CANJA . . . 58
4 HIERARHI
ˇ
CNE METODE 61
4.1 POSTOPEK . . . . . . . . . . . . . . . . . . . . . 61
4.2 METODE . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 DREVO ZDRU
ˇ
ZEVANJA . . . . . . . . . . . . . . 68
4.4 LANCE-WILLIAMSOV OBRAZEC . . . . . . . . 70
4.5 MONOTONOST . . . . . . . . . . . . . . . . . . . 73
4.6 HEVRISTIKA . . . . . . . . . . . . . . . . . . . . 74
4.7 NEKAJ LASTNOSTI . . . . . . . . . . . . . . . . 75
4.8 SMERI RAZVOJA . . . . . . . . . . . . . . . . . . 77
4.9 PRIMERA . . . . . . . . . . . . . . . . . . . . . . 78
4.9.1 Tipologija aktivnosti v prostem ˇcasu . . . . 78
4.9.2 Tipologija evropskih drˇzav glede na razvo-
jne kazalce . . . . . . . . . . . . . . . . . . 80
5 NEHIERARHI
ˇ
CNE METODE 87
5.1 METODA PRESTAVLJANJ . . . . . . . . . . . . 89
5.2 METODA VODITELJEV . . . . . . . . . . . . . . 92
5.3 PRIMERI . . . . . . . . . . . . . . . . . . . . . . . 96
5.3.1 Aktivnosti v prostem ˇcasu . . . . . . . . . . 96
5.3.2 Evropske drˇzave glede na razvojne kazalce . 102
5.3.3 Jugoslovanske obˇcine glede na stanovanjski
standard . . . . . . . . . . . . . . . . . . . . 105
6 OMEJITVE 115
6.1 UVOD . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.2 PROBLEM . . . . . . . . . . . . . . . . . . . . . . 118
6.2.1 Sploˇsna relac ijska omejitev . . . . . . . . . 118
6.2.2 Omejevalna spremenljivka . . . . . . . . . . 122
6.2.3 Optimizacijska omejitev . . . . . . . . . . . 124
6.3 RE
ˇ
SEVANJE PROBLEMA . . . . . . . . . . . . . 125
KAZALO 3
6.3.1 Prirejene metode hierarhiˇcnega zdruˇzevanja
v skupine . . . . . . . . . . . . . . . . . . . 126
6.3.2 Prirejena metoda prestavljanj . . . . . . . . 133
6.4 KOEFICIENT VSILJENOSTI STRUKTURE . . . 135
6.5 SMERI RAZVOJA . . . . . . . . . . . . . . . . . . 136
6.6 PRIMER . . . . . . . . . . . . . . . . . . . . . . . 137
7 VE
ˇ
CKRITERIJSKO RAZVR
ˇ
S
ˇ
CANJE 145
7.1 UVOD . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.2 PROBLEM . . . . . . . . . . . . . . . . . . . . . . 146
7.3 VE
ˇ
CKRITERIJSKA OPTIMIZACIJA . . . . . . . 147
7.4 VE
ˇ
CKRITERIJSKE METODE . . . . . . . . . . . 149
7.4.1 Metoda prestavljanj za veˇckriterijsko
razvrˇsˇcanje v skupine . . . . . . . . . . . . 149
7.4.2 Metode hierarhiˇcnega zdruˇzevanja
za veˇckriterijsko razvrˇsˇcanje v skupine . . . 152
7.5 PRIMERA . . . . . . . . . . . . . . . . . . . . . . 155
7.5.1 Razvrˇsˇcanje ˇsestih enot . . . . . . . . . . . 155
7.5.2 Politiki iz II. svetovne vojne . . . . . . . . . 158
4 Predgovor
Predgovor
Metode za sistematiˇcno raziskovanje so v druˇzboslovju kakor tudi v
drugih znanostih zelo podobne. Te v sploˇsnem obsegajo razpozna-
vanje in formulacijo problemov, zbiranje ustreznih empiriˇcnih po-
datkov (preko opazovanja ali eksperimenta) in najvckrat uporabo
matematiˇcnih in statistiˇcnih metod za razkrivanje zvez med po-
datki ali za preverjanje postavljenih domnev o prouˇcevanih po-
javih. Seveda obstajajo specifiˇcni problemi in teˇzave v druˇzboslov-
nih znanostih, ki so (morda) manj izrazite v naravoslovnih vedah,
kot sta fizika in kemija. Tako je na primer merjenje v fiziki v
sploˇsnem precej preprostejˇse in zanesljivejˇse kot v druˇzboslovju,
kar je med drugim posledica zapletenosti, nejasnosti, dvoumnosti
nekaterih vidikov ˇclovekovega vedenja. Zaradi teh specifiˇcnih teˇzav
druˇzboslovci v sploˇsnem potrebujejo drugaˇcno, ponavadi komplek-
snejˇse in temu ustrezno zapletenejˇse analitiˇcno orodje za analizo
podatkov. Med te sodijo tudi metode za razvrˇcanje v skupine, ki
jih obravnava ta knjiga.
Razvrˇsˇcanje objektov (ali ˇcesa drugega) v skupine, tako da
so objekti znotraj skupin kar ˇcim bolj po dobni med seboj in ob-
jekti razliˇcnih skupin kar ˇcim bolj razliˇcni med seboj, je zelo star,
intuitivno preprost in razumljiv problem. Bolj ali manj veˇsˇce
so ga reˇsevali ˇze stari Grki in reˇsujemo ga ˇse danes. Problem
5
6 Predgovor
razvrˇsˇcanja v skupine je bil do pred nekaj dese tletji reˇsevan loˇceno
v posameznih znanstvenih disciplinah, ne da bi se tako dobljeni
rezultati povezovali in dopolnjevali. To je znaˇcilno za zaˇcetne
faze izgradnje doloˇce ne teorije. V ˇsestdesetih letih je zaznati prve
poskuse zdruˇzitve razliˇcnih pristopov reˇsevanja problema razvrˇsˇca-
nja v skupine in v letu 1963 prvo obseˇznejˇse delo Sokala in Sneatha
iz tega podroˇcja. Od tedaj se podroˇcje razvrˇcanja v s kupine raz-
vija kot samostojna disciplina znotraj multivariatne analize.
Revolucijo v analizi podatkov in s tem v razvoju in uporabi
kompleksnejˇsih metod so omogoˇcili predvsem raˇcunalniki. Pred
tridesetimi leti je moral druˇzboslovec, ki je hotel za svoje po-
datke z manjˇsim ˇstevilom enot in spremenljivk uporabiti eno od
metod razvrˇcanja v skupine, raˇcunati s tedaj dostopnimi nami-
znimi raˇcunskimi stroji vc dni. Danes pa je to delo mogoˇce opra-
viti z zelo cinkovitimi statistiˇcnimi raˇcunalniˇskimi programskimi
paketi, kot so SAS, GENSTAT, SPSS, BMDP itd., takorekoˇc v
hipu. Ta moˇznost enostavne uporabe zapletenih metod za anali-
zo podatkov tudi brez ali le z delnim poznavanjem uporabljenih
metod ima tudi negativne posledice, ki se kaˇzejo predvsem v pre-
pogostem produciranju nesmiselnih in napaˇcnih raziskovalnih re-
zultatov v druˇzboslovju, pa tudi drugje. Na neke vrste streznitev
po evforiˇcni uporabi metod, ki jih uporabniki niso dovolj razumeli,
kaˇze povcano zanimanje uporabnikov za razumevanje metod za
analizo podatkov. In tem je namenjana ta knjiga.
V tej knjigi, ki obravnava naˇcine reˇsevanja problemov razvr-
ˇsˇcanja v skupine, so najprej predstavljeni obiˇcajni problemi razvr-
ˇsˇcanja v skupine z osnovnimi p ojmi, razvoj podroˇcja razvrˇsˇcanja
v skupine ter proces reˇsevanja teh problemov, ki gre od izbora
objektov in spremenljivk, preko merjenja podobnosti do izbire
primerne metode razvrˇsˇcanja v skupine. Merjenju podobnosti med
enotami je posvceno posebno poglavje. Po matematizaciji pro-
Predgovor 7
blema razvrˇsˇcanja v skupine so obravnavane posamezne metode v
smislu njihovih predpostavk, logike metode, lastnosti dobljenih
reˇsitev itd. Podrobneje so predstavljene metode hierarhiˇcnega
zdruˇzevanja v skupine in dva tipa nehierarhiˇcnih metod: metoda
prestavljanj in metoda voditeljev. Ob obravnavi posameznih me-
tod je poudarek predvsem na vpraˇsanju, kdaj so posamezne me-
tode uporabne in na konkretni interpretaciji dobljenih rezultatov.
S tem upam, da si bo bralec pridobil dovolj znanja, da bodo za-
kljuˇcki njegovih bodoˇcih analiz z metodami razvrˇsˇcanja v skupine
bolj zanesljivi in veljavni. Na razvojni poti teorije razvrˇsˇcanja v
skupine so se izoblikovali razliˇcni tipi problemov, ki so pogosti
in jih ne moremo reˇsevati s standardnimi metodami. V dveh
poglavjih sta obravnavana dva taka tipa problemov, ki sta zje po-
droˇcje mojega raziskovanja: razvrˇsˇcanje v skupine z omejitvami in
vckriterijsko razvrˇsˇcanje v skupine. Seveda pa v tej knjigi nisem
mogla zajeti vseh znanih metod in pristopov, ki se kar vrstijo v
zadnjem desetletju. Na zadnjih straneh tega dela je podan obseˇzen
spisek literature s podroˇcja razvrˇsˇcanja v skupine, ki lahko koristi
zahtevnejˇsemu bralcu pri razkrivanju tega zanimivega dela multi-
variatne analize.
Ob pisanju te knjige sem imela pred cmi predvsem bralca
z nematematiˇcno izobrazbo. Zato sem se ves ˇcas trudila, da bi
bilo besedilo napisano ˇcim bolj razumljivo. casih pa je potrebno
uporabiti tudi formalnejˇsi jezik. Tedaj sem s primeri ponazorila
predstavljeno misel.
Ta knjiga je rezultat mojega dolgoletnega ukvarjanja s po-
droˇcjem razvrˇsˇcanja v skupine, tako v smislu razvoja in up orabe
metod, kakor tudi dolgoletnega pouˇcevanja na Fakulteti za so-
ciologijo, politiˇcne vede in novinarstvo in drugih fakultetah na
Univerzi v Ljubljani. Skupaj z Vladimirjem Batageljem ˇze pri-
bliˇzno petnajst let razkrivava in raziskujeva podroˇcje razvrˇsˇcanja
8 Predgovor
v skupine. Sredi sedem dese tih let sem za doloˇcitev tipologije obˇcin
SR Slovenije prviˇc uporabljala metode razvrˇcanja v skupine in
tedaj dostopne ustrezne raˇcunalniˇske programe. Ob tem sem se
Batagelju zasmilila, ker so bili ti programi resniˇcno neprijazni do
uporabnika. Priˇcel je s programiranjem svojega sedaj ˇze znanega
paketa programov za razvrˇsˇcanje v s kupine CLUSE. S tem je
bilo zgrajeno osnovno orodje za samostojno raziskovalno delo, ki
se je zaˇcelo z odloˇcitvijo za optimizacijski pristop k razvrˇsˇca-
nju, z empiriˇcno primerjavo tedaj znanih metod razvrˇsˇcanja v
skupine in raziskovanjem omejitev. Na to raziskovanje so pomem-
bno vplivala spoznanja, do katerih sem priˇsla ob sodelovanju pri
razliˇcnih raziskavah na po droˇcju druˇzboslovja, medicine in dru-
god. Razvrˇsˇcanje v skupine sem predavala vckrat.
ˇ
Studentom
sem leta 1982 pripravila zapiske predavanj, ki so bili osnova za
pisanje te knjige. Pedagoˇske izkuˇsnje, ˇse posebej na seminarjih
za manjˇse ˇstevilo vedoˇzeljnih ˇstudentov na FSPN, so bile ˇse pose-
bej dragocene pri zasnovi te knjige. Z najveˇcjim zadovoljstvom
sodelujem tudi s prof. Branislavom Ivanovi´cem, prof. Konstanti-
nom Momirovi´cem, prof. Srdjanom Bogosavljevi´cem in drugimi
v okviru Sekcije za klasifikacije Jugoslovanske Zveze statistiˇcnih
druˇstev in ob drugih priloˇznostih. To sodelovanje je vedno drago-
cena vzpodbuda za moje nadaljnje raziskovalno delo na podroˇcju
razvrˇsˇcanja v skupine.
Profesorjem Vladimirju Batagelju, Branislavu Ivanovi´cu, Kon-
stantinu Momirovi´cu, Srdjanu Bogosavljevi´cu, mojim ˇstudentom
in kolegom se najlepˇse zahvaljujem za vzpodbude in veselje ob delu
na podroˇcju razvrˇsˇcanja v skupine.
Posebna zahvala pa gre mami Lauri, ki mi je omogoˇcila pogoje,
da sem lahko zbrano pripravila in pisala to knjigo.
Piran, avgust 1989 Anuˇska Ferligoj
1.
Uvod
1.1 Osnovni pojmi
Urejanje ali razvrˇsˇcanje podobnih reˇci v skupine je najbrˇz ena od
najstarejˇsih ˇclovekovih mentalnih aktivnosti. V najˇsirˇsem pomenu
je razvrˇsˇcanje v skupine proces abstrakcije poimenovanja skupin
objektov, za katere menimo, da so na nek naˇcin podobni med se-
boj. Proces razvrˇsˇcanja v skupine je pomembno vplival na razvoj
vc znanstvenih disciplin. Mogoˇce so najpomembnejˇsi rezultati
tega procesa Darwinova razvojna teorija v biologiji, razvrstitev
kemijskih elementov v znano Mendeljejevo tabelo in Marxova zgo-
dovinska periodizacija razrednih druˇzb.
Nalogo raz vrˇsˇcanja v skupine lahko intuitivno zastavimo ta-
kole: dane objekte je potrebno razvrstiti v nekaj skupin med se -
boj (znotraj skupine) podobnih objektov. Mnoˇzico iskanih skupin
imenujemo razvrstitev.
Predno zaˇcnemo reˇsevati posamezen problem razvrˇcanja v
skupine, ga moramo ˇcimbolj natanˇcno vsebinsko prouˇciti in na os-
novi tega sestaviti ˇcimbolj ustrezen (formalen) opis problema. V
9
10 1. UVOD
opisu problema obiˇc ajno doloˇcimo lastnosti, ki ustrezno opisujejo
prouˇcevane objekte in na osnovi katerih ˇzelimo objekte razvrstiti
v skupine. Tako dobljenim opisom objektov pravimo enote. Torej
i-ta enota X
i
je nabor vrednosti izmerjenih spremenljivk (urejena
m-terka)
X
i
= (x
i1
, x
i2
, ..., x
im
)
kjer je x
ij
vrednost j-te spremenljivke za i-ti objekt. Enote pred-
stavljajo izhodiˇce za nadaljnjo obravnavo problema razvrˇsˇcanja
in zato izbor spremenljivk odloˇcilno vpliva na smiselnost dobljenih
razvrstitev glede na zastavljeni problem. Iz znaˇcaja problema
razvrˇsˇcanja v skupine je potrebno tudi ˇcimbolj natanˇcno opre-
deliti, kakˇsne razvrstitve so smiselne, kakˇsne najboljˇse. To lahko
storimo tako, da karseda natanˇcno opredelimo mnoˇzico dopustnih
razvrstitev (ˇstevilo skupin, ali gre za prekrivajoˇce skupine, itd.)
in kriterije razvrˇsˇcanja.
Nalogo razvrˇcanja v skupine lahko torej zastavimo takole:
Mnoˇzico enot je potrebno po izbranem kriteriju razvrstiti v nekaj
skupin. Pri tem je treba obiˇcajno doloˇciti, kakˇsne razvrstitve ˇze-
limo.
Kot primer vzemimo razvrˇsˇcanje obˇcin v SR Sloveniji glede na
njihovo druˇzb eno-ekonomsko razvitost. Enote torej v tem primeru
doloˇcajo spremenljivke, ki merijo druˇzbeno-ekonomsko razvitost
(npr. druˇzbeni proizvod na prebivalca, ˇstevilo zaposlenih v gospo-
darstvu na 100 prebivalcev, ˇstevilo zaposlenih v ˇsolstvu, prosveti
in kulturi na 100 prebivalcev, ˇstevilo bolniˇskih postelj na 1000
prebivalcev, nataliteta, mortaliteta dojenˇckov, ˇstevilo telefonskih
naroˇcnikov na 100 prebivalcev). V tem primeru nas lahko zani-
ma le skupina bolj razvitih in skupina manj razvitih obmoˇcij v
Sloveniji. Tedaj iskano razvrstitev doloˇcata dve neprekrivajoˇci se
skupini, kjer je vsaka obˇcina razvrˇcena natanko v eno s kupino
(taki razvrstitvi pravimo popolna razvrstitev). Obˇcine znotraj
1.1. OSNOVNI POJMI 11
posamezne skupine si morajo biti karseda podobne glede na mer-
jene druˇzbeno-ekonomske spremenljivke. Glede na ta pogoj izber-
emo ustrezen kriterij, s pomoˇcjo katerega lahko objektivno izber-
emo najb oljˇso razvrstitev izmed vseh moˇznih popolnih razvrstitev
v dve skupini.
V primeru razvrˇsˇcanja obˇcin v skupine glede na njihovo dru-
ˇzbeno-ekonomsko razvitost nas lahko zanimajo tudi bolj specifiˇcno
doloˇcene skupine, na primer regije. V tem primeru so smiselne
razvrstitve le tiste, kjer so obˇcine v posamezni skupini geograf-
sko sose dne. Tedaj se mnoˇzica vseh dopustnih razvrstitev, med
katerimi iˇsˇcemo najboljˇso, zoˇzi le na tiste, kjer je zadoˇsˇcen pogoj
geografske sosednosti. Brez upoˇstevanja te pomembne lastnosti
iskane razvrstitve je lahko rezultat procesa razvrˇsˇcanja povsem
neuporaben.
Razvrstitve enot, ki so doloˇcene z vrednostjo ene ali veˇc (ˇste-
vilskih) spremenljivk, je mogoˇce razbrati iz grafiˇcnih predstavitev
enot s toˇckami v eno- ali veˇc-razseˇznem prostoru, kjer je vsaka
izmed razseˇznosti doloˇcna z eno spremenljivko. Skupine lahko v
tem prikazu razberemo takole: skupino sestavljajo relativno gosto
posejane toˇcke, ki so obkroˇzene s praznim prostorom ali z relativno
redko posejanimi toˇckami. Tako doloˇcenim skupinam pravimo na-
ravne skupine (npr. Everitt 1974, str. 44). Cormack (1971) in
kasneje Gordon (1981, str. 5) sta za razkritje naravnih skupin po-
dala dve ˇzeleni lastnosti skupin: interno kohezivnost (homogenost)
in eksterno izolacijo (loˇcenost). Grafiˇcno lahko predstavimo ti
dve lastnosti na treh tipiˇcnih razvrstitvah, kjer so enote doloˇcene
z dvema spremenljivkama in prikazane v dvorazseˇznem prostoru
(glej sliko 1.1). Iz primerov je razvidno, da ni nujno, da skupine
zadoˇsˇcajo ob ema ˇzelenima lastnostima. V primeru (a) sta skupini
kohezivni in izolirani, v primeru (b) sta izolirani, a ne kohezivni,
ker sta toˇcki na zaˇcetku in na koncu ’klobase’ bolj oddaljeni kot
12 1. UVOD
(c)(b)(a)
Slika 1.1: Trije tipi razvrstitev
1.1. OSNOVNI POJMI 13
rep.,pok. ZKJ ZZBNOV
B i H B 7.09 2.83
ˇ
Crna gora
ˇ
C 11.00 6.01
Hrvatska H 6.67 5.77
Makedonija M 6.48 3.65
Slovenija S 6.07 6.84
Oˇzja Srbija O 9.13 5.64
Kosovo K 5.17 2.88
Vojvodina V 9.59 4.85
Tabela 1.1: Odstotek ˇclanov v ZKJ in ZZBNOV v letu 1978
toˇcki na zaˇcetkih obeh ’klobas’, v zadnjem primeru (c) pa sta ko-
hezivni, vendar ne izolirani, ker ju veˇze nekaj toˇc k. V obiˇc ajnih
primerih razvrˇsˇcanja v skupine gre za razkritje struktur podatkov,
podobnih primeru (c), kjer so skupine sicer homogene, vendar ne
izrazito loˇcene med seboj.
Denimo, da ˇzelimo razvrstiti republike in pokrajini v skupine
glede na odstotek ˇclanov ZKJ in ZZBNOV v celotnem prebival-
stvu. Podatki za le to 1978 (Vir: Statistiˇcni koledar Jugoslavije
1980) so podani v tabeli 1.1.
Najprej razvrstimo republike in pokrajini v s kupine glede na
odstotek ˇclanov v ZKJ, tako da skupine razberemo iz grafiˇcnega
prikaza enot s toˇckami na premici. Iz slike 1.2 je razvidno, da
se republike in pokrajini izrazito gostijo v dve skupini in sicer
v skupino z relativno manjˇsim odstotkom ˇclanov v ZKJ, ki jo
sestavljajo Kosovo, Slovenija, Makedonija, Hrvatska ter Bosna in
Hercegovina, in skupino z relativno veˇcjim odstotkom, v kateri so
oˇzja Srbija, Vojvodina in
ˇ
Crna gora.
Razvrstitev republik in pokrajin glede na odstotek ˇclanov v
14 1. UVOD
B
ˇ
C
H
M
S
O
K
V
4 5 6 7 8 9 10 11 12
Slika 1.2: Republike in pokrajini glede na odstotek ˇclanov v ZKJ
obeh druˇzbeno-politiˇcnih organizacijah je mogoˇce razkriti z grafi-
ˇcnim prikazom v dvorazseˇznem prostoru, kjer je prva razseˇznost
doloˇcena s prvo spremenljivko clani v ZKJ) in druga razseˇznost z
drugo spremenljivko clani v ZZBNOV). S pomoˇcjo grafiˇcne pona-
zoritve, ki je podana na sliki 1.3, je mogoˇce republike in pokrajini
razvrstiti v tri skupine: skupina z relativno majhnim odstotkom
ˇclanov v ZKJ in ZZBNOV (Kosovo, Makedonija, Bosna in Herce-
govina), skupina z relativno majhnim odstotkom ˇclanov v ZKJ in
relativno veˇcjim odstotkom v ZZBNOV (Slovenija, Hrvatska) in
skupina z relativno veˇcjim odstotkom ˇclanov v obeh organizacijah
(
ˇ
Crna gora, zja Srbija, Vojvodina).
Za razvrˇsˇcanje enot z veˇc spremenljivkami je opisana grafiˇcna
metoda neuporabna, ker je teˇzko grafiˇcno predstaviti veˇc kot tri-
razseˇzni prostor. V takih primerih, ki so sicer najpogostejˇsi, ne
vemo, kako se po datki strukturirajo v veˇcrazseˇznem prostoru (npr.
koliko naravnih skupin se kaˇze v strukturi, za kakˇsen tip skupin gre
glede na kohezivnost in izoliranost). Razkrivanje neznane struk-
ture prouˇcevanih enot je prav gotovo izziv, vreden resnega razisko-
vanja. In prav to je podroˇcje, ki ga obravnava ta knjiga. V takih
primerih je namreˇc potrebno uporabiti drugaˇcne, multivariatnemu
naˇcinu obravnave ustrezne in ponavadi zapletenejˇse matematiˇcno
raˇcunalniˇske metode.
1.1. OSNOVNI POJMI 15
B
ˇ
C
H
M
S
O
K
V
4 5 6 7 8 9 10 11 12
2
3
4
5
6
7
Slika 1.3: Republike in pokrajini glede na o dstotek ˇclanov v ZKJ
in ZZBNOV
16 1. UVOD
1.2 Razvoj podroˇcja razvrˇsˇcanja v skupine
Z razvrˇsˇcanjem v skupine so se ukvarjali ˇze v antiki (Aristotel,
Galen,...). Med najpomembnejˇse doseˇzke na tem podroˇcju sodi
prav gotovo drevo ˇzivih bitij. Sprva so se z razvojem postop-
kov razvrˇcanja v skupine ukvarjali predvsem strokovnjaki s po-
droˇcij, v katerih se je problem razvrˇsˇcanja pojavljal. Tako so
se na primer v biologiji postopki razvrˇsˇcanja v skupine razvijali
ˇze v 18. stoletju (Adanson), v psihologiji sta se med prvimi u-
kvarjala s postopki razvrˇsˇc anja v skupine Zubin (1938) in Tryon
(1939), v antropologiji pa Driver in Kroeber (1932).
ˇ
Ceprav je
problem razvrˇsˇcanja v skupine zelo star, je prvo delo, ki je ure-
jeno povzelo razliˇcne pristope za njegovo reˇsevanje, izˇslo ˇsele v
letu 1963 (Sokal in Sneath 1963). Podroˇcje razvrˇcanja v skupine
se od tedaj izredno hitro razvija. To potrjuje naraˇsˇcajoˇci deleˇz
ˇclankov s to tematiko v teoretiˇcnih in uporabnih statistiˇcnih in
drugih revijah v z adnjih desetletjih (naj navedem le najodzivnejˇse
kritiˇcne preglede podroˇcja: Ball in Hall 1967; Fleiss in Zubin
1969; Cormack 1971; Bailey 1974), vc zelo odzivnih knjig, ki
obravnavajo podroˇcje razvrˇsˇcanja v skupine (npr. Jardine in Sib-
son 1971; Sneath in Sokal 1973; Anderberg 1973; Bijnen 1973;
Bock 1974; Everitt 1974; Duran in Odel 1974; Ajvazjan, Beˇzajeva
in Staroverov 1974; Hartigan 1975; Clifford in Stephenson 1975;
Ivanovi´c 1977; Spath 1977; Elisejeva in Rukaviˇsnikov 1977; Jambu
1978; Gordon 1981; Lerman 1981; Zupan 1982; Lorr 1983; Alden-
derfer in Blashfield 1984; Romesburg 1984), ustanovitev posebne
revije za po droˇcje razvrˇcanja v skupine Journal of Classification v
letu 1984 in ustanovitev Mednarodnega zdruˇzenja klasifikacijskih
druˇstev v letu 1985. Mednarodno zdruˇzenje prireja vsaki dve leti
strokovno sreˇcanje, ki se ga ponavadi udeleˇzi 200 do 300 strokov-
njakov s podroˇcja razvrˇsˇcanja v skupine iz celega sveta.
1.2. RAZVOJ PODRO
ˇ
CJA 17
V Jugoslaviji je med prvimi uporabljal in razvijal metode raz-
vrˇsˇcanja v skupine (kombinacijo metode I-razdalje in Sorensove
metode hierarhiˇcnega zdruˇzevanja) Ivanovi´c za razvrˇsˇcanje drˇzav
glede na njihovo stopnjo druˇzbeno-ekonomske razvitosti za leti
1967 in 1968 ter kasneje za leto 1970 (Ivanovi´c 1971a; 1971b; 1972;
1976). V zadnjem ˇcasu se metode razvrˇcanja v skupine razvijajo
in uporabljajo vse pogosteje tudi pri nas. Zato je Zveza statistiˇcnih
druˇstev Jugoslavije leta 1986 ustanovila Sekcijo za klasifikacije,
katere prvi predsednik je bil prav prof. Ivanovi´c. Sekcija prireja
vsako leto Majsko strokovno sreˇcanje v Mostarju. V tisku je ˇze
tretji zbornik tega sedaj ˇze tradicionalnega mostarskega sreˇcanja,
ki se ga udeleˇzi okoli trideset strokovnjakov iz Jugoslavije. Od leta
1988 je Sekcija za klasifikacije Zveze statistiˇcnih druˇstev Jugosla-
vije tudi polnopravna (sedma) ˇclanica Mednarodnega zdruˇzenja
klasifikacijskih druˇstev.
Menim, da sta predvsem dva poglavitna razloga za tak razcvet
podroˇcja razvrˇsˇcanja v skupine v zadnjih dveh desetletjih:
problem razvrˇcanja v skupine je bil pred nekaj dese tletji
reˇsevan loˇceno v posameznih znanstvenih disciplinah, ne da
bi se tako dobljeni rezultati povezovali in dopolnjevali. To
je znaˇcilno za zaˇcetne faze izgradnje doloˇcene teorije. V
ˇsestdesetih letih je zaznati prve poskuse zdruˇzitve razliˇcnih
pristopov reˇsevanja problema razvrˇcanja v skupine in v letu
1963 prvo obseˇznejˇse, ˇze omenjeno delo Sokala in Sneatha.
Od tedaj se podroˇcje razvrˇsˇcanja v skupine razvija kot sa-
mostojna disciplina znotraj multivariatne analize;
na razvoj teorije razvrˇsˇcanja v skupine je zelo pomembno
vplival razvoj raˇcunalniˇske tehnologije. Raˇcunalnik je omo-
goˇcil uporabo raˇcunsko zahtevnejˇsih postopkov in obdelave
velikih koliˇcin podatkov. Pomembna pa so tudi teoretiˇcna
18 1. UVOD
spoznanja v raˇcunalniˇstvu, ˇse posebej rezultati teorije za-
htevnosti.
ˇ
Sele pred dobrim desetletjem je bilo pokazano,
da je problem razvrˇsˇcanja v skupine raˇcunsko zelo zahteven
(NP-teˇzek). Zato ni ˇcudno, da se je reˇseval in se ˇse vedno
reˇsuje z razliˇcnimi hevristiˇcnimi pristopi, bolj ali manj pri-
lagojenimi posebnostim reˇsevanega problema.
Avtorji z razliˇcnih znanstvenih podroˇcij razliˇcno poimenujejo
podroˇcje razvrˇsˇcanja v skupine. Najveˇckrat se uporabljajo ter-
mini ’cluster analiza’, taksonomija, klasifikacija pa tudi Q-analiza,
tipologija, grupiranje itd. casih se uporablja termin klasifikacija
za prirejanje enot k ˇze doloˇcenim skupinam (npr. pri diskrimi-
nantni analizi). Nalogo razvrˇcanja v skupine razlikujemo od
naloge uvrˇsˇcanja, kjer so skupine oziroma karakteristike skupin
ˇze doloˇcene in je potrebno vsako dano enoto prirediti skupini,
ki ji je najbolj podobna (najbliˇzja). V tem delu so obravnavani
postopki za reˇsevanje nalog razvrˇsˇcanja v skupine, ki jih je mogoˇce
uporabljati tako za razvrˇsˇcanje enot, doloˇcenih z izbranimi spre-
menljivkami, kakor tudi spremenljivk, doloˇcenih z vc enotami
v skupine (npr. razvrˇcanje prostoˇcasnih aktivnosti v skupine,
doloˇcitev tipologije ˇcasopisov glede na njihovo branost).
1.3 Nekateri r azlogi za razvrˇcanje
Enote (ali spremenljivke) razvrˇsˇcamo v skupine iz vc razlogov.
Najpogostejˇsi s o:
pregledovanje podatkov: z metodami razvrˇsˇcanja v sku-
pine je mogoˇce cinkovito pregledati podatke (npr. poiskati
tujke (outliers), ’otipati’ strukturo v podatkih). V tej fazi
analize podatkov gre bolj za postavljanje zaˇcetnih delovnih
domnev o pojavih, ki jih obravnavamo;
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 19
zgoˇsˇcanje podatkov: namesto vseh enot analiziramo sku-
pine enot ali predstavnike skupin, ki so bile dobljene z ustre-
znimi meto dami razvrˇsˇcanja v skupine. To pride posebno
prav, kadar imamo velike koliˇcine podatkov;
doloˇcitev tipologije: najpogostejˇsi razlog za razvrˇcanje v
skupine je em piriˇcna doloˇcitev tipologije pojavov v konkre-
tnem p odroˇcju raziskovanja in preverjanje domnev o tipolo-
giji, ki jo raziskovalec postavi na osnovi teorije ali ˇze oprav-
ljenih analiz podatkov.
1.4 Proces razvrˇsˇcanja v skupine
Pri razvrˇsˇcanju v skupine gre, kakor smo ˇze omenili, za doloˇcanje
skupin podobnih objektov.
ˇ
Ceprav je problem razvrˇsˇcanja in-
tuitivno zelo preprost, je analitiˇcna doloˇcitev iskane razvrstitve
povezana s celo vrsto problemov. Iskane razvrstitve namreˇc ni
mogoˇce poiskati z eno metodo ali pristopom z natanˇcno doloˇcenimi
pravili uporabe. Pri reˇsevanju problema razvrˇsˇcanja v skupine se
je potrebno veˇckrat tudi intuitivno o dloˇciti, kaj izbrati iz mnoˇzice
moˇznih izborov v doloˇcenem koraku reˇsevanja zastavljenega prob-
lema. Osnovni koraki pri reˇsevanju problemov razvrˇsˇcanja v skupi-
ne so (npr. Anderberg 1973, 10-16; Lorr 1983, 11-21; Aldenderfer
in Blashfield 1984, 9-12):
1. izbira objektov,
2. doloˇcitev mnoˇzice spremenljivk, ki doloˇcajo enote,
3. raˇcunanje podobnosti med enotami,
4. uporaba ustrezne metode razvrˇsˇcanja v skupine,
5. ocena dobljene reˇsitve.
20 1. UVOD
1.4.1 Izbira objektov, spremenljivk in podobnosti
Proces razvrˇsˇcanja v skupine se zaˇcne z izbiro mnoˇzice (vzorca ali
populacije) objektov in njihovih znaˇcilnosti, ki jih merimo na njih.
Izbira spremenljivk odloˇcilno vpliva na razvrˇsˇcanje v skupine. U-
poˇstevati je potrebno spremenljivke, ki kar najbolj ustrezajo dane-
mu problemu. Poskrbeti je potrebno za pravo ’teˇzo’ posameznih
spremenljivk, in podobno.
Predno nadaljujemo razpravo o problemih pri izbiri ustreznih
spremenljivk za opis prouˇcevanih objektov, na hitro obnovimo,
katere tipe spremenljivk ponavadi loˇcimo glede na njihove merske
lestvice (npr. Blejec 1973; Momirovi´c 1988). V grobem loˇcimo
atributivne spremenljivke, katerih vrednosti lahko le opiˇsemo z
besedami (npr. narodnost), in ˇstevilske, katerih vrednosti s o re-
alna ˇstevila (npr. viˇsina ˇcistega meseˇcnega osebnega dohodka).
Atributivne se nadalje delijo na nominalne in ordinalne, ˇstevilske
pa na intervalne in razmernostne spremenljivke. Dve enoti lahko le
primerjamo med seboj glede na vrednosti nominalne spremenljivke
(npr. spol), glede na vrednosti ordinalne spremenljivke pa lahko
enote uredimo (npr. uˇcni uspe h). Intervalna spremenljivka dopu-
ˇsˇca primerjati razlike med dvema vrednostima (npr. temp e ratura
zraka), razmernostna pa tudi koliˇcnike (npr. velikost naselja).
Poseben primer nominalne spremenljivke je dihotomna ali binarna
spremenljivka, ki ima le dve vrednosti, na primer ’ima doloˇceno
lastnost’ in ’nima te lastnosti’.
Denimo, da so izbrane spremenljivke, na osnovi katerih ˇzelimo
razvrˇsˇcati objekte v skupine, ˇstevilske. Najveˇckrat se zgodi, da
so v povpreˇcju vrednosti ene spremenljivke precej veˇcje kot vred-
nosti neke druge upoˇstevane spremenljivke. Tiste s povpreˇcno
vcjimi vrednostmi imajo najveˇckrat veˇcjo teˇzo pri razvrˇsˇcanju
v skupine kot tiste z manjˇsimi.
ˇ
Ce tega ne ˇzelimo, je potrebno
pred merjenjem podobnosti med enotami spremenljivke ustrezno
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 21
rep.,pok. ZKJ ZZBNOV
B i H -0.30 -1.39
ˇ
Crna gora 1.78 0.85
Hrvatska -0.52 0.68
Makedonija -0.62 -0.82
Slovenija -0.84 1.43
Oˇzja Srbija 0.78 0.58
Kosovo -1.31 -1.36
Vojvodina 1.03 0.03
Tabela 1.2: Standardizirani odstotki ˇclanov v ZKJ in ZZBNOV
standardizirati, tako da ima vsaka spremenljivka podobno teˇzo
pri razvrˇsˇc anju v skupine. Znanih je veˇc naˇcinov standardizacije.
Najpogosteje se uporablja obiˇcajni naˇcin standardizacije, kjer se
posamezni vrednosti spremenljivke x
ij
(vrednost j-te spremenljiv-
ke X
j
za i-to enoto) odˇsteje njeno aritmetiˇcno sredino (µ
j
) in deli
s standardnim odklonom te spremenljivke (σ
j
):
z
ij
=
x
ij
µ
j
σ
j
V tabeli 1.2 so tako izraˇcunane standardizirane vrednosti za
spremenljivki odstotek ˇclanov v ZKJ in ZZBNOV, ki sta po dani
v tabeli 1. Aritmetiˇcna sredina in standardni odklon za ˇclanstvo
v ZKJ sta µ
ZK
= 7.65 in σ
ZK
= 1.89, za ˇclanstvo v ZZBNOV pa
µ
ZB
= 4.81 in σ
ZB
= 1.42. Na sliki 1.4 je ponovno podan grafiˇcni
prikaz teh enot v dvorazseˇznem prostoru, kjer sta razseˇznosti v tem
primeru doloˇceni s standardiziranima spremenljivkama. Primer-
java prikazane razvrstitve za nestandardizirani spremenljivki (slika
1.3) z razvrstitvijo za standardizirani spremenljivki (slika 1.4) ka-
22 1. UVOD
B
ˇ
C
H
M
S
O
K
V
-1 1
-1
1
Slika 1.4: Republike in pokrajini glede na standardizirani spre-
menljivki
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 23
ˇze, da standardizacija v tem primeru ne vpliva bistveno na struk-
turo enot.
Drugi moˇzni naˇcini standardizacije so na primer ˇse, da posa-
mezno vrednost spremenljivke delimo z njenim standardnim o d-
klonom
z
ij
=
x
ij
σ
j
ali njeno maksimalno vrednostjo
z
ij
=
x
ij
max X
j
ali aritmetiˇcno sredino
z
ij
=
x
ij
µ
j
ali razliko med maksimalno in minimalno vrednostjo te spremen-
ljivke
z
ij
=
x
ij
max X
j
min X
j
ali celo takole
z
ij
=
x
ij
min X
j
max X
j
min X
j
Milligan in Cooper (1988) sta podala obseˇzen pregled razliˇcnih
moˇznih standardizacij pri razvrˇsˇcanju v skupine in jih primerjala.
Glede na teˇzave, ki jih lahko imamo pri merjenju podobnosti
med dvema enotama, je tudi ugodno, da so merjene s premenljivke
istega tipa merskih lestvic (npr. vse ˇstevilske ali vse dihotomne).
ˇ
Cesto je ˇstevilo izbranih spremenljivk zelo veliko. Koristno je,
da pred uporabo metod razvrˇcanja v skupine ˇstevilo spremenljivk
zmanjˇsamo in v analizo vkljuˇcimo tiste, za katere smo v pred-
hodni analizi dognali, da imajo zadostno pojasnjevalno moˇc. To
lahko storimo predvsem na osnovi dobrega poznavanja problema,
24 1. UVOD
1 2 ... j ... m
1 x
11
x
12
... x
1j
... x
1m
2 x
21
x
22
... x
2j
... x
2m
... ... ... ... ... ...
i x
i1
x
i2
... x
ij
... x
im
... ... ... ... ... ...
n x
n1
x
n2
... x
nj
... x
nm
Tabela 1.3: Primer matrike podatkov
statistiˇcno-analitiˇcno pa se za to najpogosteje uporablja metoda
glavnih komponent.
Pri razvrˇsˇcanju enot v skupine gre za to, da so enote v dobljenih
skupinah ˇcim bolj podobne med seboj. Odloˇciti se moramo torej,
kako bomo merili podobnost (ali razliˇcnost) med dvema enotama.
Razliˇcnosti ali podobnosti med enotami so lahko v procesu raz-
vrˇsˇcanja v skupine direktno ocenjene (npr. izbrana oseba priredi
po nekem kriteriju vsakemu paru enot vrednost iz doloˇcenega in-
tervala vrednosti, ki doloˇcajo, kako moˇcno sta enoti posameznega
para po dobni med seboj), najvckrat pa jih izraˇcunamo na osnovi
zbranih podatkov, ki jih ponavadi uredimo v matriko. Primer take
matrike, kjer je n enot opisanih z m spremenljivkami, je podan v
tabeli 1.3.
Izbira mere podobnosti je odvisna predvsem od zastavljenega
problema, ki ga reˇsujemo, in od tipa merskih lestvic merjenih spre-
menljivk. Izraˇcunane mere podobnosti s
ij
med n enotami po-
navadi uredimo v matriko podobnosti, ki je ponavadi simetriˇcna.
Primer matrike podobnosti je podan v tabeli 1.4. Merjenje podob-
nosti je podrobneje obravnavano v naslednjem poglavju. Vcina
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 25
1 2 ... i ... n
1 s
11
s
12
... s
1i
... s
1n
2 s
21
s
22
... s
2i
... s
2n
... ... ... ... ... ...
i s
i1
s
i2
... s
ii
... s
in
... ... ... ... ... ...
n s
n1
s
n2
... s
ni
... s
nn
Tabela 1.4: Primer matrike podobnosti
metod razvrˇsˇcanja v skupine predpostavlja, da so med obravnava-
nimi enotami ˇze izraˇcunane mere podobnosti (npr. metode hier-
arhiˇcnega zdruˇzevanja). Nekatere metode pa mere podobnosti (ali
razliˇcnosti) med enotami raˇcunajo korakoma med samim postop-
kom razvrˇsˇcanja (npr. metoda voditeljev).
1.4.2 Pregled metod razvrˇsˇcanja v skupine
V naslednjemu koraku se moramo odloˇciti, katera od metod raz-
vrˇsˇcanja v skupine je najprimernejˇsa za reˇsevanje postavljenega
problema. Najprej podajmo kratek pregled znanih metod raz-
vrˇsˇcanja v skupine. Veˇcino metod lahko razvrstimo v tri os-
novne skupine: hierahiˇcne, nehierarhiˇcne in geometrijske metode.
Vse ostale, ki jih ne moremo preprosto uvrstiti v te tri skupine,
stlaˇcimo v skupino preostalih metod.
Hierarhiˇcne metode so najbrˇz najvckrat uporabljene meto-
de za razvrˇcanje v skupine. Te metode je mogoˇce deliti na metode
zdruˇzevanja, kjer v vsakem koraku postopka zdruˇzimo dve ali veˇc
skupin v novo skupino, in metode cepitve, kjer na vsakem koraku
izbrano skupino razcepimo na dve ali vc skupin. Hierarhiˇcne
26 1. UVOD
metode so zelo priljubljene predvsem zato, ker ne zahtevajo od
uporabnika, da vnaprej opredeli ˇstevilo skupin iskane razvrstitve.
Drugi razlog pa je, da je rezultat postopnega zdruˇzevanja ali cepi-
tve moˇzno zelo nazorno grafiˇcno predstaviti na primer z drevesom
zdruˇzevanja (glej grafiˇcne predstavitve v ˇcetrtem poglavju). Naj-
obseˇznejˇsi razred metod hierarhiˇcnega zdruˇzevanja v skupine pred-
stavljajo metode, ki temeljijo na zaporednem zdruˇzevanju dveh
skupin v novo skupino. Te metode so podrobneje predstavljene v
ˇcetrtem poglavju. Metode cepitve, ki so se sicer pokazale za manj
uˇcinkovite, lahko delimo na monotetiˇcne, ki v posameznem koraku
postopka cepijo skupine glede na eno izbrano spremenljivko (npr.
asociacijska analiza, ki sta jo razvila Lambert in Williams 1962,
1966) in politetiˇcne, ki ob cepljenju skupin upoˇstevajo vse dane
spremenljivke.
Nehierarhiˇcne metode se od hierarhiˇcnih loˇcijo predvsem v
tem, da je potrebno vnaprej podati ˇstevilo skupin iskane razvrsti-
tve. Te metode razvrˇsˇcajo enote tako, da z izbranim optimizaci-
jskim kriterijem izboljˇsujejo vnaprej p odano zaˇcetno razvrstitev.
V literaturi je predlaganih vc takih kriterijev. Mogoˇce je naj-
bolj znan kriterij minimizacije vsote kvadratov razdalj posamezne
enote do teˇziˇca v posamezni skupini (Ward 1963). Nehierarhiˇcne
metode so najveˇckrat iteracijske: zaˇcnejo z zaˇcetno razvrstitvijo
s podanim ˇstevilom skupin in tako ali drugaˇce prestavljajo enote
iz ene skupine v druge skupine z namenom, da s temi prestavi-
tvami doseˇzejo zmanjˇsanje (ali v primeru maksimizacije kriterija
povcanje) vrednosti izbrane kriterijske funkcije razvrˇcanja. Ta
proces se nadaljuje, dokler nobena prestavitev enote ne izboljˇsa
vrednosti kriterijske funkcije. Te metode v sploˇsnem dajo le lo-
kalno optimalne razvrstitve. Zato je priporoˇcljivo, da razvrˇsˇcanje
s temi metodami ponovimo z vc razliˇcnimi zaˇcetnimi razvrstit-
vami, po moˇznosti dobljenimi z razliˇcnimi metodami. Najb olj
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 27
znani in najpogoteje vkljuˇceni nehierarhiˇcni metodi v program-
skih paketih sta metoda prestavljanj in metoda voditeljev (znana
tudi po d imenom k-means, metoda dinamiˇcnih oblakov, itd.). Obe
metodi sta podrobneje predstavljeni v petem poglavju. Ponavadi
te metode razvrˇsˇcajo v skupine, kjer je vsaka enota natanko v eni
skupini (popolne razvrstitve). Vendar ta pogoj ni vedno potreben.
Nekatere metode zmorejo poiskati tudi prekrivajoˇce skupine (npr.
metoda voditeljev), nekatere celo ’razmazane’ skupine (’fuzzy’ sku-
pine, npr. Bezdek 1981; Veledar in Kovalerchuk 1988; Bodjanova
1989).
Geometrijske metode.
ˇ
Ce na objektih merimo le dve ali
tri s premenljivke, jih lahko predstavimo v dvo- ali trirazseˇznem
prostoru in s tem ugotovimo njihovo strukturo. Obiˇcajno je na
obravnavanih objektih merjenih veˇc spremenljivk. Zato je tako
preprosto razkrivanje strukture podatkov nemogoˇce. Geometrijske
metode (nekateri jih imenujejo tudi ordinalne metode) omogoˇcajo
preslikavo po datkov iz originalnega veˇc razseˇznega prostora v manj
razseˇzni, pogosto kar v dvorazseˇzni prostor, v katerem je lahko
grafiˇcno ali kako drugaˇce raziskati strukturo po datkov. Najbolj
znani geometrijski metodi sta metoda glavnih komponent in veˇc-
razseˇznostno lestviˇcenje (Sheppard 1962 a,b; Kruskal 1964 a,b).
Med te metode razvrˇsˇcanja v skupine sodijo tudi metode, ki jih ˇze
drugo desetletje razvija Momirovi´c s sodelavci (npr. Momirovi´c in
Zakrajˇsek 1973; Momirovi´c 1978, 1986). Grafiˇcne metode je ko-
ristno uporabiti pred uporabo drugih m etod razvrˇsˇcanja v skupine,
ker lahko iz grafiˇcnega prikaza razberemo, za kakˇsen tip s kupin gre
v konkretnem primeru.
Med ostalimi m etodami omenimo vsaj nekatere metode raz-
vrˇsˇcanja v skupine, ki so bile v strokovni javnosti deleˇzne po-
zornosti. Med te prav gotovo sodijo metode, ki te meljijo na teoriji
grafov (npr. Hubert 1973; Ivanovi´c 1977). Najpopolnejˇsi pregled
28 1. UVOD
grafovskih metod je po dal Matula (1977). Zanimiva je Wishartova
metoda modusov (1969), ki iˇsˇce zgoˇciˇsˇca podatkov. V primeru
neizrazite naravne strukture Wishartova metoda da le eno skupi-
no. Lefkovitcheva metoda (1980) pa najprej mnoˇzico vs eh m oˇznih
razvrstitev skrˇci na mnoˇzico ’obetajoˇcih’ razvrstitev in nato z ek-
saktnimi metodami poiˇsˇce v tej zreducirani mnoˇzici najboljˇso raz-
vrstitev. Obstaja pa ˇse vrsta drugih zanimivih metod razvrˇsˇcanja
v skupine.
Za konec tega pregleda naj omenimo ˇse pristope, ki reˇsujejo
bolj specifiˇcne probleme razvrˇsˇcanja v skupine, ki pa vendarle niso
tako zelo redki. Med te sodita razvrˇcanje v skupine z omejitvami,
ki je obravnavano v ˇsestem poglavju, in veˇckriterijsko razvrˇsˇcanje,
ki je obravnavano v sedmem.
Kaj izbrati v tej pestri mnoˇzici metod? V primeru, ko ni-
mamo jasne domneve o ˇstevilu skupin, lahko izbiramo med hi-
erarhiˇcnimi metodami zdruˇzevanja ali cepitve. V primeru, ko
poznamo ˇstevilo skupin, so primernejˇse metode nehierarhiˇcnega
razvrˇsˇcanja v skupine (npr. metoda prestavljanj, metoda vodite-
ljev). Tudi ˇstevilo enot je pomembno pri odloˇcanju o ustrezni
metodi. Najbolj znane metode razvrˇsˇcanja v skupine, kot so hier-
arhiˇcne metode zdruˇzevanja in metoda prestavljanj, so uporabne
(tudi ˇce imamo na voljo zelo velike raˇcunalnike) le za razvrˇcanje
manjˇsega ˇstevila enot (nekaj sto). Za razvrˇsˇc anje nekaj tisoˇc enot
je primerna na primer metoda voditeljev ali nekatere druge meto-
de, ki so razvite posebej za vcje koliˇcine podatkov (npr. Zupan
1982, 1986). Pri izbiranju ustrezne metode je zelo koristno, ˇce
raziskovalec ve, kakˇsen tip skupin ˇzeli razkriti v svojih podatkih:
ali gre za eliptiˇcne (primer (a) na sliki 1) ali veriˇzne skupine
(primer (b)), ali za med seboj loˇcene skupine (primer (a) ali (b))
ali za prekrivajoˇce (primer (c)), itd.
ˇ
Cim bolj raz iskovalec pozna
1.4. PROCES RAZVR
ˇ
S
ˇ
CANJA V SKUPINE 29
svoj problem razvrˇsˇcanja v skupine in svoje podatke, tem ustre-
znejˇso mero podobnosti in metodo razvrˇsˇcanja v skupine lahko
izbere. Ne smemo namreˇc pozabiti, da vsaka metoda pri iskanju
strukture v podatkih vsiljuje strukturo, ki je vgrajena v metodi.
Nekatere metode na primer znajo razkriti le krogle, nekatere le
dolge ’klobase’, ne glede na to ali te v naravni strukturi podatkov
so ali niso. Zato je v vsakem primeru potrebno obravnavane
enote razvrˇsˇcati z vc razliˇcnimi metodami, primerjati dobljene
razvrstitve in ob tem ugotavljati stabilnost dobljenih reˇsitev. Ob
teh kritiˇcnih mislih pa je potrebno takoj pribiti, da znajo vse znane
metode, ki so obravnavane v tem delu, brez teˇzav razkriti izrazito
naravno strukturo z neprekrivajoˇcimi skupinami.
1.4.3 Stabilne in objektivne razvrstitve
Cilj razvrˇcanja v skupine je poiskati stabilne in objektivne razvr-
stitve (npr. Gordon 1981, 8-9; Dunn in Everitt 1982, 2-10). Sta-
bilne v smislu, da se dobljena razvrstitev bistveno ne spremeni (a)
z dodajanjem novih objektov v prouˇcevano mnoˇzico objektov, (b)
z dodajanjem nekaj novih spremenljivk med izbrane merjene spre-
menljvke ali (c) z vsiljenimi napakami na nekaj posamez nih vred-
nostih merjenih spremenljivk. Objektivnost je teˇzje opredeliti. V
naˇsem primeru je objektivnost moˇzno opredeliti s ponovljivostjo
rezultata: neodvisni raziskovalci naj bi priˇsli z analizo enake mno-
ˇzice podatkov z enakim potekom razvrˇsˇcanja v skupine do enakega
(ali vsaj zelo podobnega) rezultata. Prednost objektivnega pri-
stopa je tudi v tem, da omogoˇca kritiko, kajti potek razvrˇsˇcanja
je tedaj mogoˇce ponoviti, pri tem je moˇzno tudi ugotoviti po-
manjkljivosti in predlagati izboljˇsave. V primeru razvrˇsˇcanja v
skupine, katerega proces je povezan z veˇc pomembnimi odloˇcitva-
mi, je teˇzko popolnoma zadostiti kriteriju objektivnosti, ˇse pose-
30 1. UVOD
bej ˇce procesa razvrˇsˇcanja ne poznamo dovolj in ne znamo izbrati
ustrezne odloˇcitve v posameznem koraku v procesu razvrˇsˇcanja v
skupine. Raziskovalec mora ob svoji analizi vsekakor teˇziti k temu,
da bo njegova reˇsitev ˇcim bolj zadostila obema kriterijema.
Rezultat opisanega procesa razvrˇsˇcanja v s kupine je razvrsti-
tev, optimalna glede na merjene spremenljivke in izbran kriterij
razvrˇsˇcanja v skupine. Najveˇckrat nas ob dobljeni razvrstitvi tudi
zanima, katere so tipiˇcne lastnosti posameznih dobljenih skupin,
katere upoˇstevane spremenljivke najbolj loˇcijo skupine med seboj
in podobno. Na ta vpraˇsanja lahko preprosto odgovorimo tako,
da za posamezno skupino izraˇcunamo osnovne statistiˇcne karakte-
ristike za vsako spremenljivko pose bej (npr. aritmetiˇcno sredino,
standardni odklon). Lahko pa uporabimo tudi nekatere metode
multivariatne analize, kot na primer diskriminantno analizo.
Uvodno poglavje sklenimo z naslednjo Anderbergovo mislijo
(1973): Le skrbna in inteligentna uporaba metod razvrˇsˇc anja v
skupine lahko razkrije nez nano strukturo v podatkih in s tem
odpre nove poglede na prouˇcevane pojave.
2.
Merjenje podobnosti
Pri razvrˇsˇcanju v skupine gre za to, da tvorimo skupine, ki jih
sestavljajo karseda podobne enote glede na izbrane merjene spre-
menljivke. Vpraˇs anje je, kako razpoznati, da je doloˇcena enota
bolj podobna eni kot drugi enoti, oziroma, kako meriti podobnost
med enotama.
Podobnost koliˇcinsko popiˇsemo s preslikavo - mero podobnosti,
ki vsakemu paru enot (X, Y ) priredi neko realno ˇstevilo
s : (X, Y ) 7→ R
Za mero podobnosti zahtevamo, da je simetriˇcna
a. s(X, Y ) = s(Y, X)
in da zadoˇsˇca ali pogoju
b1. s(X, X) s(X, Y )
ali pogoju
b2. s(X, X) s(X, Y )
31
32 2. MERJENJE PODOBNOSTI
Meri podobnosti, ki zadoˇsˇca pogoju b1, pravimo prema, meri,
ki zadoˇsˇca pogoju b2, pa obratna mera podobnosti.
Mera podobnosti s doloˇca v mnoˇzici neurejenih parov enot
urejenost in glede na to urejenost je mogoˇce definirati tudi pojem
enakovrednosti mer po dobnosti. Meri podobnosti sta enakovredni,
ˇce je urejenost parov enot, dobljena s prvo mero, enaka urejenosti
parov enot z drugo mero podobnosti.
Pri premi meri podobnosti je obiˇcajno izpolnjen naslednji pogoj
c. s(X, X) = s
Kadar je izpolnjen ta pogoj, dobimo s predpisom
d(X , Y ) = s(X, Y ) s
enakovredno mero razliˇcnosti d, ki sicer zadoˇsˇca naslednjim pogo-
jem:
1. d(X, Y ) 0 nenegativnost
2. d(X, X) = 0
3. d(X, Y ) = d(Y, X) simetriˇcnost
Mera razliˇcnosti lahko zadoˇsˇca ˇse nekaterim pogojem.
ˇ
Ce zadoˇsˇca
ˇse pogojema
4. d(X, Y ) = 0 = X = Y razloˇcljivost
5. Z : d(X, Y ) d(X, Z) + d(Z, Y ) trikotniˇska neenakost
ji pravimo razdalja.
O merah podobnosti in razliˇcnosti, ˇse posebej o enakovred-
nosti mer, je znanih ˇse veliko zanimivih rezultatov. Bralec, ki ga
formalnejˇsi zapisi ne prestraˇsijo, si lahko nekaj tega najde v delih
Batagelja (1985 b, 1988 a).
2.1.
ˇ
STEVILSKI PODATKI 33
Poznanih je ogromno bolj ali manj posreˇcenih me r podobnosti
in mer razliˇcnosti. Najveˇckrat so obravnavane mere za enote, ki
so doloˇcene s takimi ali drugaˇcnimi spremenljivkami in ponavadi
predstavljene v obliki matrike podatkov, ki je podana v tabeli
1.3. Podrobni pregledi takih mer so podani na primer v delih
Clifforda in Stephensona (1975, 49-82), Everitta (1974, 49-59),
Gordona (1981, 13-32) in Lorra (1983, 22-44). V literaturi pa
je m ogoˇce najti tudi mere, ki so primerne za specifiˇcnejˇse opise
objektov. Tako je Koˇsmeljeva (1986, 1987) predlagala veˇc m er
razliˇcnosti, primernih za razvrˇsˇcanje enot, kjer je vsaka izbrana
spremenljivka po dana s ˇcasovno vrsto (gre torej za trirazseˇzno
matriko podatkov). Objekte se vedno ne da preprosto popisati s
spremenljivkami. Batagelj (1988) je predlagal mere, ki so primerne
za merjenje podobnosti kompleksnejˇsih struktur objektov (npr.
nizov, molekul, grafov).
Iz bogate zbirke mer podobnosti, razliˇcnosti in razdalj smo
izbrali le nekaj najpogosteje omenjenih, ki jih predstavljamo v
naslednjih razdelkih. Razvrˇsˇcene so po tipih spremenljivk, ki
doloˇcajo enote, kajti prav od tipa spremenljivk je ponavadi od-
visno, katero mero podobnosti ali razliˇcnosti je primerno izbrati
za potreb e razvrˇsˇcanja v skupine.
2.1 Mere podobnosti za ˇstevilske podatke
Pri razvrˇcanju enot, doloˇcenih s samimi ˇstevilskimi spremenljiv-
kami, je najpogosteje uporabljena evklidska razdalja. Za enoti X
in Y , opisanimi z m ˇstevilskimi spremenljivkami
X = (x
1
, x
2
, ..., x
m
)
Y = (y
1
, y
2
, ..., y
m
)
34 2. MERJENJE PODOBNOSTI
je evklidska razdalja med njima definirana takole
d(X , Y ) =
v
u
u
t
m
X
i=1
(x
i
y
i
)
2
Pogosto je uporabljena tudi razdalja Manhattan
d(X , Y ) =
m
X
i=1
|x
i
y
i
|
Obe razdalji sta posebna primera razdalje Minkowskega
d(X , Y ) = (
m
X
i=1
|x
i
y
i
|
r
)
1
r
, r > 0
in sicer , ˇce je r = 1, gre za razdaljo Manhattan, ˇce je r = 2, pa
za evklidsko razdaljo. Pri odloˇcanju, katero razdaljo uporabiti v
doloˇcenem primeru razvrˇsˇcanja v skupine, je koristno upoˇstevati
naslednjo lastnost razdalje Minkowskega: pri veˇcjih vrednostih r -
ja imajo veˇcjo teˇzo pri merjenju razdalje med enotama veˇcje razlike
|x
i
y
i
|. V limiti, to je pri r = , je Minkowskijeva razdalja
d(X , Y ) = max
i
|x
i
y
i
|
Imenuje se razdalja
ˇ
Cebiˇseva ali trdnjavska razdalja.
Kot primer izraˇcunajmo evklidske razdalje med republikami in
pokrajinama glede na odstotek ˇclanov ZKJ in ZZBNOV v celot-
nem prebivalstvu, pri ˇcemer naj bosta obe spremenljivki standard-
izirani. Razdalje torej raˇcunamo iz podatkov, ki so podani v tabeli
1.2. Evklidsko razdaljo med Bosno in Hercegovino ter
ˇ
Crno goro
izraˇcunamo takole
d(B, C) =
q
(b
1
c
1
)
2
+ (b
2
c
2
)
2
=
2.1.
ˇ
STEVILSKI PODATKI 35
B C H M S O K V
B 0.0 3.1 2.1 0.7 2.9 2.3 1.0 2.0
C 0.0 2.3 3.0 2.7 1.0 3.8 1.1
H 0.0 1.5 0.8 1.3 2.2 1.7
M 0.0 2.3 2.0 0.8 1.9
S 0.0 1.8 2.8 2.3
O 0.0 2.9 0.6
K 0.0 2.7
V 0.0
Tabela 2.1: Evklidske razdalje med republikami in pokrajinama
=
q
(0.30 1.78)
2
+ (1.39 0.85)
2
= 3.06
Tako izraˇcunane evklidske razdalje med vsemi osmimi enotami so
zaokroˇzene na eno decimalno mesto in urejene v matriko razdalj,
ki je podana v tabeli 2.1 (simetriˇcne vrednosti so izpuˇcene).
Poznane so tudi druge razdalje, ki niso posebni primer Minkow-
skijeve razdalje. Med njimi je najpomembnejˇsa Mahalanobisova
posploˇsena razdalja (1936), ki je definirana takole
d(X , Y ) = (X Y )
0
Σ
1
(X Y )
Σ je varianaˇcno-kovarianˇcna matrika spremenljivk znotraj skupin.
Za razliko od drugih omenjenih razdalj upoˇsteva tudi povezanosti
med spremenljivkami.
ˇ
Ce so korelacijski koeficienti med spre-
menljivkami enaki 0, je Mahalanobisova razdalja enaka kvadratu
evklidske razdalje.
Za enote, ki imajo samo pozitivne vrednosti spremenljivk, sta
poznani ˇse dve meri razliˇcnosti: Lance-Williamsova mera razliˇcno-
36 2. MERJENJE PODOBNOSTI
sti (1966)
d(X , Y ) =
P
m
i=1
|x
i
y
i
|
P
m
i=1
(x
i
+ y
i
)
in razdalja Canberra (Lance in Williams 1967 a)
d(X , Y ) =
m
X
i=1
|x
i
y
i
|
|x
i
+ y
i
|
ki pa sta zelo obˇc utljivi na majhne spremembe okoli vrednosti
blizu 0.
ˇ
Ce so enote opisane s ˇstevilskimi spremenljivkami, lahko upora-
bimo tudi zelo znano mero podobnosti - Pearsonov korelacijski
koeficient (1926), ki je definiran takole
r(X, Y ) =
P
m
i=1
(x
i
µ
X
)(y
i
µ
Y
)
p
P
m
i=1
(x
i
µ
X
)
2
P
m
i=1
(y
i
µ
Y
)
2
kjer sta
µ
X
=
1
m
m
X
i=1
x
i
in
µ
Y
=
1
m
m
X
i=1
y
i
Lastnost koeficienta korelacije je, da ostane enak, ˇce eno ali drugo
enoto linearno transformiramo.
Nesporno je koeficient korelacije primerna mera podobnosti
med spremenljivkami. Razliˇcna mnenja pa so o smislu njegove
uporabe za merjenje podobnosti med enotami prav zaradi ome-
njene lastnosti tega koeficienta. Denimo, da so vrednosti neke
enote izraˇcunane tako, da je vsem vrednostim neke druge enote
priˇsteto neko veˇcje ˇstevilo. ’Profil’ teh dveh e not je torej za omen-
jeno ˇstevilo premaknjen, vendar enak. Enoti sta torej glede na
2.2. BINARNI PODATKI 37
vrednosti posameznih spremenljivk zelo raz liˇcni in evklidska raz-
dalja bi to pokazala. Zaradi vzporednosti obeh ’profilov’ (ena
enota je linearna kombinacija druge enote) pa bi bil izraˇcunani
koeficient korelacije 1! Torej popolna podobnost. Ko izbiramo
mero podobnosti ali razliˇcnosti moramo predvsem vedeti, kakˇsno
podobnost ˇzelimo meriti.
ˇ
Ce ˇzelimo na primer meriti podobnost
med ’profiloma’ obeh enot, je koeficient korelacije prav gotovo
primerna mera.
Znanih je ˇse veliko drugih mer podobnosti, razliˇcnosti in raz-
dalj za ˇstevilske enote. Nekatere s o posebej primerne za reˇsevanje
specifiˇcnejˇsih problemov razvrˇsˇcanja v skupine. Tako je za raz-
vrˇsˇcanje obmoˇcij (npr. drˇzav ali v naˇsem primeru republik in
pokrajin) glede na njihovo druˇzbeno e konomsko razvitost Ivanovi´c
(1963; 1976; 1977; 1982; 1988) razvil druˇzino I-razdalj, ki zmorejo
odstraniti prekrivanja med izbranimi indikatorji razvitosti.
2.2 Mere podobnosti za binarne podatke
Za enote, ki so doloˇcene s samimi dihotomnimi spremenljivkami,
je poznanih vc mer podobnosti. Te so doloˇcne s frekvencami v
asociacijski tabeli za par enot, med katerima merimo podobnost.
Asociacijsko tabelo za enoti X in Y , kjer so vrednosti vseh m
spremenljivk + in , je naslednja
enota Y
+
enota X
+ a b
c d
Vsota vseh ˇstirih frekvenc je enaka ˇstevilu vseh merjenih spre-
menljivk (a + b + c + d = m). Frekvenca a pove, na koliko
38 2. MERJENJE PODOBNOSTI
spremenljivkah imata enoti X in Y hkrati pozitiven odgovor in
frekvenca d hkrati negativen odgovor. Frekvenci b in c pa ˇstejeta,
na koliko spremenljivkah imata enoti razliˇcna odgovora.
Najbrˇz so za razvrˇcanje binarnih enot v skupine najprimernej-
ˇse mere ujemanja. Naˇstejmo tiste, ki so najbolj znane:
Sokal-Michenerjeva mera (1958)
(enake uteˇzi na ++ in na −− ujemanju)
a + d
a + b + c + d
Prva Sokal-Sneathova mera (1963)
(dvojna uteˇz na ++ in −− ujemanju)
2(a + d)
2(a + d) + b + c
Rogers-Tanimotova mera (1960)
(dvojna uteˇz na neujemanju)
a + d
a + d + 2(b + c)
Russell-Raova mera (1940)
(le ++ ujemanje v ˇstevcu)
a
a + b + c + d
Jaccardova mera (1908)
(v ˇstevcu in imenovalcu ne upoˇsteva ujemanje na −−)
a
a + b + c
2.2. BINARNI PODATKI 39
Czekanowskijeva mera (1913)
(v ˇstevcu in v imenovalcu ni −− ujemanja, dvojna uteˇz na
++ ujemanju)
2a
2a + b + c
Druga Sokal-Sneathova mera (1963)
(v ˇstevcu in v imenovalcu ni −− ujemanja, dvojna uteˇz na
neujemanju)
a
a + 2(b + c)
Kulczynskijeva mera (1927)
(kvocient med ujemanjem in neujemanjem, kjer −− uje-
manje ni upoˇstevano)
a
b + c
Vse omenjene mere podobnosti razen zadnje lahko zavzamejo
vrednosti v intervalu od 0 do 1. Prve tri omenjene mere uje-
manja so glede na definicijo na zaˇcetku te ga poglavja enakovredne.
Prav tako so enakovredne peta, ˇsesta in sedma omenjena mera. Z
drugimi besedami to pomeni, da je urejenost vseh parov enot,
dobljena z eno od teh treh mer, enaka urejenosti parov enot s
preostalima dvema merama.
Pojem enakovrednosti je zelo pomemben pri razvrˇsˇc anju v sku-
pine. Nekatere metode razvrˇcanja v skupine namreˇc proizvedejo
enake razvrstitve, ˇce merimo podobnost med enotami s sicer ra-
zliˇcnimi, vendar enakovrednimi merami (npr. minimalna in maksi-
malna metoda hierarhiˇcnega zdruˇzevanja, nemetriˇcno vcrazseˇzno-
stno lestviˇcenje).
Za primer vzemimo tri osebe X, Y in Z, ki smo jih povpraˇsali,
s katerimi o d desetih naˇstetih aktivnosti se ukvarjajo v prostem
40 2. MERJENJE PODOBNOSTI
ˇcasu. Vsaka od teh desetih spremenljivk lahko zavzame le dve
vrednosti: se ukvarjam (+) in se ne ukvarjam (). Torej gre za
tri binarne enote. Denimo, da so zbrani podatki naslednji:
1 2 3 4 5 6 7 8 9 10
X + + + +
Y + + + + + +
Z + + +
Asociacijska tabela za enoti X in Y je tedaj
enota Y
+
enota X
+ 3 1
3 3
Izraˇcunajmo za ti dve enoti Sokal-Michenerjevo in Jaccardovo
mero ujemanja:
S(X, Y ) =
3 + 3
3 + 1 + 3 + 3
= 0.60
J(X, Y ) =
3
3 + 1 + 3
= 0.43
Ti dve meri ujemanja sta izraˇcunani ˇse za preostala dva para.
Rezultati, dobljeni s Sokal- Michenerjevo mero ujemanja, so nasle-
dnji:
X Y Z
X 1.00 0.60 0.70
Y 1.00 0.30
Z 1.00
2.2. BINARNI PODATKI 41
Pare uredimo od para z najmanjˇso vrednostjo mere do para z
najveˇcjo:
(Y, Z) < (X, Y ) < (X, Z)
Jaccardova mera ujemanja pa da naslednje rezulate:
X Y Z
X 1.00 0.43 0.40
Y 1.00 0.13
Z 1.00
Tudi v tem primeru uredimo pare
(Y, Z) < (X, Z) < (X, Y )
Dobljeni urejenosti parov se razlikujeta. Ti dve meri torej nista
enakovredni. Tudi sicer sta ti dve meri zelo razliˇcni. Prva meri
ujemanje na ++ in −− odgovorih, druga pa le na ++. V naˇsem
primeru, kjer se citno kaˇzeta bistveno razliˇcna rezultata za para
(X , Y ) in (X, Z), lahko na osnovi podatkov vidimo, da sta enoti X
in Z relativno moˇcno povezani med seboj zaradi relativno moˇcnega
ujemanja na vrednostih, kar v naˇsem primeru pom eni na neuk-
varjanju z naˇstetimi prostoˇcasnimi aktivnostmi. Po Jacc ardovi
meri, v kateri je vgrajeno le ujemanje na + odgovorih, se pravi le
na ujemanju v smislu ukvarjanja z naˇstetimi aktivnostmi, pa se
bolje odreˇze par (X, Y ). Ta primer zopet kaˇze, kako pomembna
je opredelitev, kaj pravzaprav ˇzelimo meriti.
Poznamo pa tudi druge mere podobnosti, ki so doloˇcene z
omenjemi ˇstirimi frekvencami asociacijske tabele. Omenimo dve
verjetnostni meri podobnosti
42 2. MERJENJE PODOBNOSTI
Kulczynskijeva povpreˇcna pogojna verjetnost (1927)
(++ ujemanje)
a
2
(
1
a + b
+
1
a + c
)
Povpreˇcna pogojna verjetnost ujemanja
1
4
(
a
a + b
+
a
a + c
+
d
b + d
+
d
c + d
)
in ˇse dve meri podobnosti, ki zavzemata vrednosti od 1 do 1 in ki
se najpogosteje uporabljata kot meri podobnosti pri razvrˇsˇcanju
dihotomnih spremenljivk v skupine.
Yulova mera podobnosti
ad bc
ad + bc
Pearsonov koeficient Φ
ad bc
p
(a + b)(a + c)(b + d)(c + d)
Pokazati se da, da je Pearsonov koeficient korelacije, ˇce ga raˇcu-
namo na binarnih podatkih, enak koeficientu Φ.
2.3 Mere podobnosti
za nominalne podatke
ˇ
Ce so enote opisane z nominalnimi spremenljivkami, lahko upora-
bimo nekatere mere podobnosti, ki smo jih omenili za binarne
podatke, ˇce vsako spremenljivko dihotomiziramo (vse vrednosti
2.3. NOMINALNI PODATKI 43
posamezne spremenljivke smiselno zdruˇzimo v dve vrednosti) ali
pa ’dummyziramo’ (vsaka vrednost nominalne spremenljivke je
nova dihotomna spremenljivka, ki ima le dve vrednosti: prisot-
nost (+) ali odsotnost () doloˇcene vrednosti nominalne spre-
menljivke). V slednjem primeru seveda ni primerna Sokal-Miche-
nerjeva mera ujemanja in njej enakovredne, ker je ujemanje −−
predvsem posledica ’dummyzacije’.
V posebnih primerih, ko imajo vse nominalne spremenljivke,
ki doloˇcajo enote, enake vrednosti, je mogoˇce izbirati med ra-
zliˇcnimi merami ujemanja. Za primer vzemimo, da ˇzelimo poiskati
tipologijo drˇzav glede na njihovo glasovanje v OZN o razliˇcnih re-
solucijah v nekem ˇcasovnem razdobju. Enote so v tem primeru
drˇzave, ki so doloˇcene z nominalnimi spremenljivkami, to je po-
sameznimi resolucijami. Tako opredeljene spremenljivke imajo
naslednje vrednosti: 1 - glas za, 2 - glas proti, 3 - vzdrˇzan, 4 - ni
prisoten. Mere ujemanja v primeru nominalnih enot so podobno
kot mere podobnosti za binarne enote opredeljene s frekvencami v
kontingenˇcnih tabelah. Velikost kontingenˇcnih tabel doloˇca ˇstevilo
vrednosti nominalne spremenljivke (npr. v omenjenem primeru s
ˇstirimi vrednostmi gre za kontingenˇcne tabele 4x4). V sploˇsnem
lahko zapiˇsemo kontingenˇcno tabelo za enoti X in Y , kjer sta enoti
doloˇceni z m nominalnimi spremenljivkami s p razliˇcnimi vredno-
stmi, takole
1 2 ... p
1 f
11
f
12
... f
1p
2 f
21
f
22
... f
2p
... ... ... ... ...
p f
p1
f
p2
... f
pp
Vsota vseh frekvenc v zgornji tabeli je seveda enaka ˇstevilu spre-
44 2. MERJENJE PODOBNOSTI
menljivk (m). Najpreprostejˇsa mera ujemanja med enotama X in
Y je lahko tedaj kvocient med vsoto frekvenc na diagonali kontin-
genˇcne tabele za ti dve enoti in ˇstevilom vseh spremenljivk, ki ti
dve enoti opisujejo
s(X, Y ) =
f
11
+ f
22
+ ... + f
pp
m
V literaturi je mogoˇce najti ˇse veliko drugih zanimivih mer
podobnosti, primernih za nominalne enote (npr. Liebetrau 1983;
Reynolds 1984; Momirovi´c 1988).
2.4 Mere podobnosti
za meˇsani tip podatkov
Vse omenjene koeficiente raˇcunamo tedaj, ko enote doloˇca le en tip
spremenljivk. Za merjenje podobnosti med enotami z razliˇcnimi
tipi spremenljivk so moˇzni vsaj trije pristopi:
vse spreme nljivke transformiramo v isti tip spremenljivk (npr.
v dihotomne spremenljivke). Anderberg (1973) je takim
transformacijam posvetil v svoji knjigi celo poglavje (1973,
30-69);
spremenljivke razvrstimo v skupine z istim tipom spremen-
ljivk in nato enote razvrˇsˇcamo za vsako skupino spreme nljivk
posebej. Reˇsitev problema poizkusimo poiskati s primerjavo
dobljenih razvrstitev. V tem primeru je ugodno uporabiti
metode veˇckriterijskega razvrˇsˇcanja v skupine, ki so pred-
stavljene v sedmem poglavju tega dela;
uporabimo lahko tudi sestavljene mere, ki so v glavnem kom-
binacije mer za enote z istim tipom spremenljivk (npr. Es-
2.5. ZVEZE MED MERAMI 45
tabrook in Rogers 1966; Gower 1971; Legendre in Chodor-
owski 1977). Najpogoste je je omenjen Gowerjev koeficient
podobnosti (1971), ki je definiran takole
s
ij
=
P
m
k=1
w
ijk
s
ijk
P
m
k=1
w
ijk
kjer je s
ijk
mera podobnosti med i-to in j-to enoto glede
na k-to spremenljivko in ustrezno opredeljena glede na njen
merski tip. Uteˇz w
ijk
zavzame vrednost 1 ali 0 glede na to,
ali k-ta spremenljivka dopuˇsˇca primerljivost med enotama
ali ne (npr. w
ijk
= 0, ˇce vrednost k-te spremenljivke na eni
ali drugi enoti ni poznana). Pokazati se da, da je v primeru,
ko so enote doloˇcene s samimi dihotomnimi spremenljivkami,
Gowerjeva mera enaka Jaccardovi meri ujemanja.
2.5 Zveze med merami razliˇcnosti
in podobnosti
Praviloma metode razvrˇsˇcanja v skupine predpostavljajo, da so
med enotami izraˇcunane mere razliˇcnosti. Problemu razvrˇsˇcanja
v skupine in tipu merjenih spremenljivk pa je casih primerno
izbrati neko mero razliˇcnosti ali razdaljo, vˇcasih pa neko mero
podobnosti. Poglejmo, kako je mogoˇce transformirati mero po-
dobnosti s v mero razliˇcnosti d in obratno.
Vedno lahko konstruiramo mere podobnosti iz razdalj. Na
primer transformacija
s =
1
1 + d
priredi razdalji d mero podobnosti s, ki je definirana na obmoˇcju
[0, 1].
46 2. MERJENJE PODOBNOSTI
Transformacija iz mer podobnosti v mere razliˇcnosti je lahko
teˇzavna, ˇc e v dani mnoˇzici enot mera podobnosti posamezne enote
s seboj s
ii
ni za vse enote enaka.
ˇ
Ce te mere izvzamemo iz
nadaljnjega razmiˇsljanja, lahko izbiramo med veˇc transformaci-
jami. Izbira ustrezne transformacije je odvisna tudi od posameznih
lastnosti mere, ki jo ˇzelimo transformirati, na primer od njenega
definicijskega obmoˇcja. Mere podobnosti med enotami ponavadi
zavzemajo vrednosti med 0 in 1: ˇcim bolj sta si enoti podobni,
tem bolj se mera podobnosti pribliˇzuje 1; ˇcim bolj sta si razliˇcni,
tem bolj se mera podobnosti bliˇza 0 (npr. mere ujemanja za bina-
rne enote). V primeru torej, ko je mera podobnosti s definirana
na obmoˇcju [0, 1], je ustrezna transformacija v mero razliˇcnosti d
naslednja
d = 1 s
Gower in Legendre (1986) sta obravnavala metriˇcne lastnosti mer
razliˇcnosti, ki jih dobimo s to transformacijo. Pokazala sta, da do-
bimo razdalje s transformacijo veˇcine omenjenih mer ujemanja za
binarne podatke. Izjema so prva Sokal-Sneathova, Czekanowski-
jeva in Kulczynskijeva mera ujemanja. Iz teh in tudi preostalih
omenjenih mer podobnosti za binarne podatke dobimo le mere
razliˇcnosti.
Naˇsteli smo veˇc mer podobnosti, ki so definirane na obmoˇcju
[1, 1] (npr. Yulova mera podobnosti, Pearsonov koeficient ko-
relacije). V tem primeru lahko uporabimo na primer naslednji
transformaciji
d =
1 s
2
ali d = 1 |s|
To sta zelo razliˇc ni transformaciji. Posledica prve je, da bo
mera razliˇcnosti najmanjˇsa (0) pri meri podobnosti +1 in najveˇcja
pri meri podobnosti 1. Po drugi transformaciji pa je najmanjˇsa
2.5. ZVEZE MED MERAMI 47
mera razliˇcnosti, ˇce je mera podobnosti 1 ali +1, najveˇcja pa
pri meri podobnosti 0. Pri tej transformaciji torej dobljena mera
razliˇcnosti ne loˇci vc, v katero smer sta enoti povezani, pozitivno
ali negativno.
Zelo zanimiva je naslednja transformacija
d =
1 s
Gower (1971, 1985), Gower in Legendre (1986) ter delno tudi drugi
avtorji so pokazali, da so d
ij
=
p
1 s
ij
evklidske razdalje, ˇce
je matrika podobnosti [s
ij
] pozitivno semi definitna z elementi
0 s
ij
1 in s
ii
= 1. Pokazala sta, da temu izreku zadoˇsˇca
vcina omenjenih mer ujemanja. Ponovno sta izjemi prva Sokal-
Sneathova in Kulczynskijeva mera. S to transformacijo dobimo
evklidsko razdaljo tudi v primeru koeficienta Φ. V merskem smislu
se torej od omenjenih mer podobnosti za binarne po datke pri teh
transformacijah najslabˇse odreˇzejo prva Sokal-Sneathova in Kul-
czynskijeva mera ujemanja, obe verjetnostni meri in Yulova mera
podobnosti.
ˇ
Ze Cronbach in Gleser (1953) sta pokazala, da je moˇzno z
zgornjo transformacijo dobiti evklidsko razdaljo med standardi-
ziranima enotama (vsaki vrednosti enote je odˇsteta aritmetiˇcna
sredina vseh njenih vrednosti in ta razlika deljena s standardnim
odklonom vrednosti), ˇce je med enotama izraˇcunan Pearsonov ko-
relacijski koeficient.
Katero transformacijo izbrati v konkretnem primeru? Pred-
vsem je potrebno izhajati iz problema, ki ga reˇsujemo, in natanˇcno
premisliti, katera mera podobnosti in katera transformacija ce
je sploh potrebna) izbrane mere sta najbolj ustrezni. Ne katerim
metodam (npr. metodam, ki uporabljajo geometrijski pristop, kjer
so enote predstavljene kot toˇcke v prostoru) bolj ustrezajo razdalje
med enotami, nekatere so v merskem smislu manj zahtevne. Zato
48 2. MERJENJE PODOBNOSTI
pri izbiri ustrezne mere podobnosti in transformacije ene mere v
drugo upoˇstevajmo tudi njihove merske lastnosti. Bralcu, ki ˇzeli
vc informacij o merskih lastnostih mer podobnosti, priporoˇcam,
da si prebere Gowerjev in Legendrov ˇclanek (1986).
3.
Matematizacija problema
razvrˇsˇcanja v skupine
3.1 Osnovni pojmi
Uvodna razprava o problemu razvrˇsˇcanja v skupine morda daje
vtis, da gre pri razvrˇcanju v skupine za zbirko razmeroma nepo-
vezanih postopkov in metod. Zato v tem poglavju povzimo in
poenotimo veˇcji del podroˇcja razvrˇsˇcanja v skupine z optimizacij-
skim pristopom, ki je rezultat veˇcletnega Batageljevega in mojega
raziskovanja (npr. Batagelj 1979, 1985 a, 1986 b; Ferligoj in Ba-
tagelj 1980, 1982, 1983).
Opredelimo najprej nekaj pojmov, ki jih potrebujemo pri ma-
tematizaciji problema razvrˇsˇcanja v skupine.
V uvodu smo ˇze opredelili enote, ki glede na obravnavano vse-
bino ustrezno opisujejo objekte, ki jih ˇzelimo razvrstiti v skupine.
Do opisa objektov ponavadi pridemo tako, da na vsaki enoti X
i
(i = 1, 2, ..., n) izmerimo nekaj lastnosti (spremenljivk). Mnoˇzico
enot oznaˇcimo z E = {X
i
}. Skupina enot je neprazna podmnoˇzica
49
50 3. MATEMATIZACIJA
mnoˇzice enot, ki jo oznaˇcimo s C E. Razvrstitev pa je mnoˇzica
skupin enot C = {C
i
}.
Kot primer vzemimo obˇcine SR Slovenije pred cepitvijo obˇcine
Maribor na pet obˇcin:
E = { 60 obˇcin SR Slovenije }
Dve skupini sta na primer:
C
i
= { obalne obˇcine }
C
j
= { ljubljanske obˇcine }
V primeru obˇcin SR Slovenije zapiˇsimo razvrstitev, ki je doloˇce-
na s plansko regionalizacijo obˇcin v 12 regij (skupin obˇcin):
C = { pomurska r., podravska r., koroˇska r., savinjska r.,
zasavska r., osrednja s lovenska r., spodnja posavska r.,
dolenjska r., goriˇska r., obalno-kraˇska r., kraˇska r.,
gorenjska r. }
kjer so posamezne regije sestavljene iz naslednjih obˇcin:
C
1
= pomurska r.
= { G. Radgona, Lendava, Ljutomer, Murska Sobota }
C
2
= podravska r.
= { Lenart, Maribor, Ormoˇz, Ptuj, Sl. Bistrica }
C
3
= koroˇska r.
= { Dravograd, Sl. Gradec, Ravne, Radlje }
C
4
= savinjska r.
= { Celje, Laˇsko, Mozirje, Sl. Konjice,
ˇ
Sentjur,
ˇ
Smarje, Velenje,
ˇ
Zalec }
C
5
= zasavska r.
= { Hrastnik, Trbovlje, Zagorje }
C
6
= osrednja sl. r.
3.1. OSNOVNI POJMI 51
= { Domˇzale, Grosuplje, Kamnik, Koˇcevje, Litija,
Lj. Beˇzigrad, Lj. Center, Lj. Moste-Polje, Lj.
ˇ
Siˇska,
Lj. Viˇc-Rudnik, Logatec, Ribnica, Vrhnika }
C
7
= spodnje posavska r.
= { Breˇzice, Krˇsko, Sevnica }
C
8
= dolenjska r.
= {
ˇ
Crnomelj, Metlika, Novo mesto, Trebnje }
C
9
= goriˇska r.
= { Ajdovˇsˇcina, Idrija, Nova Gorica, Tolmin }
C
10
= obalno-kraˇska r.
= { Izola, Koper, Piran, Seˇzana }
C
11
= kraˇska r.
= { Cerknica, Ilirska Bistrica, Postojna }
C
12
= gorenjska r.
= { Jesenice, Kranj, Radovljica,
ˇ
Skofja Loka, Tziˇc }
Razvrstitev je popolna, ˇce je vsaka enota natanko v eni skupini.
Tako je razvrstitev obˇcin v regije popolna razvrstitev z dvanajstimi
skupinami. V sploˇsnem razvrstitev ni nujno p opolna. Vˇcasih
iˇsˇcemo razvrstitve, ki jih lahko sestavljajo prekrivajoˇce skupine. V
nekaterih primerih dopustimo, da nekatere enote niso razvrˇsˇcene v
nobeno skupino. Razvrstitev pa lahko vnaˇsa tudi doloˇceno struk-
turo med skupine. Primer take strukture je drevesna ali hier-
arhiˇcna urejenost med skupinami, ki bo podobneje obravnavana v
naslednjem poglavju.
Na osnovi vsebine problema razvrˇsˇcanja v skupine opredelimo,
kakˇsne razvrstitve so smiselne oziroma dopustne (npr. ali gre za
popolno ali drevesno razvrstitev, v primeru popolne razvrstitve
je potrebno doloˇciti ˇstevilo skupin, itd.). To lahko storimo tako,
da kar se da natanˇcno opredelimo mnoˇzico dopustnih razvrstitev
Φ. Med temi razvrstitvami iˇcemo tiste, ki kar najbolje ustrezajo
naˇsim namenom. Ustreznost razvrstitve ponavadi izrazimo s kri-
52 3. MATEMATIZACIJA
terijsko funkcijo P , ki vsaki razvrstitvi C iz mnoˇzice dopustnih
razvrstitev Φ priredi neko nenegativno realno ˇstevilo
P : C 7→ R
+
0
3.2 Problem razvrˇsˇcanja v skupine
kot optimizacijski problem
Z vpeljanimi pojmi lahko zastavimo problem razvrˇsˇcanja v skupine
kot optimizacijski problem takole:
Doloˇci razvrstitev C
tako, da bo
P (C
) = min
CΦ
P (C)
kjer je Φ mnoˇzica (dopustnih) razvrstitev.
To pomeni: ˇce imamo mnoˇzico razvrstitev Φ in izraˇcunamo za
vsako razvrstitev C Φ vrednost kriterijske funkcije, je najboljˇsa
(najprimernejˇsa) razvrstitev (C
) tista, ki ima najmanjˇso vrednost
kriterijske funkcije.
3.3 Kriterijske funkcije
S kriterijsko funkcijo torej opiˇsemo, kakˇsna naj bo ˇzelena razvrsti-
tev enot, ki so opisane z izbranimi spremenljivkami. Vanjo torej
skuˇsamo glede na zastavljeni problem vgraditi, kakˇsne naj bodo
ˇzelene skupine. V tem smislu se spomnimo pojmov interne ko-
hezivnosti in eksterne izolacije skupin. Najveˇckrat nas zanima
predvsem interna kohezivnost skupin (homogenost, kompaktnost)
in veˇcina znanih kriterijskih funkcij meri predvsem to.
3.3. KRITERIJSKE FUNKCIJE 53
Kriterijska funkcija za posamezno skupino je obiˇcajno doloˇcena