Content uploaded by Jiří Neubauer
Author content
All content in this area was uploaded by Jiří Neubauer
Content may be subject to copyright.
Použití neúplných datových souborů ke klasifikaci
regionů EU1
Jakub Odehnal, Jiří Neubauer
Univerzita obrany, Brno
Jaroslav Michálek
Vysoké učení technické, Brno
1. Úvod
Jedním z dlouhodobých cílů evropské regionální politiky je postupné snižování rozdí-
lů v ekonomické vyspělosti jednotlivých regionů. V programovém období 2007 až 2013
jsou v Nařízení rady (ES) č. 1083/2006 [14] stanoveny 3 cíle kohezní politiky: konvergen-
ce, regionální konkurenceschopnost a zaměstnanost a evropská územní spolupráce.
První cíl označený jako konvergence má dle [14] zahrnovat regiony jejichž rozvoj
měřený HDP na obyvatele zaostává pod úrovní 75 % průměru evropského společenství.
Druhývymezenýcíl Regionální konkurenceschopnost a zaměstnanost má působit zejména
na oblast lidských zdrojů, zvyšování kvalifikací, podporu inovací a na posílení konkuren-
ceschopnosti. Třetí cíl Evropská územní spolupráce má posílit zejména spolupráci mezi
hraničními regiony a tak působit na jejich vzájemný rozvoj.
Takto vymezené cíle je možné prostřednictvím řady kvantifikovaných proměnných
měřit a zjišťovat tak jejich dodržování a faktickou účinnost použitých nástrojů evropské
regionální politiky. Zmiňovaným oblastem se podrobně věnuje celá řada publikací a časo-
piseckých prací. Testování konvergenčních případně divergenčních tendencí můžeme
nalézt v [8, 13, 17, 18], měření regionální konkurenceschopnosti např. v [3, 15, 16]. Spo-
lečným prvkem těchto prací je užívání statistických dat k ověření teoreticky vymezených
hypotéz. Takováto data by měla, co se týče jejich vlastností, splňovat některá základní kri-
téria uvedená např. v [20], případně i v [6]. Zejména by se mělo jednat o data úplná, rele-
vantní, přesná, včasná, dostupná a srovnatelná. Zmiňovaná kritéria budou dále v textu dis-
kutována, zejména s ohledem na regionální data a jejich využití pro socioekonomické
analýzy.
Pro zajištění regionální porovnatelnosti používaných dat byly na konci 60. let vymeze-
ny statistické územní jednotky NUTS (zkratka z francouzského La Nomenclature des Uni-
tés Territoriales Statistiques). Klasifikace je zavedena v zemích Evropské unie, v kandi-
dátských zemích a také v zemích EFTA(Evropské sdružení volného obchodu). Z hlediska
popsaných cílů regionální politiky Evropské unie je tato klasifikace významná zejména pro
regiony tzv. NUTS 2, které na základě dosažené ekonomické úrovně mohou čerpat podpo-
ru z evropských strukturálních fondů. Regionální data poskytují cenné informace o regio-
nech a tvoří tak jedno z kritérií možné finanční pomoci zaostalým regionům. Mnohoroz-
446
Konzultace
1Spodporou výzkumného záměru č. MO0FEM0000401.
měrné statistické metody se pak jeví jako vhodný nástroj pro provádění potřebných klasifi-
kací regionů, umožňující identifikaci regionů zaostalých na základě mnohorozměrného pří-
stupu ke sledovaným regionálním datům.
1. Možné přístupy ke klasifikaci regionů
Vymezení samotného pojmu region je předmětem řady odborných studií, pokusme se
tedy nejdříve za pomoci literárních zdrojů definovat pojem region. Podle přístupu uvede-
ného v [8] regionem myslíme oblast, která je určována geografickými, geologickými, his-
torickými, sociálně-ekonomickými podmínkami a administrativním vymezením. Regio-
nem tak můžeme označit určitý územní celek, který je menší než stát, jehož je však
součástí.
Podle definice statistického úřadu Evropského společenství [23] je region definován
jako plocha s více či méně přesně vyznačenými hranicemi, která často slouží jako admi-
nistrativní (správní) jednotka nižší úrovně, než je úroveň státu. Hranice regionu obvykle
vznikly jako přírodní (tvořeny fyzickými bariérami, které tak oddělovaly dvě skupiny oby-
vatel), historické (vycházející z tradičního rozdělení části Evropy na vévodství, knížectví,
svobodná města, království) a administrativní (správní) hranice (vyplývající z potřeby
funkce státu (výběr daní, zabezpečování produkce veřejných statků), která vyžaduje, aby
byla vykonávána na nižší úrovni, než je stát).
Podle vymezeného pojmu region můžeme nalézt i různorodou škálu typů regionů, které
se v literatuře hojně vyskytují. Např. dle H. H. Blotevogela (viz [21]) můžeme rozlišovat
následující typyregionů:
a) reálné (analytické) regiony,
b) regiony vymezené lidskými aktivitami a činnostmi,
c) identifikační regiony.
Podle účelu a cíle regionu můžeme (viz [9]) regiony dělit na:
a) administrativní (vymezenyse záměrem výkonu státní správy a územní samosprávy),
b) účelové (vymezeny na základě kritérií, vyplývajících z daného účelu).
V literatuře [20] můžeme pozorovat i časté dělení na regiony homogenní a nodální,
které jsou součástí tzv.deskriptivních regionů (dělení regionů na deskriptivní a normativ-
ní). Homogenní regiony se vymezují na základě rovnoměrné intenzity výskytu reprezenta-
tivního jevu. Nodální neboli funkční regiony vymezujeme na základě funkcí, jež vysvětlu-
jí důvod jejich existence. Vymezené nodální regiony jsou tak vnitřně heterogenní.
Normativní regiony jsou regiony, které vznikají jako důsledek předcházejícího politického
rozhodnutí.
Obdobné dělení jakov[9] upřednostňuje i pro účely klasifikace NUTS Statistický úřad
Evropských společenství, který respektuje dělení regionů na normativní a analytické.
Samotná klasifikace NUTS vychází z Nařízení Evropského parlamentu a rady
č. 1059/2003, která upravuje dělení členských států na územní jednotky NUTS 1, NUTS 2
a NUTS 3. Takto vytvořená klasifikace je hierarchická a každý stát může území úrovně
NUTS 3 dále hierarchicky dělit na úroveň NUTS 4 a NUTS 5. Tyto jednotky však byly
vroce 2004 přejmenoványna místní administrativní jednotkyLAU(LAU1 a LAU2). Tato
447
5/2OO9
klasifikace však nemá obecně platný charakter a například u menších zemí Evropské unie
nalezneme podrobné členění regionů až na úrovni NUTS 3. Pro většinu zemí Evropské unie
však NUTS klasifikace aktuálně představuje následující dělení státu:
a) NUTS 0 – představuje celé území státu,
b) NUTS 1 – územní jednotka velkých oblastí,
c) NUTS 2 – představuje úroveň středního článku územně samosprávného členění,
d) NUTS 3 – odpovídá úrovni nejnižšího územně správního regionu státní správy,
e) LAU 1 (dříve NUTS 4) – zahrnuje okresy, mikroregiony,
f) LAU 2 (dříve NUTS 5) – zahrnuje obce.
K přesnému označení územních jednotek se využívá kód a název. Kód je tvořen kom-
binací písmen a číslic a je sestaven na základě následujících pravidel. Kód začíná dvojicí
písmen označující úroveň NUTS 0, tedy stát, např. pro NUTS 0 (stát) kód AT značí Öster-
reich. Třetí pozice v kódu označuje úroveň NUTS 1, tedy území a nabývá hodnot 1–9, při-
čemž v případě vyššího počtu jednotek jsou číslice nahrazena písmeny např. pro NUTS 1
značí kód AT2, území Südösterreich. Čtvrtá pozice v kódu označuje územní jednotky
NUTS 2 (oblasti) a páté místo v uvedeném kódu označuje kraje, tedy územní jednotky
NUTS 3. Např. pro NUTS 2, značí kód AT21 oblast Kärnten a pro NUTS 3 značí kód
AT211 oblast Klagenfurt-Villach.
Srovnatelnost dat v regionech je potřeba zajistit pomocí objektivních kriterií a právě její
dosažení je cílem vytvořené a právěpopsané klasifikace regionů. Jako klasifikační krité-
rium pro zařazení do dané třídy jednotek byly zvoleny populační hranice uvedené v tabul-
ce 1.
Tabulka 1 Minimální a maximální populační hranice pro regiony NUTS
Regionyvymezené aplikací předcházejících kritérií jsou např. v publikacích [3, 15, 16]
podrobenyanalýze socioekonomických dat na úrovni územních jednotek NUTS 2, které
odpovídají jednotlivým oblastem. Na nedostatky, jakým jsou regiony Statistickým úřadem
evropského společenství pro statistické účely vymezeny, poukazuje literatura [1, 2], kde
autoři poukazují na možnou nehomogennost regionů pro socioekonomické porovnávání.
Při zvoleném způsobuumělého institucionálního členění tak mohou být potlačoványpřiro-
zené historické, socioekonomické a politické faktory, což na výsledek analýzy může mít
nemalý vliv.
Výhoda zvolených územních jednotek pramení zejména z dostupnosti regionálních
dat, která je možno získat jednak z publikace Eurostat Regional Yearbook [4] a z databá-
ze Eurostat Regional Statistics [5]. O zdrojích a kvalitě dat, o metodách možného doplně-
ní chybějících dat a jejich vlivu na výsledky regionální klasifikace, umožňující identifika-
ci problémových regionů, bude pojednáno v následující části práce.
448
2. Zdroje dat pro regionální analýzu
Ucelenou formu socio-ekonomických regionálních dat je možné získat z databáze
Regional Statistics [5] obsahující data regionů členských států Evropské unie, regionů kan-
didátských zemí a zemí EFTA. Hlavní podíl datových souborů je orientován na územní jed-
notky NUTS 2, výjimkou však nejsou data úrovně NUTS 3, eventuálně NUTS 1. Kolekce
obsahuje data z 12 oblastí: zemědělství, demografie, makroekonomie, vzdělávání, věda
a technika, obchodování, zdravotnictví, cestovní ruch, doprava a infrastruktura, trh práce,
pracovní náklady, informační společnost. Databáze tak poskytuje roční údaje a u některých
ukazatelů již od svého vzniku od roku 1975.
Obdobná regionální data je možné také získat z publikace Eurostat Regional Yearbook
2007 [4], publikované ročně, poskytující datový a mapový popis regionů NUTS 2. Ročen-
ka je rozdělena do 13 kapitol, přičemž její elektronická verze poskytuje datové podklady
použité pro konstrukci mapových výstupů v ní presentovaných. Členění kapitol je násle-
dující: obyvatelstvo, audit měst, hrubý domácí produkt, účty domácností, obchodní odvět-
vová statistika, trh práce, odvětvová produktivita, pracovní náklady, doprava, cestovní ruch,
věda, technologie a inovace, zdraví a zemědělství.
Možný nedostatek u popsaných zdrojů dat spatřujeme zejména v jejich neúplnosti,
která tak brání úplné socioekonomické analýze sledovaných regionů. V takovýchto analý-
zách pak nutně vznikají bílá místa jakonapř. v [4], zapříčiněná chybějícími daty u jednot-
livých regionů a proměnných. Nezbývá než chybějící proměnné z analýzy vynechat, pří-
padně i snížit počet analyzovaných regionů, což však může vést k částečné ztrátě
informace. O tom, jak jsou regionální data potřebná pro rozhodování subjektů kohezní poli-
tikyEU, již bylo pojednáno v úvodu textu, jsou však i zdrojem řady vědeckých analýz
a prací, ve kterých ovšem i z důvodu neúplnosti datových souborů nenalezneme úplnou
statistiku všech územních jednotek. Současně však existují metody,pomocí kterých je
možné chybějící data doplnit a tak počty regionů alespoň částečně navýšit.
V další části práce bude provedeno srovnání metod doplnění dat a vliv zvolené meto-
dy doplnění dat na výsledky mnohorozměrné socioekonomické regionální analýzy.
3. Metody doplnění dat
Při neúplnosti datového souboru můžeme použít pro doplnění chybějících dat různé
metody zmíněné např. v [10, 11, 19, 22]. Pro potřeby mnohorozměrné klasifikace regionů
EU byla vybrána socioekonomická data pocházející z [4, 5]. Posouzením těchto dat byla
zjištěna jejich neúplnost a kjejich doplnění byly vybránytři metody doplňování chybějí-
cích dat. Dvě elementární metody, v praxi často doporučované, jsou založené na ukazate-
lích polohy (aritmetickém průměru a mediánu). Třetí metoda vychází ze ZET algoritmu,
který je publikován ve [22]. Cílem bylo tedy vyšetřit vliv zvolené metody doplňování dat
na výsledky mnohorozměrné regionální analýzy.
Doplnění dat pomocí aritmetického průměru představuje základní metodu, kdy chybě-
jící data jsou nahrazena aritmetickým průměrem sledované proměnné. Nevýhodou je tak
zejména ovlivnění výsledku extrémními hodnotami, které se v regionálních socio-ekono-
449
5/2OO9
mických datech vlivem přirozených rozdílů mezi regiony hojně vyskytují. Naopak medián
těmito extrémními hodnotami zatížen není.
Třetí použitá metoda pro doplnění chybějících pozorování založená na ZET algoritmu
vychází z datové matice znázorněné v tabulce 2.
Tabulka 2 Datová matice
Na základě statistických vazeb mezi jednotlivými sloupci datové matice (řádky jsou
regiony, sloupce jednotlivé ekonomické proměnné) odhadujeme chybějící hodnotu aij,
pomocí následujícího postupu:
Popis modifikace algoritmu ZET
• Pomocí lineární transformace normalizujeme všechny prvky každého sloupce datové
matice na interval [0,1];
• vybereme chybějící hodnotu aij vesloupci j,kterou chceme doplnit;
• pro každé dva sloupce jak,určíme jejich tzv. míru zaplnění Ljk (j ≠ k), což je počet
řádků, v nichž zároveň ve sloupcích jaknejsou chybějící hodnoty.
• Určíme míru podobnosti
|
rjk
|
sloupce jakvyjádřenou pomocí absolutní hodnoty kore-
lačního koeficientu mezi sloupci jak;
• všechnyznámé hodnoty alj sloupce jodhadneme hodnotou ak
lj pomocí hodnot alk sloup-
ce k,který nemá chybějící hodnotu v řádku l. Odhad provedeme pomocí lineární regre-
se
kde bjk acjk jsou parametry lineární regrese;
•výsledný odhad každé známé hodnoty alj pevně daného sloupce jse s ohledem na
všechnysloupce vypočítá jako vážený průměr jednotlivých odhadů ak
lj podle vzorce
(1)
kde Pje počet sloupců použitých při výpočtu odhadu alj,P<n-1. Váhy v uvedeném vzor-
ci jsou počítánypomocí měr podobnosti
|
rjk
|
aměr zaplnění Ljk azávisí na dalším paramet-
ru
α
,
450
• hodnotu
α
,najdeme tak, aby byl minimalizován součet čtverců mezi známými hodno-
tami alja odhadovanými hodnotami a
~lj,součet je počítán přes všechny řádkové indexy
odhadnutých nechybějících pozorování ve sloupci j.
• Chybějící hodnotu aij pak odhadneme pomocí a
~lj tak, že ve vzorci (1) položíme l = i,
když předem pomocí popsané lineární regrese stanovíme odhady ak
ij pro všechny sloup-
ce k, které nemají chybějící hodnotu v řádku i.
• Užitím zpětné lineární transformace k lineární transformaci použité v prvním bodě
tohoto algoritmu stanovíme doplněné hodnoty.
Uvedený algoritmus byl implementován v programovém prostředí MATLAB a násled-
ně byl využit k doplnění chybějících dat.
4. Popis faktorů užitých k regionální klasifikaci
Samotný přístup k analýze regionální konkurenceschopnosti byl zvolen na základě
identifikovaných faktorů regionální konkurenceschopnosti publikovaných v [3]. Autoři ve
studii označují za klíčové faktory regionální konkurenceschopnosti faktor infrastruktury
a její dostupnosti, faktor lidských zdrojů a faktor produktivního (hospodářského) prostředí.
Faktor infrastruktury a její dostupnosti se skládá z ukazatele základní infrastruktury
charakterizujícího možnosti silniční, železniční a letecké dopravy v jednotlivých regio-
nech. Druhou součástí faktoru infrastruktury a její dostupnosti je ukazatel technologické
infrastruktury, charakterizující přístup k informačním technologiím, internetu. Třetí složku
faktoru infrastruktury a její dostupnosti tvoří znalostní infrastruktura hodnotící instituce
primárního, sekundárního a terciálního vzdělávání v regionech. Poslední složkou faktoru
je kvalita lokality charakterizující kvalitu bydlení, životního a kulturního prostředí v loka-
litě a její bezpečnost.
Faktor lidských zdrojů zahrnuje ukazatele demografického vývoje v podobě ukazatele
hustoty osídlení a migrace obyvatelstva a ukazatel vysoce kvalifikované pracovní síly.
Faktor produktivního (hospodářského) prostředí zahrnuje ukazatele podnikatelské kul-
tury charakterizujícího bariéry vstupu do odvětví, sektorové koncentrace, internacionaliza-
ce, inovačního potenciálu charakterizovaného počtem patentů, úrovní vědy a výzkumu
vregionech, přítomností vědecké regionální základny, přítomností univerzit, vlády,
dostupnosti kapitálu a povahy konkurence.
5. Popis užitých datových souborů
Kregionální analýze byly ze statistické ročenky Eurostat Regional Yearbook 2007 [4]
vybrány proměnné, které odpovídají klíčovým faktorům regionální konkurenceschopnosti
definovaným v [3] a charakterizující regionální konkurenceschopnost vymezenou jako
druhýcíl regionální politikyEvropskéunie.
Zvolené proměnné tedy jsou: HDP na obyvatele, počet ICT patentů na mil. obyvatel,
počet biotechnologických patentů na mil. obyvatel, zaměstnanost v technologicky a vědec-
ky náročných oborech, počet High-tech patentů na mil. obyvatel, celková změna počtu oby-
vatel, čistá migrace, procentní vyjádření HDP na obyvatele k průměru EU, příjem domác-
451
5/2OO9
ností, dlouhodobá nezaměstnanost, míra zaměstnanosti v regionech, míra nezaměstnanos-
ti v regionech, produktivita práce (HDP na zaměstnance), produktivita služeb, celkové
výdaje na vědu a výzkum v regionech jako % HDP, procento zaměstnaných výzkumných
pracovníků v regionu, zaměstnanci vědy a výzkumu jako % pracovní síly, Poskytování IT
služeb v regionu, hustota silnic v regionech, počet lůžek v ubytovacích zařízení na tisíc
obyvatel a podíl pracovní síly s terciálním vzděláním na celkové pracovní síle.
K regionální mnohorozměrné analýze konkurenceschopnosti bylo původně vybráno
268 NUTS 2 regionů Evropské unie a 33 proměnných. Protože se v datech vyskytovala sys-
tematická chybějící pozorování velkého rozsahu, např. celé chybějící bloky dat, které neby-
lo vhodné doplňovat, byl počet klasifikovaných regionů snížen na 202 a počet proměnných
na 21. V takto vzniklém souboru zůstalo ještě 3,7 % chybějících pozorování, které bylo
nutné před samotnou klasifikací pomocí vhodné metody doplnit. Největší počet chybějících
dat (35) pozorujeme u proměnné charakterizující hustotu dopravních cest v regionech,
tedy u ukazatele infrastruktury. Naopak bylo identifikováno 8 proměnných bez chybějících
pozorování a tedy bez nutnosti data doplňovat. K následné klasifikaci regionů EU na dopl-
něných datech byla použita shluková analýza [7, 12] s cílem identifikovat skupiny regionů
EU s podobnou úrovní charakteristik regionální konkurenceschopnosti. K doplnění chy-
bějících dat byly zvoleny popsané metody z předcházející části textu. Tedy doplnění prů-
měrem, mediánem a ZET algoritmem.
6. Porovnání algoritmů pro doplnění chybějících dat
Kověření vhodnosti a spolehlivosti zvolených metod doplnění chybějících dat bylo
vybráno 85 regionů z celkového počtu 202 regionů, pro které byla data u všech 21 pro-
měnných úplná. Vznikl tak soubor menšího rozsahu, ve kterém byla uměle, pomocí náhod-
ného výběru vytvořena chybějící pozorování, respektující podíl chybějících dat v původ-
ním souboru.
Porovnání doplněných a skutečných dat bylo provedeno zjištěním rozdílu mezi dopl-
něnými a skutečnými hodnotami a tyto rozdíly byly normovány směrodatnou odchylkou
příslušné proměnné, vypočtené ze skutečných dat. Takto získané relativní chyby byly dále
analyzovány a zobrazeny v histogramu v grafu 1–3.
452
Graf 1 Histogram relativních chyb pro data doplněná ZET algoritmem
Graf 2 Histogram relativních chyb pro data doplněná průměrem
453
5/2OO9
Graf 3 Histogram relativních chyb pro data doplněná mediánem
Porovnáním uvedených histogramů zjistíme, že histogram relativních chyb po doplně-
ní dat ZET algoritmem je nejužší a střed intervalu obsahující nulu je interval s nejvyšší čet-
ností. Odhadnutá směrodatná odchylka relativních chyb po doplnění dat ZET algoritmem
je 0,454648, přičemž odhadnuté směrodatné odchylky relativních chyb po doplnění prů-
měrem a mediánem jsou dvojnásobné (0,869174 a 0,861932). Jako vůbec nejpřesnější se
tato metoda jeví v případě doplnění chybějících dat u proměnné charakterizující ekono-
mickou výkonnost regionů, tedy u proměnné HDP na obyvatele (% k průměru EU).
Původní hodnota v případě regionu Praha (CZ01) nabývá hodnoty 157 %, doplněná ZET
algoritmem 156,7 %, průměrem 89 % a mediánem 85 %. V případě regionu Berlin (DE30)
je původní hodnota 101 % a doplněná ZET algoritmem 101,1 %, průměrem 89 % a medi-
ánem 85 %. Naopak nižší přesnost pozorujeme u proměnné počet biotechnologických
patentů na milion obyvatel v regionu Střední Morava (CZ07), kde skutečná hodnota je
0,87 a doplněná hodnota ZET algoritmem je 4, průměrem 12 a mediánem 4,15. Vzhledem
k celkovým výsledkům doplnění dat na vybraném úplném výše popsaném podsouboru dat,
se autoři textu domnívají, že ZET algoritmus je vhodná metoda k doplnění chybějících
regionálních dat, která charakterizují socioekonomický vývoj regionů Evropské unie na
základě dat ze statistické ročenky publikované za rok 2007. Ověření vlastností použitého
algoritmu ZET pro více časových obdobích přesahuje zamýšlený rámec této práce, nicmé-
ně autoři práce nevidí důvod, proč by se měl použitý algoritmus na datech zjištěných pro
jiná období chovat jinak (data jsou časově korelovaná a vykazují pouze spojité změny).
7. Klasifikace regionů EU
Pomocí popsaných metod byla následně doplněna chybějící data pro všech 202 analy-
zovaných regionů Evropské unie s cílem prokázat vliv metody doplnění na výsledek mno-
454
horozměrné klasifikace. Proměnné byly před aplikací shlukové analýzy standardizovány
(hodnoty každé proměnné byly děleny příslušnou směrodatnou odchylkou stanovenou
z doplněných dat).
Shluková analýza byla provedena na 3 datových souborech podle typu doplnění dat.
V článku je prezentována pouze klasifikační analýza doplněná metodou ZET, která se uká-
zala jako nejkvalitnější. Odlišná klasifikace získaná na datech, kdy chybějící pozorování
byla doplněna průměrem nebo mediánem, byla rovněž provedena, ale v článku jsou uve-
deny pouze odlišnosti od klasifikace získané na datech doplněných metodou algoritmu
ZET.
Výsledek shlukové analýzy (Wardova metoda, euklidovská vzdálenost) zobrazuje
dendrogram na obrázku 1. Z něho je patrné, že při vysoké hladině shlukování (h=150) jsou
regiony klasifikovány do dvou základních skupin. První skupinu tvoří regiony „nových“
členských zemí EU (Česká republika, Slovensko, Maďarsko, Polsko, Slovinsko, Litva,
Lotyšsko, Estonsko) a vybrané regiony Itálie, Španělska, Francie, Portugalska a části
Německa. Druhá skupina je tvořena regiony „tradičních“ zemí EU. Geografické znázorně-
ní vytvořených shluků zobrazuje obrázek 2.
Obrázek 1 Výsledný dendrogram
455
5/2OO9
Obrázek 2 Mapové znázornění vytvořených shluků (h=150)
Snížením shlukovací hladiny na úroveň na h=50 získáme podrobnější klasifikaci regi-
onů Evropskéunie, znázorněnou na obrázku 3.
456
Obrázek 3 Mapové znázornění vytvořených shluků (h=50)
Takto byla vytvořena klasifikace 202 regionů na základě 21 proměnných, kdy chybějí-
cí data byla doplněna aplikací ZET algoritmu. Následující tabulka 3 popisuje výsledek kla-
sifikace na shlukovací hladině 50 a tabulka 4 na hladině 20, pro data doplněná ZET algo-
ritmem.
457
5/2OO9
Tabulka 3 Výsledky shlukové analýzy
Z výsledků regionální klasifikace můžeme pozorovat odlišný počet vytvořených
shluků na hladině h=50 v závislosti na zvolené metodě doplnění chybějících dat. Použitím
ZET algoritmu a aritmetického průměru byly identifikovány 4 shluky, použitím mediánu
shluky 3. Nezávisle na použité metodě doplnění dat byly seskupeny „nové“ členské země
Evropskéunie, jejichž hodnoty u sledovaných proměnných vykazují výrazné rozdíly opro-
ti ostatním regionům Evropské unie. Výjimku z těchto regionů tvoří metropole Praha
a Bratislava, které byly ve všech případech klasifikovány mezi skupinu ekonomicky silněj-
ších regionů. Potvrzen tak byl tzv. efekt hlavního města, který je však ovlivněn i samotnou
konstrukcí řady ekonomických proměnných, na jejichž vývoj však mají např. nemalý vliv
i zaměstnanci z jiných regionů. Porovnáním výsledků klasifikace (doplnění dat ZET algo-
ritmem, průměrem a mediánem) můžeme na shlukovací hladině 50 pozorovat významné
odlišnosti ve struktuře vzniklých shluků. Při doplnění dat pomocí ZET algoritmu pozoru-
jeme samostatný shluk „nových“ členských zemí Evropské unie (regiony ČR (bez CZ01),
Slovenka (bez SK01), Slovinska, Maďarska, Polska, Litvy, Lotyšska, Estonska), zatímco
vpřípadě doplnění chybějících dat průměrem a mediánem, jsou tyto regionyčlenyspoleč-
ného shluku s regionyjižní Itálie, s regiony bývalé NDR, části Španělska a Portugalska.
Podrobnější klasifikaci regionů vytvoříme snížením shlukovací hladiny na úroveň 20,
kdy v případě doplnění dat průměrem a mediáném získáme 10 skupin regionů a v přípa-
dě doplnění chybějících dat ZET algoritmem 12 skupin regionů znázorněných v tabulce.
458
Tabulka 4 Výsledky shlukové analýzy
Z tabulky 4 tak můžeme na shlukovací hladině 20 pozorovat shluk regionů jižní Itálie
(shluk 3), dále shluk regionů Polska a Slovenska – bez SK01 (shluk 5) a samostatný shluk
regionů Litvy,Lotyšska, Estonska, Českérepubliky(bez CZ01) a Maďarska (shluk 6).
Výsledky shlukové analýzy na nižší shlukovací hladině, tak poskytují přesnější informace
o vytvořených skupinách regionů a charakteru jejich regionální konkurenceschopnosti.
Mnohorozměrná klasifikace provedená na shlukovací hladině prostřednictvím dat doplně-
ných ZET algoritmem se jeví jakocitlivější oproti ostatním výsledkům popsaným v člán-
ku. Získáme tak podrobnější klasifikaci s větším počtem vytvořených shluků. Hlubší eko-
nomická analýza vytvořených shluků však bude vyžadovat další doplnění a přesahuje
rámec vytyčeného cíle tohoto článku.
8. Závěr
Regionální statistická data poskytují informace o socioekonomickém vývoji regionů
Evropskéunie a tvoří tak základ pro provádění příslušných regionálních analýz. Požadav-
kyna kvalitu těchto dat by tak měly reflektovat jejich význam a praktické použití. V sou-
boru regionálních dat, které byly v článku použity pro mnohorozměrnou klasifikaci regio-
nů Evropské unie, bylo prokázáno množství chybějících dat, které tak snižují dostupnou
459
5/2OO9
informaci v nich obsaženou. Metody, které byly v článku popsány, umožňují tato chybě-
jící data nahradit a tím zachovat plnou strukturu zvolených regionů a proměnných. Z hle-
diska odhadu velikosti relativní chyby u regionálních dat se jako nejvhodnější z popisova-
ných metod doplnění chybějících dat jeví použití ZET algoritmu, který pro regionální
analýzu dat poskytl nejpřesnější odhady. Výsledky klasifikací na neúplných regionálních
datech po jejich doplnění respektují přirozené rozdíly mezi regiony vyskytující se u jedno-
tlivých proměnných. Použité metody pro doplnění chybějících dat prokázaly existenci roz-
dílných výsledků mnohorozměrné klasifikace, které se však pro vyšší hodnoty shlukova-
cích hladin projevily jen na velmi omezeném počtu odlišně klasifikovaných regionů. Podle
očekávání dochází se snižováním shlukovací hladiny k rozdílnějším výsledkům klasifikace
v závislosti na použité metodě doplňování dat. Nicméně tendence klasifikovat regiony do
geograficky a socioekonomicky podobných uskupení byla zachována pro všechny uvažo-
vané metody doplnění chybějících dat pouze pro vyšší hodnoty shlukovacích hladin.
Literatura
0[1] Bezák, A. Funkčné mestské regióny na Slovensku. Geographia Slovana, 15, GÚ SAV, Bratisla-
va, 2000. 89 s. ISSN 1210-3519.
0[2] Buček, M. Významný posun v regionálnych informáciách, Štatistická ročenka regiónov Slo-
venska 2006 (recenzia). In: Ekonomický časopis, 2007. ISSN 0013-3035.
0[3] CAMBRIDGE ECONOMETRICS – Martin, R. L. et al. A Study on the Factors of Regional
Competitiveness. Cambridge Econometrics, 2004. 184 s.
0[4] EUROPEAN COMMISSION: Eurostat Regional Yearbook 2007, Luxembourg: Office for
Official Publications of the European Communities, 2007. ISBN 978-92-79-05077-0.
0[5] EUROSTAT: Reginal statistics 2008.
<Http://epp.eurostat.ec.europa.eu/portal/page?_pageid=1996,45323734&_dad=portal&_sche-
ma=PORTAL&screen=welcomeref&open=/&product=EU_MASTER_regions&depth=2>.
0[6] Hebák, P. Statistická data a jejich smysl. Statistika, 2001, č. 12, s. 491–496.
0[7] Hebák, P. Vícerozměrné statistické metody. Vyd. 1. Praha: Informatorium, 2004. 239 s.
0[8] Cuadrado-Roura , Juan R. Regional convergence in the European Union: from hypothesis to the
actual trends. The Annals of Regional Science. 1999, vol. 33, no. 3. ISSN 0570-1864.
0[9] Kadeřábková, J., Thrlínová, Z. Region a regionální vědy: Praha: Vysoká škola finanční a správ-
ní, 2008. 77 s. ISBN: 978-80-7408-009-8
[10] Latini, G., Passerini, G. Handling missing data. Applications to environmental analysis. WIT
Press Southampton, Boston, 2004.
[11] Little R. J. A. and Rubin D. B. Statistical analysis with missing data. Wiley series in probabili-
ty and statistics. Wiley InterScience. Hoboken, New Jersey, 2002.
[12] Lukasová, A., Šarmanová, J. Metody shlukové analýzy. Vyd. 1. Praha: SNTL, 1985. 210 s.
[13] Martin, R. European Integration and Economic Geography: Theory and empirics in the regio-
nal convergence debate. EU Integration and the New Economic Geography. Springer US, 2005.
ISBN 978-0-387-26258-1.
[14] Nařízení Rady (ES) č. 1083/2006.
460
[15] Odehnal, J., Michálek, J. Hodnocení konkurenceschopnosti vybraných regionů Evropské unie.
In: Ekonomický časopis, 2009, č. 2, s. 113–131. ISSN 0013-3035.
[16] Slaný, A. a kol. Konkurenceschopnost ekonomiky (komparace zemí 10CE). 1. vyd. Brno: Masa-
rykova univerzita, 2008. 408 s. ISBN 978-80-210-4735-9.
[17] Slavík, C. Reálná konvergence České republiky k EU v porovnání s ostatními novými člen-
skými zeměmi. Politická ekonomie, 2007.
[18] Sojková, Z., Kropková, Z. Skúmanie regionálných dispartit Európskej únie na úrovni NUTS2.
In: Forum Statisticum slovacum, 2006. ISSN 1336-7420.
[19] Stařík, D. Sezónní očišťování časových řad s programem Demetra. Statistika, 2000, č. 12,
s. 529–542.
[20] Šlégrová H. Kvalita statistických dat. Statistika, 2002, č. 5, s. 153–161.
[21] Wokoun, R. Regionální rozvoj: Praha: Linde, 2008. 475 s. ISBN: 978-80-7201-699-0.
[22] Zagoruiko, N. G., Yolkina, V. N. Handbook of Statistics. 1st edition. Vol. 2. P. R Kirihnaiah
and L. N. Kanal. [s. l.]: North-Holland Publishing Company, Inference and Data Tables with
Missing Values, 1982, p. 493–500.
[23] Žítek, V., Klímová, V. Regionální politika, Masarykova univerzita, Brno, 2008. 106 s. ISBN:
978-80-2104-7617.
Jakub Odehnal, Univerzita obrany, Katedra ekonomie, Kounicova 65, 602 00 Brno,
e-mail: jakub.odehnal@unob.cz
Jiří Neubauer, Univerzita obrany, Katedra ekonometrie, Kounicova 65, 602 00 Brno,
e-mail: jiri.neubauer@unob.cz
Jaroslav Michálek, Vysoké učení technické, FSI, Ústav matematiky, Technická 2, 616 00 Brno,
e-mail: michalek@fme.vutbr.cz
Abstract
The paper deals with the clustering of 202 European NUTS 2 regions into groups with similar
values of 22 economic variables. Data were obtained from the Eurostat Regional Yearbook 2007 and
from the database Regional Statistics and they contain high number of missing values. The data ana-
lysis is primarily focused on filling missing values. Three methods for filling missing values were
used and compared: filling by average, by median and by ZET algorithm described in [22]. The
results of clustering are described by tables and by dendrogram. Further the comparison of the
classification results with regard to the method of handling with missing data was performed. The
conclusion is that the ZET algorithm is the suitable statistical technique for filling missing data in
considered data files.
Key words: Missing data, ZET algorithm, Competitiveness, NUTS classification of EU regions.
461
5/2OO9