ArticlePDF Available

Použití neúplných datových souborů ke klasifikaci regionů EU

Authors:
  • University of Defence in Brno
  • University of Defence, Brno, Czech Republic

Abstract

1. Úvod Jedním z dlouhodobých cílů evropské regionální politiky je postupné snižování rozdí-lů v ekonomické vyspělosti jednotlivých regionů. V programovém období 2007 až 2013 jsou v Nařízení rady (ES) č. 1083/2006 [14] stanoveny 3 cíle kohezní politiky: konvergen-ce, regionální konkurenceschopnost a zaměstnanost a evropská územní spolupráce. První cíl označený jako konvergence má dle [14] zahrnovat regiony jejichž rozvoj měřený HDP na obyvatele zaostává pod úrovní 75 % průměru evropského společenství. Druhý vymezený cíl Regionální konkurenceschopnost a zaměstnanost má působit zejména na oblast lidských zdrojů, zvyšování kvalifikací, podporu inovací a na posílení konkuren-ceschopnosti. Třetí cíl Evropská územní spolupráce má posílit zejména spolupráci mezi hraničními regiony a tak působit na jejich vzájemný rozvoj. Takto vymezené cíle je možné prostřednictvím řady kvantifikovaných proměnných měřit a zjišťovat tak jejich dodržování a faktickou účinnost použitých nástrojů evropské regionální politiky. Zmiňovaným oblastem se podrobně věnuje celá řada publikací a časo-piseckých prací. Testování konvergenčních případně divergenčních tendencí můžeme nalézt v [8, 13, 17, 18], měření regionální konkurenceschopnosti např. v [3, 15, 16]. Spo-lečným prvkem těchto prací je užívání statistických dat k ověření teoreticky vymezených hypotéz. Takováto data by měla, co se týče jejich vlastností, splňovat některá základní kri-téria uvedená např. v [20], případně i v [6]. Zejména by se mělo jednat o data úplná, rele-vantní, přesná, včasná, dostupná a srovnatelná. Zmiňovaná kritéria budou dále v textu dis-kutována, zejména s ohledem na regionální data a jejich využití pro socioekonomické analýzy. Pro zajištění regionální porovnatelnosti používaných dat byly na konci 60. let vymeze-ny statistické územní jednotky NUTS (zkratka z francouzského La Nomenclature des Uni-tés Territoriales Statistiques). Klasifikace je zavedena v zemích Evropské unie, v kandi-dátských zemích a také v zemích EFTA (Evropské sdružení volného obchodu). Z hlediska popsaných cílů regionální politiky Evropské unie je tato klasifikace významná zejména pro regiony tzv. NUTS 2, které na základě dosažené ekonomické úrovně mohou čerpat podpo-ru z evropských strukturálních fondů. Regionální data poskytují cenné informace o regio-nech a tvoří tak jedno z kritérií možné finanční pomoci zaostalým regionům.
Použití neúplných datových souborů ke klasifikaci
regionů EU
1
Jakub Odehnal, Jiří Neubauer
Univerzita obrany, Brno
Jaroslav Michálek
Vysoké učení technic, Brno
1. Úvod
Jedním z dlouhodobých cílů evropské regionální politiky je postupné snižování rozdí-
lů v ekonomické vyspělosti jednotlivých regionů. V programovém období 2007 až 2013
jsou v Nařízení rady (ES) č. 1083/2006 [14] stanoveny 3 cíle kohezní politiky: konvergen-
ce, regionální konkurenceschopnost a zaměstnanost a evropská územní spolupráce.
První cíl označený jako konvergence má dle [14] zahrnovat regiony jejichž rozvoj
měřený HDP na obyvatele zaostává pod úrovní 75 % průměru evropského společenství.
Druhý vymezený cíl Regionální konkurenceschopnost a zaměstnanost má působit zejména
na oblast lidských zdrojů, zvyšování kvalifikací, podporu inovací a na posílení konkuren-
ceschopnosti. Třetí cíl Evropská územní spolupráce má posílit zejména spolupráci mezi
hraničními regiony a tak působit na jejich vzájemný rozvoj.
Takto vymezené cíle je možné prostřednictvím řady kvantifikovaných proměnných
měřit a zjišťovat tak jejich dodržování a faktickou účinnost použitých nástrojů evropské
regionální politiky. Zmiňovaným oblastem se podrobně věnuje celá řada publikací a časo-
piseckých prací. Testování konvergenčních případně divergenčních tendencí můžeme
nalézt v [8, 13, 17, 18], měření regionální konkurenceschopnosti např. v [3, 15, 16]. Spo-
lečným prvkem těchto prací je užívání statistických dat k ověření teoreticky vymezených
hypotéz. Takováto data by měla, co se týče jejich vlastností, splňovat některá základní kri-
téria uvedená např. v [20], případně i v [6]. Zejména by se mělo jednat o data úplná, rele-
vantní, přesná, včasná, dostupná a srovnatelná. Zmiňovaná kritéria budou dále v textu dis-
kutována, zejména s ohledem na regionální data a jejich využití pro socioekonomické
analýzy.
Pro zajištění regionální porovnatelnosti používaných dat byly na konci 60. let vymeze-
ny statistické územní jednotky NUTS (zkratka z francouzského La Nomenclature des Uni-
tés
T
erritoriales Statistiques). Klasifikace je zavedena v zemích Evropské unie, v kandi-
dátsk
ých zemích a také v
zemích EFT
A (Evropské sdružení volného obchodu). Z hlediska
popsaných cílů regionální politiky Evropské unie je tato klasifikace významná zejména pro
regiony tzv. NUTS 2, které na základě dosažené ekonomické úrovně mohou čerpat podpo-
ru z
evropských strukturálních fondů. Regionální data poskytují cenné informace o regio-
nech a tvoří tak jedno z kritérií možné finanční pomoci zaostalým regionům. Mnohoroz-
446
Konzultace
1
S podporou výzkumného záměru č. MO0FEM0000401.
měrné statistické metody se pak jeví jako vhodný nástroj pro provádění potřebných klasifi-
kací regionů, umožňující identifikaci regionů zaostalých na základě mnohorozměrného pří-
stupu ke sledovaným regionálním datům.
1. Možné přístupy ke klasifikaci regionů
Vymezení samotného pojmu region je předmětem řady odborných studií, pokusme se
tedy nejdříve za pomoci literárních zdrojů definovat pojem region. Podle přístupu uvede-
ného v [8] regionem myslíme oblast, která je určována geografickými, geologickými, his-
torickými, sociálně-ekonomickými podmínkami a administrativním vymezením. Regio-
nem tak můžeme označit určitý územní celek, který je menší než stát, jehož je však
součástí.
Podle definice statistického úřadu Evropského společenství [23] je region definován
jako plocha s více či méně přesně vyznačenými hranicemi, která často slouží jako admi-
nistrativní (správní) jednotka nižší úrovně, než je úroveň státu. Hranice regionu obvykle
vznikly jako přírodní (tvořeny fyzickými bariérami, které tak oddělovaly dvě skupiny oby-
vatel), historické (vycházející z tradičního rozdělení části Evropy na vévodství, knížectví,
svobodná města, království) a administrativní (správní) hranice (vyplývající z potřeby
funkce státu (výběr daní, zabezpečování produkce veřejných statků), která vyžaduje, aby
byla vykonávána na nižší úrovni, než je stát).
Podle vymezeného pojmu region můžeme nalézt i různorodou škálu typů regionů, které
se v literatuře hojně vyskytují. Např. dle H. H. Blotevogela (viz [21]) můžeme rozlišovat
následující typy regionů:
a) reálné (analytické) regiony,
b) regiony vymezené lidskými aktivitami a činnostmi,
c) identifikační regiony.
Podle účelu a cíle regionu můžeme (viz [9]) regiony dělit na:
a) administrativní (vymezeny se záměrem výkonu státní správy a územní samosprávy),
b) účelové (vymezeny na základě kritérií, vyplývajících z daného účelu).
V literatuře [20] můžeme pozorovat i časté dělení na regiony homogenní a nodální,
které jsou součástí tzv. deskriptivních regionů (dělení regionů na deskriptivní a normativ-
ní). Homogenní regiony se vymezují na základě rovnoměrné intenzity výskytu reprezenta-
tivního jevu. Nodální neboli funkční regiony vymezujeme na základě funkcí, jež vysvětlu-
jí důvod jejich existence. Vymezené nodální regiony jsou tak vnitřně heterogenní.
Normativní regiony jsou regiony, které vznikají jako důsledek předcházejícího politického
rozhodnutí.
Obdobné dělení jak
o v
[9] upřednostňuje i
pro účely klasif
ikace NUTS Statistický úřad
Evropských společenství, který respektuje dělení regionů na normativní a analytické.
Samotná klasifikace NUTS vychází z Nařízení Evropského parlamentu a rady
č. 1059/2003, která upravuje dělení členských států na územní jednotky NUTS 1, NUTS 2
a NUTS 3. Takto vytvořená klasifikace je hierarchická a každý stát může území úrovně
NUTS 3 dále hierarchicky dělit na úroveň NUTS 4 a NUTS 5. Tyto jednotky však byly
v
roce 2004 přejmeno
v
án
y na místní administrati
vní jednotk
y LA
U (LA
U1 a LAU2). Tato
447
5/2OO9
klasifikace však nemá obecně platný charakter a například u menších zemí Evropské unie
nalezneme podrobné členění regionů až na úrovni NUTS 3. Pro většinu zemí Evropské unie
však NUTS klasifikace aktuálně představuje následující dělení státu:
a) NUTS 0 – představuje celé území státu,
b) NUTS 1 – územní jednotka velkých oblastí,
c) NUTS 2 – představuje úroveň středního článku územně samosprávného členění,
d) NUTS 3 – odpovídá úrovni nejnižšího územně správního regionu státní správy,
e) LAU 1 (dříve NUTS 4) – zahrnuje okresy, mikroregiony,
f) LAU 2 (dříve NUTS 5) – zahrnuje obce.
K přesnému označení územních jednotek se využívá kód a název. Kód je tvořen kom-
binací písmen a číslic a je sestaven na základě následujících pravidel. Kód začíná dvojicí
písmen označující úroveň NUTS 0, tedy stát, např. pro NUTS 0 (stát) kód AT značí Öster-
reich. Třetí pozice v kódu označuje úroveň NUTS 1, tedy území a nabývá hodnot 1–9, při-
čemž v případě vyššího počtu jednotek jsou číslice nahrazena písmeny např. pro NUTS 1
značí kód AT2, území Südösterreich. Čtvrtá pozice v kódu označuje územní jednotky
NUTS 2 (oblasti) a páté místo v uvedeném kódu označuje kraje, tedy územní jednotky
NUTS 3. Např. pro NUTS 2, značí kód AT21 oblast Kärnten a pro NUTS 3 značí kód
AT211 oblast Klagenfurt-Villach.
Srovnatelnost dat v regionech je potřeba zajistit pomocí objektivních kriterií a právě její
dosažení je cílem vytvořené a právě popsané klasifikace regionů. Jako klasifikační krité-
rium pro zařazení do dané třídy jednotek byly zvoleny populační hranice uvedené v tabul-
ce 1.
Tabulka 1
Minimální a maximální populační hranice pro regiony NUTS
Regiony vymezené aplikací předcházejících kritérií jsou např. v publikacích [3, 15, 16]
podrobeny analýze socioekonomických dat na úrovni územních jednotek NUTS 2, které
odpovídají jednotlivým oblastem. Na nedostatky, jakým jsou regiony Statistickým úřadem
evropského společenství pro statistické účely vymezeny, poukazuje literatura [1, 2], kde
autoři poukazují na možnou nehomogennost regionů pro socioekonomické porovnávání.
Při zv
oleném způsob
u umělého institucionálního členění tak mohou být potlačo
v
ány přiro-
zené historické, socioekonomické a politické faktory, což na výsledek analýzy může mít
nemalý vliv.
Výhoda zv
olen
ých územních jednotek pramení zejména z
dostupnosti re
gionálních
dat, která je možno získat jednak z publikace Eurostat Regional Yearbook [4] a z databá-
ze Eurostat Regional Statistics [5]. O zdrojích a kvalitě dat, o metodách možného doplně-
ní chybějících dat a jejich vlivu na výsledky regionální klasifikace, umožňující identifika-
ci problémo
vých re
gionů, b
ude pojednáno v následující části práce.
448
2. Zdroje dat pro regionální analýzu
Ucelenou formu socio-ekonomických regionálních dat je možné získat z databáze
Regional Statistics [5] obsahující data regionů členských států Evropské unie, regionů kan-
didátských zemí a zemí EFTA. Hlavní podíl datových souborů je orientován na územní jed-
notky NUTS 2, výjimkou však nejsou data úrovně NUTS 3, eventuálně NUTS 1. Kolekce
obsahuje data z 12 oblastí: zemědělství, demografie, makroekonomie, vzdělávání, věda
a technika, obchodování, zdravotnictví, cestovní ruch, doprava a infrastruktura, trh práce,
pracovní náklady, informační společnost. Databáze tak poskytuje roční údaje a u některých
ukazatelů již od svého vzniku od roku 1975.
Obdobná regionální data je možné také získat z publikace Eurostat Regional Yearbook
2007 [4], publikované ročně, poskytující datový a mapový popis regionů NUTS 2. Ročen-
ka je rozdělena do 13 kapitol, přičemž její elektronická verze poskytuje datové podklady
použité pro konstrukci mapových výstupů v ní presentovaných. Členění kapitol je násle-
dující: obyvatelstvo, audit měst, hrubý domácí produkt, účty domácností, obchodní odvět-
vová statistika, trh práce, odvětvová produktivita, pracovní náklady, doprava, cestovní ruch,
věda, technologie a inovace, zdraví a zemědělství.
Možný nedostatek u popsaných zdrojů dat spatřujeme zejména v jejich neúplnosti,
která tak brání úplné socioekonomické analýze sledovaných regionů. V takovýchto analý-
zách pak nutně vznikají bílá místa jako např. v [4], zapříčiněná chybějícími daty u jednot-
livých regionů a proměnných. Nezbývá než chybějící proměnné z analýzy vynechat, pří-
padně i snížit počet analyzovaných regionů, což však může vést k částečné ztrátě
informace. O tom, jak jsou regionální data potřebná pro rozhodování subjektů kohezní poli-
tiky EU, již bylo pojednáno v úvodu textu, jsou však i zdrojem řady vědeckých analýz
a prací, ve kterých ovšem i z důvodu neúplnosti datových souborů nenalezneme úplnou
statistiku všech územních jednotek. Současně však existují metody, pomocí kterých je
možné chybějící data doplnit a tak počty regionů alespoň částečně navýšit.
V další části práce bude provedeno srovnání metod doplnění dat a vliv zvolené meto-
dy doplnění dat na výsledky mnohorozměrné socioekonomické regionální analýzy.
3. Metody doplnění dat
Při neúplnosti datového souboru můžeme použít pro doplnění chybějících dat různé
metody zmíněné např. v [10, 11, 19, 22]. Pro potřeby mnohorozměrné klasifikace regionů
EU byla vybrána socioek
onomická data pocházející z [4, 5]. Posouzením těchto dat byla
zjištěna jejich neúplnost a
k
jejich doplnění byly vybrán
y tři metody doplňo
v
ání chybějí-
cích dat. Dvě elementární metody, v praxi často doporučované, jsou založené na ukazate-
lích polohy (aritmetickém průměru a mediánu). Třetí metoda vychází ze ZET algoritmu,
který je publik
o
v
án ve [22]. Cílem bylo tedy vyšetřit vliv zvolené metody doplňování dat
na výsledky mnohorozměrné regionální analýzy.
Doplnění dat pomocí aritmetického průměru představuje základní metodu, kdy chybě-
jící data jsou nahrazena aritmetick
ým průměrem sledované proměnné. Nevýhodou je tak
zejména o
vli
vnění výsledku e
xtrémními hodnotami, které se v regionálních socio-ekono-
449
5/2OO9
mických datech vlivem přirozených rozdílů mezi regiony hojně vyskytují. Naopak medián
těmito extrémními hodnotami zatížen není.
Třetí použitá metoda pro doplnění chybějících pozorování založená na ZET algoritmu
vychází z datové matice znázorněné v tabulce 2.
Tabulka 2
Datová matice
Na základě statistických vazeb mezi jednotlivými sloupci datové matice (řádky jsou
regiony, sloupce jednotlivé ekonomické proměnné) odhadujeme chybějící hodnotu
a
ij
,
pomocí následujícího postupu:
Popis modifikace algoritmu ZET
Pomocí lineární transformace normalizujeme všechny prvky každého sloupce datové
matice na interval [0,1];
vybereme chybějící hodnotu a
ij
ve sloupci j, kterou chceme doplnit;
pro každé dva sloupce j a k, určíme jejich tzv. míru zaplnění L
jk
(j ≠ k), což je počet
řádků, v nichž zároveň ve sloupcích j a k nejsou chybějící hodnoty.
Určíme míru podobnosti
|
r
jk
|
sloupce j a k vyjádřenou pomocí absolutní hodnoty kore-
lačního koeficientu mezi sloupci j a k;
všechny známé hodnoty a
lj
sloupce j odhadneme hodnotou a
k
lj
pomocí hodnot a
lk
sloup-
ce k, který nemá chybějící hodnotu v řádku l. Odhad provedeme pomocí lineární regre-
se
kde b
jk
a c
jk
jsou parametry lineární regrese;
výsledný odhad každé známé hodnoty a
lj
pevně daného sloupce j se s ohledem na
všechn
y sloupce vypočítá jako vážený průměr jednotlivých odhadů
a
k
lj
podle vzorce
(1)
kde P je počet sloupců použitých při výpočtu odhadu a
lj
,
P < n-1. Váhy v uvedeném vzor-
ci jsou počítán
y pomocí měr podobnosti
|
r
jk
|
a
měr zaplnění
L
jk
a
závisí na dalším paramet-
ru
α
,
450
hodnotu
α
, najdeme tak, aby byl minimalizován součet čtverců mezi známými hodno-
tami a
l
j
a odhadovanými hodnotami a
~
l
j
, součet je počítán přes všechny řádkové indexy
odhadnutých nechybějících pozorování ve sloupci j.
Chybějící hodnotu a
ij
pak odhadneme pomocí a
~
lj
tak, že ve vzorci (1) položíme l = i,
když předem pomocí popsané lineární regrese stanovíme odhady a
k
ij
pro všechny sloup-
ce k, které nemají chybějící hodnotu v řádku i.
Užitím zpětné lineární transformace k lineární transformaci použité v prvním bodě
tohoto algoritmu stanovíme doplněné hodnoty.
Uvedený algoritmus byl implementován v programovém prostředí MATLAB a násled-
ně byl využit k doplnění chybějících dat.
4. Popis faktorů užitých k regionální klasifikaci
Samotný přístup k analýze regionální konkurenceschopnosti byl zvolen na základě
identifikovaných faktorů regionální konkurenceschopnosti publikovaných v [3]. Autoři ve
studii označují za klíčové faktory regionální konkurenceschopnosti faktor infrastruktury
a její dostupnosti, faktor lidských zdrojů a faktor produktivního (hospodářského) prostředí.
Faktor infrastruktury a její dostupnosti se skládá z ukazatele základní infrastruktury
charakterizujícího možnosti silniční, železniční a letecké dopravy v jednotlivých regio-
nech. Druhou součástí faktoru infrastruktury a její dostupnosti je ukazatel technologické
infrastruktury, charakterizující přístup k informačním technologiím, internetu. Třetí složku
faktoru infrastruktury a její dostupnosti tvoří znalostní infrastruktura hodnotící instituce
primárního, sekundárního a terciálního vzdělávání v regionech. Poslední složkou faktoru
je kvalita lokality charakterizující kvalitu bydlení, životního a kulturního prostředí v loka-
litě a její bezpečnost.
Faktor lidských zdrojů zahrnuje ukazatele demografického vývoje v podobě ukazatele
hustoty osídlení a migrace obyvatelstva a ukazatel vysoce kvalifikované pracovní síly.
Faktor produktivního (hospodářského) prostředí zahrnuje ukazatele podnikatelské kul-
tury charakterizujícího bariéry vstupu do odvětví, sektorové koncentrace, internacionaliza-
ce, inovačního potenciálu charakterizovaného počtem patentů, úrovní vědy a výzkumu
v regionech, přítomností vědecké regionální základny, přítomností univerzit, vlády,
dostupnosti kapitálu a povahy konkurence.
5. Popis užitých datových souborů
K
regionální analýze byly ze statistické ročenky Eurostat Regional Yearbook 2007 [4]
vybrány proměnné, které odpovídají klíčovým faktorům regionální konkurenceschopnosti
definovaným v [3] a charakterizující regionální konkurenceschopnost vymezenou jako
druh
ý cíl re
gionální politik
y Evropsk
é unie.
Zv
olené proměnné tedy jsou: HDP na obyvatele, počet ICT patentů na mil. obyvatel,
počet biotechnologických patentů na mil. obyvatel, zaměstnanost v technologicky a vědec-
ky náročných oborech, počet High-tech patentů na mil. obyvatel, celková změna počtu oby-
vatel, čistá migrace, procentní vyjádření HDP na obyvatele k průměru EU, příjem domác-
451
5/2OO9
ností, dlouhodobá nezaměstnanost, míra zaměstnanosti v regionech, míra nezaměstnanos-
ti v regionech, produktivita práce (HDP na zaměstnance), produktivita služeb, celko
výdaje na vědu a výzkum v regionech jako % HDP, procento zaměstnaných výzkumných
pracovníků v regionu, zaměstnanci vědy a výzkumu jako % pracovní síly, Poskytování IT
služeb v regionu, hustota silnic v regionech, počet lůžek v ubytovacích zařízení na tisíc
obyvatel a podíl pracovní síly s terciálním vzděláním na celkové pracovní síle.
K regionální mnohorozměrné analýze konkurenceschopnosti bylo původně vybráno
268 NUTS 2 regionů Evropské unie a 33 proměnných. Protože se v datech vyskytovala sys-
tematická chybějící pozorování velkého rozsahu, např. celé chybějící bloky dat, které neby-
lo vhodné doplňovat, byl počet klasifikovaných regionů snížen na 202 a počet proměnných
na 21. V takto vzniklém souboru zůstalo ještě 3,7 % chybějících pozorování, které bylo
nutné před samotnou klasifikací pomocí vhodné metody doplnit. Největší počet chybějících
dat (35) pozorujeme u proměnné charakterizující hustotu dopravních cest v regionech,
tedy u ukazatele infrastruktury. Naopak bylo identifikováno 8 proměnných bez chybějících
pozorování a tedy bez nutnosti data doplňovat. K následné klasifikaci regionů EU na dopl-
něných datech byla použita shluková analýza [7, 12] s cílem identifikovat skupiny regionů
EU s podobnou úrovní charakteristik regionální konkurenceschopnosti. K doplnění chy-
bějících dat byly zvoleny popsané metody z předcházející části textu. Tedy doplnění prů-
měrem, mediánem a ZET algoritmem.
6. Porovnání algoritmů pro doplnění chybějících dat
K ověření vhodnosti a spolehlivosti zvolených metod doplnění chybějících dat bylo
vybráno 85 regionů z celkového počtu 202 regionů, pro které byla data u všech 21 pro-
měnných úplná. Vznikl tak soubor menšího rozsahu, ve kterém byla uměle, pomocí náhod-
ného výběru vytvořena chybějící pozorování, respektující podíl chybějících dat v původ-
ním souboru.
Porovnání doplněných a skutečných dat bylo provedeno zjištěním rozdílu mezi dopl-
něnými a skutečnými hodnotami a tyto rozdíly byly normovány směrodatnou odchylkou
příslušné proměnné, vypočtené ze skutečných dat. Takto získané relativní chyby byly dále
analyzovány a zobrazeny v histogramu v grafu 1–3.
452
Graf 1 Histogram relativních chyb pro data doplněná ZET algoritmem
Graf 2 Histogram relativních chyb pro data doplněná průměrem
453
5/2OO9
Graf 3 Histogram relativních chyb pro data doplněná mediánem
Porovnáním uvedených histogramů zjistíme, že histogram relativních chyb po doplně-
ní dat ZET algoritmem je nejužší a střed intervalu obsahující nulu je interval s nejvyšší čet-
ností. Odhadnutá směrodatná odchylka relativních chyb po doplnění dat ZET algoritmem
je 0,454648, přičemž odhadnuté směrodatné odchylky relativních chyb po doplnění prů-
měrem a mediánem jsou dvojnásobné (0,869174 a 0,861932). Jako vůbec nejpřesnější se
tato metoda jeví v případě doplnění chybějících dat u proměnné charakterizující ekono-
mickou výkonnost regionů, tedy u proměnné HDP na obyvatele (% k průměru EU).
Původní hodnota v případě regionu Praha (CZ01) nabývá hodnoty 157 %, doplněná ZET
algoritmem 156,7 %, průměrem 89 % a mediánem 85 %. V případě regionu Berlin (DE30)
je původní hodnota 101 % a doplněná ZET algoritmem 101,1 %, průměrem 89 % a medi-
ánem 85 %. Naopak nižší přesnost pozorujeme u proměnné počet biotechnologických
patentů na milion obyvatel v regionu Střední Morava (CZ07), kde skutečná hodnota je
0,87 a doplněná hodnota ZET algoritmem je 4, průměrem 12 a mediánem 4,15. Vzhledem
k celkovým výsledkům doplnění dat na vybraném úplném výše popsaném podsouboru dat,
se autoři te
xtu domnívají, že ZET algoritmus je vhodná metoda k doplnění chybějících
regionálních dat, která charakterizují socioekonomický vývoj regionů Evropské unie na
základě dat ze statistické ročenky publikované za rok 2007. Ověření vlastností použitého
algoritmu ZET pro více časových obdobích přesahuje zamýšlený rámec této práce, nicmé-
ně autoři práce ne
vidí dův
od, proč by se měl použitý algoritmus na datech zjištěných pro
jiná období cho
v
at jinak (data jsou časo
v
ě k
orelovaná a vykazují pouze spojité změny).
7. Klasifikace regionů EU
Pomocí popsaných metod byla následně doplněna chybějící data pro všech 202 analy-
zovaných regionů Evropské unie s cílem prokázat vliv metody doplnění na výsledek mno-
454
horozměrné klasifikace. Proměnné byly před aplikací shlukové analýzy standardizovány
(hodnoty každé proměnné byly děleny příslušnou směrodatnou odchylkou stanovenou
z doplněných dat).
Shluková analýza byla provedena na 3 datových souborech podle typu doplnění dat.
V článku je prezentována pouze klasifikační analýza doplněná metodou ZET, která se uká-
zala jako nejkvalitnější. Odlišná klasifikace získaná na datech, kdy chybějící pozorování
byla doplněna průměrem nebo mediánem, byla rovněž provedena, ale v článku jsou uve-
deny pouze odlišnosti od klasifikace získané na datech doplněných metodou algoritmu
ZET.
Výsledek shlukové analýzy (Wardova metoda, euklidovská vzdálenost) zobrazuje
dendrogram na obrázku 1. Z něho je patrné, že při vysoké hladině shlukování (h=150) jsou
regiony klasifikovány do dvou základních skupin. První skupinu tvoří regiony „nových“
členských zemí EU (Česká republika, Slovensko, Maďarsko, Polsko, Slovinsko, Litva,
Lotyšsko, Estonsko) a vybrané regiony Itálie, Španělska, Francie, Portugalska a části
Německa. Druhá skupina je tvořena regiony „tradičních“ zemí EU. Geografické znázorně-
ní vytvořených shluků zobrazuje obrázek 2.
Obrázek 1
Výsledný dendrogram
455
5/2OO9
Obrázek 2 Mapové znázornění vytvořených shluků (h=150)
Snížením shlukovací hladiny na úroveň na h=50 získáme podrobnější klasifikaci regi-
onů Evropské unie, znázorněnou na obrázku 3.
456
Obrázek 3 Mapové znázornění vytvořených shluků (h=50)
Takto byla vytvořena klasifikace 202 regionů na základě 21 proměnných, kdy chybějí-
cí data byla doplněna aplikací ZET algoritmu. Následující tabulka 3 popisuje výsledek kla-
sifikace na shlukovací hladině 50 a tabulka 4 na hladině 20, pro data doplněná ZET algo-
ritmem.
457
5/2OO9
Tabulka 3 Výsledky shlukové analýzy
Z výsledků regionální klasifikace můžeme pozorovat odlišný počet vytvořených
shluků na hladině h=50 v závislosti na zvolené metodě doplnění chybějících dat. Použitím
ZET algoritmu a aritmetického průměru byly identifikovány 4 shluky, použitím mediánu
shluky 3. Nezávisle na použité metodě doplnění dat byly seskupeny „nové“ členské země
Evropské unie, jejichž hodnoty u sledovaných proměnných vykazují výrazné rozdíly opro-
ti ostatním regionům Evropské unie. Výjimku z těchto regionů tvoří metropole Praha
a Bratislava, které byly ve všech případech klasifikovány mezi skupinu ekonomicky silněj-
ších regionů. Potvrzen tak byl tzv. efekt hlavního města, který je však ovlivněn i samotnou
konstrukcí řady ekonomických proměnných, na jejichž vývoj však mají např. nemalý vliv
i zaměstnanci z jiných regionů. Porovnáním výsledků klasifikace (doplnění dat ZET algo-
ritmem, průměrem a mediánem) můžeme na shlukovací hladině 50 pozorovat významné
odlišnosti ve struktuře vzniklých shluků. Při doplnění dat pomocí ZET algoritmu pozoru-
jeme samostatný shluk „nových“ členských zemí Evropské unie (regiony ČR (bez CZ01),
Slovenka (bez SK01), Slovinska, Maďarska, Polska, Litvy, Lotyšska, Estonska), zatímco
v
případě doplnění chybějících dat průměrem a
mediánem, jsou tyto re
gion
y člen
y společ-
ného shluku s
re
gion
y jižní Itálie, s regiony bývalé NDR, části Španělska a Portugalska.
Podrobnější klasifikaci regionů vytvoříme snížením shlukovací hladiny na úroveň 20,
kdy v případě doplnění dat průměrem a mediáném získáme 10 skupin regionů a v přípa-
dě doplnění chybějících dat ZET algoritmem 12 skupin regionů znázorněných v tabulce.
458
Tabulka 4 Výsledky shlukové analýzy
Z tabulky 4 tak můžeme na shlukovací hladině 20 pozorovat shluk regionů jižní Itálie
(shluk 3), dále shluk regionů Polska a Slovenska – bez SK01 (shluk 5) a samostatný shluk
regionů Litvy, Lotyšska, Estonska, České republiky (bez CZ01) a Maďarska (shluk 6).
Výsledky shlukové analýzy na nižší shlukovací hladině, tak poskytují přesnější informace
o vytvořených skupinách regionů a charakteru jejich regionální konkurenceschopnosti.
Mnohorozměrná klasifikace provedená na shlukovací hladině prostřednictvím dat doplně-
ných ZET algoritmem se jeví jako citlivější oproti ostatním výsledkům popsaným v člán-
ku. Získáme tak podrobnější klasifikaci s větším počtem vytvořených shluků. Hlubší eko-
nomická analýza vytvořených shluků však bude vyžadovat další doplnění a přesahuje
rámec vytyčeného cíle tohoto článku.
8. věr
Regionální statistická data poskytují informace o socioekonomickém vývoji regionů
Evropsk
é unie a tvoří tak základ pro provádění příslušných regionálních analýz. Požadav-
k
y na kv
alitu těchto dat by tak měly reflektovat jejich význam a praktické použití. V sou-
boru re
gionálních dat, které byly v
článku použity pro mnohorozměrnou klasif
ikaci re
gio-
nů Evropské unie, bylo prokázáno množství chybějících dat, které tak snižují dostupnou
459
5/2OO9
informaci v nich obsaženou. Metody, které byly v článku popsány, umožňují tato chybě-
jící data nahradit a tím zachovat plnou strukturu zvolených regionů a proměnných. Z hle-
diska odhadu velikosti relativní chyby u regionálních dat se jako nejvhodnější z popisova-
ných metod doplnění chybějících dat jeví použití ZET algoritmu, který pro regionální
analýzu dat poskytl nejpřesnější odhady. Výsledky klasifikací na neúplných regionálních
datech po jejich doplnění respektují přirozené rozdíly mezi regiony vyskytující se u jedno-
tlivých proměnných. Použité metody pro doplnění chybějících dat prokázaly existenci roz-
dílných výsledků mnohorozměrné klasifikace, které se však pro vyšší hodnoty shlukova-
cích hladin projevily jen na velmi omezeném počtu odlišně klasifikovaných regionů. Podle
očekávání dochází se snižováním shlukovací hladiny k rozdílnějším výsledkům klasifikace
v závislosti na použité metodě doplňování dat. Nicméně tendence klasifikovat regiony do
geograficky a socioekonomicky podobných uskupení byla zachována pro všechny uvažo-
vané metody doplnění chybějících dat pouze pro vyšší hodnoty shlukovacích hladin.
Literatura
0[1] Bezák, A. Funkčné mestské regióny na Slovensku. Geographia Slovana, 15, GÚ SAV, Bratisla-
va, 2000. 89 s. ISSN 1210-3519.
0[2] Buček, M. Významný posun v regionálnych informáciách, Štatistická ročenka regiónov Slo-
venska 2006 (recenzia). In: Ekonomický časopis, 2007. ISSN 0013-3035.
0[3] CAMBRIDGE ECONOMETRICS – Martin, R. L. et al. A Study on the Factors of Regional
Competitiveness. Cambridge Econometrics, 2004. 184 s.
0[4] EUROPEAN COMMISSION: Eurostat Regional Yearbook 2007, Luxembourg: Office for
Official Publications of the European Communities, 2007. ISBN 978-92-79-05077-0.
0[5] EUROSTAT: Reginal statistics 2008.
<Http://epp.eurostat.ec.europa.eu/portal/page?_pageid=1996,45323734&_dad=portal&_sche-
ma=PORTAL&screen=welcomeref&open=/&product=EU_MASTER_regions&depth=2>.
0[6] Hebák, P. Statistická data a jejich smysl. Statistika, 2001, č. 12, s. 491–496.
0[7] Hebák, P. Vícerozměrné statistické metody. Vyd. 1. Praha: Informatorium, 2004. 239 s.
0[8] Cuadrado-Roura , Juan R. Regional convergence in the European Union: from hypothesis to the
actual trends. The Annals of Regional Science. 1999, vol. 33, no. 3. ISSN 0570-1864.
0[9] Kadeřábková, J., Thrlínová, Z. Region a regionální vědy: Praha: Vysoká škola finanční a správ-
ní, 2008. 77 s. ISBN: 978-80-7408-009-8
[10] Latini, G., Passerini, G. Handling missing data. Applications to environmental analysis. WIT
Press Southampton, Boston, 2004.
[11]
Little R.
J. A. and Rubin D. B. Statistical analysis with missing data. Wiley series in probabili-
ty and statistics. Wiley InterScience. Hoboken, New Jersey, 2002.
[12] Lukasová, A., Šarmanová, J. Metody shlukové analýzy. Vyd. 1. Praha: SNTL, 1985. 210 s.
[13] Martin, R. European Integration and Economic Geography: Theory and empirics in the regio-
nal convergence debate. EU Integration and the New Economic Geography. Springer US, 2005.
ISBN 978-0-387-26258-1.
[14] Nařízení Rady (ES) č. 1083/2006.
460
[15] Odehnal, J., Michálek, J. Hodnocení konkurenceschopnosti vybraných regionů Evropské unie.
In: Ekonomický časopis, 2009, č. 2, s. 113–131. ISSN 0013-3035.
[
16] Slaný, A. a kol. Konkurenceschopnost ekonomiky (komparace zemí 10CE). 1. vyd. Brno: Masa-
rykova univerzita, 2008. 408 s. ISBN 978-80-210-4735-9.
[17] Slavík, C. Reálná konvergence České republiky k EU v porovnání s ostatními novými člen-
skými zeměmi. Politická ekonomie, 2007.
[18] Sojková, Z., Kropková, Z. Skúmanie regionálných dispartit Európskej únie na úrovni NUTS2.
In: Forum Statisticum slovacum, 2006. ISSN 1336-7420.
[19] Stařík, D. Sezónní očišťování časových řad s programem Demetra. Statistika, 2000, č. 12,
s. 529–542.
[20] Šlégrová H. Kvalita statistických dat. Statistika, 2002, č. 5, s. 153–161.
[21] Wokoun, R. Regionální rozvoj: Praha: Linde, 2008. 475 s. ISBN: 978-80-7201-699-0.
[22] Zagoruiko, N. G., Yolkina, V. N. Handbook of Statistics. 1st edition. Vol. 2. P. R Kirihnaiah
and L. N. Kanal. [s. l.]: North-Holland Publishing Company, Inference and Data Tables with
Missing Values, 1982, p. 493–500.
[23] Žítek, V., Klímová, V. Regionální politika, Masarykova univerzita, Brno, 2008. 106 s. ISBN:
978-80-2104-7617.
Jakub Odehnal, Univerzita obrany, Katedra ekonomie, Kounicova 65, 602 00 Brno,
e-mail: jakub.odehnal@unob.cz
Jiří Neubauer, Univerzita obrany, Katedra ekonometrie, Kounicova 65, 602 00 Brno,
e-mail: jiri.neubauer@unob.cz
Jaroslav Michálek, Vysoké učení technické, FSI, Ústav matematiky, Technická 2, 616 00 Brno,
e-mail: michalek@fme.vutbr.cz
Abstract
The paper deals with the clustering of 202 European NUTS 2 regions into groups with similar
values of 22 economic variables. Data were obtained from the Eurostat Regional Yearbook 2007 and
from the database Regional Statistics and they contain high number of missing values. The data ana-
lysis is primarily focused on filling missing values. Three methods for filling missing values were
used and compared: filling by average, by median and by ZET algorithm described in [22]. The
results of clustering are described by tables and by dendrogram. Further the comparison of the
classification results with regard to the method of handling with missing data was performed. The
conclusion is that the ZET algorithm is the suitable statistical technique for filling missing data in
considered data files.
Key words: Missing data, ZET algorithm, Competitiveness, NUTS classification of EU regions.
461
5/2OO9
Article
Full-text available
The article is focused on the application of multivariety classification techniques for assessing the business environment of selected European Union regions. The theoretical part deals with the issue of identifying the factors, which boost the attractiveness of regions for possible investors. In accordance with a character of used data the authors have chosen the factor analysis and the cluster analysis for the classification process. As an input for the practical analysis such data sets have been selected which describe regional business environment in the EU. The initial number of chosen regions had to be reduced because of the missing data. The ZET algorithm has been applied to complete the mising values in the remaining number of regions. The following four indicators of business environment were created on the basis of factor analysis: the indicator of quality of labour forces and innovations, the indicator of labour market, the indicator of economic activity and the indicator of demographic development. Empirical classifications were explored on two different linkages by means of created factors. Individual clusters were compared by average values of factor scores. The results of comparison were discussed.
Article
Full-text available
The main goal of the article is to present investing in art as contemporary financial innovation. Investing in artifacts, compared to traditional forms of capital allocation, is an alternative form of investment. The art market is an attractive form of investment, because it combines economic aspects of capital allocation with aesthetic sensations. Enrichment of the society significantly stimulates development of the art market. For nearly a decade, international art market has been characterized by a dynamic growth rate. Up until the outbreak of the financial crisis in 2008, the growth rate ranged from 30% to 60% annually. The value of the global art market in 2013 was 63 billion dollars, while the sale of artifacts between the years 2009 and 2013 increased by 60%. It indicates the prospects for further development of this segment of the international alternative investments market. As such, analysis of the changing trends on the international art market seems to be of interest. To lead such analysis, the method of induction and deduction have been use.
Article
Full-text available
Economic convergence or non-convergence between countries and regions continues to attract analytical attention in Europe. To converge in real terms and not only in terms of nominal variables is one of the basic aims of the European Union Treaty. A first objective of this paper is to offer an overview on what is actually happening in the European Union in contrast to some generally accepted hypotheses and models predicting regional convergence. Empirical evidence shows that after a period of (relative) regional convergence in GDP per capita as well in terms of labour productivity, this process has almost completely ended. Possible explanations go from the most pro-convergence theories (optimists) to those that outweigh real obstacles to theoretical assumptions (pessimists). As a second objective the paper examines two important facts that can contribute to explaining the actual trends. The first is named the `national effect', where regions of each country have economic behaviour strongly linked to the national economy as a whole. The second is the `differential' behaviour of many European regions in terms of economic outcomes. Some suggestions and conclusions are drawn from the facts and the trends observed in the European integration process.
Article
Algorithms ZET and VANGA have been used in solving a great number of tasks in the field of geology, medicine and agriculture. Redundancy of real tables is such that its use allows to make good filling of missing elements, even if their number sometimes approaches 30% of a total number of elements in a table. In algorithm ZET, to predict a missing element only the relevant groups of lines or columns of the matrix under study are used. Relevance is defined as a function of two variables: a measure of similarity ζil between a line (column) containing expected gap and lines (columns) not having a blank in the place corresponding to the expected gap. Naturally, the relevance of predicted lines (columns) is highest if they are more similar to the predicted ones and if they contain the greatest number of mutual non-empty elements.
A Study on the Factors of Regional Competitiveness
  • Cambridge Econometrics Martin
CAMBRIDGE ECONOMETRICS – Martin, R. L. et al. A Study on the Factors of Regional Competitiveness. Cambridge Econometrics, 2004. 184 s.
Sezónní očišťování časových řad s programem Demetra
  • D Stařík
Stařík, D. Sezónní očišťování časových řad s programem Demetra. Statistika, 2000, č. 12, s. 529–542.
Skúmanie regionálných dispartit Európskej únie na úrovni NUTS2
  • Z Sojková
  • Z Kropková
Sojková, Z., Kropková, Z. Skúmanie regionálných dispartit Európskej únie na úrovni NUTS2. In: Forum Statisticum slovacum, 2006. ISSN 1336-7420.