Content uploaded by Veslava Osinska
Author content
All content in this area was uploaded by Veslava Osinska on Mar 21, 2015
Content may be subject to copyright.
PROBLEMY – BADANIA – PRZEGL¥DY
Veslava OSIÑSKA
Uniwersytet Miko³aja Kopernika, TORUÑ
Visual mining czyli eksploracja informacji za pomoc¹
graficznych reprezentacji
Visual mining czyli eksploracja informacji
za pomoc¹ graficznych reprezentacji
W odpowiedzi na zalew informacji, w szczególnoœci medialnej, u¿ytkownicy chêtnie pre-
feruj¹ jej formy wizualne ze wzglêdu na w³aœciwoœci percepcyjne i analityczne. Trudno
o systematykê technik wizualizacyjnych, których zró¿nicowanie wynika z faktu, ¿e ta
metodologia maj¹ca korzenie w naukach komputerowych wykszta³ci³a siê z wielu kie-
runków badawczych, m.in.: analiza danych, statystyka, data mining, grafika kompute-
rowa, interakcja cz³owiek-komputer, kognitywistyka itp. Na rozwój wizualizacji wp³ynê-
³y wzrost mocy obliczeniowej komputerów, w³¹czaj¹c najnowsze rozwi¹zania wydajnych
kart graficznych oraz nieliniowy przyrost zasobów sieciowych wolnego dostêpu. W arty-
kule przedstawione s¹ wyniki wieloaspektowych analiz zbioru dokumentów na podsta-
wie wizualizacji metadanych. Autorka pokazuje, jak zastosowanie metod wizualnych
dostarcza nowych perspektyw w analizie i interpretacji danych naukowych, jak mapy
wizualizacyjne wspomagaj¹ eksploracjê, jak równie¿ wyszukiwanie badanych dokumen-
tów. Zaprojektowany odpowiednio interfejs aplikacji zapewnia sprzê¿enie zwrotne, co
umo¿liwia u¿ytkownikowi sterowanie procesem wizualizacji.
Visual mining as data exploration using visualization maps. Currently users prefer
visual information in order to deal with the flood of information, particularly regarding to
medial communication. Visual form of data has to facilitate their perception and analysis. It
is difficult to classify of information visualization and visual data mining techniques because
it evolved from interdisciplinarity. Having roots in computer science, visualization overlaps
with data analysis, data mining, statistics, computer graphics, human-computer interaction,
cognitive science. Recent achievements in information science and computer science together
with the increased availability of digital scholarly data and computing resources accelerate
visualization development. In this paper the results of multifaceted visual analysis by means
of metadata mapping are presented. The author exemplifies the potential of visual analysis,
especially in data exploration and retrieval. Application’s interface allows to realize feed-
back with user and thus control the visualization process.
Wstêp
Problem powszechnego nadmiaru informacji jest
znany i dyskutowany w ró¿nych œrodowiskach: nau-
kowych, in¿ynierskich, biznesowych, dziennikarskich,
literackich oraz licznych forach internetowych. Jak so-
bie zatem radzimy w praktyce? Przyzwyczailiœmy siê,
¿e w naszej ocenie Ÿród³a sieciowe wymagaj¹ porów-
ISSN 1230-5529 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 3
Visual mining czyli eksploracja informacji za pomoc¹ graficznych reprezentacji
PROBLEMY–BADANIA–PRZEGL¥DY
PROBLEMY–BADANIA–PRZEGL¥DY
nania, zestawienia, weryfikacji i ostatecznie odfiltro-
wania lub odrzucenia. Mo¿na okreœliæ tak¹ kolejnoœæ
zachowañ, jako naturaln¹ – u¿ytkownicy sami przy-
stosowuj¹ siê do aktualnego stanu rozwoju Internetu.
Wed³ug przewidywañ naukowców, m.in. twórcy us³u-
gi World Wide Web Tima Bernersa Lee, taki stan
nieuporz¹dkowania mia³ trwaæ do 2010 roku1, po któ-
rym sieæ mia³a ewoluowaæ do sieci typowo semantycz-
nej [1, 2].
Na p³aszczyŸnie teoretycznej powstaj¹ ró¿ne kon-
cepcje i szko³y, stawiaj¹ce sobie za cel szybkie wydo-
bycie relewantnych danych ze strumienia informacji.
Istniej¹ metody wykorzystuj¹ce idee sieci semantycz-
nych, strukturalizowanych zasobów sieciowych oraz
serwisy kontrolowanej jakoœci (subject gateways). S¹
one wyraŸnie uzale¿nione od stanu rozwoju technolo-
gii sieciowych. Inne podejœcie do tego problemu polega
na edukacji szerokiego grona u¿ytkowników sieci po-
legaj¹ce na w³aœciwym zastosowaniu technologii
i kontroli edytorskiej w systemach wyszukiwawczych.
Specjaliœci informacji, zarówno teoretycy jak i prakty-
cy, posiadaj¹cy doœwiadczenie w obs³udze zasobów
bibliologicznych i bibliotecznych, proponuj¹ rozwi¹za-
nia oparte na odpowiednich dla danej problematyki
modelach zarz¹dzania informacj¹ i wiedz¹. Zak³ada-
j¹c, ¿e uda siê w ten sposób uporz¹dkowaæ Internet,
czytelnoϾ posegregowanej i pogrupowanej informacji
prawdopodobnie pozostanie równoleg³ym problemem
do rozwi¹zania.
Ogrom informacji obserwujemy nie tylko w prze-
strzeni sieciowej. Zalewaj¹ (czasownik ten jest najlep-
sz¹ metafor¹ prze³adowania informacj¹) nas strumie-
nie danych, produkowane codziennie przez systemy
medialne. Przemys³ wydawniczy, który zawdziêcza
swój szybki rozwój technologiom DTP, technologiom
sieciowym i dostêpnoœci elektronicznych czytników
od dekady generuje ponad milion ksi¹¿ek rocznie. Dla
porównania: w ca³ym XX wieku szacunkowa ogólno-
œwiatowa iloœæ wydanych ksi¹¿ek wynios³a 8 mln.
Wzrost produkcji piœmienniczej jest szczególnie zau-
wa¿alny we wspó³czesnej nauce. Jeœli w 1950 roku
wydawano na œwiecie 100 czasopism naukowych, to
dzisiaj ta liczba przekroczy³a jeden milion [4, s 10].
Gwa³townie rozrastaj¹ siê równie¿ globalne specjalis-
tyczne bazy danych, indeksuj¹ce coraz wiêksze zasoby
piœmiennictwa naukowego.
Takie zestawienia wielkoskalowych danych statys-
tycznych, szczególnie w odniesieniu do dynamicznych
zmian, wymagaj¹ prezentacji w postaci wykresów
i map. Tabelaryczna forma, z punktu widzenia odbior-
cy, w przypadku porównania obszernego zbioru du-
¿ych wartoœci liczbowych jest nieergonomiczna. Za-
gadnienie wydajnoœci sposobów prezentacji informacji
nale¿y do obszaru badañ nad ludzk¹ percepcj¹ i zro-
zumieniem (perception and cognition)2wzorców wizu-
alnych – temat ten jest rozwijany poni¿ej.
Wizualizacja i wizualna analiza danych
W u¿ytkowaniu du¿ych baz danych metody wizu-
alne mog¹ w widoczny sposób wp³ywaæ na ich zrozu-
mienie i interpretacjê. Generalnie struktury tabela-
ryczne (np. bazy danych) s³u¿¹ do tego, aby dane
przedstawiæ wieloaspektowo: w³aœciwoœci danych –
rekordów w tabeli – opisywane s¹ pomoc¹ wielu pól.
W przeniesieniu wartoœci tych pól na p³aszczyznê re-
prezentacji ekranu lub wydruku przeszkadza w³aœnie
ta nadmiarowa iloœæ w³aœciwoœci. Jednym z rozwi¹zañ
mo¿e byæ matematyczne „rozci¹gniêcie” przestrzeni
reprezentacji i uzyskanie w wyniku przestrzeni hiper-
bolicznej. Przy w³¹czeniu mechanizmów powiêksza-
nia (zooming), mo¿liwe jest stosowanie klasycznej
techniki wizualnej analizy – focus plus context3.
W nauce wizualizacja informacji (w literaturze
czêsto u¿ywa siê te¿ terminu Infoviz) utorowa³a œcie¿-
kê od koñca lat 80-tych. Pojêcie to zdefiniowano
w pracy trzech autorów Reading in Information Visua-
lization: Using Vision to Think [10, s. 7-25]. Wizuali-
zacjê informacji wyodrêbnili oni na tle innych zastoso-
wañ wizualizacji jako metodologiê naukow¹ i prak-
tyczn¹ dotycz¹c¹ analizy danych abstrakcyjnych.
W odró¿nienie od wizualizacji naukowej, która zaj-
muje siê zjawiskami naturalnymi i procesami fizycz-
nymi, zarówno na zewn¹trz, tak i wewn¹trz cz³owieka,
obiekty badañ Infoviz maj¹ naturê czysto abstrakcyj-
n¹: na przyk³ad dane statystyczne, charakterystyki ru-
chu sieciowego, notowania gie³dowe itp. Zgodnie z t¹
definicj¹ dotycz¹ one bardziej procesów i zachowañ
jakoœciowych, ni¿ iloœciowych. W Infoviz konieczne
jest zastosowanie wizualnej reprezentacji zamiast
reprezentacji liczbowo-tekstowej. Kolejn¹ niezbêdn¹
4PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 2013 t. XXI nr 3
PROBLEMY – BADANIA – PRZEGL¥DY
1W 2008 roku Tim Berners Lee w swoim wyst¹pieniu na konferencji TED
2009 og³osi³, ¿e „Web semantyczny ju¿ nadchodzi”.
2W angielskojêzycznej literaturze fachowej te dwa pojêcia wystêpuj¹ nie-
roz³¹cznie przy omawianiu procesów kognitywnych i przetwarzania wizu-
alnego (Vision) [30].
3Focus plus context – zasada projektowania interfejsu wizualizacyjnego,
który umo¿liwia równolegle: widok ca³oœci rozk³adu danych oraz ich
szczegó³ów np. w powiêkszonym oknie [14].
cech¹ wizualizacji informacji jest w³aœciwe wykorzys-
tanie ludzkiej percepcji. Poza tym aplikacje do zasto-
sowañ wizualnych musz¹ zapewniaæ dwustronn¹ in-
terakcjê z u¿ytkownikiem, aby móg³ on dobieraæ naj-
bardziej pasuj¹ce do danego zadania charakterystyki
uk³adów graficznych: zagêszczenie, powiêkszenie, ko-
lorystykê, ostroœæ glifów, oznakowanie i grupowanie
badanych obiektów.
W wykszta³ceniu pojêcia wizualizacji pomo¿e roz-
budowana definicja wskazuj¹ca, i¿ nie jest to jedynie
odtwarzanie danych, ale równie¿ wspomaganie ich
zrozumienia i interpretacji [13, s. 1-9]. W wizualizacji
informacji wielu badaczy widzia³o narzêdzie nie tylko
do analizy ale tak¿e do uruchomienia potencja³u
wnioskuj¹co-poznawczego, wymuszaj¹cego zdobycie
wiedzy o wzajemnych relacjach i podobieñstwach
grup danych [tam¿e, s. 9]. Jednoczeœnie interakcja
wizualizacji zapewnia metaforyczn¹ komunikacjê idei.
Wed³ug Edwarda Tufie – autora klasycznego pod-
rêcznika: The Visual Display of Quantitative Informa-
tion, gdzie zosta³y okreœlone zasady projektowania
dobrego interfejsu wizualizacyjnego, wy³¹cznie w ob-
razach, a nie w liczbach znajdziemy najefektywniejszy
sposób opisu, analizy i zestawieñ du¿ych zbiorów da-
nych iloœciowych [29, s. 12-35]. Nale¿y wizualizacjê
potraktowaæ jako alternatywê dla rozbudowanych ta-
bel, które komunikuj¹ odseparowane ci¹gi liczbowe.
W analizie pojedynczych wartoœci tabela jest pomoc-
na, lecz we wnioskowaniu, kiedy potrzeba wykrycia
trendów, relacji, dynamiki i wzorców, ju¿ nie wystar-
cza.
Techniki wizualizacji wykorzystywano w nauce ju¿
du¿o wczeœniej. Zastosowano je w ramach eksplora-
cyjnej analizy danych, któr¹ po raz pierwszy okreœli³
i rozwin¹³ amerykañski statystyk John Tukey w 1977
roku Exploratory Data Analysis. Eksploracja danych
(dataminig4), mo¿liwa dziêki rozwojowi systemów
komputerowych, jako jeden z etapów praktycznego
odkrywania wiedzy o danych, s³u¿y do wynajdywania
ukrytych zale¿noœci, podobieñstw i trendów w gru-
pach danych przy wykorzystaniu du¿ych repozytoriów
i hurtowni danych (warehouse). Metody obliczeniowe
eksploracyjnej analizy danych obejmuj¹ zarówno
proste statystyki opisowe, jak i bardziej zaawansowa-
ne, wywodz¹ce siê z obszaru badañ nad sztuczn¹ inte-
ligencj¹.
W sposób naturalny wizualizacja za pomoc¹ wy-
kresów i map sta³a siê jednym z podstawowych roz-
wi¹zañ nowoczesnego datamining, charakteryzuj¹ce-
go siê interfejsem przyjaznym dla specjalistów, anali-
tyków, maklerów biznesowych oraz u¿ytkowników
„inteligentnego oprogramowania” na rozmaitych po-
ziomach. J. Tukey pierwszy dostrzeg³ i podkreœli³ zna-
czenie wizualizacji w eksploracyjnej analizie danych
masowych [13, s. 15]. Cytuj¹c znane chiñskie przys³o-
wie „obraz wart jest tysi¹ca s³ów”, doda³, ¿e graficzne
reprezentacje s¹ wyj¹tkowo wydajne w szybkim prze-
kazywaniu du¿ych iloœci ró¿norodnej informacji nu-
merycznej [tam¿e, s. 16; 30, s. 353]. Informacje te po-
mimo kompleksowej natury, z za³o¿enia s¹ komuniko-
wane w sposób czytelny i efektywny. Niezbêdna jest tu
wiedza o zdolnoœciach ludzkiego mózgu w odczytywa-
niu ukrytych wzorców.
Analiza wieloaspektowych baz danych w pierw-
szym przybli¿eniu powinna zatem wykorzystywaæ na-
rzêdzia wizualizacyjne. W przypadku u¿ytkowania
rozbudowanych baz danych du¿y rozmiar, z³o¿onoœæ
i koniecznoœæ ci¹g³ej aktualizacji wymagaj¹ zastoso-
wania wydajnych metod analitycznych. Wtedy u¿ycie
wizualizacji, jest metod¹ z wyboru.
Percepcja wzrokowa a zrozumienie
Dlatego wiêc naukowcy, wykorzystuj¹cy wizualiza-
cjê winni równie¿ zainteresowaæ siê ludzk¹ percepcj¹.
W postrzeganiu obrazów wydawa³oby siê, ¿e udzia³
bierze przede wszystkim jeden ze zmys³ów, anga¿uj¹c
do tego narz¹d wzroku, a przetwarzanie informacji
zachodzi dopiero po dotarciu sygna³u do kory wzroko-
wej. Jeœli natomiast przyjrzymy siê, jak jest zbudowa-
na siatkówka ludzkiego oka, to odkryjemy, ¿e obraz
jest analizowany ju¿ na etapie postrzegania – percep-
cji. Siatkówka to sk³adaj¹ca siê z kilku warstw komó-
rek nerwowych tkanka, pokrywaj¹ca wklês³¹ wew-
nêtrzn¹ powierzchniê oka. Jej funkcja polega na prze-
kszta³ceniu wpadaj¹cego do oka œwiat³a w impulsy
elektryczne przekazuj¹ce informacje do kory wzroko-
wej w mózgu. W siatkówce oka u³o¿one s¹ trzy osobne
warstwy receptorów; z³o¿onoœæ tê uzupe³nia piêæ ro-
dzajów komórek: prêciki, czopki, komórki zwojowe,
amakrynowe i horyzontalne [30, s. 53]. Ka¿da war-
stwa i ka¿dy typ komórek s¹ odpowiedzialne za sk³a-
dowe ludzkiego widzenia, takie jak kontrast, krawê-
dzie, jasnoœæ, korelacje barwne itp. oraz za przesy³anie
informacji na zewn¹trz oka (czyli do mózgu). Taka
„specjalizacja zadañ” umo¿liwia niezale¿ny, szybki
przekaz impulsów w g³¹b mózgu i równoleg³e prze-
twarzanie informacji o obrazach. Odpowiedni obszar
ISSN 1230-5529 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 5
Visual mining czyli eksploracja informacji za pomoc¹ graficznych reprezentacji
4datamining – w dos³ownym t³umaczeniu oznacza „kopanie danych”.
w mózgu, przeznaczony do takiej wspó³pracy, usytuo-
wany jest w korze wzrokowej. Podsumowuj¹c, oko
plus kora wzrokowa tworz¹ potê¿ny procesor równo-
leg³y o wysokim stopniu przepustowoœci i bezpoœred-
nio sprzê¿ony z naszymi oœrodkami poznawczymi. Te
cechy œwiadcz¹ o tym, ¿e w poznawaniu otaczaj¹cego
œwiata widzenie i rozumowanie œciœle wspó³pracuj¹,
dlatego te dwa procesy s¹ punktem odniesienia w ko-
gnitywnych badaniach nad wizualizacj¹.
Nale¿y tu jeszcze wspomnieæ, ¿e lateralizacja móz-
gu sprawia, i¿ dwa niezale¿ne kana³y informacyjne,
biegn¹ce od lewego i prawego oka, równie¿ maj¹
„w³asne” oœrodki przetwarzania, zlokalizowane na
przeciwleg³ych pó³kolach. Ale dziêki tej „komplikacja”
mo¿liwe jest widzenie stereoskopowe.
Mo¿emy postrzegaæ obrazy przedstawione jedynie
w okreœlony sposób, i zupe³nie ich nie dostrzegaæ w in-
nej wizualizacji. Ta w³aœciwoœæ znajduje zastosowanie
w grach percepcyjno-kognitywnych, wykorzystu-
j¹cych z³udzenia optyczne. Jeœli zrozumiemy jak dzia-
³a percepcja, to wiedzê tê mo¿na zastosowaæ do wy-
œwietlenia informacji.To co widzimy jako obiekty, to
jest efekt przetworzenia i ³¹czenia wizualnych cech,
z których siê buduje podstawowe elementy widzenia.
O tych elementach po raz pierwszy napisa³ Jacques
Bertin – francuski psycholog – w ksi¹¿ce Semiology of
Graphics, gdzie spróbowa³ usystematyzowaæ znacze-
nia znaków graficznych. Wyró¿ni³ on szeœæ podstawo-
wych cech glifów5, które decyduj¹ o widzeniu [30, s.
145-159; 23, R. 1], przedstawione na Rysunku 1.
Najbardziej rozpoznawalnymi kszta³tami glifów na
mapach informacji s¹ ko³a, kwadraty, romby. Ró¿nico-
wanie ich wartoœci uzyskuje siê za pomoc¹ kolorów,
tonów (np. odcieni szaroœci w skali bia³y – czarny)
i wielkoœci (gruboœæ, wysokoœæ). W odwzorowaniu
dynamicznych zmian przydatne jest zaznaczanie
orientacji glifów.
Dzia³anie percepcji polega na nadawaniu arbitral-
nych wartoœci obserwowanym w uk³adzie wizualiza-
cyjnym obiektom. W szczególnoœci: wy¿szym s³up-
kom, d³u¿szym kreskom i liniom, powiêkszonym lub
ciemniejszym kó³kom intuicyjnie przypisujemy wiêk-
sze wartoœci. Wyró¿niaj¹ce siê kolorem lub kszta³tem
glify œwiadcz¹ o odmiennoœci danego obiektu wzglê-
dem ca³oœci. W ten sposób na poziomie percepcji mo-
¿emy ju¿ grupowaæ i kategoryzowaæ dane wzglêdem
podobieñstwa cech, u³atwiaj¹c sobie dalsz¹ wielo-
stronn¹ eksploracjê i zg³êbianie wiedzy o badanych
obiektach.
Regu³y percepcji wzrokowej mog¹ równie¿ pomóc
w doborze kszta³tu glifów. Dlatego w zestawieniu zró¿-
nicowanych wartoœci wydajny jest wykres s³upkowy,
wymyœlony jeszcze w XVIII wieku6. Naturalnym ru-
chem ga³ek ocznych jest przemiatanie wzrokiem
w kierunku góra-dó³. Dlatego wykres s³upkowy jest
bardziej ergonomiczny ni¿ inny, u¿ywany w statystyce,
np. „tortowy”. Wykres ko³owy stwarza tê trudnoœæ, i¿
mylnie szacujemy wartoœci ostrych i mocno rozwar-
tych k¹tów oraz ich ocena zale¿y od pionowego lub
poziomego u³o¿enia segmentu oraz rzutu aksjome-
trycznego (wstaw przypis) obiektu.
Wizualizacja domen wiedzy
Wizualizacja informacji stricte naukowej, czyli po-
chodz¹cej z bibliograficznych i bibliometrycznych baz
danych znacz¹co rozwinê³a siê w ostatnim dziesiêcio-
leciu, pomimo tego, ¿e pierwsza mapa nauki, nakre-
œlona rêcznie powsta³a w latach 60-tych, a wygenero-
wana komputerowo – w latach 70-tych. Wizualizacja
zaczyna wiêc budowaæ solidn¹ pozycjê w metodologii
nauk. Uznaje siê, ¿e s³u¿y ona do wykrywania aktual-
nych trendów tematycznych, dominuj¹cych obszarów
w nauce oraz dynamiki zmian w historii rozwoju ba-
dañ. Tematykê tê dyskutowali i dyskutuj¹ na ³amach
prasy biblio- i naukometrycznej (w kolejnoœci chrono-
logicznej): Eugene Garfield [15-17], Henry Small
i Henry White [29], Chaomei Chen [11, 12], Kevin
Boyack [9], Katy Börner [4-8]. W polskiej literaturze
6PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 2013 t. XXI nr 3
PROBLEMY – BADANIA – PRZEGL¥DY
1. kszta³t
2. wielkoϾ
3. jasnoϾ
4. ziarnistoϾ
5. ton (jako sk³adowa barwy)
6. orientacja
Rys. 1. Podstawowe cechy glifów wykorzystywanych
w wizualizacji informacji.
5Kszta³t znaku graficznego. Termin znany w poligrafii.
6Pomys³odawc¹ wykresu s³upkowego by³ szkocki in¿ynier William Play-
fair. W 1786 roku przedstawi³ on w ten sposób dane ekonomiczne w Com-
mercial and Political Atlas. By³ równie¿ autorem wykresu ko³owego.
fachowej te¿ s¹ dostêpne prace, dotycz¹ce tej proble-
matyki [21-23].
W wizualizacji nauki najczêœciej wykorzystywane
s¹ bazy WoS, Medline, Scopus. Badacze na takich ma-
pach maj¹ mo¿liwoœæ ca³oœciowego spojrzenia na roz-
wój interesuj¹cej tematyki, sfery badañ, grupy badaw-
czej albo nauki w skali lokalnej, krajowej i globalnej.
Mapy nauki s¹ publiczne dostêpne za pomoc¹ serwi-
sów dedykowanych. Jednym z nich jest wystawa pos-
terowa on-line Places&Spaces7, utworzona przez nau-
kowców z Uniwersytetu w Indiana.
Przyk³ady map on-line, a tak¿e przytoczone poni¿ej
dowodz¹, i¿ wizualizacja domen wiedzy zawiera du¿y
potencja³ analityczny, m.in. umo¿liwiaj¹c:
—ujawnienie spo³ecznej struktury dyscypliny/nauki
na podstawie danych o wspó³autorstwie, wspó³cy-
towaniach;
—badanie rozwoju dziedzin nauki i ewentualne prog-
nozowanie przysz³ych trendów naukowo-badaw-
czych;
—wspomaganie wyszukiwania informacji, s³u¿¹c
jako graficzny interfejs wyszukiwawczy;
—okreœlenie kierunków i polityki finansowania okre-
œlonych obszarów nauki.
Formalizmy analizy wizualnej w przyk³adach
Jednostki analizy – s¹ to zazwyczaj metadane
dokumentów, sk³adaj¹ce siê na takie pola, jak: tytu³,
autor, abstrakt, s³owa kluczowe, Ÿród³o pochodzenia,
dziedzina badañ, liczba cytowañ oraz pozycje biblio-
graficzne. W zale¿noœci od postawionego celu badaw-
czego, mapy wizualizacyjne s³u¿¹ do reprezentacji gra-
ficznych podobieñstw i wzajemnych relacji pomiêdzy
artyku³ami, czasopismami, autorami i/lub osobami,
powo³uj¹cymi siê na dane prace, jak równie¿ instytu-
cjami specjalizuj¹cymi siê w danej dziedzinie. Namno-
¿enie siê metod, technik, zró¿nicowanie zadañ wizua-
lizacji od dawna stwarza koniecznoϾ usystematyzo-
wania i zastosowania formalizmu w opisie tej nowej
dyscypliny.
Jak zasugerowa³y Katy Börner i Angela Zoss [7],
w wytypowaniu grup materia³u badawczego mo¿na
wyró¿niæ trzy poziomy analizy: micro, mezo i macro.
Zastosowanie najni¿szego poziomu (micro) – indywi-
dualnego, oznacza mapowanie metadanych, charakte-
ryzuj¹cych aktywnoœæ, dzia³anie, mobilnoœæ, rozwój
konkretnej osoby. W ten sposób mo¿emy zobaczyæ
z kim dany naukowiec wspó³pracuje, jak i czy zmienia
siê podejmowana przez niego problematyka badañ,
w jak przebiega jego kariera naukowa itp. Drugi po-
ziom – mezo – odnosi siê do grup spo³ecznych. Pytania
stawiane w tego rodzaju analizie dotycz¹ rozpiêtoœci
wspó³pracy danego zespo³u, granic i zmiennoœci zain-
teresowañ, obszarów naukowo-badawczych instytucji,
jednostek edukacyjnych. Na poziomie macro otrzymu-
je siê mapy dziedzin wiedzy dla danego kraju, konty-
nentu lub w skali globalnej. Na najwy¿szym poziomie
agregacji danych8otrzymuje siê wizualne konfiguracje
wybranych dziedzin naukowych lub struktury ca³ej
nauki.
W nowoczesnym, coraz czêstszym podejœciu
oprócz klasycznych metod i jednostek wykorzystuje
siê statystyki zachowañ u¿ytkowników bibliotek wol-
nego dostêpu i repozytoriów literatury naukowej [3].
Takie informacje jak logi odwiedzaj¹cych, schematy
zachowañ, wpisywane has³a s¹ bardzo wartoœciowym
materia³em do badañ nad popularnoœci¹, czytelnoœci¹
i cytowalnoœci¹ dokumentów. Zaprojektowane w ser-
wisach sieciowych mechanizmy spo³ecznego tagowa-
nia mog¹ wnieœæ istotne modyfikacje do wyjœciowej
reprezentacji.
Etapy procesu wizualizacji w³¹czaj¹: okreœlenie
jednostek analizy i skompletowanie danych, wybranie
odpowiedniej miary i przeprowadzenie obliczeñ i nas-
têpnie uruchomienie algorytmów mapowania prze-
strzennego [5]. W definiowaniu miary podobieñstwa
zawsze musi byæ procedura liczenia wspólnych cech
obiektów. Najczêœciej u¿ywa siê iloczynu skalarnego
(zwyk³ego przemno¿enia wartoœci). Alternatywnie s¹
wybierane na przyk³ad modele wektorowe s³ów
w tekœcie [21], korelacje Pearson’a lub zaawansowane
algorytmy lingwistyczne.
Kolejne podejœcie w systematyce analiz wizualnych
wymaga okreœlenie perspektywy mapowania. Zapropo-
nowano wiêc istniej¹ce metody Infoviz sprowadziæ do
czterech fundamentalnych perspektyw mapowania: cza-
sowej, geograficznej, tematycznej i sieciowej [7].
1. W skali czasu (kiedy)
Dane bibliograficzne s¹ mapowane w okreœlonym
okresie b¹dŸ okresach czasu. Powsta³y wzór obrazuje
dynamikê zmian w strukturze i organizacji danego
obszaru wiedzy zazwyczaj za pomoc¹ osi czasu. Eugen
Garfield nazwa³ takie reprezentacje naukografami
[17]. W³aœciwym pytaniem badawczym tu jest: „Kie-
ISSN 1230-5529 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 7
Visual mining czyli eksploracja informacji za pomoc¹ graficznych reprezentacji
7www.scimaps.org
8Termin, u¿ywany te¿ w statystyce w celu okreœlenia okreœlonej procedury
obliczeniowej. W kontekœcie natomiast chodzi o najwy¿szy poziom organi-
zacji metadanych w odniesieniu do kategorii tematycznych badañ.
dy?”. Tak mo¿emy przeœledziæ genealogiê wspó³czes-
nej nauki na podstawie metadanych 39 mln. artyku-
³ów naukowych opublikowanych w latach 1817-2010
[19]. Atrakcyjnoœci tej mapy dodaje Ÿród³o pochodze-
nia danych – baza Scopus, która ma oko³o dwukrotnie
wiêksz¹ objêtoœæ tytu³ów w porównaniu z WoS. Wy-
raŸnie widaæ na mapie, ¿e w drugiej po³owie XX wieku
gwa³towny rozwój nale¿y nauk medycznych i przyrod-
niczych. Na pocz¹tku wymienionego okresu czasu do-
minuje fizyka i astronomia, w œrodku skali (koniec
XIX wieku po lata 20-te XX w.) – matematyka. £atwe
wyt³umaczenie znajdziemy w historii rozwoju nauk
matematycznych, wynikaj¹cego równie¿ z uwarunko-
wañ geopolitycznych. XIX wiek – to czas formowania
pojêæ algebry klasycznej. Do matematycznych kierun-
ków na pocz¹tku XX w. zalicza siê tak¿e s³ynna lwow-
ska szko³a Stefana Banacha [28]. W czasie 1. wojny
œwiatowej skonstruowano mechaniczne urz¹dzenia
szyfruj¹co-deszyfruj¹ce – s¹ to pocz¹tki szybkiego roz-
woju kryptografii i kryptoanalizy.
W naukografach oœ czasu nie zawsze jest wymo-
giem. Dynamikê zmian mo¿na przedstawiæ w postaci
serii zmieniaj¹cych siê obrazów. Tak szeœæ map poka-
zuje zmiany w organizacji specjalistycznej klasyfikacji
literatury informatycznej z cyfrowej biblioteki ACM od
1968 do 2009 [20]. Ogólnodostêpny program Excel
równie¿ nadaje siê do obrazowania zmian. Mapa de-
monstruje historiê analizy wspó³cytowañ na przestrze-
ni lat 1973 do dzisiaj (Rys.2). Jest tak¿e graficznym
dowodem, i¿ Henry Small, Henry White, Katherine
McCain byli pionierami w tej dziedzinie.
2. Geograficzna (gdzie)
Jeœli dane biblio- i naukometryczne przetworzyæ
w ten sposób, aby odfiltrowaæ informacjê o lokalizacji
instytucji, z któr¹ powi¹zana jest badana grupa osób,
to przy wykorzystaniu geograficznych map danego re-
gionu mo¿na otrzymaæ geograficzne reprezentacje
z góry zdefiniowanej aktywnoœci ludzi. Tego typu wi-
zualizacje dostêpne s¹ na stronie Places&Spaces wka-
tegorii „Cartographic”. Mo¿na przeanalizowaæ jak ob-
raz œwiata utworzony na podstawie liczby logów u¿yt-
kowników gry sieciowej9ró¿ni siê od rzeczywistego,
gdzie s¹ w USA wolne miejsca pracy dla naukowców
i jakiej kategorii10 albo skupiæ siê na historycznych wi-
zualizacjach, np. marsz armii Napoleona na Moskwê,
klêskê i odwrót11.
3. Tematyczna (co)
Perspektywa „co” ukierunkowana jest na przedsta-
wienie zestawieñ tematycznych analizowanych da-
nych literatury. W graficznych reprezentacjach po-
wstaj¹cym klastrom (grupom) artyku³ów lub ich twór-
ców przypisuje siê nazwy opisowe, które generuje siê
statystycznie albo nadaje siê rêcznie. Te nazwy identy-
fikuj¹ tematyczne obszary badañ naukowych i w ten
sposób dokonuje siê mapowania nauki. Najbardziej
rozpoznawaln¹, obiektywn¹ (bo wykorzystuj¹cej a¿
7 mln artyku³ów z baz WoS, Scopus) i aktualn¹ jest
8PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 2013 t. XXI nr 3
PROBLEMY – BADANIA – PRZEGL¥DY
Rys. 2. Wizualizacja historiograficzna artyku³ów na temat analizy wspó³cytowañ.
9http://www.scimaps.org/maps/map/logicaland_participa_74/
10 http://www.scimaps.org/maps/map/us_job_market_where__122/
11 http://www.scimaps.org/maps/map/napoleons_march_to_m_9
mapa z 200712 autorstwa K.W. Boyacka [9], pokazu-
j¹ca aktualne i przysz³e trendy w nauce œwiatowej.
Rys. 3 zawiera mapê obszarów zainteresowañ autorki
utworzonej na podstawie tytu³ów, s³ów kluczowych
i abstraktów w³asnych prac angielskojêzycznych. U¿y-
to tu mapy tzw. energetycznej, która ilustruje powsta-
nie dwa g³ówne klastry tematyczne, odnosz¹ce siê me-
tod wizualizacji/mapowania oraz badañ nad literatur¹
informatyczn¹.
4. Sieciowa (z kim)
Za pomoc¹ sieci mo¿emy wizualizowaæ wiêzi spo-
³eczne, co jest wykorzystywane w formalizmie „z kim”.
To pole badañ nazywa siê „Analiz¹ sieci spo³ecznych”
(SNA – Social Network Analysis), znajduj¹ce zastoso-
wania praktyczne w marketingu, biznesie i nauce.
Powstaj¹ce graficzne reprezentacje wspó³autorów,
wspó³pracowników, badaczy odwo³uj¹cych siê do tych
samych Ÿróde³ generowane w ten sposób aby najlepiej
odwzorowaæ intensywnoœæ, stopieñ relacji pomiêdzy
badanymi osobami. Do tego celu u¿ywa siê grafów,
sk³adaj¹ce siê z wêz³ów (wierzcho³ków) i krawêdzi
(po³¹czeñ). Wêz³y w takiej sieci identyfikuj¹ osoby,
a krawêdzie o zró¿nicowanych d³ugoœci, szerokoœci –
relacje pomiêdzy nimi. Rysunek 4 przedstawia mapê
wspó³autorów znanej badaczki i popularyzatorki Info-
viz – Katy Borner. Trzon tej wspó³pracy nale¿y do gro-
na: Boyack, Klavans i Scarhnhorst, co odpowiada rze-
czywistoœci. Mapa zosta³a utworzona z wykorzysta-
niem wolnego oprogramowania Gephi13.
Podsumowanie mo¿liwoœci analizy wizualnej
– visual mining
Wizualizacja, któr¹ odkryto jako narzêdzie wspo-
magaj¹ce eksploracyjn¹ analizê danych masowych,
staje siê na naszych oczach samodzieln¹ dyscyplin¹
o praktycznych zastosowaniach w nauce, biznesie
i neuromarketingu. Metodologia wizualizacji informa-
cji znajduje siê w fazie rozwoju. Brakuje tu jednak
solidnych podstaw teoretycznych, usystematyzowania
i opisów formalistycznych [12, s. 42-55].
W artykule zosta³o przedstawione wieloperspekty-
wiczne podejœcie do problematyki Infoviz. Za³¹czone
i wskazane przyk³ady dowodz¹, i¿ wizualizacja umo-
ISSN 1230-5529 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 9
Visual mining czyli eksploracja informacji za pomoc¹ graficznych reprezentacji
Rys. 3. Tematyczna wizualizacja obszarów zainteresowañ autorki.
Rys. 4. Mapa wspó³autorstwa Katy Borner.
12 http://www.scimaps.org/maps/map/maps_of_science_fore_50/
13 www.gephi.org
¿liwia wieloaspektow¹ analizê kolekcji dokumentów
na podstawie ich metadanych. Organizacjê tych jed-
nostek analizy proponuje siê sprowadziæ do trzech po-
ziomów: indywidualnego (mapy aktywnoœci konkret-
nych osób, rozwoju indywidualnej kariery naukowej),
grupowego (wizualizacja wspó³pracy spo³ecznoœci lo-
kalnej lub sieciowej) i krajowego (mapy rozwoju ba-
dañ w danym kraju, globalne mapy nauki). Inny for-
malizm polega na wyodrêbnieniu czterech fundamen-
talnych perspektyw mapowania: czasowej (kiedy),
geograficznej (gdzie), tematycznej (co) i sieciowej (z
kim). Takie podejœcie z pewnoœci¹ dostarcza nowych
mo¿liwoœci w analizie, interpretacji i wnioskowaniu
o kompleksowej strukturze danych. Niepodwa¿aln¹
cech¹ jest to, i¿ mapy wizualizacyjne stymuluj¹ pozna-
wanie wspó³czesnego stanu wiedzy. Nios¹ równie¿
wartoœæ edukacyjn¹, poniewa¿ tego typu aplikacje
zawieraj¹ mechanizmy interakcji. W projektowaniu
interfejsów wizualizacyjnych s¹ wykorzystywane
wówczas wyniki badañ nad ludzk¹ percepcj¹ i zrozu-
mieniem.
Autorka pokazuje, ¿e nowoczesne mapy generowa-
ne za pomoc¹ algorytmów wizualizacyjnych s¹ swego
rodzaju arkuszami graficznymi, umo¿liwiaj¹cymi wie-
lostronn¹ (czyli wielowymiarow¹ oraz obiektywn¹)
analizê danych. Wykorzystywane od dawna w za-
awansowanych metodach analizy eksploracyjnej,
obecnie s¹ niezast¹pionym elementem i etapem pro-
cesu datamining. Istniej¹ce okreœlenie visualmining
dobrze odzwierciedla swoje przeznaczenie nauko-
wo-empiryczne oraz formê interakcji z u¿ytkowni-
kiem, w³¹czaj¹c tak wa¿ne w zastosowaniach siecio-
wych sprzê¿enie zwrotne.
Literatura cytowana
1. Berners-Lee T.: The Semantic Web. “Scientific American”
2001. [on-line]. [dostêp 20 stycznia 2013]. Dostêpny w World
Wide Web: http://www.sciam.com/article.cfm?article-
ID=00048144-10D2-1C70-84A9809EC588EF21.
2. Berners-Lee T.: The next Web of open, linked data. 2008.
[on-line]. Zasoby youtube. [dostêp 20 stycznia 2013]. Dostêp-
ny w World Wide Web: http://www.youtube.com/watch?v=
OM6XIICm_qo
3. Bollen Johan i in.: Clickstream Data Yields High-Resolution
Maps of Science. “PLoS ONE” [on-line] 2009, Vol. 4, no. 3
[dostêp 20 stycznia 2013] Dostêpny w World Wide Web:
http://www.plosone.org/article/info:doi/10.1371/journal.
pone.0004803.
4. Börner K.: Atlas of Science, MIT Press, 2010.
5. Börner K., Chen Ch., Boyack K.W.: Visualizing Knowledge Do-
mains. W: B. Cronin (red.). Annual Review of Information
Science & Technology. “Information Today” 2005 Vol. 37 s.
179-255.
6. Börner K., Scharnhorst A.: Visual Conceptualizations and
Models of Science. “Journal of Informetrics” 2009 No. 3(3)
s. 161-172.
7. Börner K., Zoss A.: Evolving and Emerging Populations and To-
pics Extracted from NSF Awards. “Virtual Presentation to
NSF” 2000 no. 7 [on-line]. [dostêp 20 stycznia 2013]. Dostêp-
ny w World Wide Web: http://scienceofsciencepolicy.net/sys-
tem/files/attachements/2010-borner-zoss-nsf.pdf
8. Bourner K., Klavans R. i in.: Design and Update of a Classifica-
tion System: The UCSD Map of Science. [on-line]. Scimaps
portal. [dostêp 20 stycznia 2013]. Dostêpny w World Wide
Web: http://www.scimaps.org.
9. Boyack K. i in.: Mapping the Backbone of Science. “Sciento-
metrics” 2005 Vol. 64 No 3s. 351-374.
10. Card S. K., Mackinlay J. D., Shneiderman B.: Reading in Info-
ration Visualization: Using Vision to Think. USA, CA 1999.
11. Chen Ch., Kuljis J.: The rising landscape: a visual exploration
of superstring revolutions in physics. “Journal of the American
Societyfor Information Science and Technology” 2003 Vol. 54
No. 5 s. 435–446.
12. Chen Ch.: Information Visualization: Beyond the Horizon.
Wyd. 2, Springer, 2006.
13. Few S.: Now you see it. Simple Visualization techniques and
Quantitative Analysis. CA. 2009.
14. Focus-plus-Context. [on-line]. Portal Infovis-wiki-net. [dostêp
20 stycznia 2013]. Dostêpny w World Wide Web: Dostêpny
w World Wide Web: http://www.infovis-wiki.net/index.php/
Focus-plus-Context
15. Garfield E.: Essays/Papers on „Mapping the World of Science”
[on-line]. E. Garfield, Ph. D. Home Page [dostêp 20 stycznia
2013]. Dostêpny w World Wide Web: http://garfield.lib-
rary.upenn.edu/ mapping/mapping.html
16. Garfield E.: From the science of science to scientometrics visua-
lizing the history of science with HistCite. [on-line]. “Procee-
dings of ISSI” 2007 Vol. 1 No. 21-26. [dostêp 20 stycznia
2013]. Dostêpny w World Wide Web: http://garfield.lib-
rary.upenn.edu/papers/issiprocv1p21y2007.pdf
17. Garfield E.: Scientography: Mapping the tracks of science.W:
“Current Contents: Social & Behavioural Sciences” 1994
nr 7(45) s. 5-10.
18. Marszakowa-Szajkiewicz I.: Bibliometryczna analiza wspó³-
czesnej nauki. Katowice 1996, s.32-38.
19. Mosher D.: Data as Art: 10 Striking Science Maps. 2011.
[on-line]. [dostêp 20 stycznia 2013]. Dostêpny w World Wide
Web: http://www.wired.com/wiredscience/2011/03/
best-science-maps/
10 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 2013 t. XXI nr 3
PROBLEMY – BADANIA – PRZEGL¥DY
20. Osiñska V., Bala P.: New Methods for Visualization and Im-
provement of Classification Schemes: The Case of Computer
Science. “Knowledge Organization” 2010 nr 37 s. 157-172.
21. Osiñska V.: Przybli¿enie semantyczne w wizualizacji informa-
cji w Internecie i bibliotekach cyfrowych. „Biuletyn EBIB”
[on-line] 2006, nr 7 (77) [dostêp 20 stycznia 2013]. Dostêpny
w World Wide Web: http://www.ebib.info/2006/77/osin-
ska.php.
22. Osiñska V.: Rozwój metod mapowania domen naukowych i po-
tencja³ analityczny w nim zawarty. W: Zagadnienia Informacji
Naukowej. Warszawa 2010, s. 15-16.
23. Osiñska V.: Wizualizacja informacji. Warszawa 2010.
24. Places&Spaces. Mapping Science. Wystawa on-line. [dostêp
20 stycznia 2013]. Dostêpny w World Wide Web: http://
www.scimaps.org.
25. Scharnhorst A.: Complex Networks and the Web: Insights From
Nonlinear Physics. [on-line]. “Journal of Computer-Mediated
Communication” 2003, Vol. 8 No.4, [dostêp 10 lipca 2012].
Dostêpny w World Wide Web: http://jcmc.indiana.edu/vol8/
issue4/scharnhorst.html
26. Skalska-Zlat M.: Cybermetrics, Netometrics, Webometrics –
nowe pojêcia i zadania informetrii.W:Przestrzeñ informacji
i komunikacji spo³ecznej. Kraków: Wydawnictwo Uniwersyte-
tu Jagielloñskiego, 2004, ss. 159-168.
27. Small H.: Co-citation in the scientific literature: A new measure
of the relationship between two documents. “Journal of the
American Society for Information Science” 1973 No. 24 s.
265–269.
28. Stefan Banach – matematyk stulecia. „Dziennik Zwi¹zkowy.
Polish Dayly News” 27 Kwietnia 2012. [on-line]. [dostêp
20 stycznia 2013]. Dostêpny w World Wide Web: http://
www.dziennikzwiazkowy.com/wspomnienia/20590-ste-
fan-banach--matematyk-stulecia.html
29. Tufte E.: Envisioning Information. USA: Graphic Press, 1990.
30. Ware C.: Information Visualization.Perception for Design.
USA, CA 2004.
Dr Veslava OSIÑSKA – Uniwersytet Miko³aja Kopernika w Toruniu.
Instytut Informacji Naukowej i Bibliologii. Adres: 87-100 Toruñ,
Bojarskiego 1; e-mail: wieo@umk.pl.
ISSN 1230-5529 PRAKTYKA i TEORIA INFORMACJI NAUKOWEJ i TECHNICZNEJ 11
Visual mining czyli eksploracja informacji za pomoc¹ graficznych reprezentacji