ThesisPDF Available

Hodnocení významnosti variantami PageRanku

Authors:

Abstract and Figures

Tato práce se zabývá výzkumem metod pro hodnocení významnosti vrcholů v rozsáhlých grafových strukturách. Navržené metody jsou aplikovány při vyhodnocení citačních sítí a sítí vytvořených z Linked Data. V úvodu práce jsou popsány cíle, které nás k návrhu nových metod vedly. Následně lze text práce pomyslně rozdělit na dvě části, z nichž první a obsáhlejší část je věnována návrhu metod pro hodnocení autorů vědeckých publikací a druhá část je věnována návrhu metody pro určení klíčových slov textového dokumentu. Společnou vlastností všech navržených metod je použitý algoritmus PageRank. V první části práce je nejprve shrnut aktuální stav poznání v oblasti citační analýzy a zmíněny nejznámější bibliografické databáze a algoritmy, které bývají při citační analýze používány. Zvláštní prostor je věnován popisu algoritmu PageRank, který jsme při výzkumu používali a dále upravovali. Následně první část obsahuje popis návrhu nových metod pro hodnocení významnosti autorů a popis experimentálního ověření jejich kvality. Pro experimenty byly použity datové kolekce CiteSeer, DBLP a WoS, přičemž výsledky získané z kolekce WoS byly, vzhledem k jejím vlastnostem, prohlášeny za nejdůvěryhodnější. Poté, co se prokázala vhodnost nově navržených metod pro hodnocení autorů, jsme provedli další experimenty, jejichž cílem bylo metody ještě více vylepšit. Zde se pro hodnocení autorů ukázalo nejvhodnější parametrizovat PageRank aplikovaný na citační síť publikací významností časopisů, ve kterých byly publikace zveřejněny. Vhodnost navržených metod a platnost vyvozených závěrů byly ověřeny také vyhodnocením specializovaných kategorií WoS. V druhé části práce jsou nejprve zmíněny významné práce z oblasti klasifikace textových dokumentů a z oblasti využití PageRanku pro extraktivní sumarizaci obsahu dokumentu. Následně je popsán návrh naší metody pro volbu klíčových slov textového dokumentu. Tato metoda využívá PageRank a Linked Data, čímž dokáže určit k textu dokumentu vysoce relevantní klíčová slova, která v textu nemusejí být explicitně uvedena. Kvalita navržené metody byla experimentálně ověřena jejím použitím v klasifikátoru dokumentů, který byl aplikován na dokumenty z kolekce diskusních článků 20 Newsgroups a na dokumenty z vlastní kolekce konferenčních Call-for-Papers. Určená klíčová slova byla použita jako vlastnosti dokumentů. Závěrem bylo, že navržená metoda je vhodná zejména v situacích, kdy máme malé množství dat pro natrénování klasifikátoru. Autorovy vědecké přínosy, které jsou popsány v této práci, byly publikovány formou pěti vědeckých článků, z nichž dva byly zveřejněny v časopisech a tři v konferenčních sbornících.
No caption available
… 
No caption available
… 
No caption available
… 
No caption available
… 
No caption available
… 
Content may be subject to copyright.
a
Západočeská univerzita v Plzni
Fakulta aplikovaných věd
Disertační práce
2015 Ing. Michal Nykl
b
Západočeská univerzita v Plzni
Fakulta aplikovaných věd
HODNOCENÍ VÝZNAMNOSTI
VARIANTAMI PAGERANKU
Ing. Michal Nykl
disertační práce
k získání akademického titulu doktor
v oboru Informatika a výpočetní technika
Školitel: Prof. Ing. Karel Ježek, CSc.
Katedra informatiky a výpočetní techniky
Plzeň 2015
c
University of West Bohemia
Faculty of Applied Sciences
EVALUATION OF SIGNIFICANCE
BASED ON PAGERANK VARIANTS
Ing. Michal Nykl
doctoral thesis
in partial fulfillment of the requirements
for the degree of Doctor of Philosophy
in specialization Computer Science and Engineering
Supervisor: Prof. Ing. Karel Ježek, CSc.
Department of Computer Science and Engineering
Pilsen 2015
i
Prohlášení
Předkládám tímto k posouzení a obhajobě svou disertační práci, kte vznikla v závěru mého
doktorského studia na Fakultě aplikovaných věd Západočeské univerzity v Plzni, a prohlašuji, že jsem
tuto práci vypracoval samostatně s použitím výhradně citované odborné literatury.
V Plzni dne 25. 11. 2015.
…………………………………………
Ing. Michal Nykl
ii
Věnováno lidem,
kteří mění svět k lepšímu.
Touto formou bych zvláště rád poděkoval profesoru Karlu Ježkovi za dlouholeté ochotné a vstřícné
vedení a za čas, který se mnou v průběhu uplynulých let strávil. Jeho dobré rady pro mě byly
přínosem jak na poli vědy a výuky, tak i v osobním životě. Dále bych chtěl poděkovat všem členům
Text-Mining Research Group na Katedře informatiky a výpočetní techniky ZČU v Plzni za občasnou
pomoc a kolegiální náladu na pracovišti. Poděkování patří zejména Martinu Dostalovi, Michalu
Camprovi, Lubomíru Krčmářovi a Daliboru Fialovi, kteří byli mými blízkými kolegy. Závěrem bych chtěl
také poděkovat i všem zbylým členům katedry za jejich otevřenost a dobrou náladu, se kterou jsem
se na katedře často setkával.
iii
Abstrakt
Tato práce se zabývá výzkumem metod pro hodnocení významnosti vrcholů v rozsáhlých grafových
strukturách. Navržené metody jsou aplikovány při vyhodnocení citačních sítí a sítí vytvořených
z Linked Data. V úvodu práce jsou popsány cíle, které nás k návrhu nových metod vedly. Následně lze
text práce pomyslně rozdělit na dvě části, z nichž první a obsáhlejší část je věnována návrhu metod
pro hodnocení autorů vědeckých publikací a druhá část je věnována návrhu metody pro urče
klíčových slov textového dokumentu. Společnou vlastností všech navržených metod je použitý
algoritmus PageRank.
V první části práce je nejprve shrnut aktuální stav poznání v oblasti citační analýzy a zmíněny
nejznámější bibliografické databáze a algoritmy, které bývají při citační analýze používány. Zvláštní
prostor je věnován popisu algoritmu PageRank, který jsme při výzkumu používali a dále upravovali.
Následně první část obsahuje popis návrhu nových metod pro hodnocení významnosti autorů a popis
experimentálního ověření jejich kvality. Pro experimenty byly použity datové kolekce CiteSeer, DBLP
a WoS, přičemž výsledky získané z kolekce WoS byly, vzhledem k jejím vlastnostem, prohlášeny za
nejdůvěryhodnější. Poté, co se prokázala vhodnost nově navržených metod pro hodnocení autorů,
jsme provedli další experimenty, jejichž cílem bylo metody ještě více vylepšit. Zde se pro hodnocení
autorů ukázalo nejvhodnější parametrizovat PageRank aplikovaný na citační síť publikací významností
časopisů, ve kterých byly publikace zveřejněny. Vhodnost navržených metod a platnost vyvozených
závěrů byly ověřeny také vyhodnocením specializovaných kategorií WoS.
V druhé části práce jsou nejprve zmíněny významné práce z oblasti klasifikace textových dokumentů
a z oblasti využití PageRanku pro extraktivní sumarizaci obsahu dokumentu. Následně je popsán
návrh naší metody pro volbu klíčových slov textového dokumentu. Tato metoda využívá PageRank a
Linked Data, čímž dokáže určit k textu dokumentu vysoce relevantní klíčová slova, která v textu
nemusejí být explicitně uvedena. Kvalita navržené metody byla experimentálně ověřena jejím
použitím v klasifikátoru dokumentů, který byl aplikován na dokumenty z kolekce diskusních člán
20 Newsgroups a na dokumenty z vlastní kolekce konferenčních Call-for-Papers. Určená klíčová slova
byla použita jako vlastnosti dokumentů. Závěrem bylo, že navržená metoda je vhodná zejména
v situacích, kdy máme malé množství dat pro natrénování klasifikátoru.
Autorovy vědecké přínosy, které jsou popsány v této práci, byly publikovány formou pěti vědeckých
článků, z nichž dva byly zveřejněny v časopisech a tři v konferenčních sbornících.
Klíčová slova: dolování dat, citační analýza, PageRank, hodnocení autorů, volba vlastností textových
dokumentů.
iv
Abstract
This thesis deals with the research of methods of evaluating the significance of nodes in large graph
structures. The proposed methods are applied to evaluating citation networks and networks created
from Linked Data. The introduction describes the goals that led us to propose the new methods. The
text is divided into two parts, while the first one deals with the suggestion of methods of evaluating
the authors of scientific publications, the second part is dedicated to the suggestion of a method of
determining text document keywords. The common feature of all the proposed methods is the use of
the PageRank algorithm.
The first part provides the summary of the current state of knowledge in citation analysis and there
are mentioned the best known bibliographic databases and algorithms that are used in the citation
analysis. A special section is devoted to the description of the PageRank algorithm, which we used
and further modified in our research. Subsequently, the first part contains the description of the new
evaluation methods of author's significance and the description of the experimental verification of
their quality. For the experiments, we used the CiteSeer, DBLP and WoS data collections, while the
results obtained from the WoS collection have been declared as the most accurate, due to its
characteristics. After proving the suitability of the newly developed evaluation methods of authors,
we performed additional experiments aimed at their further improvement. The most appropriate
author's evaluation method proved to be PageRank applied to the citation network of publications
and parameterized with the significance of journals in which the publications were published. The
suitability of the proposed methods and the validity of the drawn conclusions were also verified by
the evaluation of WoS specialized categories.
In the second part we first mention the most significant works in the field of text documents
classification and in the field of PageRank using for extractive summarization of the document
content. Then we describe our suggested method for the text document keywords selection. This
method uses PageRank and Linked Data, so that it can identify the most relevant keywords from the
text, which may not even be explicitly present. The quality of the proposed method was
experimentally verified by using it in a document classifier, which has been applied to the documents
from the collection of 20 Newsgroups discussion articles and also on documents from our own
collection of conference Call-for-Papers. The identified keywords have been used as document
features. The conclusion is that the method is particularly suitable in situations where we have a
small amount of data for training the classifier.
The author's scientific contributions that are described in this thesis have been published in the form
of five scientific articles, two of which were in journals and three in conference proceedings.
Keywords: data-mining, citation analysis, PageRank, author evaluation, feature selection for textual
documents.
v
Obsah
1 Úvod ............................................................................................................................................ 1
1.1 Cíle práce ............................................................................................................................. 1
1.2 Struktura práce .................................................................................................................... 2
2 Citační analýza ............................................................................................................................. 4
2.1 Historie citační analýzy ........................................................................................................ 4
2.2 Bibliografické grafy a uznávané databáze ........................................................................... 6
2.2.1 Druhy bibliografických grafů ....................................................................................... 6
2.2.2 Bibliografické databáze ............................................................................................... 8
2.2.3 Možnosti porovnání vytvořených pořadí .................................................................. 10
2.3 Nejznámější metody citační analýzy ................................................................................. 11
2.3.1 Impact Factor a jeho modifikace ............................................................................... 11
2.3.2 H-index a jeho modifikace ......................................................................................... 13
2.3.3 Míry centrality ........................................................................................................... 14
2.4 Algoritmus PageRank ........................................................................................................ 17
2.4.1 Matematický popis algoritmu PageRank .................................................................. 17
2.4.2 Personalizace PageRanku .......................................................................................... 20
2.4.3 Citlivost PageRanku na změnu parametrů ................................................................ 21
2.5 Další metody pro měření významnosti vrcholů grafu ....................................................... 21
2.5.1 Vážený PageRank a AuthorRank ............................................................................... 21
2.5.2 Bibliografický PageRank a Time-aware PageRank ..................................................... 22
2.5.3 HITS............................................................................................................................ 23
2.5.4 FutureRank ................................................................................................................ 24
2.5.5 SALSA ......................................................................................................................... 25
2.5.6 Eigenfactor Metrics používané databází ISI Web of Science..................................... 26
2.5.7 Y-factor ...................................................................................................................... 27
2.5.8 Metody pro hodnocení zdrojů používané databází Scopus ...................................... 27
2.5.9 SCEAS ......................................................................................................................... 29
2.5.10 B-HITS, B-SALSA a varianty SCEAS ............................................................................. 30
2.5.11 Hodnocení konferencí ............................................................................................... 32
2.5.12 Další PageRanku podobné algoritmy pro měření významnosti ................................ 33
3 Návrh metod pro hodnocení autorů ......................................................................................... 35
3.1 Vytváření citačních sítí s ohledem na samocitace a spoluautorství .................................. 35
3.2 Metody pro hodnocení autorů založené na PageRanku ................................................... 37
vi
3.3 Zvolené datové kolekce a seznamy významných autorů .................................................. 38
3.3.1 Seznamy držitelů významných ocenění .................................................................... 39
3.4 Diskuse výsledků vyhodnocení kolekcí CiteSeer a DBLP ................................................... 41
3.4.1 Hodnocení autorů z kolekce CiteSeer ....................................................................... 41
3.4.2 Hodnocení autorů z kolekce DBLP ............................................................................ 43
3.5 Závěry z hodnocení autorů z kolekcí CiteSeer a DBLP ....................................................... 44
4 Ověření kvality navržených metod v kolekci ISI Web of Science .............................................. 46
4.1 Cíle experimentu s datovou kolekcí ISI Web of Science .................................................... 46
4.2 Datová kolekce, citační sítě a ocenění autoři .................................................................... 47
4.2.1 ISI Web of Science a citační sítě ................................................................................ 47
4.2.2 Seznamy oceněných autorů ...................................................................................... 49
4.3 Výpočet popularity a prestiže ........................................................................................... 50
4.4 Diskuse výsled vyhodnocení kolekce ISI Web of Science .............................................. 51
4.5 Shrnutí závěrů z hodnocení autorů z kolekce WoS ........................................................... 55
5 Varianty personalizace PageRanku pro hodnocení autorů ....................................................... 57
5.1 Návaznost na předchozí experimenty ............................................................................... 57
5.2 Zvolená data ...................................................................................................................... 59
5.2.1 Datová kolekce ISI Web of Science a zvolené kategorie ........................................... 59
5.2.2 Referenční seznamy prestižních autorů .................................................................... 63
5.3 Úpravy personalizace PageRanku pro účely hodnocení autorů ........................................ 65
5.3.1 Experimenty se sítí autorů ........................................................................................ 69
5.3.2 Rozdělování hodnot publikací jejich autorům ........................................................... 69
5.3.3 Experimenty s hodnocením autorů na základě hodnot jejich publikací ................... 72
5.3.4 Použití významnosti časopisů při hodnocení autorů................................................. 72
5.4 Diskuse výsledků navržených metod................................................................................. 73
5.4.1 Diskuse výsledků metod, které pracují se sítí autorů ................................................ 77
5.4.2 Diskuse výsledků metod, které pracují se sítí publikací ............................................ 78
5.4.3 Nejlepší autoři ve vytvořených pořadích autorů ....................................................... 81
5.4.4 Predikce laureátů významných ocenění .................................................................... 82
5.4.5 Je prestiž lepší než popularita? ................................................................................. 83
5.5 Závěry z testování nově navržených metod pro hodnocení autorů ................................. 84
6 PageRank jako podpůrný nástroj při klasifikaci dokumentů ..................................................... 86
6.1 Úvod do klasifikace dokumentů ........................................................................................ 86
6.1.1 Relevantní práce z oblasti klasifikace dokumentů .................................................... 87
vii
6.1.2 Relevantní práce z oblasti použití PageRanku pro zpracování přirozeného jazyka .. 88
6.2 Koncept Linked Data ......................................................................................................... 88
6.3 Zvolené kolekce dokumentů ............................................................................................. 89
6.4 Naše metoda pro volbu klíčových slov textového dokumentu ......................................... 90
6.5 Diskuse kvality naší metody pro volbu klíčových slov dokumentu ................................... 94
6.6 Vyhodnocení experimentu s volbou klíčových slov dokumentu ....................................... 96
7 Shrnutí dosažených výsledků .................................................................................................... 97
7.1 Splnění cílů práce .............................................................................................................. 97
7.2 Hlavní vědecké přínosy této práce .................................................................................. 100
7.3 Budoucí práce .................................................................................................................. 100
Literatura ........................................................................................................................................ 102
Příloha A – Soupis publikovaných článků autora k datu 26. 10. 2015 ........................................... 113
A.1 Publikace v časopisech .................................................................................................... 113
A.2 Publikace ve významných sbornících .............................................................................. 113
A.3 Ostatní publikace ............................................................................................................. 114
A.4 Citace ............................................................................................................................... 114
Příloha B – Seznam vzorců ............................................................................................................. 115
Příloha C – Seznam obrázků ........................................................................................................... 117
Příloha D – Seznam tabulek ........................................................................................................... 119
1
1 Úvod
Tato práce shrnuje naše
1
stěžejní výsledky publikované ve 2 časopiseckých (Nykl et al. 2014, 2015) a
3 konferenčních (Nykl a Ježek 2012; Nykl et al. 2013; Dostal et al. 2014a) článcích. Obsah je
soustředěn na problematiku určování významných vrcholů grafu. Ta v počítačových vědách patří do
oblasti dolování dat (data mining), přičemž příslušné metody bývají používány pro dolování struktury
grafu (graph structure mining). Graf obvykle představuje určitou oblast znalostí, přičemž jeho vrcholy
zastupují zúčastněné entity (webové stránky, publikace, instituce, autory či obecně osoby atd.) a
hrany vyjadřují určitý vztah (tok informací, společný výskyt, známost apod.). Na základě vypočtených
hodnot významnosti vrcholů lze příslušné entity porovnávat a vybírat entity pro další zpracování.
Jedním z používaných algoritmů je algoritmus PageRank, který pro určehodnoty vrcholu používá
hodnoty vrcholů, které na daný vrchol odkazují. Vypočtená hodnota vrcholu bývá označována jako
významnost, vliv, autoritativnost nebo podobně a používána např. při řazení výsledků ve vyhledávači
webových stránek, při porovnání či vyhledání významných osob, institucí, časopisů atd. Protože
PageRankem bývají často vyhodnocovány citační grafy, tak bývá také označován jako nástroj citační
analýzy.
Od svého vzniku v roce 1998 byl PageRank vylepšován pro potřeby jeho adaptace na různé druhy
grafů nebo pro urychlení jeho výpočtu. Našimi cíli, které jsou shrnuty v této práci, bylo navrhnout
nové, na PageRanku založené, metody a to jednak pro potřeby bibliometrie, a dále pak pro potřeby
zpracování textů. V bibliometrii jsme navrhli metody, které umožňují hodnotit, porovnávat a
vyhledávat významné autory vědeckých publikací, a porovnali jsme je s některými stávajícími
metodami. V úloze zpracování textů slouží námi navržená metoda pro určení klíčových slov textového
dokumentu. Klíčová slova mohou být dále použita při klasifikaci, shlukování či štítkování dokumentů.
Detailnější popis našich cílů obsahuje část 1.1 a stručný popis jednotlivých kapitol práce část 1.2.
Jednotlivé části práce mohou sloužit jako podpůrný zdroj při výuce, proto je práce napsána v českém
jazyce. Pro účely vytvoření české terminologie v dané vědní oblasti jsou také u některých algoritmů
zavedeny odpovídající české názvy.
1.1 Cíle práce
Základním cílem popisovaného výzkumu bylo prověření schopností algoritmu PageRank při
hodnocení významnosti vrcholů grafu. Z uvedeného základního cíle vzniklo několik odvozených cílů,
které byly námětem výzkumů, jejichž výsledky byly uveřejněny v publikovaných článcích. Oblastmi,
které jsme pro ověření použitelnosti PageRanku zvolili, byly:
a) Bibliometrie úloha hodnocení autorů vědeckých publikací.
b) Zpracování textů – úloha volby klíčových slov textového dokumentu.
1
Přestože cílem této disertační práce je shrnout vědecké přínosy Michala Nykla, tak v práci bude při popisu
dosažených výsledků použito množné číslo „my“, protože všechny práce vznikly pod odborným dozorem
profesora Karla Ježka a s pomocí kolektivu „Text mining research group“, viz http://textmining.zcu.cz
2
V oblasti bibliometrie jsme, vzhledem k nám nejbližšímu oboru, hodnotili autory, kteří publikují
v počítačových vědách, přičemž našimi cíli bylo:
(a1) Navržení metody pro automatické hodnocení autorů, která bude hodnotit autory
z počítačových věd s výsledky obdobnými hodnocením organizací Association for
Computing Machinery (ACM) a Institute for Scientific Information (ISI), a analýza vhodnosti
použití datových kolekcí CiteSeer (2005), DBLP (2004) a WoS (1996-2005) pro hodnocení
autorů.
(a2) Porovnání navržených metod s neiteračními metodami.
(a3) Zjištění, jaký vliv na kvalitu hodnocení autorů mají použité citační sítě publikací či autorů,
samocitace autorů a váhy hran v citační síti autorů.
(a4) Zjištění, jaký vliv na kvalitu hodnocení autorů mají způsoby rozdělení hodnot publikací jejich
autorům, a posouzení vhodnosti zvýhodňování prvních či korespondujících autorů publikací.
(a5) Ověření vlivu parametrizace PageRanku charakteristikami autora či publikace na kvalitu
hodnocení autorů.
(a6) Ověření použitelnosti navržených metod v případě změny rozsahu vyhodnocovaného
oboru.
V oblasti zpracování textových dokumentů byly naše cíle:
(b1) Navržení metody, která využitím Linked Data a PageRanku dokáže automaticky určit klíčová
slova pro daný textový dokument. Tato slova se nemusejí explicitně vyskytovat v textu
dokumentu, ale měla by daný dokument reprezentovat lépe, než slova určená pouze
statisticky.
(b2) Ověření kvality navržené metody při klasifikaci textových dokumentů.
1.2 Struktura práce
Ve 2. kapitole je popsán aktuální stav poznání v oblasti citační analýzy. Představena je její historie,
nejpoužívanější bibliografické databáze, vytvářené grafy a nejznámější neiterační metody pro
hodnocení časopisů a autorů. Dále je zde popsán iterační algoritmus PageRank a jemu podobné
algoritmy, které byly navrženy pro použití v citační analýze.
Ve 3. kapitole je popsán návrh našich metod pro hodnocení autorů a experiment s hodnocením
autorů v kolekcích CiteSeer a DBLP, který byl publikován v (Nykl a Ježek 2012). Jsou zde uvedeny
postupy vytvoření námi používaných citačních sítí, včetně charakteristických vlastností sítí
vytvořených z kolekcí CiteSeer a DBLP. Dále jsou popsány manuálně vytvořené referenční seznamy
oceněných autorů a v závěru kapitoly je diskutována kvalita námi navržených metod.
3
Ve 4. kapitole je uveden experiment s aplikací ve 3. kapitole navržených metod na kolekci WoS, který
byl publikován v (Nykl et al. 2014). Popsány jsou cíle zmíněného experimentu, charakteristické
vlastnosti sítí vytvořených z kolekce WoS a odpovídající referenční seznamy autorů. K navrženým
metodám je pro porovnání navíc přidána neiterační metoda počítající citace. V věru kapitoly je
opět posouzena kvalita navržených metod.
Kapitola 5. popisuje náš aktuálně poslední výzkum v oblasti bibliometrie, publikovaný v (Nykl et al.
2015). Cílem výzkumu bylo navrhnout další možné zdokonalení metody pro hodnocení autorů a
prověřit vliv míry specifičnosti zpracovávané oblasti na hodnocení autorů. V textu jsou popsány
charakteristické vlastnosti kategorií Umělá inteligence a Hardware, které jsme z kolekce WoS
vyextrahovali, abychom ověřili kvalitu našich metod ve specializovaných oblastech výzkumu.
Následuje detailní popis návrhu našich nových metod a experimentálního ověření jejich kvality při
hodnocení autorů z kolekce WoS a zvolených kategorií. V závěru kapitoly je diskutována kvalita
metod a to jak pro případ hodnocení autorů z celé kolekce WoS či zvolených kategorií, tak i pro
případ předpovědi laureátů vědeckých ocenění.
V 6. kapitole jsou shrnuty naše experimenty s určováním klíčových slov pro textové dokumenty, které
byly publikovány v (Nykl et al. 2013) a v (Dostal et al. 2014a). Protože jsme kvalitu navržené metody
experimentálně ověřili jejím použitím v klasifikátoru dokumentů, tak jsou v této kapitole také
zmíněny významné práce z oblasti klasifikace textových dokumentů. Dále jsou zde zmíněny
relevantní práce z oblasti extrakce klíčových slov či frází z textů PageRanku podobnými algoritmy.
Následně jsou popsány použité datové kolekce a koncept Linked Data. Více prostoru je věnováno
návrhu naší metody pro získání klíčových slov, která mohou zastupovat daný dokument. Závěr
kapitoly obsahuje posouzení kvality navržené metody.
V 7. kapitole je popsáno splnění cílů této práce. Jsou zde shrnuty vědecké přínosy autora, které byly
v této práci publikovány, a uvedena doporučení pro budoucí práce.
Příloha A obsahuje aktuální výčet publikačních výsledků autora. Uvedeny jsou reference na
publikované články autora a na články, které je citují.
4
2 Citační analýza
Tato kapitola seznamuje s aktuálním stavem poznání v oblasti citační analýzy. Historie citační analýzy
je stručně shrnuta v části 2.1. V části 2.2 jsou zmíněny druhy grafů, které lze vytvořit
z bibliografických záznamů, nejznámější bibliografické databáze a možnosti porovnání strojově
vytvořených pořadí bibliografických entit. V části 2.3 jsou popsány dvě nejznámější neiterační metody
pro hodnocení časopisů a autorů, jejichž hodnoty bývají aktuálně zobrazovány bibliografickými
databázemi. Těmito metodami jsou Impact Factor (pro hodnocení časopisů) a h-index (pro hodnocení
autorů). Dále jsou v této části shrnuty míry centrality, které bývají v sociálních sítích používány pro
určení centrálnosti vrcholů. Iterační algoritmus PageRank, který je naším stěžejním algoritmem, je
důkladně popsán v části 2.4. Některé bibliografické databáze už PageRank či jeho modifikaci také
používají pro hodnocení časopisů. Modifikace PageRanku a jemu podobné algoritmy jsou detailně
sepsány v části 2.5.
2.1 Historie citační analýzy
Jedním ze zakladatelů citační analýzy je Eugen Garfield. Ten jako první navrhl systematické
indexování vědecké literatury a citací v ní obsažených za účelem tvorby citačního indexu, který slouží
k hodnocení vědeckých časopisů. Navrženou metodu pro hodnocení časopisů nazval Impact Factor
(Garfield 1955a). Cílem návrhu bylo použití Impact Factoru pro zhodnocení vlivu vybraných
vědeckých časopisů na literaturu a výzkum ve zvoleném období. K vlivnosti časopisů může být
přihlíženo např. při nákupu časopisů do vědeckých knihoven. Garfield poznamenává, že Impact
Factor indikuje vliv časopisů více, než celkový počet publikací, který dříve použili Lehman (1954) a
Dennis (1954) pro hodnocení autorů. Dále uvádí, že je podobný metodě počítání citací, kterou pro
hodnocení významu vědeckých časopisů z oblasti chemie použili Gross a Gross (1927). Ti ale při
výpočtu použili reference uvedené pouze v jednom časopise. V oblasti hodnocení autorů vědeckých
publikací lze za nejznámější hodnotící metodu považovat h-index (Hirsch 2005). Detaily výpočtu
Impact Factoru a h-indexu budou zmíněny v části 2.3.
Obecně citační analýza slouží k nalezení významných bibliografických entit (článků, autorů, časopisů,
institucí, témat atd.) využitím algoritmů nebo metod, které pracují s bibliografickými záznamy a
citačním grafem. Tento problém lze zapsat takto: na vstupu máme bibliografické záznamy o
publikacích z určené vědní oblasti (např. počítačové vědy) a na výstupu chceme získat hodnoty
významnosti prvků zvolené entity (např. autorů), dle kterých můžeme prvky seřadit.
Jedním z aktuálních cílů citační analýzy je odlišení populárních a prestižních autorů. Ding (2011a)
zmiňuje skutečnost, že pojem populární pochází z latinského výrazu popularis
2
, kterému lze rozumět
jako „milovaný lidmi“, kdežto pojem prestižní, z latinského praestigious
3
, vyjadřuje mající oslnivý
vliv“. Autorka uvádí pěkný příklad, když říká, že autor, který ve své práci shrnuje aktuální stav poznání
v určité oblasti, může být hodně citován začínajícími autory v dané oblasti, ale již méně těmi, kteří
jsou v dané oblasti experty autor je populární. Naopak autor referátu, který představuje inovativní
metodu, může být citován experty, ale již méně laiky – autor je prestižní (pozn.: autor může být
populární, ale nemusí být prestižní a naopak). Z toho autorka vyvozuje, že populární autor je hodně
citovaný a popularitu tedy lze měřit počtem citací. Naopak prestižní autor je citovaný významnými
2
Výklad slova „populární“ - http://www.etymonline.com/index.php?term=popular
3
Výklad slova „prestižní“ - http://www.etymonline.com/index.php?term=prestigious
5
autory a prestiž tedy lze měřit počtem citací od významných autorů (to ale vyžaduje vědět, kdo je
významný). Stejný koncept zmínili také Bollen et al. (2006) při hodnocení časopisů.
S ohledem na výše uvedené odlišení pojmů populární a prestižní se v citační analýze pozvolna
přechází od metod, které pro hodnocení používají pouze kvantitativní vlastnosti (např. počet citací),
k metodám používajícím i vlastnosti odvozené. Tyto metody obvykle používají významnosti citujících
entit a tak dokáží určit, zda citace pochází z významného zdroje (Bollen et al. 2006; Ding 2011a).
Často používán je algoritmus PageRank (Brin a Page 1998), který určuje významnost bibliografických
entit (např. publikací, autorů atd.) na základě významnosti entit, které je citují, přičemž výpočet je
iterační. Jednou z dobrých vlastností PageRanku je např. jeho schopnost odhalit články, které
obsahují převratné výsledky, ale jsou méně citované (Chen et al. 2007; Maslov a Redner 2008). Za
zmínku stojí, že v bibliografických databázích ISI Web of Science a Scopus jsou upravené varianty
PageRanku dnes již používány pro hodnocení časopisů. V ISI Web of Science jsou to EigenfactorTM
Metrics (Bergstrom 2007; Bergstrom et al. 2008; West et al. 2008, 2010) a ve Scopus je to SCImago
Journal Rank (González-Pereira et al. 2010). Tyto metody budou popsány v části 2.5.
Ideu odlišení popularity a prestiže znázorňuje obrázek 2.1, kde autora A můžeme označit za
prestižního a autora C za populárního. Autor C je hodně citován necitovanými pracemi, ale jeho práce
je založena na práci autora A. Autor A je také prestižnější než autor B.
Obrázek 2.1: Rozdíl mezi popularitou (počet citací) a prestiží (PageRank).
Pořadí autorů, vytvořené dle hodnot jejich významnosti, může být použito při vyhledávání nebo
porovnávání expertů ve zvolené oblasti, např. pro účely výběrových řízení, udílení odměn nebo
ocenění atd. Vedle hodnocení autorů (Sidiropoulos a Manolopoulos 2005a; Fiala et al. 2008; Ding et
al. 2009; Radicchi et al. 2009; Ding 2011a; Fiala 2012b; West et al. 2013) lze využitím citační analýzy
určovat významnost časopisů (Garfield 1972; Bollen et al. 2006; González-Pereira et al. 2010; West et
al. 2010) a následně dle ní vybírat časopisy do vědeckých knihoven či bibliografických databází nebo
vybírat časopisy, ve kterých bychom chtěli publikovat své vědecké výsledky. Se stejným záměrem
můžeme hodnotit konference (Sidiropoulos a Manolopoulos 2005b). Publikace mohou být také
vyhodnocovány s cílem určení jejich významnosti, či pro zjištění jejich vědeckého přínosu
(Sidiropoulos a Manolopoulos 2005a; Chen et al. 2007; Ma et al. 2008; Maslov a Redner 2008; Li a
Willett 2009; Sayyadi a Getoor 2009). Publikační významnost výzkumných institucí nebo univerzit či
jejich oddělení (Fiala 2013; Ho 2013; Mryglod et al. 2013; West et al. 2013) lze využít při rozdělování
finančních prostředků, přičemž zahrnuta může být např. do státního systému pro hodnocení
6
výzkumných institucí, což používá Česká republika (Úřad vlády ČR 2012, 2013), Austrálie (ERA 2009) a
Velká Británie (HEFCE 2009). Porovnání dalších systémů pro hodnocení vědy je uvedeno např. v
(Abramo et al. 2010). Pořadí významnosti univerzit či jejich oddělení mohou využívat také např.
studenti při výběru univerzity, nebo osoby z vedení a správy jednotlivých institucí. Využitím citační
analýzy lze dále vytvářet pořadí států a porovnávat tak jejich přínos k celosvětovému vědeckému
rozvoji (Ma et al. 2008; Fiala 2012a; Leydesdorff 2013). Také vědní oblasti mohou být vyhodnoceny
citační analýzou (Banks 2013). Zde se obvykle ptáme, která oblast byla nejvíce rozvíjena či přínosná
ve sledovaném období.
Více základních informací o citační analýze lze nalézt např. v (Moed 2005; Bellis 2009).
2.2 Bibliografické grafy a uznávané databáze
Cílem této části je ukázat, které informace z bibliografických databází můžeme použít pro tvorbu
grafu. Vyhodnocovaný druh grafu udává vlastnost či vlastnosti, které jsou hodnotící metodou
měřeny. Následně jsou zmíněny nejznámějších bibliografické databáze a popsány možnosti
porovnání vypočtených pořadí.
2.2.1 Druhy bibliografických grafů
Bibliografickým grafem rozumíme graf vytvořený z bibliografických záznamů, ve kterém vrcholy
představují prvky zvolené entity (publikace, autory, instituce atd.) a hrany jejich vzájemnou interakci.
Hodnocení vrcholů grafu můžeme rozdělit na:
vyhodnocení „homogenního“ grafu – všechny vrcholy a hrany jsou pouze jednoho typu;
mnohorozměrné (multidimensional) vyhodnocení (Yu et al. 2012) vyhodnocení, které
pracuje s více druhy homogenních grafů současně;
vyhodnocení heterogenního (Yan et al. 2011) grafu graf obsahuje vrcholy a/nebo hrany
různého typu.
V některých případech může vyhodnocovaný homogenní graf vzniknout kombinací více homogenních
grafů a určení, o který typ vyhodnocení se jedná, není jednoznačné, což ale obvykle není příliš
důležité. Jedním z faktorů ovlivňujících tvorbu některých grafů autorů a dalších z publikací
odvozených entit je, zda použijeme vždy pouze prvního autora publikace nebo použijeme všechny
autory publikace (Zhao 2005; Ding 2011a).
Základními bibliografickými entitami jsou publikace (článek, kniha, referát atd.) a základinterakcí
jejich vzájemné citace. Z těchto dat lze vytvořit citační graf publikací, kde vrcholy jsou publikace a
každá hrana/citace je orientována od citující publikace k citované. Ze zázna o publikacích lze
obvykle získat informace o dalších bibliografických entitách (autoři, časopisy, místa publikování,
instituce či státy nebo témata) a vytvořit z nich citační grafy, ve kterých lze hodnotit popularitu či
prestiž, jak již bylo zmíněno v části 2.1. Pokud graf splňuje definici (Ryjáček 2001): „Síť je orientovaný
graf s kladným reálným ohodnocením hran a s reálným (připouštíme i záporné hodnoty) ohodnocením
uzlů.“, tak lze hovořit o síti.
Vedle citačních grafů lze z bibliografických záznamů vytvářet grafy spoluautorství, spolupráce či
společného výskytu, kde mezi entitami vede neorientovaná hrana, pokud se nacházejí ve stejném
záznamu o publikaci. Tímto způsobem lze vytvářet grafy spolupráce autorů, institucí nebo států a
7
grafy společného výskytu témat, klíčových slov či slov obsažených v názvu publikace. Vyhodnocením
grafu spoluautorství autorů můžeme např. měřit míru ochoty jednotlivých autorů spolupracovat (Liu
et al. 2005; Yan a Ding 2009). Vyhodnocení grafu společného výskytu slov v dokumentu může sloužit
např. pro extrakci klíčových slov z dokumentu (Erkan a Radev 2004; Mihalcea a Tarau 2004).
Dalšími vytvářenými grafy jsou grafy společně citovaných (co-citation nebo co-cited) a grafy společně
citujících (co-citing nebo co-reference) entit. V grafu společně citovaných vede mezi dvěma entitami
neorientovaná hrana, pokud byly obě citovány ve stejné publikaci. V grafu společně citujících vede
mezi dvěma entitami neorientovaná hrana, pokud obě citují stejnou publikaci. Vyhodnocením grafu
společně citovaných autorů můžeme měřit např. míru toho, jak často byl autor citován společně
s vysoce citovanými autory (Ding et al., 2009). Vzájemné porovnání těchto a některých dalších druhů
grafu zmiňují Yan a Ding (2012).
Za mnohorozměrné metody pro hodnocení bibliografických entit můžeme označit takové metody,
které pracují s více druhy grafů současně. Sayyadi a Getoor (2009) s využitím PageRanku vyhodnocují
citační graf publikací a následně aplikují algoritmus HITS (viz část 2.5.3) na bipartitní graf autorství (tj.
autoři a jejich publikace), aby získali současně hodnocení autorů i publikací. Yu et al. (2012) s využitím
soustavy rovnic hodnotí současně publikace, autory, komentáře a zdroje, tj. časopisy a konference.
Vyhodnocování heterogenního grafu je spíše idea, protože většinou se jedná o
mnohorozměrné vyhodnocení. Graf je heterogenní, pokud obsahuje více typů vrcholů a/nebo více
typů hran. Tuto vlastnost autoři obvykle ve svých pracích nastíní a ukáží vytvořený graf, ale poté
tento graf vyhodnocují po částech, tj. vyhodnocují několik grafů, stejně jako u mnohorozměrného
vyhodnocení. Částečnou výjimku tvoří bipartitní grafy, ve kterých ale hrany nikdy nevedou mezi
vrcholy stejné množiny. Vyhodnocení heterogenního grafu ukazují např. Yan et al. (2011), kteří
používají graf (viz obrázek 2.2) složený z citačního grafu publikací, bipartitního grafu autorství a
bipartitního grafu vydávání publikací (tj. časopisy a publikace v nich obsažené). Takto vytvořený graf
ale následně vyhodnocují po částech s využitím právě zmíněných tří grafů. Stejným postupem pracují
Yang et al. (2010), kteří ukazují heterogenní graf (viz obrázek 2.3) vytvořený spojením citačních grafů
publikací (GP), autorů (GAu), institucí (GAf) a míst publikování (GV) a grafů spolupráce autorů a institucí
prostřednictvím bipartitních grafů publikace-autoři, publikace-instituce, publikace-místa publikování,
autoři-instituce, autoři-místa publikování a instituce-místa publikování. Protože obě zmíněné práce
následně vyhodnocují dílčí podgrafy, můžeme tyto přístupy označit také za mnohorozměrné
vyhodnocení.
Obrázek 2.2: Heterogenní graf, který vnikl spojením citačního grafu publikací, bipartitního grafu
autorství (autoři-publikace) a bipartitního grafu vydávání publikací (časopisy-publikace).
Přejato z (Yan et al. 2011).
8
Obrázek 2.3: Nástin heterogenního grafu přejatý z (Yang et al. 2010). Heterogenní graf v sobě
kombinuje graf publikací GP, autorů GAu, institucí GAf a míst publikování GV vztahy citování (modrá),
spoluautorství (červená), příslušnost k instituci (žlutá), publikování (zelená) a autorství (fialová).
Pro přehlednost obrázku je v grafu mnoho hran vynecháno.
2.2.2 Bibliografické databáze
Bibliografické záznamy obsahují minimálně jména publikací a jejich autorů a seznam referencí, které
jsou v publikaci uvedené. Dále bývají obsaženy rok a místo publikování, časopis či sborník, afiliace
autorů apod. Záznamy bývají sdruženy do kolekce, která je udržována tzv. bibliografickou databází.
Ta se stará o sběr nových záznamů a případně o aktualizaci těch stávajících. Nejznámějšími
bibliografickými databázemi (dále jen databáze) jsou Web of Science, Scopus, Google Scholar,
CiteSeer, DBLP, Microsoft Academic Search a arXiv. Následující informace o databázích jsou čerpány
z oficiálních webů databází a z (Bar-Ilan 2007; Bellis 2009; Fiala 2011).
Web of Science
4
(WoS), multioborová databáze Ústavu pro vědecké informace (Institute for Scientific
Information ISI) udržovaná firmou Thomson Reuters, je jednou z nejstarších a nejuznávanějších
databází nejen vědeckých článků. Databáze vznikla v roce 1955, aby naplnila ideu, kterou zmínil
Garfield (1955a, 1955b)
5
. Aktuálně shromažďuje vědecké články z více než 12000 vlivných časopisů a
více než 150000 konferenčních sborníků a pokrývá tak zhruba 250 vědních disciplín. Indexovány jsou
publikace od roku 1945, přičemž všechny indexované časopisy a sborníky podléhají přijímacímu
řízení. WoS byl mnohokrát použit pro citační analýzu, jak ukazují např. (Yan a Ding 2009, 2011, 2012;
Ding 2011a; Fiala 2012b, 2013, 2014; Zhu a Guan 2013; Nykl et al. 2014, 2015; Fiala et al. 2015).
Scopus
6
, který vnikl v roce 2004 a je udržován firmou Elsevier, je multioborovou databází, která
obsahuje více než 50 miliónů záznamů o vědeckých publikacích z více než 21000 zdrojů (časopisy a
konference) od zhruba 5000 vydavatelů. Indexovány jsou manuálně vložené publikace ze všech
vědních oborů od roku 1960. Pro citační analýzu Scopus použili např. (Elkins et al. 2010; Haddow a
Genoni 2010; Franceschini et al. 2013).
4
Databáze Web of Science - http://www.webofknowledge.com (Web of Science je dnes také znám jako Web
of Knowledge)
5
Historie Web of Knowledge - http://wokinfo.com/about/whoweare/
6
Databáze Scopus - http://www.scopus.com
9
Google Scholar
7
(GS) společnosti Google Inc. je automatický systém shromažďující informace o
vědeckých článcích, který vznikl v roce 2004. Indexovány jsou články ze všech vědních oborů od
vydavatelů, kteří poskytují alespoň abstrakt článků zdarma. Počet indexovaných článků ani rozsah
jejich let není znám, ale přístup do vyhledávání je zdarma. Použit v citační analýze byl GS např. v
(Bar-Ilan 2007; Mingers a Lipitakis 2010; Amara a Landry 2012; Harzing 2013).
CiteSeer
8
byl prvním autonomním systémem, který indexuje vědecké publikace v elektronické
podobě (Giles et al. 1998). CiteSeer byl vyvinut v NEC Research Institute (USA), je zaměřen na oblast
počítačových věd, přístup do vyhledávání poskytuje zdarma a dle (Fiala 2011) v roce 2010 obsahoval
téměř 33 miliónů záznamů. Rozsah indexovaných let není z vyhledávání jednoznačně patrný, protože
se zde projevují nedůslednosti v datech některé články obsahují místo čtyřciferného údaje o roku
publikování údaj pouze dvouciferný. Nový CiteSeerX je stále ve verzi beta. Uplatnění CiteSeeru
v citační analýze nalezneme např. v (Sidiropoulos a Manolopoulos 2005b; Zhou et al. 2007; Fiala
2011, 2012a; Nykl a Ježek 2012).
DBLP
9
(DataBases and Logic Programming) je databáze University v Trieru (Německo), která vznikla
v roce 1993 (Ley 1993) a původně obsahovala pouze články z oblasti databázových systémů a
logického programování. Dnes se DBLP soustředí na celou oblast počítačových věd. Vyhledávání v
databázi, která aktuálně obsahuje téměř 2,4 miliónů manuálně vložených záznamů od roku 1936
10
,
je přístupné zdarma. Některé části databáze lze také stáhnout v podobě XML souborů. DBLP byla
mnohokrát použita v citační analýze, viz např. (Liu et al. 2005; Sidiropoulos a Manolopoulos 2005a,
2006; Fiala et al. 2008; Di Caro et al. 2012; Nykl a Ježek 2012).
Microsoft Academic Search
11
(MAS) společnosti Microsoft vnikl v roce 2009 a obsahuje více než 48
miliónů publikací od více než 20 miliónů autorů ze 14 oblastí výzkumu. Lze v něm nalézt např. i články
Isaaca Newtona z roku 1672. Indexace publikací je automatická a přístup do vyhledávání je zdarma.
MAS v citační analýze použil např. Jacsó (2011).
arXiv
12
, který vznikl v roce 1991 pod záštitou knihovny Cornellovy univerzity (Ithaca, NY, USA) jako
automatizovaný elektronický archív a distribuující server vědeckých článků, zahrnuje 6 oblastí
výzkumu (fyzika, matematika, statistika, počítačové vědy, kvantitativní biologie a nelineární vědy
13
) a
obsahuje články od roku 1992. Přístup do vyhledávání je zdarma, ale počet indexovaných článků není
uveden
14
. Použití arXiv v citační analýze lze nalézt např. v (Sayyadi a Getoor 2009).
Vedle výše zmíněného základního porovnání těchto databází lze v literatuře nalézt i jejich porovnání
při použití v citační analýze. Mingers a Lipitakis (2010) porovnávají WoS a GS v oblasti byznysu a
managementu a docházejí k závěru, že GS pokrývá tuto oblast více než WoS. Harzing (2013) využitím
7
Databáze Google Scholar - http://scholar.google.com
8
Databáze CiteSeer (dnes označována jako CiteSeerX) - http://www.citeseer.com
9
Databáze DBLP - http://dblp.uni-trier.de
10
Statistiky vztahující se k databázi DBLP - http://dblps.uni-trier.de/~mwagner/statistics/
11
Databáze Microsoft Academic Search - http://academic.research.microsoft.com
12
Databáze arXiv - http://www.arxiv.org
13
Nelineární vědy (Nonlinear Sciences) v arXiv obsahují kategorie: Adaptation and Self-Organizing Systems,
Cellular Automata and Lattice Gases, Chaotic Dynamics, Exactly Solvable and Integrable System, Pattern
Formation and Solitons.
14
Statistiky vztahující se k databázi arXiv - http://arxiv.org/help/stats/2012_by_area/index
10
držitelů Nobelovy ceny porovnává WoS a GS z pohledu indexování vědních oborů a dochází k závěru,
že GS je méně zaujatý než WoS a může např. napravit znevýhodněné postavení sociálních věd
v bibliografických databázích. Bar-Ilan (2007) porovnává výpočet h-indexu Izraelských vědců na
základě dat získaných z WoS, Scopus a GS, ale její závěr není jednoznačný.
Za zmínku stojí, že dle nařízení Úřadu vlády České republiky pro roky 2013 až 2015 (Úřad vlády ČR
2013) se pro hodnocení výzkumných organizací v České republice v části publikačních výsledků
používají vědecké publikace zaznamenané v RIV (Rejstřík informací o výsledcích), které se nacházejí v
databázích WoS, Scopus nebo ERIH (humanitní obory), či jsou v časopisech uvedených na seznamu
Českých recenzovaných neimpaktovaných periodik. Při rozdělování bodů za vědecké publikace se u
časopiseckých publikací přihlíží k Impact Factoru, pokud je časopis indexován ve WoS, nebo k
SCImago Journal Ranku, pokud časopis není ve WoS, ale je ve Scopus.
2.2.3 Možnosti porovnání vytvořených pořadí
Pokud jsme vytvořili požadovaný graf, vyhodnotili ho zvolenými metodami a získali několik pořadí
prvků zvolené entity, tak nás obvykle zajímá, jak lze získaná pořadí porovnat. Častým cílem je buďto
pouhé zjištění podobnosti jednotlivých pořadí, nebo určení, která z použitých metod poskytuje
v porovnání s referenčním seznamem lepší výsledné pořadí prvků. Dále pro názornost uvažujme
porovnání dvou získaných pořadí autorů vědeckých publikací.
První možností porovnání pořadí je určení jejich statistické podobnosti. K tomuto účelu lze použít
koeficienty korelace, přesněji Spearmanův (Spearman 1904) nebo Kendallův (Kendall 1938)
koeficient pořadové korelace, které měří statistickou závislost dvou veličin. Veličinou zde rozumíme
posloupnost prvků s určeným pořadím, přičemž obě zkoumané veličiny musí obsahovat totožné
prvky. Porovnání je následně závislé pouze na vytvořeném pořadí a ne na hodnotách, dle kterých
pořadí vzniklo. Koeficient pořadové korelace, který může nabývat hodnot z intervalu <+1;-1>, udává,
do jaké míry jsou na sobě obě sledované veličiny funkčně závislé:
(+1) obě veličiny jsou na sobě zcela funkčně závislé;
(0) mezi zkoumanými veličinami není žádná funkční závislost;
(-1) veličiny mají opačnou funkční závislost, tj. prvek, který je v první veličině na první
pozici, je ve druhé veličině na pozici poslední atd.
Nejčastěji používaným koeficientem korelace pro porovnání výsledků citační analýzy je Spearmanův
koeficient. Jeho použití nalezneme např. ve (Fiala et al. 2008; Ma et al. 2008; Ding et al. 2009) i jinde.
Chceme-li určit, která metoda hodnocení poskytuje „lepší“ pořadí, musíme zvolit referenční pořadí či
hodnocení, které prohlásíme za nejlepší, a porovnávat, jak blízké je námi vytvořené pořadí k tomuto
referenčnímu pořadí. V oblasti hodnocení časopisů či institucí narazíme na problém, že žádné
referenční hodnocení neexistuje, vyjma žebříčku univerzit
15
(který je ale výsledkem kombinace
mnoha faktorů, které se pro hodnocení univerzit používají). V oblasti hodnocení autorů lze jako
referenční hodnocení použít různá ocenění udílená za vědeckou a publikační činnost, jako např.
Nobelova cena udílená ve zkoumané oblasti. Pokud námi zkoumaná oblast výzkumu jsou počítačové
15
Web s hodnocením univerzit z celého světa - http://www.webometrics.info
11
vědy, tak můžeme použít Turingovu cenu (ACM A.M. Turing Award
16
), Coddovu cenu (ACM SIGMOD
E.F. Codd Innovations Award
17
), cenu VLDB 10 Year Award
18
, cenu ACM Test of Time
19
nebo jiná
podobná ocenění. Ceny VLDB 10 Year Award a ACM Test of Time mohou být použity i pro porovnání
vytvořených pořadí publikací. Jako příklad můžeme uvést, že Nobelovu cenu pro určení kvality
vytvořených pořadí autorů použil Harzing (2013), Turingovu cenu použili Fiala (2012b), Nykl et al.
(2014) a Fiala et al. (2015), Coddovu cenu použili Sidiropoulos a Manolopoulos (2005a), Fiala et al.
(2008) a Nykl et al. (2014) a ceny VLDB 10 Year Award a ACM Test of Time použili Sidiropoulos a
Manolopoulos (2005a, 2006). Jinou možností by bylo využití osob z redakčních rad časopisů (Fiala et
al. 2015) nebo z programových výborů konferencí (Liu et al. 2005). Vytvořená pořadí autorů mohou
být následně porovnána na základě součtu, průměru, mediánu, minima či maxima z pozic, které ve
vytvořeném pořadí obsadili držitelé zvoleného ocenění. Dále se můžeme zaměřit na porovnání pouze
několika nejlepších pozic autorů, např. prvních dvacet. Zde se ptáme, kolik oceněných autorů je na
nejlepších pozicích ve vytvořeném pořadí, viz např. (Yan a Ding 2009). Neposlední možností je využít
úpravu metody zvané Ranked Normalized Impact Factor (viz část 2.3.1), která umožňuje na základě
několika zvolených prvků porovnat i pořadí, kte neobsahují shodný počet prvků.
2.3 Nejznámější metody citační analýzy
První oblastí zájmu při automatizované analýze bibliografických záznamů bylo hodnocení vědeckých
časopisů na základě obdržených citací, přesněji na základě Impact Factoru (Garfield 1955a, 1955b).
Další oblastí zájmu je hodnocení autorů, ve kterém je jednou z nejznámějších metod h-index (Hirsch
2005). Výhodou obou metod je jejich snadný neiterační výpočet, ale naopak nevýhodou může být, že
při výpočtu nejsou využívány významnosti citující entit. Z toho důvodu můžeme říci, že obě metody
měří popularitu (viz část 2.1). Popisu Impact Factoru je věnována následující část 2.3.1 a popisu
h-indexu část 2.3.2. V obou částech jsou popsány dané metody a některé jejich modifikace. Iterační
metody, které obvykle počítají prestiž bibliografických entit (např. SCImago Journal Rank), budou
popsány v části 2.5.
Protože 2. kapitola shrnuje nejznámější metody pro měření významnosti vrcholů v bibliografických
grafech, tak další skupinou neiteračních metod, kterou popíšeme v části 2.3.3, jsou míry centrality.
Míry centrality zavedl Bavelas (1948), když se zabýval komunikací v malých skupinách osob a
poukázal na vztah mezi strukturální centralitou a vlivem ve skupinových procesech. Centralita tedy je,
vedle popularity a prestiže, další mírou, kterou lze hodnotit vrcholy grafu. Přestože míry centrality
pocházejí z oblasti sociologie, tak, jak shrnují např. Yan a Ding (2009), byly již také mnohokrát použity
v bibliometrii.
2.3.1 Impact Factor a jeho modifikace
Impact Factor
20
byl jednou z prvních metod pro měření významnosti časopisů, kterou Institute for
Scientific Information (ISI) aplikoval v databázi Web of Science (WoS) a výsledky zobrazil v Journal
Citation Reports (JCR). První zmínku o Impact Factoru nalezneme v (Garfield 1955a, 1955b), kde autor
16
Web ACM A. M. Turing Award - http://amturing.acm.org
17
Web ACM SIGMOD Edgar F. Codd Innovations Award - http://www.sigmod.org/sigmod-awards
18
Web VLDB 10 Year Award - http://www-nishio.ist.osaka-u.ac.jp/vldb/archives/public/10year/10year.html
19
Web ACM Test of Time - http://www.sigmod.org/sigmod-awards/sigmod-awards#time
20
Journal Impact Factor a 5-Year Journal Impact Factor na webu ISI
- http://admin-apps.webofknowledge.com/JCR/help/h_impfact.htm
12
přichází s myšlenkou indexování článků obsažených ve vědeckých časopisech pro účely hodnocení
významnosti časopisů. Dále se autor o Impact Factoru zmiňuje v (Garfield 1972, 1999). Impact Factor
časopisu vyjadřuje, jak bylo vědecké smýšlení v daném roce ovlivněno články publikovanými v daném
časopise dva roky před tím.
Impact Factor (IF, faktor vlivu) časopisu j v roce y (např. 2011) je počet citací z roku y na všechny
články publikované v časopise j dva roky před tím (tj. 2010 a 2009) dělený počtem všech podstatných
článků (tj. bez redakčních poznámek, úvodních článků, recenzí atd.) publikovaných v těchto dvou
letech v časopise j. IF časopisu je tedy průměrným počtem citací, které v daném roce obdržely články
publikova v předchozích dvou letech v daném časopise, a proto dle něj lze porovnávat různě
objemné časopisy. Také jím lze odhalit časopisy obsahující pouze recenze (tyto časopisy s neúměrně
vysokým IF nejsou zařazovány do WoS). JCR vedle hodnot IF časopisů, které byly vypočítány včetně
samocitací časopisů, ukazuje i hodnoty IF vypočítané bez těchto samocitací (pozn.: pokud je rozdíl
hodnot „příliš velký“, tak časopis obvykle bývá vyřazen z dalšího indexování).
IF a některé jeho další varianty lze zapsat vzorcem (2.1), kde IF(j)y je hodnota časopisu j v roce y,

udává počet citací z roku y na články publikované v časopise j v rozmezí let daném
intervalem IntPub a  je počet článků publikovaných v časopise j v rozmezí let daném
intervalem IntPub. Pokud chceme vzorcem (2.1) vyjádřit Impact Factor, tak IntPub = <y-1; y-2>.


(2.1)
V JCR můžeme nalézt také 5-Year Journal Impact Factor, který používá publikace z pěti let
(IntPub = <y-1; y-5>), a Immediacy Index
21
(index bezprostřednosti), který je jednoletou obdobou IF
(IntPub = <y; y>) a indikuje, jak rychle jsou články v časopise citovány.
Extended Impact Factor (rozšířený faktor vlivu) můžeme nalézt v (Haddow a Genoni 2010), kde ho
autoři na konkrétním příkladu pro rok 2007 definují jako: „počet citací z let 2001 2007 na články
publikované v časopise j v letech 2001 až 2006 dělený počtem článků časopisu j z let 2001 2006“.
Tato verze IF vyjadřuje průměrnou citovanost článků daného časopisu v rozmezí sedmi let, což ale
celkem dlouho znevýhodňuje nové časopisy.
Modified Journal Diffusion Factor (modifikovaný faktor rozptylu časopisu), publikovaný v (Haddow a
Genoni 2010), využívá stejného výpočtu jako Extended Impact Factor, ale neuvažuje počty
souhlasných citací, tj.: pokud byl v časopise A citován časopis B, tak B získá od A jednu citaci, bez
ohledu na to, kolikrát byl časopis B v časopise A citován. Původní Journal Diffusion Factor, jehož
výpočet je složitější, než výpočet zde popsaný, lze nalézt v (Rowlands 2002) a další jeho modifikace v
(Frandsen 2004; Sanni a Zainab 2011).
Aggregate Impact Factor of a Field (AIFF, sloučený faktor vlivu oblasti) je klasický Impact Factor, který
je ale počítán pro celou zvolenou oblast či kategorii WoS (např. Computer Science: Artificial
Intelligence), tj. využívá všechny citace z daného roku na články publikované ve zvolené oblasti dva
roky před tím a počet těchto člán (Dorta-González a Dorta-González 2012). JCR vedle Aggregate
21
Immediacy Index na webu ISI - http://admin-apps.webofknowledge.com/JCR/help/h_immedindex.htm
13
Impact Factoru uvádí i Aggregate Immediacy Index (sloučený index bezprostřednosti). Na základě
těchto metod lze zjistit, které vědní oblasti jsou ve sledovaném roce nejvíce rozvíjené.
Egghe a Rousseau (2003) představili Global Impact Factor (globální/souhrnný faktor vlivu) oblasti a s
jeho pomocí zavádli Relative Impact Factor (relativní faktor vlivu) časopisu, který lze použít pro
porovnání časopisů z různých vědních oblastí. Global Impact Factor oblasti je počítán obdobně jako
AIFF, ale není implicitně definováno, z jakého rozsahu let jsou použity citace a citované publikace.
Zvolené rozsahy let se použijí i pro výpočet obdoby Extended Impact Factoru časopisu. Relative
Impact Factor časopisu je následně podílem takto vzniklého Extended Impact Factoru časopisu a
Global Impact Factoru oblasti, ve které se časopis nachází.
Ranked Normalized Impact Factor (RNIF, pořadím normalizovaný faktor vlivu) navrhli Abrizah et al.
(2013) pro porovnání postavení časopisu v různých bibliografických databázích. RNIF je počítán dle
vzorce (2.2), kde  je hodnota Ranked Normalized Impact Factoru časopisu j v databázi d, je
počet časopisů v kategorii časopisu j databáze d a je pozice časopisu j v pořadí jeho kategorie
v databázi d. Pořadí časopisů v kategorii je vytvořeno dle Impact Factoru (ve WoS) nebo dle SCImago
journal ranku (ve Scopus, viz část 2.5.8). Abrizah et al. (2013) využitím RNIF porovnávají WoS a
Scopus a uvádějí příklad časopisu, který je na 60 pozici v JCR kategorii obsahující 77 časopisů a na 48
pozici ve Scopus kategorii obsahující 128 časopisů. Zvolený časopis má ve WoS RNIF=0,234, c
znamená, že v dané WoS kategorii je 76,6% časopisů na lepší pozici, než zvolený časopis. Ve Scopus je
lepších pouze 36,7% časopisů. (Pozn.: obdobou RNIF lze také porovnat pozice zvoleného prvku či
prvků libovolné bibliografické entity v pořadích vytvořených libovolnými metodami. Porovnávaná
pořadí navíc nemusejí obsahovat shodný počet prvků.)

(2.2)
Cited Half-Life
22
(poločas obdržených citací) a Citing Half-Life
23
(poločas obsažených citací) jsou
dalšími metodami, které lze nalézt v JCR. Cited Half-Life udává počet roků (počítáno od aktuálního
roku), ve kterých časopis obdržel 50% všech citací z aktuálního roku. Výpočet lze lépe pochopit z
konkrétního příkladu: pokud je v roce 2012 Cited Half-Life hodnota časopisu 5,25, tak 50% všech
citací, které časopis obdržel v roce 2012, směřuje na jeho články z let 2012 2008 (5 let) a z roku
2007 je použita čtvrtina citací“. Obdobně je tomu u Citing Half-Life, pouze se nepočítají citace, které
časopis obdržel (vstupní hrany), ale citace, které časopis obsahoval (výstupní hrany). Obě metody
měří aktuálnost obsahu časopisu – Citing Half-Life z pohledu informací obsažených v článcích daného
časopisu (použité zdroje) a Cited Half-Life z pohledu využití článků, které daný časopis obsahoval.
2.3.2 H-index a jeho modifikace
Vedle metod pro hodnocení časopisů vznikly i metody primárně určené pro hodnocení autorů
vědeckých článků. Nejznámější metodou je Hirsch-index či jen h-index, který navrhl Hirsch (2005) pro
účely kvantifikování individuálního vědeckého přínosu. H-index je definován takto: Autor má h-index
22
Cited Half-Life na webu ISI - http://admin-apps.webofknowledge.com/JCR/help/h_ctdhl.htm
23
Citing Half-Life na webu ISI - http://admin-apps.webofknowledge.com/JCR/help/h_ctghl.htm
14
o velikosti h, pokud h z jeho publikací obdrželo alespoň h citací a žádná další jeho publikace nemá více
než h citací. Samocitace autorů by při výpočtu neměly být použity. Nejlepší publikace autora, které
určily velikost jeho h-indexu, tvoří množinu nazývanou h-jádro. Protože h-index autora v průběhu let
pouze stagnuje nebo roste, tak lze o h-indexu hovořit jako o míře vyspělosti autora. Normalizovaný
h-index (Sidiropoulos a Katsaros 2008) je h-index autora dělený celkovým počtem článků autora.
Ch-index (či citer index) uvedený v (Ajiferuke a Wolfram 2009) uvažuje pouze počty autorů (každý
počítán jen jednou), kteří publikaci citovali. Zbytek výpočtu je stejný jako u h-indexu. H-index a
ch-index porovnali Franceschini et al. (2010) a zjistili, že ch-index není citlivý na samocitace a
opakující se citace a je také méně citlivý na chyby v bibliografické databázi (např. duplicitní záznamy)
než h-index.
Egghe (2006, 2013) představil g-index, jehož výpočet je blízký výpočtu h-indexu, s tím rozdílem, že se
používá druhá mocnina souhrnného počtu citací: „autor má g-index o velikosti g, jestliže g z jeho top
článků obdrželo v součtu alespoň g2 citací“. Jak Egghe (2006) poznamenává, platí g h, přičemž
g-index přebírá všechny dobré praktiky h-indexu a navíc zohledňuje množství citací nejlepších článků
autora (pozn.: h-index nezohledňuje skutečnost, že nejcitovanější článek autora může mít daleko více
citací, než jeho další články). Tol (2008) představuje successive g1-index (g1-index „úspěšnosti“), který
je počítán pro výzkumné oddělení nebo skupinu tak, že: skupina g1-index úspěšnosti o velikosti
g1, pokud g1 z jejích výzkumníků má g-index o velikosti alespoň g1“.
A-index (average index; průměrný h-index), publikovaný v (Jin et al. 2007), je počítán jako součet
citací článků, které náleží do h-jádra autora, dělený velikostí h-indexu. Další metodou představenou
Jin et al. (2007) je R-index, který je počítán jako odmocnina ze součtu citací článků náležících do
h-jádra autora. Autoři dále ukazují AR-index či age-dependent R-index („na věku závislý“ R-index),
který je počítán jako odmocnina ze součtu podílů citací článků náležících do h-jádra autora a věku
článku (pozn.: věk je celočíselný počet let existence článku, tj. nejmenší věk je 1). AR-index zamezuje
neustálému zvyšování hodnoty autora v průběhu let, protože pozvolna znevýhodňuje starší články.
Autor h-indexu představil také jeho variantu zvanou ħ-index („h s pruhem“), viz (Hirsch 2010), kterou
definuje takto: „vědec má index o velikosti ħ, pokud jeho ħ publikací náleží do jeho ħ-jádra. Publikace
náleží do autorova ħ-jádra, pokud má alespoň ħ citací a navíc náleží do ħ-jádra všech svých autorů“.
Výpočet začíná s vypočtenými h-indexy autorů, přesněji s jejich h-jádry, ze kterých se postupně
odstraňují publikace, které nejsou v h-jádrech ech svých autorů. Tím se může snížit h-index autora
a do utvářeného ħ-jádra se tak mohou dostat publikace, které mají méně citací než publikace
v původním h-jádře, ale jsou v ħ-jádrech všech svých autorů (platí ħ h). Výhodou ħ-indexu je, že
produktivnějším autorům penalizuje spolupráci se začínajícími autory.
Z uvedených variant h-indexu lze usoudit, že h-index lze snadno modifikovat pro různé účely
hodnocení, přičemž modifikace se často týkají míry zohlednění citovanosti či produktivity autora ve
výsledném hodnocení. Odkazy na další modifikace h-indexu, jejich studie a použití pro hodnocení
autorů, výzkumných skupin, univerzit, časopisů, témat, států apod. obsahuje např. (Alonso et al.
2009).
2.3.3 Míry centrality
Koncept centrality více rozpracoval Freeman (1977), který pro účely určení centrálních vrcholů
v sociální síti definoval sadu metod či měr centrality (Centrality Measures) založených na
15
betweenness (volně přeloženo: „mezilehlost“). V sociální síti vrcholy obvykle zastupují osoby nebo
jejich skupiny a hrany určitý akt jejich vzájemné interakce (např. spřízněnost). Centralita vrcholu
udává, do jaké míry je daný vrchol schopen ovlivnit probíhající dění (např. tok informací mezi
osobami). V následující práci Freeman (1979) shrnul základní míry centrality, kterými jsou: degree
(„stupeň“), closeness („blízkost“) a betweenness centralita. Dobrý popis měr centrality a odkazy na
jejich uplatnění ve vyhodnocení bibliografických grafů lze nalézt např. v (Yan a Ding 2009), kde autoři
aplikují míry centrality na graf spoluautorství autorů a určují nejvíce centrální autory. Různé další
úpravy měr centrality lze nalézt např. v (Hanneman a Riddle 2005). Poznamenat můžeme, že míry
centrality se obvykle aplikují na neorientované grafy, ale neorientovanost grafu není podmínkou.
Degree centralita (Freeman 1979; Yan a Ding 2009) je počtem hran nebo součtem vah hran, které se
váží na daný vrchol. Rozlišovat můžeme prosté“ degree nebo vážené degree (weighted degree).
Pokud je graf orientovaný, lze dále rozlišovat in-degree a out-degree centralitu, kde „in“ zastupuje
vstupní hrany a „out“ hrany výstupní. Obecně uvažujeme, že vrchol s vysokým počtem hran je ve
struktuře grafu více centrální a tak větší schopnost ovlivňovat ostatní. V orientovaném grafu lze
vrchol, na který vede mnoho hran (vysoké in-degree), označit za prominentní či přední. V analogii
s počítáním obdržených citací lze vrchol s vysokým in-degree také označit za populární. Naopak
vrchol, ze kterého vede mnoho hran (vysoké out-degree), lze označit za vlivný vrchol – má vyšší šanci
ovlivnit ostatní. Vždy ale záleží na konkrétním významu hrany a její orientace.
Vrcholy různě velkých grafů můžeme s využitím hodnot degree porovnávat po jejich normalizaci.
Tu provedeme tak, že degree všech vrcholů vydělíme maximálním možným počtem hran, které
vrchol může v příslušném grafu mít, tj. (n-1), kde n je počet všech vrcholů grafu (Freeman 1979;
Ferrara 2012). Vedle základní Freemanovy varianty degree centrality existuje i její varianta, zmíněná
např. v (Hanneman a Riddle 2005), která při počtu používá i vazby sousedních vrcholů. V česky
psané literatuře bývá degree centralita také označována jako centralita měřená stupněm vrcholu.
Closeness centralitu (Freeman 1979; Yan a Ding 2009) lze chápat jako míru toho, jak blízko je vrchol
ke všem ostatním vrcholům grafu, což může být interpretováno např. jako míra schopnosti vrcholu
rychle rozšířit informaci po celém grafu. Closeness centralitu lze zapsat vzorcem (2.3), kde Cc(u) je
hodnota closeness centrality vrcholu u, V je množina všech vrcholů grafu či jeho zvolené souvislé
komponenty, viz dále, a d(u,v) je délka nejkratší cesty z vrcholu u do vrcholu v. Čím blíže je vrchol
všem ostatním vrcholům grafu, tím má vyšší hodnotu closeness centrality. Pokud celý graf není
jednou souvislou komponentou, tak je potřeba vypočítat closeness centrality vrcholů v každé jeho
souvislé komponentě zvlášť a následně vypočítané hodnoty vrcholů normalizovat velikostí
komponent, tj. v případě closeness centrality je vynásobit (n-1), kde n je počet vrcholů komponenty,
ve které se vrchol nachází (Freeman 1979). Normalizovanou closeness centralitou lze porovnávat i
vrcholy z různě velkých grafů.



(2.3)
Pokud je graf vážený, tak při výpočtu closeness centrality musíme znát význam vah hran. Jestliže váhy
hran vyjadřují vzdálenost (tj. čím větší váhu hrana má, tím jsou její koncové vrcholy vzdálenější, např.
vzdálenost dvou měst), tak výpočet neměníme. Pokud ale váhy hran vyjadřují spříznění či blízkost (tj.
čím větší váhu hrana má, tím bližší si jsou její koncové vrcholy, např. počet společných publikací
16
autorů), tak při výpočtu délek nejkratších cest d(u,v) musíme sčítat obrácené hodnoty vah hran.
Vzorec closeness centrality byl také dále zkoumán a vznikly i jeho další varianty, které jsou zmíněny
např. v (Hanneman a Riddle 2005). V česky psané literatuře bývá closeness centralita také nazývána
centralita měřená blízkostí polohy ke středu.
Betweenness centralita (Freeman 1979; Yan a Ding 2009) vyjadřuje schopnost vrcholu propojovat
(rozdílné) skupiny vrcholů. V sociální síti přátel může být příkladem osoby s vysokou betweenness
centralitou osoba O, která navštěvuje dva zájmové kroužky (např. volejbal a fotbal) a tím propojuje
dvě skupiny osob pokud sociální síť přátel obsahuje pouze osoby z těchto dvou kroužků a osoba O
je jedinou osobou, která navštěvuje oba kroužky, tak osoba O největší betweenness centralitu.
Tato osoba může do značné míry ovlivňovat probíhající dění např. blokováním (nežádoucích) zpráv,
vybíráním poplatků „za spojení“ nebo izolováním osob, které nemají jinou možnost, jak se dostat ke
sdílené informaci.
Při výpočtu betweenness centrality nás zajímá, na kolika nejkratších cestách mezi všemi dvojicemi
různých vrcholů daný vrchol leží. Výpočet znázorňuje vzorec (2.4), kde CB(u) je betweenness
centralita vrcholu u, gj,u,k je počet nejkratších cest mezi vrcholy j a k, které vedou přes vrchol u, a gj,k
je počet všech nejkratších cest mezi vrcholy j a k (tj. počet všech cest mezi j a k, které mají totožnou
vzdálenost a jsou mezi danými dvěma vrcholy nejkratší).
 


(2.4)
Porovnávat hodnoty betweenness centrality vrcholů z různě velkých grafů lze opět až po jejich
normalizaci. Tu provedeme vydělením hodnot betweenness centrality vrcholů maximální možnou
hodnotou betweenness centrality, kterou by v daném grafu mohl vrchol získat. Maximální hodnotu
betweenness centrality získá vrchol, přes který v grafu, kteobsahuje cesty mezi všemi dvojicemi
vrcholů, vedou všechny nejkratší cesty. Maximální betweenness centralita vrcholu je tedy (n-1)*(n-2)
pro orientovaný graf a (n-1)*(n-2)/2 pro graf neorientovaný, kde n je počet vrcholů grafu (Freeman
1979). Je-li graf vážený, tak při zjišťování nejkratších cest musíme opět brát v úvahu význam vah hran
a správně určit nejkratší cesty. Další varianta betweenness centrality (Freeman et al. 1991) při
výpočtu používá všechny cesty mezi dvojicemi vrcholů, na kterých daný vrchol leží, a tím uvažuje, že
při komunikaci mezi dvěma vrcholy nemusí být vždy použity pouze nejkratší cesty. Tento postup je
ale výpočetně náročný. V česky psané literatuře bývá betweenness centralita také nazývána
centralita měřená středovou mezipolohou.
Mezi nejznámější programy pro analýzu sociálních sítí či obecně grafů patří UCINET
24
(Borgatti et al.
2002), Pajek
25
(Batagelj a Mrvar 1998) a Gephi
26
(Bastian et al. 2009), které vedle výpočtu měr
centrality umožňují i výpočet základních statistik pro porovnání celých grafů, jako jsou např. poloměr
grafu
27
, hustota grafu
28
, rozložení stupňů vrcholů
29
apod. Pajek XXL je navíc použitelný pro analýzu
24
Program UCINET - https://sites.google.com/site/ucinetsoftware/home
25
Program Pajek - http://mrvar.fdv.uni-lj.si/pajek/
26
Program Gephi - https://gephi.org
27
V grafu jsou určeny délky nejkratších cest mezi všemi dvojicemi vrcholů a následně je mezi těmito délkami
vyhledána maximální délka, která je poloměrem daného grafu.
17
objemných grafů a Gephi pro vizualizaci grafů. Různé další metody, které lze použít k analýze
sociálních sítí, shrnují např. (Hanneman a Riddle 2005; Aggarwal 2011; Ferrara 2012).
2.4 Algoritmus PageRank
Algoritmus PageRank (Brin a Page 1998; Page et al. 1999), dále tajen PageRank, byl původně
vyvinut pro webové vyhledávače, ve kterých slouží pro určení významností webových stránek. Tyto
významnosti jsou následně používány při řazení webových stránek ve výsledcích vyhledávání. Dnes
PageRank používá např. webový vyhledávač Google.com a některé další vyhledávače. Jak Page et al.
(1999) uvádějí, koncept PageRanku vychází z citační analýzy. Měli bychom také zmínit, že PageRank je
aplikací Markovova řetězce, viz detailněji např. v (Langville a Meyer 2006), a PageRanku podobný
koncept navrhli dříve Pinski a Narin (1976), ale potenciál tohoto konceptu využili Brin a Page
(1998), když navrhli PageRank.
PageRank při určování významnosti webové stránky používá hypertextové odkazy, které na stránku
odkazují, a významnost stránek, ze kterých tyto odkazy vedou. Z matematického hlediska je
vyhodnocován graf, jehož vrcholy reprezentují webové stránky a hrany vyjadřují, že z jedné webové
stránky vede hypertextový odkaz na stránku jinou. Interní hypertextové odkazy (lze použít označení z
bibliografie „samocitace“), tj. odkazy, které odkazují na stránku, na které se nacházejí, se při
vyhodnocování Webu nepoužívají.
2.4.1 Matematický popis algoritmu PageRank
Algoritmus PageRank lze popsat buďto maticovým zápisem, který je užitečný pro matematické
zkoumání algoritmu (např. jeho konvergence, urychlení výpočtu atd.), nebo zápisem výpočtu pro
jeden prvek, který je užitečný pro snazší“ pochopení a implementaci PageRanku. Dále jsou ukázány
oba dva typy zápisů, přičemž použity byly maticové zápisy a důkazy uvedené v (Langville a Meyer
2006). Výpočet PageRanku je iterační a končí po zvoleném počtu iterací nebo po dosažení zvolené
přesnosti PageRankových hodnot jednotlivých vrcholů.
Základní vzorec PageRanku, který Page et al. (1999) navrhli, je vzorec (2.5), kde PRx(A) je hodnota
PageRanku vrcholu A v iteraci x, UA je množina všech vrcholů odkazujících na vrchol A a Nu je počet
výstupních hran vrcholu u. Suma ve vzorci (2.5) zastupuje citační prestiž vrcholu. Tomuto zápisu
odpovídá maticový zápis uvedený ve vzorci (2.6), kde
(x) je vektor PageRankových hodnot všech
vrcholů grafu v iteraci x a H je řádkově normalizovaná matice sousednosti zastupující vyhodnocovaný
graf.
  

(2.5)

(2.6)
28
Hustota grafu je počet hran grafu dělený počtem všech hran, které by graf mohl obsahovat, tj. n*(n-1)
v orientovaném grafu a n*(n-1)/2 v neorientovaném grafu, přičemž n je počet vrcholů grafu.
29
Rozložení stupňů vrcholů je znázorněno diagramem, který má na vodorovné ose stupně vrcholů a na svislé
ose počty vrcholů, které mají daný stupeň.
18
Nyní použijeme analogii s hodnocením webových stránek, zavedeme pojem webový surfař (tj.
uživatel Webu, který klikáním na hypertextové odkazy prochází Web – dále jen surfař) a budeme
uvažovat, že se Webem pohybuje nekonečně mnoho surfařů. Pokud PageRanku nastavíme
, kde |V| je velikost množiny všech webových stránek vyhodnocovaného grafu, tak
vypočtená hodnota PageRanku webové stránky udává pravděpodobnost, s jakou se surfaři po
nekonečně mnoho krocích nacházejí právě na dané stránce. Součet hodnot PageRanku všech vrcholů
grafu je roven 1, tj. 100%, což znamená, že každý surfař je v některém z vrcholů grafu.
Prvním problémem, se kterým se vzorce (2.5) a (2.6) potýkají, je úbytek celkové hodnoty PageRanku
vlivem vrcholů, které nemají žádné výstupní hrany, tzv. slepé vrcholy (dangling nodes). V analogii se
surfaři lze říci, že surfaři, kteří jsou aktuálně ve slepých vrcholech, nemohou pro svůj pohyb využít
žádný hypertextový odkaz, a proto budou v následující iteraci PageRanku na stálo „vyloučeni“ z grafu.
Z toho důvodu se součet hodnot PageRanku všech vrcholů grafu přestane rovnat jedné, přičemž
celkový úbytek hodnoty PageRanku značí, jaká část surfařů je z grafu vyloučena. Problém slepých
vrcholů lze řešit např. těmito způsoby:
1) vytvoření stoku - vytvoříme v grafu nový vrchol (tzv. stok) se smyčkou (samocitační
hranou) a všem slepým vrcholům přidáme výstupní hranu směřující na tento vrchol.
2) normalizace po každé iteraci PageRanku normalizujeme hodnoty všech vrcholů grafu
tak, aby jejich součet byl roven jedné.
3) rovnoměrné rozdělení každému slepému vrcholu přidáme výstupní hrany na všechny
vrcholy grafu (i na sebe sama).
První způsob (vytvoření stoku) není příliš vhodný, protože může vést k situaci, kdy nově vytvořený
vrchol získá celou hodnotu PageRanku, tj. bude mít hodnotu 1. Druhý způsob (normalizace) lze, po
odstranění problému Rank sink (viz dále), použít, ale jeho nevýhodou je, že každému vrcholu je
normalizací přidána jiná hodnota. Z těchto důvodů se obvykle používá způsob třetí, tj. rovnoměrné
rozdělení hodnot slepých vrcholů. V maticovém zápisu doplníme výstupní hrany slepým vrcholům
přímo do vyhodnocovaného grafu, který je zastoupen řádkově normalizovanou maticí sousednosti H,
čímž vznikne matice S, jak ukazuje vzorec (2.7). Nově vzniklou maticí S nahradíme matici H ve vzorci
(2.6). Matice S zastupuje vyhodnocovaný graf, ve kterém jsou všem slepým vrcholům doplněny hrany
na všechny vrcholy grafu. Ve vzorci (2.7) pro výpočet matice S je a vektor „sleposti“ vrcholů, kde ai je
rovno jedné, pokud je vrchol i slepým vrcholem, jinak je ai rovno nule, a e je jednotkový vektor.

(2.7)
Při výpočtu PageRanku využitím matematického zápisu výpočtu pro jeden prvek nemusíme výstupní
hrany ze slepých vrcholů doplňovat přímo do grafu, ale stačí s nimi pouze počítat, jak ukazuje námi
navržený vzorec (2.8). Protože hodnota předávaná od slepých vrcholů se v průběhu iterace nemění,
tak výpočet lze urychlit. Ve vzorci (2.8) je D množina všech slepých vrcholů grafu, V je množina všech
vrcholů grafu a |V| velikost množiny V. První suma ve vzorci (2.8) zastupuje část prestiže, kterou
vrchol získá díky svým vstupním hranám, a druhá suma část prestiže, kterou vrchol získá ze slepých
vrcholů.
19
  



(2.8)
Vzorce (2.5) (2.8) ovšem stále neřeší problém zvaný Rank sink, který se projevuje, pokud vrcholy
ve skupině odkazují samy na sebe, ale neodkazují vně skupiny, přičemž skupina je odkazována
z vnější. Rank sink ilustruje obrázek 2.4 s příkladem, ve kterém vrcholy A a B po nekonečně mnoho
iteracích výpočtu PageRanku předají své hodnoty PageRanku vrcholům C a D a PageRank vrcholů A a
B bude (díky zaokrouhlovacím chybám) roven nule. Dalším problémem je, že pokud vrcholy C a D
nebudou mít každý přesně polovinu celkové hodnoty PageRanku, tak si v každé iteraci vymění své
hodnoty a nikdy nenastane ustálený stav, tj. algoritmus nebude konvergovat.
Obrázek 2.4: Příklad grafu, ve kterém při použití některého ze vzorců (2.5) (2.8) vznikne Rank sink.
Problém Rank sink Brin a Page (1998) vyřešili navržením modelu náhodných webových surfařů, kteří
se Webem pohybují klikáním na hypertextové odkazy nebo použitím tzv. teleportu, tj. přechodem na
náhodnou webovou stránku zadáním její URL adresy přímo do webového prohlížeče. Analýzou
chování reálných uživatelů Webu autoři zjistili, že teleport uživatelé využívají průměrně jednou za 7
kroků. Proto ve svém algoritmu stanovili užití teleportu s pravděpodobností 15% 1/7. Do algoritmu
PageRank byl model náhodných surfařů vložen konstantou d zvanou faktor tlumení. Surfaři tak
s pravděpodobností d následují hypertextové odkazy nebo s pravděpodobností (1-d) použijí teleport.
Faktor tlumení je tedy obvykle nastaven na hodnotu 0,85, ale tato hodnota může být změněna např.
při využití personalizace (neuniformní úprava náhodného teleportu, viz část 2.4.2).
Vzorec (2.9) ukazuje, jak byl vzorec (2.8) doplněn o faktor tlumení a hodnota, kterou každý vrchol
získá díky teleportu, normalizována počtem všech vrcholů grafu. První část vzorce (2.9) zastupuje
hodnotu, kterou vrchol ská díky náhodnému teleportu (jedná se o statickou část PageRanku), a
druhá část vzorce zastupuje hodnotu prestiže, kterou vrcholu získá díky vyhodnocení grafu
(dynamická část PageRanku).

 



(2.9)
Do maticového zápisu PageRanku zakomponujeme náhodný teleport upravením matice S, což
ukazuje vzorec (2.10), a nově vzniklou maticí G nahradíme matici H ve vzorci (2.6). Matice G
zastupuje vyhodnocovaný graf, ve kterém je zakomponován náhodný teleport a všem slepým
vrcholům jsou doplněny hrany na všechny vrcholy grafu.
 
(2.10)
20
Poslední nepřesností vzorce (2.9) je, že každá hrana vyhodnocovaného grafu, ve výpočtu
PageRanku stejnou váhu, tj. jsou-li na stránce např. 4 rozdílné odkazy, tak uvažujeme, že každý z nich
bude použit s pravděpodobností ¼. V prostředí Webu obvykle počet stejných odkazů zanedbáváme,
ale pokud bychom chtěli některý z odkazů zvýhodnit (např. počtem výskytů), tak musíme vzorec
PageRanku doplnit o váhy hran. To ukazuje vzorec (2.11), kde wutoA je váha hrany vedoucí z vrcholu u
do vrcholu A a wuout je součet vah všech výstupních hran vrcholu u. Naší úpravou v prezentovaných
vzorcích, které popisují výpočet PageRanku pro jeden prvek, bylo přidání části s ošetřením slepých
vrcholů. Tato část umožňující urychlení výpočtu nebyla v původních pracích (Brin a Page 1998; Page
et al. 1999; Langville a Meyer 2006) použita.

 




(2.11)
V maticovém zápisu žádnou úpravu, přidávající do výpočtu váhy hran, provádět nemusíme, protože
váhy hran můžeme zapsat přímo do matice sousednosti H předtím, než ji řádkově znormalizujeme.
S odkazem na matematické důkazy v (Langville a Meyer 2006) můžeme říci, že výpočet PageRanku
vzorci (2.9) (2.11) konverguje k jedinečnému výsledku bez ohledu na výchozí nastavení
PageRankových hodnot. Přesto se ale obvykle před první iterací nastavují hodnoty vrcholů na
hodnotu 1/|V|, či nejlépe na hodnoty blízké konečnému výsledku.
2.4.2 Personalizace PageRanku
V některých případech můžeme požadovat, aby určité vrcholy byly algoritmem PageRank v průběhu
výpočtu zvýhodněny. Toho můžeme docílit neuniformním rozdělením faktoru tlumení (část 1-d), což
bývá označováno jako personalizace. Pojem personalizace zavedli Page et al. (1999), když do výpočtu
PageRanku chtěli zakomponovat různé potřeby či vlastnosti uživatelů. PageRank doplněný o
personalizaci znázorňuje vzorec (2.12), kde P je množina personalizací všech vrcholů grafu a pA je
hodnota personalizace vrcholu A. První část vzorce (2.12) zastupuje hodnotu vrcholu získanou díky
personalizaci (statická část PageRanku) a druhá část zastupuje hodnotu prestiže vrcholu získanou
vyhodnocením grafu (dynamická část PageRanku). Do jamíry bude konečná hodnota PageRanku
tvořena statickou či dynamickou částí udává faktor tlumení.

 




(2.12)
Ve vzorci (2.12) předpokládáme, že nenastane situace, kdy . Pokud by tato situace mohla
nastat, tak můžeme využít např. náš vzorec (2.13), ale možností řešení je více a vždy záleží na
konkrétním použití algoritmu.

 




(2.13)
21
V maticovém zápisu PageRanku zakomponujeme personalizaci odpovídající vzorci (2.12) do matice
sousednosti G namísto náhodného teleportu, jak ukazuje vzorec (2.14), který je úpravou vzorce
(2.10), a nově vzniklou maticí Gp opět nahradíme matici sousednosti H ve vzorci (2.6). Ve vzorci (2.14)
je v normalizovaný vektor personalizací a S matice sousednosti získaná vzorcem (2.7). Matice Gp
zastupuje vyhodnocovaný graf, ve kterém je zakomponována personalizace a všem slepým vrcholům
doplněny hrany na všechny vrcholy grafu.

(2.14)
Pěkný příklad použití personalizace v citační analýze ukazují např. Yan a Ding (2011), kteří
PageRankem vyhodnocují graf spoluautorství autorů a personalizaci používají tak, že pA představuje
počet citací, které obdržel autor A, tj. popularitu autora A (viz část 2.1). Využitím faktoru tlumení
d=0,55 autoři vkládají popularitu do výpočtu PageRanku hodnotícího spoluautorství.
2.4.3 Citlivost PageRanku na změnu paramet
Informace o citlivosti algoritmu PageRank na změnu parametrů, přejaté z (Langville a Meyer 2006),
jsou důležité zejména, pokud vyhodnocujeme graf s dynamicky se měnící strukturou, např. Web.
Výpočet PageRanku značně ovlivňuje velikost faktoru tlumení d, který určuje, do jaké míry se ve
počtu PageRanku zohlední struktura grafu a do jaké míry se zohlední personalizace. Pokud je faktor
tlumení malý, tak výpočet PageRanku není příliš citlivý na jeho malou změnu a je více citlivý na
změnu personalizace (tj. změnu vektoru v). Naopak, pokud je faktor tlumení velký, tak je výpočet
PageRanku hodně citlivý na jeho malou změnu a je také více citlivý na změnu struktury grafu (tj.
změnu matice H). Navíc, čím blíže jedné faktor tlumení je, tím více iterací je potřeba k dosažení
zvolené přesnosti výsledku (Langville a Meyer 2006; Nykl 2011).
2.5 Další metody pro měření významnosti vrcholů grafu
V této části 2. kapitoly je shrnut aktuální stav poznání v úloze určování významných vrcholů grafu
iteračními metodami, přičemž důraz je kladen na metody, které byly nebo mohou být uplatněny v
bibliometrii. Tyto metody obvykle vyhodnocují citační grafy a pro určení hodnot významnosti vrcholů
používají hodnoty vrcholů, které na ně odkazují. Jak bylo zmíněno v části 2.1, takto vypočtenou
významnost vrcholu můžeme nazývat prestiž. Metody, které jsou v následujících částech 2.5.1 až
2.5.12 zmíněny, jsou variací nebo obdobou algoritmu PageRank, který upravují tak, aby při
vyhodnocení bibliografického grafu vyzdvihl určitou vlastnost a poskytl tak specifické hodnocení
prestiže vrcholů. Použitím metod pro výpočet prestiže by mělo být získáno lepší ohodnocení vrcholů,
než použitím metod měřících popularitu, které jsou zmíněny v části 2.3.
2.5.1 Vážený PageRank a AuthorRank
Od vzniku PageRanku bylo navrženo několik jeho variant, které autoři označili jako vážený PageRank
(Weighted PageRank - WPR). Mezi jednodušší varianty patří WPR prezentovaný Ding (2011a), který
používá pouze personalizaci a nepoužívá váhy hran. Autorka zmiňuje, že personalizace vrcholu, který
zastupuje autora, může obsahovat počet citací, počet publikací, počet publikací, kde byl autor uveden
jako první autor nebo h-index. Autorka následně při vyhodnocení citačního grafu autorů používá
v personalizaci počet citací a počet publikací, přičemž personalizace počtem citací jí poskytuje na
základě porovnání s oceněnými autory nejlepší pořadí autorů. Variantu PageRanku, která využívá
22
váhy hran a nevyužívá personalizaci, použitou na graf spoluautorství s vahami hran vyjadřujícími
frekvence spolupráce jednotlivých dvojic autorů, nazvali Liu et al. (2005) AuthorRank. Dle Liu et al.
(2005) tato metoda hodnotí míru ochoty jednotlivých autorů ke spolupráci efektivněji než
betweenness centralita, která je pro objemné grafy výpočetně náročná. Měli bychom zmínit, že
klasickou variantou WPR je vzorec (2.12), který uvažuje váhy hran i personalizaci.
Xing a Ghorbani (2004) v souvislosti s vyhodnocením Webu říkají, že významný vrchol zastupující
webovou stránku je hodně provázaný s ostatními vrcholy, protože ostatní vrcholy chtějí na tento
vrchol odkazovat a chtějí jím být odkazovány. Proto ve svém vzorci (2.15) používají vstupní i výstupní
hrany vrcholu. Ve vzorci (2.15) je WPRx(u) vážený PageRank vrcholu u v iteraci x, d je faktor tlumení,
Bu je množina vrcholů, které odkazují na vrchol u, Rv je množina vrcholů, na které odkazuje vrchol v, Iu
je počet vstupních hran vrcholu u a Ou je počet výstupních hran vrcholu u. Xing a Ghorbani (2004)
říkají, že jejich WPR umožňuje identifikovat větší množství k dotazu relevantních webových stránek
než klasický PageRank.
 



(2.15)
2.5.2 Bibliografický PageRank a Time-aware PageRank
Pojmenování bibliografický PageRank (bibliographic PageRank) použili Fiala et al. (2008), když do
svých metod pro hodnocení autorů PageRankem zakomponovali předpoklad, že citace od
spoluautora je méně významná, než citace od jiného autora. K tomu účelu upravili váhy hran
v citačním grafu autorů tak, aby váhy zohlednily frekvenci spolupráce citovaného autora s citujícím
autorem, viz vzorec (2.16), kde wv,k je počet citování autora k autorem v, cv,k je počet společných
publikací autorů v a k a bv,k je jednou z následujících sedmi variant: (a) nula; (b) počet všech publikací
obou autorů; (c) počet všech spoluautorů autora v a autora k, přičemž každý spoluautor se počítá
tolikrát, kolikrát byl danému autorovi spoluautorem; (d) počet různých spoluautorů autora v a autora
k, tj. každý spoluautor je pro každého autora počítán pouze jednou; (e) počet publikací autora v a
autora k, přičemž se počítají pouze ty publikace, které obsahují alespoň jednoho spoluautora; (f)
počet všech spoluautorů ve společných publikacích autorů v a k, přičemž každý spoluautor je počítán
tolikrát, kolikrát byl autorům v a k spoluautorem; (g) počet různých spoluautorů ve společných
publikacích autorů v a k.
Váhy hran Fiala et al. (2008) vložili do vzorce váženého PageRanku bez personalizace, viz vzorec
(2.17), a kvalitu navržených metod experimentálně ověřili na kolekci DBLP. Porovnání získaných
pořadí autorů na základě seznamu držitelů Coddovy ceny ukázalo, že pro hodnocení autorů je
nejlepší použít varianty vah hran (d) a (e). Ve vzorci (2.17) je PRx(u) hodnota PageRanku vrcholu u
v iteraci x, d je faktor tlumení, V je množina všech vrcholů v citačním grafu autorů a E je množina
všech hran, (v,u) je hrana vedoucí z vrcholu v do vrcholu u a σv,u je konstantní váha přiřazená hraně
(v,u) dle některé varianty vzorce (2.16).
 



(2.16)
23

 



(2.17)
V následující práci Fiala (2012b) doplnil do še zmíněných variant vah hran (a - f) čas publikování a
vytvořil bibliografický PageRank podporující čas (Time-aware PageRank), viz vzorce (2.18) a (2.19),
kde σv,u , cv,k i bv,k získaly horní index t značící rok, do kterého se daná veličina počítá, např. 
představuje počet společných publikací autorů v a k vydaných před rokem t. V experimentu s kolekcí
WoS autor porovnal pořadí auto vytvořená Time-aware PageRankem a bibliografickým
PageRankem na základě držitelů Turingovy ceny a držitelů Coddovy ceny, přičemž nejlepší pořadí
autorů poskytl Time-aware PageRank s vahami hran (d) nebo (c). Varianta (d) tedy byla nejlepší
v obou těchto typech PageRanku.

 







(2.18)




(2.19)
2.5.3 HITS
Algoritmus HITS (Hypertext Induced Topic Search), který navrhl Kleinberg (1999), je podobný
PageRanku, ovšem se dvěma zásadními rozdíly. Jak uvádějí Langville a Meyer (2006), prvním rozdílem
je, že PageRank použitý ve vyhledávači webových stránek obvykle není závislý na dotazu (je tzv.
query-independent), kdežto HITS bývá na dotazu závislý (tzv. query-dependent), tj. PageRank se
počítá pro celý webový graf (tzv. off-line) a vypočítané hodnoty webových stránek jsou přiřazeny
k výsledkům webového vyhledávání, kdežto HITS se počítá pro graf vytvořený z výsledků vyhledávání.
Využitím PageRankových nebo HITS hodnot webových stránek se výsledky vyhledávání seřadí.
Implementaci algoritmu HITS používá např. vyhledávač Teoma.com
30
. Druhým rozdílem algoritmů
HITS a PageRank je, že HITS pomyslně rozděluje vrcholy na autority (authorities) a rozcestníky (hubs).
Kleinberg (1999) říká, že: „dobré rozcestníky jsou ty vrcholy, které odkazují na dobré autority, a dobré
autority jsou ty vrcholy, které jsou odkazovány dobrými rozcestníky“. V duchu této kruhové definice je
HITS i počítán a hodnotí u každého vrcholu dvě vlastnosti – autoritativnost (authoritativeness) a
„rozcestníkovost“ (hubness). Každému vrcholu grafu jsou tedy přiřazeny dvě hodnoty, jak ukazují
vzorce (2.20), ve kterých x(k) je vektor hodnot autoritativnosti jednotlivých vrcholů v iteraci k, y(k) je
vektor hodnot rozcestníkovosti vrcholů v iteraci k a L je matice sousednosti.
30
Vyhledávač Teoma používá HITS pro řazení výsledků vyhledávání - http://www.teoma.com
24
 
 
(2.20)
Vzorce (2.20) lze zbavit kruhové závislosti, jak je ukázáno ve vzorcích (2.21).
 
 
(2.21)
Pro hodnocení bibliografických entit se obvykle používají HITS hodnoty autoritativnosti vrcholů.
Přestože byl HITS při citační analýze mnohokrát použit, viz např. (Borodin et al. 2005; Sidiropoulos a
Manolopoulos 2005a, 2006; Fiala et al. 2008, 2015; Fiala 2011, 2012b), tak ale obvykle sloužil pouze
pro porovnání s nově vytvořenými metodami a neposkytl nejlepší hodnocení. Úpravy algoritmu HITS
a zvláště pak jeho kombinace s algoritmem PageRank, které napravují některé nedostatky obou
algoritmů, zmiňují např. části 2.5.4, 2.5.5 a 2.5.10. Více o konvergenci, citlivosti, urychlení výpočtu a
silných a slabých stránkách algoritmu HITS lze nalézt v (Langville a Meyer 2006).
2.5.4 FutureRank
Algoritmus FutureRank (Sayyadi a Getoor 2009) je kombinací algoritmů PageRank a HITS pro účely
souběžného hodnocení autorů a publikací na základě citačního grafu publikací a bipartitního grafu
autorství (tj. autoři a jejich publikace), který by měl umožnit výpočet budoucích hodnot PageRanku
publikací. Při iteračním výpočtu se střídají dva kroky:
1) vypočtení hodnot publikací na základě hodnot jejich autorů, hodnot citujících publikací a stáří
publikace (kombinace PageRanku a HITSu), viz vzorec (2.22).
2) rozdělení hodnot publikací jejich autorům (obdoba HITS), viz vzorec (2.24).
Hodnoty publikací jsou počítány dle vzorce (2.22), který obsahuje tři faktory tlumení α, β a γ (musí
platit α+β+γ 1) pro určení míry, s jakou se v hodnocení publikací projeví jednotlivé hodnocené
vlastnosti:
faktor α tlumí vliv předávání hodnot mezi publikacemi (dynamická část PageRanku) použit
je citační graf publikací reprezentovaný maticí MC a vektor hodnot publikací RP,
faktor β tlumí vliv hodnot předaných publikacím od autorů (obdoba HITS) použit je
bipartitní graf autoři-publikace reprezentovaný maticí MA a vektor hodnot autorů RA,
faktor γ tlumí vliv stáří publikace (personalizace PageRanku) RTime je vektor, jehož hodnoty
se snižují dle stáří publikace.
Stáří  publikace i je počítáno vzorcem (2.23), kde Tcurrent je současný rok nebo rok dotazu (pokud
je vzorec použit ve vyhledávači) a Ti je rok uveřejnění publikace i. Hodnota ρ byla experimentálně
stanovena na 0,62. Počet hodnocených publikací je značen n. Hodnoty autorů RA jsou počítány dle
vzorce (2.24), který je obdobou vzorce HITS pro výpočet rozcestníkových hodnot vrcholů.
25

(2.22)
(2.24)
Pro výpočet hodnot publikací autoři použili několik variant nastavení faktorů tlumení ve vzorci (2.22),
přičemž, jak autoři uvádějí, největší přesnosti výsledků dosáhli s α=0,19, β=0,02 a γ=0,79. Autoři dále
uvádějí, že FutureRank s β=0 je podobný algoritmu CiteRank (Walker et al. 2007) a FutureRank s γ=0
je podobný algoritmu CoRank (Zhou et al. 2007), který také současně hodnotí publikace a autory.
Algoritmy CiteRank a CoRank jsou zmíněny v části 2.5.12.
2.5.5 SALSA
Algoritmus SALSA (the Stochastic Approach for Link-Structure Analysis), publikovaný v (Lempel a
Moran 2000, 2001), je kombinací algoritmů HITS a PageRank pro účely webového vyhledávání.
SALSA, obdobně jako HITS, počítá hodnoty rozcestníkovosti a autoritativnosti vrcholů, ale navíc
z PageRanku přejímá koncept Markovova řetězce. Tato kombinace odstraňuje z algoritmu HITS
těsnou provázanost autorit a rozcestníků a poskytuje tak lepší hodnocení webových stránek než HITS.
Jak uvádějí Langville a Meyer (2006), SALSA vytváří dva Markovovy řetězce a výpočet lze zjednodušit
využitím matice sousednosti L, ze které se normalizací nenulových řádků vytvoří matice Lr a
normalizací nenulových sloupců matice Lc. Následně použitá matice provázanosti rozcestníků H
obsahuje všechny nenulové řádky z matice H’ a matice provázanosti autorit A všechny nenulové
sloupce z matice A’. Matice H’ a A’ byly vytvořeny využitím vzorců (2.25).

(2.25)
Hodnoty rozcestníkovosti i autoritativnosti vrcholů jsou počítány zvlášť pro každou souvislou
komponentu C matic H a A dle vzorce (2.26), kde
(k)(C) je vektor hodnot vrcholů z komponenty C
v iteraci k. Tento vzorec je obdobou vzorce (2.6) pro výpočet PageRanku, který je zde ale počítán pro
jednotlivé souvislé komponenty. Globální hodnoty rozcestníkovosti a autoritativnosti vrcholů jsou
dány poměrným sloučením příslušných komponent, tj. pokud matice např. 5 prvků a je tvořena
dvěma souvislými komponentami s 2 a 3 prvky, tak sledný vektor s hodnotami vrcholů obsahuje
prvky první komponenty s hodnotami vynásobenými 3/5 a prvky druhé komponenty s hodnotami
vynásobenými 2/5.

(2.26)
 
(2.23)
26
2.5.6 Eigenfactor Metrics používané databází ISI Web of Science
EigenfactorTM Metrics (Bergstrom 2007; West et al. 2008) obsahují dvě metody implementované
společností Eigenfactor.org
31
pro analýzu libovolné úrovně citačního grafu (tj. časopisy, instituce,
autoři, články atd.). Tyto metody jsou významné zejména proto, že je databáze ISI Web of Science
používá pro hodnocení časopisů a vypočtené hodnoty zobrazuje v JCR. Metoda Eigenfactor Score je
kombinací 5-Year Impact Factoru a PageRanku. Její hodnota časopisu udává procento celkového
počtu vážených citací, které v aktuálním roce obdržela vydání daného časopisu z předchozích pěti let.
Aby byly hodnoty Eigenfactor Score časopisů porovnatelné s hodnotami 5-Year Impact Factoru
časopisů, tak je potřeba vypočíst průměrnou hodnotu významnosti článků v daném časopise, k čemuž
slouží metoda Article Influence Score (hodnota vlivnosti časopisu).
Při výpočtu Eigenfactor Score se používá matice sousednosti (či citovanosti) časopisů Z, přičemž
prvek Zij je počtem citací z časopisu j ve zvoleném roce (např. 2012) na články časopisu i publikované
5 let před tím (tj. v letech 2007 až 2011). Samocitace časopisů jsou při výpočtu ignorovány. Z matice
Z vytvoříme sloupcovou normalizací matici H. Dále vytvoříme vektor počtu článků a, kde ai je počet
článků publikovaných v časopise i v daném pětiletém okénku (tj. v letech 2007 až 2011), a celý vektor
znormalizujeme. Následně ošetříme problém slepých vrcholů (tj. časopisů, které nikoho necitují), což
jsou nulové sloupce matice H, tak, že tyto sloupce nahradíme vektorem a a získáme tak matici H.
Nyní obdobně, jako při vytváření matice pro PageRank s personalizací, viz vzorec (2.14), vytvoříme
matici G dle vzorce (2.27), kde d je faktor tlumení (obvykle d=0,85) a e je jednotkový vektor. Poté
PageRankem vypočítáme vektor hodnot významnosti časopisů značený
, viz vzorec (2.28), kde
k je
vektor významnosti časopisů v iteraci k a G je upravená matice sousednosti časopisů.

(2.27)

(2.28)
EigenfactorTM Score je definováno dle vzorce (2.29), kde E je vektor Eigenfactor Score hodnot
časopisů, J je množina všech zkoumaných časopisů a Hj řádek matice H odpovídající časopisu j (pozn.:
matice H zde použita není).
 
 
(2.29)
Metoda Article InfluenceTM Score rozděluje hodnotu Eigenfactor Score časopisu všem článkům
daného časopisu, a proto lze její výsledky porovnat s výsledky 5-Year Impact Factoru. Zapsat ji lze
vzorcem (2.30), kde Ai je hodnota Article Influence Score časopisu i.

(2.30)
31
Web Eigenfactor.org - http://www.eigenfactor.org
27
E-factor či Energyfactor (Prathap 2010) je součinem Eigenfactor Score a Article Influence Score
navrženým za účelem získání lepší míry prestiže časopisů. Yin et al. (2009) využitím Eigenfactor Score
a h-indexu časopisů graficky klasifikovali časopisy do čtyř kvadrantů a ukázali, že pouze časopisy
Nature a Science mají vysoké hodnoty Eigenfactor Score i h-indexu. Pozn.: h-index časopisu je počítán
obdobně jako h-index autorů, viz (Braun et al. 2006).
2.5.7 Y-factor
Y-factor (Bollen et al. 2006) byl také navržen pro hodnocení časopisů. Autoři definují populární
časopisy jako: „časopisy často citované časopisy s malou prestiží“ a říkají, že tyto časopisy mají vysoký
Impact Factor a nízký vážený PageRank. Prestižní časopisy definují jako: „časopisy, které nejsou často
citované, ale jejichž citace pocházejí z prestižních časopisů“ a říkají, že tyto časopisy mají nízký Impact
Factor a vysoký PageRank. Představený Y-factor, viz vzorec (2.31), je součinem Impact Factoru
zatupujícího popularitu časopisu a PageRanku, který zastupuje prestiž časopisu. Impact Factor,
PageRank a Y-factor Bollen et al. (2006) testují na datech z kolekce WoS (JCR 2003) a ukazují, že
Y-factor jako jediný poskytuje pořadí časopisů s časopisy Nature a Science na prvních dvou pozicích.
Ve vzorci (2.31) je Y(j) hodnota Y-factoru časopisu j, IF(j) je hodnota Impact Factoru časopisu j a
WPR(j) je hodnota váženého PageRanku časopisu j vypočítaná z citačního grafu časopisů vzorcem
PageRanku (2.11).

(2.31)
2.5.8 Metody pro hodnocení zdrojů používané databází Scopus
SCImago Journal Rank, Impact per Publication a Source Normalized Impact per Paper jsou významné
metody proto, že je používá databáze Scopus
32
pro hodnocení zdrojů (časopisy, sborníky apod., dále
jen časopisy). Všechny metody se vyznačují tím, že používají pouze časopisecké a konferenční články
a recenze (dále jen publikace). SCImago Journal Rank
33
(SJR), viz (González-Pereira et al. 2010), je
obdobou PageRanku pro hodnocení prestiže časopisů. Jeho výpočet je rozdělen do dvou kroků:
1) výpočet tzv. prestižního SJR (Prestige SJR PSJR) míra vyjadřující celkovou prestiž časopisu
v závislosti na počtu publikací, které časopis obsahuje.
2) výpočet SJR rozdělením PSJR časopisu jeho publikacím míra prestiže časopisu, která není
závislá na počtu publikací časopisu a může být použita pro porovnání různě objemných
časopisů.
Krok s výpočtem SJR znázorňuje vzorec (2.32), kde PSJRi(k) je hodnota PSJR časopisu i v iteraci k, d=0,9
a e=0,0999 jsou faktory tlumení, V je množina všech časopisů, Ai je počet publikací obsažených v
časopise i, Cji je počet referencí na časopis i uvedených v časopise j, Cj je celkový počet referencí
uvedených v časopise j, CF je faktor korekcepočítaný vzorcem (2.33) a D je množina všech slepých
vrcholů (tj. časopisů, které neobsahují reference). Při výpočtu jsou používány publikační záznamy ze
tří let a počáteční nastavení =1/|V|, kde |V| je velikost množiny všech časopisů. Vzorec
(2.32), který je podobný vzorci (2.13) PageRanku s personalizací, lze pomyslně rozdělit na tři části,
32
Popis metod používaných bibliografickou databází Scopus - http://www.journalmetrics.com
33
Popis výpočtu SJR uvedený na webu Scopus - http://www.journalmetrics.com/sjr.php
28
přičemž hodnoty prvních dvou částí se pro daný časopis v průběhu výpočtu nemění, a proto je lze
před-vypočítat.
Význam jednotlivých částí vzorce (2.32) lze popsat následovně:
první zlomek vyjadřuje minimální hodnotu, kterou časopis získá za to, že se nachází ve zvolené
datové kolekci (jedná se o ošetření problému Rank sink, viz část 2.4.1).
druhý zlomek je podíl publikační produktivity určený na základě počtu publikací, které časopis
obsahuje, a počtu všech publikací obsažených v kolekci (jedná se o personalizaci časopisu dle
počtu publikací).
zbytek vzorce obsahuje dvě složky, z nichž první zastupuje citační prestiž časopisu určenou na
základě významnosti citujících časopisů, a druhá přiřazuje časopisu část z prestiže slepých
vrcholů/časopisů, určenou na základě publikační produktivity.

 
 
 


(2.32)
 


  


(2.33)
Ve druhém kroku z PSJR vypočteme SJR dle vzorce (2.34), kde c je konstanta použitá k navýšení
hodnot SJR tak, aby nebyly „příliš malé“.

(2.34)
Další metodou, kterou Scopus používá pro hodnocení časopisů, je Impact per Publication
34
(IPP, vliv
publikací) či též Raw Impact per Paper (RIP, surový vliv článků), viz (Moed 2010), který je tříletou
obdobou Impact Factoru, tj. je mírou popularity. IPP daného časopisu je počet citací z daného roku
na publikace vydané během předchozích tří let v daném časopise, dělený počtem těchto publikací.
Nevýhodou IPP (stejně jako Impact Factoru) je, že neodráží odlišné praktiky citování v různých
oblastech výzkumu, a proto s ním nelze porovnávat vědecké časopisy z různých oblastí (např.
počítačové a společenské vědy). Pokud je IPP časopisu normalizován relativním citačním potenciálem
vědní oblasti daného časopisu v použité kolekci (Relative Database Citation Potential RDCP), tak
vzniká Source Normalized Impact per Paper
35
(SNIP, zdrojem normalizovaný vliv článků), kterým již lze
porovnávat časopisy z různých oblastí výzkumu, viz (Moed 2010; Waltman et al. 2013).
34
Popis výpočtu IPP uvedený na webu Scopus - http://www.journalmetrics.com/ipp.php
35
Popis výpočtu SNIP uvedený na webu Scopus - http://www.journalmetrics.com/snip.php
29
Výpočet SNIP, RDCP a citačního potenciálu databáze (Database Citation Potential - DCP) znázorňují
vzorce (2.35), kde Ω je vědecká oblast, do které patří časopis i, DCPΩ a RDCPΩ jsou DCP a RDCP
hodnoty vědecké oblasti Ω, P je množina všech publikací ze zvoleného roku (např. 2012)
publikovaných ve vědní oblasti Ω a obsažených v kolekci dat, pr je počet referencí v publikaci p na
všechny publikace vydané v předchozích třech letech (tj. v letech 2009 až 2011), nΩ je počet publikací
vydaných v oblasti Ω v přechozích třech letech (tj. v letech 2009 až 2011), DCP je množina hodnot
DCPΩ všech oblastí a median(DCP) je hodnota mediánu v množině DCP, IPPi je hodnota IPP časopisu i
a SNIPi je hodnota SNIP časopisu i.




 
(2.35)
Hodnocení časopisů a států, vypočítaná na základě dat databáze Scopus, lze nalézt na webu SCImago
Journal & Country Rank
36
. Na webu CWTS Journal Indicators
37
lze nalézt následující porovnání Journal
Impact Factoru (JIF), IPP a SNIP:
SNIP a IPP jsou počítané z dat Scopus, kdežto JIF je počítán z dat Web of Science,
SNIP a IPP používají tříleté okénko citovaných publikací, kdežto JIF používá okénko
dvouleté,
SNIP a IPP používají pouze citace z vybraných typů dokumentů, kdežto JIF používá citace
ze všech indexovaných dokumentů,
SNIP koriguje vliv odlišných trendů citování v různých vědních oblastech, kdežto IPP a JIF
tento vliv zanedbávají.
2.5.9 SCEAS
Algoritmus SCEAS, součást stejnojmenného systému pro hodnocení vědeckých kolekcí (Scientific
Collection Evaluator by using Advanced Scoring)
38
, svou koncepcí vychází z algoritmu PageRank. První
zmínky o SCEAS lze nalézt v (Sidiropoulos a Manolopoulos 2005a), kde jsou publikace a autoři
hodnoceni na základě vyhodnocení citačních sítí publikací, které byly vytvořeny z dat databáze DBLP.
Hodnota autora je stanovena jako průměrem z hodnot jeho 25 nejlepších publikací. Kvalitu metod
Sidiropoulos a Manolopoulos (2005a) určili porovnáním získaných pořadí publikací na základě
ocenění VLDB 10 Year Award a SIGMOD Test of Time Award a porovnáním získaných pořadí autorů
na základě ocenění SIGMOD E. F. Codd Innovations Award, přičemž ve všech případech jim SCEAS
poskytl lepší výsledky než PageRank a HITS.
36
Web SCImago Journal & Country Rank - http://www.scimagojr.com
37
Web metodologie CWTS Journal Indicators - http://www.journalindicators.com/methodology
38
Web systému SCEAS, který obsahuje statistiky z hodnocení bibliografických entit - http://sceas.csd.auth.gr
30
Ve SCEAS, viz vzorec (2.36), je posílen vliv přímých citací (tj. vstupních hran vrcholu) konstantou b a
tlumen vliv nepřímých citací (tj. hran, které leží na cestách směřujících do daného vrcholu, ale nejsou
vstupními hranami daného vrcholu) mocninami konstanty a. Vlivem tlumení nepřímých citací změna
hodnoty vrcholu i ovlivní hodnotu vrcholu j, který je x-tým vrcholem v řadě (tj. mezi vrcholy i a j je x-1
vrcholů), s faktorem a-x. Autoři jako konstantu a používali Eulerovo číslo e. Výhodou SCEAS oproti
PageRanku a HITSu je, že výpočet hodnot vrcholů je více ovlivněn přímým citováním a je méně citlivý
na přidání nového vrcholu do grafu. Také konvergence algoritmu SCEAS je velmi rychlá. Ve vzorci
(2.36) je Sj(k) SCEAS hodnota vrcholu j v iteraci k, d je faktor tlumení, Uj je množina všech vrcholů, ze
kterých vede hrana na vrchol j, Nu je počet výstupních hran vrcholu u (váhy hran se zde nepoužívají),
b je faktor prosazení přímého citování a a faktor rychlosti, se kterou prosazení nepřímého citování
konverguje k nule. Protože vzorec (2.36) algoritmu SCEAS neošetřuje slepé vrcholy, tak po každé
iteraci algoritmu je potřeba provést normalizaci vypočtených hodnot. Autoři při experimentech
používali dvě varianty SCEAS a to SCEAS1 s d=1 a b=1 a SCEAS2 s d=0,85 a b=0, přičemž zanedbatelně
lepší pořadí poskytoval SCEAS1.
 


(2.36)
2.5.10 B-HITS, B-SALSA a varianty SCEAS
Sidiropoulos a Manolopoulos (2006) ve své další práci analyzují kvalitu algoritmů PageRank, HITS,
SALSA a SCEAS při hodnocení publikací a autorů a navrhují jejich úpravy, které by hodnocení měly
zlepšit. Hodnoty publikací jsou opět vypočteny z citační sítě a hodnoty autorů jsou stanoveny jako
průměr z hodnot jejich nejlepších 25 a 30 publikací. Kvalita získaných pořadí byla stanovena na
základě pozic oceněných publikací (VLDB 10 Year Award, SIGMOD Test of Time Award) nebo autorů
(SIGMOD E.F. Codd Innovations Award). V práci jsou nejprve definovány počet citací (Citation Count
CC), tj. počet vstupních hran vrcholu, a vyvážený počet citací (Balanced Citation Count BCC), což je
součet částí, které vrchol získá od vrcholů, které ho citují. Výpočet BCC ukazuje vzorec (2.37), kde
BCCx je vyvážený počet citací vrcholu x, Ux je množina všech vrcholů, ze kterých vede hrana na vrchol
x, a Nu je počet výstupních hran vrcholu u. Míry CC i BCC autoři kritizují, protože se při jejich výpočtu
nevyužívá významnost citujících vrcholů, tj. jedná se o míry popularity.
 

(2.37)
Autoři následně zavádí míru Prestiž, kterou definují jako součet Prestiží citujících vrcholů, jak ukazuje
vzorec (2.38), kde  je Prestiž vrcholu x v iteraci k. Tuto míru kritizují, protože hodnoty vrcholů
neúčastnících se žádného cyklu konvergují k nule a pokud existuje v grafu cesta, na které vrchol x
cituje vrchol y, tak hodnota vrcholu x nebude nikdy větší než hodnota vrcholu y. (Pozn.: mimo tyto
problémy je se vzorcem (2.38) spojeno několik dalších problémů, které byly řešeny při návrhu
algoritmu PageRank, např. problém Rank sink, viz část 2.4.1).
  

(2.38)
31
Autoři také kritizují PageRank, protože vrcholy účastnící se cyklů získají největší hodnoty PageRanku,
a algoritmy SALSA a HITS, protože uvažují rozcestníky a autority, což příliš neodpovídá hodnocení
publikací ani autorů. Z těchto důvodů navrhují nové algoritmy B-HITS, B-SALSA a různé alternativy
algoritmu SCEAS.
Balanced (vyvážený) HITS či B-HITS při výpočtu hodnot autoritativnosti vrcholů vedle hran „vedoucích
z rozcestníků“ uvažuje i hrany „vedoucí z autorit“, čímž kombinuje PageRank a HITS, jak ukazují
vzorce (2.39), kde 
 je B-HITS hodnota autoritativnosti vrcholu x v iteraci k, 
 je B-HITS
hodnota rozcestníkovosti vrcholu x v iteraci k, Ux je množina vrcholů, ze kterých vede hrana na vrchol
x, Wx je množina vrcholů, na které vedou hrany z vrcholu x, a p je faktor tlumení či míra, se kterou se
hodnoty autoritativnosti vrcholů navzájem ovlivňují (0 < p <1).

 




  


(2.39)
Balanced (vyvážená) SALSA či B-SALSA obsahuje podobnou úpravu jako B-HITS. Znázorněna je vzorci
(2.40), kde 
 je B-SALSA hodnota autoritativnosti vrcholu x v iteraci k, 
 je B-SALSA
hodnota rozcestníkovosti vrcholu x v iteraci k, Mw je počet vstupních hran vrcholu w a ostatní
parametry jsou stejné jako v B-HITS.

 




 


(2.40)
Metody pro hodnocení publikací a autorů Sidiropoulos a Manolopoulos (2006) testovali na kolekci
DBLP a kvalitu metod určovali na základě pozic oceněných publikací nebo autorů ve vytvořených
pořadích. Průměrně nejlepší pořadí publikací i autorů poskytly PageRank a SCEAS-BPS (což je SCEAS
Balanced Publication Score, tj. SCEAS vyvážené publikační hodnocení) a nejhorší pořadí poskytly
Prestiž (více jak 3x horší) a BHA část B-HITS (téměř 3x horší). Autoři dále zmiňují, že SCEAS1 a SCEAS2,
popsané v části 2.5.9, konvergují nejrychleji ze všech použitých metod. Výsledky hodnocení publikací
zde popsanými metodami lze nalézt na webu systému SCEAS
39
.
39
Statistiky z hodnocení publikací metodami z částí 2.5.9 a 2.5.10 na webu systému SCEAS
- http://sceas.csd.auth.gr/php/stats.php4
32
Pro úplnost uvádíme vzorec (2.41) algoritmu SCEAS-BPS, ve kterém  je SCEAS-BPS hodnota
vrcholu x v iteraci k, b je faktor prosazení přímého citovaní (viz část 2.5.9) a zbylé parametry byly již
popsány výše.
  

(2.41)
2.5.11 Hodnocení konferencí
Sidiropoulos a Manolopoulos (2005a) navrhli také několik nových metod primárně určených pro
hodnocení konferencí. Některé z těchto metod jsou zajímavé zvláště tím, že hodnotí jednotlivé
ročníky konferencí. Metody autoři aplikovali na kolekci DBLP a výsledky zobrazili na webu systému
SCEAS
40
. Referenční pořadí konferencí autoři nevytvářeli, a proto ani nediskutovali kvalitu
jednotlivých metod.
Plain Score (prosté hodnocení) udává průměrný počet citací článků obsažených ve sbornících dané
konference. Počítáno je dle vzorce (2.42), kde Sc je Plain Score hodnota konference c, Pc je počet
publikací obsažených ve sbornících konference c, K je množina konferencí a Nic je počet referencí na
články ze sborníků konference c, které obsahují sborníky konference i.


(2.42)
Plain Score per Year (PSY, prosté roční hodnocení) omezuje výpočet Plain Score na jednotlivé ročníky
konference. Ve vzorci (2.43) je SYc,y Plain Score per Year hodnota konference c, která se konala v roce
y, Pc,y je počet publikací ve sborníku konference c z roku y a Ni c,y je počet referencí na články ze
sborníku konference c z roku y, které obsahují sborníky konference i.



(2.43)
Inverted Impact (či jen I-Impact) Score per Year (obrácené roční hodnocení vlivu) je jakýmsi
„obráceným“ Impact Factorem, který namísto počítání citací, které obdržely sborníky dané
konference z předchozích k let, počítá citace, které sborník dané konference obdržel v následujících
k letech, což dle autorů lépe vystihuje vliv konference z daného roku na vědecké smýšlení
v následujících k letech (obvykle v následujících 2 nebo 5 letech, dle Impact Factoru a 5-Year Impact
Factoru). IISYc,y ve vzorci (2.44) je I-Impact Score per Year hodnota konference c pořádané v roce y,
k je počet let po konání konference c v roce y a  je počet referencí na články ze sborníku
konference c z roku y, které obsahuje sborník konference i z roku z. Protože Plain Score, PSY a
40
Statistiky z hodnocení konferencí metodami z části 2.5.11 na webu systému SCEAS
- http://sceas.csd.auth.gr/php/ranking.php