ArticlePDF Available

Benfordův zákon (Benford's law)

Authors:
  • Czech Forestry Academy Trutnov

Abstract

This article refers to the Benford's Law, also known as the first- -digit law, which is one of the most mysterious laws of nature. The article provides the basic characteristic of the law and a simple, intuitive explanation of why and when the law applies. The last part is focused on using the law in case of suspicion that the data are manipulated.
1
BENFORDŮV ZÁKON
Luděk Spíchal
Úvod
V roce 1881 popsal Simon Newcomb1zajímavé zjištění. Logarit-
mické tabulky, tehdy a ještě dlouho poté používané pro výpočty,
které dnes běžně provádíme kalkulačkou, byly nejvíce ohmatané
na stránkách popisujících čísla začínající číslicí 1 (Bellos, 2016).
Zjištění zůstalo nepovšimnuté až do roku 1938, kdy jej nezávisle
znovu objevil Frank Benford2, jehož jméno dnes zákon popisující
různou distribuci prvních číslic nese.
Cílem článku je uvést popis základních principů Benfordova
zákona, porovnat četnosti prvních (popř. druhých) číslic v čís-
lech tvořících datové soubory získané z veřejně dostupných statis-
tik s teoretickými četnostmi udávanými Benfordovým zákonem,
vhodným statistickým testem ověřit shodu empirických a teore-
tických hodnot datových souborů a nabídnout příklad možného
využití popisovaného zákona.
Benfordův zákon
Benfordův zákon (first-digits law, first-digit phenomenon) vychází
z empirických pozorování, ze kterých vyplývá, že v mnoha přiro-
zeně se vyskytujících souborech číselných dat nemají první číslice
stejné zastoupení, ale řídí se určitým typem logaritmické distri-
buce (Berger, 2011a). V datových souborech s náhodnou distribucí
1Newcombe, S. (1835–1909) byl kanadsko-americký astronom a matema-
tik.
2Benford, F. (1883–1948) byl americký elektroinženýr a fyzik pracující v la-
boratořích firmy General Electric.
2Luděk Spíchal
čísel (včetně výsledků početních operací) je pravděpodobnost (re-
lativní četnost) výskytu menších číslic na první pozici větší než
číslic větších (Kruger, 2017).
Newcomb odhadl, že pravděpodobnost výskytu platné číslice
na první pozici je:
P(d1) = log10 1 + 1
d1,
kde d1= 1,...,9.
Zákon tedy říká, že pravděpodobnost výskytu číslice 1 na první
pozici je log10 2
=0,301, pravděpodobnost výskytu číslice 2 na
první pozici je log10 (3/2)
=0,176, pravděpodobnost výskytu čís-
lice 3 na první pozici je log10 (4/3)
=0,124 atd., až k číslici 9, kde
log10(10/9)
=0,046. V souborech obsahujících alespoň stovky čí-
sel se tak vyskytují na první pozici číslice s relativní četností uve-
denou v tab. 1 a obr. 1.
Číslice 1. pozice 2. pozice 3. pozice 4. pozice
0 0,119 68 0,101 78 0,100 18
1 0,301 03 0,113 89 0,101 38 0,100 14
2 0,176 09 0,198 82 0,100 97 0,100 10
3 0,124 94 0,104 33 0,100 57 0,100 06
4 0,096 91 0,100 31 0,100 18 0,100 02
5 0,079 18 0,096 68 0,099 79 0,099 98
6 0,066 95 0,093 37 0,099 40 0,099 94
7 0,057 99 0,090 35 0,099 02 0,099 90
8 0,051 15 0,087 57 0,098 64 0,099 86
9 0,045 76 0,085 00 0,098 27 0,099 82
Tab. 1: Očekávané relativní četnosti číslic podle Benfordova
zákona (Nigrini, 1996)
Benfordův zákon 3
Benfordův zákon je možné formulovat v obecnějším tvaru po-
pisujícím pravděpodobnost výskytu druhé číslice (Berger, 2011;
Hindls, 2015):
P(d2) =
9
X
k=1
log10 1 + 1
10k+d2, d2= 0,...,9,
případně další platné číslice:
P(dk) =
9
X
d1=1
9
X
d2=0
· · ·
9
X
dk1=0
log10 1 + 1
Pk
i=1 di·10ki!,
dk= 0,...,9.
Pravděpodobnost výskytu číslic na jednotlivých pozicích se po-
stupně vyrovnává a od páté číslice se blíží rovnoměrnému roz-
dělení, tj. pravděpodobnost výskytu každé z číslic 0, . . . , 9 je cca
10 %.
Uveďme několik příkladů oblastí, kde byla prokázána frekvence
počátečních číslic podle Benfordova zákona. Patří mezi ně např.
čísla tvořící Fibonacciho a Lucasovu posloupnost (Berger, 2011a),
počáteční číslice fyzikálních konstant (Burke, 1991), emise sklení-
kových plynů, síla a hloubka zemětřesení (Sambridge, 2010), kon-
trola věrohodnosti údajů z klinických studií (Beer, 2009), daňové
příjmy (Nigrini, 1996), ceny akcií na burze (Pietronero, 2001).
Uvedený výčet není zdaleka úplný, počet článků zabývajících se
Benfordovým zákonem je v posledních letech poměrně značný.
Na druhou stranu v řadě doložených případů (množina přiro-
zených čísel, prvočísla) četnosti prvních číslic neodpovídají Ben-
fordovu zákonu (Berger, 2011b). Rovněž v některých dalších expe-
rimentálních číselných souborech se platnost zákonu nepotvrdila,
např. Ausloos (2015).3
3Studie se zaměřila na data narození dětí v rodinách s různou nábožen-
skou příslušností. Distribuce dat narození neprokázala shodu s Benfordovým
zákonem.
4Luděk Spíchal
Obr. 1: Relativní četnost číslic na první, resp. druhé pozici podle
Benfordova zákona
Nezávislost (invariance) ke změně měřítka
T. Hill4v souvislosti s Benfordovým zákonem prohlásil, že po-
kud existuje nějaký univerzální zákon, který řídí rozdělení číslic,
může to být pouze tento zákon (Bellos, 2016). Ukázal, že zákon
představuje jediné rozdělení, které není závislé na měřítku (Hill,
1995).
Nezávislost na měřítku můžeme demonstrovat na příkladu čí-
sel tvořících Lucasovu5posloupnost (Ln). Rekurentní vzorec po-
sloupnosti je:
Ln=Ln1+Ln2, L1= 2, L2= 1.
4Hill, T. (nar. 1943) je americký matematik zabývající se teorií pravděpo-
dobnosti, zejména Benfordovým zákonem.
5Lucas, F. É. A. (1842–1891) byl francouzský matematik.
Benfordův zákon 5
Lucasovu posloupnost tedy tvoří posloupnost čísel
2,1,3,4,7,11,18, . . .
V tab. 2 je uvedena relativní četnost prvních číslic v Ln,8Ln
a20Ln. Snadno zde zjistíme, že nezávisle na měřítku jsou relativní
četnosti prvních číslic blízké Benfordovu zákonu.
Číslice 1 2 3 4 5 6 7 8 9 χ2
B. zákon 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Ln31 17 14 10 8 5 7 4 4 1,23
8Ln29 18 13 9 8 7 4 7 5 1,44
20Ln28 18 13 10 7 8 6 5 5 0,58
Tab. 2: Relativní četnost prvních číslic v Ln,8Lna20Ln
Chí-kvadrát testem dobré shody nezamítáme v žádném z uve-
dených příkladů nulovou hypotézu shody s relativní četností číslic
podle Benfordova zákona. Použití vyššího počtu členů posloup-
nosti by dále zpřesnilo shodu.
Nezávislost na měřítku lze ukázat také např. na relativní čet-
nosti prvních číslic v souborech stejných peněžních hodnot uve-
dených ovšem v různých národních měnách (Pietronero, 2001).
Obdobně bychom zjistili, že převod plošných výměr mezi jednot-
kou míle a kilometr nemění četnosti prvních číslic.6
Obce v ČR
Vhodnou statistikou k ověření Benfordova zákona jsou údaje o
počtu občanů žijících v obcích v České republice. Statistika je
každoročně aktualizovaná k 1. lednu a dostupná na stránkách Mi-
nisterstva vnitra ČR.7
6Většina číselných souborů, které distribucí prvních číslic vyhovují Benfor-
dovu zákonu je nezávislá rovněž ke změně základu (b2). Rovnici pro první
číslici lze tedy zapsat ve tvaru: P(d1) = logb1 + 1
d1= logb(d1+1)logbd1.
7Zdrojem dat je MV ČR, dostupné online: http://www.mvcr.cz/clanek/
statistiky-pocty- obyvatel-v- obcich.aspx.
6Luděk Spíchal
Vzhledem k velkému rozsahu dat se přirozeně nabízí otázka,
zda distribuce obyvatelstva odpovídá Benfordovu zákonu. Sou-
časně může být zajímavou možností testovat nejen první, ale i dru-
hé pořadí číslic. V tab. 3 jsou uvedeny počty obcí, jejichž počet
obyvatel začíná (resp. má na druhé pozici) určitou číslici (stav
k 1. lednu 2018).
Číslice 1. číslice 2. číslice
Absolutní Relativní Absolutní Relativní
četnost četnost četnost četnost
0 740 11,83
1 1819 29,07 706 11,28
2 1167 18,65 694 11,09
3 775 12,39 631 10,08
4 601 9,61 616 9,84
5 513 8,20 616 9,84
6 427 6,82 614 9,81
7 356 5,69 555 8,87
8 332 5,31 558 8,92
9 267 4,27 527 8,42
Celkem 6257 100,0 6257 100,0
Tab. 3: Obce v ČR
Grafické znázornění podobnosti empirických a teoretických
hodnot (obr. 2) doplníme Pearsonovým χ2(chí-kvadrát) testem
dobré shody (Ausloos, 2015; Holčík, 2015).8
8Předpokládejme, že náhodná veličina Xnabývá konečného počtu hodnot
d1,...,dm, s pravděpodobnostmi p1,...,pm, kde Pm
i=1 pi= 1. Požadovaná
shoda nastává v případě, že se počet pozorování v jednotlivých variantách
(pozorované četnosti Ni,o,n=Pm
i=1 Ni) bude blížit hodnotě očekávaných
četností Ni,e =npi. Pokud má náhodná veličina Xpožadované rozdělení
pravděpodobnosti, má statistika χ2chí-kvadrát rozdělení s m1stupni vol-
nosti X2=Pm
i=1
(Ni,onpi)2
npi=χ2
(m1). Nulovou hypotézu (H0) o shodě
rozdělení veličiny Xs předpokládaným teoretickým (Benfordovým) rozděle-
Benfordův zákon 7
Dosazením empirických a teoretických hodnot získáme reali-
zaci testové charakteristiky pro první číslici ve tvaru:
X2
d1=
9
X
i=1
(Ni,d1npi)2
npi
= 9,26.
Obr. 2: Porovnání empirických četností (tab. 3) s Benfordovým
zákonem (BZ)
Srovnáme-li zjištěnou hodnotu testové charakteristiky s kvan-
tilem příslušným hladině významnosti α= 0,05 (Kruger, 2017)
X2
d1
.
= 9,26 χ2
8= 15,51,
pak nezamítáme nulovou hypotézu shody distribuce prvních číslic
s Benfordovým zákonem.
V případě druhé číslice je:
X2
d2=
9
X
i=0
(Ni,d2npi)2
npi
= 3,36.
ním zamítáme na hladině významnosti α, když realizace testové statistiky pře-
kročí příslušný kvantil chí-kvadrát rozdělení, tedy když X2χ2
(m1)(1 α).
8Luděk Spíchal
Srovnáme-li zjištěnou hodnotu testové charakteristiky s kvantilem
příslušným hladině významnosti α= 0,05 (Kruger, 2017)
X2
d2
.
= 3,36 χ2
9= 16,91,
pak nezamítáme nulovou hypotézu shody distribuce druhých číslic
s Benfordovým zákonem.
Na závěr můžeme tedy konstatovat, že relativní četnosti vý-
skytu první a druhých číslic jsou v dobré shodě s Benfordovým
zákonem.9
Benford – ano, či ne?
Benford ve svém původním článku sledoval distribuci prvních čís-
lic v rozmanitých textech (Benford, 1938). Následující příklad vy-
chází z textu, který se nachází na stránkách České lesnické akade-
mie (ČLA) v Trutnově a týká se historie školy.10 Text je zajímavý
výskytem velkého počtu číselných údajů zaznamenávajících leto-
počty značně ovlivňující relativní četnost prvních číslic (tab. 4).
Přítomnost letopočtů značně ovlivňuje distribuci prvních čís-
lic, zejména vzhledem k číslici 1. Takový soubor neobsahuje ná-
hodnou distribuci prvních číslic, tj. zamítáme nulovou hypotézu
shody s Benfordovým zákonem.
Po odstranění letopočtů se charakter souboru výrazně změní.
Zaznamenané absolutní a relativní četnosti výskytu číslic na první
pozici bez letopočtů jsou v tab. 4. Testem dobré shody nulovou
hypotézu nezamítáme, distribuce prvních číslic může odpovídat
Benfordovu zákonu (obr. 3).
9V biologii, ekonomii a inženýrských disciplínách se obvykle používá hla-
dina významnosti α= 0,05, tj. data jsou s pravděpodobností 95 % uvnitř
mezí. Pro první číslici je na hladině významnosti α= 0,05 kvantilχ2
8= 15,51,
pro druhou číslici je kvantil χ2
9= 16,91.
10F. Zuman: Lesnická škola v Zákupech – dříve v Bělé – v prvních čtyřech
letech (Z kroniky Umlaufovy), dostupné online: https://www.clatrutnov.cz/
index.php/cs/skola/historie/32-historie- trutnov.
Benfordův zákon 9
Číslice 1. číslice (s letopočty) 1. číslice (s letopočty)
Absolutní Relativní Absolutní Relativní
četnost četnost četnost četnost
1 75 51,0 30 29,4
2 26 17,6 26 25,5
3 11 7,5 11 10,8
4 9 6,2 98,8
5 8 5,4 87,8
6 7 4,8 76,9
7 4 2,7 43,9
8 7 4,8 76,9
9 0 000
Celkem 147 100,0 102 100,0
χ237,4 9,88
Tab. 4: Historie ČLA
Jak rozumět Benfordovu zákonu?
Přehled oblastí výskytu Benfordova zákonu uvedený v literatuře
je opravdu působivý. Desítky, možná stovky popsaných příkladů
distribuce prvních číslic na jedné straně poukazují na ukotvení
zákonu v rozmanitých textech a číselných souborech, na druhou
stranu přímo nenabízí klíč k vysvětlení podstaty tohoto fenoménu.
Rigorózní vysvětlení, které je ovšem poměrně složité, vypracoval
v 90. letech 20. století T. Hill (Hill, 1995).11 Pokusy o intuitivní vy-
světlení obvykle vycházejí z nezávislosti (invariance) vůči měřítku
(viz výše) a základu logaritmu. Vychází z předpokladu, že hledaný
univerzální zákon by neměl záviset na jednotce, ve které probíhá
měření nebo číselné soustavě, ve které měření probíhá.
11Hill, T. (nar. 1943) je americký matematik zabývající se teorií prav-
děpodobnosti, zejména Benfordovým zákonem. Více např.: https://en.
wikipedia.org/wiki/Ted_Hill_(mathematician).
10 Luděk Spíchal
Zjednodušené vysvětlení vyžadující základní znalost logaritmů
a grafu funkce rozdělení pravděpodobnosti lze nalézt v článku
Fewster (2009), ze kterého je převzata základní idea.12 Cílem této
sekce je upozornit zejména na obvyklé vlastnosti číselných sou-
borů, které odpovídají Benfordovu zákonu.
Obr. 3: Porovnání empirické četnosti (tab. 4) s Benfordovým
zákonem (první číslice)
Již v základních kurzech matematiky se zmiňuje možnost vy-
jádřit každé kladné reálné číslo ve tvaru
X=a·10n,
kde 1a < 10,nZ. Pokud předchozí rovnici logaritmujeme
log10 X= log10 (a·10n),
pak je
log10 X= log10 (a) + n.
12Hustota pravděpodobnosti je funkce, jejíž hodnotu pro libovolný zvolený
prvek z množiny hodnot náhodné proměnné můžeme vyjádřit jako relativní
četnost hodnoty tohoto prvku v rámci celé množiny možných hodnot.
Benfordův zákon 11
Jestliže, např. pro číslo aplatí, že 1a < 2, pak po logaritmování
je
0log10 a < 0,301,
nebo pro libovolné nZ
nlog10(a) + n < 0,301 + n. (1)
Poslední nerovnost ukazuje, že nezávisle na řádu čísla Xje na
jeho první pozici číslice 1, právě když dekadický logaritmus čísla a
náleží intervalu (n, n + 0,301), kde nZ.
Uvažujme nyní soubor náhodných dat, o kterém budeme před-
pokládat, že se řídí nějakým rozdělením pravděpodobností. Z toho
souboru náhodně vybereme číslo X, které vyjádříme jako log10 X,
a znázorníme na číselné ose. Pokud uvažované číslo Xzačíná 1,
pak log10 Xmusí náležet nějakému intervalu (n, n + 0,301), kde
nZ(obr. 4). Pokud je dále křivka v obr. 4 grafem hustoty prav-
děpodobnosti funkce log10 X, pak pravděpodobnost, že číslo X
začíná číslicí 1 je pravděpodobností, že log10 Xleží v některém
z vyšrafovaných pruhů. Součet ploch jednotlivých pruhů v grafu
hustoty je pak hledanou pravděpodobností, že číslo Xzačíná čís-
licí 1.
Obr. 4: Graf hustoty pravděpodobnosti
Fewster (2009) doplňuje výše uvedené vysvětlení konstatová-
ním, že data obvykle odpovídají tím lépe relativní četnosti popi-
sované Benfordovým zákonem,
čím více v logaritmickém měřítku tvoří symetrickou křivku,
12 Luděk Spíchal
čím více číselných řádů zahrnují (v grafu hustoty pravděpo-
dobnosti se objeví více pruhů).
Scott (2001) uvádí, že data mohou vyhovovat logaritmické dis-
tribuci popisované Benfordovým zákonem, pokud:
je tvoří pouze kladné hodnoty,
má graf (v logaritmickém měřítku) pouze jeden vrchol
a vpravo od průměru se vyskytují odlehlejší hodnoty než
vlevo (logaritmicko-normální rozdělení s pravým chvostem),
není medián více než polovinou aritmetického průměru.
Obr. 5: Distribuce obyvatel v obcích ČR (log-log měřítko)
Uvedené závěry můžeme srovnat s distribucí obyvatel v obcích
ČR (obr. 5), kde jsou hodnoty rozloženy do šesti číselných řádů
a grafickým znázorněním je křivka protažená směrem doprava.
Mediánová obec má 429 obyvatel, průměrná obec pak 1 644 oby-
vatel, tj. medián je méně než polovinou aritmetického průměru.
V řadě případů je tak možné posoudit data podle vlastností
měřených hodnot. Tak, např. při měření tělesné výšky, budou
určitě všechny hodnoty kladné a graf bude mít pouze jeden vr-
chol, nicméně medián nebude nejvýše polovinou průměru, hod-
noty mediánu a průměru naopak budou velmi blízké. Pro distri-
buci tělesných výšek nelze tedy očekávat shodu s Benfordovým
zákonem.
Benfordův zákon 13
Odhalte falšovaná data
Vše, co jsme až dosud zmínili, bychom mohli považovat za zají-
mavou kuriozitu bez praktického využití. Nicméně nerovnoměrné
zastoupení číslic na první pozici umožňuje analyzovat různé texty
a hledat takové, které tomuto rozdělení četnosti neodpovídají. Po-
kud vyloučíme situace, kdy z nějakého konkrétního důvodu určité
číslice (zejména jiné než malé) převažují, pak texty porušující
uvedené rozdělení četnosti mohou vykazovat známky manipulace
s daty.
Hill (1998) v tomto případě nabízí jednoduchou variantu testu
(vhodného např. do hodin základů pravděpodobností) ukazují-
cího, že lidé při falšování dat obvykle nevolí číslice zcela náhodně.
Doporučuje rozdělit studenty ve třídě na dvě poloviny, z nichž
jedna bude např. 200krát házet mincí a zapisovat výsledky, za-
tímco druhá polovina pořadí výsledků zapíše „náhodněÿ. Dodává,
že lidé jen zřídka v takovém případě „náhodněÿ zapíší delší sek-
vence tvořené pouze jedním z možných výsledků, které se však
v takto dlouhé sekvenci pokusů objevují s vysokou pravděpodob-
ností.13
Bellos (2016) uvádí několik konkrétních případů použití Ben-
fordova zákonu při odhalování manipulovaných dat. V jednom ta-
kovém případu S. de Marchi a J. T. Hamilton z Dukeovy univer-
zity prokázali falšování údajů o emisích kyseliny dusičné a olova
továrnou v Severní Karolíně (Marchi, 2006). V jiném případě
13Zvažme jako model situaci, kdy hledáme pravděpodobnost, že v průběhu
200 hodů mincí se objeví sekvence alespoň 8 lícových stran mince. Výpočet
uvedené pravděpodobnosti není zcela snadný, využít lze aproximaci uvedenou
v knize Feller, W. (1960). An Introduction to Probability Theory and Its
Applications, str. 325, dostupné online na https://archive.org/details/
in.ernet.dli.2015.124388/page/n347. Nechť qnje pravděpodobnost, že se
při nhodech mincí neobjeví žádná posloupnost rpo sobě jdoucích lícových
stran mince. Pak qn1px
(r+1rx)q·1
xn+1 ,kde pje pravděpodobnost, že padne
lícová strana mince (q= 1 p) a xje nejmenší kladný kořen rovnice 1x+
+qprxr+1 = 0. Jestliže r= 8,p=q= 0,5, pak rovnice 1x+ 0,5·0,58x9= 0
má nejmenší kladný kořen (např. Wolfram Alpha) x1,001 99. Pro hledanou
pravděpodobnost tedy platí P1q200 10,68 0,32. Pokud bychom
snížili požadavek na délku sekvence, např. na 6 po sobě jdoucích lícových
stran, pak odhadovaná pravděpodobnost vzroste na cca 80 %.
14 Luděk Spíchal
W. Mebane z Michiganské univerzity ukázal, že prezidentská volba
v Íránu v roce 2009 byla zřejmě zmanipulovaná, neboť počty hlasů
odevzdané pro úřadujícího prezidenta se neshodovaly s Benfordo-
vým zákonem. Vysvětlením by podle Mebaneho mohlo být umělé
přidání hlasů (Mebane, 2010).14 Diekmann (2007) při odhalo-
vání nesrovnalostí v účetních datech doporučuje zaměřit pozor-
nost spíše na druhé a další číslice v pořadí, neboť četnosti prvních
číslic často vykazují charakter odpovídající Benfordovu zákonu.
Obec
3. typu
Počet
obyvatel
(P1)
Počet
obyvatel
(P2)
Obec 3.
typu
Počet
obyvatel
(P1)
Počet
obyvatel
(P2)
Praha 1 24 320 29 411 Praha 12 60 035 67 093
Praha 2 39 170 42 005 Praha 13 56 663 51 434
Praha 3 62 553 63 664 Praha 14 42 560 47 321
Praha 4 122 176 82 369 Praha 15 43 534 53 776
Praha 5 76 381 71 113 Praha 16 22 703 25 539
Praha 6 102 356 89 225 Praha 17 27 515 21 597
Praha 7 38 922 52 056 Praha 18 25 851 35 778
Praha 8 104 173 114 678 Praha 19 12 697 11 704
Praha 9 47 612 44 334 Praha 20 14 126 8 236
Praha 10 97 177 100 297 Praha 21 16 828 7 675
Praha 11 76 651 96 592 Praha 22 14 873 12 979
Tab. 5: Počet obyvatel v obcích 3. typu v Praze
Zkusme tedy na závěr nabídnout možnost využití Benfordova
zákona při posouzení dvou datových souborů, kde jeden ze sou-
borů obsahuje úmyslně pozměněná data. Jako příklad vezmeme
distribuci obyvatel v Praze, kterou z hlediska správního členění
tvoří 22 obcí 3. typu s počty obyvatel uvedenými v jednom ze
14Autor v článku ukazuje, že v případě volebních podvodů je vhodné se
zaměřit na frekvenci druhých číslic, frekvence prvních číslic nemusí být prů-
kazná (zejména v případě menšího počtu hlasů odevzdaných v jednotlivých
volebních místnostech).
Benfordův zákon 15
sloupců v tab. 5.15 Který ze sloupců obsahuje správné údaje?
Řešení naleznete v příloze A.
Závěr
Článek popsal zajímavý fenomén rozdělení číslic na vybraných
pozicích označovaný jako Benfordův zákon. Platnost zákona jsme
ukázali na příkladu distribuce obyvatelstva v obcích ČR. Zde jsme
velmi dobrou shodu s Benfordovým zákonem získali jak pro první,
tak pro druhé číslice v pořadí.
Zákon v posledních desetiletích nachází zajímavá využití, např.
při odhalování účetních podvodů. Lidé snažící se falšovat např.
účetní knihy mají tendenci čísla upravovat tak, aby začínala rov-
noměrně všemi číslicemi. To, co na první pohled může vypadat
jako „chytré podváděníÿ, však naopak člověka znalého Benfordova
zákona okamžitě upozorní na možnost podvodu. Samozřejmě jde
pouze o podezření (indicii), které musí být následně podložené
prokázáním podvodu. Durtschi et al. (2004) zmiňují použití Ben-
fordova zákona při odhalování zpronevěr v účetních záznamech
pomocí softwaru umožňujícího testovat tyto záznamy s ohledem
na frekvenci prvních číslic. Zásadním problémem pro analytiky
a auditory je v tomto případě volba vhodného vzorku jak s ohle-
dem na rozsah dat, tak s ohledem na časový rámec. V účetních
datech se v průběhu roku mohou objevit odchylky od očekáva-
ného rozdělení, které neznamenají pokus o podvod. Benfordův
zákon tak funguje jako síto k vyhledávání podezřelých dat, která
budou dále prověřována.
Z pohledu českého čtenáře může být rovněž zajímavé použití
Benfordova zákonu při posouzení práce zakladatele genetiky J. G.
Mendela vzhledem k frekvenci prvních číslic, které uvádí Kruger
(2017).16 Vychází z názoru anglického statistika R. Fishera, který
15Zdrojem dat je MV ČR, dostupné z http://www.mvcr.cz/clanek/
statistiky-pocty- obyvatel-v- obcich.aspx.
16Mendel, J. G. (1822–1884) byl augustiniánský mnich a později opat kláš-
tera na Starém Brně. Ve svých přírodovědných pozorováních se zaměřil na
sledování kříženců hrachu. Zmíněnou práci uveřejnil roku 1866 pod názvem
„Pokusy s rostlinnými hybridyÿ.
16 Luděk Spíchal
ve své práci z r. 1936 nezpochybnil samotné Mendelovy závěry,
řekl však, že „data jsou příliš dobrá, než aby byla pravdiváÿ.17
Analýza dat provedená Krugerem poukazuje na zřetelné odchylky
ve frekvenci některých číslic od frekvence dané Benfordovým zá-
konem. To může naznačovat jak možnou selekci dat ve prospěch
takových, které podporovaly Mendelem navržený model křížení,
tak fakt, že Mendel pokusy odchylující se od uvažovaného modelu
doplňoval dalšími, aby dosáhl shody. Na Mendelovu obhajobu je
na druhou stranu vhodné dodat, že exaktní statistika tehdy jako
obor fakticky neexistovala a Mendel byl jedním z prvních příro-
dovědců, kteří v biologii aplikovali matematické metody.18
Problematiku Benfordova zákona lze využít k doplnění a zpes-
tření výuky jak v oblasti logaritmů a jejich využití, tak v oblasti
základů pravděpodobností a statistiky (rozdělení četnosti, práce
s datovými soubory, grafy). Pro bližší seznámení s Benfordovým
zákonem mohou určitě dobře posloužit zdroje uvedené na závěr
tohoto článku (převážně v angličtině). V omezené míře lze nalézt
informace o Benfordově zákonu i v česky psané literatuře. Bellos
(2016) věnuje problematice Benfordova zákonu a dalších souvise-
jících zákonitostí celou kapitolu. Dále lze zmínit článek Seiberta
& Zahrádky (2016) v časopise Matematika – fyzika – informa-
tika, který obsahuje jinou variantu přístupného vysvětlení plat-
nosti Benfordova zákonu.
Přes vše, co jsme zmínili, je při aplikování Benfordovým zá-
konem jistě užitečné postupovat s rozmyslem, nikoliv se slepou
vírou v platnost. Ponechání prostoru pro zkušenost a intuici může
zabránit chybnému použití, např. při odhalování podvodů a plagi-
átů.
Na závěr dodejme, že ačkoliv řada aspektů souvisejících s Ben-
fordovým zákonem stojí na celkem pevných základech (např. Hill,
1995), nebyl dosud sjednocen přístup, který by současně spojil
výskyt Benfordova zákona v tak vzdálených oblastech jako je te-
orie čísel, dynamické systémy, statistika a reálná data (Berger,
17Fisher, R. A. (1890–1962) byl anglický statistik, evoluční biolog a gene-
tik. V anglicky psané literatuře je spor uváděn pod názvem „Fisher-Mendel
controversyÿ.
18Více např. https://cs.wikipedia.org/wiki/Gregor_Mendel
Benfordův zákon 17
2011b) a současně nabídl dostatečně intuitivní vysvětlení podstaty
tohoto fenoménu.
Literatura
[1] Bellos, A. (2016). Alex za zrcadlem. Jak se čísla odrážejí v ži-
votě a život v číslech. Praha: Dokořán, 35–44.
[2] Hill, T. P. (1995). A Statistical Derivation of the Significant-
Digit Law. Statistical Science, 10, 354–363.
[3] Hill, T. P. (1998). The First Digit Phenomenon: A century-
old observation about an unexpected pattern in many nume-
rical tables applies to the stock market, census statistics and
accounting data. American Scientist 86(4), 358–363.
[4] Berger, A., Hill, T. P. (2011a). A basic theory of Benford’s
Law. Probability Surveys, 8, 1–126.
[5] Berger, A., Hill, T. P. (2011b). Benford’s Law Strikes Back:
No Simple Explanation in Sight for Mathematical Gem.
Springer Science, Business Media, LLC, 33(1).
[6] Ausloos, M., Herteliu, C., Ileanu, B. (2015). Breakdown of
Benford’s law for birth data. Physica A 419, 736–745.
[7] Kruger, P. S., Yadavalli, V. S. S. (2017). The power of one:
The Benford’s law. South African Journal of Industrial En-
gineering, 28(2), 1–13.
[8] Holčík, J., Komenda, M. (eds.) a kol. (2015). Ma-
tematická biologie: e-learningová učebnice [online].
Brno: Masarykova univerzita. Dostupné z http://
portal.matematickabiologie.cz/
[9] Hindls, R., Hronová, S. (2015). Benford’s Law and Possibili-
ties for Its Use in Governmental Statistics. Statistika 95(2),
54–64.
[10] Fewster, R. M. (2009). A Simple Explanation of Benford’s
Law, The American Statistician, 63(1), 26–32.
[11] Mir, T. A. (2012). The law of the leading digits and the world
religions. Physica A 391, 792–798.
18 Luděk Spíchal
[12] Pietronero, L., Tosatti, E., Tosatti, V., Vespignani, A. (2001).
Explaining the uneven distribution of numbers in nature: the
laws of Benford and Zipf. Physica A 293, 297–304.
[13] Nigrini, M., J. (1996). Taxpayer compliance application of
Benford’s law. Journal of the American Taxation Associ-
ation. 18(1), 72–92.
[14] Seiber, J., Zahrádka, J. (2016). O čem pojednává Benfordův
zákon. Matematika – fyzika – informatika, 25(2), 89–98. Do-
stupné z http://mfi.upol.cz/files/25/2502/mfi_2502_
089_098.pdf
[15] Durtschi, C., Hillison, W., Pacini, C. (2004). The Effective
Use of Benford’s Law to Assist in Detecting Fraud in Ac-
counting Data. Journal of Forensic Accounting, V, 17–34.
[16] Diekmann, A. (2007). Not the First Digit! Using Benford’s
Law to Detect Fraudulent Scientific Data. Journal of Applied
Statistics 34(3), 321–329.
[17] Scott, P., D., Fasli, M. (2001). Benford’s Law: An Empi-
rical Investigation and a Novel Explanation. CSM Techni-
cal Report 349. Dostupné z https://cswww.essex.ac.uk/
technical-reports/2001/CSM-349.pdf
[18] Burke, J., Kincanon, E. (1991). Benford law and physical
constants – The distribution of initial digits, Am. J. Phys.
59(10), 952.
[19] Sambridge, M., Tkalči´c, H., Jackson, A. (2010). Benford’s law
in the natural sciences. Geophys. Res. Lett., 37.
[20] Beer, T. W. (2009). Terminal digit preference: beware of Ben-
ford’s law, J. Clin. Pathol. 62, 192.
[21] Benford, F. (1938). The Law of Anomalous Numbers. Proc.
American Philosophical Society, 78(4), 551–572.
[22] Marchi, S., Hamilton, J. T. (2006). Assessing the accuracy of
self-reported data: an evaluation of the toxics release inven-
tory. Journal of Risk and Uncertainty, 32(1), 57–76.
[23] Mebane, W. R., Jr. (2010). Fraud in the 2009 presidential
election in Iran? Chance, 23(1), 6–15.
Benfordův zákon 19
Abstract
This article refers to the Benford’s Law, also known as the first-
-digit law, which is one of the most mysterious law of nature. The
article provides the basic characteristic of the law and a simple,
intuitive explanation of why and when the law applies. The last
part is focused on using the law in case of suspicion that the data
are manipulated.
Luděk Spíchal
Masarykova univerzita v Brně
Ústav matematiky a statistiky
Kotlářská 267/2
611 37 Brno
Česká lesnická akademie Trutnov
Lesnická 9
541 11 Trutnov
Příloha A
Řešení je celkem nasnadě, určíme četnosti prvních číslic v obou
souborech.
Číslo 1 2 3 4 5 6 7 8 9 Celkem
Očekávaná
četnost 6,62 3,87 2,75 2,13 1,74 1,48 1,28 1,12 1,01 22
Varianta
P1 742312201 22
Varianta
P2 431332231 22
I přes velmi malý rozsah dat lze snadno porovnáním s oče-
kávanou četností usoudit, že se pozměněné údaje o počtu obyva-
tel nacházejí pravděpodobněji ve variantě P2. Zajímavá je rovněž
(přes velmi rozsah dat) míra shody varianty P1 s distribucí urče-
nou Benfordovým zákonem, kterou ovšem v tomto případě není
vhodné pro malý rozsah dat ověřovat testem dobré shody.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
The concept of Benford's law, also known as the first-digit phenomenon, has been known to mathematicians since 1881. It is counter-intuitive, difficult to explain in simple terms, and has suffered from being described variously as 'a numerical aberration', 'an oddity', 'a mystery' - but also as 'a mathematical gem'. However, it has developed into a recognised statistical technique with several practical applications, of which the most notable is as a fraud detection mechanism in forensic accounting. This paper will briefly discuss and demonstrate the special numerical characteristics of Benford's law. It will attempt to investigate the law's possible application to the detection of data manipulation and data tampering that might exist in papers published in engineering and scientific journals. Firstly, it will be applied to an investigation of the so-called Fisher-Mendel controversy. Secondly, Benford's analysis will be applied to six recently published papers selected from the South African Journal of Industrial Engineering.
Article
Full-text available
Benford's Law (sometimes also called Benford's Distribution or Benford's Test) is one of the possible tools for verification of a data structure in a given file regarding the relative frequencies of occurrence of the first (or second, etc.) digit from the left . If it is used as a goodness-of-fit test on sample data, there are usually no problems with its interpretation. However, certain factual questions arise in connection with validity of Benford's Law in large data sets in governmental statistics; such questions should be resolved before the law is used. In this paper we discuss the application potential of Benford's Law when working with extensive data sets in the areas of economic and social statistics.
Article
Full-text available
Long birth time series for Romania are investigated from Benford's law point of view, distinguishing between families with a religious (Orthodox and Non-Orthodox) affiliation. The data extend from Jan. 01, 1905 till Dec. 31, 2001, i.e. over 97 years or 35 429 days. The results point to a drastic breakdown of Benford's law. Some interpretation is proposed, based on the statistical aspects due to population sizes, rather than on human thought constraints when the law breakdown is usually expected. Benford's law breakdown clearly points to natural causes.
Article
Full-text available
Benford's law has been promoted as providing the auditor with a tool that is simple and effec- tive for the detection of fraud. The purpose of this paper is to assist auditors in the most effec- tive use of digital analysis based on Benford's law. The law is based on a peculiar observation that certain digits appear more frequently than others in data sets. For example, in certain data sets, it has been observed that more than 30% of numbers begin with the digit one. After dis- cussing the background of the law and development of its use in auditing, we show where dig- ital analysis based on Benford's law can most effectively be used and where auditors should exercise caution. Specifically, we identify data sets which can be expected to follow Benford's distribution, discuss the power of statistical tests, types of frauds that would be detected and not be detected by such analysis, the potential problems that arise when an account contains too few observations, as well as issues related to base rate of fraud. An actual example is pro- vided demonstrating where Benford's law proved successful in identifying fraud in a popula- tion of accounting data.
Article
Full-text available
More than 100 years ago it was predicted that the distribution of first digits of real world observations would not be uniform, but instead follow a trend where measurements with lower first digit (1,2,…) occur more frequently than those with higher first digits (…,8,9). This result has long been known but regarded largely as a mathematical curiosity and received little attention in the natural sciences. Here we show that the first digit rule is likely to be a widespread phenomenon and may provide new ways to detect anomalous signals in data. We test 15 sets of modern observations drawn from the fields of physics, astronomy, geophysics, chemistry, engineering and mathematics, and show that Benford's law holds for them all. These include geophysical observables such as the length of time between geomagnetic reversals, depths of earthquakes, models of Earth's gravity, geomagnetic and seismic structure. In addition we find it also holds for other natural science observables such as the rotation frequencies of pulsars; green-house gas emissions, the masses of exoplanets as well as numbers of infectious diseases reported to the World Health Organization. The wide range of areas where it is manifested opens up new possibilities for exploitation. An illustration is given of how seismic energy from an earthquake can be detected from just the first digit distribution of displacement counts on a seismometer, i.e., without actually looking at the details of a seismogram at all. This led to the first ever detection of an earthquake using first digit information alone.
Article
Full-text available
Benford's Law, also known as the first-digit law, has long been seen as a tantalizing and mysterious law of nature. Attempts to explain it range from the supernatural to the measure-theoretical, and applications range from fraud detection to computer disk space allocation. Publications on the topic have escalated in recent years, largely covering investigation of the law in different data sources, applications in fraud and computer science, and new probability theorems. The underlying reason why Benford's Law occurs is, however, elusive. Many researchers have verified for themselves that the law is widely obeyed, but have also noted that the popular explanations are not completely satisfying. In this article we do nothing rigorous, but provide a simple, intuitive explanation of why and when the law applies. It is intended that the explanation should be accessible to school students and anyone with a basic knowledge of probability density curves and logarithms.