Wszechobecna zaskakująca liczbowa zależność
Liczbami wokół nas rządzi matematyczny fenomen zwany prawem Benforda
WEJDź na swoją ulubioną platformę mediów społecznościowych i zanotuj, ilu masz znajomych lub obserwujących. Zwróć uwagę zwłaszcza na pierwszą cyfrę tej liczby. Na przykład, jeśli masz 400 znajomych, cyfrą wiodącą jest 4, a jeśli 79, to 7. Załóżmy, że poprosiliśmy o to wiele osób. Możemy spodziewać się pełnego wachlarza odpowiedzi, a intuicja podpowiada, że liczby znajomych będą przypadkowe, podobnie jak ich pierwsze cyfry, zatem każda z nich – od 1 do 9 – powinna pojawiać się na początku mniej więcej tyle samo razy. To zaskakujące, że wcale tak nie jest – występuje wyraźna nierównowaga. Prawie połowa liczb dotyczących znajomych, zaczyna się od 1 lub 2, a zaledwie 10% od 8 lub 9. Pamiętajmy, że nie chodzi tu o większą lub mniejszą liczbę znajomych, a tylko o pierwsze cyfry liczb.
Ta osobliwa nadreprezentacja 1 i 2 obejmuje poza liczbami znajomych i obserwujących polubienia i retweety, ale, co najistotniejsze, wykracza daleko poza media społecznościowe i sięga niezliczonych
zakątków świata liczb: populacji w państwach, długości rzek, wysokości gór, wskaźników urodzin, cen akcji, a nawet różnych aspektów typowego numeru „Scientific American”. Mniejsze cyfry wiodące są nie tylko powszechniejsze, ale także ich udział określa precyzyjny i zwięzły wzór.
Gdyby udział wszystkich cyfr był jednakowy, każda z nich stanowiłaby 1/9 wszystkich przypadków (około 11,1%). Tymczasem w gigantycznej liczbie statystyk dotyczących świata rzeczywistego zdumiewające 30,1% danych zaczyna się od jedynki, 17,6% od dwójki itd. Zjawisko to znane jest jako prawo Benforda. Prawo obowiązuje nawet po zmianie jednostek. Niezależnie od tego, czy długość rzek podamy w milach czy w kilometrach, a ceny akcji w euro czy w dolarach, proporcje dotyczące liczb wiodących zostaną zachowane. Choć matematycy zaproponowali kilka sprytnych uzasadnień tego zjawiska, jego wszechobecność wymyka się prostemu wyjaśnieniu.
Benford nie był pierwszym odkrywcą prawa określanego jego imieniem. Przed pojawieniem się kalkulatorów trudne obliczenia wykonywano, korzystając z mających formę książek tablic logarytmicznych. W roku 1881 astronom Simon Newcomb zauważył, że pierwsze strony tych tablic, z liczbami zaczynającymi się od 1, są brudniejsze i bardziej podniszczone niż następne. Stąd wywnioskował, że mniejsze cyfry wiodące muszą być częstsze w naturalnych zbiorach danych i opublikował artykuł dotyczący tego faktu, który jednak przeszedł bez echa. Fizyk Frank Benford niezależnie zauważył to samo zjawisko w 1938 roku i spopularyzował je jako prawo po zebraniu ponad 20 tys. statystyk, aby wykazać jego uniwersalność.
Wkrótce prawo to wykorzystano do wsadzania ludzi za kratki. Doradca finansowy Wesley Rhodes został skazany za oszukanie inwestorów, gdy prokuratorzy wykazali w sądzie, że jego dokumenty nie odpowiadają oczekiwanemu rozkładowi cyfr wiodących, więc pewnie zostały sfabrykowane. Zasada ta pomogła później informatyczce Jennifer Golbeck odkryć rosyjską sieć botów na Twitterze. Zaobserwowała, że w przypadku większości użytkowników liczba obserwujących jest zgodna z prawem Benforda, ale sztuczne konta znacznie odbiegają od tego wzorca. Przykładów zastosowania prawa Benforda do wykrywania oszustw jest mnóstwo – od manipulowania makroekonomicznymi danymi przez Grecję we wniosku o członkostwo w strefie euro po sfałszowanie wyborów prezydenckich w Iranie w 2009 roku. Przesłanie jest jasne: procesy naturalne generują liczby, które faworyzują małe cyfry wiodące, podczas gdy proste metody fałszowania danych tego nie uwzględniają.
Dlaczego naturę cechuje niedobór dziewiątek i nadmiar jedynek? Po pierwsze, należy stwierdzić, że jednak są wyjątki, czyli prawo Benforda nie zawsze działa. Wzrost dorosłych mierzony w stopach zwykle zaczyna się od 4, 5 i 6. Zatrzymanie się koła ruletki na liczbie zaczynającej się od 1 lub 2 jest równie prawdopodobne. Prawo to dotyczy głównie zbiorów danych obejmujących kilka rzędów wielkości, które ewoluują w wyniku jakichś procesów losowych.
Dobrym przykładem jest wzrost wykładniczy. Wyobraźmy sobie wyspę, na której początkowo jest 100 zwierząt, a ich populacja co roku się podwaja. Po roku jest ich 200, a po dwóch latach 400. I już tu zauważamy specyfikę cyfr wiodących. Przez cały pierwszy rok pierwszą cyfrą populacji było 1. W drugim roku populacja obejmowała zakres od 200 do 299 i od 300 do 399, pozostawiając mniej czasu na dominację 2 i 3 jako cyfr wiodących. Analogiczna sytuacja zachodzi w trzecim roku dla zakresu liczb od 400 do 799, gdy żywot konkretnych wiodących cyfr jest jeszcze krótszy.
Istotne jest to, że na przykład wzrost od 1000 do 2000 stanowi podwojenie, a wzrost od 8 tys. do 9 tys. jest tylko wzrostem o 12,5% i ta malejąca tendencja powtarza się z każdym nowym rzędem wielkości. W wybranych do przykładu parametrach nie ma nic szczególnego. Mo