A rejtélyes Benford-törvény

A számok nem hazudnak  

Tudomány

Egyes, látszólag véletlenszerűen keletkezett adathalmazok nem is azok, aminek látszanak. A hamisítások leleplezésében segíthet Frank Benford találmánya.

Sokan a tavalyi amerikai elnökválasztás eredményei körüli vita kapcsán ismerték meg, mások nap mint nap találkoznak vele – például mert olyan Covid-statisztikákat használnak, ahol az adatok hitelességét a Benford-törvény segítségével próbálják lemérni. De vajon miről is szól e rejtélyes összefüggés, amely szerint bizonyos számadathalmazokban lényegesen gyakoribbak az 1-gyel (és még a 2-vel) kezdődő számok, mint a 6-tal vagy a 7-tel indulók? Mikor tehet csodát az ökölszabály, és hol vannak az alkalmazásának korlátai?

Isten nem kockázik?

A tudományos felfedezések néha egészen banális megfigyeléseknek köszönhetik születésüket. Például Simon Newcomb, a 19. században élt kanadai-amerikai matematikus-csillagász fejébe egyszer csak szöget ütött, hogy a könyvtárban található, akkoriban sűrűn forgatott logaritmustáblázatok első oldalai (ahol a számok 1-gyel, legfeljebb 2-vel kezdődtek) sokkalta megviseltebbek az utolsó oldalaknál – vagyis ezeket sűrűbben lapozzák fel. Newcomb felfedezését 1881-ben publikálta az American Journal of Mathematicsben: az ominózus oldalak amortizációjáról szóló megfigyelése önmagában még kevésnek bizonyult volna a publikációhoz, de erre alapozva egy frappáns és egyszerű, a tízes alapú logaritmuson alapuló képletet gyártott, amely megadta annak a valószínűségét, hogy egy bizonyos adathalmaz számai éppen egy bizonyos egész számmal kezdődjenek. Ebből pedig az következett, hogy míg mondjuk az 1-nek több mint 30 százalékos esélye van arra, hogy vele kezdődjön egy szám, addig a 2-nél ez már csak 17,6 százalék és így tovább – a 9-es már csak 4,58 százalékkal kerül az első helyi értékre.

Hogy Newcomb valamire ráhibázott, azt paradox módon felfedezésének sanyarú sorsa bizonyította: publikációja ugyan nem keltett feltűnést, sőt, eredménye feledésbe merült, ám ez lehetőséget kínált utódainak ahhoz, hogy újra és újra felfedezzék, hiszen a nagy adathalmazok tekintetében ez a tendencia mit sem változott a következő évszázadban. Frank Benford amerikai fizikus és elektromérnök 1938-ban újra publikálta az összefüggést, természetesen saját neve alatt – az sem világos, hogy akkor már ismerte-e vagy sem Newcomb dolgozatát.

Benford ugyanúgy a logaritmustáblázat megfigyelésével kezdte a maga cikkét, utána viszont hétköznapi területekről vett adathalmazokon is tesztelte megfigyelését. Összesen 20 229 adatot vizsgált meg tüzetesen: többek között 3259 település lakosságszámát, 335 folyó felszínét, kémiai elemek móltömegeit (azaz ugyanannyi számú részecskéből álló anyagmennyiségek tömegét), természetes számok hatványait, halálozási arányokat, költségadatokat, atomtömegeket és így tovább. Newcombhoz hasonlóan levezette az elődje által egyszer már publikált képletet, de annak meglátásait tovább is gondolta: Benford úgy vélte, hogy megmarad ez a „furcsaság” akkor is, ha az adatok reciprokát (1/x) vesszük, vagy éppen más számrendszerben írjuk fel azokat (a logaritmusban ilyenkor a 10-es alap helyett a számrendszer alapját kell használni a képletben). Mivel az ő cikke lényegesen nagyobb figyelmet kapott, mint elődjéé, a jelenséget 1938 óta Benford-törvénynek nevezik (vagy a históriai korrektségre ügyelve Newcomb–Benford-törvénynek).

Érdemes megemlíteni, hogy a törvény nem működik univerzálisan, bármilyen eloszlásra; vehetjük példának az emberek centiméterben kifejezett testmagasságát, s lám, az adatok túlnyomó többsége 1-gyel kezdődik, és csak kevés 2-es akad. Hasonlóképpen a mesterségesen szűkre szabott skála akadályozza, hogy az emberek intelligenciahányadosának első számjegye kövesse ezt az eloszlást. Ha pedig a kihúzott lottószámokat figyeljük, idővel észre fogjuk venni, hogy azok az egyenletes eloszlást követik.

A cikk további része csak előfizetőink számára elérhető.
Soha nem volt nagyobb szükség önre! A sajtó az olvasókért szabad, és fennmaradásunk előfizetőink nélkül nem lehetséges. Legyen előfizetőnk, tegyen egy próbát velünk és támogassa a demokratikus és liberális Magyarország ügyét!

Figyelmébe ajánljuk

Jens Lekman: Songs for Other People’s Weddings

„Ha valaha szükséged lenne egy idegenre, hogy énekeljen az esküvődön, akkor szólj nekem” énekelte Jens Lekman az első lemezén. A több mint két évtizede megjelent dal persze nem egy apróhirdetés akart lenni eredetileg, hanem az énekes legkedvesebb témájáról, az elérhetetlen szerelemről szólt.

Péterfy-Novák Éva: A Nevers-vágás

A szerző olyannyira nem bízik az olvasóiban, hogy már az első novella előtt, a mottó vagy az ajánlás helyén elmagyarázza, hogyan kell értelmezni a kötet címét, noha a könyv második felében elhelyezett címadó novella elég egyértelműen kifejti, hogy miről is van szó.

Mocskos játszma

  • SzSz

Shane Black farzsebében több mint harminc éve ott lapul a Play Dirty cím – anno a Halálos fegyver folytatásának szánta. Az eredeti forgatókönyv minden bennfentes szerint zseniális volt, sötétebb, mocskosabb, mint a zsarupáros meséje, ám épp ezért a stúdió, a producer és Richard Donner rendező is elutasította. Black viszont szeret ötleteket újrahasznosítani – ennek belátásához elég csak ránézni filmográfiájára –, így amikor jött a lehetőség, hogy Donald E. Westlake Parker-könyveiből készítsen filmet, gyorsan előkapta a régi címet.

33 változat Haydn-koponyára

Négy év után újra, ugyanott, ugyanazon alkotók közreműködésével mutatták be Esterházy Péter darabját; Kovács D. Dániel rendező a korábbitól alig különböző verziót hozott létre. A 2021-es premiert az író halála után közvetlenül tartották meg, így azt a veszteség drámaisága hatotta át, most viszont új szemszögből lehet(ne) megnézni Haydn koponyáját, és rajta keresztül az egyik legönironikusabb magyar szerzőt.

Suede: Antidepressants

A Brett Anderson vezette Suede nem nagyon tud hibázni a visszatérése óta. A 2010-es években készítettek egy ún. színes albumtrilógiát (Bloodsports, 2013; Night Thoughts, 2016; The Blue Hour, 2018), jelen évtizedben pedig megkezdtek egy újabb, ezúttal fekete-fehér háromrészes sorozatot. Ennek első része volt az Autofiction négy évvel ezelőtt, amelyet a tagok a Suede punklemezének neveztek.

Az elveszett busz

  • - ts -

A katasztrófafilmről okkal gondolhatnánk, hogy rövid idő adatott neki. Fénykorát a hetvenes években élte, de rögtön ki is fáradt, s a kilencvenes évekre már kicsit cikivé is vált. Utána pedig már csak a fejlődő filmkészítési technikák gyakorló pályáján jutott neki szerep.

Rokonidők

Cèdric Klapisch filmjei, legyenek bár kevésbé (Párizs; Tánc az élet) vagy nagyon könnyedek (Lakótársat keresünk és folytatásai), mindig diszkréten szórakoztatók. Ez a felszínes kellemesség árad ebből a távoli rokonok váratlan öröksége köré szerveződő filmből is.

Metrón Debrecenbe

A kiadó az utószóban is rögzíti, Térey szerette volna egy kötetben megjelentetni a Papp Andrással közösen írt Kazamatákat (2006), az Asztalizenét (2007) és a Jeremiás, avagy az Isten hidegét (2008). A kötet címe Magyar trilógia lett volna, utalva arra, hogy a szerző a múlt, jelen, jövő tengely mentén összetartozónak érezte ezeket a drámákat, első drámaíró korszakának műveit. 

Pénzeső veri

  • SzSz

„Az ajtók fontosak” – hangzik el a film ars poeticája valahol a harmincadik perc környékén, majd rögtön egyéb, programadó idézetek következnek: néha a játék (azaz színészkedés) mutatja meg igazán, kik vagyunk; a telefonok bármikor beszarhatnak, és mindig legyen nálad GPS.

Az elfogadás

Az ember nem a haláltól fél, inkább a szenvedéstől; nem az élet végességétől, hanem az emberi minőség (képességek és készségek, de leginkább az öntudat) leépülésétől. Nincs annál sokkolóbb, nehezebben feldolgozható élmény, mint amikor az ember azt az ént, éntudatot veszíti el, amellyel korábban azonosult. 

Mozaik

Öt nő gyümölcsök, öt férfi színek nevét viseli, ám Áfonya, Barack, vagy éppen Fekete, Zöld és Vörös frappáns elnevezése mögött nem mindig bontakozik ki valódi, érvényes figura. Pedig a történetek, még ha töredékesek is, adnának alkalmat rá: szerelem, féltékenység, árulás és titkok mozgatják a szereplőket.