A rejtélyes Benford-törvény

A számok nem hazudnak  

Tudomány

Egyes, látszólag véletlenszerűen keletkezett adathalmazok nem is azok, aminek látszanak. A hamisítások leleplezésében segíthet Frank Benford találmánya.

Sokan a tavalyi amerikai elnökválasztás eredményei körüli vita kapcsán ismerték meg, mások nap mint nap találkoznak vele – például mert olyan Covid-statisztikákat használnak, ahol az adatok hitelességét a Benford-törvény segítségével próbálják lemérni. De vajon miről is szól e rejtélyes összefüggés, amely szerint bizonyos számadathalmazokban lényegesen gyakoribbak az 1-gyel (és még a 2-vel) kezdődő számok, mint a 6-tal vagy a 7-tel indulók? Mikor tehet csodát az ökölszabály, és hol vannak az alkalmazásának korlátai?

Isten nem kockázik?

A tudományos felfedezések néha egészen banális megfigyeléseknek köszönhetik születésüket. Például Simon Newcomb, a 19. században élt kanadai-amerikai matematikus-csillagász fejébe egyszer csak szöget ütött, hogy a könyvtárban található, akkoriban sűrűn forgatott logaritmustáblázatok első oldalai (ahol a számok 1-gyel, legfeljebb 2-vel kezdődtek) sokkalta megviseltebbek az utolsó oldalaknál – vagyis ezeket sűrűbben lapozzák fel. Newcomb felfedezését 1881-ben publikálta az American Journal of Mathematicsben: az ominózus oldalak amortizációjáról szóló megfigyelése önmagában még kevésnek bizonyult volna a publikációhoz, de erre alapozva egy frappáns és egyszerű, a tízes alapú logaritmuson alapuló képletet gyártott, amely megadta annak a valószínűségét, hogy egy bizonyos adathalmaz számai éppen egy bizonyos egész számmal kezdődjenek. Ebből pedig az következett, hogy míg mondjuk az 1-nek több mint 30 százalékos esélye van arra, hogy vele kezdődjön egy szám, addig a 2-nél ez már csak 17,6 százalék és így tovább – a 9-es már csak 4,58 százalékkal kerül az első helyi értékre.

Hogy Newcomb valamire ráhibázott, azt paradox módon felfedezésének sanyarú sorsa bizonyította: publikációja ugyan nem keltett feltűnést, sőt, eredménye feledésbe merült, ám ez lehetőséget kínált utódainak ahhoz, hogy újra és újra felfedezzék, hiszen a nagy adathalmazok tekintetében ez a tendencia mit sem változott a következő évszázadban. Frank Benford amerikai fizikus és elektromérnök 1938-ban újra publikálta az összefüggést, természetesen saját neve alatt – az sem világos, hogy akkor már ismerte-e vagy sem Newcomb dolgozatát.

Benford ugyanúgy a logaritmustáblázat megfigyelésével kezdte a maga cikkét, utána viszont hétköznapi területekről vett adathalmazokon is tesztelte megfigyelését. Összesen 20 229 adatot vizsgált meg tüzetesen: többek között 3259 település lakosságszámát, 335 folyó felszínét, kémiai elemek móltömegeit (azaz ugyanannyi számú részecskéből álló anyagmennyiségek tömegét), természetes számok hatványait, halálozási arányokat, költségadatokat, atomtömegeket és így tovább. Newcombhoz hasonlóan levezette az elődje által egyszer már publikált képletet, de annak meglátásait tovább is gondolta: Benford úgy vélte, hogy megmarad ez a „furcsaság” akkor is, ha az adatok reciprokát (1/x) vesszük, vagy éppen más számrendszerben írjuk fel azokat (a logaritmusban ilyenkor a 10-es alap helyett a számrendszer alapját kell használni a képletben). Mivel az ő cikke lényegesen nagyobb figyelmet kapott, mint elődjéé, a jelenséget 1938 óta Benford-törvénynek nevezik (vagy a históriai korrektségre ügyelve Newcomb–Benford-törvénynek).

Érdemes megemlíteni, hogy a törvény nem működik univerzálisan, bármilyen eloszlásra; vehetjük példának az emberek centiméterben kifejezett testmagasságát, s lám, az adatok túlnyomó többsége 1-gyel kezdődik, és csak kevés 2-es akad. Hasonlóképpen a mesterségesen szűkre szabott skála akadályozza, hogy az emberek intelligenciahányadosának első számjegye kövesse ezt az eloszlást. Ha pedig a kihúzott lottószámokat figyeljük, idővel észre fogjuk venni, hogy azok az egyenletes eloszlást követik.

Ez egy remek cikk a nyomtatott Magyar Narancsból, amely online is elérhető.
Ha szeretné elolvasni, kérjük, fizessen elő lapunk digitális kiadására, vagy ha már előfizető, lépjen be!
Támogassa a független sajtót! Olvassa a Magyar Narancsot!

Figyelmébe ajánljuk

Szól a jazz

Az ún. közrádió, amelyet egy ideje inkább állami rádiónak esik jól nevezni, új csatornát indított. Óvatos szerszámsuhintgatás ez, egyelőre kísérleti adást sugároznak csupán, és a hamarosan induló „rendes” műsorfolyam is online lesz elérhető, a hagyományos éterbe egyelőre nem küldik a projektet.

Fülsiketítő hallgatás

„Csalódott volt, amikor a parlamentben a képviselők szó nélkül mentek el ön mellett?” – kérdezte az RTL riportere múlt heti interjújában Karsai Dánieltől. A gyógyíthatatlan ALS-betegséggel küzdő alkotmányjogász azokban a napokban tért haza a kórházból, ahová tüdőgyulladással szállították, épp a születésnapján.

A szabadságharc ára

Semmi meglepő nincs abban, hogy az első háromhavi hiánnyal lényegében megvan az egész éves terv – a központi költségvetés éves hiánycéljának 86,6 százaléka, a teljes alrendszer 92,3 százaléka teljesült márciusban.

Puskák és virágok

Egyetlen nap elég volt ahhoz, hogy a fegyveres erők lázadása és a népi elégedetlenség elsöpörje Portugáliában az évtizedek óta fennálló jobboldali diktatúrát. Azért a demokráciába való átmenet sem volt könnyű.

New York árnyai

Közelednek az önkormányzati választások, és ismét egyre többet hallunk nagyszabású városfejlesztési tervekről. Bődületes deficit ide vagy oda, választási kampányban ez a nóta járja. A jelenlegi főpolgármester első számú kihívója már be is jelentette, mi mindent készül építeni nekünk Budapesten, és országszerte is egyre több szemkápráztató javaslat hangzik el.

Egymás között

Ahogyan a Lázár János szívéhez közel álló geszti Tisza-kastély felújításának határideje csúszik, úgy nőnek a költségek. A már 11 milliárd forintos összegnél járó projekt új, meghívásos közbeszerzései kér­dések sorát vetik fel.

Mit csinál a jobb kéz

Több tízmillió forintot utalt át Ambrózfalva önkormányzatától Csanádalbertire a két falu közös pénzügyese, ám az összeg eltűnt. A hiány a két falu mellett másik kettőt is nehéz helyzetbe hoz, mert közös hivatalt tartanak fönn. A bajban megszólalt a helyi lap is.

Árad a Tisza

Két hónapja lépett elő, mára felforgatta a politikai színteret. Bár sokan vádolják azzal, hogy nincs világos programja, több mindenben markánsan mást állít, mint az ellenzék. Ami biztos: Magyar Péter bennszülöttnek számít abban a kommunikációs térben, amelyben Orbán Viktor is csak jövevény.

„Ez az életem”

A kétszeres Oscar-díjas filmest az újabb művei mellett az olyan korábbi sikereiről is kérdeztük, mint a Veszedelmes viszonyok. Hogyan csapott össze Miloš Formannal, s miért nem lett Alan Rickmanből Valmont? Beszélgettünk Florian Zellerről és arról is, hogy melyik magyar regényből írt volna szívesen forgatókönyvet.

„Könnyű reakciósnak lenni”

  • Harci Andor

Új lemezzel jelentkezik a magyar elektronikus zene egyik legjelentősebb zászlóvivője, az Anima Sound Sys­tem. Az alapító-frontember-mindenessel beszélgettünk.