Az adatok manipulációja elterjedtebb a tudományos életben, mint gondoltuk

Gyakran frocliznak azzal, hogy ne csak az „alternatívokat”, ezoterikusokat kritizáljam, hanem a hivatalos tudományt, orvoslást is. Oké, belekezdek! De nem egyszerű a dolog, ezért ma még csak egy könnyedebb témával kezdem, hogy az alapproblémát megértsük. Következő alkalommal jöhetnek a gyógyszergyártó cégek, akkor majd vissza tudok utalni ide.

Sokan leszólják a statisztikát, mondva, hogy „igazán nagyot hazudni a statisztikával lehet”, de én megvédeném a matematikának ezt a területét. Szerintem statisztika nélkül lehet igazán hazudni vagy akár tévedni, a statisztika pont ezt segít elkerülni. Egyben a statisztika korrekt használata arról is informál, hogy a következtetésünk mennyire bizonyos, vagy fordítva, hogy mekkora a bizonytalansága. Természetesen, ahogy a kenyérvágó kést is lehet galádul gyilkolászásra használni, a statisztikán alapuló tudományos kutatási módszer is meghekkelhető. És ahogy a késsel is lehet véletlenül sebet ejteni vagy szándékosan szurkálni, a statisztikai módszer helytelen használata is lehet szándékos vagy akaratlan. Azért már itt megjegyezném, hogy a statisztika nem ismerete sem mentesít a felelősség alól!

Szóval úgy döntöttem, hogy ma a statisztikáról, annak a tudományban való helytelen használatáról írok anélkül, hogy egyetlen képletet is említenék. Az apropó pedig a Cornell Egyetemen táplálkozástudománnyal foglalkozó pszichológus, Brian Wansink tündöklése és valószínűsíthető bukása. Wansinkék szó szerint elárasztották a világot olyan szemet, szájat ingerő kutatási eredményekkel, mint hogy „hosszúkás, keskenyebb pohárból 20 százalékkal kevesebbet fogunk inni”, „jobban fog ízleni az étel, ha magasabb az ára”, vagy „a férfiak többet fogyasztanak, ha női társaságban vannak”.

Ahhoz, hogy megértsük, mi is a probléma a kutatásaikkal, egy picit meg kell értenünk, hogy a statisztika úgynevezett hipotézisvizsgálatai mire is jók, és hogy hol lehet ezeket félreérteni, illetve megerőszakolni.

Azt ugye tudjuk, hogy egy mérés nem mérés, azaz lehetőleg a mintánknak sokeleműnek kell lennie. De az is fontos, hogy a hipotézisünket mihez képest állítjuk fel. Ha az az elképzelésünk, hogy a vendégeknek nem fog annyira ízleni a büfékaja ha le van árazva, akkor persze tudnunk kell, hogy a normál árú büfé esetén mi a véleményük a fogyasztóknak. Az értékelés persze nemcsak emberről emberre más, de akár egy személy esetén is eltérhet alkalmanként. Ha az olcsóbb büfé esetén alacsonyabb minősítést adnak a vendégek, akkor el kell gondolkodnunk azon, hogy most ez az alulértékelés éppen csak a véletlen műve, azaz belefér a normális eloszlásba, vagy ez már valami érdekeset, szignifikánsat mutat-e a fogyasztási szokásainkkal kapcsolatban!

Ne becsüljük le ezt a problémát! Intuíciónk könnyen félrevezethet, pláne, ha nagyon szeretnénk látni elképzelésünk beigazolódását.

Ilyenkor segíthet a statisztika, és ezzel próbálkozott Wansink és csapata is. A probléma, hogy a fentiekhez hasonló előzetes elképzeléseik úgy tűnik, gyakran nem jöttek be. Az adatok nem igazolták a hipotézisüket. De ha már ennyit nyűglődtek vele, akkor csak kellene valami eredményt kimutatni, nemde? Negatív eredményt nehéz publikálni szaklapban, pláne nem lehet belőle médiaszenzációt csináni.

Wansink meg volt róla győződve, hogy a gyűjtött adatokban ott van a publikálásra méltó érdekesség, csak meg kell találni. Győzködte a kollégákat, hogy keressenek! Lehet, hogy a nagy átlagra nem igaz a hipotézis, hogy az olcsóbb kaját kevésbé értékelik, de talán emberek egy csoportjára igen? Mi van a férfiakkal, a nőkkel, azokkal, akik ebédelni járnak és azokkal, akik vacsorázni? Akik egyedül ülnek, vagy akik társaságban? Akik közelebb ülnek a büféhez, vagy akik távol? Akik alkoholt fogyasztanak, vagy akik dzsúzt? Esetleg nem minden kajára igaz a feltételezés, hanem csak a pizzára, a desszertre?

És az eredmények jöttek, a büfésztoriból vagy három tudományos cikket is publikáltak. Naiv elképzelésünk szerint Wansink valami fantasztikus dolgot csinál. A mai világban, amikor nagy mennyiségű adatot elő lehet állítani és kezelni, megvannak a számítógépes módszerek az adatokban való hatékony turkálásra, akkor mindezt kihasználva fel lehet fedni az emberi szem elől rejtve maradt, az adatok mélyén lapuló összefüggéseket.

Azonban fundamentális hiba van azzal, ahogy erre a feladatra a statisztika hipotézisvizsgálatát használják. Ahogy már fentebb írtam, a statisztika abban segít, hogy megállapítsuk, hogy egy mért adatsor tényleg érdekes, vagy ugyan eltér az átlagtól, de ez még belefér a véletlen ingadozásba. A statisztikai módszer viszont semmit sem mond arról, hogy a kapott eredmény tényleg valós-e. Mert lehet, hogy tényleg annyira eltér az átlagtól, hogy kicsi a valószínűsége annak, hogy az eltérést csupán a véletlen okozza, de azt kizárni azért nem lehet.

Hiszen még olyan kis esélyű dolgok is bejönnek, mint a lottó ötös – ha elegen és eleget próbálják.

A statisztikai módszerek csupán azt biztosítják, hogy ha rendesen használjuk őket, akkor viszonylag ritkán fogunk hamis pozitív eredményt kapni. Tehát ha mondjuk száz olyan kísérleti eredményt nézünk, amelyekre a statisztika azt hozta ki, hogy ezek már valószínűleg nem a véletlen termékei, hanem valami érdekes hatást jeleznek, akkor abból nem lesz több mint öt téves eredmény. Hogy melyik öt statisztikailag igazolt tudományos hipotézis nem igaz mégsem a százból, azt ez alapján nem tudhatjuk, de mindez azért elég jó találati arányt biztosít a tudomány számára. A hibás eredményeket remélhetőleg később majd kiszűrik a további kutatások, ellenőrzések, kísérlet megismétlések.

Amikor az orvosi kutatásokat fogom górcső alá vanni, akkor majd meglátjuk, hogy ott erősebb statisztikai módszereket használnak. Olyanokat, amelyek nem öt százalékban adnak hamis pozitív eredményt, hanem amelyek csak egy százalékban, de inkább csak egy ezrelékben. A fizikában, ahol nagyon sok és precíz mérést lehet végezni, ott szuper erősségű statisztikai módszereket is használnak, amelyeknél a hamis pozitív arány az egy a tízezerhez vagy akár egymillióhoz. Hogy miért nem használnak mindenhol ilyen statisztikai módszereket? Azért, mert ezekhez nagyon sok adat kell, másrészt, mert ha túl erős a szűrő, akkor megnő a másik típusú hiba esélye: amikor egy valódi összefüggést elvesztünk, nem ismerünk fel. Valamit valamiért! Ha nagyon biztosra akarunk menni abban, hogy nehogy egy valójában hamis elképzelést, hipotézist igaznak higgyünk, akkor az azzal fog járni, hogy jó hipotéziseket viszonylag nagy számban foguk eldobni, hamisnak vélni. Orvosi esetekben inkább megyünk a biztosra és elvetünk egy-két jó ötletet, mintsem hogy egy hibás módszer miatt életeket kockáztassunk (és persze még így is…).

Az olyan kutatásokban, mint amelyeket Wansinkék végeztek, esetleg nem olyan nagy a kockázat abban, ha pár étkezési tanácsuk nem jön be. Ezért ők jogosan használhattak gyengébb statisztikát.

Akkor mi is a probléma velük?

Az, hogy amikor Wansink arra bíztatta a kollégákat, hogy szeleteljék így és úgy az adatokat, csoportosítsák az embereket ilyen meg olyan csoportokba, akkor tulajdonképpen az egy hipotézisből nagyon sokat csinált. Ha eddig az volt a feltételezése, hogy az emberek jobban meg vannak elégedve a kaja minőségével, ha az nincs leárazva, akkor most kapott rengeteg hipotézist: „a délben egyedül étkező középkorú férfiak, akik közelebb ülnek a büféhez és nem rendelnek alkoholos italt, kevésbé elégedettek az étel minőségével, ha az le van árazva.”

Vagy „a délben egyedül étkező középkorú férfiak, akik távolabb ülnek a büfétől és nem rendelnek alkoholos italt, kevésbé elégedettek az étel minőségével, ha az le van árazva”. Észrevetted a különbséget? Van még sok tucat, akár száz ilyen, valahol a végén ezzel: „az este társaságban étkező nők, akik távolabb ülnek a büfétől és alkoholt is fogyasztanak, kevésbé elégedettek az étel minőségével, ha az le van árazva”.

Tegyük fel, hogy nem több, csak két tucat ilyen csoportot alkotnak és mindegyikre elvégezve teljesen szabályosan a statisztikai módszert, az egyiknél pozitív – szignifikáns – eredményt kapnak. Most akkor mit tudunk? Azt, hogy a hipotézis azon verziója tényleg igaz? Nem, egyáltalán nem lehetünk ebben biztosak. Huszonegynéhány ilyen statisztikai elemzésből már simán előfordulhat fals pozitív.

Ne feledjük, hogy Wansinkék nem erős statisztikai módszereket használnak, mert ilyen vizsgálatokhoz az általában nem is kell. Valójában szeletelgető módszerük matematikailag garantálja, hogy nagy eséllyel sikerül statisztikailag pozitív eredményt előállítaniuk akkor is, ha egyébként a hipotézisük teljes ökörség, azaz ha nem igaz.

Ne értsük félre! A statisztikai módszerek jók és nagyon fontosak. Nélkülük sokkal többször vonnánk le téves következtetéseket, és még azt se tudnánk, hogy mekkora arányban történik ez. A statisztika – ha rendesen használják – biztosítja, hogy viszonylag ritkán tévedjünk, ráadásul a megengedett tévedési arányszámot mi magunk adhatjuk meg. Ez társadalomtudományi kutatásokban öt százalék, egészségügyben egy százalék, fizikában még kisebb.

Manapság, amikor az internet elképesztő mennyiségű információt biztosít az emberekről, az ilyen típusú adathalászat hatalmas lehetőséget nyújt a kutatóknak, cégeknek, politikai szervezeteknek. Csoportosítanak minket így, úgy; kapcsolatot keresnek köztünk és termékek közt; korcsoportokra, érdeklődési csoportokra osztanak minket sok ezer féle képpen. Ebből biztos, hogy statisztikailag szignifikáns – azaz érdekesnek minősített – összefüggések sokasága potyog ki.

De hogy ezek az összefüggések valósak-e vagy csak a véletlen játékai, azt további, szigorú kutatások dönthetik el. Amikor az ilyen kutatási eredményeket ok-okozati összefüggésekként publikálják a kutatók vagy a média, akkor nagyon kritikusnak kell lennünk.

Wansinkék sikersorozatával kapcsolatban már korábban is felmerültek kételyek, de végül a kutató magát buktatta le. Saját blogján számolt be arról, hogy egy lüke doktorandusz visszautasította arra vonatkozó javaslatait, hogy az adatok manipulálásával állítson elő statisztikailag pozitív eredményeket. Dicsérte viszont egy kezdő török munkatársát, aki soha nem mondott neki nemet, és teljesítette kérését: „Dolgozz keményen, facsarj ki egy kis vért ebből a sziklából!"

A világban szanaszét dolgozó szociológus és egyéb kutatók elképedve olvasták Wankins dicsekvő sztoriját.

Többen azt hitték, hogy szatíra, annyira pontosan írta le azt, hogy hogyan nem szabad használni a statisztikát a tudományos kutatási eredmények feldolgozásában.

A tudományos kutatási eredmények visszavonását rendszeresen szemléző Retraction Watch nevű oldal több tucat bejegyzésben foglalja össze a Wankins saga történéseit. Wankins kénytelen volt visszavonni számos publikált tudományos cikkét, ahogy azok eredményeit, módszertanát kritikusok átnézték. Még többet korrigálnia kellett, a módosítások néha hosszabbak, mint az eredeti cikk.

Wansink karrierjének talán vége is. A tanulság azonban általános. Az adatok tudatos vagy jószándékú – de hibás – manipulációja valószínűleg igen elterjedt a tudományos életben. A szociológia területén kifejezett krízis állt elő, és szerencsére már elindultak bizonyos korrekciós mechanizmusok. Elkezdték megismételni a korábbi nagy kutatásokat, és bizony sok esetben nem tudták replikálni azok eredményeit. Sok mára készpénznek vett, mindenhol tanított szociológiai elméletet kell felülvizsgálni vagy akár ki is hajítani.

Más szakterületeket is érint a probléma. Az egyik legérzékenyebb terület az egészségügy.