Big data

Tiéd a hatalom

  • Bihari Ádám
  • 2012. szeptember 30.

Tudomány

Elképzelhetetlen mennyiségű adat keletkezik óráról órára, nap mint nap az interneten. Egyre többen, cégek és kutatók próbálják értelmezni és újrahasznosítani ezt az áradatot. A szörfölők által hátrahagyott nyomok megfejtése ugyanis felbecsülhetetlen üzleti kincs lehet.

Google-keresések, blog- és Facebook-bejegyzések, lájkok, pénzügyi tranzakciók, online vásárlások, mobiltelefonok GPS-koordinátái, kórházi leletek - ezekből áll össze az a folyamatosan növekvő adatmennyiség, amit ma egyszerűen big data-nak, "óriás adathalmaznak" neveznek. A sokáig csak virtuális melléktermékként számon tartott napi információs lavina akkor válik értékessé, ha a különböző fájltípusú, eredetű és formátumú adatokat valakinek sikerül összekötni, köztük összefüggéseket keresni és ezekből felismerhető következtetést, folyamatot, prognózist összeállítani. A folyamat leginkább a puzzle-hez hasonló, ott sincs az egyes daraboknak önálló értékük, ám ha megfelelő kapcsolatba hozzuk őket egymással, kirajzolódik a teljes kép. Az óriás adatfolyamot alkotó "morzsák" - kattintások, oldallátogatások, bejegyzések a közösségi oldalakon - ugyanis értékes információkat rejthetnek, amennyiben nagy tömegben elemzik őket és a köztük lévő összefüggéseket. A Facebook napi 2,5 milliárd megosztásából és több mint 2,7 milliárd lájkjából, azaz a napi 500 terabájtos adathalmazból például lehetővé válik a tömeges felhasználói tevékenység valós idejű ellenőrzése és vizsgálata.

A témában jártas szakemberek szerint a big data soha nem látott lehetőségeket hordoz a rákapcsolódó üzleti szektorok, közszolgáltatások, tudományos kutatások számára. Ha az adatfeldolgozást marketingszempontok alapján végzik, az eredmény a vásárlói viselkedésformák és reakciók felismerése lehet, amiből hatékonyabb reklám-stratégiát lehet építeni, a fogyasztókat pedig nagyságrendekkel gyorsabban és pontosabban kiszolgálni. A végeredmény olyan, mintha a sarki szupermarketben egy kizárólag nekünk összeállított pult fogadna, ahol a kedvenc ételeink, italaink, autó- és ruhamárkáink várnának, vagy olyan új termékek, fejlesztések, amelyek az eddigi vásárlói viselkedésünk vagy fogyasztói csoportunk viselkedése alapján érdekelhetnek minket. Az efféle műveletek hosszú távon akár a túltermelésre is megoldást jelenthetnének, hiszen a nagy adathalmazok pontos és kifinomult feldolgozása után a cégek tisztán láthatják elvárásainkat és igényeinket.

De az adathalmaz-feldolgozás és -rendszerezés nem csupán az üzleti életben és a reklámpiacon hozhat előrelépést. A tudományban a kutatások felgyorsítását, a természetben lezajló folyamatok tágabb értelmezését, felismerését és megértését segítheti. Az égbolt- és óceánkutatás, a biológia, a genetika mind olyan terület, ahol az adathalmaz-elemzés óriási áttöréseket hozhat a közeljövőben. De hasznos lehet az olyan társadalmi alrendszerek jobb szervezésében is, mint a közbiztonság, az oktatás, az egészségügy, az egyes negyedek lakóinak habitusára és lehetőségeire alapozott városfejlesztés. "Ha tényleg az egészségügy átalakítása a cél, akkor egyszerűen létre kellene hozni egy olyan egészségügyi piacot, amely az ellátottaktól beérkező információkon alapul" - mondta Craig Mundie, a Microsoft kutatási és stratégiai részlegének vezetője az adathalmazokkal kapcsolatban még 2010-ben, az amerikai egészségügyi reformmal kapcsolatos megbeszélésen.

Hány bájt a világ?

big data túlságosan nagy méretű és sokrétű ahhoz, hogy a hagyományos módszerekkel és berendezésekkel tárolható, kereshető, megosztható és analizálható legyen. Mértékegysége a petabájt (1 millió gigabájt) és az exabájt (1 milliárd gigabájt). Az interneten naponta hozzávetőlegesen több mint 3 exabájtnyi adat termelődik, a hétköznapi felhasználó eszköztárára átszámolva ez nagyjából 5-10 millió asztali gép tárolási kapacitásának felel meg. Használják már a zettabájt (1000 milliárd gigabájt) mértékegységet is: a világ teljes adatmennyiségét jelenleg 2,7 zettabájtra taksálják, ami 48 százalékos növekedést jelent tavalyhoz képest.

A növekedés ütemét jól példázza a 2000-ben indult Sloan Digitális Égboltfelmérési Program. A start idején a megfigyelő teleszkóp már az első pár héten több adatot gyűjtött be, mint amennyi az asztronómia teljes történelme során addig felgyűlt. 2010-re a rendszerezett archívum mérete 140 terabájtra rúgott. A Sloan utódja, a Large Synoptic Survey teleszkópja - amit a tervek szerint 2016-ban állítanak fel Chilében - ezt a mennyiséget ötnaponta fogja kitermelni. Ám az új teleszkóp "termése" csupán kis notesz a nagy adathalmazok világában, ugyanis például egy utasszállító gép repülési körülményeket érzékelő és feldolgozó rendszere félóránként 10 terabájtnyi adatot rögzít és elemez - a magasságra, a szélerőre, vagy a légellenállásra vonatkozó információkat és ezek összefüggéseit. De léteznek sokkal hétköznapibb adatfolyamok is: az amerikai bevásárlóközpontok nagy részének gazdája, a Wal-Mart óránként 1 milliárd vásárlási tranzakció lebonyolítását jegyzi fel, a Facebook 2011 végén csaknem 140 milliárd fotót tárolt, ami a valaha készült összes fényképfelvétel négy százaléka.

A nagy adathalmazok esetében azonban nem csak a méret számít. Doug Laney, a Gartner Group elemzője még 2001-ben elkészített egy háromdimenziós modellt, melyben a három V, azaz a mennyiség (volume), gyorsaság (velocity) és a változatosság (variety) határozza meg az adatmennyiség növekedésének kihívásait és a bennük rejlő lehetőségeket. Ezt a modellt használja az adathalmazok hasznosításával foglalkozó szektor a mai napig. A mennyiség már csak azért sem a legfontosabb, mert ez a legdinamikusabban változó mérőszám. A sebesség azt jelzi, mennyire gyorsan kell feldolgozni a rendelkezésre álló adatmennyiséget ahhoz, hogy abból értékes információt lehessen nyerni, a változatosság pedig a megjelenő adatok széles választékára céloz, számtalan fájl- és adattípusra, melyek az információt tárolják.

A nagy adathalmazok feldolgozásához és kezeléséhez nem elegendőek a hagyományos adatbázisok és az azokból statisztikákat és elemzéseket gyártó szoftverek. Az ehhez szükséges technológiák közül három kiemelkedő rendszert érdemes megemlíteni. A Hadoop nyílt forrású szoftverkeretrendszer, amely lehetővé teszi nagyméretű adathalmazok hatékonyabb kezelését és feldolgozását, strukturálását a lehető legrövidebb időn belül. A módszer lényege, hogy a befutó temérdek adatot a rendszer apró szeletekre osztva küldi el távoli számítógépekhez, majd a számítások elvégzése után egyesítve küldi vissza az eredményeket (MapReduce-módszer), melyek így már könnyen feldolgozható és értelmezhető formában állnak rendelkezésre. Sokszor használják vásárlói vagy webes böngészési szokások elemzéséhez, hogy növeljék a kapcsolódó reklámok hatékonyságát és az eladások ütemét. De Hadoop-alapú automatizmusok működnek a társkereső szolgáltatások mögött is, melyek a társaságra vágyók által megadott jellemzők alapján végzik a "párosítást". A Google, az Amazon és Facebook inkább a NoSQLadatbázis-kezelő rendszert használja. A NoSQL legfontosabb tulajdonsága a Hadooppal szemben nem az adathalmaz feldolgozása, hanem a hatalmas adatmennyiségek tárolása és a tárolt adatok állandó, akadálymentes rendelkezésre bocsátása. A harmadik megoldás a big data kezelésére a magas szintű párhuzamos feldolgozási rendszer, a Massive Parallel Processing (MPP). Ebben nagy számú különálló processzor vagy számítógép végez irányított számításokat párhuzamosan, kölcsönös kommunikációt folytatva, de egyetlen program végrehajtása érdekében. Az MPP rendszerre épül például az IBM Netezza nevű, adattárolással és analizálással foglalkozó leányvállalata, vagy konkurense, a HP Vertica nevű cége.

Üzleti perspektíva

Az elmúlt pár évben az Oracle, az IBM, az SAP és a HP több mint 15 milliárd dollárt költött kizárólag adattárolással és feldolgozással foglalkozó cégek felvásárlására. 2010-ben a szektor értéke csaknem 100 milliárd dollár volt, a növekedés évente 10 százalék, majdnem kétszerese a teljes szoftverpiac növekedési rátájának. Mindezt a válság kellős közepén sikerült produkálni, a kereslet pedig ennek megfelelően indukálta a kínálatot is. Külön diszciplína jött létre adattudomány néven.

Magyarországon a Magyar Tudományos Akadémia MTA SZTAKI Informatikai Kutatólaboratóriuma végez a nagy adathalmazokkal kapcsolatos kutatásokat. A laboratórium vezetője, Benczúr András szerint a kutatási eredményeikkel például közlekedésszervezési problémákat oldhatnak meg, de akár az emberi viszonyokat feltérképező hagyományos szociológiai eljárásokat is pontos, személyre szabható információkkal gazdagíthatják. Nem beszélve egyéb olyan, jelentős mennyiségű adat feldolgozására és elemzésére támaszkodó feladatoktól, mint az energiaoptimalizálás vagy a nagy tömegeket vonzó rendezvények előkészítése, ahol az emberek mobilhálózaton, interneten kommunikálnak, ezért viselkedésük tervezhető, koordinálható.

A nagy adathalmazok feldolgozásában és tárolásában rejlő lehetőségek már Európába is eljutottak. Herman Wimmer, a Teradata nevű adattárolással, -feldolgozással és -elemzéssel foglalkozó amerikai cég EMEA-térségért (Európa, a Közel-Kelet és Afrika) felelős elnöke idén tavasszal, a társaság éves konferenciáját követően úgy fogalmazott, hogy az amerikaiak után immár az európai cégek is kezdik felismerni az adatokban, és különösen a nagy adathalmazokban rejlő lehetőségeket. A cég a válság ellenére 22 százalékos forgalomnövekedést könyvelhetett el tavaly, 24 százalékkal növelte bevételeit Európában és 20 százalékkal a munkavállalói létszámot, miközben jelentősen szélesítette ügyfélkörét. A Teradata vezérigazgatója, Mike Koehler szerint a nagy adathalmazokkal kapcsolatos rendszerbevezetések közel fele a marketing területén valósul meg; azt is hozzátette, hogy 2017-re a vállalati marketingigazgatók többet fognak informatikára költeni, mint az informatikai igazgatók. Tucatjával hirdetik magukat az adatfeldolgozó rendszerek elméletét és gyakorlati használatát oktató tanfolyamok. Az adattudomány ma már elengedhetetlen része az üzleti intelligenciára alapuló programoknak, cégfilozófiáknak. A perspektíva valóban szédítő - s egyszer talán az emberi elme által begyűjtött adatok és információk feldolgozási mechanizmusának pontos rekonstrukciójáig is eljutunk, s megtudhatjuk, hány petabájtot gyűjt be az agyunk egy átlagos napon.


Figyelmébe ajánljuk

Jens Lekman: Songs for Other People’s Weddings

„Ha valaha szükséged lenne egy idegenre, hogy énekeljen az esküvődön, akkor szólj nekem” énekelte Jens Lekman az első lemezén. A több mint két évtizede megjelent dal persze nem egy apróhirdetés akart lenni eredetileg, hanem az énekes legkedvesebb témájáról, az elérhetetlen szerelemről szólt.

Péterfy-Novák Éva: A Nevers-vágás

A szerző olyannyira nem bízik az olvasóiban, hogy már az első novella előtt, a mottó vagy az ajánlás helyén elmagyarázza, hogyan kell értelmezni a kötet címét, noha a könyv második felében elhelyezett címadó novella elég egyértelműen kifejti, hogy miről is van szó.

Mocskos játszma

  • SzSz

Shane Black farzsebében több mint harminc éve ott lapul a Play Dirty cím – anno a Halálos fegyver folytatásának szánta. Az eredeti forgatókönyv minden bennfentes szerint zseniális volt, sötétebb, mocskosabb, mint a zsarupáros meséje, ám épp ezért a stúdió, a producer és Richard Donner rendező is elutasította. Black viszont szeret ötleteket újrahasznosítani – ennek belátásához elég csak ránézni filmográfiájára –, így amikor jött a lehetőség, hogy Donald E. Westlake Parker-könyveiből készítsen filmet, gyorsan előkapta a régi címet.

33 változat Haydn-koponyára

Négy év után újra, ugyanott, ugyanazon alkotók közreműködésével mutatták be Esterházy Péter darabját; Kovács D. Dániel rendező a korábbitól alig különböző verziót hozott létre. A 2021-es premiert az író halála után közvetlenül tartották meg, így azt a veszteség drámaisága hatotta át, most viszont új szemszögből lehet(ne) megnézni Haydn koponyáját, és rajta keresztül az egyik legönironikusabb magyar szerzőt.

Suede: Antidepressants

A Brett Anderson vezette Suede nem nagyon tud hibázni a visszatérése óta. A 2010-es években készítettek egy ún. színes albumtrilógiát (Bloodsports, 2013; Night Thoughts, 2016; The Blue Hour, 2018), jelen évtizedben pedig megkezdtek egy újabb, ezúttal fekete-fehér háromrészes sorozatot. Ennek első része volt az Autofiction négy évvel ezelőtt, amelyet a tagok a Suede punklemezének neveztek.

Az elveszett busz

  • - ts -

A katasztrófafilmről okkal gondolhatnánk, hogy rövid idő adatott neki. Fénykorát a hetvenes években élte, de rögtön ki is fáradt, s a kilencvenes évekre már kicsit cikivé is vált. Utána pedig már csak a fejlődő filmkészítési technikák gyakorló pályáján jutott neki szerep.

Rokonidők

Cèdric Klapisch filmjei, legyenek bár kevésbé (Párizs; Tánc az élet) vagy nagyon könnyedek (Lakótársat keresünk és folytatásai), mindig diszkréten szórakoztatók. Ez a felszínes kellemesség árad ebből a távoli rokonok váratlan öröksége köré szerveződő filmből is.

Metrón Debrecenbe

A kiadó az utószóban is rögzíti, Térey szerette volna egy kötetben megjelentetni a Papp Andrással közösen írt Kazamatákat (2006), az Asztalizenét (2007) és a Jeremiás, avagy az Isten hidegét (2008). A kötet címe Magyar trilógia lett volna, utalva arra, hogy a szerző a múlt, jelen, jövő tengely mentén összetartozónak érezte ezeket a drámákat, első drámaíró korszakának műveit. 

Pénzeső veri

  • SzSz

„Az ajtók fontosak” – hangzik el a film ars poeticája valahol a harmincadik perc környékén, majd rögtön egyéb, programadó idézetek következnek: néha a játék (azaz színészkedés) mutatja meg igazán, kik vagyunk; a telefonok bármikor beszarhatnak, és mindig legyen nálad GPS.

Az elfogadás

Az ember nem a haláltól fél, inkább a szenvedéstől; nem az élet végességétől, hanem az emberi minőség (képességek és készségek, de leginkább az öntudat) leépülésétől. Nincs annál sokkolóbb, nehezebben feldolgozható élmény, mint amikor az ember azt az ént, éntudatot veszíti el, amellyel korábban azonosult. 

Mozaik

Öt nő gyümölcsök, öt férfi színek nevét viseli, ám Áfonya, Barack, vagy éppen Fekete, Zöld és Vörös frappáns elnevezése mögött nem mindig bontakozik ki valódi, érvényes figura. Pedig a történetek, még ha töredékesek is, adnának alkalmat rá: szerelem, féltékenység, árulás és titkok mozgatják a szereplőket.