Tiéd a hatalom

Google-keresések, blog- és Facebook-bejegyzések, lájkok, pénzügyi tranzakciók, online vásárlások, mobiltelefonok GPS-koordinátái, kórházi leletek - ezekből áll össze az a folyamatosan növekvő adatmennyiség, amit ma egyszerűen big data-nak, "óriás adathalmaznak" neveznek. A sokáig csak virtuális melléktermékként számon tartott napi információs lavina akkor válik értékessé, ha a különböző fájltípusú, eredetű és formátumú adatokat valakinek sikerül összekötni, köztük összefüggéseket keresni és ezekből felismerhető következtetést, folyamatot, prognózist összeállítani. A folyamat leginkább a puzzle-hez hasonló, ott sincs az egyes daraboknak önálló értékük, ám ha megfelelő kapcsolatba hozzuk őket egymással, kirajzolódik a teljes kép. Az óriás adatfolyamot alkotó "morzsák" - kattintások, oldallátogatások, bejegyzések a közösségi oldalakon - ugyanis értékes információkat rejthetnek, amennyiben nagy tömegben elemzik őket és a köztük lévő összefüggéseket. A Facebook napi 2,5 milliárd megosztásából és több mint 2,7 milliárd lájkjából, azaz a napi 500 terabájtos adathalmazból például lehetővé válik a tömeges felhasználói tevékenység valós idejű ellenőrzése és vizsgálata.

A témában jártas szakemberek szerint a big data soha nem látott lehetőségeket hordoz a rákapcsolódó üzleti szektorok, közszolgáltatások, tudományos kutatások számára. Ha az adatfeldolgozást marketingszempontok alapján végzik, az eredmény a vásárlói viselkedésformák és reakciók felismerése lehet, amiből hatékonyabb reklám-stratégiát lehet építeni, a fogyasztókat pedig nagyságrendekkel gyorsabban és pontosabban kiszolgálni. A végeredmény olyan, mintha a sarki szupermarketben egy kizárólag nekünk összeállított pult fogadna, ahol a kedvenc ételeink, italaink, autó- és ruhamárkáink várnának, vagy olyan új termékek, fejlesztések, amelyek az eddigi vásárlói viselkedésünk vagy fogyasztói csoportunk viselkedése alapján érdekelhetnek minket. Az efféle műveletek hosszú távon akár a túltermelésre is megoldást jelenthetnének, hiszen a nagy adathalmazok pontos és kifinomult feldolgozása után a cégek tisztán láthatják elvárásainkat és igényeinket.

De az adathalmaz-feldolgozás és -rendszerezés nem csupán az üzleti életben és a reklámpiacon hozhat előrelépést. A tudományban a kutatások felgyorsítását, a természetben lezajló folyamatok tágabb értelmezését, felismerését és megértését segítheti. Az égbolt- és óceánkutatás, a biológia, a genetika mind olyan terület, ahol az adathalmaz-elemzés óriási áttöréseket hozhat a közeljövőben. De hasznos lehet az olyan társadalmi alrendszerek jobb szervezésében is, mint a közbiztonság, az oktatás, az egészségügy, az egyes negyedek lakóinak habitusára és lehetőségeire alapozott városfejlesztés. "Ha tényleg az egészségügy átalakítása a cél, akkor egyszerűen létre kellene hozni egy olyan egészségügyi piacot, amely az ellátottaktól beérkező információkon alapul" - mondta Craig Mundie, a Microsoft kutatási és stratégiai részlegének vezetője az adathalmazokkal kapcsolatban még 2010-ben, az amerikai egészségügyi reformmal kapcsolatos megbeszélésen.

Hány bájt a világ?

A big data túlságosan nagy méretű és sokrétű ahhoz, hogy a hagyományos módszerekkel és berendezésekkel tárolható, kereshető, megosztható és analizálható legyen. Mértékegysége a petabájt (1 millió gigabájt) és az exabájt (1 milliárd gigabájt). Az interneten naponta hozzávetőlegesen több mint 3 exabájtnyi adat termelődik, a hétköznapi felhasználó eszköztárára átszámolva ez nagyjából 5-10 millió asztali gép tárolási kapacitásának felel meg. Használják már a zettabájt (1000 milliárd gigabájt) mértékegységet is: a világ teljes adatmennyiségét jelenleg 2,7 zettabájtra taksálják, ami 48 százalékos növekedést jelent tavalyhoz képest.

A növekedés ütemét jól példázza a 2000-ben indult Sloan Digitális Égboltfelmérési Program. A start idején a megfigyelő teleszkóp már az első pár héten több adatot gyűjtött be, mint amennyi az asztronómia teljes történelme során addig felgyűlt. 2010-re a rendszerezett archívum mérete 140 terabájtra rúgott. A Sloan utódja, a Large Synoptic Survey teleszkópja - amit a tervek szerint 2016-ban állítanak fel Chilében - ezt a mennyiséget ötnaponta fogja kitermelni. Ám az új teleszkóp "termése" csupán kis notesz a nagy adathalmazok világában, ugyanis például egy utasszállító gép repülési körülményeket érzékelő és feldolgozó rendszere félóránként 10 terabájtnyi adatot rögzít és elemez - a magasságra, a szélerőre, vagy a légellenállásra vonatkozó információkat és ezek összefüggéseit. De léteznek sokkal hétköznapibb adatfolyamok is: az amerikai bevásárlóközpontok nagy részének gazdája, a Wal-Mart óránként 1 milliárd vásárlási tranzakció lebonyolítását jegyzi fel, a Facebook 2011 végén csaknem 140 milliárd fotót tárolt, ami a valaha készült összes fényképfelvétel négy százaléka.

A nagy adathalmazok esetében azonban nem csak a méret számít. Doug Laney, a Gartner Group elemzője még 2001-ben elkészített egy háromdimenziós modellt, melyben a három V, azaz a mennyiség (volume), gyorsaság (velocity) és a változatosság (variety) határozza meg az adatmennyiség növekedésének kihívásait és a bennük rejlő lehetőségeket. Ezt a modellt használja az adathalmazok hasznosításával foglalkozó szektor a mai napig. A mennyiség már csak azért sem a legfontosabb, mert ez a legdinamikusabban változó mérőszám. A sebesség azt jelzi, mennyire gyorsan kell feldolgozni a rendelkezésre álló adatmennyiséget ahhoz, hogy abból értékes információt lehessen nyerni, a változatosság pedig a megjelenő adatok széles választékára céloz, számtalan fájl- és adattípusra, melyek az információt tárolják.

A nagy adathalmazok feldolgozásához és kezeléséhez nem elegendőek a hagyományos adatbázisok és az azokból statisztikákat és elemzéseket gyártó szoftverek. Az ehhez szükséges technológiák közül három kiemelkedő rendszert érdemes megemlíteni. A Hadoop nyílt forrású szoftverkeretrendszer, amely lehetővé teszi nagyméretű adathalmazok hatékonyabb kezelését és feldolgozását, strukturálását a lehető legrövidebb időn belül. A módszer lényege, hogy a befutó temérdek adatot a rendszer apró szeletekre osztva küldi el távoli számítógépekhez, majd a számítások elvégzése után egyesítve küldi vissza az eredményeket (MapReduce-módszer), melyek így már könnyen feldolgozható és értelmezhető formában állnak rendelkezésre. Sokszor használják vásárlói vagy webes böngészési szokások elemzéséhez, hogy növeljék a kapcsolódó reklámok hatékonyságát és az eladások ütemét. De Hadoop-alapú automatizmusok működnek a társkereső szolgáltatások mögött is, melyek a társaságra vágyók által megadott jellemzők alapján végzik a "párosítást". A Google, az Amazon és Facebook inkább a NoSQLadatbázis-kezelő rendszert használja. A NoSQL legfontosabb tulajdonsága a Hadooppal szemben nem az adathalmaz feldolgozása, hanem a hatalmas adatmennyiségek tárolása és a tárolt adatok állandó, akadálymentes rendelkezésre bocsátása. A harmadik megoldás a big data kezelésére a magas szintű párhuzamos feldolgozási rendszer, a Massive Parallel Processing (MPP). Ebben nagy számú különálló processzor vagy számítógép végez irányított számításokat párhuzamosan, kölcsönös kommunikációt folytatva, de egyetlen program végrehajtása érdekében. Az MPP rendszerre épül például az IBM Netezza nevű, adattárolással és analizálással foglalkozó leányvállalata, vagy konkurense, a HP Vertica nevű cége.

Üzleti perspektíva

Az elmúlt pár évben az Oracle, az IBM, az SAP és a HP több mint 15 milliárd dollárt költött kizárólag adattárolással és feldolgozással foglalkozó cégek felvásárlására. 2010-ben a szektor értéke csaknem 100 milliárd dollár volt, a növekedés évente 10 százalék, majdnem kétszerese a teljes szoftverpiac növekedési rátájának. Mindezt a válság kellős közepén sikerült produkálni, a kereslet pedig ennek megfelelően indukálta a kínálatot is. Külön diszciplína jött létre adattudomány néven.

Magyarországon a Magyar Tudományos Akadémia MTA SZTAKI Informatikai Kutatólaboratóriuma végez a nagy adathalmazokkal kapcsolatos kutatásokat. A laboratórium vezetője, Benczúr András szerint a kutatási eredményeikkel például közlekedésszervezési problémákat oldhatnak meg, de akár az emberi viszonyokat feltérképező hagyományos szociológiai eljárásokat is pontos, személyre szabható információkkal gazdagíthatják. Nem beszélve egyéb olyan, jelentős mennyiségű adat feldolgozására és elemzésére támaszkodó feladatoktól, mint az energiaoptimalizálás vagy a nagy tömegeket vonzó rendezvények előkészítése, ahol az emberek mobilhálózaton, interneten kommunikálnak, ezért viselkedésük tervezhető, koordinálható.

A nagy adathalmazok feldolgozásában és tárolásában rejlő lehetőségek már Európába is eljutottak. Herman Wimmer, a Teradata nevű adattárolással, -feldolgozással és -elemzéssel foglalkozó amerikai cég EMEA-térségért (Európa, a Közel-Kelet és Afrika) felelős elnöke idén tavasszal, a társaság éves konferenciáját követően úgy fogalmazott, hogy az amerikaiak után immár az európai cégek is kezdik felismerni az adatokban, és különösen a nagy adathalmazokban rejlő lehetőségeket. A cég a válság ellenére 22 százalékos forgalomnövekedést könyvelhetett el tavaly, 24 százalékkal növelte bevételeit Európában és 20 százalékkal a munkavállalói létszámot, miközben jelentősen szélesítette ügyfélkörét. A Teradata vezérigazgatója, Mike Koehler szerint a nagy adathalmazokkal kapcsolatos rendszerbevezetések közel fele a marketing területén valósul meg; azt is hozzátette, hogy 2017-re a vállalati marketingigazgatók többet fognak informatikára költeni, mint az informatikai igazgatók. Tucatjával hirdetik magukat az adatfeldolgozó rendszerek elméletét és gyakorlati használatát oktató tanfolyamok. Az adattudomány ma már elengedhetetlen része az üzleti intelligenciára alapuló programoknak, cégfilozófiáknak. A perspektíva valóban szédítő - s egyszer talán az emberi elme által begyűjtött adatok és információk feldolgozási mechanizmusának pontos rekonstrukciójáig is eljutunk, s megtudhatjuk, hány petabájtot gyűjt be az agyunk egy átlagos napon.