Digitális adataink megőrzése

Talán eltűnik hirtelen

  • Keller-Alánt Ákos
  • 2017. február 15.

Interaktív

Az internet leegyszerűsítette a tartalom-előállítást és a hozzáférést az információhoz. De mi lesz az adatokkal tíz, ötven vagy száz év múlva? A bitek meglepően gyorsan pusztulnak – és a tudománynak még nincs válasza minden ebből fakadó kérdésre.

„A digitális forradalom olyan mély változásokat okoz a társadalomban, amihez csak a tűz felfedezése hasonlítható” – lelkendezett Louis Rossetto, a Wired alapítója és első kiadója lapjának hasábjain még 1993-ban, és aligha tévedett. A digitális technológia és az internet elterjedése alapvetően alakította át a világot az elmúlt évtizedekben. Az információhoz való hozzáférés soha nem volt annyira egyszerű és olcsó, mint manapság: az emberiség szinte teljes tudása elérhető pár kattintással, könyvtárnyi tartalmak a zsebünkben is elférnek. Egyre gyorsabban fejlődő gépeken dolgozunk, kommunikálunk, olvasunk újságot és nézünk tévét; immár digitálisan tároljuk az emberiség leg­újabb tudományos eredményeit és a családi fényképalbumot – és a bajok épp itt kezdődnek. Míg a digitális technológia megkönnyíti az információhoz való hozzáférést, annak megőrzését – paradox módon – megnehezíti.

Ma még nem tudjuk, hogyan őrizzük meg a digitális tartalmakat úgy, hogy azok ötven, száz, de akár ötszáz év múlva is olvashatóak és értelmezhetőek legyenek. Márpedig ennek különös jelentősége van, hiszen – ha más nem – a jövő tudósai, régészei minden bizonnyal tudni szeretnék, hogyan éltek az emberek a 20–21. század fordulóján, s a most keletkező kulturális, tudományos eredményeket is meg kell őrizni. Ezzel azonban nem foglalkozunk súlyának megfelelően. Vinton Cerf, az internet egyik megalkotója, ma a Google alelnöke, egyenesen a „sötét digitális korról” beszél. Úgy véli, ha sürgősen nem teszünk valamit digitális adataink megmentéséért, akkor a történelem számára láthatatlanná válunk: száz év múlva az 1950-es évtized átláthatóbb és érthetőbb lesz, mint az 1990-es.

A kőtáblák, a pergamenek sokszor igen jól kiállták az idő próbáját, ám a mai adathordozók nem teljesítenek ilyen jól. „Az olcsó papír pár évtized alatt megsárgul, az első, celluloidra rögzített filmek is veszélyeztetettek. Ma még nem tudjuk, hogy a digitális adathordozók meddig élnek, hiszen erről nincs valódi tapasztalatunk” – mondja a Narancsnak Szakadát István, a BME Szociológia és Kommunikáció Tanszékének docense. „A 90-es évek közepén pár évig megjelentettük az első magyar multimédiás újságot, az ABCD-t. Nemrégiben szerettem volna újra beleolvasni, és azzal kellett szembesülnöm, hogy ezeknek a húszéves CD-k­nek egy része már tönkrement”. Úgy tűnik, most használatos digitális adathordozóink is igen rövid életűek: a CD-k mellett a merevlemezek is gyakran tönkremennek, és a pendrive-okról sem tudjuk, meddig működnek.

 

Csak szabályozás kérdése

Szakadát szerint privát adataink megőrzésére egyfajta megoldást jelenthet a felhő, hiszen ott profi IT-szakemberek tartják karban fájljainkat. (Erről lásd keretes anyagunkat – a szerk.) Ugyanakkor bajok forrása is lehet, hiszen egy cég és egy magánszemély között bármikor felmerülhetnek vitás esetek, melyek rendezése nehézkes lehet, különösen, ha a cég külföldi. A társaság elzárhat minket a saját adatainktól, vagy akár csődbe is mehet – mi lesz akkor a fájlokkal? A Google vagy a Facebook sem örök életű, csak néhány olyan vállalat van a világon, amely megélt több száz évet, és azok sem a gyorsan változó technológiai iparágban működnek. A felhőbe költözéssel is újabb függőségi viszony jön létre – ám ez önmagában még nem baj, véli Szakadát István. „A technológiai-civilizációs fejlődés mindig új függőséget hoz létre, és részben ez is a célja, hiszen nem lehetünk önellátóak. Ugyanúgy függünk a villanytól is, mégsem amiatt aggódik senki. Különösen érzékeny pénzügyi adatainkat – sokszor külföldi – bankok kezelik, ráadásul hosszú évek óta csupán digitálisan tárolják, hogy mennyi pénzünk van. Ez teljesen rendben működik, mert megfelelő szabályozás van arra, hogy egy bank IT-rendszerének mit kell tudnia, ahogy arra is van törvény, mi a helyzet bankcsőd esetén. A saját adataink feletti rendelkezést biztosító szabályozás még nem ennyire fejlett, de hamarosan az is elég biztonságot fog nyújtani.” A felhőhasználat megnyugtató szabályozását az is fel fogja gyorsítani, hogy hamarosan nem csupán egyes fájljainkat fogjuk így tárolni, de az alkalmazásokat sem a saját eszközünkön, hanem a felhőben futtatjuk majd.

Szakadát szerint az adattárolási problémát a mérnökök előbb-utóbb meg fogják oldani, léteznek ígéretes próbálkozások. Előrehaladott kutatások vannak a DNS-alapú és a kvarckristályos adattárolás területén is: mindkét módszer azzal kecsegtet, hogy hatalmas mennyiségű adatot lehet kis helyen tárolni. S amíg ezek hétköznapi használatba nem kerülnek, a feladat az, hogy folyamatosan átmásoljuk adatainkat az újabb hordozókra – hiszen a régi flopikat vagy VHS-kazettákat már ma is nehéz leolvasni, sőt a CD-, DVD-olvasók is egyre ritkábbak. Esetleg cselekedhetünk úgy, mint Vinton Cerf, akinek ugyan az a munkája, hogy az internet és a digitalizáció előnyeiről tartson előadásokat világszerte, a fontosabb dokumentumait mégis kinyomtatja – már amit lehet, hiszen egy videót vagy adatbázist nem lehet kinyomtatni.

 

Az internet gyorsan felejt

A közvélekedés szerint az internet nem felejt – ám ennek pont az ellenkezője az igaz, véli Horváth Iván irodalomtörténész, az ELTE tanára. „Az internet valójában telefonközpont: adatok továbbítására találták ki, nem adatok megőrzésére, ezért adattárolásra nem is alkalmas. Azokat a szövegeket, amelyeket az utókorra akarunk hagyományozni, minél több példányban kell előállítani – ez egy több ezer éves törvény, és ezzel a digitalizáció sem tud szembemenni. Az interneten mindenből van egy-két példány a szervereken, arról egy-két biztonsági mentés, esetleg néhány ezer letöltött részlet a felhasználóknál – ez semmi. A Google is csak néhány tucat szerverparkon tárolja az adatokat, ezek pedig biztosan el fognak pusztulni. Nagyobb távlatból nézve, ami csak online van, az nincs, a nagy számban letöbbszörözött offline adatok sokkal nagyobb biztonságban vannak. Minél kevesebb energiaráfordítással lehet egy adatot elpusztítani, annál több példányra van belőle szükség, hogy fennmaradjon. Egy könyvet nem olyan egyszerű elégetni, egy fájl törléséhez viszont elenyésző erőfeszítés kell. Ezért a digitális tartalmakból sokkal több példányra van szükség ahhoz, hogy azokból valami fennmaradjon” – magyarázza Horváth.

A weboldalaknál törölni sem kell, elég egy be nem fizetett domainfenntartási díj, vagy egy kattintás, hogy a tartalom elérhetetlen legyen. Ezt tapasztalhattuk legutóbb a Népszabadság internetes archívumával (nol.hu) is. Ráadásul egy átlagos weblap élettartama száz nap, utána törlődik vagy a tartalma megváltozik (nem beszélve az állandóan változó hírportálokról), ezért a honlapokat folyamatosan menteni kellene. Ezzel próbálkozik az Internet Archive, amely 1996 óta bizonyos időközönként elmenti a weboldalakat. De rengeteg tartalom így is elvész, hiszen a mentés csak egy pillanatképet rögzít, a mögöttes adatbázisokat nem őrzik meg, és azt sem, hogy hogyan nézett ki pontosan egy oldal, amikor elkészült. „Magyarországon senki nem foglalkozik a netes tartalmak archiválásával, ami nagy probléma. A régi magyar oldalak csak az Internet Archive-on érhetők el, már amelyik” – magyarázza Szakadát. Ezekből okulva az Országos Széchényi Könyvtár mostanában fog belekezdeni egy magyar webtartalom-archiváló rendszer felépítésébe.

 

Olvasni is, érteni is

Ráadásul pusztán a fájlok megőrzése nem is elegendő – az is kérdés, hogyan tudjuk a jövőben értelmezni megőrzött bitjeinket. A szoftverek folyamatosan frissülnek, s már évtizedes távlatban is szembesülhetünk azzal, hogy régebbi dokumentumainkat az adott program újabb verziója sem képes kezelni. Megoldás lehet, ha a folyamatos mentés mellett a fájlokat „migráljuk”, azaz mindig frissítjük az éppen aktuális formátumra. Ez viszont időigényes és drága folyamat, így meg kell gondolni, melyik tartalmat érdemes konvertálni. További gond, hogy e módszerrel a fájlok tartalmát ugyan megőrizzük, ám sok más olyan, az adott korra jellemző információ elvész, amely a jövőből nézve érdekes lehet: például tudományos méréseknél az adatok keletkezésének körülményeit is ismerni kell a pontos értelmezhetőséghez. Elvileg tehát e metaadatok mellett a teljes szoftveres-hardveres környezetet (program, operációs rendszer, számítógép) is meg kellene őrizni, melyben a fájlok keletkeztek. Minden program minden verzióját és az összes gépet viszont lehetetlen raktározni.

Működőképesebbnek tűnik, ha csak virtuálisan tesszük el a mai informatikai környezetet: Szakadát István szerint az emuláció lehet a jó megoldás. Ilyenkor nem az eredeti szoftvereket kell megőrizni, hanem a mai programoknak olyan verzióját megalkotni, amelyek futnak a jövő számítógépein is. E módszerrel a jövő történészei minden régi fájlt olvasni tudnának (nem csak azokat, melyeket még időben migráltak) – csakhogy az emulált programokat a jövőben lehet megalkotni, s így nem is tudjuk, milyen buktatói lehetnek a módszernek.

Az is gond lehet, hogy a ma használatban lévő programok nagy része nem ingyenes, így e forráskódok archiválása szerzői jogot sérthet. Ha pedig a programot kiadó vállalat új tulajdonoshoz kerül, az meg is tilthatja egy forráskód felhasználását. A legbiztosabb megoldás Szakadát szerint a sztenderdizáció lenne: nemzetközi összefogásban, minden fontosabb dokumentumtípusra egyfajta szabványt kellene kidolgozni, amit az összes program értelmezni tud – ezzel talán megszűnnének a kompatibilitási és jogi problémák is.

 

Mit akarunk megőrizni?

A digitalizáció kora előtt a tartalom-előállítás és -terjesztés költséges folyamat volt, amit a kiadók finanszíroztak. Ők saját érdekeiket szem előtt tartva komoly szűrőket alkalmaztak, amikor arról döntöttek, mi kerülhet a nagyközönség elé. „A digitalizációval nem csak a tartalom-előállítás- és elosztás költsége tűnt el, de a kulturális, minőségi és sokszor a politikai szűrők is megszűntek. Ma bárki bármit megjelentethet, ennek az eredménye pedig az, hogy óriási mennyiségű tartalom zúdul a nyakunkba, bármiféle minőségi szűrés nélkül” – magyarázza Szakadát. Az óriási adatmennyiség ellenére Vincent Cerf szerint mi nem dönthetünk arról, hogy a jövőben mi számít majd fontosnak. Kedvenc példája szerint amikor 1973-ban Robert Kahnnal kidolgozták az összekapcsolt hálózatok alapjait – az internet működési elvét –, egy papírtömbre jegyzeteltek. Ám miután a titkárnő legépelte a jegyzeteket, az utasításukra kidobta az eredeti kéziratokat – ezek ma értékes történelmi emlékek lennének. Szakadát szerint azonban nem kell mindent megőrizni. „Az aktuális kor ítélete mindig benne van abban, hogy mit őriz meg. Lehet, hogy a száz évvel ezelőtti legjobb zeneművek elvesztek, de ez nem túl valószínű. Ki kell dolgozni valamiféle minőségbiztosítási rendszert arra, hogy mit érdemes archiválni.” Horváth Iván ennél jóval szigorúbb, szerinte csak a kulturális örökségbe tartozó adatokat kell megőrizni. „A sok ezer középkori nyílhegyből is kevés van kiállítva, a többit csak nyilvántartják. Annak a mértékében kell megőriznünk a digitális adatainkat, amilyen mértékben feldolgoztuk a múltat.” A természettudományos kísérleti adatokból is csak annyit kell megőrizni, amennyit a témával foglalkozó tudósok relevánsnak tartanak, hiszen „a meg nem született felfedezések nem részei a kulturális örökségnek”.

De honnan tudjuk, hogy később mi lesz a kulturális örökség része? Horváth szerint egyfajta „nevezési díjat” kell szedni a kulturális örökségbe szánt digitális tartalom előállítóitól, azaz meg kell követelni az automatikus frissítést lehetővé tevő könyvtári és múzeumi szabványok betartását. Ha pedig csak a kulturális örökségre fókuszálunk, az egész adattárolási és megőrzési probléma megoldottnak tekinthető. Hosszú távon csak a tartalmat kell megőrizni, annak formája, és hogy miként juthat el az emberekhez, lényegtelen. Horváth a kétezres évek elején megbecsülte, hogy a világon nagyjából 70 kultúra van, és egy-egy kultúra teljes öröksége átlagosan néhány száz petabájton elférne (1 petabájt = egymillió gigabájt). A technika fejlődése pedig már a húszas években lehetővé teszi, hogy mindenki megkapja teljes saját kulturális örökségét egy akkora eszközön, ami elfér a zsebében. „A kulturális örökség gépet kereskedelmi forgalomban árulnák, vagy minden diák megkapná és azon keresztül oktatnának. A nagy példányszám miatt adatvesztéssel nem kell számolni, és ahogy fejlődik a technika, úgy fejlesztenék ezeket a gépeket is” – vázolja vízióját Horváth.

 

Nekünk is fejlődni kell

Az adatmegőrzésről rengeteg olyan kérdés is felmerül, amelyre még elméleti szinten sincsen jó válasz. Míg az archiválásnál a cégek és a magánszemélyek az adatok minél erősebb védelmében érdekeltek, addig a történészek minél könnyebben szeretnének hozzájuk férni. Így az archiválás során a sok egyéb adat mellett azt is rögzíteni kéne, ki és mikor férhet hozzá az adott fájlhoz. A kutatóknak fontos forrás a jelentős személyek magánlevelezése – de miként fognak betekinteni a jövő történészei a mai művészek, politikusok e-mailjeibe? Ráadásul a digitális adatok maradandó nyom nélkül is könnyen manipulálhatók, és ennek kivédésére sincsen még jó válasza a tudománynak.

Az archiválásnak is lehetőleg szabvány szerint kell majd működnie, és a majdani nagy digitális archívumoknak közös rendszert kell alkotniuk, hogy értelmezni tudják egymás adatait; és ha minél több, fizikailag elkülönülő helyen lesznek, annál jobb. Az archiválás és az archívumok fenntartása komoly feladat, s ennek nem csupán technológiai, de intézményi és üzleti modelljét is ki kell dolgozni; pusztán kereskedelmi alapon nem lehet megvalósítani, hiszen a haszon száz vagy ezer év múlva keletkezik, ha egyáltalán. A megoldás valószínűleg egy kevert modell lesz, hiszen az internetnek sincs üzleti modellje, mégis működik. Noha az archiválást nagyban megnehezíti a digitális média dinamikus jellege, az a legnagyobb akadály, hogy az emberek nincsenek tudatában e problémáknak. Ahogy Horváth fogalmaz: „Manapság minden a jelenben történik, az emberek pedig azt hiszik, hogy örökké az lesz, ami most van.”

DNS, kristály, felhő – az új adatraktárak

A DNS-alapú adattárolás lehetősége évtizedek óta foglalkoztatja a tudósokat, hiszen egy DNS-ben nagyon sok adat elfér egészen apró helyen, és az őslénykutatóktól azt is tudjuk, hogy ezek az információk igen sokáig megmaradnak. Először 2012-ben sikerült kutatóknak mesterséges DNS-szekvenciákba adatot elmenteni, és onnan vissza is olvasni azokat. Egy cm3 DNS-be 1250 petabájt (1,25 milliárd gigabájt) adat fér el, azaz nagyjából egy kilogramm ilyen adattárolóban elférne az emberiség teljes tudása, az összes csillagászati fotóval és valamennyi YouTube-videóval együtt. Az adattároló élettartamát azzal is megnövelték, hogy egyfajta üvegbevonatot tettek rá, így –18 °C-on tárolva egymillió évig, 20 °C-on pedig kétezer évig sértetlen marad. Az eljárás egyelőre nagyon drága, az információ fel- és letöltése nagyon lassú, így aligha lesz egyhamar DNS-alapú pendrive-unk. A módszer arra viszont alkalmas lesz, hogy nagy mennyiségű tudományos adatot hosszú távon megőrizzünk vele.

Közelebb áll a kereskedelmi forgalmazáshoz az ún. 5D kristály, mely megjelenésében nagyon hasonlíthat majd a ma megszokott optikai (CD, DVD) lemezekhez. A Southamptoni Egyetem kutatói rendkívül rövid és erős fénynyalábokat kibocsátó lézerrel rögzítik az adatokat olvasztott kvarckristályra; az adatokat a kristályban önmaguktól összeálló nanostruktúrák tárolják. Egy ilyen lemezen akár 360 terabájt (360 ezer gigabájt) információt is lehet tárolni (jelenleg egy dupla rétegű Blu-ray lemezre 50 gigabájt adat fér el). A kutatók szerint szobahőmérsékleten soha, 190 °C-on tárolva pedig 13,8 milliárd év alatt veszíti el a rajta tárolt adatokat, fizikai sérülést csak 1000 °C felett szenved a csodakristály.

A felhőalapú szolgáltatások lényege, hogy ezeket nem a felhasználó gépén, hanem a szolgáltató eszközein végzik, az adatokat a felhasználók hálózaton keresztül érhetik el. A legegyszerűbb a felhőalapú tárhelyszolgáltatás (például a Dropbox): saját adatainkat a szolgáltató szerverein tároljuk, azokat pedig jellemzően az interneten keresztül érjük el. De programokat is futtathatunk a felhőben (ilyen például a Google Docs), ekkor az alkalmazást egy böngészőn keresztül tudjuk elérni, de ma már szinte minden IT-szolgáltatás elérhető (legalább részben) a felhőn keresztül. A felhőszolgáltatók profi IT-cégek, ami biztosíték arra, hogy adatainkat karbantartják, biztonsági mentést készítenek róluk, megfelelő védelemmel látják el, és a hardveres-szoftveres környezetet is folyamatosan frissítik.

Figyelmébe ajánljuk