Vándorol a híradóarchívum: Alapos előkészítés

  • Szabó M. István
  • 2007. szeptember 13.

Belpol

Az Országos Széchényi Könyvtár (OSZK) videoarchívumának rendszergazdája a sajtótájékoztató végén lenyomott egy gombot. Ezzel elindított egy olyan egyirányú adatfeltöltést, melynek eredményeként a Nemzeti AudioVizuális Archívumnál (NAVA) az ottani rendszerrel nem kompatibilis híradófolyam keletkezik.

Hanák Gábor az OSZK-ban működő videoarchiváló műhelyben mozgóképkincs-gyűjteményt kezel, s tavaly óta a BBC és a Szabad Európa Rádió magyar vonatkozású anyagainak is "gondnoka". Hatodik éve az öt országos tévécsatorna (m1, m2, Duna, RTL Klub és tv2) adásfolyamát is rögzítik, sőt a tévéadók számára kötelező, legalább 20 perc terjedelmű főműsoridős országos híradókat is feldolgozzák. 2001. január 1-jétől képpel, hanggal és a teljes leírt szöveggel archiváltak több mint 12 500, csaknem 5000 órányi műsort. A Történeti Interjúk Tárának címzetes igazgatója szerint a híradóarchívum mégsem archívumként működik. "Egy olyan kutatási alapanyagot készítünk, melyek tartalomelemzése egyedülálló, mert a keresővel pontosan visszaidézhető az illető fogalom vagy személy megszólalása és képe" - mondta Hanák Gábor.

A keresőprogramot egy évtizede fejlesztik és tökéletesítik, a híradókat viszont a kezdetek óta szóról szóra legépelik - túl vannak már negyedmilliárd leütésen. Ez azonban még mindig kevesebb embert/energiát kíván, mint a legpontosabb hangfelismerő programokkal a szövegek lektorálása és ellenőrzése.

Az OSZK-ban működő archiválást lényegében az ORTT finanszírozza, mivel a könyvtár a maga költségvetésébe képtelen ezt bepréselni. Az átlagosan 30 millió forintos éves büdzsé túlnyomó részét maga a feldolgozás viszi el (vagyis a begépelés és a textúrák programba illesztése; 25 ember dolgozik a projektben), legfeljebb 8-10 millió forint jut a hardverek bővítésére és fejlesztésre. Az ORTT-támogatás kikötése az volt, hogy a dotáció a NAVA létrejöttéig tarthat. A NAVA tavaly januárban - 700 millió forintból - beindult ugyan, ám Hanákék az idei évre is kaptak ORTT-pénzt, mi több, megvan már a jövő évi finanszírozásra szóló pályázatuk is. Ennek oka vélhetőleg az, hogy az ORTT - amely Hanákéktól minden hónap 15-ig megkapja az előző hónap teljes, feldolgozott anyagát - a NAVA-énál jobban tudja használni a már megszokott keresőt. Az új intézmény ugyanis a híradókat nem szó szerint szkripteli, hanem blokkokra vágja, s kulcsszavas, tartalmi megjegyzéseket illeszt hozzájuk. Igaz, a NAVA nemcsak a híradókat, hanem a teljes adásfolyamot feldolgozza.

Ma már többen, többféle módon próbálnak kezelhető adatbányákat összeállítani, viszont a könyvtáré éppen azért egyre értékesebb, mert Hanákék mindenkinél hamarabb kezdték e munkát. Az állandósult pénzszűke miatt azonban az említett öt adóén kívül például az Echo, az ATV, a HírTV híradóinak hasonló mélységű feldolgozása lehetetlenség. Maga az archívum az OSZK-ban ugyan eddig is használható volt (könyvtári olvasójegy ellenében és némi időpont-egyeztetés után), a benne rejlő lehetőségeket a kutatók sem nagyon ismerték fel - mivel nem is nagyon tudtak róla. A könyvtárnak nincsenek gyors és nagy tárolókapacitású gépei, amikkel az interneten elérhetővé vált volna e tartalom, vagyis saját bázisfeladatait sem sikerült maradéktalanul teljesítenie. A NAVA-hoz feltöltött tartalom talán épp ezen segíthet, és felhasználói szempontból ennek még akkor is örülni kell, ha a NAVA rendszerébe az OSZK adatbázisa szervesen nem illeszthető be, mivel a keresők és a feldolgozási metódusok a két intézményben átjárhatatlanul különbözőek - vagyis a könyvtári anyagot változatlanul zárt egységként érdemes kezelni.

Két évvel ezelőtt a NAVA-OSZK híradóarchívum-ügye a beolvasztás akkori elmaradásával lezártnak tűnt. A "Hanák-híradóarchívum" átadása tavaly ősszel mégis faktum lett. Információink szerint a most érvénybe lépett megállapodásnak az a magyarázata, hogy a könyvtár főigazgatója, Monok István erősen hitte: egy akkor beolvasztásra váró kht. - akár a híradóarchívumért cserébe is - hozzájuk kerül. Ebből végül semmi nem lett, az archívum viszont átvándorol. Az adatbázis-áttöltés végső határidejét szeptember 30-ban határozták meg: s mivel ekkora adatmennyiséget két hét alatt tudnak az új rendszerbe feltölteni, elmondható, hogy a gombnyomási aktussal Hanákék az utolsó pillanatig kivártak.

Gyakorlatiasság

Az USA-ban a nyolcvanas-kilencvenes évek nagy amerikai hírműsorait az alapján elemezték, hogy mennyi időt kap bennük egy-egy megkérdezett. Míg a nyolcvanas évek elején egy megszólalóra 40 másodperc jutott, másfél évtized múltán ez 10 másodpercre csökkent. E vizsgálat nyomán az OSZK archívumából a médiakutatók kiválasztottak 2001-ből és 2007-ből egy-egy teljes hetet mintának (más forrásból volt ilyen adatuk 1992-93-ra is). Azt találták, hogy míg a kilencvenes évek elején közel 20 másdodpercig beszélt egy-egy megszólaló, 2001-re ez lement 16-ig, majd évi 1 másodperces csökkenéssel idénre mi is elértük a 10-es határt.

A program keresőjével néhány percig mi is eljátszadoztunk, íme az eredmény: 2001 óta a közszolgálati híradókban (m1, Duna) 1843 alkalommal hangzott el a Románia szó, míg ugyanez a szám a kereskedelmieknél (RTL Klub, tv2) mindössze 341. E számpárok a gyilkosság, illetve a tragédia szó esetén viszont a 1013:1904, illetve az 546:909 eredményt hozták.

Neked ajánljuk