A magyar nyelv nagyszótára

Az örökkévalóságnak készül

Tudomány

Hosszú az út az el-től az elzüllik-ig, a kettő között több mint 1100 oldal, 1771 szócikk, 9162 jelentésegység és 35 536 példamondat. Elkészült A magyar nyelv nagyszótárának hetedik kötete, mi pedig bepillantottunk a kulisszák mögé.

A magyar nyelvtudomány egyik legrégebbi és legnagyobb projektje közel 200 év után jutott el az e-vel és é-vel kezdődő szavakig.

Először 1831-ben az MTA elődjének számító Magyar Tudós Társaság vetette fel, hogy szükség lenne a nyelvünk teljes leírását magába foglaló értelmező szótárra. A nagyszótári teljességet azonban az akkori próbálkozások nem érték el. Készült tájnyelvi, etimológiai, értelmező és kéziszótár is, de egyik sem helyettesíthette azt a munkát, amelybe 1985-ben kezdtek az MTA Nyelvtudományi Intézetének munkatársai.

Alkotói A magyar nyelv nagyszótárát olyan egynyelvű, értelmező szótárként definiálták, amely betűrendben, szócikkekben fejti ki a magyar szókészlet nyelvi elemeinek jelenté­seit, történeti távlatban mutatja meg a szavak előfordulását, minden feldolgozott jelentést példamondattal adatol, tartalmazza a szavak grammatikai, nyelvtani, ragozásbeli és nyelvhasználatbeli jellemzőit. A ma már online (nagyszotar.nytud.hu) is bárki számára ingyenesen elérhető Nagyszótár az 1772 és 2010 közötti időszakból gyűjti össze az írott nyelv szavait, a több százezer címszó adatait a lehető legtöbb nyelvi rétegből – a szépirodalomtól kezdve a köznyelven keresztül a legkülönfélébb szaknyelvekig vagy éppen a szlengig – válogatja.

Heroikus munka

„Az intenzív szótári munkához három dolog nélkülözhetetlen: a nyelvi anyag, amiből dolgozni lehet, a szerkesztési elvek kidolgozottsága, és hogy legyen, aki elkészíti a szótárt” – foglalja össze a vállalkozás lényegét Ittzés Nóra, a Nagyszótár főszerkesztője.

false

 

Fotó: flickr.com

 

Ahogy mondja, nem lehet csupán a nyelvi kompetencia vagy más szótárak alapján dolgozni, ezért elsőként a Nagyszótár alapját képező korpuszt kellett létrehozni: a Magyar történeti szövegtár (MTSZ), ez a 30 millió szövegszavas adatbázis szemelvényeket tartalmaz a nyomtatásban megjelent szépirodalmi szövegekből, köz­életi és magánjellegű írásokból, tudományos, vallási, publicisztikai művekből, arányosan lefedve a legtöbb nyelvi réteget. Ez kiegészül egy CD-ken hozzáférhető szöveggyűjteménnyel, és emellett használják a ma még digitalizálatlan, 5–6 milliós kéziratos cédulaállományt, amelyet az 1800-as évek végétől 1960-ig gyűjtöttek.

Az Ittzés Nóra által készített szerkesztési szabályzat szavatolja a rendszerezettséget és a következetességet: pontosan előírja a szócikkek felépítését, illetve azt, hogy a szavak szófaji, alaktani minősítését a szerkesztők a grammatika mely eredményeire alapozzák, és így tovább. Egyértelmű, hogy a nyelv összes létező szava nem kerülhet be a Nagyszótárba, tehát az is kérdés, melyik szót nyilvánítják a készítők szótárérdemesnek.

A cédulaállomány 500–600 ezer címszót, a MTSZ közel 170 ezret tartalmaz: ekkora szótár készítése túl nagy időt venne igénybe. A tervek szerint a munka végén 115 ezer címszó kerül be több mint 20 kötetbe. A válogatás elvi szempontjait már a kezdetekkor meghatározták a szabályzatban: például nem kerülnek be a tulajdonnevek, a betűszók; de ott a helyük az ún. értelmezett szókapcsolatoknak.

„Ahol etimológiai probléma merül föl, vagy hangalaki változatok léteznek, ott el kell dönteni, melyek kerülhetnek egy címszóba. Például a fel és a föl nem lesz két önálló címszó. De az agy szóból kettő is lett, mert a történeti adatokból kiderült, hogy a puska agya nem az agy szóból ered, hanem a fegyver ágyazatát jelentette” – magyarázza a főszerkesztő. Fontos az is, hogy nincsenek tabuk: meglepő, de bizonyos korszakokban szokás volt a trágár szavakat kihagyni a szótárakból. „Már a b betűnél előjött ez a kérdés: klasszikus példa az ősi török eredetű baszik szó, amelynek trágár használata ráadásul nagyon korai. Minősíthetem a stílusértékét, de egy tudományos igényű szótárból nem hagyhatom ki. Mert nem előírni akarjuk, hogyan beszéljenek az emberek, hanem leírni” – teszi hozzá Ittzés Nóra.

A magyar nyelv nagyszótárát jelenleg 21 lexikográfus, szócikkíró, szótárszerkesztő készíti egy informatikus és egy filológus, illetve szak- és nyelvi lektorok segítségével. A csapatban sok a pályakezdő kutató, többen részfoglalkozásúként dolgoznak az intézetben, ők általában itt találkoznak először a lexikográfiával, mert ilyesfajta képzés nincs az egyetemeken.

A kötetek egyre gyorsuló ütemben követik egymást, jelenleg a munka 20–25 százalékánál tartanak; elkészülési idejük a változatos szóarányok miatt nem egyenletes. Míg például az a vagy a c betűs szavak belefértek egy kötetbe, addig az e-hez hasonlóan az f betű is legalább két kötetet tesz majd ki a sok igekötős szó miatt, és azt is tudni lehet, hogy a magyarban a k betűs szavakból van a legtöbb.

A lexikográfus élete

„Nem egymástól független címszavakat kapunk, hanem ún. szócsaládokat, tehát valamennyi azonos tővel rendelkező szó ugyanahhoz a szócikkíróhoz kerül: most például nemcsak a felhajt igét kell megírnom, hanem a felhajtás, felhajtó, de még a felhajtóerő, felhajtósáv stb. szócikkeket is” – meséli Ballagó Júlia, aki az ELTE mester szakos nyelvészhallgatójaként félállásban dolgozik a szótárkészítő csapatban.

„Ezután következik a gondos kutatómunka: a szó jelentéseinek feltérképezése a korpuszunk alapján. Ilyenkor gyakran több ezer, sokszor akár tízezer fölötti szóelőfordulás alapján kell megállapítani, hogy milyen elkülönülő jelenté­sei, jelentésárnyalatai vannak az adott szónak” – mondja. Utóbbit tartja a legnehezebb feladatnak, a legizgalmasabbnak pedig, hogy ezekből aztán kialakítsa az adott szó jelentésstruktúráját: „Azután az egyes jelentések szemléltetésére kiválogatjuk a példamondatokat.”

Ez azonban nem jelenti a munka végét: következik a többfordulós szerkesztés, konzultáció, lektorálás, illetve morfológiai kódolás; ennek a folyamatnak a vége a publikálható szócikk. A specifikus szóösszetételek gyorsabban, akár fél nap alatt elkészülhetnek, de egy gyakori, többjelentésű, több szófajú szóval hetekig, hónapokig eltarthat a munka. Ballagó Júlia szerint a legnehezebb a rengeteg adat közötti eligazodás, és az, hogy a szükségszerű válogatásban egyetlen jelentés se vesszen el; másrészről pedig egy-egy korai adat pontos lelőhelyének a meghatározása tud komoly fejtörést okozni. „Ráadásul egy-egy szócikk megírása is különleges hatással lehet a szótárkészítőre. A fásult és a fásultság címszavak írásakor például egy idő után nagyon kedvetlen lettem, mire rájöttem, hogy valószínűleg a sok fásultságról szóló szöveg olvasása volt az oka. De szerencsére ez a hatás a pozitív jelentéstartalmú szavaknál is működik” – teszi hozzá a nyelvészhallgató.

„A szótár az egyik legnehezebb műfaj, mert nagyon sok kitartást és aprómunkát igényel, miközben nem produkál látványos eredményeket. De a végeredmény hatalmas tudományos teljesítmény, amelyre a későbbiekben mindenki építhet: a szókészlet leírásának olyan gazdagsága lelhető fel a Nagyszótárban, amely máshol nem. A belefektetett munkát viszont nagyon hosszú távon kell finanszírozni. Az utóbbi néhány évtizedben, amióta a tényleges szótárírás elkezdődött, a Magyar Tudományos Akadémia nagyon támogatóan áll a Nagyszótár mellett, de nyilván az Akadémia finanszírozását is külső tényezők határozzák meg, manapság ezt különösen érzékeljük” – magyarázza a főszerkesztő.

Ittzés Nóra úgy gondolja, ha az Akadémia függetlenségéhez akár csak egyetlenegy ponton hozzányúl valaki, a tudomány függetlensége sérül. A napi munkában ezt még nem érzik, de nem lehet tudni, feloldják-e a dologi kiadások zárolását, ha március végén megtörténik az átvilágítás. Túl azon, hogy fűteni, világítani, a számítógépeket működtetni kell, bizonyos munkafázisokban külső szaklektorokat is muszáj alkalmazni, az ő, egyébként aprópénznek számító honoráriumuk is bizonytalanná válhat.

„Ha tényleg a látványos, közvetlen gazdasági hasznot hozó újítás értelmében használt innováció az egyetlen bűvszó, és ha tényleg mindent csak rövid távú pályázatokkal lehet finanszírozni, akkor felmerül a kérdés, miként lehet működtetni egy ilyen munkacsoportot. Biztos, hogy egy ilyen típusú vállalkozás mögé oda kell állnia egyfajta állami eltökéltségnek, ha tetszik, nemzeti érzületnek, mert itt nem a gazdasági hasznot kell nézni, hanem azt, hogy csak ilyen módon tudjuk megőrizni és hozzáférhetővé tenni értékeinket. A szótárkészítés hosszú távú munka, sok pénzt igényel, és valakinek el kell döntenie, tudja-e, akarja-e finanszírozni. Ha az állam ezt nem akarja, akkor torzóban fog maradni, mint egyébként jó néhány szótár, ha viszont támogatja, egyedül­álló kulturális érték létrehozásában vállalhat szerepet” – mutat rá Ittzés Nóra.

XML

Míg a Nagyszótár terve két évszázados, az alapjául szolgáló technika korántsem az. Ahogy Prószéky Gábor, a Nyelvtudományi Intézet igazgatója és Merényi Csaba, a projekt informatikusa is elmondja, már a 80-as évektől kezdve a legmodernebb technikával igyekeztek az anyaghoz nyúlni, és ma is követik a nemzetközi szótárkészítés trendjeit. „Az XML a kezdetekkor úttörő technológiának számított, a készítők már akkor ráéreztek, hogy erre szükség lesz: így kezdték el írni a szócikkeket és a korpuszunkat is” – magyarázza az informatikus. Ezt a szöveget tagekkel strukturáló rögzítési rendszert egy ún. natív XML-adatbázissal párosítják, amely egyebek mellett lehetővé teszi, hogy ne csak klasszikus, papíralapú szótárként, hanem 2017 óta interneten elérhető adatbázisként is bárki használhassa a Nagyszótárt, ahol többféle elrendezésben, jól elkülönített jelentésblokkokban, lenyitható példamondattárral nézhetjük meg a minket érdeklő szavakat. Merényi Csaba szerint az XML az informatikában alaptechnológiává vált, tehát hosszú távon is fenntartható lesz az adatbázis. Pláne, ha március után is lesz villany az intézetben.

A 7. kötettel egyidejűleg elkészült a Nagyszótár forrásadatbázisa, amely kitartó filológiai munka eredményeként a pontos bibliográfiai adatokat köti össze a szócikkekkel. A jövőben szeretnék adatbázisszinten is egységben kezelni a forrásokat és a szótárt, létrehoznak egy integrált szótárszerkesztői rendszert, amelyben a lexikográfusok közvetlenül dolgozhatnak a szócikkeken. Prószéky Gábor pedig azt mondja, hogy a mesterséges intelligencián alapuló informatikai megoldásoktól is segítséget remélnek, méghozzá abban, hogy a pincében, dobozokban felhalmozott sokmilliós cédulaállományt valamiképpen kereshető, kezelhető digitális adatmennyiséggé alakíthassák, ezzel is felgyorsítva és megkönnyítve a következő kötetekhez vezető munkát.

Figyelmébe ajánljuk