A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:

Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is –   duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)

A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.

A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél). 

Nyelvváltozat

Szavak száma

szlovákiai magyar

1291

szerbiai magyar

619

horvátországi magyar

536

szlovéniai magyar

443

romániai magyar

408

ausztriai magyar

336

ukrajnai magyar

315

A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:

Nyelvváltozat

Szavak száma

romániai magyar

4781

szlovákiai magyar

1224

szerbiai magyar

439

ukrajnai magyar

152

szlovéniai magyar

86

ausztriai magyar

49

horvátországi magyar

0

Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).

A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.

A válogatás közben mindvégig szem előtt kell tartani, hogy a szövegszerkesztőt használók legnagyobb része magyarországi magyar beszélő, illetve hogy az elemzőt – írott szövegek elemzése miatt – magasabb fokú normavitással rendelkező nyelvváltozatok (szövegek) elemzésére tervezték (nem pedig nyelvjárási vagy regionális köznyelvi szövegekre). Ebből az következik, hogy a felgyűjtött szavaknak túl kell mutatniuk a regionalitáson (legideálisabb esetben olyan szó kell, hogy legyen, amelyet az egész határon túli magyar beszélőközösség használja) és – legalább az állami változatok szintjén – normatívnak kell lenniük. Ezeknek a követelményeknek leginkább a tulajdonnevek, illetve a közvetett kölcsönszavak (idegen nyelvből átvett idegen szavak: cujka, zmizik stb.) felelnek meg. Az utóbbiaknak nagy szerepük van az összetett szavak elemzésében, mivel csak azt az összetett szót fogadja el jónak a program, amelyet vagy tartalmaz a szótár vagy össze tudja rakni már meglévő elemekből (így csökkenthető a felveendő szavak száma). Jelenleg a következő típusú szavak gyűjtése van folyamatban: 

  1. aa) földrajzi nevek
  2. ab) személynevek – vezetéknevek
  3. ac) személynevek – keresztnevek
  4. ad) közvetlen kölcsönszavak
  5. ae) magyar eredetű közvetett kölcsönszavak

        A helyesírás-ellenőrző piaci termék, fő célja a használó teljes körű kiszolgálása. Ez a célorientáltság a helyesírás-ellenőrzőbe szánt szavak gyűjtésére is hatással van. A helyesírás-ellenőrző célja segíteni a magyar helyesírásban kevésbé jártas nyelvhasználókat: ez többek között azzal jár, hogy a helyesírás-ellenőrző kötelezően „nem ismer” olyan, egyébként helyesen írt szavakat, amelyek egybeesnek valamilyen gyakori helyesírási hibával (pl. tanit~tanít esetében a tanit szót – bár grammatikailag helyes – hibásnak minősíti, mivel ez a tanít gyakori elütésének számít; ugyanez a helyzet a kör~kőr szópárral, ahol a kőr minősül hibának). A szavak kihagyásának egy másik oka a program sebességének növelése (pontosabban csökkenésének megakadályozása), ugyanis, ha minden lehetséges szót, illetve ahol szükséges, grammatikai magyarázatát felvennénk a program szótárába, gyengébb gépeknél az ellenőrzés már-már zavaróan hosszú időbe telne (a hosszú szövegek folyamatos ellenőrzése lassítaná az írást is) – ami ellentétes a helyesírás-ellenőrző alaptulajdonságával.

            Más a helyzet a korpuszelemző esetében. A morfoszintaktikai elemzésekre szolgáló program használatakor a sebesség nem olyan lényeges, mint a helyesírás-ellenőrző esetében. A több (száz) millió szavas korpuszok morfoszintaktikai elemzése eleve több órát esetleg napot vesz igénybe, így itt a sebesség másként értelmeződik. Ez esetben minden plusz információt bele lehet a programba tenni, mivel az elemzést nem másodpercek vagy azok töredéke alatt kell véghezvinni.

Az összegyűjtött anyag előkódolása

            A gondosan megfogalmazott követelmények szerinti gyűjtés utáni következő lépés a kész szólisták kódolása, mely során a szavakat morfológiai tulajdonságaikkal, valamint előfordulásának területi megjelölésével látjuk el. Így később minden szó területi hovatartozása egyértelműsíthető lesz, és a morfológiai kódok alapján a szavak az elemzőbe is beépíthetőek lesznek. A kódolást egy szlovákiai településnéven, Dunaszerdahelyen mutatom be:

Duna+szerda+hely[FN|pse];nyv:fv;rp; – jelölni kell az összetételi határt (a + jel jelöli), mivel a szó végi toldalékoláskor módosulhat a szótest (a szó elejére kerülő elemek esetében természetesen nem), az elem szófaját (FN, azaz főnév), a szófajon belül milyen szemantikai altípusba tartozik (pse, azaz helynév), melyik állami változat eleme (nyv:fv, azaz felvidéki nyelvváltozat), szótő-e vagy toldalék (rp, azaz jobbra bővülő, tehát szótő), illetve főnevek esetében az egyes szám harmadik szeméjű alakját is (a példában nincs semmi, mivel palatális mássalhangzók esetében a toldalék –A, azaz Dunaszerdahelye); minden szó esetében jelölni kell a melléknév essivusi alakját is –   duna+szerda+hely@i[MN|pse];nyv:fv;rp:Ess_Ul; – (ESS_Ul, azaz dunaszerdahelyiül)

A munka első fázisában a helyneveket és az egyéb földrajzi neveket (folyók, térségek stb. nevei) gyűjtjük össze, s a gyűjtés, illetve kódolás tapasztalataiból kiindulva folytatjuk majd a személynevekkel és a köznevekkel (jelenleg hét régióból a köznevek és a helynevek vannak összegyűjtve és lekódolva.

A ht-lista elemeiből elkészített gyűjtemény 2658 szót tartalmaz. Mivel régiónként sok esetben átfedések vannak, ezért a ht-listából gyűjtött szavak száma nem egyezik meg az egyes listák szavainak összegével. Az egyes államnyelvi változatokból összegyűjtött szavak aránya nem feltétlenül jelenti azt, hogy az egyes beszélőközösségek a táblázat arányaihoz viszonyítottan puristábbak a többieknél, mivel a gyűjtés egyetlen feltétele volt, hogy a felvett szavakat ilyen-olyan mértékben az egész beszélőközösség használja (így például a táblázat alapján nem mondható, hogy az ukrajnai magyarok beszélőközössége puristább a szlovákiai magyarok beszélőközösségénél). 

Nyelvváltozat Szavak száma
szlovákiai magyar 1291
szerbiai magyar 619
horvátországi magyar 536
szlovéniai magyar 443
romániai magyar 408
ausztriai magyar 336
ukrajnai magyar 315

A különféle szempontok alapján (ezek felsorolásától itt eltekintek) összegyűjtött magyar helységnevek statisztikája a következő:

Nyelvváltozat Szavak száma
romániai magyar 4781
szlovákiai magyar 1224
szerbiai magyar 439
ukrajnai magyar 152
szlovéniai magyar 86
ausztriai magyar 49
horvátországi magyar 0

Az egyes régiók helyneveinek száma és az ott élő magyarság között itt sem lehet messzemenő következtetéseket levonni, bár az arányok itt valóban tükrözik a valóságot (Horvátország esetében azért szerepel 0, mivel ebből a kutatópontból nem érkeztek adatok).

A kész szólisták felhasználását érintően még nem született megállapodás. Kérdés, hogy a határon túli lexikon milyen formában kapcsolódjon a központi szótárhoz: külön modulként, vagy a központi szótár szerves részeként. Ennek eldöntése azonban technikai (és piaci) kérdés, eldöntése teljes mértékben a MorphoLogic Kft.-t érinti.

A Termini Kutatóhálózat végzi a MorphoLogic Kft. által gyártott magyar nyelvű helyesírás-ellenőrző és nyelvhelyesség-ellenőrző (a továbbiakban csak helyesírás-ellenőrző) programcsomag határon túli magyar anyagának összeállítását (gyűjtés és kódolás). Ez a program a Microsoft Office termékcsomagban használatos Windows Word, illetve Quark XPress helyesírás-ellenőrzőjeként ismeretes. A program fő célja, hogy jelezze a szövegben előforduló elütéseket és hibás szavakat. A termék felhasználhatósága azonban ezen túlmutat, hiszen rendelkezik egy, a nagyközönség által kevésbé ismert funkcióval is: a nyelvhelyesség-ellenőrzés alapja egy magyar nyelvre alkalmazott morfológiai generáló–elemző motor (HUMOR), amely számítógépen tárolt korpuszok nyelvi elemzésére is alkalmazható (a HUMOR elemzi a Kárpát-medencei magyar nyelvi korpuszt is). Mivel ezeket a műveleteket nem ember, hanem gép végzi, ezért „taníthatósága” eléggé korlátozott: csak meglévő nyelvtani szabályok és kész szótár alapján tud generálni, illetve elemezni. Ez azt jelenti, hogy csak azokat a szavakat fogadja el helyesnek, amelyek az ellenőrző szótárában megtalálhatók (vagy amelyeket a morfológiai elemzőprogram az általa ismert nyelvtani szabályok alapján generál): ez lehet vagy az alapcsomag szótára, vagy a felhasználó által összeállított ún. sajátszótár. Az alapcsomag szótárát a MorphoLogic Kft. állítja össze, így ezt minden általuk terjesztett helyesírás-ellenőrző tartalmazza – ez akár több millió felhasználót is jelenthet, ha figyelembe vesszük a számítógépen magyar nyelven írók számát. A leírtakból következik, hogy feltehetően ma ez a magyar nyelvű szótárakat használó között ez a leggyakrabban használt szótár (bár a felhasználók valószínűleg nem tudnak erről). Az alapszótár csak Magyarországon készített szótárakból áll, így érthető, hogy nem tartalmaz anyagot a magyar nyelv határon túli változataiból (bár az elemző legújabb, még nem piacképes változata tartalmazza az Értelmező kéziszótár második kiadását és az Osiris Kiadó Helyesírását, amelyek – kis számban – tartalmaznak ilyen elemeket). Ez a szóanyag elégséges a Magyarországon kiadott, magyarországi standard nyelvváltozatban írott szövegekre, ám a magyar nyelv állami változatainak (valamint a magyarországi nyelvjárások) sajátos szókincsét nem ismerve a határon túli magyar nyelvváltozatok szövegeire teljes mértékben nem alkalmazható (ahogy nem alkalmazható a magyarországi nyelvjárási szövegekre sem – bár ez az igény eddig – tudomásom szerint – nem merült fel).

A szövegszerkesztőkbe épített helyesírás-ellenőrző aláhúzással jelzi, hogy a felhasználó „valószínűleg” hibás szót írt le, vagy egyéb nyelvhelyességi hibát vétett. A zöld hullámvonallal történő aláhúzás általában nyelvhelyességi vagy szövegszerkezeti hibát jelöl: pl. szóközök (felesleges  szóköz), mondathatár ellenőrzése (! ez egy új mondat.) vagy trágár kifejezések megjelölése (szar). Ez valójában érdektelen a magyar nyelv állami vagy határon túli változatainak megítélése szempontjából, hiszen a szövegszerkezeti sajátosságok és az elemző által kezelt stilisztikai apróságok minden magyar nyelvváltozatra egyformán érvényesek. A piros hullámvonallal történő aláhúzás a helyesírás-ellenőrző által nem ismert szavak megjelölését jelenti. Minden olyan szót aláhúz, amelyet sem az alapszótárban, sem a sajátszótárban nem talál meg. Mivel a határon túli magyar nyelvváltozatok nem részei a szótárnak, így a határon túli magyar nyelvváltozatok sajátos közneveit és a helységnevek túlnyomó többségét aláhúzza, azaz hibás szónak minősíti. Az már tudományos közhelynek számít, hogy a magyar nyelvközösség nyelvileg normatív beállítottságú, azaz a nyelvészektől, szótáraktól kapott információt általában mérlegelés nélkül elfogadja – mivel az úgyis szakemberektől származik. Ebben a folyamatban nagy szerepet játszik a helyesírás-ellenőrző is, hiszen egy ilyen széles körben használt termék (szótár) nem hibázhat. Tehát a nyelvhelyesség-ellenőrző minősít: a Magyarország határain kívüli magyar településnevek esetében gyakori, hogy a szótár nem ismeri a helységnevet, ezért hibának minősíti azt. Ez azonban régi és/vagy széles körben ismert magyar településnevek esetében kétszeresen is bántóan hathat, hiszen ilyenkor az elemző akaratlanul is a magyar nyelv olyan elemeit stigmatizálja, amelyek annak „teljes jogú” és gyakran használt részei, valamint a magyar kultúra alapelemei, pl. Huszt, Ilosva stb.

Azon kívül, hogy az alapszótár bővítése árnyaltabbá teszi a helyesírás-ellenőrző munkáját, teljes mértékben elemezhetővé teszi a Kárpát-medencei magyar nyelvi korpusz határon túli alkorpuszát is, amely a határon túli magyar nyelvváltozatok sajátos lexikai elemei miatt jelenleg csak részben elemezhető.

            A szótár bővítése az MTA Határon túli irodáinak munkatársaitól két munkafolyamatot követel meg:

  1. Az alapszótárba bekerülő szavak kiválasztása
  2. Az összegyűjtött anyag előkódolása

 

© 2018 Termini Egyesület. Minden jog fenntartva.